Skip to content
  • Prezzi

Estrai dati strutturati da qualsiasi documento

I progetti di ricerca e digitalizzazione hanno bisogno di piu del semplice testo leggibile — necessitano di dati strutturati. Nomi, date, luoghi, importi, relazioni. Transkribus combina il riconoscimento del testo con IA con l'estrazione di tabelle, i Field Models e il tag delle entita per trasformare documenti manoscritti e stampati in dataset strutturati pronti per analisi, database e fogli di calcolo.

3Metodi di estrazione
CSV + XMLFormati di esportazione
No codingNecessario
TabelleRighe, colonne, celle in fogli di calcolo
CampiEstrai campi nominati dai moduli
EntitaTagga persone, luoghi, date
AddestrabileModelli personalizzati per i tuoi layout

Tre modi per estrarre dati dai documenti

Diversi tipi di documenti richiedono diversi metodi di estrazione. Transkribus li offre tutti e tre — e possono essere combinati.

Riconoscimento tabelle su documento storico

Riconoscimento tabelle

Rileva righe, colonne e confini delle celle in documenti tabulari — registri parrocchiali, censimenti, ruoli fiscali, libri mastri. Ogni cella diventa un dato. Esporta l'intera tabella come foglio di calcolo o XML.

Estrazione campi da moduli strutturati

Estrazione campi

Addestra modelli per trovare ed estrarre campi specifici da documenti strutturati — date, nomi, numeri di riferimento, importi. Funziona con moduli, schede, certificati e qualsiasi documento con struttura ripetitiva.

Tag delle entita nel testo trascritto

Tag delle entita

Tagga persone, luoghi, date ed entita personalizzate nel testo corrente. I tag diventano metadati ricercabili. Esporta come TEI-XML o filtra le entita taggate come dati strutturati per il tuo database di ricerca.

Il riconoscimento tabelle in azione

Transkribus rileva la struttura a griglia dei registri tabulari ed estrae ogni cella in un foglio di calcolo strutturato — pronto per il tuo database, software genealogico o pipeline di ricerca.

Document with detected table structure
Dati tabella estratti
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

L'estrazione dei campi in azione

I Field Models rilevano ed estraggono campi dati specifici dai documenti — nomi, date, luoghi, riferimenti — con precisione e su larga scala. Addestra i modelli sui tuoi layout di moduli per ottenere i migliori risultati.

Document with detected fields
Campi estratti

Elaborazione intelligente dei documenti

Dalle immagini dei documenti ai database di ricerca

Il flusso di lavoro tipico: carica le scansioni dei documenti, avvia il riconoscimento del testo con IA per ottenere testo leggibile dalle macchine, poi applica il riconoscimento tabelle o l'estrazione campi per ottenere dati strutturati. Esporta come CSV per fogli di calcolo, come XML per database, o alimenta direttamente la tua pipeline NLP per il riconoscimento di entita nominate, topic modelling o analisi di rete.
Esporta tabelle e campi come CSV, Excel o XML strutturato
I tag delle entita si esportano come TEI-XML con coordinate collegate alle immagini originali
Accesso REST API per pipeline automatizzate di estrazione dati OCR
Elaborazione batch per grandi collezioni di documenti

Addestrabile

Addestra modelli di estrazione per il tuo specifico tipo di documento

Come i modelli di riconoscimento del testo, anche i modelli di estrazione tabelle e campi possono essere addestrati sui tuoi documenti specifici. Se i tuoi registri hanno un layout unico — un particolare tipo di registro parrocchiale, un formato di censimento regionale, un tipo di scheda — puoi addestrare un modello personalizzato che comprende quella struttura ed estrae i dati dai documenti manoscritti con elevata precisione.
Modelli di tabelle personalizzati per layout non standard e registri complessi
Field Models personalizzati per tipi specifici di moduli e schede
Senza programmazione — l'addestramento avviene nell'interfaccia visuale
I modelli migliorano man mano che aggiungi dati di addestramento
Condividi i modelli addestrati con il tuo team o la community

Casi d'uso

Cosa estraggono i ricercatori con Transkribus

Istituzioni e ricercatori di tutto il mondo utilizzano Transkribus per estrarre dati strutturati da documenti storici su larga scala. Dai database genealogici costruiti dai registri parrocchiali alla ricerca economica basata sui registri commerciali coloniali — gli stessi strumenti di estrazione alimentano centinaia di progetti di ricerca diversi.
Registri parrocchiali → nomi, date, relazioni per database genealogici
Censimenti → dati demografici per studi sulla popolazione
Ruoli fiscali e libri mastri → dati economici per l'analisi storica
Schede e cataloghi → metadati strutturati per i sistemi bibliotecari
Corrispondenza → persone e luoghi taggati per l'analisi di rete

Specialisti della scrittura a mano

L'unica piattaforma IDP costruita per la scrittura a mano

La maggior parte delle piattaforme di elaborazione intelligente dei documenti si concentra su moduli stampati moderni — fatture, ricevute, contratti. Transkribus e diverso: e stato costruito da zero per documenti manoscritti e storici. I nostri modelli IA gestiscono secoli di stili di scrittura, carta deteriorata, layout irregolari e scritture miste che mettono in difficolta gli strumenti OCR generici.
Oltre 500.000 utenti che elaborano documenti manoscritti
Oltre 300 modelli IA pubblici per la scrittura storica
Funziona in oltre 100 lingue e tutti i principali sistemi di scrittura
Ospitato nell'UE e conforme al GDPR — i tuoi documenti restano in Europa

Inizia a estrarre dati dai tuoi documenti

Crea un account gratuito. Carica le tue scansioni, avvia il riconoscimento del testo ed estrai dati strutturati — senza programmazione, senza competenze di ML.

300+Modelli IA pubblici
CSV + XMLFormati di esportazione
EU-hostedConforme al GDPR