Estrai dati strutturati da qualsiasi documento

I progetti di ricerca e digitalizzazione hanno bisogno di piu del semplice testo leggibile — necessitano di dati strutturati. Nomi, date, luoghi, importi, relazioni. Transkribus combina il riconoscimento del testo con IA con l'estrazione di tabelle, i Field Models e il tag delle entita per trasformare documenti manoscritti e stampati in dataset strutturati pronti per analisi, database e fogli di calcolo.

Inizia l'estrazione gratis Guardalo in azione

3Metodi di estrazione

CSV + XMLFormati di esportazione

No codingNecessario

TabelleRighe, colonne, celle in fogli di calcolo

CampiEstrai campi nominati dai moduli

EntitaTagga persone, luoghi, date

AddestrabileModelli personalizzati per i tuoi layout

Riconoscimento tabelle

Rileva righe, colonne e confini delle celle in documenti tabulari — registri parrocchiali, censimenti, ruoli fiscali, libri mastri. Ogni cella diventa un dato. Esporta l'intera tabella come foglio di calcolo o XML.

Estrazione campi

Addestra modelli per trovare ed estrarre campi specifici da documenti strutturati — date, nomi, numeri di riferimento, importi. Funziona con moduli, schede, certificati e qualsiasi documento con struttura ripetitiva.

Tag delle entita

Tagga persone, luoghi, date ed entita personalizzate nel testo corrente. I tag diventano metadati ricercabili. Esporta come TEI-XML o filtra le entita taggate come dati strutturati per il tuo database di ricerca.

Il riconoscimento tabelle in azione

Transkribus rileva la struttura a griglia dei registri tabulari ed estrae ogni cella in un foglio di calcolo strutturato — pronto per il tuo database, software genealogico o pipeline di ricerca.

Dati tabella estratti

Institution	Town	Amount	Object	Date	Disposition
Franklin College (6)	New Athen, O.		General	3/23/16
Fargo College (3)	Fargo, N.D.	100,000	Endowment	4/27/16	Gen 1914, 5/18/16
Franklin Academy (2)	Franklin, Neb.	5,000	Library Building	8/3/16	Gen 1914, 8/7/16
Fessenden Acad. & Ind. School	Fessenden, Fla.		General	12/22/16
Ferris Institute (2)	Big Rapids, Mich.	50,000	Buildings	2/12/17
Findlay College (2)	Findlay, O.	100,000	Endowment	5/23/17	Gen 1914, 5/28/17
Fairmount College	Wichita, Kan.	200,000	Endowment	6/7/17	6/14/17
Franklin College	Franklin, Ind.	50,000	General	9/13/17	Gen 1914, 9/17/17
Fisk University	Nashville, Tenn.	1,000,000	Endowment	6/14/18
Friends University	Wichita, Kan.	200,000	Endowment	6/20/18	Gen 1914, 8/8/18

L'estrazione dei campi in azione

I Field Models rilevano ed estraggono campi dati specifici dai documenti — nomi, date, luoghi, riferimenti — con precisione e su larga scala. Addestra i modelli sui tuoi layout di moduli per ottenere i migliori risultati.

Campi estratti

Elaborazione intelligente dei documenti

Dalle immagini dei documenti ai database di ricerca

Il flusso di lavoro tipico: carica le scansioni dei documenti, avvia il riconoscimento del testo con IA per ottenere testo leggibile dalle macchine, poi applica il riconoscimento tabelle o l'estrazione campi per ottenere dati strutturati. Esporta come CSV per fogli di calcolo, come XML per database, o alimenta direttamente la tua pipeline NLP per il riconoscimento di entita nominate, topic modelling o analisi di rete.

Esporta tabelle e campi come CSV, Excel o XML strutturato

I tag delle entita si esportano come TEI-XML con coordinate collegate alle immagini originali

Accesso REST API per pipeline automatizzate di estrazione dati OCR

Elaborazione batch per grandi collezioni di documenti

Addestrabile

Addestra modelli di estrazione per il tuo specifico tipo di documento

Come i modelli di riconoscimento del testo, anche i modelli di estrazione tabelle e campi possono essere addestrati sui tuoi documenti specifici. Se i tuoi registri hanno un layout unico — un particolare tipo di registro parrocchiale, un formato di censimento regionale, un tipo di scheda — puoi addestrare un modello personalizzato che comprende quella struttura ed estrae i dati dai documenti manoscritti con elevata precisione.

Modelli di tabelle personalizzati per layout non standard e registri complessi

Field Models personalizzati per tipi specifici di moduli e schede

Senza programmazione — l'addestramento avviene nell'interfaccia visuale

I modelli migliorano man mano che aggiungi dati di addestramento

Condividi i modelli addestrati con il tuo team o la community

Casi d'uso

Cosa estraggono i ricercatori con Transkribus

Istituzioni e ricercatori di tutto il mondo utilizzano Transkribus per estrarre dati strutturati da documenti storici su larga scala. Dai database genealogici costruiti dai registri parrocchiali alla ricerca economica basata sui registri commerciali coloniali — gli stessi strumenti di estrazione alimentano centinaia di progetti di ricerca diversi.

Registri parrocchiali → nomi, date, relazioni per database genealogici

Censimenti → dati demografici per studi sulla popolazione

Ruoli fiscali e libri mastri → dati economici per l'analisi storica

Schede e cataloghi → metadati strutturati per i sistemi bibliotecari

Corrispondenza → persone e luoghi taggati per l'analisi di rete

Specialisti della scrittura a mano

L'unica piattaforma IDP costruita per la scrittura a mano

La maggior parte delle piattaforme di elaborazione intelligente dei documenti si concentra su moduli stampati moderni — fatture, ricevute, contratti. Transkribus e diverso: e stato costruito da zero per documenti manoscritti e storici. I nostri modelli IA gestiscono secoli di stili di scrittura, carta deteriorata, layout irregolari e scritture miste che mettono in difficolta gli strumenti OCR generici.

Oltre 500.000 utenti che elaborano documenti manoscritti

Oltre 300 modelli IA pubblici per la scrittura storica

Funziona in oltre 100 lingue e tutti i principali sistemi di scrittura

Ospitato nell'UE e conforme al GDPR — i tuoi documenti restano in Europa

Inizia a estrarre dati dai tuoi documenti

Crea un account gratuito. Carica le tue scansioni, avvia il riconoscimento del testo ed estrai dati strutturati — senza programmazione, senza competenze di ML.

Inizia gratis Prenota una consulenza

300+Modelli IA pubblici