Estraete dati strutturati da qualsiasi documento
I Field Models di Transkribus utilizzano la segmentazione per istanze per rilevare ed estrarre campi specifici dai vostri documenti, manoscritti o stampati, storici o moderni. Definite i campi, addestrate il modello, elaborate la vostra collezione.
Iniziate ad addestrare il vostro modello
Guardate come funziona
I Field Models rilevano ed estraggono elementi strutturali specifici dai vostri documenti, con precisione e su larga scala.

Una tecnologia, decine di casi d'uso
Ricercatori, archivisti e istituzioni di tutto il mondo addestrano Field Models sui propri documenti specifici. Ecco le applicazioni più comuni.
Segmentate articoli, titoli e inserzioni dalle pagine dei giornali
I giornali storici presentano layout complessi a più colonne, con articoli che avvolgono le immagini e si estendono su più pagine. I Field Models rilevano singoli articoli, titoli, inserzioni pubblicitarie, firme degli autori e didascalie, offrendo accesso strutturato a contenuti precedentemente inaccessibili nelle immagini delle pagine.

Estraete campi strutturati da schede di catalogo e schedari
Biblioteche, musei e archivi conservano milioni di schede: schede di catalogo, registri di acquisizione, strumenti di ricerca, schede pazienti. Ogni tipo di scheda ha il proprio layout, ma un Field Model ben addestrato gestisce le variazioni ed estrae dati strutturati su larga scala.

Estraete nomi, date e luoghi da registri manoscritti
Registri parrocchiali, atti civili, ruoli militari: la base della ricerca genealogica e demografica. I Field Models rilevano voci strutturate attraverso secoli di pratiche di registrazione in evoluzione, gestendo diversi scrivani, formati e lingue.

Identificate note marginali, paragrafi e intestazioni nei protocolli giudiziari
Atti giudiziari storici, protocolli governativi e documenti ufficiali contengono elementi strutturati come note marginali, paragrafi numerati, intestazioni e annotazioni. I Field Models rilevano queste componenti strutturali attraverso secoli di pratiche amministrative in evoluzione.

Separate mittente, corpo, illustrazioni e numeri di pagina nella corrispondenza
La corrispondenza personale e ufficiale attraversa secoli di convenzioni epistolari. I Field Models rilevano e separano numeri di pagina, paragrafi, illustrazioni e altri elementi strutturali, dai dispacci diplomatici della prima età moderna alle lettere dattiloscritte del XX secolo.

Distinguete il corpo del testo dalle note marginali, intestazioni e note a piè di pagina
Dai manoscritti medievali ai libri a stampa moderni: i Field Models gestiscono layout a più colonne, glosse interlineari, testatine correnti e strutture di pagina complesse. Separate il corpo del testo dalle note marginali, le intestazioni dal contenuto, le note a piè di pagina dal testo principale.
Dalle immagini dei documenti ai dati strutturati
I Field Models producono output strutturato che potete esportare come fogli di calcolo, importare nei database o pubblicare online.
{
"page": 1,
"fields": [
{
"tag": "Shelfmark",
"text": "O71 P31P"
},
{
"tag": "Name",
"text": "Daley, Jeremiah"
},
{
"tag": "Newspaper",
"text": "Peabody Press"
},
{
"tag": "Details",
"text": "Resident of Aborn St..."
},
{
"tag": "Reference",
"text": "Press July 3, 1889"
}
]
}| Pagina | Segnatura | Nome | Giornale | Dettagli | Riferimento |
|---|---|---|---|---|---|
| 1 | O71 P31P | Daley, Jeremiah | Peabody Press | Resident of Aborn St... | Press July 3, 1889 |
| 2 | O71 P31Q | Davis, Martha | Salem Gazette | Teacher at Essex... | Gazette Aug 12, 1891 |
| 3 | O71 P31R | Dearborn, William | Lynn Record | Merchant on Main... | Record Jan 5, 1887 |
Esportate come fogli di calcolo (XLSX, CSV), importate nei database o pubblicate collezioni strutturate tramite Transkribus Sites.
Come funziona
Dalle immagini grezze dei documenti a dati strutturati ed esportabili in tre passaggi di riconoscimento.
Riconoscimento dei campi
Eseguite il vostro Field Model addestrato per rilevare e contrassegnare le regioni su ogni pagina. Il modello traccia poligoni precisi attorno a ciascun campo: segnature, nomi, date o qualsiasi tag personalizzato che avete definito.

Rilevamento delle righe di testo
Transkribus individua le singole righe di testo all'interno di ciascun campo rilevato. I modelli di layout pubblici gestiscono questo passaggio automaticamente, senza necessità di addestramento aggiuntivo.

Riconoscimento del testo
Ogni riga di testo viene trascritta utilizzando i modelli HTR o OCR di Transkribus. Esportate i risultati strutturati come fogli di calcolo, importateli nei database o pubblicateli tramite Transkribus Sites.
Come addestrare un Field Model
I Field Model non sono preconfezionati — li addestri sui tuoi documenti specifici. Ecco come funziona.
Etichettare i campi
Apri i tuoi documenti in Transkribus e disegna le regioni attorno ai campi che vuoi estrarre — nomi, date, segnature o qualsiasi categoria personalizzata. Ogni regione riceve un'etichetta in modo che il modello sappia cosa cercare.
Addestrare
Una volta annotate circa 50 pagine, inviale per addestrare il tuo Field Model personalizzato. Il modello utilizza il transfer learning, quindi anche piccoli set di dati producono risultati utili.
Applicare e iterare
Applica il tuo modello addestrato a nuovi documenti — rileva e tagga automaticamente i campi. Usa i risultati per correggere errori, aggiungere altre pagine di addestramento e riaddestrare per una precisione ancora migliore.
Iniziate in piccolo, iterate, scalate
I Field Models utilizzano il transfer learning da milioni di pagine elaborate. Iniziate con un set di addestramento gestibile, usate il vostro primo modello per velocizzare l'annotazione, poi riaddestrate per risultati ancora migliori.
Iniziate con circa 50 pagine annotate per layout semplici. I documenti complessi possono beneficiare di maggiori dati di addestramento.
Fate clic su addestra e attendete. Nessuna programmazione, nessuna competenza in ML, nessuna infrastruttura cloud necessaria.
Consigli di addestramento dalla comunità
- Iniziate in modo semplice: addestrate su circa 50 pagine e valutate. Il vostro primo modello spesso basta per molti casi d'uso.
- Usate il vostro modello per pre-annotare altre pagine, correggetele e poi riaddestrate. Ogni iterazione migliora la precisione.
- Per layout complessi o variabili, puntate a 200-500 pagine rappresentative tra diversi stili di documento.
- Esportate i risultati come fogli di calcolo dove le righe sono le pagine e le colonne i vostri tag di campo, pronti per l'importazione nel database.
Precisione a livello di pixel
I Field Models rilevano le regioni come poligoni dettagliati, non semplici rettangoli, aspetto fondamentale per documenti reali con layout complessi.
Bounding box tradizionali
Rettangoli rigidi che si sovrappongono su contenuti irregolari. Non sono in grado di gestire note marginali che avvolgono il testo, timbri sovrapposti ai campi o voci che si estendono su colonne di larghezza variabile.
Segmentazione per istanze
Rilevamento a livello di pixel che segue la forma esatta di ciascun campo. Gestisce elementi sovrapposti, forme irregolari e tipi di contenuto misti. Funziona su qualsiasi documento, dai manoscritti medievali ai moduli moderni.
Iniziate oggi a estrarre dati strutturati
Addestrate il vostro primo Field Model con un piano Scholar+. Definite i campi, annotate alcune pagine e i vostri documenti diventeranno dati strutturati.