Skip to content
  • Prezzi

Estraete dati strutturati da qualsiasi documento

I Field Models di Transkribus utilizzano la segmentazione per istanze per rilevare ed estrarre campi specifici dai vostri documenti, manoscritti o stampati, storici o moderni. Definite i campi, addestrate il modello, elaborate la vostra collezione.

Iniziate ad addestrare il vostro modello
Index card with detected fields
Segnatura
Nome
Giornale
Dettagli
Riferimento

Guardate come funziona

I Field Models rilevano ed estraggono elementi strutturali specifici dai vostri documenti, con precisione e su larga scala.

Document example
Extracted Fields

Una tecnologia, decine di casi d'uso

Ricercatori, archivisti e istituzioni di tutto il mondo addestrano Field Models sui propri documenti specifici. Ecco le applicazioni più comuni.

Segmentate articoli, titoli e inserzioni dalle pagine dei giornali

I giornali storici presentano layout complessi a più colonne, con articoli che avvolgono le immagini e si estendono su più pagine. I Field Models rilevano singoli articoli, titoli, inserzioni pubblicitarie, firme degli autori e didascalie, offrendo accesso strutturato a contenuti precedentemente inaccessibili nelle immagini delle pagine.

Fields extracted:TitoliCorpi degli articoliInserzioni pubblicitarieFirme degli autoriDidascalieColonne
Document example

Estraete campi strutturati da schede di catalogo e schedari

Biblioteche, musei e archivi conservano milioni di schede: schede di catalogo, registri di acquisizione, strumenti di ricerca, schede pazienti. Ogni tipo di scheda ha il proprio layout, ma un Field Model ben addestrato gestisce le variazioni ed estrae dati strutturati su larga scala.

Fields extracted:NomeDataNumero di riferimentoCategoriaDescrizionePosizione
Document example
Segnatura
Nome
Giornale
Dettagli
Riferimento

Estraete nomi, date e luoghi da registri manoscritti

Registri parrocchiali, atti civili, ruoli militari: la base della ricerca genealogica e demografica. I Field Models rilevano voci strutturate attraverso secoli di pratiche di registrazione in evoluzione, gestendo diversi scrivani, formati e lingue.

Fields extracted:LuogoNomeAnnoDati tabellariData di registrazioneNote marginali
Document example
Ort
Name
Jahrgang
Table

Identificate note marginali, paragrafi e intestazioni nei protocolli giudiziari

Atti giudiziari storici, protocolli governativi e documenti ufficiali contengono elementi strutturati come note marginali, paragrafi numerati, intestazioni e annotazioni. I Field Models rilevano queste componenti strutturali attraverso secoli di pratiche amministrative in evoluzione.

Fields extracted:Note marginaliParagrafiIntestazioniTestatineTimbriFirme
Document example
Note marginali
Paragrafo
Paragrafo
Note marginali
N. pag.
Note marginali
Note marginali

Separate mittente, corpo, illustrazioni e numeri di pagina nella corrispondenza

La corrispondenza personale e ufficiale attraversa secoli di convenzioni epistolari. I Field Models rilevano e separano numeri di pagina, paragrafi, illustrazioni e altri elementi strutturali, dai dispacci diplomatici della prima età moderna alle lettere dattiloscritte del XX secolo.

Fields extracted:Numero di paginaParagrafiIllustrazioniMittenteFirmaData
Document example
N. pag.
Paragrafo
Illustrazione
Paragrafo
Paragrafo

Distinguete il corpo del testo dalle note marginali, intestazioni e note a piè di pagina

Dai manoscritti medievali ai libri a stampa moderni: i Field Models gestiscono layout a più colonne, glosse interlineari, testatine correnti e strutture di pagina complesse. Separate il corpo del testo dalle note marginali, le intestazioni dal contenuto, le note a piè di pagina dal testo principale.

Fields extracted:Corpo del testoNote marginaliIntestazioniNumeri di paginaNote a piè di paginaGlosse

Dalle immagini dei documenti ai dati strutturati

I Field Models producono output strutturato che potete esportare come fogli di calcolo, importare nei database o pubblicare online.

Output strutturato
{
  "page": 1,
  "fields": [
    {
      "tag": "Shelfmark",
      "text": "O71 P31P"
    },
    {
      "tag": "Name",
      "text": "Daley, Jeremiah"
    },
    {
      "tag": "Newspaper",
      "text": "Peabody Press"
    },
    {
      "tag": "Details",
      "text": "Resident of Aborn St..."
    },
    {
      "tag": "Reference",
      "text": "Press July 3, 1889"
    }
  ]
}
Spreadsheet export
PaginaSegnaturaNomeGiornaleDettagliRiferimento
1O71 P31PDaley, JeremiahPeabody PressResident of Aborn St...Press July 3, 1889
2O71 P31QDavis, MarthaSalem GazetteTeacher at Essex...Gazette Aug 12, 1891
3O71 P31RDearborn, WilliamLynn RecordMerchant on Main...Record Jan 5, 1887

Esportate come fogli di calcolo (XLSX, CSV), importate nei database o pubblicate collezioni strutturate tramite Transkribus Sites.

XLSXCSVPAGE XMLTEIALTO

Come funziona

Dalle immagini grezze dei documenti a dati strutturati ed esportabili in tre passaggi di riconoscimento.

1

Riconoscimento dei campi

Eseguite il vostro Field Model addestrato per rilevare e contrassegnare le regioni su ogni pagina. Il modello traccia poligoni precisi attorno a ciascun campo: segnature, nomi, date o qualsiasi tag personalizzato che avete definito.

Field recognition
Segnatura
Nome
Giornale
Dettagli
Riferimento
2

Rilevamento delle righe di testo

Transkribus individua le singole righe di testo all'interno di ciascun campo rilevato. I modelli di layout pubblici gestiscono questo passaggio automaticamente, senza necessità di addestramento aggiuntivo.

Text line detection
3

Riconoscimento del testo

Ogni riga di testo viene trascritta utilizzando i modelli HTR o OCR di Transkribus. Esportate i risultati strutturati come fogli di calcolo, importateli nei database o pubblicateli tramite Transkribus Sites.

SegnaturaO71 P31P
NomeDaley, Jeremiah
GiornalePeabody Press
DettagliResident of Aborn St. died June 29, 1889...
Riferimento(In) Press July 3, 1889. p.1.

Come addestrare un Field Model

I Field Model non sono preconfezionati — li addestri sui tuoi documenti specifici. Ecco come funziona.

1

Etichettare i campi

Apri i tuoi documenti in Transkribus e disegna le regioni attorno ai campi che vuoi estrarre — nomi, date, segnature o qualsiasi categoria personalizzata. Ogni regione riceve un'etichetta in modo che il modello sappia cosa cercare.

Name
Date
Details
Ref
2

Addestrare

Una volta annotate circa 50 pagine, inviale per addestrare il tuo Field Model personalizzato. Il modello utilizza il transfer learning, quindi anche piccoli set di dati producono risultati utili.

~50 pagine annotate
3

Applicare e iterare

Applica il tuo modello addestrato a nuovi documenti — rileva e tagga automaticamente i campi. Usa i risultati per correggere errori, aggiungere altre pagine di addestramento e riaddestrare per una precisione ancora migliore.

Name
Date
Details
Ref
Auto

Iniziate in piccolo, iterate, scalate

I Field Models utilizzano il transfer learning da milioni di pagine elaborate. Iniziate con un set di addestramento gestibile, usate il vostro primo modello per velocizzare l'annotazione, poi riaddestrate per risultati ancora migliori.

0Pagine per iniziare

Iniziate con circa 50 pagine annotate per layout semplici. I documenti complessi possono beneficiare di maggiori dati di addestramento.

0Per addestrare il modello

Fate clic su addestra e attendete. Nessuna programmazione, nessuna competenza in ML, nessuna infrastruttura cloud necessaria.

Consigli di addestramento dalla comunità

  • Iniziate in modo semplice: addestrate su circa 50 pagine e valutate. Il vostro primo modello spesso basta per molti casi d'uso.
  • Usate il vostro modello per pre-annotare altre pagine, correggetele e poi riaddestrate. Ogni iterazione migliora la precisione.
  • Per layout complessi o variabili, puntate a 200-500 pagine rappresentative tra diversi stili di documento.
  • Esportate i risultati come fogli di calcolo dove le righe sono le pagine e le colonne i vostri tag di campo, pronti per l'importazione nel database.

Precisione a livello di pixel

I Field Models rilevano le regioni come poligoni dettagliati, non semplici rettangoli, aspetto fondamentale per documenti reali con layout complessi.

Bounding box tradizionali

Rettangoli rigidi che si sovrappongono su contenuti irregolari. Non sono in grado di gestire note marginali che avvolgono il testo, timbri sovrapposti ai campi o voci che si estendono su colonne di larghezza variabile.

Segmentazione per istanze

Rilevamento a livello di pixel che segue la forma esatta di ciascun campo. Gestisce elementi sovrapposti, forme irregolari e tipi di contenuto misti. Funziona su qualsiasi documento, dai manoscritti medievali ai moduli moderni.

Iniziate oggi a estrarre dati strutturati

Addestrate il vostro primo Field Model con un piano Scholar+. Definite i campi, annotate alcune pagine e i vostri documenti diventeranno dati strutturati.