Skip to content
  • Prezzi

Analisi del layout che comprende qualsiasi pagina

Prima che un singolo carattere possa essere letto, l’IA deve comprendere la struttura della pagina — dove si trovano i blocchi di testo, dove si colloca ogni riga, dove iniziano e finiscono tabelle, colonne e marginalia. Transkribus lo fa automaticamente per ogni documento, producendo coordinate con precisione al pixel per ogni elemento rilevato.

AutomaticSegmentazione della pagina
Pixel-levelPrecisione delle coordinate
PAGE XMLFormato di esportazione standard
RegioniRileva blocchi di testo, immagini, tabelle
BaselineCoordinate precise a livello di riga
StrutturaIntestazioni, paragrafi, marginalia
EsportazionePAGE XML, PDF ricercabile, ALTO

Guarda l’analisi del layout in azione

L’IA analizza il documento e rileva ogni elemento strutturale — regioni di testo, baseline individuali e annotazioni. Attiva e disattiva i tipi di elementi per esplorare il layout rilevato.

Document with layout analysis overlay
Layout Elements

Segmentazione della pagina

Rilevamento automatico delle regioni per qualsiasi documento

Transkribus segmenta automaticamente ogni pagina in regioni strutturate — blocchi di testo, immagini, tabelle, separatori e decorazioni. L’IA gestisce layout complessi che sfuggono alla semplice rilevazione di colonne: testo multicolonna con larghezze variabili, marginalia accanto al testo principale, annotazioni interlineari e testo che avvolge le illustrazioni.
Rileva regioni di testo, immagini, tabelle e separatori
Gestisce layout multicolonna, orientamenti misti e regioni nidificate
Funziona su documenti manoscritti, stampati e misti di qualsiasi secolo
Viene eseguito automaticamente durante il riconoscimento del testo — nessuna zonizzazione manuale necessaria
Le regioni strutturali sono etichettate come intestazione, paragrafo, numero di pagina o marginalia

Rilevamento baseline

Baseline precise al pixel per ogni riga di testo

Le baseline sono il fondamento del riconoscimento della scrittura in Transkribus. L’IA traccia il percorso esatto che ogni riga di testo segue — inclusa la scrittura curva, inclinata e irregolare. Ogni baseline memorizza una polilinea di punti coordinati che mappano con precisione il testo sull’immagine originale. Questo è ciò che rende l’output di Transkribus spazialmente collegato alla fonte: si sa sempre esattamente dove sulla pagina è stata trovata ogni parola.
Le baseline polilinea seguono l’esatta curvatura della scrittura
Ogni baseline collega il testo riconosciuto alle sue coordinate pixel
Gestisce scrittura inclinata, righe curve e spaziature irregolari
Coordinate esportate in PAGE XML e formato ALTO
Essenziale per la generazione di PDF ricercabili con livello di testo allineato

Rilevamento della struttura delle tabelle

L’analisi del layout delle tabelle va oltre le regioni di testo — rileva righe, colonne, intestazioni e singole celle. Addestra modelli di tabelle personalizzati per i layout specifici dei tuoi documenti.

Document with detected table structure
Dati della tabella estratti
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

Formati di esportazione

Coordinate utilizzabili ovunque

Ogni elemento di layout rilevato da Transkribus include dati completi di coordinate. Esporta in formati standard del settore per l’utilizzo in strumenti di Digital Humanities, sistemi bibliotecari o la tua pipeline di elaborazione. I PDF ricercabili allineano il livello di testo riconosciuto con l’immagine originale utilizzando queste coordinate — rendendo ogni parola cliccabile e ricercabile.
PAGE XML — lo standard per il layout di documenti con coordinate poligonali
ALTO XML — ampiamente utilizzato nei sistemi di biblioteche e archivi
PDF ricercabile — livello di testo allineato con le coordinate dell’immagine
TEI-XML — con collegamenti facsimile alle regioni sorgente
Testo semplice, DOCX ed Excel per flussi di lavoro più semplici

L’editor

Modifica e correggi il layout in un editor visivo

Transkribus include un editor visivo completo per le correzioni del layout. Regola i confini delle regioni, unisci o dividi le righe di testo, correggi le coordinate delle baseline, annota le regioni strutturali come intestazioni o marginalia e correggi l’ordine di lettura. Tutte le modifiche si riflettono nelle coordinate esportate.
Trascina visivamente i confini delle regioni e i punti delle baseline
Unisci o dividi regioni di testo e righe
Assegna tag strutturali: intestazione, paragrafo, marginalia, numero di pagina
Correggi l’ordine di lettura in layout complessi a più colonne
Le modifiche vengono salvate e riflesse in tutte le esportazioni

Progettato per la scrittura a mano

Analisi del layout OCR che funziona sui documenti storici

La maggior parte degli strumenti di analisi del layout è progettata per documenti stampati moderni con impaginazioni pulite e prevedibili. Transkribus è stato creato per i casi più difficili: scritture vecchie di secoli con interlinea irregolare, carta degradata, inchiostro trasferito, orientamenti misti e struttura imprevedibile. I nostri modelli di IA sono stati addestrati su milioni di pagine di documenti storici.
Elabora documenti degradati, macchiati e danneggiati
Funziona con tutti i secoli e stili di scrittura
Gestisce il trasferimento d’inchiostro, la trasparenza e il testo a basso contrasto
Rileva le baseline su scrittura inclinata, curva e irregolare
Oltre 500.000 utenti elaborano documenti storici ogni giorno

Prova l’analisi del layout gratuitamente

Carica i tuoi documenti e osserva l’IA rilevare ogni regione, baseline ed elemento strutturale. Nessuna configurazione, nessun codice — basta caricare e partire.

AutomaticNessuna zonizzazione manuale
PAGE XMLCoordinate standard
Free50 crediti ogni mese