Skip to content
  • Prezzi

Software per la trascrizione di manoscritti medievali: HTR basato su IA per scritture storiche

Gotica textura, minuscola carolina, beneventana e altro — l'HTR basato su IA trasforma mesi di trascrizione manuale in ore, con esportazione in TEI-XML per edizioni critiche.

Scritture medievaliGotica texturaModelli personalizzatiProva gratuita

Trascina un'immagine qui

Seleziona un file...

PNG o JPG fino a 10 Mb

Wolpi
AI Assistant

Caricando un'immagine, accetti i nostri termini e la nostra informativa sulla privacy.

Scelto da 500.000+ utenti in tutto il mondo — 200 M+ pagine elaborate

500.000+
Utenti nel mondo
200 M+
Pagine elaborate
300+
Modelli IA pubblici
500+
Università e istituzioni di ricerca

La sfida

Perché il riconoscimento della scrittura medievale richiede strumenti specializzati

I manoscritti medievali presentano sfide che nessun sistema OCR generico può affrontare. Le scritture stesse sono la prima barriera: un codice in minuscola carolina del XII secolo non condivide quasi nessuna caratteristica visiva con una carta in bastarda del XV secolo. Ma le difficoltà vanno ben oltre le forme delle lettere. I copisti medievali usavano estesi sistemi di abbreviazione — segni di sospensione, tratti di contrazione, note tironiane e simboli specializzati per parole latine comuni — che comprimono il testo del 30-40%. Le legature fondono caratteri in modi che variano per scriptorium e copista. Pergamena danneggiata, inchiostro ferrogallico sbiadito, palinsesti e glosse marginali aggiungono ulteriore complessità. L'OCR standard, addestrato su testo stampato, non produce alcun output utilizzabile su questi materiali.
Sistemi di abbreviazione: sospensione, contrazione, lettere in apice, note tironiane — l'OCR standard non ha un framework per interpretarli
Diversità di scritture: gotica textura, rotunda, cursiva, minuscola carolina, beneventana, insulare, bastarda — ciascuna richiede modelli di riconoscimento distinti
Legature e fusione di lettere variano per scriptorium, periodo e singolo copista
Danni fisici: buchi nella pergamena, sbiadimento dell'inchiostro, palinsesti, macchie d'acqua e rilegatura che oscura il testo vicino alla cucitura
Testo su più livelli: glosse marginali, aggiunte interlineari, correzioni e rubricatura richiedono un'analisi sofisticata del layout
Esempi di abbreviazioni e legature nelle scritture dei manoscritti medievali

La soluzione

Come Transkribus trascrive i documenti medievali con l'HTR

Transkribus utilizza il riconoscimento del testo manoscritto (HTR) — modelli di deep learning addestrati su pagine di manoscritti trascritte — anziché la corrispondenza di modelli di caratteri. Questo approccio è fondamentalmente adatto alle scritture medievali perché apprende i modelli olistici di parole e righe, non le forme isolate dei caratteri. Il repository di modelli pubblici della piattaforma include modelli addestrati su specifiche scritture medievali da ricercatori che lavorano quotidianamente con questi materiali. Dove nessun modello esistente si adatta alla tua collezione, Transkribus ti permette di addestrare un modello HTR personalizzato sul tuo ground truth, producendo un motore di riconoscimento calibrato su un copista, scriptorium o tipo di documento specifico.
Modelli HTR pubblici per gotica textura, minuscola carolina e altre principali scritture medievali — pronti all'uso immediato
Addestramento di modelli personalizzati: fornisci 50-100 pagine di ground truth e addestra un modello per la specifica mano del tuo manoscritto
L'analisi del layout gestisce pagine multi-colonna, glosse marginali, rubricatura e testo interlineare
L'espansione delle abbreviazioni può essere incorporata nell'addestramento del modello per trascrizioni completamente risolte
Esportazione in TEI-XML con coordinate a livello di parola e punteggi di affidabilità per edizioni digitali accademiche
Document
Addres to dear Isabella on the Authors
recovery
O Isa pain did visit me
I was at the last extremity
How often did I think of you
I wished your graceful form to view
To clasp you in my weak embrace
Indeed I thought Id run my race
Good Care Im sure was of me taken
But indeed I was much shaken
At last I daily strength did gain

Dall'immagine del manoscritto all'edizione TEI-XML in 4 passaggi

Carica le immagini del manoscritto

Importa scansioni ad alta risoluzione o fotografie dei fogli del manoscritto. Transkribus accetta TIFF, JPG, PNG e PDF. Organizza per codice, fascicolo o collezione.

Seleziona o addestra un modello HTR

Scegli tra modelli pubblici addestrati su scritture medievali, oppure addestra un modello personalizzato sul tuo ground truth. Per i migliori risultati su una specifica mano manoscritta, 50-100 pagine trascritte sono sufficienti.

Esegui l'analisi del layout e il riconoscimento

Transkribus rileva automaticamente regioni di testo, linee di base, colonne e zone marginali. L'HTR elabora ogni riga rilevata e restituisce la trascrizione con punteggi di affidabilità per ogni riga.

Rivedi, correggi ed esporta

Rivedi la trascrizione nell'editor integrato accanto all'immagine del manoscritto. Correggi gli errori, aggiungi markup TEI, poi esporta come TEI-XML, PAGE XML, ALTO o testo semplice per la tua edizione o corpus.

Modelli e scritture

Riconoscimento della scrittura gotica e oltre: modelli pubblici per la paleografia medievale

Il repository di modelli pubblici di Transkribus include modelli HTR contribuiti da ricercatori in studi medievali e progetti di digital humanities in tutto il mondo. Questi modelli coprono le principali famiglie di scrittura incontrate nelle tradizioni manoscritte europee dall'VIII al XVI secolo. Poiché ogni modello è addestrato su pagine di manoscritti reali — non dati sintetici — riflettono la variazione reale delle mani dei copisti, le convenzioni regionali e le pratiche di abbreviazione specifiche del periodo.
Gotica textura (textualis formata e libraria): manoscritti liturgici e letterari in latino, XII-XV secolo
Minuscola carolina: codici dell'era carolingia, IX-XII secolo — il fondamento delle successive scritture europee
Scrittura beneventana: la grande tradizione scrittoria dell'Italia meridionale (Montecassino, Bari, Benevento) e della Dalmazia, VIII-XIII secolo
Scritture insulari (maiuscola e minuscola insulare): manoscritti irlandesi e anglosassoni, VI-IX secolo
Bastarda e hybrida: manoscritti amministrativi e letterari del tardo Medioevo, XIV-XVI secolo
Addestramento di modelli personalizzati per qualsiasi scrittura non coperta dai modelli pubblici esistenti
Esempi di tipi di scrittura medievale supportati dai modelli HTR di Transkribus

Addestramento personalizzato

Addestra un modello HTR personalizzato per la tua collezione di manoscritti

Non esistono due collezioni di manoscritti medievali uguali. Un registro notarile del XIV secolo dalla Toscana utilizza una mano diversa da un codice beneventano di Montecassino, anche se entrambi rientrano nelle scritture gotiche. Transkribus ti permette di addestrare un modello HTR personalizzato sul tuo ground truth trascritto, producendo un motore di riconoscimento calibrato con precisione sui tuoi documenti. È così che i gruppi di ricerca raggiungono la massima accuratezza — combinando competenze paleografiche di dominio con il machine learning.
Inizia con 50-100 pagine di ground truth trascritto manualmente dal tuo manoscritto
Il processo di addestramento richiede tipicamente alcune ore e può essere avviato dall'interfaccia di Transkribus
I modelli addestrati possono risolvere le abbreviazioni dei copisti se il ground truth include le forme espanse
Perfeziona un modello pubblico esistente sui tuoi dati per una convergenza più rapida e meno pagine di addestramento
Condividi il modello addestrato con la comunità di ricerca o mantienilo privato per il tuo progetto
Flusso di lavoro per l'addestramento di modelli HTR personalizzati per manoscritti medievali

Domande frequenti

Transkribus dispone di modelli HTR pubblici per le principali famiglie di scrittura medievale, tra cui la gotica textura (textualis), la minuscola carolina, la beneventana, l'insulare (sia maiuscola sia minuscola), la bastarda, l'hybrida e varie scritture corsive regionali. Il catalogo dei modelli viene continuamente ampliato dalla comunità di ricerca. Per le scritture non ancora coperte, puoi addestrare un modello personalizzato sui tuoi dati di ground truth.
La precisione varia significativamente in base alla scrittura, alle condizioni del manoscritto e al modello utilizzato. Su una gotica textura ben conservata con un modello adeguato, sono raggiungibili tassi di errore a livello di carattere del 3-5%. Materiali più impegnativi — pergamena danneggiata, testo pesantemente abbreviato, mani insolite — possono partire da un tasso di errore del 10-15% con un modello pubblico e migliorare sostanzialmente con l'addestramento di modelli personalizzati. Ogni riga include un punteggio di affidabilità per la revisione mirata.
Trascrivi 50-100 pagine rappresentative del tuo manoscritto utilizzando l'editor di Transkribus. Questi dati di ground truth servono come input per l'addestramento. Avvia il processo di addestramento dall'interfaccia — tipicamente richiede alcune ore. Il modello risultante è specifico per la mano del copista, il sistema di abbreviazioni e il layout del tuo manoscritto. Puoi migliorare iterativamente il modello aggiungendo più ground truth.
Dipende da come viene preparato il ground truth. Se i tuoi dati di addestramento espandono le abbreviazioni (ad es., trascrivendo il segno di sospensione sopra 'dn' come 'dominus'), il modello impara a produrre le forme espanse. Se il ground truth preserva i segni di abbreviazione come caratteri Unicode, il modello li riproduce. Molti ricercatori addestrano due modelli — uno per la trascrizione diplomatica e uno per quella espansa — a seconda della loro metodologia editoriale.
Sì. Transkribus supporta l'esportazione in TEI-XML con coordinate a livello di parola, punteggi di affidabilità e markup strutturale. Questo output può essere integrato in framework di edizioni digitali come EVT (Edition Visualization Technology) o usato come input per strumenti di collazione come CollateX. Sono disponibili anche le esportazioni in PAGE XML e ALTO XML per altri flussi di lavoro a valle.
Il motore di analisi del layout rileva le regioni di testo anche su pagine con buchi, macchie o sezioni mancanti. Per le aree danneggiate, il modello HTR produce un output con punteggi di affidabilità più bassi, segnalando chiaramente le letture incerte. I ricercatori possono contrassegnare le lacune nell'editor ed escludere le regioni danneggiate dall'elaborazione. Il sistema non genera testo dove nessuno è leggibile.
Transkribus fornisce un formato di citazione raccomandato nella propria documentazione. Tipicamente, si citano la piattaforma (Transkribus, sviluppato presso l'Università di Innsbruck), il modello HTR specifico utilizzato (comprensivo di ID e versione) e la data di elaborazione. Questo garantisce la riproducibilità — un altro ricercatore può applicare lo stesso modello per verificare le tue trascrizioni. L'elenco delle pubblicazioni di READ-COOP include i principali articoli di riferimento.
EUAT

Costruito per la ricerca. Ospitato in Europa. Governato dalla comunità.

Transkribus è sviluppato e gestito da READ-COOP, una cooperativa europea di oltre 250 istituzioni di ricerca, archivi e biblioteche.

I vostri dati restano vostri

Piena proprietà di tutti i documenti caricati e delle trascrizioni generate. Eliminabili in qualsiasi momento.

Ospitato in Austria, UE

Elaborazione sui nostri server. Conforme al GDPR. Nessuna dipendenza cloud di terzi.

Cooperativa, non una startup

Migliaia di archivi, biblioteche e università come comproprietari. Costruito per decenni, non per un'uscita VC.

Risorse correlate

Altro per i ricercatori

Esplora il toolkit di ricerca completo di Transkribus: Transkribus per i ricercatori · Cos'è l'HTR? · Riduzione dell'arretrato archivistico · Crea PDF ricercabili
Output della pipeline di ricerca

Pronto ad accelerare la trascrizione dei tuoi manoscritti?

Unisciti a oltre 500 università che già utilizzano Transkribus per il riconoscimento del testo manoscritto. Inizia con crediti gratuiti ed esplora i modelli pubblici per le scritture medievali.

50 crediti gratuiti al mese — Nessuna carta di credito richiesta

200 M+Pagine elaborate
500+Università che utilizzano Transkribus
300+Modelli IA pubblici