Skip to content
  • Prezzi
Guida metodologica

Come includere il riconoscimento del testo manoscritto nel Suo progetto di ricerca

Una guida passo-passo per motivare l'uso dell'HTR nella Sua domanda di finanziamento alla ricerca — dalla descrizione della metodologia e giustificazione del budget ai riferimenti bibliografici e al piano di gestione dei dati. Per MUR, PRIN, ERC, Horizon Europe, Fondazione Cariplo, Compagnia di San Paolo e altri enti finanziatori.

10 min di lettura

1.Perché includere l'HTR nella metodologia

Il riconoscimento automatico del testo manoscritto (HTR) è maturato da tecnica sperimentale a metodo di ricerca consolidato, impiegato nelle scienze umane e sociali. Centinaia di pubblicazioni peer-reviewed citano la trascrizione assistita dall'IA come componente centrale del proprio flusso di lavoro, e i principali enti finanziatori — tra cui ERC, DFG, NEH, AHRC, SNSF, FWF e MUR/PRIN — hanno assegnato finanziamenti a progetti che la adottano.

La motivazione metodologica dell'HTR poggia su tre pilastri:

  • Efficienza. La trascrizione automatica elabora le pagine in pochi secondi, anziché i 15–60 minuti richiesti dalla trascrizione manuale, rendendo possibile il lavoro su corpora di grandi dimensioni entro le tempistiche tipiche di un progetto finanziato.
  • Riproducibilità. Un modello addestrato produce un output identico sullo stesso input ogni volta. Questo comportamento deterministico rappresenta un vantaggio significativo rispetto alla trascrizione manuale, in cui l'accordo tra annotatori è imperfetto.
  • Misurabilità. La qualità del riconoscimento è quantificata tramite il Character Error Rate (CER), una metrica oggettiva calcolata su dati di test non utilizzati nell'addestramento. Ciò fornisce ai valutatori — e al gruppo di ricerca — un indicatore di qualità concreto e verificabile.

Includere l'HTR nella propria metodologia segnala che il progetto impiega metodi digitali allo stato dell'arte mantenendo un rigoroso controllo qualità. Dimostra inoltre la consapevolezza dei vincoli di scalabilità che spesso preoccupano i valutatori nella valutazione di grandi corpora documentari.

2.Descrizione del flusso di lavoro Transkribus

Le proposte progettuali richiedono una descrizione chiara e tecnicamente precisa degli strumenti e dei metodi impiegati. Transkribus è una piattaforma basata sull'intelligenza artificiale per il riconoscimento del testo manoscritto e a stampa, sviluppata e gestita da READ-COOP SCE, una cooperativa europea con oltre 250 membri istituzionali tra archivi, biblioteche e università.

Il flusso di lavoro standard si articola in quattro fasi:

  1. Caricamento. Le immagini dei documenti (scansioni, fotografie o PDF) vengono caricate sulla piattaforma. Transkribus accetta tutti i formati immagine più comuni e gestisce il caricamento batch per grandi collezioni.
  2. Riconoscimento del testo. Un modello IA — selezionato tra oltre 300 modelli pubblicamente disponibili o addestrato specificamente sul proprio materiale — esegue la trascrizione automatica. L'analisi del layout rileva le regioni di testo, le baseline e gli elementi strutturali come le tabelle.
  3. Correzione manuale. Il gruppo di ricerca rivede e corregge l'output automatico nell'editor integrato. Questa fase produce dati di Ground Truth utilizzabili anche per un ulteriore addestramento e miglioramento dei modelli.
  4. Esportazione. Le trascrizioni corrette vengono esportate in formati standard (PAGE XML, ALTO XML, TEI, testo semplice, PDF ricercabile) per l'integrazione con database, repository o pipeline di analisi.

Per i progetti che trattano materiale sensibile o ad accesso limitato, Transkribus offre l'installazione on-premises: l'intera piattaforma funziona sull'infrastruttura dell'istituzione, garantendo che i documenti non lascino mai i vostri server. Ciò è particolarmente rilevante per gli archivi con restrizioni legali sul trasferimento dei dati.

3.Calcolo dei tempi e dei costi

Una pianificazione accurata del budget è essenziale per una proposta progettuale credibile. Transkribus utilizza un sistema basato su crediti per il riconoscimento del testo, in cui il numero di crediti consumati dipende dal numero di pagine e dal tipo di elaborazione applicata.

Stima dei costi di riconoscimento:

  • I crediti sono consumati per pagina per il riconoscimento del testo, l'analisi del layout e le attività di elaborazione correlate.
  • Sono disponibili piani individuali e istituzionali a diversi livelli, che consentono di adeguare il piano alla scala del progetto.
  • Sconti per volumi sono disponibili per grandi progetti istituzionali — contattate il team di Transkribus per un preventivo personalizzato.

Stima dei tempi di correzione manuale:

Il tempo richiesto per la post-correzione dipende dalla difficoltà del materiale e dall'accuratezza desiderata. Come riferimento indicativo:

  • Materiale ben riconosciuto (CER inferiore al 5%): 2–5 minuti per pagina per verifica e correzione leggera.
  • Materiale complesso (CER 5–10%): 5–15 minuti per pagina per una correzione più sostanziale.
  • Materiale molto difficile (CER superiore al 10%): è consigliabile investire nell'addestramento di un modello personalizzato prima dell'elaborazione su larga scala — ciò riduce significativamente i tempi di correzione per pagina.

Uno studio pilota su 50–100 pagine rappresentative fornirà stime concrete dei tempi di correzione per il vostro specifico materiale. Includete queste cifre nella proposta come dati preliminari.

4.Gestione dei dati e standard archivistici

La maggior parte degli enti finanziatori richiede oggi un piano di gestione dei dati (Data Management Plan, DMP) come parte della proposta. Transkribus supporta la conformità ai principi FAIR e agli standard di conservazione a lungo termine.

Formati di esportazione:

  • PAGE XML — lo standard de facto per i dati di layout e trascrizione nella ricerca sull'analisi documentale. Conserva le coordinate delle baseline, i tipi di regione e l'ordine di lettura.
  • ALTO XML — ampiamente utilizzato nell'infrastruttura delle biblioteche digitali e compatibile con i flussi di lavoro METS/IIIF.
  • TEI XML — lo standard di codifica per le edizioni digitali accademiche nelle discipline umanistiche.
  • Testo semplice e PDF ricercabile — per l'analisi a valle, la ricerca full-text e l'output leggibile.

Conformità FAIR:

  • Findable (Reperibile): Ricerca full-text tra le collezioni; metadati strutturati nelle esportazioni XML.
  • Accessible (Accessibile): I dati possono essere esportati in qualsiasi momento in formati aperti; nessun lock-in proprietario.
  • Interoperable (Interoperabile): Gli schemi XML standard garantiscono la compatibilità con i sistemi di biblioteche digitali, gli strumenti di annotazione e i software di analisi testuale.
  • Reusable (Riutilizzabile): I formati aperti con metadati incorporati supportano il riutilizzo e la rianalisi a lungo termine.

Conservazione a lungo termine: Esportate i vostri risultati per il deposito in repository istituzionali, archivi di settore o data center. I formati aperti e non proprietari garantiscono che i dati restino accessibili indipendentemente da qualsiasi singola piattaforma.

5.Addestramento dei modelli e accuratezza

L'accuratezza del riconoscimento è centrale in qualsiasi sezione metodologica dedicata all'HTR. Transkribus misura la qualità utilizzando il Character Error Rate (CER): la proporzione di caratteri che differiscono tra l'output del modello e una trascrizione di riferimento verificata manualmente.

Cosa si aspettano i valutatori:

  • Modelli pubblici su materiale adeguato: 2–5% CER (95–98% dei caratteri corretti).
  • Scritture complesse o materiale deteriorato con addestramento personalizzato: 5–10% CER.
  • Il CER è sempre calcolato su un set di test separato (held-out) (tipicamente il 10–15% dei dati di Ground Truth non utilizzati durante l'addestramento), garantendo una stima dell'accuratezza non distorta.

Addestramento di modelli personalizzati: Per materiale specialistico — scritture insolite, ortografie storiche o documenti deteriorati — Transkribus consente di addestrare un modello personalizzato sui propri dati di Ground Truth. L'addestramento richiede tipicamente 25–75 pagine di materiale trascritto manualmente, a seconda della complessità della scrittura.

Per una spiegazione dettagliata del CER e di come riportarlo nella proposta, consultate la nostra guida dedicata: Character Error Rate (CER) — Spiegazione.

6.Collaborazione e scalabilità

I progetti di ricerca raramente operano in isolamento. Transkribus supporta flussi di lavoro collaborativi a ogni scala, dai piccoli gruppi alle grandi iniziative multi-istituzionali.

Crowdsourcing: Per i progetti che coinvolgono trascrittori volontari o citizen scientist, Transkribus offre funzionalità integrate di crowdsourcing. I volontari contribuiscono con correzioni attraverso un'interfaccia semplificata, generando Ground Truth che migliora l'accuratezza del modello nel tempo. Consultate la nostra guida sul crowdsourcing della trascrizione per i dettagli sull'organizzazione di campagne collaborative.

Accesso API: Per i progetti che richiedono pipeline automatizzate o l'integrazione con l'infrastruttura di ricerca esistente, l'API di Transkribus fornisce accesso programmatico a tutte le funzioni di riconoscimento ed elaborazione. Ciò consente l'elaborazione batch, flussi di lavoro personalizzati e l'integrazione con i sistemi di biblioteca digitale istituzionali.

Dalla fase pilota al progetto completo:

  • Fase pilota (mesi 1–3): Elaborazione di 50–100 pagine rappresentative, misurazione del CER, stima dei tempi di correzione.
  • Perfezionamento del modello (mesi 3–6): Se necessario, addestramento di un modello personalizzato sul Ground Truth della fase pilota per migliorare l'accuratezza.
  • Elaborazione completa (mesi 6+): Applicazione del modello ottimizzato all'intero corpus. L'elaborazione batch gestisce migliaia di pagine al giorno.

Questo approccio per fasi è metodologicamente solido e dimostra ai valutatori che disponete di un piano realistico e basato su evidenze per la scalabilità.

7.Testo metodologico di esempio

Il paragrafo seguente può essere adattato per la sezione metodologica della vostra proposta progettuale. Sostituite i campi tra parentesi quadre con i dettagli specifici del vostro progetto.

Il riconoscimento del testo manoscritto sarà effettuato mediante Transkribus (transkribus.org), una piattaforma basata sull'intelligenza artificiale sviluppata e gestita dalla cooperativa europea READ-COOP SCE (oltre 250 membri istituzionali). La piattaforma impiega architetture di deep learning addestrate su dati di Ground Truth in formato PAGE XML per riconoscere la scrittura storica con accuratezza misurabile. Uno studio pilota su [N] pagine rappresentative di [descrizione del materiale] ha raggiunto un Character Error Rate del [X]%, calcolato su un set di test separato comprendente il [Y]% del corpus di Ground Truth, confermando la fattibilità del riconoscimento automatico per questo materiale. Nel corso del progetto, circa [N] pagine di materiale in [tipo di scrittura] provenienti da [archivio/collezione] saranno elaborate utilizzando [un modello pubblico / un modello addestrato ad hoc]. La qualità del riconoscimento sarà validata in modo continuo misurando il CER su dati di test separati. La post-correzione manuale a cura di [membri del gruppo di ricerca / collaboratori] garantirà che la qualità della trascrizione soddisfi gli standard del progetto. Tutti gli output saranno esportati in formato [PAGE XML / TEI XML / ALTO XML] per il deposito presso [nome del repository] e l'integrazione con [database / pipeline di analisi]. I dati saranno conservati ed elaborati sui server Transkribus in Austria (UE), in conformità con il GDPR. [Per materiale sensibile: l'installazione on-premises garantisce che i documenti restino sull'infrastruttura istituzionale.]

8.Riferimenti bibliografici e approfondimenti

Pubblicazioni principali:

  • Muehlberger, G. et al. (2019). 'Transforming scholarship in the archives through handwritten text recognition.' Journal of Documentation, 75(5), pp. 954–976.
  • Kahle, P. et al. (2017). 'Transkribus — A Service Platform for Transcription, Recognition and Retrieval of Historical Documents.' 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), 2017.
  • 'Handwritten Text Recognition for Historical Documents.' Open Research Europe, 5:16 (2025). open-research-europe.ec.europa.eu/articles/5-16

Provenienza del progetto:

  • Progetto EU Horizon 2020 READ (grant n. 674943, 2016–2019) — il programma di ricerca nell'ambito del quale è stato sviluppato Transkribus.
  • READ-COOP SCE — la cooperativa europea che attualmente gestisce e governa Transkribus, con oltre 250 membri istituzionali co-proprietari.

Guide metodologiche correlate:

EUAT

Un'infrastruttura che può citare con fiducia.

Transkribus è un'infrastruttura di ricerca costruita e governata dalle istituzioni che la utilizzano — un forte argomento di sostenibilità per qualsiasi progetto di ricerca.

Hosting in Austria, UE

Tutta l'elaborazione sui nostri server. Conforme al GDPR. Nessuna dipendenza da cloud di terze parti.

Cooperativa, non una startup

Oltre 250 archivi, biblioteche e università come comproprietari. Costruito per durare decenni, non per un'uscita da venture capital.

I Suoi dati restano Suoi

Piena proprietà. Esportazione e cancellazione in qualsiasi momento. Nessuna condivisione dati con terze parti.

Inizi il Suo studio pilota oggi

Testi Transkribus sul Suo materiale di partenza prima di scrivere il progetto. Includa dati di accuratezza reali come evidenza preliminare — l'argomentazione più forte che possa presentare ai revisori.

50 crediti gratuiti ogni mese · Nessuna carta di credito richiesta

200M+Pagine elaborate
500K+Utenti nel mondo
500+Università