Il problema
Perché l'OCR standard fallisce sulla grafia
L'OCR tradizionale è stato costruito per il testo stampato. Funziona abbinando i modelli di pixel rispetto ai modelli di caratteri noti — una tecnica che ha fornito risultati eccellenti per caratteri uniformi dal 1970. Ma la grafia è fondamentalmente diversa: ogni persona scrive diversamente, le lettere si collegano in modo imprevedibile e non esiste un "carattere" fisso da abbinare. Per questo motivo, anche i migliori motori OCR per uso generale producono un output incomprensibile su documenti manoscritti.
L'OCR utilizza il riconoscimento dei modelli rispetto ai modelli di caratteri fissi — la grafia non ha modelli fissi
I tratti corsivi e connessi interrompono la segmentazione a livello di carattere
Gli script storici (Kurrent, Sütterlin, Arabo) non sono nella libreria di modelli di alcun motore OCR
L'inchiostro a basso contrasto, la trasparenza e il danno della carta confondono l'abbinamento a livello di pixel
I documenti scansionati o fotografati introducono distorsioni che degradano ulteriormente l'abbinamento dei modelli

La soluzione
HTR: OCR costruito specificamente per la grafia
Transkribus utilizza Handwritten Text Recognition (HTR) — un approccio fondamentalmente diverso. Invece di abbinare i caratteri rispetto ai modelli, HTR utilizza reti neurali convoluzionali che imparano a leggere la grafia da esempi. La rete estrae caratteristiche visive attraverso filtri sequenziali, quindi le inserisce in un livello di previsione densa che genera caratteri e parole con punteggi di probabilità. Il modello non è programmato a mano — impara automaticamente da milioni di campioni di allenamento.
Le reti neurali convoluzionali estraggono caratteristiche dalle immagini di grafia automaticamente
Modelli addestrati su 30+ milioni di parole manoscritte attraverso secoli e lingue
L'analisi del layout rileva linee, colonne, tabelle e note marginali prima del riconoscimento
I modelli di linguaggio utilizzano il contesto delle parole per risolvere i caratteri ambigui
L'output probabilistico consente di valutare la fiducia per ogni riga
Comparison
OCR della grafia: Transkribus vs. OCR standard
I motori OCR standard sono costruiti per il testo stampato. Transkribus è costruito appositamente per la grafia.
| Feature | Transkribus HTR | OCR standard |
|---|---|---|
| Riconoscimento del testo stampato | Yes | Yes |
| Riconoscimento della grafia | Yes | Limited |
| Script storici (Kurrent, Sütterlin, Fraktur) | Yes | No |
| Script non latini (Arabo, Ebraico, Cirillico) | Yes | Limited |
| Grafia corsiva connessa | Yes | No |
| Addestramento di modelli personalizzati sui vostri dati | Yes | No |
| 300+ modelli pubblici addestrati dalla comunità | Yes | No |
| Analisi del layout (colonne, tabelle, note marginali) | Yes | Limited |
| Editor di trascrizione integrato | Yes | No |
| Hosting europeo conforme a GDPR | Yes | Limited |
| API REST per l'integrazione | Yes | Yes |
Confronto basato su servizi OCR per uso generale. Le capacità possono variare a seconda del provider.
Coverage
100+ lingue, qualsiasi secolo, qualsiasi script
Transkribus non è limitato all'inglese o alla grafia moderna. I nostri 300+ modelli pubblici coprono script dal 9° secolo a oggi, attraverso latino, arabo, ebraico, cirillico, greco e altri. Che stiate digitalizzando manoscritti medievali, registri giudiziari del 18° secolo o note manoscritte della scorsa settimana — esiste un modello per voi.
Script latini: inglese, francese, tedesco, spagnolo, italiano, portoghese, olandese e altri
Tedesco storico: Kurrent, Sütterlin, Fraktur dal 1500-1940
Arabo, ebraico e script ottomano
Cirillico, greco e lingue nordiche
Nuovi modelli aggiunti dalla comunità regolarmente

Per gli sviluppatori
OCR della grafia via API REST
Integrate il OCR della grafia Transkribus direttamente nelle vostre applicazioni, pipeline o sistemi di gestione dei contenuti. L'API Transkribus vi offre l'accesso programmatico a tutti i modelli di riconoscimento, l'analisi del layout e l'elaborazione batch — con output JSON strutturato pronto per qualsiasi sistema a valle.
API REST con documentazione completa e SDK
Elaborazione batch per progetti di digitalizzazione su larga scala
Output JSON strutturato con coordinate, punteggi di fiducia e regioni
Utilizzate qualsiasi modello pubblico o il vostro modello personalizzato addestrato
response.json
{
"status": "FINISHED",
"pages": 1,
"content": {
"text": "Dear Sir, I hereby confirm\nthe delivery of 200 units.",
"regions": [
{
"id": "r_1",
"type": "paragraph",
"lines": [
{
"text": "Dear Sir, I hereby confirm",
"confidence": 0.97
},
{
"text": "the delivery of 200 units.",
"confidence": 0.95
}
]
}
]
}
}Modelli personalizzati
Addestrate il OCR della grafia sui vostri dati
I modelli pubblici forniscono risultati forti preconfezionati. Ma se avete bisogno di una precisione ancora più elevata per uno stile di grafia, uno script o un tipo di documento specifico, potete addestrare un modello HTR personalizzato sui vostri dati. Transkribus gestisce l'infrastruttura di allenamento — voi fornite semplicemente la verità di base.
Addestrate con appena 50 pagine trascritte
Affinate i dettagli sul vostro scrittore, script o tipo di documento specifico
I modelli migliorano man mano che aggiungete più dati di allenamento
Condividete i modelli con il vostro team o con la comunità

Casi d'uso
Chi utilizza il OCR della grafia?
Transkribus è utilizzato da archivi, biblioteche, università, genealogisti e sviluppatori in tutto il mondo. Qualsiasi progetto che comporti la conversione di documenti manoscritti in testo ricercabile e strutturato beneficia del OCR della grafia.
Archivi nazionali che digitalizzano milioni di registri storici
Ricercatori che costruiscono corpora ricercabili da collezioni di manoscritti
Genealogisti che decodificano lettere familiari e registri parrocchiali
Sviluppatori che integrano il OCR della grafia nei flussi di lavoro dei documenti
Musei e istituzioni culturali che rendono le collezioni accessibili online

Oltre il riconoscimento
Dal OCR ai dati ricercabili e strutturati
Il OCR della grafia è solo il primo passaggio. Transkribus vi offre una pipeline completa: riconoscete il testo, correggete gli errori nell'editor, etichettate le entità nominate, esportate in formati standard e pubblicate edizioni digitali. Tutto ciò che vi serve per passare dalle scansioni grezze ai dati strutturati e citabili.
Editor di trascrizione integrato per correzioni e annotazioni
Riconoscimento di entità nominate per persone, luoghi e date
Esportate come TXT, DOCX, PDF, TEI-XML, PAGE XML o ALTO
Pubblicate edizioni digitali ricercabili con Transkribus Sites
Ricerca full-text su tutti i vostri documenti trascritti

Pronto a provare il vero OCR della grafia?
Create un account gratuito per elaborare documenti illimitati, addestrare modelli personalizzati e sbloccare la piattaforma completa.
50 crediti gratuiti ogni mese – Nessuna carta di credito richiesta
200M+Pagine elaborate
500K+Utenti in tutto il mondo
300+Modelli di IA pubblici







