Character Error Rate (CER) — La metrica standard per l'accuratezza della trascrizione
Il CER è la metrica più diffusa per valutare il riconoscimento di testi manoscritti. Misura la percentuale di caratteri che differiscono tra una trascrizione IA e un riferimento verificato manualmente — ed è il dato che revisori, finanziatori e colleghi ricercatori Le chiederanno.
Come si calcola il CER
Il Character Error Rate misura la distanza di modifica tra la trascrizione automatica e il Ground Truth, normalizzata rispetto alla lunghezza del testo di riferimento.
S = substitutions, D = deletions, I = insertions, N = total characters in the reference text. A CER of 20.0% means 5 out of 25 characters differ.
Eccellente
Accuratezza pronta per la pubblicazione. Adatta a edizioni critiche e lavori accademici con revisione manuale minima.
Buono
Adatta alla maggior parte dei flussi di lavoro di ricerca. Verificare e correggere i passaggi chiave prima della pubblicazione.
Da verificare
Utilizzabile per la ricerca per parole chiave e l'indicizzazione. Si consiglia di addestrare un modello personalizzato per risultati migliori.
Quanto Ground Truth è necessario?
La quantità di dati di addestramento dipende dal materiale, dall'accuratezza desiderata e dal numero di mani diverse presenti.
Collezioni a mano singola
Per documenti scritti da una sola persona con grafia costante, 15–30 pagine di Ground Truth producono generalmente buoni risultati (CER inferiore al 5%).
Collezioni a mani multiple
Registri, atti giudiziari o corrispondenza con molteplici scriventi richiedono maggiore varietà nei dati di addestramento — generalmente 50–100 pagine con diverse grafie.
Iniziare con un modello pubblico
Sono disponibili oltre 300 modelli pre-addestrati. Iniziate con uno di questi, valutate il CER sul vostro materiale e addestrate un modello personalizzato solo se necessario.
Miglioramento iterativo
Non è necessario disporre di tutto il Ground Truth fin dall'inizio. Iniziate con 15 pagine, addestrate, valutate, aggiungete altre pagine dove il modello ha difficoltà, riaddestrate.
Il CER obiettivo dipende dal caso d'uso
La ricerca full-text funziona bene con un CER del 5–8%. Le edizioni critiche possono richiedere un CER inferiore al 2%. Il keyword spotting tollera anche il 10–15%.
Qualità prima della quantità
La qualità del Ground Truth conta più della quantità. 20 pagine corrette con cura superano 100 pagine con errori nella trascrizione di riferimento.
Come funziona il CER — confronti la qualità della trascrizione a colpo d'occhio
Ogni esempio mostra una riga di Ground Truth e il corrispondente testo riconosciuto. I caratteri differenti sono evidenziati. Il CER viene calcolato automaticamente dalla distanza di edit di Levenshtein.
Benchmark
Benchmark CER per tipologia documentale
I valori reali di CER dipendono dal tipo di documento, dalla scrittura e dal modello utilizzato. La tabella seguente confronta i risultati tipici dei modelli IA di Transkribus con i motori OCR standard.
| Feature | Transkribus HTR | OCR standard |
|---|---|---|
| Printed modern text (post-1950) | 0.5–1% CER | 1–3% CER |
| Typewritten documents (1920s–1960s) | 1–3% CER | 3–8% CER |
| Handwritten 19th century | 2–5% CER | 15–30% CER |
| Kurrent / Sütterlin (18th–19th c.) | 3–8% CER | Fails |
| Medieval manuscripts | 5–15% CER | Fails |
I valori sono intervalli indicativi basati su modelli ben adattati. Il CER effettivo dipende dalle condizioni del documento, dalla coerenza della scrittura e dai dati di addestramento del modello.
Cosa influenza il CER
Sei fattori che determinano l'accuratezza della trascrizione dei Suoi documenti — e cosa può fare per ciascuno.
Qualità del documento
Inchiostro sbiadito, macchie, trasparenza e danni fisici introducono rumore che rende i caratteri più difficili da riconoscere. Scansioni di alta qualità di originali ben conservati producono il miglior CER.
Tipo di scrittura
La corsiva moderna è più facile da riconoscere rispetto alla Kurrent, Sütterlin o alle scritture librarie medievali. Più la scrittura si discosta dalle forme moderne, più dati di addestramento necessita il modello.
Dati di addestramento del modello
Un modello addestrato su materiale simile al Suo supererà nettamente uno generico. Modelli personalizzati addestrati su 50–100 pagine di Ground Truth possono dimezzare il CER o più.
Risoluzione dell'immagine
Scansioni a 300 DPI o superiori preservano i dettagli fini necessari per distinguere caratteri simili. Immagini a bassa risoluzione aumentano significativamente gli errori di sostituzione.
Complessità del layout
Layout a più colonne, annotazioni marginali, tabelle e annotazioni interlineari richiedono un'analisi del layout accurata. Errori nel rilevamento delle regioni di testo riducono direttamente il CER effettivo.
Lingua
Le lingue con segni diacritici complessi, scritture non latine o legature estese presentano sfide aggiuntive. Modelli dedicati specifici per lingua ottengono generalmente i risultati migliori.
Trovi il modello giusto
Trovi il modello giusto per i Suoi documenti

Provi Transkribus sui Suoi documenti
Crei un account gratuito e scopra quale CER può ottenere sul Suo materiale. Inizi con un modello pubblico o ne addestri uno personalizzato.
50 crediti gratuiti ogni mese · Nessuna carta di credito richiesta