Skip to content
  • Prezzi
Riferimento

Character Error Rate (CER) — La metrica standard per l'accuratezza della trascrizione

Il CER è la metrica più diffusa per valutare il riconoscimento di testi manoscritti. Misura la percentuale di caratteri che differiscono tra una trascrizione IA e un riferimento verificato manualmente — ed è il dato che revisori, finanziatori e colleghi ricercatori Le chiederanno.

6 min di lettura

Come si calcola il CER

Il Character Error Rate misura la distanza di modifica tra la trascrizione automatica e il Ground Truth, normalizzata rispetto alla lunghezza del testo di riferimento.

CER=S+D+IN

S = substitutions, D = deletions, I = insertions, N = total characters in the reference text. A CER of 20.0% means 5 out of 25 characters differ.

< 2%

Eccellente

Accuratezza pronta per la pubblicazione. Adatta a edizioni critiche e lavori accademici con revisione manuale minima.

2–5%

Buono

Adatta alla maggior parte dei flussi di lavoro di ricerca. Verificare e correggere i passaggi chiave prima della pubblicazione.

5–10%

Da verificare

Utilizzabile per la ricerca per parole chiave e l'indicizzazione. Si consiglia di addestrare un modello personalizzato per risultati migliori.

Quanto Ground Truth è necessario?

La quantità di dati di addestramento dipende dal materiale, dall'accuratezza desiderata e dal numero di mani diverse presenti.

Collezioni a mano singola

Per documenti scritti da una sola persona con grafia costante, 15–30 pagine di Ground Truth producono generalmente buoni risultati (CER inferiore al 5%).

Collezioni a mani multiple

Registri, atti giudiziari o corrispondenza con molteplici scriventi richiedono maggiore varietà nei dati di addestramento — generalmente 50–100 pagine con diverse grafie.

Iniziare con un modello pubblico

Sono disponibili oltre 300 modelli pre-addestrati. Iniziate con uno di questi, valutate il CER sul vostro materiale e addestrate un modello personalizzato solo se necessario.

Miglioramento iterativo

Non è necessario disporre di tutto il Ground Truth fin dall'inizio. Iniziate con 15 pagine, addestrate, valutate, aggiungete altre pagine dove il modello ha difficoltà, riaddestrate.

Il CER obiettivo dipende dal caso d'uso

La ricerca full-text funziona bene con un CER del 5–8%. Le edizioni critiche possono richiedere un CER inferiore al 2%. Il keyword spotting tollera anche il 10–15%.

Qualità prima della quantità

La qualità del Ground Truth conta più della quantità. 20 pagine corrette con cura superano 100 pagine con errori nella trascrizione di riferimento.

Come funziona il CER — confronti la qualità della trascrizione a colpo d'occhio

Ogni esempio mostra una riga di Ground Truth e il corrispondente testo riconosciuto. I caratteri differenti sono evidenziati. Il CER viene calcolato automaticamente dalla distanza di edit di Levenshtein.

Ground Truth
Am 15. März 1782 erschien vor dem Gericht der Bürger Johann Georg Müller
Recognised Text
Am 15. März 1782 erschien vor dem Gericht der Bürger Johann Georg Muller
Correct Substitution Insertion Deletion
72Total chars
71Correct
1Substitutions
0Insertions
0Deletions
CER = (1 + 0 + 0) / 72= 1.4%

Benchmark

Benchmark CER per tipologia documentale

I valori reali di CER dipendono dal tipo di documento, dalla scrittura e dal modello utilizzato. La tabella seguente confronta i risultati tipici dei modelli IA di Transkribus con i motori OCR standard.

FeatureTranskribus HTROCR standard
Printed modern text (post-1950)0.5–1% CER1–3% CER
Typewritten documents (1920s–1960s)1–3% CER3–8% CER
Handwritten 19th century2–5% CER15–30% CER
Kurrent / Sütterlin (18th–19th c.)3–8% CERFails
Medieval manuscripts5–15% CERFails

I valori sono intervalli indicativi basati su modelli ben adattati. Il CER effettivo dipende dalle condizioni del documento, dalla coerenza della scrittura e dai dati di addestramento del modello.

Cosa influenza il CER

Sei fattori che determinano l'accuratezza della trascrizione dei Suoi documenti — e cosa può fare per ciascuno.

Qualità del documento

Inchiostro sbiadito, macchie, trasparenza e danni fisici introducono rumore che rende i caratteri più difficili da riconoscere. Scansioni di alta qualità di originali ben conservati producono il miglior CER.

Tipo di scrittura

La corsiva moderna è più facile da riconoscere rispetto alla Kurrent, Sütterlin o alle scritture librarie medievali. Più la scrittura si discosta dalle forme moderne, più dati di addestramento necessita il modello.

Dati di addestramento del modello

Un modello addestrato su materiale simile al Suo supererà nettamente uno generico. Modelli personalizzati addestrati su 50–100 pagine di Ground Truth possono dimezzare il CER o più.

Risoluzione dell'immagine

Scansioni a 300 DPI o superiori preservano i dettagli fini necessari per distinguere caratteri simili. Immagini a bassa risoluzione aumentano significativamente gli errori di sostituzione.

Complessità del layout

Layout a più colonne, annotazioni marginali, tabelle e annotazioni interlineari richiedono un'analisi del layout accurata. Errori nel rilevamento delle regioni di testo riducono direttamente il CER effettivo.

Lingua

Le lingue con segni diacritici complessi, scritture non latine o legature estese presentano sfide aggiuntive. Modelli dedicati specifici per lingua ottengono generalmente i risultati migliori.

Trovi il modello giusto

Trovi il modello giusto per i Suoi documenti

Esplori oltre 300 modelli IA pubblici nel catalogo modelli di Transkribus. Filtri per lingua, tipo di scrittura e secolo per trovare modelli adatti al Suo materiale — e verifichi i punteggi CER pubblicati prima di iniziare.
Documento protocollare storico trascritto con Transkribus
EUAT

Fondato sulla fiducia, alimentato dalla comunità.

Transkribus è sviluppato e ospitato in Europa da una cooperativa di ricercatori, archivi e biblioteche. I Suoi dati restano sotto il Suo controllo.

I Suoi dati restano Suoi

Proprietà completa. Cancellazione in qualsiasi momento.

Hosting in Austria, UE

Tutta l'elaborazione sui nostri server. Conforme al GDPR. Nessuna dipendenza da cloud di terze parti.

Cooperativa, non una startup

Centinaia di università, archivi e biblioteche come comproprietari. Costruito per durare decenni, non per un'uscita da venture capital.

Provi Transkribus sui Suoi documenti

Crei un account gratuito e scopra quale CER può ottenere sul Suo materiale. Inizi con un modello pubblico o ne addestri uno personalizzato.

50 crediti gratuiti ogni mese · Nessuna carta di credito richiesta

200M+Pagine elaborate
500K+Utenti nel mondo
300+Modelli IA pubblici