Taux d'erreur par caractère (CER) — La métrique de référence pour la précision de transcription
Le CER est la métrique la plus utilisée pour évaluer la reconnaissance d'écriture manuscrite. Il mesure le pourcentage de caractères qui diffèrent entre une transcription automatique et une référence vérifiée par un humain — et c'est le chiffre que les évaluateurs, les financeurs et vos collègues chercheurs vous demanderont.
Comment le CER est calculé
Le Character Error Rate mesure la distance d'édition entre la transcription automatique et la vérité de terrain (Ground Truth), normalisée par la longueur du texte de référence.
S = substitutions, D = deletions, I = insertions, N = total characters in the reference text. A CER of 20.0% means 5 out of 25 characters differ.
Excellent
Précision prête pour la publication. Convient aux éditions critiques et aux travaux scientifiques avec un minimum de relecture manuelle.
Bon
Convient à la plupart des flux de travail de recherche. Vérifiez ponctuellement les passages clés et corrigez-les avant publication.
À vérifier
Exploitable pour la recherche par mots-clés et l'indexation. Envisagez l'entraînement d'un modèle personnalisé pour de meilleurs résultats.
De combien de vérité de terrain avez-vous besoin ?
La quantité de données d'entraînement nécessaire dépend de vos documents, de la précision visée et du nombre d'écritures différentes auxquelles vous êtes confronté.
Collections à une seule main
Pour des documents rédigés par une seule personne dans une écriture régulière, 15 à 30 pages de vérité de terrain suffisent généralement pour obtenir de bons résultats (CER inférieur à 5 %).
Collections à plusieurs mains
Les registres, minutes judiciaires ou correspondances impliquant plusieurs scripteurs nécessitent davantage de diversité dans les données d'entraînement — généralement 50 à 100 pages couvrant différentes écritures.
Commencez par un modèle public
Plus de 300 modèles pré-entraînés sont disponibles. Commencez par l'un d'entre eux, évaluez son CER sur vos documents, et n'entraînez un modèle personnalisé qu'en cas de besoin.
Amélioration itérative
Vous n'avez pas besoin de toute la vérité de terrain dès le départ. Commencez avec 15 pages, entraînez le modèle, évaluez-le, ajoutez des pages là où il rencontre des difficultés, puis réentraînez.
Le CER cible dépend du cas d'usage
La recherche en texte intégral fonctionne bien avec un CER de 5 à 8 %. Les éditions savantes peuvent exiger moins de 2 %. La recherche par mots-clés tolère même 10 à 15 %.
La qualité prime sur la quantité
La qualité de la vérité de terrain importe davantage que le volume. 20 pages soigneusement corrigées surpassent 100 pages comportant des erreurs dans la référence.
Comprendre le CER — comparez la qualité de transcription en un coup d'œil
Chaque exemple ci-dessous montre une ligne de vérité terrain (Ground Truth) et le texte reconnu correspondant. Les caractères divergents sont mis en évidence. Le CER est calculé automatiquement à partir de la distance d'édition de Levenshtein.
Références comparatives
Benchmarks CER par type de document
Les valeurs de CER réelles dépendent du type de document, de l'écriture et du modèle utilisé. Le tableau ci-dessous compare les résultats typiques des modèles d'IA Transkribus avec ceux des moteurs OCR standards.
| Feature | Transkribus HTR | OCR standard |
|---|---|---|
| Printed modern text (post-1950) | 0.5–1% CER | 1–3% CER |
| Typewritten documents (1920s–1960s) | 1–3% CER | 3–8% CER |
| Handwritten 19th century | 2–5% CER | 15–30% CER |
| Kurrent / Sütterlin (18th–19th c.) | 3–8% CER | Fails |
| Medieval manuscripts | 5–15% CER | Fails |
Les valeurs sont des fourchettes indicatives basées sur des modèles bien adaptés. Le CER réel dépend de l'état du document, de la régularité de l'écriture et des données d'entraînement du modèle.
Les facteurs qui influencent le CER
Six facteurs qui déterminent la précision de la transcription de vos documents — et ce que vous pouvez faire pour chacun d'entre eux.
Qualité du document
Encre effacée, taches, transparence et dommages physiques introduisent du bruit qui rend les caractères plus difficiles à reconnaître. Des numérisations de haute qualité de documents bien conservés donnent le meilleur CER.
Type d'écriture
L'écriture cursive moderne est plus facile à reconnaître que le Kurrent, le Sütterlin ou les écritures médiévales. Plus l'écriture s'éloigne des formes de lettres modernes, plus le modèle a besoin de données d'entraînement.
Données d'entraînement du modèle
Un modèle entraîné sur du matériel similaire au vôtre surpassera considérablement un modèle générique. Des modèles personnalisés entraînés sur 50 à 100 pages de vérité terrain peuvent réduire le CER de moitié ou plus.
Résolution d'image
Les numérisations à 300 DPI ou plus préservent les détails fins nécessaires pour distinguer les caractères similaires. Les images en basse résolution augmentent significativement les erreurs de substitution.
Complexité de la mise en page
Les mises en page multi-colonnes, annotations marginales, tableaux et annotations interlinéaires nécessitent une analyse de mise en page précise. Les erreurs dans la détection des zones de texte réduisent directement le CER effectif.
Langue
Les langues avec des diacritiques complexes, des écritures non latines ou des ligatures étendues posent des difficultés supplémentaires. Les modèles spécialisés par langue obtiennent généralement les meilleurs résultats.
Trouver le bon modèle
Trouvez le bon modèle pour vos documents

Essayez Transkribus sur vos propres documents
Créez un compte gratuit et découvrez quel CER vous pouvez atteindre sur vos documents. Commencez avec un modèle public ou entraînez le vôtre.
50 crédits gratuits chaque mois · Aucune carte bancaire requise