Skip to content
  • Tarifs
Référence

Taux d'erreur par caractère (CER) — La métrique de référence pour la précision de transcription

Le CER est la métrique la plus utilisée pour évaluer la reconnaissance d'écriture manuscrite. Il mesure le pourcentage de caractères qui diffèrent entre une transcription automatique et une référence vérifiée par un humain — et c'est le chiffre que les évaluateurs, les financeurs et vos collègues chercheurs vous demanderont.

6 min de lecture

Comment le CER est calculé

Le Character Error Rate mesure la distance d'édition entre la transcription automatique et la vérité de terrain (Ground Truth), normalisée par la longueur du texte de référence.

CER=S+D+IN

S = substitutions, D = deletions, I = insertions, N = total characters in the reference text. A CER of 20.0% means 5 out of 25 characters differ.

< 2 %

Excellent

Précision prête pour la publication. Convient aux éditions critiques et aux travaux scientifiques avec un minimum de relecture manuelle.

2–5%

Bon

Convient à la plupart des flux de travail de recherche. Vérifiez ponctuellement les passages clés et corrigez-les avant publication.

5–10%

À vérifier

Exploitable pour la recherche par mots-clés et l'indexation. Envisagez l'entraînement d'un modèle personnalisé pour de meilleurs résultats.

De combien de vérité de terrain avez-vous besoin ?

La quantité de données d'entraînement nécessaire dépend de vos documents, de la précision visée et du nombre d'écritures différentes auxquelles vous êtes confronté.

Collections à une seule main

Pour des documents rédigés par une seule personne dans une écriture régulière, 15 à 30 pages de vérité de terrain suffisent généralement pour obtenir de bons résultats (CER inférieur à 5 %).

Collections à plusieurs mains

Les registres, minutes judiciaires ou correspondances impliquant plusieurs scripteurs nécessitent davantage de diversité dans les données d'entraînement — généralement 50 à 100 pages couvrant différentes écritures.

Commencez par un modèle public

Plus de 300 modèles pré-entraînés sont disponibles. Commencez par l'un d'entre eux, évaluez son CER sur vos documents, et n'entraînez un modèle personnalisé qu'en cas de besoin.

Amélioration itérative

Vous n'avez pas besoin de toute la vérité de terrain dès le départ. Commencez avec 15 pages, entraînez le modèle, évaluez-le, ajoutez des pages là où il rencontre des difficultés, puis réentraînez.

Le CER cible dépend du cas d'usage

La recherche en texte intégral fonctionne bien avec un CER de 5 à 8 %. Les éditions savantes peuvent exiger moins de 2 %. La recherche par mots-clés tolère même 10 à 15 %.

La qualité prime sur la quantité

La qualité de la vérité de terrain importe davantage que le volume. 20 pages soigneusement corrigées surpassent 100 pages comportant des erreurs dans la référence.

Comprendre le CER — comparez la qualité de transcription en un coup d'œil

Chaque exemple ci-dessous montre une ligne de vérité terrain (Ground Truth) et le texte reconnu correspondant. Les caractères divergents sont mis en évidence. Le CER est calculé automatiquement à partir de la distance d'édition de Levenshtein.

Ground Truth
Am 15. März 1782 erschien vor dem Gericht der Bürger Johann Georg Müller
Recognised Text
Am 15. März 1782 erschien vor dem Gericht der Bürger Johann Georg Muller
Correct Substitution Insertion Deletion
72Total chars
71Correct
1Substitutions
0Insertions
0Deletions
CER = (1 + 0 + 0) / 72= 1.4%

Références comparatives

Benchmarks CER par type de document

Les valeurs de CER réelles dépendent du type de document, de l'écriture et du modèle utilisé. Le tableau ci-dessous compare les résultats typiques des modèles d'IA Transkribus avec ceux des moteurs OCR standards.

FeatureTranskribus HTROCR standard
Printed modern text (post-1950)0.5–1% CER1–3% CER
Typewritten documents (1920s–1960s)1–3% CER3–8% CER
Handwritten 19th century2–5% CER15–30% CER
Kurrent / Sütterlin (18th–19th c.)3–8% CERFails
Medieval manuscripts5–15% CERFails

Les valeurs sont des fourchettes indicatives basées sur des modèles bien adaptés. Le CER réel dépend de l'état du document, de la régularité de l'écriture et des données d'entraînement du modèle.

Les facteurs qui influencent le CER

Six facteurs qui déterminent la précision de la transcription de vos documents — et ce que vous pouvez faire pour chacun d'entre eux.

Qualité du document

Encre effacée, taches, transparence et dommages physiques introduisent du bruit qui rend les caractères plus difficiles à reconnaître. Des numérisations de haute qualité de documents bien conservés donnent le meilleur CER.

Type d'écriture

L'écriture cursive moderne est plus facile à reconnaître que le Kurrent, le Sütterlin ou les écritures médiévales. Plus l'écriture s'éloigne des formes de lettres modernes, plus le modèle a besoin de données d'entraînement.

Données d'entraînement du modèle

Un modèle entraîné sur du matériel similaire au vôtre surpassera considérablement un modèle générique. Des modèles personnalisés entraînés sur 50 à 100 pages de vérité terrain peuvent réduire le CER de moitié ou plus.

Résolution d'image

Les numérisations à 300 DPI ou plus préservent les détails fins nécessaires pour distinguer les caractères similaires. Les images en basse résolution augmentent significativement les erreurs de substitution.

Complexité de la mise en page

Les mises en page multi-colonnes, annotations marginales, tableaux et annotations interlinéaires nécessitent une analyse de mise en page précise. Les erreurs dans la détection des zones de texte réduisent directement le CER effectif.

Langue

Les langues avec des diacritiques complexes, des écritures non latines ou des ligatures étendues posent des difficultés supplémentaires. Les modèles spécialisés par langue obtiennent généralement les meilleurs résultats.

Trouver le bon modèle

Trouvez le bon modèle pour vos documents

Parcourez plus de 300 modèles d'IA publics dans le catalogue de modèles Transkribus. Filtrez par langue, type d'écriture et siècle pour trouver les modèles adaptés à vos documents — et consultez leurs scores CER publiés avant de commencer.
Document de procès-verbal historique transcrit avec Transkribus
EUAT

Fondé sur la confiance, porté par la communauté.

Transkribus est développé et hébergé en Europe par une coopérative de chercheurs, d'archives et de bibliothèques. Vos données restent sous votre contrôle.

Vos données restent les vôtres

Propriété totale. Supprimez à tout moment.

Hébergé en Autriche, UE

Tout le traitement sur nos propres serveurs. Conforme au RGPD. Aucune dépendance à un cloud tiers.

Une coopérative, pas une startup

Des centaines d'universités, d'archives et de bibliothèques comme copropriétaires. Conçu pour durer, pas pour une revente.

Essayez Transkribus sur vos propres documents

Créez un compte gratuit et découvrez quel CER vous pouvez atteindre sur vos documents. Commencez avec un modèle public ou entraînez le vôtre.

50 crédits gratuits chaque mois · Aucune carte bancaire requise

200 M+Pages traitées
500 K+Utilisateurs dans le monde
300+Modèles d'IA publics