Character Error Rate (CER) — De standaardmaat voor transcriptienauwkeurigheid
CER is de meest gebruikte maat voor het beoordelen van handschrifttekstherkenning. Het meet het percentage tekens dat verschilt tussen een AI-transcriptie en een door mensen geverifieerde referentie — en het is het getal waarnaar reviewers, subsidieverstrekkers en collega-onderzoekers zullen vragen.
Hoe de CER wordt berekend
De Character Error Rate meet de bewerkingsafstand tussen de AI-transcriptie en de Ground Truth, genormaliseerd op de lengte van de referentietekst.
S = substitutions, D = deletions, I = insertions, N = total characters in the reference text. A CER of 20.0% means 5 out of 25 characters differ.
Uitstekend
Publicatieklare nauwkeurigheid. Geschikt voor kritische edities en wetenschappelijk werk met minimale handmatige controle.
Goed
Geschikt voor de meeste onderzoeksworkflows. Controleer steekproefsgewijs belangrijke passages en corrigeer deze vóór publicatie.
Controle nodig
Bruikbaar voor zoeken op trefwoorden en indexering. Overweeg een eigen model te trainen voor betere resultaten.
Hoeveel Ground Truth heeft u nodig?
De benodigde hoeveelheid trainingsdata hangt af van uw materiaal, de gewenste nauwkeurigheid en het aantal verschillende handschriften.
Collecties met één hand
Voor documenten geschreven door één persoon met een consistent handschrift zijn doorgaans 15–30 pagina's Ground Truth voldoende voor goede resultaten (CER onder 5%).
Collecties met meerdere handen
Registers, rechtbankstukken of correspondentie met meerdere schrijvers vereisen meer diversiteit in de trainingsdata — doorgaans 50–100 pagina's met verschillende handschriften.
Begin met een publiek model
Er zijn meer dan 300 voorgetrainde modellen beschikbaar. Begin met een bestaand model, evalueer de CER op uw materiaal en train pas een eigen model als dat nodig is.
Iteratieve verbetering
U hoeft niet alle Ground Truth vooraf gereed te hebben. Begin met 15 pagina's, train, evalueer, voeg meer pagina's toe waar het model moeite mee heeft en train opnieuw.
De beoogde CER hangt af van het gebruiksdoel
Volledige-tekstzoekopdrachten werken goed bij 5–8% CER. Wetenschappelijke edities vereisen mogelijk minder dan 2%. Trefwoordherkenning tolereert zelfs 10–15%.
Kwaliteit boven kwantiteit
Nauwkeurige Ground Truth is belangrijker dan volume. 20 zorgvuldig gecorrigeerde pagina's presteren beter dan 100 pagina's met fouten in de referentie.
Zie hoe CER werkt — vergelijk transcriptiekwaliteit in één oogopslag
Elk voorbeeld hieronder toont een Ground Truth-regel en de bijbehorende herkende tekst. Afwijkende tekens zijn gemarkeerd. De CER wordt automatisch berekend op basis van de Levenshtein-bewerkingsafstand.
Benchmarks
CER-benchmarks per documenttype
Praktijk-CER-waarden hangen af van het documenttype, schrift en het gebruikte model. De onderstaande tabel vergelijkt typische resultaten van Transkribus AI-modellen met standaard OCR-engines.
| Feature | Transkribus HTR | Standaard OCR |
|---|---|---|
| Printed modern text (post-1950) | 0.5–1% CER | 1–3% CER |
| Typewritten documents (1920s–1960s) | 1–3% CER | 3–8% CER |
| Handwritten 19th century | 2–5% CER | 15–30% CER |
| Kurrent / Sütterlin (18th–19th c.) | 3–8% CER | Fails |
| Medieval manuscripts | 5–15% CER | Fails |
Waarden zijn indicatieve bereiken op basis van goed passende modellen. De werkelijke CER hangt af van de documentconditie, consistentie van het handschrift en de trainingsdata van het model.
Wat beïnvloedt de CER
Zes factoren die bepalen hoe nauwkeurig uw documenten getranscribeerd kunnen worden — en wat u aan elk daarvan kunt doen.
Documentkwaliteit
Vervaagde inkt, vlekken, doorslag en fysieke beschadiging veroorzaken ruis die tekens moeilijker herkenbaar maakt. Hoogwaardige scans van goed bewaarde originelen leveren de beste CER.
Schrifttype
Modern cursief is makkelijker te herkennen dan Kurrent, Sütterlin of middeleeuwse boekschriften. Hoe verder het schrift van moderne lettervormen afwijkt, hoe meer trainingsdata het model nodig heeft.
Trainingsdata van het model
Een model dat getraind is op materiaal vergelijkbaar met het uwe presteert aanzienlijk beter dan een generiek model. Op maat getrainde modellen met 50–100 pagina's Ground Truth kunnen de CER halveren of meer.
Beeldresolutie
Scans van 300 DPI of hoger behouden fijne details die nodig zijn om op elkaar lijkende tekens te onderscheiden. Lage resolutie verhoogt substitutiefouten aanzienlijk.
Lay-outcomplexiteit
Meerkolomsindelingen, marginalia, tabellen en interlineaire annotaties vereisen nauwkeurige lay-outanalyse. Fouten in tekstregiodetectie verlagen de effectieve CER direct.
Taal
Talen met complexe diakritische tekens, niet-Latijnse schriften of uitgebreide ligaturen vormen extra uitdagingen. Specifieke taalmodellen behalen doorgaans de beste resultaten.
Vind het juiste model
Vind het juiste model voor uw documenten

Probeer Transkribus op uw eigen documenten
Maak een gratis account aan en ontdek welke CER u kunt bereiken met uw materiaal. Begin met een publiek model of train uw eigen model.
50 gratis credits per maand · Geen creditcard nodig