Naslagwerk

Character Error Rate (CER) — De standaardmaat voor transcriptienauwkeurigheid

CER is de meest gebruikte maat voor het beoordelen van handschrifttekstherkenning. Het meet het percentage tekens dat verschilt tussen een AI-transcriptie en een door mensen geverifieerde referentie — en het is het getal waarnaar reviewers, subsidieverstrekkers en collega-onderzoekers zullen vragen.

6 min leestijd

Hoe de CER wordt berekend

De Character Error Rate meet de bewerkingsafstand tussen de AI-transcriptie en de Ground Truth, genormaliseerd op de lengte van de referentietekst.

CER=S+D+IN

S = substitutions, D = deletions, I = insertions, N = total characters in the reference text. A CER of 20.0% means 5 out of 25 characters differ.

< 2%

Uitstekend

Publicatieklare nauwkeurigheid. Geschikt voor kritische edities en wetenschappelijk werk met minimale handmatige controle.

2–5%

Goed

Geschikt voor de meeste onderzoeksworkflows. Controleer steekproefsgewijs belangrijke passages en corrigeer deze vóór publicatie.

5–10%

Controle nodig

Bruikbaar voor zoeken op trefwoorden en indexering. Overweeg een eigen model te trainen voor betere resultaten.

Collecties met één hand

Voor documenten geschreven door één persoon met een consistent handschrift zijn doorgaans 15–30 pagina's Ground Truth voldoende voor goede resultaten (CER onder 5%).

Collecties met meerdere handen

Registers, rechtbankstukken of correspondentie met meerdere schrijvers vereisen meer diversiteit in de trainingsdata — doorgaans 50–100 pagina's met verschillende handschriften.

Begin met een publiek model

Er zijn meer dan 300 voorgetrainde modellen beschikbaar. Begin met een bestaand model, evalueer de CER op uw materiaal en train pas een eigen model als dat nodig is.

Iteratieve verbetering

U hoeft niet alle Ground Truth vooraf gereed te hebben. Begin met 15 pagina's, train, evalueer, voeg meer pagina's toe waar het model moeite mee heeft en train opnieuw.

De beoogde CER hangt af van het gebruiksdoel

Volledige-tekstzoekopdrachten werken goed bij 5–8% CER. Wetenschappelijke edities vereisen mogelijk minder dan 2%. Trefwoordherkenning tolereert zelfs 10–15%.

Kwaliteit boven kwantiteit

Nauwkeurige Ground Truth is belangrijker dan volume. 20 zorgvuldig gecorrigeerde pagina's presteren beter dan 100 pagina's met fouten in de referentie.

Zie hoe CER werkt — vergelijk transcriptiekwaliteit in één oogopslag

Elk voorbeeld hieronder toont een Ground Truth-regel en de bijbehorende herkende tekst. Afwijkende tekens zijn gemarkeerd. De CER wordt automatisch berekend op basis van de Levenshtein-bewerkingsafstand.

Ground Truth

Am 15. März 1782 erschien vor dem Gericht der Bürger Johann Georg Müller

Recognised Text

Am 15. März 1782 erschien vor dem Gericht der Bürger Johann Georg Muller

Correct Substitution Insertion Deletion

72Total chars

71Correct

1Substitutions

0Insertions

0Deletions

CER = (1 + 0 + 0) / 72= 1.4%

Benchmarks

CER-benchmarks per documenttype

Praktijk-CER-waarden hangen af van het documenttype, schrift en het gebruikte model. De onderstaande tabel vergelijkt typische resultaten van Transkribus AI-modellen met standaard OCR-engines.

Feature	Transkribus HTR	Standaard OCR
Printed modern text (post-1950)	0.5–1% CER	1–3% CER
Typewritten documents (1920s–1960s)	1–3% CER	3–8% CER
Handwritten 19th century	2–5% CER	15–30% CER
Kurrent / Sütterlin (18th–19th c.)	3–8% CER	Fails
Medieval manuscripts	5–15% CER	Fails

Waarden zijn indicatieve bereiken op basis van goed passende modellen. De werkelijke CER hangt af van de documentconditie, consistentie van het handschrift en de trainingsdata van het model.

Documentkwaliteit

Vervaagde inkt, vlekken, doorslag en fysieke beschadiging veroorzaken ruis die tekens moeilijker herkenbaar maakt. Hoogwaardige scans van goed bewaarde originelen leveren de beste CER.

Schrifttype

Modern cursief is makkelijker te herkennen dan Kurrent, Sütterlin of middeleeuwse boekschriften. Hoe verder het schrift van moderne lettervormen afwijkt, hoe meer trainingsdata het model nodig heeft.

Trainingsdata van het model

Een model dat getraind is op materiaal vergelijkbaar met het uwe presteert aanzienlijk beter dan een generiek model. Op maat getrainde modellen met 50–100 pagina's Ground Truth kunnen de CER halveren of meer.

Beeldresolutie

Scans van 300 DPI of hoger behouden fijne details die nodig zijn om op elkaar lijkende tekens te onderscheiden. Lage resolutie verhoogt substitutiefouten aanzienlijk.

Lay-outcomplexiteit

Meerkolomsindelingen, marginalia, tabellen en interlineaire annotaties vereisen nauwkeurige lay-outanalyse. Fouten in tekstregiodetectie verlagen de effectieve CER direct.

Taal

Talen met complexe diakritische tekens, niet-Latijnse schriften of uitgebreide ligaturen vormen extra uitdagingen. Specifieke taalmodellen behalen doorgaans de beste resultaten.

Vind het juiste model

Vind het juiste model voor uw documenten

Blader door meer dan 300 publieke AI-modellen in de Transkribus-modelcatalogus. Filter op taal, schrifttype en eeuw om modellen te vinden die bij uw materiaal passen — en controleer hun gepubliceerde CER-scores voordat u begint.

Publieke modellen bekijken

Historisch protocoldocument getranscribeerd met Transkribus

Gebouwd op vertrouwen, aangedreven door de gemeenschap.

Transkribus wordt ontwikkeld en gehost in Europa door een coöperatie van onderzoekers, archieven en bibliotheken. Uw data blijft onder uw controle.

Uw data blijft van u

Volledig eigendom. Op elk moment verwijderen.

Gehost in Oostenrijk, EU

Alle verwerking op eigen servers. AVG-conform. Geen afhankelijkheid van externe cloud.

Coöperatie, geen startup

Honderden universiteiten, archieven en bibliotheken als mede-eigenaren. Gebouwd voor de lange termijn, niet voor een beursgang.

Probeer Transkribus op uw eigen documenten

Maak een gratis account aan en ontdek welke CER u kunt bereiken met uw materiaal. Begin met een publiek model of train uw eigen model.

Gratis beginnen Publieke modellen bekijken

50 gratis credits per maand · Geen creditcard nodig

200M+Verwerkte pagina's

500K+Gebruikers wereldwijd

300+Publieke AI-modellen