Middeleeuwse handschriften transcriberen met AI

500.000+Gebruikers wereldwijd

200 M+Pagina's verwerkt

300+Publieke AI-modellen

500+Universiteiten en onderzoeksinstellingen

De uitdaging

Waarom middeleeuwse handschriftherkenning gespecialiseerd gereedschap vereist

Middeleeuwse manuscripten bieden uitdagingen die geen enkel algemeen OCR-systeem aankan. De schriften zelf vormen de eerste barrière: een 12e-eeuwse Karolingische minuskelcodex deelt vrijwel geen visuele kenmerken met een 15e-eeuws bastardaoorkonde. Maar de moeilijkheden gaan veel verder dan lettervormen. Middeleeuwse schrijvers gebruikten uitgebreide afkortingssystemen – suspensietekens, contractiestrepen, Tiroonse noten en gespecialiseerde symbolen voor gangbare Latijnse woorden – die tekst met 30-40% comprimeren. Ligaturen versmelten tekens op manieren die per scriptorium en schrijver variëren. Beschadigd perkament, vervaagde ijzergalinkt, palimpsesten en marginale glossen voegen verdere complexiteit toe. Standaard OCR, getraind op gedrukte tekst, produceert geen bruikbare output op deze materialen.

Afkortingssystemen: suspensie, contractie, superscriptletters, Tiroonse noten – standaard OCR heeft geen kader om deze te interpreteren

Schriftdiversiteit: gotische textura, rotunda, cursiva, Karolingische minuskel, Beneventaans, insulair, bastarda – elk vereist afzonderlijke herkenningsmodellen

Ligaturen en letterfusie variëren per scriptorium, periode en individuele schrijver

Fysieke schade: perkamentgaten, inktvervaging, palimpsesten, watervlekken en binding die tekst bij de rug verduistert

Meerlagige tekst: marginale glossen, interlineaire toevoegingen, correcties en rubricering vereisen geavanceerde lay-outanalyse

Voorbeelden van afkortingen en ligaturen in middeleeuwse manuscriptschriften

De oplossing

Hoe Transkribus middeleeuwse documenten transcribeert met HTR

Transkribus gebruikt Handwritten Text Recognition (HTR) – deep learning-modellen getraind op getranscribeerde manuscriptpagina's – in plaats van tekensjabloonmatching. Deze aanpak is fundamenteel geschikt voor middeleeuwse schriften omdat het holistische woord- en regelpatronen leert, niet geïsoleerde tekenvormen. De publieke modelrepository van het platform bevat modellen getraind op specifieke middeleeuwse schriften door onderzoekers die dagelijks met deze materialen werken. Waar geen bestaand model past bij jouw collectie, stelt Transkribus je in staat om een op maat gemaakt HTR-model te trainen op je eigen ground truth-gegevens, waardoor een herkenningsengine ontstaat die is afgestemd op een specifieke schrijver, scriptorium of documenttype.

Publieke HTR-modellen voor gotische textura, Karolingische minuskel en andere belangrijke middeleeuwse schriften – direct klaar voor gebruik

Training van op maat gemaakte modellen: lever 50-100 pagina's ground truth en train een model voor je specifieke manuscripthandschrift

Lay-outanalyse verwerkt meerkolomspagina's, marginale glossen, rubricering en interlineaire tekst

Afkortingsuitschrijving kan worden opgenomen in de modeltraining voor volledig opgeloste transcripties

Exporteer als TEI-XML met woordniveau-coördinaten en betrouwbaarheidsscores voor digitale wetenschappelijke edities

Hoe handschriftherkenning werkt

Addres to dear Isabella on the Authors

recovery

O Isa pain did visit me

I was at the last extremity

How often did I think of you

I wished your graceful form to view

To clasp you in my weak embrace

Indeed I thought Id run my race

Good Care Im sure was of me taken

But indeed I was much shaken

At last I daily strength did gain

Van manuscriptafbeelding naar TEI-XML-editie in 4 stappen

Upload manuscriptafbeeldingen

Importeer hoogwaardige scans of foto's van manuscriptfolia. Transkribus accepteert TIFF, JPG, PNG en PDF. Organiseer per codex, katern of collectie.

Selecteer of train een HTR-model

Kies uit publieke modellen getraind op middeleeuwse schriften, of train een op maat gemaakt model op je eigen ground truth. Voor de beste resultaten op een specifiek manuscripthandschrift volstaan 50-100 getranscribeerde pagina's.

Voer lay-outanalyse en herkenning uit

Transkribus detecteert tekstgebieden, basislijnen, kolommen en marginale zones automatisch. HTR verwerkt elke gedetecteerde regel en retourneert de transcriptie met betrouwbaarheidsscores per regel.

Controleer, corrigeer en exporteer

Controleer de transcriptie in de ingebouwde editor naast het manuscriptbeeld. Corrigeer fouten, voeg TEI-markup toe en exporteer als TEI-XML, PAGE XML, ALTO of platte tekst voor je editie of corpus.

Modellen en schriften

Gotische schriftherkenning en meer: publieke modellen voor middeleeuwse paleografie

De publieke modelrepository van Transkribus bevat HTR-modellen bijgedragen door onderzoekers in middeleeuwse studies en digital humanities-projecten wereldwijd. Deze modellen dekken de belangrijkste schriftfamilies die voorkomen in Europese manuscripttradities van de 8e tot de 16e eeuw. Omdat elk model is getraind op daadwerkelijke manuscriptpagina's – niet op synthetische data – weerspiegelen ze de werkelijke variatie van schrijvershanden, regionale conventies en periodespecifieke afkortingspraktijken.

Gotische textura (textualis formata en libraria): Latijnse liturgische en literaire manuscripten, 12e-15e eeuw

Karolingische minuskel: codices uit het Karolingische tijdperk, 9e-12e eeuw – de basis van latere Europese schriften

Beneventaans schrift: Zuid-Italiaanse en Dalmatische manuscripten, 8e-13e eeuw

Insulaire schriften (insulair majuskel en minuskel): Ierse en Angelsaksische manuscripten, 6e-9e eeuw

Bastarda en hybrida: laat-middeleeuwse administratieve en literaire manuscripten, 14e-16e eeuw

Training van op maat gemaakte modellen voor elk schrift dat niet wordt gedekt door bestaande publieke modellen

Publieke modellen bekijken

Voorbeelden van middeleeuwse schrifttypen ondersteund door Transkribus HTR-modellen

Op maat trainen

Train een op maat gemaakt HTR-model voor je manuscriptcollectie

Geen twee middeleeuwse manuscriptcollecties zijn hetzelfde. Een 14e-eeuws notarieel register uit de Provence gebruikt een ander handschrift dan een 14e-eeuws psalter uit Bohemen, ook al vallen beide onder 'gotische cursiva'. Transkribus stelt je in staat om een op maat gemaakt HTR-model te trainen op je eigen getranscribeerde ground truth, waardoor een herkenningsengine ontstaat die precies is afgestemd op jouw documenten. Dit is hoe onderzoeksteams de hoogste nauwkeurigheid bereiken – door vakkennis in paleografie te combineren met machine learning.

Begin met 50-100 pagina's handmatig getranscribeerde ground truth uit je manuscript

Het trainingsproces duurt doorgaans enkele uren en kan worden gestart vanuit de Transkribus-interface

Getrainde modellen kunnen schrijversafkortingen oplossen als je ground truth uitgeschreven vormen bevat

Verfijn een bestaand publiek model op je data voor snellere convergentie en minder trainingspagina's

Deel je getrainde model met de onderzoeksgemeenschap of houd het privé voor je project

Train een op maat gemaakt model voor je manuscript

Trainingworkflow voor een op maat gemaakt HTR-model voor middeleeuwse manuscripten

Veelgestelde vragen

Welke middeleeuwse schriften ondersteunt Transkribus?

Transkribus heeft publieke HTR-modellen voor de belangrijkste middeleeuwse schriftfamilies, waaronder gotische textura (textualis), karolingische minuskel, Beneventaans, Insulair (zowel majuskel als minuskel), bastarda, hybrida en diverse regionale cursieve handen. De modelcatalogus wordt continu uitgebreid door de onderzoeksgemeenschap. Voor schriften die nog niet gedekt zijn, kun je een eigen model trainen op je eigen ground truth-gegevens.

Welke nauwkeurigheid kan ik verwachten op middeleeuwse manuscripten?

De nauwkeurigheid varieert aanzienlijk afhankelijk van het schrift, de staat van het manuscript en het gebruikte model. Op goed bewaarde gotische textura met een passend model zijn Character Error Rates van 3-5% haalbaar. Lastiger materiaal – beschadigd perkament, sterk geabbrevieerde tekst, ongebruikelijke handen – kan beginnen met 10-15% foutpercentage met een publiek model en aanzienlijk verbeteren met een op maat getraind model. Elke regel bevat een betrouwbaarheidsscore voor gerichte controle.

Hoe train ik een model voor een specifiek manuscripthandschrift?

Transcribeer 50-100 representatieve pagina's uit je manuscript met de Transkribus-editor. Deze ground truth-gegevens dienen als trainingsinput. Start het trainingsproces vanuit de interface – het duurt doorgaans enkele uren. Het resulterende model is specifiek afgestemd op het schrift, afkortingssysteem en de lay-out van jouw manuscript. Je kunt het model iteratief verbeteren door meer ground truth toe te voegen.

Hoe gaat Transkribus om met afkortingen en ligaturen?

Dit hangt af van hoe je ground truth is voorbereid. Als je trainingsdata afkortingen uitschrijft (bijv. het suspensieteken boven 'dn' transcriberen als 'dominus'), leert het model uitgeschreven vormen te produceren. Als je ground truth afkortingstekens behoudt als Unicode-tekens, reproduceert het model deze. Veel onderzoekers trainen twee modellen – een voor diplomatische transcriptie en een voor uitgeschreven tekst – afhankelijk van hun editorische methodologie.

Kan ik exporteren naar TEI-XML voor kritische edities?

Ja. Transkribus ondersteunt TEI-XML-export met woordniveau-coordinaten, betrouwbaarheidsscores en structurele markup. Deze output kan worden geintegreerd in frameworks voor digitale edities zoals EVT (Edition Visualization Technology) of worden gebruikt als input voor collatietools zoals CollateX. PAGE XML- en ALTO XML-exports zijn ook beschikbaar voor andere downstream-workflows.

Hoe gaat Transkribus om met beschadigde of fragmentarische manuscripten?

De lay-outanalyse-engine detecteert tekstgebieden zelfs op pagina's met gaten, vlekken of ontbrekende secties. Voor beschadigde gebieden produceert het HTR-model output met lagere betrouwbaarheidsscores, waardoor onzekere lezingen duidelijk worden gemarkeerd. Onderzoekers kunnen lacunes markeren in de editor en beschadigde gebieden uitsluiten van verwerking. Het systeem hallucineert geen tekst waar niets leesbaar is.

Hoe moet ik Transkribus citeren in publicaties?

Transkribus biedt een aanbevolen citatieformaat in de documentatie. Doorgaans vermeld je het platform (Transkribus, ontwikkeld aan de Universiteit van Innsbruck), het specifieke HTR-model (inclusief ID en versie), en de verwerkingsdatum. Dit waarborgt reproduceerbaarheid – een andere onderzoeker kan hetzelfde model toepassen om je transcripties te verifieren. De READ-COOP-publicatielijst bevat de belangrijkste referentieartikelen.

Gebouwd voor onderzoek. Gehost in Europa. Bestuurd door de gemeenschap.

Transkribus is ontwikkeld en wordt beheerd door de READ-COOP, een Europese coöperatie van 250+ onderzoeksinstellingen, archieven en bibliotheken.

Uw gegevens blijven van u

Volledig eigendom van alle geüploade documenten en gegenereerde transcripties. Verwijder op elk moment.

Gehost in Oostenrijk, EU

Verwerking op onze eigen servers. AVG-conform. Geen cloud-afhankelijkheden van derden.

Coöperatie, geen startup

Duizenden archieven, bibliotheken en universiteiten als mede-eigenaren. Gebouwd voor decennia, niet voor een VC-exit.

Gerelateerde bronnen

Meer voor onderzoekers

Ontdek de bredere Transkribus-onderzoekstoolkit: Transkribus voor onderzoekers · Wat is HTR? · Archiefachterstand verminderen · Maak doorzoekbare PDF's

Transkribus voor onderzoekers

Klaar om je manuscripttranscriptie te versnellen?

Sluit je aan bij 500+ universiteiten die Transkribus al gebruiken voor handgeschreven tekstherkenning. Begin met gratis credits en ontdek publieke modellen voor middeleeuwse schriften. Of probeer de gratis handschriftvertaler – geen account nodig.

Gratis proberen Bekijk abonnementen

50 gratis credits per maand – Geen creditcard vereist