Skip to content
  • Prijzen

Middeleeuwse manuscripttranscriptiesoftware: AI-gestuurde HTR voor historische schriften

Gotische textura, Karolingische minuskel, Beneventaans en meer — AI-gestuurde HTR verandert maanden handmatige transcriptie in uren, met TEI-XML-export voor kritische edities.

Middeleeuwse schriftenGotische texturaOp maat gemaakte modellenGratis proberen

Sleep hier een afbeelding

Selecteer een bestand...

PNG of JPG tot 10 Mb

Wolpi
AI Assistant

Door een afbeelding te uploaden, accepteert u onze voorwaarden en ons privacybeleid.

Vertrouwd door 500.000+ gebruikers wereldwijd — 200 M+ pagina's verwerkt

500.000+
Gebruikers wereldwijd
200 M+
Pagina's verwerkt
300+
Publieke AI-modellen
500+
Universiteiten en onderzoeksinstellingen

De uitdaging

Waarom middeleeuwse handschriftherkenning gespecialiseerd gereedschap vereist

Middeleeuwse manuscripten bieden uitdagingen die geen enkel algemeen OCR-systeem aankan. De schriften zelf vormen de eerste barrière: een 12e-eeuwse Karolingische minuskelcodex deelt vrijwel geen visuele kenmerken met een 15e-eeuws bastardaoorkonde. Maar de moeilijkheden gaan veel verder dan lettervormen. Middeleeuwse schrijvers gebruikten uitgebreide afkortingssystemen — suspensietekens, contractiestrepen, Tiroonse noten en gespecialiseerde symbolen voor gangbare Latijnse woorden — die tekst met 30-40% comprimeren. Ligaturen versmelten tekens op manieren die per scriptorium en schrijver variëren. Beschadigd perkament, vervaagde ijzergalinkt, palimpsesten en marginale glossen voegen verdere complexiteit toe. Standaard OCR, getraind op gedrukte tekst, produceert geen bruikbare output op deze materialen.
Afkortingssystemen: suspensie, contractie, superscriptletters, Tiroonse noten — standaard OCR heeft geen kader om deze te interpreteren
Schriftdiversiteit: gotische textura, rotunda, cursiva, Karolingische minuskel, Beneventaans, insulair, bastarda — elk vereist afzonderlijke herkenningsmodellen
Ligaturen en letterfusie variëren per scriptorium, periode en individuele schrijver
Fysieke schade: perkamentgaten, inktvervaging, palimpsesten, watervlekken en binding die tekst bij de rug verduistert
Meerlagige tekst: marginale glossen, interlineaire toevoegingen, correcties en rubricering vereisen geavanceerde lay-outanalyse
Voorbeelden van afkortingen en ligaturen in middeleeuwse manuscriptschriften

De oplossing

Hoe Transkribus middeleeuwse documenten transcribeert met HTR

Transkribus gebruikt Handwritten Text Recognition (HTR) — deep learning-modellen getraind op getranscribeerde manuscriptpagina's — in plaats van tekensjabloonmatching. Deze aanpak is fundamenteel geschikt voor middeleeuwse schriften omdat het holistische woord- en regelpatronen leert, niet geïsoleerde tekenvormen. De publieke modelrepository van het platform bevat modellen getraind op specifieke middeleeuwse schriften door onderzoekers die dagelijks met deze materialen werken. Waar geen bestaand model past bij jouw collectie, stelt Transkribus je in staat om een op maat gemaakt HTR-model te trainen op je eigen ground truth-gegevens, waardoor een herkenningsengine ontstaat die is afgestemd op een specifieke schrijver, scriptorium of documenttype.
Publieke HTR-modellen voor gotische textura, Karolingische minuskel en andere belangrijke middeleeuwse schriften — direct klaar voor gebruik
Training van op maat gemaakte modellen: lever 50-100 pagina's ground truth en train een model voor je specifieke manuscripthandschrift
Lay-outanalyse verwerkt meerkolomspagina's, marginale glossen, rubricering en interlineaire tekst
Afkortingsuitschrijving kan worden opgenomen in de modeltraining voor volledig opgeloste transcripties
Exporteer als TEI-XML met woordniveau-coördinaten en betrouwbaarheidsscores voor digitale wetenschappelijke edities
Document
Addres to dear Isabella on the Authors
recovery
O Isa pain did visit me
I was at the last extremity
How often did I think of you
I wished your graceful form to view
To clasp you in my weak embrace
Indeed I thought Id run my race
Good Care Im sure was of me taken
But indeed I was much shaken
At last I daily strength did gain

Van manuscriptafbeelding naar TEI-XML-editie in 4 stappen

Upload manuscriptafbeeldingen

Importeer hoogwaardige scans of foto's van manuscriptfolia. Transkribus accepteert TIFF, JPG, PNG en PDF. Organiseer per codex, katern of collectie.

Selecteer of train een HTR-model

Kies uit publieke modellen getraind op middeleeuwse schriften, of train een op maat gemaakt model op je eigen ground truth. Voor de beste resultaten op een specifiek manuscripthandschrift volstaan 50-100 getranscribeerde pagina's.

Voer lay-outanalyse en herkenning uit

Transkribus detecteert tekstgebieden, basislijnen, kolommen en marginale zones automatisch. HTR verwerkt elke gedetecteerde regel en retourneert de transcriptie met betrouwbaarheidsscores per regel.

Controleer, corrigeer en exporteer

Controleer de transcriptie in de ingebouwde editor naast het manuscriptbeeld. Corrigeer fouten, voeg TEI-markup toe en exporteer als TEI-XML, PAGE XML, ALTO of platte tekst voor je editie of corpus.

Modellen en schriften

Gotische schriftherkenning en meer: publieke modellen voor middeleeuwse paleografie

De publieke modelrepository van Transkribus bevat HTR-modellen bijgedragen door onderzoekers in middeleeuwse studies en digital humanities-projecten wereldwijd. Deze modellen dekken de belangrijkste schriftfamilies die voorkomen in Europese manuscripttradities van de 8e tot de 16e eeuw. Omdat elk model is getraind op daadwerkelijke manuscriptpagina's — niet op synthetische data — weerspiegelen ze de werkelijke variatie van schrijvershanden, regionale conventies en periodespecifieke afkortingspraktijken.
Gotische textura (textualis formata en libraria): Latijnse liturgische en literaire manuscripten, 12e-15e eeuw
Karolingische minuskel: codices uit het Karolingische tijdperk, 9e-12e eeuw — de basis van latere Europese schriften
Beneventaans schrift: Zuid-Italiaanse en Dalmatische manuscripten, 8e-13e eeuw
Insulaire schriften (insulair majuskel en minuskel): Ierse en Angelsaksische manuscripten, 6e-9e eeuw
Bastarda en hybrida: laat-middeleeuwse administratieve en literaire manuscripten, 14e-16e eeuw
Training van op maat gemaakte modellen voor elk schrift dat niet wordt gedekt door bestaande publieke modellen
Voorbeelden van middeleeuwse schrifttypen ondersteund door Transkribus HTR-modellen

Op maat trainen

Train een op maat gemaakt HTR-model voor je manuscriptcollectie

Geen twee middeleeuwse manuscriptcollecties zijn hetzelfde. Een 14e-eeuws notarieel register uit de Provence gebruikt een ander handschrift dan een 14e-eeuws psalter uit Bohemen, ook al vallen beide onder 'gotische cursiva'. Transkribus stelt je in staat om een op maat gemaakt HTR-model te trainen op je eigen getranscribeerde ground truth, waardoor een herkenningsengine ontstaat die precies is afgestemd op jouw documenten. Dit is hoe onderzoeksteams de hoogste nauwkeurigheid bereiken — door vakkennis in paleografie te combineren met machine learning.
Begin met 50-100 pagina's handmatig getranscribeerde ground truth uit je manuscript
Het trainingsproces duurt doorgaans enkele uren en kan worden gestart vanuit de Transkribus-interface
Getrainde modellen kunnen schrijversafkortingen oplossen als je ground truth uitgeschreven vormen bevat
Verfijn een bestaand publiek model op je data voor snellere convergentie en minder trainingspagina's
Deel je getrainde model met de onderzoeksgemeenschap of houd het privé voor je project
Trainingworkflow voor een op maat gemaakt HTR-model voor middeleeuwse manuscripten

Veelgestelde vragen

Transkribus heeft publieke HTR-modellen voor de belangrijkste middeleeuwse schriftfamilies, waaronder gotische textura (textualis), karolingische minuskel, Beneventaans, Insulair (zowel majuskel als minuskel), bastarda, hybrida en diverse regionale cursieve handen. De modelcatalogus wordt continu uitgebreid door de onderzoeksgemeenschap. Voor schriften die nog niet gedekt zijn, kun je een eigen model trainen op je eigen ground truth-gegevens.
De nauwkeurigheid varieert aanzienlijk afhankelijk van het schrift, de staat van het manuscript en het gebruikte model. Op goed bewaarde gotische textura met een passend model zijn Character Error Rates van 3-5% haalbaar. Lastiger materiaal — beschadigd perkament, sterk geabbrevieerde tekst, ongebruikelijke handen — kan beginnen met 10-15% foutpercentage met een publiek model en aanzienlijk verbeteren met een op maat getraind model. Elke regel bevat een betrouwbaarheidsscore voor gerichte controle.
Transcribeer 50-100 representatieve pagina's uit je manuscript met de Transkribus-editor. Deze ground truth-gegevens dienen als trainingsinput. Start het trainingsproces vanuit de interface — het duurt doorgaans enkele uren. Het resulterende model is specifiek afgestemd op het schrift, afkortingssysteem en de lay-out van jouw manuscript. Je kunt het model iteratief verbeteren door meer ground truth toe te voegen.
Dit hangt af van hoe je ground truth is voorbereid. Als je trainingsdata afkortingen uitschrijft (bijv. het suspensieteken boven 'dn' transcriberen als 'dominus'), leert het model uitgeschreven vormen te produceren. Als je ground truth afkortingstekens behoudt als Unicode-tekens, reproduceert het model deze. Veel onderzoekers trainen twee modellen — een voor diplomatische transcriptie en een voor uitgeschreven tekst — afhankelijk van hun editorische methodologie.
Ja. Transkribus ondersteunt TEI-XML-export met woordniveau-coordinaten, betrouwbaarheidsscores en structurele markup. Deze output kan worden geintegreerd in frameworks voor digitale edities zoals EVT (Edition Visualization Technology) of worden gebruikt als input voor collatietools zoals CollateX. PAGE XML- en ALTO XML-exports zijn ook beschikbaar voor andere downstream-workflows.
De lay-outanalyse-engine detecteert tekstgebieden zelfs op pagina's met gaten, vlekken of ontbrekende secties. Voor beschadigde gebieden produceert het HTR-model output met lagere betrouwbaarheidsscores, waardoor onzekere lezingen duidelijk worden gemarkeerd. Onderzoekers kunnen lacunes markeren in de editor en beschadigde gebieden uitsluiten van verwerking. Het systeem hallucineert geen tekst waar niets leesbaar is.
Transkribus biedt een aanbevolen citatieformaat in de documentatie. Doorgaans vermeld je het platform (Transkribus, ontwikkeld aan de Universiteit van Innsbruck), het specifieke HTR-model (inclusief ID en versie), en de verwerkingsdatum. Dit waarborgt reproduceerbaarheid — een andere onderzoeker kan hetzelfde model toepassen om je transcripties te verifieren. De READ-COOP-publicatielijst bevat de belangrijkste referentieartikelen.
EUAT

Gebouwd voor onderzoek. Gehost in Europa. Bestuurd door de gemeenschap.

Transkribus is ontwikkeld en wordt beheerd door de READ-COOP, een Europese coöperatie van 250+ onderzoeksinstellingen, archieven en bibliotheken.

Uw gegevens blijven van u

Volledig eigendom van alle geüploade documenten en gegenereerde transcripties. Verwijder op elk moment.

Gehost in Oostenrijk, EU

Verwerking op onze eigen servers. AVG-conform. Geen cloud-afhankelijkheden van derden.

Coöperatie, geen startup

Duizenden archieven, bibliotheken en universiteiten als mede-eigenaren. Gebouwd voor decennia, niet voor een VC-exit.

Gerelateerde bronnen

Meer voor onderzoekers

Onderzoekspipeline-outputs

Klaar om je manuscripttranscriptie te versnellen?

Sluit je aan bij 500+ universiteiten die Transkribus al gebruiken voor handgeschreven tekstherkenning. Begin met gratis credits en ontdek publieke modellen voor middeleeuwse schriften.

50 gratis credits per maand — Geen creditcard vereist

200 M+Pagina's verwerkt
500+Universiteiten die Transkribus gebruiken
300+Publieke AI-modellen