HTR für mittelalterliche Handschriften-Transkription

500.000+Nutzer weltweit

200 Mio.+Verarbeitete Seiten

300+Öffentliche KI-Modelle

500+Universitäten und Forschungseinrichtungen

Die Herausforderung

Warum mittelalterliche Handschrifterkennung spezialisierte Werkzeuge erfordert

Mittelalterliche Handschriften stellen Herausforderungen dar, die kein universelles OCR-System bewältigen kann. Die Schriften selbst sind die erste Hürde: Ein Karolingische-Minuskel-Codex des 12. Jahrhunderts teilt kaum visuelle Merkmale mit einer Bastarda-Urkunde des 15. Jahrhunderts. Die Schwierigkeiten gehen jedoch weit über die Buchstabenformen hinaus. Mittelalterliche Schreiber verwendeten umfangreiche Abkürzungssysteme – Suspensionszeichen, Kontraktionsstriche, Tironische Noten und spezialisierte Symbole für häufige lateinische Wörter – die den Text um 30–40 % komprimieren. Ligaturen verschmelzen Zeichen auf Weisen, die je nach Skriptorium und Schreiber variieren. Beschädigtes Pergament, verblasste Eisengallustinte, Palimpseste und Randglossen erhöhen die Komplexität weiter. Standard-OCR, trainiert auf gedrucktem Text, erzeugt bei diesen Materialien keine brauchbare Ausgabe.

Abkürzungssysteme: Suspension, Kontraktion, hochgestellte Buchstaben, Tironische Noten – Standard-OCR hat kein Framework, um diese zu interpretieren

Schriftvielfalt: Gotische Textura, Rotunda, Kursive, Karolingische Minuskel, Beneventana, Insulare Schrift, Bastarda – jede erfordert eigene Erkennungsmodelle

Ligaturen und Buchstabenverschmelzungen variieren je nach Skriptorium, Epoche und individuellem Schreiber

Physische Schäden: Pergamentlöcher, Tintenverblassung, Palimpseste, Wasserflecken und Bindung, die Text am Bundsteg verdeckt

Mehrschichtiger Text: Randglossen, interlineare Ergänzungen, Korrekturen und Rubrizierung erfordern eine ausgefeilte Layoutanalyse

Beispiele für Abkürzungen und Ligaturen in mittelalterlichen Handschriften

Die Lösung

Wie Transkribus mittelalterliche Dokumente mit HTR transkribiert

Transkribus verwendet Handschrifterkennung (HTR) – Deep-Learning-Modelle, die auf transkribierten Handschriftenseiten trainiert wurden – statt Zeichenvorlagen-Abgleich. Dieser Ansatz eignet sich grundlegend für mittelalterliche Schriften, weil er ganzheitliche Wort- und Zeilenmuster lernt, nicht isolierte Zeichenformen. Das öffentliche Modell-Repository der Plattform umfasst Modelle, die von Forschenden auf spezifischen mittelalterlichen Schriften trainiert wurden, die täglich mit diesen Materialien arbeiten. Wo kein bestehendes Modell zu Ihrer Sammlung passt, ermöglicht Transkribus das Training eines eigenen HTR-Modells auf Ihren Ground-Truth-Daten – abgestimmt auf einen bestimmten Schreiber, ein Skriptorium oder einen Dokumenttyp.

Öffentliche HTR-Modelle für Gotische Textura, Karolingische Minuskel und weitere wichtige mittelalterliche Schriften – sofort einsatzbereit

Eigenes Modelltraining: Stellen Sie 50–100 Seiten Ground Truth bereit und trainieren Sie ein Modell für Ihre spezifische Schreiberhand

Layoutanalyse verarbeitet mehrspaltige Seiten, Randglossen, Rubrizierung und interlinearen Text

Abkürzungsauflösung kann in das Modelltraining integriert werden für vollständig aufgelöste Transkriptionen

Export als TEI-XML mit Koordinaten auf Wortebene und Konfidenzwerten für digitale wissenschaftliche Editionen

Wie Handschrifterkennung funktioniert

Addres to dear Isabella on the Authors

recovery

O Isa pain did visit me

I was at the last extremity

How often did I think of you

I wished your graceful form to view

To clasp you in my weak embrace

Indeed I thought Id run my race

Good Care Im sure was of me taken

But indeed I was much shaken

At last I daily strength did gain

Vom Handschriftenbild zur TEI-XML-Edition in 4 Schritten

Handschriftenbilder hochladen

Importieren Sie hochauflösende Scans oder Fotografien von Handschriftenfolios. Transkribus akzeptiert TIFF, JPG, PNG und PDF. Organisieren Sie nach Codex, Lage oder Sammlung.

HTR-Modell auswählen oder trainieren

Wählen Sie aus öffentlichen Modellen für mittelalterliche Schriften oder trainieren Sie ein eigenes Modell auf Ihren Ground-Truth-Daten. Für beste Ergebnisse bei einer bestimmten Schreiberhand genügen 50–100 transkribierte Seiten.

Layoutanalyse und Erkennung starten

Transkribus erkennt Textregionen, Grundlinien, Spalten und Randzonen automatisch. HTR verarbeitet jede erkannte Zeile und liefert die Transkription mit Konfidenzwerten pro Zeile.

Überprüfen, korrigieren und exportieren

Überprüfen Sie die Transkription im integrierten Editor neben dem Handschriftenbild. Korrigieren Sie Fehler, fügen Sie TEI-Markup hinzu und exportieren Sie als TEI-XML, PAGE XML, ALTO oder Reintext für Ihre Edition oder Ihr Korpus.

Modelle und Schriften

Gotische Schrifterkennung und darüber hinaus: Öffentliche Modelle für mittelalterliche Paläographie

Das öffentliche Modell-Repository von Transkribus umfasst HTR-Modelle, die von Mediävisten und Digital-Humanities-Projekten weltweit beigesteuert wurden – darunter zahlreiche Modelle von Universitäten und Bibliotheken im deutschsprachigen Raum. Diese Modelle decken die wichtigsten Schriftfamilien ab, die in europäischen Handschriftentraditionen vom 8. bis zum 16. Jahrhundert vorkommen. Da jedes Modell auf echten Handschriftenseiten trainiert wurde – nicht auf synthetischen Daten – spiegeln sie die reale Variation von Schreiberhänden, regionalen Konventionen und epochenspezifischen Abkürzungspraktiken wider.

Gotische Textura (Textualis formata und libraria): Lateinische liturgische und literarische Handschriften, 12.–15. Jahrhundert

Karolingische Minuskel: Karolingerzeitliche Codices, 9.–12. Jahrhundert – Grundlage späterer europäischer Schriften

Beneventana: Süditalienische und dalmatinische Handschriften, 8.–13. Jahrhundert

Insulare Schriften (Insulare Majuskel und Minuskel): Irische und angelsächsische Handschriften, 6.–9. Jahrhundert

Bastarda und Hybrida: Spätmittelalterliche Verwaltungs- und Literaturhandschriften, 14.–16. Jahrhundert

Eigenes Modelltraining für jede Schrift, die nicht von bestehenden öffentlichen Modellen abgedeckt wird

Öffentliche Modelle durchsuchen

Beispiele mittelalterlicher Schriftarten, die von Transkribus-HTR-Modellen unterstützt werden

Eigenes Training

Eigenes HTR-Modell für Ihre Handschriftensammlung trainieren

Keine zwei mittelalterlichen Handschriftensammlungen sind gleich. Ein Notariatsregister des 14. Jahrhunderts aus der Provence verwendet eine andere Hand als ein Psalter des 14. Jahrhunderts aus Böhmen, auch wenn beide unter 'Gotische Kursive' fallen. Transkribus ermöglicht es Ihnen, ein eigenes HTR-Modell auf Ihren transkribierten Ground-Truth-Daten zu trainieren und so eine Erkennungsmaschine zu erzeugen, die präzise auf Ihre Dokumente kalibriert ist. So erreichen Forschungsteams die höchste Genauigkeit – durch die Kombination von paläographischer Fachkenntnis mit maschinellem Lernen.

Beginnen Sie mit 50–100 Seiten manuell transkribierter Ground Truth aus Ihrer Handschrift

Der Trainingsprozess dauert typischerweise einige Stunden und kann über die Transkribus-Oberfläche gestartet werden

Trainierte Modelle können Schreiberabkürzungen auflösen, wenn Ihre Ground Truth aufgelöste Formen enthält

Feinabstimmung eines bestehenden öffentlichen Modells auf Ihren Daten für schnellere Konvergenz und weniger Trainingsseiten

Teilen Sie Ihr trainiertes Modell mit der Forschungsgemeinschaft oder behalten Sie es privat für Ihr Projekt

Eigenes Modell für Ihre Handschrift trainieren

Workflow für eigenes HTR-Modelltraining bei mittelalterlichen Handschriften

Häufig gestellte Fragen

Welche mittelalterlichen Schriften unterstützt Transkribus?

Transkribus verfügt über öffentliche HTR-Modelle für die wichtigsten mittelalterlichen Schriftfamilien, darunter Gotische Textura (Textualis), Karolingische Minuskel, Beneventana, Insulare Schrift (Majuskel und Minuskel), Bastarda, Hybrida und diverse regionale Kursivschriften. Der Modellkatalog wird kontinuierlich von der Forschungsgemeinschaft erweitert. Für noch nicht abgedeckte Schriften können Sie ein eigenes Modell auf Ihren Ground-Truth-Daten trainieren.

Welche Genauigkeit kann ich bei mittelalterlichen Handschriften erwarten?

Die Genauigkeit variiert erheblich je nach Schrift, Zustand der Handschrift und verwendetem Modell. Bei gut erhaltener Gotischer Textura mit passendem Modell sind Zeichenfehlerraten von 3–5 % erreichbar. Anspruchsvollere Materialien – beschädigtes Pergament, stark abgekürzte Texte, ungewöhnliche Schreiberhände – können mit einem öffentlichen Modell bei 10–15 % Fehlerrate beginnen und sich durch eigenes Modelltraining deutlich verbessern. Jede Zeile enthält einen Konfidenzwert für gezielte Überprüfung.

Wie trainiere ich ein Modell für eine bestimmte Schreiberhand?

Transkribieren Sie 50–100 repräsentative Seiten Ihrer Handschrift mit dem Transkribus-Editor. Diese Ground-Truth-Daten dienen als Trainingsinput. Starten Sie den Trainingsprozess über die Benutzeroberfläche – er dauert typischerweise einige Stunden. Das resultierende Modell ist spezifisch für die Schreiberhand, das Abkürzungssystem und das Layout Ihrer Handschrift. Sie können das Modell iterativ verbessern, indem Sie weitere Ground-Truth-Daten hinzufügen.

Wie geht Transkribus mit Abkürzungen und Ligaturen um?

Das hängt davon ab, wie Ihre Ground Truth vorbereitet wurde. Wenn Ihre Trainingsdaten Abkürzungen auflösen (z. B. das Suspensionszeichen über 'dn' als 'dominus' transkribieren), lernt das Modell, aufgelöste Formen auszugeben. Wenn Ihre Ground Truth Abkürzungszeichen als Unicode-Zeichen beibehält, reproduziert das Modell diese. Viele Forschende trainieren zwei Modelle – eines für diplomatische Transkription und eines für aufgelöste – je nach ihrer editorischen Methodik.

Kann ich für kritische Editionen in TEI-XML exportieren?

Ja. Transkribus unterstützt TEI-XML-Export mit Koordinaten auf Wortebene, Konfidenzwerten und strukturellem Markup. Diese Ausgabe kann in digitale Editionsframeworks wie EVT (Edition Visualization Technology) integriert oder als Input für Kollationstools wie CollateX verwendet werden. PAGE-XML- und ALTO-XML-Exporte sind ebenfalls für weitere Downstream-Workflows verfügbar.

Wie geht Transkribus mit beschädigten oder fragmentarischen Handschriften um?

Die Layoutanalyse-Engine erkennt Textregionen auch auf Seiten mit Löchern, Flecken oder fehlenden Abschnitten. Für beschädigte Bereiche erzeugt das HTR-Modell Ausgaben mit niedrigeren Konfidenzwerten und kennzeichnet unsichere Lesungen deutlich. Forschende können Lücken (Lakunen) im Editor markieren und beschädigte Bereiche von der Verarbeitung ausschließen. Das System halluziniert keinen Text, wo keiner lesbar ist.

Wie sollte ich Transkribus in Publikationen zitieren?

Transkribus stellt in seiner Dokumentation ein empfohlenes Zitierformat bereit. Typischerweise zitieren Sie die Plattform (Transkribus, entwickelt an der Universität Innsbruck), das spezifische HTR-Modell (einschließlich ID und Version) und das Verarbeitungsdatum. Dies gewährleistet Reproduzierbarkeit – ein anderer Forscher kann dasselbe Modell anwenden, um Ihre Transkriptionen zu verifizieren. Die READ-COOP-Publikationsliste enthält wichtige Referenzarbeiten.

Für die Forschung gebaut. In Europa gehostet. Von der Gemeinschaft gesteuert.

Transkribus wird von der READ-COOP entwickelt und betrieben, einer europäischen Genossenschaft mit über 250 Forschungseinrichtungen, Archiven und Bibliotheken.

Ihre Daten bleiben bei Ihnen

Volles Eigentum an allen hochgeladenen Dokumenten und erstellten Transkriptionen. Jederzeit löschbar.

Gehostet in Österreich, EU

Verarbeitung auf unseren eigenen Servern. DSGVO-konform. Keine Cloud-Abhängigkeiten.

Genossenschaft, kein Startup

Tausende Archive, Bibliotheken und Universitäten als Miteigentümer. Gebaut für Jahrzehnte, nicht für einen VC-Exit.

Weiterführende Ressourcen

Mehr für Forschende

Entdecken Sie das gesamte Transkribus-Forschungstoolkit: Transkribus für Forscher · Was ist HTR? · Archivstau abbauen · Durchsuchbare PDFs erstellen

Transkribus für Forscher

Bereit, Ihre Handschriften-Transkription zu beschleunigen?

Schließen Sie sich über 500 Universitäten an, die Transkribus bereits für die Handschrifterkennung nutzen. Starten Sie mit kostenlosen Credits und erkunden Sie öffentliche Modelle für mittelalterliche Schriften. Oder testen Sie den kostenlosen Handschrift-Übersetzer – ganz ohne Anmeldung.

Kostenlos testen Preise ansehen

50 kostenlose Credits pro Monat – Keine Kreditkarte nötig