Textkorpora aus historischen Dokumenten aufbauen.

Historische Linguistik und Korpusforschung sind auf maschinenlesbaren Text angewiesen – und dieser Text muss irgendwo herkommen. Transkribus wandelt handgeschriebene und gedruckte Dokumente in strukturierten Text mit XML-Auszeichnung um, die Layout, Marginalien, Streichungen und andere für Linguisten relevante Merkmale bewahrt. Von dort aus exportieren Sie in Ihre Korpus-Tools.

Kostenlos starten So funktioniert die Texterkennung

Historische Texttranskription für den Korpusaufbau

100+Sprachen und Schriften

300+von der Community trainierte Modelle

XMLstrukturierter Textexport

Transkriptionseditor mit struktureller Auszeichnung

Strukturierter Text mit Layout-Auszeichnung

Überschriften, Spalten, Marginalien, Fußnoten, Streichungen, Einfügungen – der XML-Export bewahrt die Dokumentstruktur, die für die linguistische Analyse wichtig ist. Keine einfache Textausgabe.

Durchsuchbar in der gesamten Sammlung

Sobald transkribiert, sind Ihre Dokumente per Volltext durchsuchbar. Finden Sie Wortformen, Schreibvarianten und Muster über Tausende von Seiten hinweg – ein Konkordanzprogramm für Ihren Handschriften-Korpus.

Export für nachgelagerte Analysen

Export als reiner Text, TEI-XML, PAGE XML oder ALTO XML. In Ihre NLP-Pipeline, Ihr Konkordanzprogramm oder Ihr Korpus-Annotationswerkzeug einspeisen. Die strukturierte Auszeichnung bleibt erhalten.

Fallstudie

KorBa: Aufbau eines digitalen Korpus polnischer Texte des 17.–18. Jahrhunderts

Das KorBa-Projekt an der Polnischen Akademie der Wissenschaften nutzt Transkribus, um einen groß angelegten linguistischen Korpus historischer polnischer Texte aus dem 17. und 18. Jahrhundert aufzubauen. Das Projekt trainiert benutzerdefinierte Modelle auf zeitspezifische Handschriften und Drucke und verarbeitet dann ganze Handschriftensammlungen in maschinenlesbaren Text, der in die Korpusanalyseplattform eingespeist wird.

Benutzerdefinierte HTR-Modelle, trainiert auf historische polnische Handschrift und Druckschrift

Strukturierter Textexport unter Beibehaltung von Dokumentlayout und Annotationen

Korpus für die diachrone linguistische Analyse der polnischen Sprache genutzt

KorBa-Fallstudie lesen

Historische polnische Handschrift – KorBa-Korpusprojekt

Mehrsprachig

100+ Sprachen und Schriften – mit von der Community trainierten Modellen

Transkribus unterstützt über 100 Sprachen und Schriften mit 300+ öffentlichen Modellen, die von Forschenden weltweit trainiert wurden. Ob Sie einen Korpus mittelalterlicher lateinischer Predigten, frühneuzeitlicher französischer Korrespondenz oder indischer Devanagari-Drucke des 19. Jahrhunderts aufbauen – es gibt mit hoher Wahrscheinlichkeit ein Modell als Ausgangspunkt. Andernfalls trainieren Sie Ihr eigenes auf 50 Seiten.

Lateinisch, Deutsch, Französisch, Englisch, Niederländisch, Italienisch, Spanisch, Portugiesisch und 90+ weitere

Historische Schriften: Kurrent, Sütterlin, Secretary Hand, Gotische Textur, Karolingische Minuskel

Nicht-lateinische Schriften: Hebräisch, Arabisch, Griechisch, Kyrillisch, Devanagari und weitere

Training benutzerdefinierter Modelle für jede Schrift oder Sprache mit 50+ Seiten Ground Truth

Öffentliche Modelle durchsuchen

Mehrsprachige Handschrifterkennungsmodelle

Beginnen Sie mit dem Aufbau Ihres Korpus

Starten Sie kostenlos mit 50 Credits pro Monat. Für groß angelegte Korpusprojekte sprechen Sie mit unserem Team über institutionelle Tarife und Forschungspartnerschaften.

Kostenlos starten Beratungsgespräch buchen

100+Sprachen

300+öffentliche Modelle

EU-gehostetDSGVO-konform