Skip to content
  • Preise

Textkorpora aus historischen Dokumenten aufbauen.

Historische Linguistik und Korpusforschung sind auf maschinenlesbaren Text angewiesen – und dieser Text muss irgendwo herkommen. Transkribus wandelt handgeschriebene und gedruckte Dokumente in strukturierten Text mit XML-Auszeichnung um, die Layout, Marginalien, Streichungen und andere für Linguisten relevante Merkmale bewahrt. Von dort aus exportieren Sie in Ihre Korpus-Tools.

Historische Texttranskription für den Korpusaufbau
100+Sprachen und Schriften
300+von der Community trainierte Modelle
XMLstrukturierter Textexport

Was Sie für die Korpusarbeit erhalten

Textausgabe, die die Merkmale bewahrt, die Linguisten und Korpusforschende benötigen.

Transkriptionseditor mit struktureller Auszeichnung

Strukturierter Text mit Layout-Auszeichnung

Überschriften, Spalten, Marginalien, Fußnoten, Streichungen, Einfügungen – der XML-Export bewahrt die Dokumentstruktur, die für die linguistische Analyse wichtig ist. Keine einfache Textausgabe.

Volltextsuche im gesamten Korpus

Durchsuchbar in der gesamten Sammlung

Sobald transkribiert, sind Ihre Dokumente per Volltext durchsuchbar. Finden Sie Wortformen, Schreibvarianten und Muster über Tausende von Seiten hinweg – ein Konkordanzprogramm für Ihren Handschriften-Korpus.

Export in NLP- und Korpus-Tools

Export für nachgelagerte Analysen

Export als reiner Text, TEI-XML, PAGE XML oder ALTO XML. In Ihre NLP-Pipeline, Ihr Konkordanzprogramm oder Ihr Korpus-Annotationswerkzeug einspeisen. Die strukturierte Auszeichnung bleibt erhalten.

Fallstudie

KorBa: Aufbau eines digitalen Korpus polnischer Texte des 17.–18. Jahrhunderts

Das KorBa-Projekt an der Polnischen Akademie der Wissenschaften nutzt Transkribus, um einen groß angelegten linguistischen Korpus historischer polnischer Texte aus dem 17. und 18. Jahrhundert aufzubauen. Das Projekt trainiert benutzerdefinierte Modelle auf zeitspezifische Handschriften und Drucke und verarbeitet dann ganze Handschriftensammlungen in maschinenlesbaren Text, der in die Korpusanalyseplattform eingespeist wird.
Benutzerdefinierte HTR-Modelle, trainiert auf historische polnische Handschrift und Druckschrift
Strukturierter Textexport unter Beibehaltung von Dokumentlayout und Annotationen
Korpus für die diachrone linguistische Analyse der polnischen Sprache genutzt
Historische polnische Handschrift – KorBa-Korpusprojekt

Mehrsprachig

100+ Sprachen und Schriften – mit von der Community trainierten Modellen

Transkribus unterstützt über 100 Sprachen und Schriften mit 300+ öffentlichen Modellen, die von Forschenden weltweit trainiert wurden. Ob Sie einen Korpus mittelalterlicher lateinischer Predigten, frühneuzeitlicher französischer Korrespondenz oder indischer Devanagari-Drucke des 19. Jahrhunderts aufbauen – es gibt mit hoher Wahrscheinlichkeit ein Modell als Ausgangspunkt. Andernfalls trainieren Sie Ihr eigenes auf 50 Seiten.
Lateinisch, Deutsch, Französisch, Englisch, Niederländisch, Italienisch, Spanisch, Portugiesisch und 90+ weitere
Historische Schriften: Kurrent, Sütterlin, Secretary Hand, Gotische Textur, Karolingische Minuskel
Nicht-lateinische Schriften: Hebräisch, Arabisch, Griechisch, Kyrillisch, Devanagari und weitere
Training benutzerdefinierter Modelle für jede Schrift oder Sprache mit 50+ Seiten Ground Truth
Mehrsprachige Handschrifterkennungsmodelle

Beginnen Sie mit dem Aufbau Ihres Korpus

Starten Sie kostenlos mit 50 Credits pro Monat. Für groß angelegte Korpusprojekte sprechen Sie mit unserem Team über institutionelle Tarife und Forschungspartnerschaften.

100+Sprachen
300+öffentliche Modelle
EU-gehostetDSGVO-konform