Textkorpora aus historischen Dokumenten aufbauen.
Historische Linguistik und Korpusforschung sind auf maschinenlesbaren Text angewiesen – und dieser Text muss irgendwo herkommen. Transkribus wandelt handgeschriebene und gedruckte Dokumente in strukturierten Text mit XML-Auszeichnung um, die Layout, Marginalien, Streichungen und andere für Linguisten relevante Merkmale bewahrt. Von dort aus exportieren Sie in Ihre Korpus-Tools.

Was Sie für die Korpusarbeit erhalten
Textausgabe, die die Merkmale bewahrt, die Linguisten und Korpusforschende benötigen.

Strukturierter Text mit Layout-Auszeichnung
Überschriften, Spalten, Marginalien, Fußnoten, Streichungen, Einfügungen – der XML-Export bewahrt die Dokumentstruktur, die für die linguistische Analyse wichtig ist. Keine einfache Textausgabe.

Durchsuchbar in der gesamten Sammlung
Sobald transkribiert, sind Ihre Dokumente per Volltext durchsuchbar. Finden Sie Wortformen, Schreibvarianten und Muster über Tausende von Seiten hinweg – ein Konkordanzprogramm für Ihren Handschriften-Korpus.

Export für nachgelagerte Analysen
Export als reiner Text, TEI-XML, PAGE XML oder ALTO XML. In Ihre NLP-Pipeline, Ihr Konkordanzprogramm oder Ihr Korpus-Annotationswerkzeug einspeisen. Die strukturierte Auszeichnung bleibt erhalten.
Fallstudie
KorBa: Aufbau eines digitalen Korpus polnischer Texte des 17.–18. Jahrhunderts

Mehrsprachig
100+ Sprachen und Schriften – mit von der Community trainierten Modellen

Beginnen Sie mit dem Aufbau Ihres Korpus
Starten Sie kostenlos mit 50 Credits pro Monat. Für groß angelegte Korpusprojekte sprechen Sie mit unserem Team über institutionelle Tarife und Forschungspartnerschaften.