Skip to content
  • Preise

Strukturierte Daten aus jedem Dokument extrahieren

Forschungs- und Digitalisierungsprojekte brauchen mehr als lesbaren Text — sie brauchen strukturierte Daten. Namen, Daten, Orte, Betraege, Beziehungen. Transkribus kombiniert KI-Texterkennung mit Tabellenextraktion, Field Models und Entity-Tagging, um handschriftliche und gedruckte Dokumente in strukturierte Datensaetze zu verwandeln — bereit fuer Analysen, Datenbanken und Tabellen.

3Extraktionsmethoden
CSV + XMLExportformate
No codingErforderlich
TabellenZeilen, Spalten, Zellen in Tabellen
FelderBenannte Felder aus Formularen extrahieren
EntitaetenPersonen, Orte, Daten taggen
TrainierbarEigene Modelle fuer Ihre Layouts

Drei Wege zur Datenextraktion aus Dokumenten

Verschiedene Dokumenttypen erfordern unterschiedliche Extraktionsmethoden. Transkribus bietet alle drei — und sie lassen sich kombinieren.

Tabellenerkennung auf historischem Dokument

Tabellenerkennung

Erkennen Sie Zeilen, Spalten und Zellgrenzen in tabellarischen Dokumenten — Kirchenbuecher, Volkszaehlungen, Steuerrollen, Hauptbuecher. Jede Zelle wird zum Datenpunkt. Exportieren Sie die gesamte Tabelle als Tabellenkalkulation oder XML.

Feldextraktion aus strukturierten Formularen

Feldextraktion

Trainieren Sie Modelle, um bestimmte Felder aus strukturierten Dokumenten zu finden und zu extrahieren — Daten, Namen, Referenznummern, Betraege. Funktioniert mit Formularen, Karteikarten, Urkunden und allen Dokumenten mit wiederkehrender Struktur.

Entity-Tagging in transkribiertem Text

Entity-Tagging

Markieren Sie Personen, Orte, Daten und benutzerdefinierte Entitaeten im Fliesstext. Tags werden zu durchsuchbaren Metadaten. Exportieren Sie als TEI-XML oder filtern Sie getaggte Entitaeten als strukturierte Daten fuer Ihre Forschungsdatenbank.

Tabellenerkennung in Aktion

Transkribus erkennt die Gitterstruktur tabellarischer Unterlagen und extrahiert jede Zelle in eine strukturierte Tabelle — bereit fuer Ihre Datenbank, Genealogie-Software oder Forschungs-Pipeline.

Document with detected table structure
Extrahierte Tabellendaten
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

Felderkennung in Aktion

Field Models erkennen und extrahieren spezifische Datenfelder aus Dokumenten — Namen, Daten, Orte, Referenzen — praezise und in grossem Massstab. Trainieren Sie eigene Modelle fuer Ihre Formularlayouts fuer beste Ergebnisse.

Document with detected fields
Extrahierte Felder

Intelligente Dokumentenverarbeitung

Von Dokumentbildern zu Forschungsdatenbanken

Der typische Workflow: Laden Sie Dokumentscans hoch, fuehren Sie die KI-Texterkennung durch, um maschinenlesbaren Text zu erhalten, und wenden Sie dann Tabellenerkennung oder Feldextraktion an, um strukturierte Daten zu gewinnen. Exportieren Sie als CSV fuer Tabellenkalkulationen, als XML fuer Datenbanken oder speisen Sie die Daten direkt in Ihre NLP-Pipeline ein fuer Named Entity Recognition, Topic Modelling oder Netzwerkanalyse.
Exportieren Sie Tabellen und Felder als CSV, Excel oder strukturiertes XML
Entity-Tags werden als TEI-XML mit Koordinaten exportiert, die auf Quellbilder verweisen
REST API-Zugang fuer automatisierte OCR-Datenextraktions-Pipelines
Stapelverarbeitung fuer grosse Dokumentensammlungen

Trainierbar

Trainieren Sie Extraktionsmodelle fuer Ihren spezifischen Dokumenttyp

Wie Texterkennungsmodelle koennen auch Tabellen- und Feldextraktionsmodelle auf Ihre spezifischen Dokumente trainiert werden. Wenn Ihre Unterlagen ein einzigartiges Layout haben — einen bestimmten Kirchenbuchtyp, ein regionales Volkszaehlungsformat, einen bestimmten Karteikartentyp — koennen Sie ein benutzerdefiniertes Modell trainieren, das diese Struktur versteht und Daten aus handschriftlichen Dokumenten mit hoher Genauigkeit extrahiert.
Benutzerdefinierte Tabellenmodelle fuer nicht-standardisierte Layouts und komplexe Register
Benutzerdefinierte Field Models fuer spezifische Formulartypen und Karteikarten
Keine Programmierung — das Training erfolgt in der visuellen Oberflaeche
Modelle verbessern sich mit mehr Trainingsdaten
Teilen Sie trainierte Modelle mit Ihrem Team oder der Community

Anwendungsfaelle

Was Forschende mit Transkribus extrahieren

Institutionen und Forschende weltweit nutzen Transkribus, um strukturierte Daten aus historischen Dokumenten in grossem Massstab zu extrahieren. Von Genealogie-Datenbanken aus Kirchenbuechern bis zu wirtschaftswissenschaftlicher Forschung auf Basis kolonialer Handelsregister — dieselben Extraktionswerkzeuge unterstuetzen Hunderte verschiedener Forschungsprojekte.
Kirchenbuecher → Namen, Daten, Beziehungen fuer Genealogie-Datenbanken
Volkszaehlungen → demografische Daten fuer Bevoelkerungsstudien
Steuerrollen und Hauptbuecher → wirtschaftliche Daten fuer historische Analysen
Karteikarten und Kataloge → strukturierte Metadaten fuer Bibliothekssysteme
Korrespondenz → getaggte Personen und Orte fuer Netzwerkanalysen

Handschrift-Spezialisten

Die einzige IDP-Plattform, die fuer Handschrift entwickelt wurde

Die meisten Plattformen fuer intelligente Dokumentenverarbeitung konzentrieren sich auf moderne gedruckte Formulare — Rechnungen, Quittungen, Vertraege. Transkribus ist anders: Es wurde von Grund auf fuer handschriftliche und historische Dokumente entwickelt. Unsere KI-Modelle bewaeltigen jahrhundertealte Schreibstile, degradiertes Papier, uneinheitliche Layouts und gemischte Schriften, an denen herkoemmliche OCR-Datenextraktionstools scheitern.
500.000+ Nutzer, die handschriftliche Dokumente verarbeiten
300+ oeffentliche KI-Modelle fuer historische Handschriften
Funktioniert in ueber 100 Sprachen und allen gaengigen Schriftsystemen
EU-gehostet und DSGVO-konform — Ihre Dokumente bleiben in Europa

Beginnen Sie mit der Datenextraktion aus Ihren Dokumenten

Erstellen Sie ein kostenloses Konto. Laden Sie Ihre Scans hoch, starten Sie die Texterkennung und extrahieren Sie strukturierte Daten — ohne Programmierung, ohne ML-Expertise.

300+Oeffentliche KI-Modelle
CSV + XMLExportformate
EU-hostedDSGVO-konform