Strukturierte Daten aus jedem Dokument extrahieren

Forschungs- und Digitalisierungsprojekte brauchen mehr als lesbaren Text — sie brauchen strukturierte Daten. Namen, Daten, Orte, Betraege, Beziehungen. Transkribus kombiniert KI-Texterkennung mit Tabellenextraktion, Field Models und Entity-Tagging, um handschriftliche und gedruckte Dokumente in strukturierte Datensaetze zu verwandeln — bereit fuer Analysen, Datenbanken und Tabellen.

Kostenlos extrahieren In Aktion sehen

3Extraktionsmethoden

CSV + XMLExportformate

No codingErforderlich

TabellenZeilen, Spalten, Zellen in Tabellen

FelderBenannte Felder aus Formularen extrahieren

EntitaetenPersonen, Orte, Daten taggen

TrainierbarEigene Modelle fuer Ihre Layouts

Tabellenerkennung

Erkennen Sie Zeilen, Spalten und Zellgrenzen in tabellarischen Dokumenten — Kirchenbuecher, Volkszaehlungen, Steuerrollen, Hauptbuecher. Jede Zelle wird zum Datenpunkt. Exportieren Sie die gesamte Tabelle als Tabellenkalkulation oder XML.

Feldextraktion

Trainieren Sie Modelle, um bestimmte Felder aus strukturierten Dokumenten zu finden und zu extrahieren — Daten, Namen, Referenznummern, Betraege. Funktioniert mit Formularen, Karteikarten, Urkunden und allen Dokumenten mit wiederkehrender Struktur.

Entity-Tagging

Markieren Sie Personen, Orte, Daten und benutzerdefinierte Entitaeten im Fliesstext. Tags werden zu durchsuchbaren Metadaten. Exportieren Sie als TEI-XML oder filtern Sie getaggte Entitaeten als strukturierte Daten fuer Ihre Forschungsdatenbank.

Tabellenerkennung in Aktion

Transkribus erkennt die Gitterstruktur tabellarischer Unterlagen und extrahiert jede Zelle in eine strukturierte Tabelle — bereit fuer Ihre Datenbank, Genealogie-Software oder Forschungs-Pipeline.

Extrahierte Tabellendaten

Institution	Town	Amount	Object	Date	Disposition
Franklin College (6)	New Athen, O.		General	3/23/16
Fargo College (3)	Fargo, N.D.	100,000	Endowment	4/27/16	Gen 1914, 5/18/16
Franklin Academy (2)	Franklin, Neb.	5,000	Library Building	8/3/16	Gen 1914, 8/7/16
Fessenden Acad. & Ind. School	Fessenden, Fla.		General	12/22/16
Ferris Institute (2)	Big Rapids, Mich.	50,000	Buildings	2/12/17
Findlay College (2)	Findlay, O.	100,000	Endowment	5/23/17	Gen 1914, 5/28/17
Fairmount College	Wichita, Kan.	200,000	Endowment	6/7/17	6/14/17
Franklin College	Franklin, Ind.	50,000	General	9/13/17	Gen 1914, 9/17/17
Fisk University	Nashville, Tenn.	1,000,000	Endowment	6/14/18
Friends University	Wichita, Kan.	200,000	Endowment	6/20/18	Gen 1914, 8/8/18

Felderkennung in Aktion

Field Models erkennen und extrahieren spezifische Datenfelder aus Dokumenten — Namen, Daten, Orte, Referenzen — praezise und in grossem Massstab. Trainieren Sie eigene Modelle fuer Ihre Formularlayouts fuer beste Ergebnisse.

Extrahierte Felder

Intelligente Dokumentenverarbeitung

Von Dokumentbildern zu Forschungsdatenbanken

Der typische Workflow: Laden Sie Dokumentscans hoch, fuehren Sie die KI-Texterkennung durch, um maschinenlesbaren Text zu erhalten, und wenden Sie dann Tabellenerkennung oder Feldextraktion an, um strukturierte Daten zu gewinnen. Exportieren Sie als CSV fuer Tabellenkalkulationen, als XML fuer Datenbanken oder speisen Sie die Daten direkt in Ihre NLP-Pipeline ein fuer Named Entity Recognition, Topic Modelling oder Netzwerkanalyse.

Exportieren Sie Tabellen und Felder als CSV, Excel oder strukturiertes XML

Entity-Tags werden als TEI-XML mit Koordinaten exportiert, die auf Quellbilder verweisen

REST API-Zugang fuer automatisierte OCR-Datenextraktions-Pipelines

Stapelverarbeitung fuer grosse Dokumentensammlungen

Trainierbar

Trainieren Sie Extraktionsmodelle fuer Ihren spezifischen Dokumenttyp

Wie Texterkennungsmodelle koennen auch Tabellen- und Feldextraktionsmodelle auf Ihre spezifischen Dokumente trainiert werden. Wenn Ihre Unterlagen ein einzigartiges Layout haben — einen bestimmten Kirchenbuchtyp, ein regionales Volkszaehlungsformat, einen bestimmten Karteikartentyp — koennen Sie ein benutzerdefiniertes Modell trainieren, das diese Struktur versteht und Daten aus handschriftlichen Dokumenten mit hoher Genauigkeit extrahiert.

Benutzerdefinierte Tabellenmodelle fuer nicht-standardisierte Layouts und komplexe Register

Benutzerdefinierte Field Models fuer spezifische Formulartypen und Karteikarten

Keine Programmierung — das Training erfolgt in der visuellen Oberflaeche

Modelle verbessern sich mit mehr Trainingsdaten

Teilen Sie trainierte Modelle mit Ihrem Team oder der Community

Anwendungsfaelle

Was Forschende mit Transkribus extrahieren

Institutionen und Forschende weltweit nutzen Transkribus, um strukturierte Daten aus historischen Dokumenten in grossem Massstab zu extrahieren. Von Genealogie-Datenbanken aus Kirchenbuechern bis zu wirtschaftswissenschaftlicher Forschung auf Basis kolonialer Handelsregister — dieselben Extraktionswerkzeuge unterstuetzen Hunderte verschiedener Forschungsprojekte.

Kirchenbuecher → Namen, Daten, Beziehungen fuer Genealogie-Datenbanken

Volkszaehlungen → demografische Daten fuer Bevoelkerungsstudien

Steuerrollen und Hauptbuecher → wirtschaftliche Daten fuer historische Analysen

Karteikarten und Kataloge → strukturierte Metadaten fuer Bibliothekssysteme

Korrespondenz → getaggte Personen und Orte fuer Netzwerkanalysen

Handschrift-Spezialisten

Die einzige IDP-Plattform, die fuer Handschrift entwickelt wurde

Die meisten Plattformen fuer intelligente Dokumentenverarbeitung konzentrieren sich auf moderne gedruckte Formulare — Rechnungen, Quittungen, Vertraege. Transkribus ist anders: Es wurde von Grund auf fuer handschriftliche und historische Dokumente entwickelt. Unsere KI-Modelle bewaeltigen jahrhundertealte Schreibstile, degradiertes Papier, uneinheitliche Layouts und gemischte Schriften, an denen herkoemmliche OCR-Datenextraktionstools scheitern.

500.000+ Nutzer, die handschriftliche Dokumente verarbeiten

300+ oeffentliche KI-Modelle fuer historische Handschriften

Funktioniert in ueber 100 Sprachen und allen gaengigen Schriftsystemen

EU-gehostet und DSGVO-konform — Ihre Dokumente bleiben in Europa

Beginnen Sie mit der Datenextraktion aus Ihren Dokumenten

Erstellen Sie ein kostenloses Konto. Laden Sie Ihre Scans hoch, starten Sie die Texterkennung und extrahieren Sie strukturierte Daten — ohne Programmierung, ohne ML-Expertise.

Kostenlos starten Beratung buchen

300+Oeffentliche KI-Modelle