Strukturierte Daten aus jedem Dokument extrahieren
Transkribus Field Models nutzen Instance Segmentation, um spezifische Felder in Ihren Dokumenten zu erkennen und zu extrahieren — handschriftlich oder gedruckt, historisch oder modern. Definieren Sie Ihre Felder, trainieren Sie Ihr Modell, verarbeiten Sie Ihre Sammlung.
Beginnen Sie mit dem Training Ihres Modells
Sehen Sie es in Aktion
Field Models erkennen und extrahieren spezifische Strukturelemente aus Ihren Dokumenten — präzise und in großem Maßstab.

Eine Technologie, Dutzende Anwendungsfälle
Forschende, Archivar:innen und Institutionen weltweit trainieren Field Models auf ihre spezifischen Dokumente. Hier sind die häufigsten Anwendungen.
Artikel, Schlagzeilen und Anzeigen aus Zeitungsseiten segmentieren
Historische Zeitungen haben komplexe mehrspalttige Layouts mit Artikeln, die um Bilder herum und über mehrere Seiten verlaufen. Field Models erkennen einzelne Artikel, Schlagzeilen, Anzeigen, Verfasserzeilen und Bildunterschriften — und ermöglichen so strukturierten Zugang zu Inhalten, die zuvor in Seitenbildern eingeschlossen waren.

Strukturierte Felder aus Katalog- und Karteikarten extrahieren
Bibliotheken, Museen und Archive besitzen Millionen von Karteikarten — Katalogkarten, Zugangsbücher, Findmittel, Patientenkarten. Jeder Kartentyp hat sein eigenes Layout, aber ein gut trainiertes Field Model bewältigt die Variation und extrahiert strukturierte Daten in großem Maßstab.

Namen, Daten und Orte aus handschriftlichen Registern extrahieren
Kirchenbücher, Zivilregister, militärische Musterungsrollen — das Rückgrat der genealogischen und demografischen Forschung. Field Models erkennen strukturierte Einträge über Jahrhunderte sich verändernder Aufzeichnungspraktiken hinweg und verarbeiten verschiedene Schreiber, Formate und Sprachen.

Marginalien, Absätze und Überschriften in Gerichtsprotokollen identifizieren
Historische Gerichtsakten, Regierungsprotokolle und amtliche Dokumente enthalten strukturierte Elemente wie Marginalien, nummerierte Absätze, Überschriften und Anmerkungen. Field Models erkennen diese strukturellen Komponenten über Jahrhunderte sich verändernder Verwaltungspraktiken.

Absender, Textkörper, Illustrationen und Seitenzahlen in Korrespondenz trennen
Private und offizielle Korrespondenz umfasst Jahrhunderte unterschiedlicher Briefkonventionen. Field Models erkennen und trennen Seitenzahlen, Absätze, Illustrationen und andere strukturelle Elemente — von frühneuzeitlichen diplomatischen Depeschen bis zu getippten Briefen des 20. Jahrhunderts.

Fließtext von Marginalien, Überschriften und Fußnoten unterscheiden
Von mittelalterlichen Manuskripten bis zu modernen Druckwerken — Field Models verarbeiten mehrspalttige Layouts, Interlinearglossen, Kolumnentitel und komplexe Seitenstrukturen. Trennen Sie Fließtext von Marginalien, Überschriften vom Inhalt, Fußnoten vom Haupttext.
Von Dokumentenbildern zu strukturierten Daten
Field Models erzeugen strukturierte Ausgaben, die Sie als Tabellen exportieren, in Datenbanken importieren oder online veröffentlichen können.
{
"page": 1,
"fields": [
{
"tag": "Shelfmark",
"text": "O71 P31P"
},
{
"tag": "Name",
"text": "Daley, Jeremiah"
},
{
"tag": "Newspaper",
"text": "Peabody Press"
},
{
"tag": "Details",
"text": "Resident of Aborn St..."
},
{
"tag": "Reference",
"text": "Press July 3, 1889"
}
]
}| Seite | Signatur | Name | Zeitung | Details | Referenz |
|---|---|---|---|---|---|
| 1 | O71 P31P | Daley, Jeremiah | Peabody Press | Resident of Aborn St... | Press July 3, 1889 |
| 2 | O71 P31Q | Davis, Martha | Salem Gazette | Teacher at Essex... | Gazette Aug 12, 1891 |
| 3 | O71 P31R | Dearborn, William | Lynn Record | Merchant on Main... | Record Jan 5, 1887 |
Exportieren Sie als Tabellen (XLSX, CSV), importieren Sie in Datenbanken oder veröffentlichen Sie strukturierte Sammlungen über Transkribus Sites.
So funktioniert es
Von rohen Dokumentenbildern zu strukturierten, exportierbaren Daten in drei Erkennungsschritten.
Felderkennung
Lassen Sie Ihr trainiertes Field Model laufen, um Regionen auf jeder Seite zu erkennen und zu taggen. Das Modell zeichnet präzise Polygone um jedes Feld — Signaturen, Namen, Daten oder jedes andere von Ihnen definierte Tag.

Textzeilenerkennung
Transkribus findet einzelne Textzeilen innerhalb jedes erkannten Feldes. Öffentliche Layoutmodelle übernehmen diesen Schritt automatisch — kein zusätzliches Training erforderlich.

Texterkennung
Jede Textzeile wird mit den HTR- oder OCR-Modellen von Transkribus transkribiert. Exportieren Sie die strukturierten Ergebnisse als Tabellen, importieren Sie sie in Datenbanken oder veröffentlichen Sie sie über Transkribus Sites.
So trainieren Sie ein Field Model
Field Models sind keine fertigen Modelle — Sie trainieren sie auf Ihren spezifischen Dokumenten. So sieht der Prozess aus.
Felder beschriften
Öffnen Sie Ihre Dokumente in Transkribus und zeichnen Sie Regionen um die Felder, die Sie extrahieren möchten — Namen, Daten, Signaturen oder beliebige eigene Kategorien. Jede Region erhält ein Label, damit das Modell weiß, wonach es suchen soll.
Trainieren
Sobald Sie etwa 50 Seiten annotiert haben, reichen Sie diese ein, um Ihr eigenes Field Model zu trainieren. Das Modell nutzt Transfer Learning, sodass selbst kleine Trainingsdatensätze brauchbare Ergebnisse liefern.
Anwenden & iterieren
Wenden Sie Ihr trainiertes Modell auf neue Dokumente an — es erkennt und markiert die Felder automatisch. Nutzen Sie die Ergebnisse, um Fehler zu korrigieren, weitere Trainingsseiten hinzuzufügen und für noch bessere Genauigkeit neu zu trainieren.
Klein anfangen, iterieren, skalieren
Field Models nutzen Transfer Learning von Millionen verarbeiteter Seiten. Beginnen Sie mit einem überschaubaren Trainingsset, verwenden Sie Ihr erstes Modell zur Beschleunigung der Annotation und trainieren Sie dann für noch bessere Ergebnisse nach.
Beginnen Sie mit ca. 50 annotierten Seiten für einfache Layouts. Komplexe Dokumente profitieren von mehr Trainingsdaten.
Klicken Sie auf Trainieren und warten Sie. Kein Programmieren, keine ML-Expertise, keine Cloud-Infrastruktur nötig.
Trainingstipps aus der Community
- Fangen Sie einfach an — trainieren Sie mit ca. 50 Seiten und evaluieren Sie. Ihr erstes Modell ist oft schon gut genug für viele Anwendungsfälle.
- Nutzen Sie Ihr Modell zur Vorannotation weiterer Seiten, korrigieren Sie diese und trainieren Sie erneut. Jede Iteration verbessert die Genauigkeit.
- Für komplexe oder variable Layouts empfehlen sich 200–500 repräsentative Seiten aus verschiedenen Dokumentstilen.
- Exportieren Sie Ergebnisse als Tabellen, in denen Zeilen den Seiten und Spalten Ihren Feld-Tags entsprechen — bereit für den Datenbankimport.
Pixelgenaue Präzision
Field Models erkennen Regionen als detaillierte Polygone, nicht als einfache Rechtecke — entscheidend für reale Dokumente mit komplexen Layouts.
Traditionelle Bounding Boxes
Starre Rechtecke, die sich bei unregelmäßigen Inhalten überlappen. Können keine Marginalien um Text herum, keine Stempel über Feldern oder Einträge über Spalten variabler Breite verarbeiten.
Instance Segmentation
Pixelgenaue Erkennung, die der exakten Form jedes Feldes folgt. Verarbeitet überlappende Elemente, unregelmäßige Formen und gemischte Inhaltstypen. Funktioniert bei jedem Dokument, von mittelalterlichen Manuskripten bis zu modernen Formularen.
Beginnen Sie noch heute mit der Extraktion strukturierter Daten
Trainieren Sie Ihr erstes Field Model mit einem Scholar+-Plan. Definieren Sie Ihre Felder, annotieren Sie einige Seiten, und Ihre Dokumente werden zu strukturierten Daten.