Strukturierte Daten aus jedem Dokument extrahieren

Transkribus Field Models nutzen Instance Segmentation, um spezifische Felder in Ihren Dokumenten zu erkennen und zu extrahieren — handschriftlich oder gedruckt, historisch oder modern. Definieren Sie Ihre Felder, trainieren Sie Ihr Modell, verarbeiten Sie Ihre Sammlung.

Beginnen Sie mit dem Training Ihres Modells

Signatur

Name

Zeitung

Details

Referenz

Sehen Sie es in Aktion

Field Models erkennen und extrahieren spezifische Strukturelemente aus Ihren Dokumenten — präzise und in großem Maßstab.

Extracted Fields

Eine Technologie, Dutzende Anwendungsfälle

Forschende, Archivar:innen und Institutionen weltweit trainieren Field Models auf ihre spezifischen Dokumente. Hier sind die häufigsten Anwendungen.

Artikel, Schlagzeilen und Anzeigen aus Zeitungsseiten segmentieren

Historische Zeitungen haben komplexe mehrspalttige Layouts mit Artikeln, die um Bilder herum und über mehrere Seiten verlaufen. Field Models erkennen einzelne Artikel, Schlagzeilen, Anzeigen, Verfasserzeilen und Bildunterschriften — und ermöglichen so strukturierten Zugang zu Inhalten, die zuvor in Seitenbildern eingeschlossen waren.

Fields extracted:SchlagzeilenArtikeltexteAnzeigenVerfasserzeilenBildunterschriftenSpalten

Strukturierte Felder aus Katalog- und Karteikarten extrahieren

Bibliotheken, Museen und Archive besitzen Millionen von Karteikarten — Katalogkarten, Zugangsbücher, Findmittel, Patientenkarten. Jeder Kartentyp hat sein eigenes Layout, aber ein gut trainiertes Field Model bewältigt die Variation und extrahiert strukturierte Daten in großem Maßstab.

Fields extracted:NameDatumReferenznummerKategorieBeschreibungStandort

Signatur

Name

Zeitung

Details

Referenz

Namen, Daten und Orte aus handschriftlichen Registern extrahieren

Kirchenbücher, Zivilregister, militärische Musterungsrollen — das Rückgrat der genealogischen und demografischen Forschung. Field Models erkennen strukturierte Einträge über Jahrhunderte sich verändernder Aufzeichnungspraktiken hinweg und verarbeiten verschiedene Schreiber, Formate und Sprachen.

Fields extracted:OrtNameJahrTabellendatenEintragsdatumMarginalien

Ort

Name

Jahrgang

Tabelle

Marginalien, Absätze und Überschriften in Gerichtsprotokollen identifizieren

Historische Gerichtsakten, Regierungsprotokolle und amtliche Dokumente enthalten strukturierte Elemente wie Marginalien, nummerierte Absätze, Überschriften und Anmerkungen. Field Models erkennen diese strukturellen Komponenten über Jahrhunderte sich verändernder Verwaltungspraktiken.

Fields extracted:MarginalienAbsätzeÜberschriftenKopfzeilenStempelUnterschriften

Marginalie

Absatz

Marginalie

Seitennr.

Marginalie

Absender, Textkörper, Illustrationen und Seitenzahlen in Korrespondenz trennen

Private und offizielle Korrespondenz umfasst Jahrhunderte unterschiedlicher Briefkonventionen. Field Models erkennen und trennen Seitenzahlen, Absätze, Illustrationen und andere strukturelle Elemente — von frühneuzeitlichen diplomatischen Depeschen bis zu getippten Briefen des 20. Jahrhunderts.

Fields extracted:SeitenzahlAbsätzeIllustrationenAbsenderUnterschriftDatum

Seitennr.

Absatz

Illustration

Absatz

Fließtext von Marginalien, Überschriften und Fußnoten unterscheiden

Von mittelalterlichen Manuskripten bis zu modernen Druckwerken — Field Models verarbeiten mehrspalttige Layouts, Interlinearglossen, Kolumnentitel und komplexe Seitenstrukturen. Trennen Sie Fließtext von Marginalien, Überschriften vom Inhalt, Fußnoten vom Haupttext.

Fields extracted:FließtextMarginalienÜberschriftenSeitenzahlenFußnotenGlossen

Von Dokumentenbildern zu strukturierten Daten

Field Models erzeugen strukturierte Ausgaben, die Sie als Tabellen exportieren, in Datenbanken importieren oder online veröffentlichen können.

Strukturierte Ausgabe

{
  "page": 1,
  "fields": [
    {
      "tag": "Shelfmark",
      "text": "O71 P31P"
    },
    {
      "tag": "Name",
      "text": "Daley, Jeremiah"
    },
    {
      "tag": "Newspaper",
      "text": "Peabody Press"
    },
    {
      "tag": "Details",
      "text": "Resident of Aborn St..."
    },
    {
      "tag": "Reference",
      "text": "Press July 3, 1889"
    }
  ]
}

Spreadsheet export

Seite	Signatur	Name	Zeitung	Details	Referenz
1	O71 P31P	Daley, Jeremiah	Peabody Press	Resident of Aborn St...	Press July 3, 1889
2	O71 P31Q	Davis, Martha	Salem Gazette	Teacher at Essex...	Gazette Aug 12, 1891
3	O71 P31R	Dearborn, William	Lynn Record	Merchant on Main...	Record Jan 5, 1887

Exportieren Sie als Tabellen (XLSX, CSV), importieren Sie in Datenbanken oder veröffentlichen Sie strukturierte Sammlungen über Transkribus Sites.

XLSXCSVPAGE XMLTEIALTO

So funktioniert es

Von rohen Dokumentenbildern zu strukturierten, exportierbaren Daten in drei Erkennungsschritten.

Felderkennung

Lassen Sie Ihr trainiertes Field Model laufen, um Regionen auf jeder Seite zu erkennen und zu taggen. Das Modell zeichnet präzise Polygone um jedes Feld — Signaturen, Namen, Daten oder jedes andere von Ihnen definierte Tag.

Signatur

Name

Zeitung

Details

Referenz

Textzeilenerkennung

Transkribus findet einzelne Textzeilen innerhalb jedes erkannten Feldes. Öffentliche Layoutmodelle übernehmen diesen Schritt automatisch — kein zusätzliches Training erforderlich.

Texterkennung

Jede Textzeile wird mit den HTR- oder OCR-Modellen von Transkribus transkribiert. Exportieren Sie die strukturierten Ergebnisse als Tabellen, importieren Sie sie in Datenbanken oder veröffentlichen Sie sie über Transkribus Sites.

SignaturO71 P31P

NameDaley, Jeremiah

ZeitungPeabody Press

DetailsResident of Aborn St. died June 29, 1889...

Referenz(In) Press July 3, 1889. p.1.

So trainieren Sie ein Field Model

Field Models sind keine fertigen Modelle — Sie trainieren sie auf Ihren spezifischen Dokumenten. So sieht der Prozess aus.

Felder beschriften

Öffnen Sie Ihre Dokumente in Transkribus und zeichnen Sie Regionen um die Felder, die Sie extrahieren möchten — Namen, Daten, Signaturen oder beliebige eigene Kategorien. Jede Region erhält ein Label, damit das Modell weiß, wonach es suchen soll.

Name

Date

Details

Ref

Trainieren

Sobald Sie etwa 50 Seiten annotiert haben, reichen Sie diese ein, um Ihr eigenes Field Model zu trainieren. Das Modell nutzt Transfer Learning, sodass selbst kleine Trainingsdatensätze brauchbare Ergebnisse liefern.

~50 annotierte Seiten

Anwenden & iterieren

Wenden Sie Ihr trainiertes Modell auf neue Dokumente an — es erkennt und markiert die Felder automatisch. Nutzen Sie die Ergebnisse, um Fehler zu korrigieren, weitere Trainingsseiten hinzuzufügen und für noch bessere Genauigkeit neu zu trainieren.

Name

Date

Details

Ref

Auto

Klein anfangen, iterieren, skalieren

Field Models nutzen Transfer Learning von Millionen verarbeiteter Seiten. Beginnen Sie mit einem überschaubaren Trainingsset, verwenden Sie Ihr erstes Modell zur Beschleunigung der Annotation und trainieren Sie dann für noch bessere Ergebnisse nach.

0Seiten zum Start

Beginnen Sie mit ca. 50 annotierten Seiten für einfache Layouts. Komplexe Dokumente profitieren von mehr Trainingsdaten.

0Zum Trainieren Ihres Modells

Klicken Sie auf Trainieren und warten Sie. Kein Programmieren, keine ML-Expertise, keine Cloud-Infrastruktur nötig.

Trainingstipps aus der Community

Fangen Sie einfach an — trainieren Sie mit ca. 50 Seiten und evaluieren Sie. Ihr erstes Modell ist oft schon gut genug für viele Anwendungsfälle.
Nutzen Sie Ihr Modell zur Vorannotation weiterer Seiten, korrigieren Sie diese und trainieren Sie erneut. Jede Iteration verbessert die Genauigkeit.
Für komplexe oder variable Layouts empfehlen sich 200–500 repräsentative Seiten aus verschiedenen Dokumentstilen.
Exportieren Sie Ergebnisse als Tabellen, in denen Zeilen den Seiten und Spalten Ihren Feld-Tags entsprechen — bereit für den Datenbankimport.

Pixelgenaue Präzision

Field Models erkennen Regionen als detaillierte Polygone, nicht als einfache Rechtecke — entscheidend für reale Dokumente mit komplexen Layouts.

Traditionelle Bounding Boxes

Starre Rechtecke, die sich bei unregelmäßigen Inhalten überlappen. Können keine Marginalien um Text herum, keine Stempel über Feldern oder Einträge über Spalten variabler Breite verarbeiten.

Instance Segmentation

Pixelgenaue Erkennung, die der exakten Form jedes Feldes folgt. Verarbeitet überlappende Elemente, unregelmäßige Formen und gemischte Inhaltstypen. Funktioniert bei jedem Dokument, von mittelalterlichen Manuskripten bis zu modernen Formularen.

Beginnen Sie noch heute mit der Extraktion strukturierter Daten

Trainieren Sie Ihr erstes Field Model mit einem Scholar+-Plan. Definieren Sie Ihre Felder, annotieren Sie einige Seiten, und Ihre Dokumente werden zu strukturierten Daten.

Scholar+ erwerben Field Models durchsuchen