Skip to content
  • Preise

Layoutanalyse, die jede Seite versteht

Bevor ein einziges Zeichen gelesen werden kann, muss die KI die Struktur der Seite verstehen — wo sich die Textblöcke befinden, wo jede Zeile sitzt, wo Tabellen, Spalten und Marginalien beginnen und enden. Transkribus erledigt dies automatisch für jedes Dokument und erzeugt pixelgenaue Koordinaten für jedes erkannte Element.

AutomaticSeitensegmentierung
Pixel-levelKoordinatengenauigkeit
PAGE XMLStandard-Exportformat
RegionenTextblöcke, Bilder, Tabellen erkennen
BaselinesPräzise Koordinaten auf Zeilenebene
StrukturÜberschriften, Absätze, Marginalien
ExportPAGE XML, durchsuchbares PDF, ALTO

Layoutanalyse in Aktion

Die KI scannt das Dokument und erkennt jedes Strukturelement — Textregionen, einzelne Baselines und Annotationen. Schalten Sie die Elementtypen ein und aus, um das erkannte Layout zu erkunden.

Document with layout analysis overlay
Layout Elements

Seitensegmentierung

Automatische Regionserkennung für jedes Dokument

Transkribus segmentiert jede Seite automatisch in strukturierte Regionen — Textblöcke, Bilder, Tabellen, Trennlinien und Dekorationen. Die KI bewältigt komplexe Layouts, an denen einfache Spaltenerkennung scheitert: mehrspaltiger Text mit variierenden Breiten, Marginalien neben dem Haupttext, Interlinearannotationen und Text, der um Illustrationen herumfließt.
Erkennt Textregionen, Bildregionen, Tabellenregionen und Trennlinien
Verarbeitet mehrspaltige Layouts, gemischte Orientierungen und verschachtelte Regionen
Funktioniert bei handschriftlichen, gedruckten und gemischten Dokumenten aus jedem Jahrhundert
Läuft automatisch während der Texterkennung — kein manuelles Zonieren nötig
Strukturregionen werden als Überschrift, Absatz, Seitenzahl oder Marginalie gekennzeichnet

Baseline-Erkennung

Pixelgenaue Baselines für jede Textzeile

Baselines sind die Grundlage der Handschrifterkennung in Transkribus. Die KI zeichnet den exakten Verlauf jeder Textzeile nach — einschließlich geschwungener, schräger und unregelmäßiger Handschrift. Jede Baseline speichert eine Polyline aus Koordinatenpunkten, die den Text präzise auf das Originalbild abbilden. Dadurch ist die Ausgabe von Transkribus räumlich mit der Quelle verknüpft: Sie wissen immer genau, wo auf der Seite jedes Wort gefunden wurde.
Polyline-Baselines folgen der exakten Krümmung der Handschrift
Jede Baseline verknüpft erkannten Text mit seinen Pixelkoordinaten
Verarbeitet schräge Schrift, geschwungene Zeilen und unregelmäßige Abstände
Koordinaten werden im PAGE XML- und ALTO-Format exportiert
Unverzichtbar für die Erstellung durchsuchbarer PDFs mit ausgerichteter Textebene

Tabellenstrukturerkennung

Die Tabellen-Layoutanalyse geht über Textregionen hinaus — sie erkennt Zeilen, Spalten, Überschriften und einzelne Zellen. Trainieren Sie eigene Tabellenmodelle für Ihre spezifischen Dokumentlayouts.

Document with detected table structure
Extrahierte Tabellendaten
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

Exportformate

Koordinaten, die überall einsetzbar sind

Jedes von Transkribus erkannte Layoutelement enthält vollständige Koordinatendaten. Exportieren Sie in branchenstandard Formaten für den Einsatz in Digital-Humanities-Tools, Bibliothekssystemen oder Ihrer eigenen Verarbeitungspipeline. Durchsuchbare PDFs richten die erkannte Textebene anhand der Koordinaten am Originalbild aus — so wird jedes Wort klickbar und durchsuchbar.
PAGE XML — der Standard für Dokumentlayout mit Polygonkoordinaten
ALTO XML — weit verbreitet in Bibliotheks- und Archivsystemen
Durchsuchbares PDF — Textebene ausgerichtet an Bildkoordinaten
TEI-XML — mit Faksimile-Links zu Quellregionen
Klartext, DOCX und Excel für einfachere Workflows

Der Editor

Layout im visuellen Editor bearbeiten und korrigieren

Transkribus enthält einen vollständigen visuellen Editor für Layoutkorrekturen. Passen Sie Regionsgrenzen an, führen Sie Textzeilen zusammen oder teilen Sie sie auf, korrigieren Sie Baseline-Koordinaten, annotieren Sie Strukturregionen als Überschriften oder Marginalien und korrigieren Sie die Lesereihenfolge. Alle Änderungen werden in den exportierten Koordinaten übernommen.
Regionsgrenzen und Baseline-Punkte visuell verschieben
Textregionen und Zeilen zusammenführen oder aufteilen
Strukturelle Tags zuweisen: Überschrift, Absatz, Marginalie, Seitenzahl
Lesereihenfolge in komplexen mehrspaltigen Layouts korrigieren
Änderungen werden gespeichert und in allen Exporten berücksichtigt

Für Handschrift entwickelt

OCR-Layoutanalyse, die bei historischen Dokumenten funktioniert

Die meisten Tools zur Dokumenten-Layoutanalyse sind für moderne gedruckte Dokumente mit sauberen, vorhersehbaren Layouts konzipiert. Transkribus wurde für die schwierigen Fälle entwickelt: jahrhundertealte Handschriften mit unregelmäßigem Zeilenabstand, degradiertem Papier, Tintendurchschlag, gemischten Orientierungen und unvorhersehbarer Struktur. Unsere KI-Modelle wurden mit Millionen historischer Dokumentenseiten trainiert.
Verarbeitet beschädigte, fleckige und degradierte Dokumente
Funktioniert über alle Jahrhunderte und Handschriftstile hinweg
Bewältigt Tintendurchschlag, Durchscheinen und kontrastarmen Text
Erkennt Baselines bei schräger, geschwungener und unregelmäßiger Handschrift
Über 500.000 Nutzer verarbeiten täglich historische Dokumente

Dokumenten-Layoutanalyse kostenlos testen

Laden Sie Ihre Dokumente hoch und sehen Sie, wie die KI jede Region, Baseline und jedes Strukturelement erkennt. Kein Setup, kein Programmieren — einfach hochladen und loslegen.

AutomaticKein manuelles Zonieren
PAGE XMLStandardkoordinaten
Free50 Credits jeden Monat