Tausende Aufträge einreichen. Den Rest übernehmen wir.
Die Transkribus API verwaltet Ihre Verarbeitungswarteschlange intelligent. Reichen Sie Dokumente einzeln oder tausende parallel ein – Aufträge werden auf GPU-Cluster verteilt, asynchron verarbeitet und Ergebnisse per Long Polling oder Standard-Polling geliefert. Vom Prototyp einer Integration bis hin zu Millionen archivarischer Seiten.

Herkömmliche Pipeline vs. Transkribus
Dokumentenverarbeitung im großen Maßstab bedeutete früher, Menschen und Warteschlangen manuell zu verwalten. Transkribus übernimmt diese Infrastruktur für Sie.
Herkömmlicher Ansatz
Transkribenten einstellen
Ein Team erfahrener Transkribentinnen und Transkribenten rekrutieren, schulen und koordinieren
Sequenziell verarbeiten
Jede Seite wird einzeln von Hand transkribiert
Qualitätsprüfung
Eine zweite Person prüft jede Seite auf Fehler
Formatieren und exportieren
Manuelle Konvertierung in das erforderliche Ausgabeformat
Transkribus-Stapelverarbeitung
Aufträge einreichen
Upload über die Web-App oder tausende Aufträge per API einreichen
Intelligente Warteschlange
Aufträge werden automatisch auf GPU-Cluster verteilt
Ergebnisse abrufen
Long Polling für sofortige Ergebnisse oder asynchrones Polling für Stapelaufträge
Export
Reiner Text, PAGE XML, ALTO, TEI – strukturierte Ausgabe
Intelligentes Warteschlangen-Management
So funktioniert die Verarbeitungspipeline
Die Transkribus API ist von Grund auf asynchron konzipiert. Reichen Sie Aufträge in beliebiger Rate ein – die Warteschlange verteilt sie auf verfügbare GPU-Kapazitäten. Für Echtzeit-Integrationen nutzen Sie Long Polling, um Ergebnisse sofort zu erhalten, sobald sie bereitstehen. Mit der Erkennungsgenauigkeit nicht zufrieden? Trainieren Sie ein benutzerdefiniertes Modell auf Ihre spezifischen Dokumente mit dem visuellen Editor und verarbeiten Sie den gesamten Stapel erneut.
Einreichen
Bilder per API übermitteln – URL, Base64 oder Datei-Upload
Warteschlange
Intelligente Auftragsverteilung über GPU-Cluster
Verarbeiten
Layoutanalyse und Texterkennung parallel
Ergebnis
Long Polling oder asynchrones Polling – Ihre Wahl
Export
Reiner Text, PAGE XML, ALTO oder JSON
Fallstudie
Zeitpunkt.NRW: 15 Millionen Zeitungsseiten in einem einzigen Projekt

Strukturierte Ausgabe, nicht nur reiner Text
Jede Seite wird mit Layout-Regionen, Textzeilen, Wortkoordinaten und Konfidenzwerten zurückgeliefert.
Reiner Text
Einfache UTF-8-Textausgabe. Direkt in Suchindizes, Datenbanken oder NLP-Pipelines einspeisen.
PAGE XML
Vollständige Layout-Koordinaten – Regionen, Zeilen, Wörter, Grundlinien. Der Standard für HTR-Workflows.
ALTO XML
Bibliotheksstandard-Format für digitalisierte Sammlungen. Kompatibel mit Europeana, DFG-Viewer und IIIF.
TEI XML
Text Encoding Initiative-Format für wissenschaftliche Editionen und Digital-Humanities-Projekte.
Tabellendaten
Strukturierte Tabellenerkennung – Zeilen, Spalten und Zellinhalte werden automatisch extrahiert.
Volltextsuche
Verarbeitete Dokumente sind in Transkribus sofort durchsuchbar – nach Namen, Daten, Orten und Schlüsselwörtern.
Bereit, Ihre Sammlung zu verarbeiten?
Starten Sie mit einem kostenlosen Konto, um Ihre Dokumente zu testen. Für Großprojekte sprechen Sie mit unserem Team über Volumenpreise und Projektunterstützung.