Skip to content
  • Preise

Tausende Aufträge einreichen. Den Rest übernehmen wir.

Die Transkribus API verwaltet Ihre Verarbeitungswarteschlange intelligent. Reichen Sie Dokumente einzeln oder tausende parallel ein – Aufträge werden auf GPU-Cluster verteilt, asynchron verarbeitet und Ergebnisse per Long Polling oder Standard-Polling geliefert. Vom Prototyp einer Integration bis hin zu Millionen archivarischer Seiten.

Stapelverarbeitung einer Dokumentensammlung
200M+auf der Plattform verarbeitete Seiten
15M+Seiten in einem einzelnen Projekt
300+KI-Modelle für jede Schrift

Herkömmliche Pipeline vs. Transkribus

Dokumentenverarbeitung im großen Maßstab bedeutete früher, Menschen und Warteschlangen manuell zu verwalten. Transkribus übernimmt diese Infrastruktur für Sie.

Herkömmlicher Ansatz

Transkribenten einstellen

Ein Team erfahrener Transkribentinnen und Transkribenten rekrutieren, schulen und koordinieren

Sequenziell verarbeiten

Jede Seite wird einzeln von Hand transkribiert

Qualitätsprüfung

Eine zweite Person prüft jede Seite auf Fehler

Formatieren und exportieren

Manuelle Konvertierung in das erforderliche Ausgabeformat

Linear – skaliert mit der Mitarbeiterzahl
vs

Transkribus-Stapelverarbeitung

Aufträge einreichen

Upload über die Web-App oder tausende Aufträge per API einreichen

Intelligente Warteschlange

Aufträge werden automatisch auf GPU-Cluster verteilt

Ergebnisse abrufen

Long Polling für sofortige Ergebnisse oder asynchrones Polling für Stapelaufträge

Export

Reiner Text, PAGE XML, ALTO, TEI – strukturierte Ausgabe

Parallel – skaliert mit der Infrastruktur

Intelligentes Warteschlangen-Management

So funktioniert die Verarbeitungspipeline

Die Transkribus API ist von Grund auf asynchron konzipiert. Reichen Sie Aufträge in beliebiger Rate ein – die Warteschlange verteilt sie auf verfügbare GPU-Kapazitäten. Für Echtzeit-Integrationen nutzen Sie Long Polling, um Ergebnisse sofort zu erhalten, sobald sie bereitstehen. Mit der Erkennungsgenauigkeit nicht zufrieden? Trainieren Sie ein benutzerdefiniertes Modell auf Ihre spezifischen Dokumente mit dem visuellen Editor und verarbeiten Sie den gesamten Stapel erneut.

Einreichen

Bilder per API übermitteln – URL, Base64 oder Datei-Upload

Warteschlange

Intelligente Auftragsverteilung über GPU-Cluster

Verarbeiten

Layoutanalyse und Texterkennung parallel

Ergebnis

Long Polling oder asynchrones Polling – Ihre Wahl

Export

Reiner Text, PAGE XML, ALTO oder JSON

Fallstudie

Zeitpunkt.NRW: 15 Millionen Zeitungsseiten in einem einzigen Projekt

Das Land Nordrhein-Westfalen nutzte Transkribus, um 15 Millionen historische Zeitungsseiten zu verarbeiten – das größte einzelne Digitalisierungsprojekt auf der Plattform. Die Sammlung umfasst mehr als ein Jahrhundert regionaler Zeitungen, die nun vollständig durchsuchbar und öffentlich zugänglich unter zeitpunkt.nrw sind.
15 Millionen Seiten mit KI-Texterkennung verarbeitet
Historischer Fraktur- und Schwarzdruck automatisch verarbeitet
Öffentlich zugänglich und per Volltext durchsuchbar
Zeitpunkt.NRW – 15 Mio. Zeitungsseiten verarbeitet

Strukturierte Ausgabe, nicht nur reiner Text

Jede Seite wird mit Layout-Regionen, Textzeilen, Wortkoordinaten und Konfidenzwerten zurückgeliefert.

Reiner Text

Einfache UTF-8-Textausgabe. Direkt in Suchindizes, Datenbanken oder NLP-Pipelines einspeisen.

PAGE XML

Vollständige Layout-Koordinaten – Regionen, Zeilen, Wörter, Grundlinien. Der Standard für HTR-Workflows.

ALTO XML

Bibliotheksstandard-Format für digitalisierte Sammlungen. Kompatibel mit Europeana, DFG-Viewer und IIIF.

TEI XML

Text Encoding Initiative-Format für wissenschaftliche Editionen und Digital-Humanities-Projekte.

Tabellendaten

Strukturierte Tabellenerkennung – Zeilen, Spalten und Zellinhalte werden automatisch extrahiert.

Volltextsuche

Verarbeitete Dokumente sind in Transkribus sofort durchsuchbar – nach Namen, Daten, Orten und Schlüsselwörtern.

Bereit, Ihre Sammlung zu verarbeiten?

Starten Sie mit einem kostenlosen Konto, um Ihre Dokumente zu testen. Für Großprojekte sprechen Sie mit unserem Team über Volumenpreise und Projektunterstützung.

200M+verarbeitete Seiten
VolumenPreisgestaltung verfügbar
EU-gehostetDSGVO-konform