Archiv-Rückstau mit KI-gestützter Texterkennung abbauen

2.000+Archive und Bibliotheken

200 Mio.+Verarbeitete Seiten

300+Öffentliche KI-Modelle

250+Genossenschaftsmitglieder

Das Problem

Die Krise der verborgenen Bestände: Digitalisierungsrückstände in Archiven wachsen weiter

Studien des Deutschen Archivtags und europäischer Archivverbände zeigen, dass ein erheblicher Teil der Archivbestände in Deutschland, Österreich und der Schweiz verborgen bleibt — unbearbeitet, nicht katalogisiert und für Forscher praktisch unsichtbar. Dies sind keine Randmaterialien. Es handelt sich um Korrespondenz, Rechtsdokumente, Verwaltungsakten und Handschriften, die Forscher nicht finden können, weil kein Findmittel, kein Katalogeintrag und kein durchsuchbarer Text für sie existiert. Jedes Jahr wächst der Rückstau, da neue Zugänge schneller eintreffen als unterbesetzte Teams sie verarbeiten können.

Personalmangel ist strukturell, nicht vorübergehend — Archive können den Rückstau nicht durch Neueinstellungen lösen

Die manuelle Transkription eines einzelnen Archivkartons kann Wochen qualifizierter Arbeit in Anspruch nehmen

Unbearbeitete Bestände erzeugen keine Zitationen, keine Forschung und kein öffentliches Interesse

Drittmittelgeförderte Digitalisierungsprojekte decken oft nur die Bilderfassung ab, nicht aber Texterkennung oder Metadatenerstellung

Gemischte Bestände — Maschinenschrift, Handschrift, gedruckte Formulare — erfordern unterschiedliche Ansätze, die manuelle Workflows weiter verlangsamen

Unbearbeitete Archivkartons warten auf Erschließung und Digitalisierung

Die Lösung

Archiv-Rückstau mit KI abbauen: Von unbearbeiteten Kartons zu durchsuchbaren Aufzeichnungen

Transkribus ermöglicht Archiven die Verarbeitung von Beständen in einem Umfang, den manuelle Workflows nicht erreichen können. Laden Sie gescannte Bilder hoch — ganze Kartons, Serien oder Bestände — und führen Sie KI-Texterkennung über Tausende von Seiten in einem einzigen Batch durch. Die Handschrifterkennung (HTR) der Plattform verarbeitet die in Archivbeständen häufigsten Schriften und Dokumenttypen: Verwaltungshandschrift, amtliche Korrespondenz, Gerichtsakten, Gemeinderegister und Dokumente mit gemischten Formaten. Das Ergebnis ist maschinenlesbarer, durchsuchbarer Text, der direkt in archivarische Informationssysteme exportiert werden kann.

Batch-Verarbeitung: Tausende von Seiten einreihen und unbeaufsichtigt verarbeiten — kein seitenweiser Eingriff

300+ öffentliche KI-Modelle, trainiert auf historischen Schriften ab dem 15. Jahrhundert

Export in PAGE XML, ALTO XML und TEI-XML für den Import in ArchivesSpace, AtoM und andere Systeme

Transkribus API ermöglicht vollautomatisierte Pipelines für Massendigitalisierungs-Workflows

Verarbeitete Bestände direkt als durchsuchbare digitale Editionen über Transkribus Sites veröffentlichen

Transkribus für Archive

Transkribus Batch-Verarbeitungsoberfläche für Archivbestände im großen Maßstab

Vergleich

KI-gestützte Verarbeitung vs. manuelle Transkription für Archive

Archive stehen vor einem grundlegenden Durchsatzproblem: Millionen von Seiten warten darauf, katalogisiert, durchsuchbar und zugänglich gemacht zu werden. So schneidet KI-gestützte Verarbeitung im Vergleich zu traditionellen manuellen Arbeitsabläufen ab.

Feature	Transkribus KI-Verarbeitung	Manuelle Transkription
Durchsatz	Tausende Seiten pro Tag mit Stapelverarbeitung – skaliert mit der Größe der Sammlung	Ein erfahrener Transkribierer bearbeitet je nach Schwierigkeitsgrad 5–15 Seiten pro Tag
Kosten pro Seite	Bruchteil eines Cents pro Seite mit kreditbasierter Abrechnung	Arbeitsintensiv – die Kosten steigen linear mit jeder Seite
Konsistenz	Dasselbe Modell liefert konsistente Ergebnisse über Tausende von Seiten hinweg	Qualität schwankt je nach Transkribierer, Ermüdung und unterschiedlicher Interpretation
Durchsuchbarkeit	Jede verarbeitete Seite wird sofort volltextdurchsuchbar	Nur transkribierte Seiten sind durchsuchbar – der Rückstand bleibt im Dunkeln
Umgang mit historischen Schriften	Über 300 öffentliche Modelle für Schriften vom 9. Jahrhundert bis heute	Erfordert paläographische Spezialkenntnisse – nur wenige Mitarbeiter verfügen darüber
Zeit bis zur Bereitstellung	Sammlungen werden innerhalb von Tagen oder Wochen nach der Digitalisierung zugänglich	Rückstände von Jahren oder Jahrzehnten sind in großen Institutionen üblich
Qualitätsprüfung	Konfidenzwerte markieren unsichere Zeilen für gezielte manuelle Überprüfung	Erfordert vollständiges Korrekturlesen jeder Transkription

Der Vergleich bezieht sich auf typische institutionelle Arbeitsabläufe. KI-gestützte Verarbeitung funktioniert am besten als Ergänzung menschlicher Expertise – automatisierter erster Durchgang mit gezielter manueller Nachprüfung.

So verarbeiten Sie einen Archivbestand in 4 Schritten

Gescannte Bestände hochladen

Laden Sie ganze Serien oder Bestände als mehrseitige PDFs, TIFFs oder Bild-Batches hoch. Transkribus übernimmt die Layouterkennung — Spalten, Tabellen, Marginalien — automatisch.

KI-Modell auswählen

Wählen Sie aus 300+ öffentlichen Modellen, gefiltert nach Sprache, Jahrhundert und Schriftart. Bei gemischten Beständen können Sie verschiedene Modelle für unterschiedliche Dokumentgruppen innerhalb desselben Projekts verwenden.

Batch-Erkennung starten

Reihen Sie Tausende von Seiten zur Verarbeitung ein. Transkribus führt die Texterkennung im Hintergrund durch — kein manueller Eingriff erforderlich. Überwachen Sie den Fortschritt über das Dashboard.

Exportieren und integrieren

Exportieren Sie Ergebnisse als PAGE XML, ALTO XML, TEI-XML, Reintext oder durchsuchbares PDF. Importieren Sie direkt in ArchivesSpace, AtoM oder veröffentlichen Sie über Transkribus Sites.

Im großen Maßstab

Automatisierte Archivverarbeitung mit der Transkribus API

Für Institutionen mit großen oder wiederkehrenden Digitalisierungsprogrammen ermöglicht die Transkribus REST API vollautomatisierte Verarbeitungspipelines. Integrieren Sie die Texterkennung direkt in Ihre bestehenden Imaging- und Katalogisierungs-Workflows — ohne manuelle Uploads, ohne browserbasierte Interaktion. Die API unterstützt Modellauswahl, Batch-Job-Management und strukturierten Ergebnisabruf und eignet sich damit für produktionsreife Massendigitalisierungsprojekte.

REST-API mit vollständiger Dokumentation zur Integration in institutionelle Workflows

Programmatische Modellauswahl — verschiedene Modelle für verschiedene Bestandstypen automatisch auswählen

Strukturierte JSON-Ausgabe mit Text, Koordinaten und Konfidenzwerten für jede Textregion

Batch-Job-Management: Aufträge einreichen, überwachen und Ergebnisse für Tausende von Seiten abrufen

Kombination mit Entitätserkennung zur Extraktion von Namen, Daten und Orten für die Kataloganreicherung

Transkribus API für Batch-Verarbeitung

import requests

API = "https://transkribus.eu/processing/v1"
TOKEN = "your-api-token"

# 1. Upload collection
upload = requests.post(f"{API}/uploads",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={"collectionId": 12345}
)

# 2. Start recognition on all pages
job = requests.post(f"{API}/processes",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={
    "docId": upload.json()["docId"],
    "htrId": 53042,   # model ID
    "pages": "all"
  }
)

# 3. Poll for completion
status = requests.get(
  f"{API}/processes/{job.json()['processId']}",
  headers={"Authorization": f"Bearer {TOKEN}"}
).json()
print(f"Status: {status['state']}")

Häufig gestellte Fragen

Wie schnell kann Transkribus Archivbestände im großen Maßstab verarbeiten?

Die Verarbeitungsgeschwindigkeit hängt von der Dokumentenkomplexität und Seitenzahl ab. Als Richtwert: Eine einzelne Seite benötigt typischerweise 15–30 Sekunden. Batch-Verarbeitung läuft parallel, sodass eine Sammlung von 10.000 Seiten in Stunden verarbeitet werden kann — statt der Wochen oder Monate, die manuelle Transkription erfordern würde. Die Transkribus API ermöglicht kontinuierliche, unbeaufsichtigte Verarbeitung für noch größere Volumina.

Welche Genauigkeit können wir bei gemischten Archivbeständen erwarten?

Die Genauigkeit variiert je nach Schriftart und Dokumentenzustand. Bei gut erhaltener Verwaltungshandschrift des 19. und 20. Jahrhunderts sind Zeichenfehlerraten (CER) unter 5 % mit passenden öffentlichen Modellen typisch. Ältere oder anspruchsvollere Schriften erfordern möglicherweise ein eigenes Modelltraining, um vergleichbare Genauigkeit zu erreichen. Jede Textzeile enthält einen Konfidenzwert, der qualitätsorientierte Überprüfungsworkflows ermöglicht — das Personal kann sich auf Abschnitte mit niedrigem Konfidenzwert konzentrieren, statt ganze Dokumente erneut zu lesen.

Lässt sich Transkribus mit ArchivesSpace, AtoM oder anderen Archivsystemen integrieren?

Transkribus exportiert in PAGE XML, ALTO XML, TEI-XML und anderen Standardformaten, die ArchivesSpace, AtoM und ähnliche archivarische Informationssysteme importieren können. Die API ermöglicht automatisierte Export-Pipelines. Obwohl es keinen direkten Plug-in-Connector gibt, ist die strukturierte XML-Ausgabe für die Interoperabilität mit archivarischen Metadatenstandards (EAD, Dublin Core) konzipiert.

Wie viele Mitarbeiter werden für ein Großprojekt benötigt?

Eine geschulte Fachkraft kann ein Batch-Verarbeitungsprojekt mit Tausenden von Seiten betreuen. Transkribus übernimmt Layouterkennung, Texterkennung und Export automatisch. Die Arbeitszeit des Personals wird am besten für die Qualitätskontrolle von Abschnitten mit niedrigem Konfidenzwert und für kuratorische Entscheidungen eingesetzt — die Auswahl der zu priorisierenden Bestände, die Wahl geeigneter Modelle und die Validierung der Ergebnisse.

Was kostet Transkribus auf institutioneller Ebene?

Transkribus bietet institutionelle Pläne für die Verarbeitung großer Volumina. Die Preise hängen vom Seitenvolumen und dem Bedarf an API-Zugang ab. Kontaktieren Sie unser Team unter transkribus.org/contact für ein individuelles Angebot. Jedes Konto enthält 50 kostenlose Credits pro Monat zur Evaluierung der Plattform.

Wie handhabt Transkribus DSGVO und Datenschutz?

Die gesamte Verarbeitung läuft auf den eigenen Servern von Transkribus in Österreich (EU). Es werden keine Daten an Cloud-Dienste Dritter gesendet. Dokumente und Transkriptionen verbleiben im vollen Eigentum der Institution und können jederzeit gelöscht werden. Transkribus wird von der READ-COOP SCE betrieben, einer europäischen Genossenschaft — keinem Startup. Auftragsverarbeitungsverträge (AVV) sind für Institutionen verfügbar, die diese benötigen.

Wie sollten wir priorisieren, welche Bestände zuerst verarbeitet werden?

Institutionen erzielen typischerweise den besten Ertrag, wenn sie mit Beständen beginnen, die (1) bereits digitalisiert (gescannt), aber ohne durchsuchbaren Text sind, (2) von Forschern stark nachgefragt werden, oder (3) in Schriften verfasst sind, für die bereits leistungsstarke öffentliche Modelle existieren. Dieser Ansatz maximiert die unmittelbare Wirkung bei minimalem Aufwand. Der Transkribus-Modellkatalog kann nach Sprache, Schriftart und Jahrhundert gefiltert werden, um zu identifizieren, welche Bestände direkt gut funktionieren.

Können wir Bestände verarbeiten, die sowohl handschriftliches als auch gedrucktes Material enthalten?

Ja. Archivbestände enthalten häufig gemischte Materialien — maschinenschriftliche Formulare mit handschriftlichen Anmerkungen, gedruckte Kopfzeilen mit Kursiveinträgen oder Seiten, die zwischen Druck und Handschrift wechseln. Transkribus erkennt das Layout für diese gemischten Formate und unterstützt die Verwendung verschiedener Modelle für unterschiedliche Dokumenttypen innerhalb desselben Projekts.

Infrastruktur auf institutionellem Niveau für Archivbestände.

Transkribus wird in Europa von einer Genossenschaft mit über 250 Archiven, Bibliotheken und Universitäten entwickelt und betrieben. Ihre Bestände bleiben unter Ihrer Kontrolle.

Ihre Daten bleiben bei Ihnen

Volles Eigentum. Jederzeit löschbar.

Gehostet in Österreich, EU

Verarbeitung auf unseren eigenen Servern. DSGVO-konform. Keine Cloud-Abhängigkeiten.

Genossenschaft, kein Startup

Tausende Archive, Bibliotheken und Universitäten als Miteigentümer. Gebaut für Jahrzehnte, nicht für einen VC-Exit.

Weiterführende Ressourcen

Mehr für Archive und Institutionen

Erfahren Sie, wie Transkribus in Ihre institutionellen Workflows passt: Transkribus für Archive · Was ist HTR? · Durchsuchbare PDFs erstellen · Mittelalterliche Handschriften

Transkribus für Archive

Bereit, Ihren Archiv-Rückstau anzugehen?

Sprechen Sie mit unserem Team über institutionelle Pläne für die Verarbeitung großer Bestände, oder erstellen Sie ein kostenloses Konto zur Evaluierung.

Kontaktieren Sie uns Kostenlos starten

Genutzt von über 2.000 Archiven und Bibliotheken weltweit

200 Mio.+Verarbeitete Seiten

2.000+Archive und Bibliotheken

300+Öffentliche KI-Modelle