Skip to content
  • Preise

Archiv-Rückstau mit KI-gestützter Texterkennung abbauen

Millionen unbearbeiteter Seiten, zu wenig Personal. Transkribus verarbeitet ganze Bestände im Batch — macht verborgene Sammlungen durchsuchbar und auffindbar auf institutioneller Ebene.

Batch-VerarbeitungVerborgene SammlungenKI im großen MaßstabKontaktieren Sie uns

Ziehen Sie hier ein Bild rein

Datei auswählen...

PNG oder JPG bis zu 10 Mb

Wolpi
AI Assistant

Mit dem Hochladen eines Bildes akzeptieren Sie unsere AGB und unsere Datenschutzrichtlinie.

Vertrauen von 500.000+ Nutzern weltweit — 200 Mio.+ Seiten verarbeitet

2.000+
Archive und Bibliotheken
200 Mio.+
Verarbeitete Seiten
300+
Öffentliche KI-Modelle
250+
Genossenschaftsmitglieder

Das Problem

Die Krise der verborgenen Bestände: Digitalisierungsrückstände in Archiven wachsen weiter

Studien des Deutschen Archivtags und europäischer Archivverbände zeigen, dass ein erheblicher Teil der Archivbestände in Deutschland, Österreich und der Schweiz verborgen bleibt — unbearbeitet, nicht katalogisiert und für Forscher praktisch unsichtbar. Dies sind keine Randmaterialien. Es handelt sich um Korrespondenz, Rechtsdokumente, Verwaltungsakten und Handschriften, die Forscher nicht finden können, weil kein Findmittel, kein Katalogeintrag und kein durchsuchbarer Text für sie existiert. Jedes Jahr wächst der Rückstau, da neue Zugänge schneller eintreffen als unterbesetzte Teams sie verarbeiten können.
Personalmangel ist strukturell, nicht vorübergehend — Archive können den Rückstau nicht durch Neueinstellungen lösen
Die manuelle Transkription eines einzelnen Archivkartons kann Wochen qualifizierter Arbeit in Anspruch nehmen
Unbearbeitete Bestände erzeugen keine Zitationen, keine Forschung und kein öffentliches Interesse
Drittmittelgeförderte Digitalisierungsprojekte decken oft nur die Bilderfassung ab, nicht aber Texterkennung oder Metadatenerstellung
Gemischte Bestände — Maschinenschrift, Handschrift, gedruckte Formulare — erfordern unterschiedliche Ansätze, die manuelle Workflows weiter verlangsamen
Unbearbeitete Archivkartons warten auf Erschließung und Digitalisierung

Die Lösung

Archiv-Rückstau mit KI abbauen: Von unbearbeiteten Kartons zu durchsuchbaren Aufzeichnungen

Transkribus ermöglicht Archiven die Verarbeitung von Beständen in einem Umfang, den manuelle Workflows nicht erreichen können. Laden Sie gescannte Bilder hoch — ganze Kartons, Serien oder Bestände — und führen Sie KI-Texterkennung über Tausende von Seiten in einem einzigen Batch durch. Die Handschrifterkennung (HTR) der Plattform verarbeitet die in Archivbeständen häufigsten Schriften und Dokumenttypen: Verwaltungshandschrift, amtliche Korrespondenz, Gerichtsakten, Gemeinderegister und Dokumente mit gemischten Formaten. Das Ergebnis ist maschinenlesbarer, durchsuchbarer Text, der direkt in archivarische Informationssysteme exportiert werden kann.
Batch-Verarbeitung: Tausende von Seiten einreihen und unbeaufsichtigt verarbeiten — kein seitenweiser Eingriff
300+ öffentliche KI-Modelle, trainiert auf historischen Schriften ab dem 15. Jahrhundert
Export in PAGE XML, ALTO XML und TEI-XML für den Import in ArchivesSpace, AtoM und andere Systeme
Metagrapho-API ermöglicht vollautomatisierte Pipelines für Massendigitalisierungs-Workflows
Verarbeitete Bestände direkt als durchsuchbare digitale Editionen über Transkribus Sites veröffentlichen
Transkribus Batch-Verarbeitungsoberfläche für Archivbestände im großen Maßstab

Vergleich

KI-gestützte Verarbeitung vs. manuelle Transkription für Archive

Archive stehen vor einem grundlegenden Durchsatzproblem: Millionen von Seiten warten darauf, katalogisiert, durchsuchbar und zugänglich gemacht zu werden. So schneidet KI-gestützte Verarbeitung im Vergleich zu traditionellen manuellen Arbeitsabläufen ab.

FeatureTranskribus KI-VerarbeitungManuelle Transkription
DurchsatzTausende Seiten pro Tag mit Stapelverarbeitung – skaliert mit der Größe der SammlungEin erfahrener Transkribierer bearbeitet je nach Schwierigkeitsgrad 5–15 Seiten pro Tag
Kosten pro SeiteBruchteil eines Cents pro Seite mit kreditbasierter AbrechnungArbeitsintensiv – die Kosten steigen linear mit jeder Seite
KonsistenzDasselbe Modell liefert konsistente Ergebnisse über Tausende von Seiten hinwegQualität schwankt je nach Transkribierer, Ermüdung und unterschiedlicher Interpretation
DurchsuchbarkeitJede verarbeitete Seite wird sofort volltextdurchsuchbarNur transkribierte Seiten sind durchsuchbar – der Rückstand bleibt im Dunkeln
Umgang mit historischen SchriftenÜber 300 öffentliche Modelle für Schriften vom 9. Jahrhundert bis heuteErfordert paläographische Spezialkenntnisse – nur wenige Mitarbeiter verfügen darüber
Zeit bis zur BereitstellungSammlungen werden innerhalb von Tagen oder Wochen nach der Digitalisierung zugänglichRückstände von Jahren oder Jahrzehnten sind in großen Institutionen üblich
QualitätsprüfungKonfidenzwerte markieren unsichere Zeilen für gezielte manuelle ÜberprüfungErfordert vollständiges Korrekturlesen jeder Transkription

Der Vergleich bezieht sich auf typische institutionelle Arbeitsabläufe. KI-gestützte Verarbeitung funktioniert am besten als Ergänzung menschlicher Expertise – automatisierter erster Durchgang mit gezielter manueller Nachprüfung.

So verarbeiten Sie einen Archivbestand in 4 Schritten

Gescannte Bestände hochladen

Laden Sie ganze Serien oder Bestände als mehrseitige PDFs, TIFFs oder Bild-Batches hoch. Transkribus übernimmt die Layouterkennung — Spalten, Tabellen, Marginalien — automatisch.

KI-Modell auswählen

Wählen Sie aus 300+ öffentlichen Modellen, gefiltert nach Sprache, Jahrhundert und Schriftart. Bei gemischten Beständen können Sie verschiedene Modelle für unterschiedliche Dokumentgruppen innerhalb desselben Projekts verwenden.

Batch-Erkennung starten

Reihen Sie Tausende von Seiten zur Verarbeitung ein. Transkribus führt die Texterkennung im Hintergrund durch — kein manueller Eingriff erforderlich. Überwachen Sie den Fortschritt über das Dashboard.

Exportieren und integrieren

Exportieren Sie Ergebnisse als PAGE XML, ALTO XML, TEI-XML, Reintext oder durchsuchbares PDF. Importieren Sie direkt in ArchivesSpace, AtoM oder veröffentlichen Sie über Transkribus Sites.

Im großen Maßstab

Automatisierte Archivverarbeitung mit der Metagrapho-API

Für Institutionen mit großen oder wiederkehrenden Digitalisierungsprogrammen ermöglicht die Metagrapho-REST-API vollautomatisierte Verarbeitungspipelines. Integrieren Sie die Texterkennung direkt in Ihre bestehenden Imaging- und Katalogisierungs-Workflows — ohne manuelle Uploads, ohne browserbasierte Interaktion. Die API unterstützt Modellauswahl, Batch-Job-Management und strukturierten Ergebnisabruf und eignet sich damit für produktionsreife Massendigitalisierungsprojekte.
REST-API mit vollständiger Dokumentation zur Integration in institutionelle Workflows
Programmatische Modellauswahl — verschiedene Modelle für verschiedene Bestandstypen automatisch auswählen
Strukturierte JSON-Ausgabe mit Text, Koordinaten und Konfidenzwerten für jede Textregion
Batch-Job-Management: Aufträge einreichen, überwachen und Ergebnisse für Tausende von Seiten abrufen
Kombination mit Entitätserkennung zur Extraktion von Namen, Daten und Orten für die Kataloganreicherung
batch_process.py
import requests

API = "https://transkribus.eu/processing/v1"
TOKEN = "your-api-token"

# 1. Upload collection
upload = requests.post(f"{API}/uploads",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={"collectionId": 12345}
)

# 2. Start recognition on all pages
job = requests.post(f"{API}/processes",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={
    "docId": upload.json()["docId"],
    "htrId": 53042,   # model ID
    "pages": "all"
  }
)

# 3. Poll for completion
status = requests.get(
  f"{API}/processes/{job.json()['processId']}",
  headers={"Authorization": f"Bearer {TOKEN}"}
).json()
print(f"Status: {status['state']}")

Häufig gestellte Fragen

Die Verarbeitungsgeschwindigkeit hängt von der Dokumentenkomplexität und Seitenzahl ab. Als Richtwert: Eine einzelne Seite benötigt typischerweise 15–30 Sekunden. Batch-Verarbeitung läuft parallel, sodass eine Sammlung von 10.000 Seiten in Stunden verarbeitet werden kann — statt der Wochen oder Monate, die manuelle Transkription erfordern würde. Die Metagrapho-API ermöglicht kontinuierliche, unbeaufsichtigte Verarbeitung für noch größere Volumina.
Die Genauigkeit variiert je nach Schriftart und Dokumentenzustand. Bei gut erhaltener Verwaltungshandschrift des 19. und 20. Jahrhunderts sind Zeichenfehlerraten (CER) unter 5 % mit passenden öffentlichen Modellen typisch. Ältere oder anspruchsvollere Schriften erfordern möglicherweise ein eigenes Modelltraining, um vergleichbare Genauigkeit zu erreichen. Jede Textzeile enthält einen Konfidenzwert, der qualitätsorientierte Überprüfungsworkflows ermöglicht — das Personal kann sich auf Abschnitte mit niedrigem Konfidenzwert konzentrieren, statt ganze Dokumente erneut zu lesen.
Transkribus exportiert in PAGE XML, ALTO XML, TEI-XML und anderen Standardformaten, die ArchivesSpace, AtoM und ähnliche archivarische Informationssysteme importieren können. Die API ermöglicht automatisierte Export-Pipelines. Obwohl es keinen direkten Plug-in-Connector gibt, ist die strukturierte XML-Ausgabe für die Interoperabilität mit archivarischen Metadatenstandards (EAD, Dublin Core) konzipiert.
Eine geschulte Fachkraft kann ein Batch-Verarbeitungsprojekt mit Tausenden von Seiten betreuen. Transkribus übernimmt Layouterkennung, Texterkennung und Export automatisch. Die Arbeitszeit des Personals wird am besten für die Qualitätskontrolle von Abschnitten mit niedrigem Konfidenzwert und für kuratorische Entscheidungen eingesetzt — die Auswahl der zu priorisierenden Bestände, die Wahl geeigneter Modelle und die Validierung der Ergebnisse.
Transkribus bietet institutionelle Pläne für die Verarbeitung großer Volumina. Die Preise hängen vom Seitenvolumen und dem Bedarf an API-Zugang ab. Kontaktieren Sie unser Team unter transkribus.org/contact für ein individuelles Angebot. Jedes Konto enthält 50 kostenlose Credits pro Monat zur Evaluierung der Plattform.
Die gesamte Verarbeitung läuft auf den eigenen Servern von Transkribus in Österreich (EU). Es werden keine Daten an Cloud-Dienste Dritter gesendet. Dokumente und Transkriptionen verbleiben im vollen Eigentum der Institution und können jederzeit gelöscht werden. Transkribus wird von der READ-COOP SCE betrieben, einer europäischen Genossenschaft — keinem Startup. Auftragsverarbeitungsverträge (AVV) sind für Institutionen verfügbar, die diese benötigen.
Institutionen erzielen typischerweise den besten Ertrag, wenn sie mit Beständen beginnen, die (1) bereits digitalisiert (gescannt), aber ohne durchsuchbaren Text sind, (2) von Forschern stark nachgefragt werden, oder (3) in Schriften verfasst sind, für die bereits leistungsstarke öffentliche Modelle existieren. Dieser Ansatz maximiert die unmittelbare Wirkung bei minimalem Aufwand. Der Transkribus-Modellkatalog kann nach Sprache, Schriftart und Jahrhundert gefiltert werden, um zu identifizieren, welche Bestände direkt gut funktionieren.
Ja. Archivbestände enthalten häufig gemischte Materialien — maschinenschriftliche Formulare mit handschriftlichen Anmerkungen, gedruckte Kopfzeilen mit Kursiveinträgen oder Seiten, die zwischen Druck und Handschrift wechseln. Transkribus erkennt das Layout für diese gemischten Formate und unterstützt die Verwendung verschiedener Modelle für unterschiedliche Dokumenttypen innerhalb desselben Projekts.
EUAT

Infrastruktur auf institutionellem Niveau für Archivbestände.

Transkribus wird in Europa von einer Genossenschaft mit über 250 Archiven, Bibliotheken und Universitäten entwickelt und betrieben. Ihre Bestände bleiben unter Ihrer Kontrolle.

Ihre Daten bleiben bei Ihnen

Volles Eigentum. Jederzeit löschbar.

Gehostet in Österreich, EU

Verarbeitung auf unseren eigenen Servern. DSGVO-konform. Keine Cloud-Abhängigkeiten.

Genossenschaft, kein Startup

Tausende Archive, Bibliotheken und Universitäten als Miteigentümer. Gebaut für Jahrzehnte, nicht für einen VC-Exit.

Weiterführende Ressourcen

Mehr für Archive und Institutionen

Erfahren Sie, wie Transkribus in Ihre institutionellen Workflows passt: Transkribus für Archive · Was ist HTR? · Durchsuchbare PDFs erstellen · Mittelalterliche Handschriften
Archivbestände bei der Digitalisierung

Bereit, Ihren Archiv-Rückstau anzugehen?

Sprechen Sie mit unserem Team über institutionelle Pläne für die Verarbeitung großer Bestände, oder erstellen Sie ein kostenloses Konto zur Evaluierung.

Genutzt von über 2.000 Archiven und Bibliotheken weltweit

200 Mio.+Verarbeitete Seiten
2.000+Archive und Bibliotheken
300+Öffentliche KI-Modelle