Ihr Digitalisierungsprojekt, von Anfang bis Ende betreut

Ob bewährte Texterkennung in großem Maßstab oder ein völlig neuer Ansatz für Material, das keine Standardmethode bewältigen kann — unser Team aus Fachexpert:innen, KI-Spezialist:innen und Archivwissenschaftler:innen führt das gesamte Projekt durch. Von der Analyse Ihres Bestands bis zur Lieferung strukturierter, durchsuchbarer Ergebnisse, integriert in Ihre Systeme.

Erzählen Sie uns von Ihrem Projekt

Ihre DokumenteScans, Bilder, Handschriften

Analyse & Proof of ConceptModellauswahl, CER-Evaluation

Verarbeitung & TrainingErkennung, individuelle Modelle, QA

Strukturierte LieferungXML, CSV, Sites, Systemintegration

20M+Seiten in einem einzigen Projekt

2,000+Institutionen vertrauen Transkribus

95%+Genauigkeit bei trainierten Modellen

Stapelverarbeitung mit bewährten Modellen

Für gut gescanntes Material mit Standardschriften: Wir wählen die richtigen Modelle aus über 100 öffentlich verfügbaren Text- und Layouterkennungsmodellen, konfigurieren den Workflow, führen die Stapelverarbeitung durch, prüfen die Qualität und liefern.

Gedruckte Bücher und AmtsdokumenteStandardschriften (Lateinisch, Kurrent, Fraktur)Große Mengen mit gleichbleibender Qualität

Individuelles Modelltraining für Ihr Material

Wenn Standardmodelle nicht die benötigte Genauigkeit erreichen — ungewöhnliche Handschriften, degradierte Scans, seltene Schriften — trainieren wir KI-Modelle speziell auf Ihrem Material. Mehrere Trainingsrunden bis wir die Zielgenauigkeit erreichen.

Seltene oder persönliche HandschriftenDegradierte Scans oder MikrofilmdigitalisierungNicht-lateinische Schriftsysteme

Siehe Bautzen-Projekt — individuelles Kurrent-Modell für 200 Jahre Ratsprotokollen →

Schemadefinition, Datenextraktion & Systemintegration

Über reinen Text hinaus: Wir definieren Extraktionsschemata für Ihre Dokumenttypen — Tabellen, Felder, strukturierte Datensätze — und liefern Daten im Format, das Ihre Systeme benötigen. Veröffentlichung als durchsuchbare Transkribus Site mit eigenem Branding.

Tabellen- und Feldextraktion aus RegisternCSV, Excel oder datenbankfertige AusgabeIntegration mit ArchivesSpace, AtoM, scopeArchivVeröffentlichte Transkribus Sites mit Volltextsuche

Siehe St. Gallen-Projekt — 200.000 Seiten als durchsuchbare Site veröffentlicht →

Neue Frameworks, wenn Standardansätze scheitern

Manche Sammlungen lassen sich mit vorhandenen Werkzeugen nicht erschließen. Wir entwickeln neuartige KI-Ansätze: End-to-End Smart Extract-Modelle, die Dokumentstrukturen kontextuell verstehen, Named Entity Recognition für automatisches Tagging und maßgeschneiderte Frameworks für Probleme, die keine Standardmethode lösen kann.

Smart Extract — kontextuelles DokumentverständnisNamed Entity Recognition und automatische Geo-AnreicherungNeuartige Frameworks für nicht-standardisierte Dokumente

Siehe MfN Berlin-Projekt — erster realer Smart Extract-Einsatz →

Ihr Material verstehen

Wir analysieren Ihre Sammlung: Dokumenttypen, Schriften, Layouts, Zustand, Umfang. Welche Daten müssen extrahiert werden? In welche Systeme muss es integriert werden? Wie sieht Erfolg für Ihre Institution aus?

Proof of Concept

Sie senden uns eine repräsentative Stichprobe. Wir durchlaufen die gesamte Pipeline — inklusive individuellem Modelltraining, wenn nötig — und liefern Ergebnisse mit Zeichenfehlerrate und realistischer Kostenschätzung.

Projektplanung & Kickoff

Wir definieren Umfang, Zeitplan, Meilensteine, Liefergegenstände und Preise. Ein:e dedizierte:r Projektmanager:in mit Hintergrund in Digital Humanities oder Archivwissenschaft wird Ihrem Projekt zugewiesen.

Verarbeitung, Training & Qualitätssicherung

Ihr:e PM koordiniert die technische Pipeline: Erkennung, Modellverfeinerung, Datenextraktion, Qualitätsprüfungen. Zweiwöchentliche Sync-Meetings halten Sie auf dem Laufenden.

Meilensteinlieferung & Review

Ergebnisse werden schrittweise an vereinbarten Meilensteinen geliefert, jeweils mit Qualitätsmetriken und Stichprobenprüfung. Sie prüfen und genehmigen, bevor wir fortfahren.

Finale Übergabe & Integration

Der komplette Datensatz in Ihrem gewünschten Format — PAGE XML, ALTO, TEI, CSV, durchsuchbares PDF — oder veröffentlicht als Transkribus Site mit Volltextsuche und eigenem Branding. Alle individuell trainierten Modelle gehören Ihnen.

Museum für Naturkunde Berlin

Deutschland

Die Herausforderung

250.000 Etiketten mit handschriftlichen Metadaten aus zwei Jahrhunderten. Standard-OCR versagte komplett — verblasste Tinte, beschädigtes Papier, gemischte Schriften und nicht-standardisierte Layouts.

Unser Ansatz

Entwicklung eines Smart Extract-Modells — eine KI, die Etikettenstrukturen kontextuell versteht. Ergänzt durch Named Entity Recognition mit GeoNames-Anreicherung für automatisches Tagging von Arten und Auflösung von Ortsnamen.

Das Ergebnis

Erster erfolgreicher realer Einsatz eines Smart Extract-Modells. Vollständiger maschinenlesbarer Datensatz von 250.000 transkribierten und getaggten Etiketten — ein replizierbares Modell für Naturkundesammlungen weltweit.

Vollständige Geschichte lesen →

Zeitpunkt.NRW

Nordrhein-Westfalen, Deutschland

Die Herausforderung

Der komplette historische Zeitungsbestand Nordrhein-Westfalens — 20 Millionen Seiten über Jahrhunderte. Komplexe mehrspaltige Layouts, Frakturschrift, Anzeigen und gemischte Inhaltstypen.

Unser Ansatz

Volltexterkennung in beispiellosem Maßstab. KI-Layoutsegmentierung für komplexe Zeitungsseiten, Stapelverarbeitung mit Qualitätssicherung und Veröffentlichung über ein landesweites digitales Zeitungsportal.

Das Ergebnis

Eines der größten einzelnen Texterkennungsprojekte überhaupt. Bürger:innen und Forschende können jetzt über Jahrhunderte regionaler Geschichte im öffentlich zugänglichen Zeitpunkt.NRW-Portal suchen.

zeitpunkt.nrw besuchen →

Noord-Hollands Archief

Haarlem, Niederlande

Die Herausforderung

Jahrhunderte von Notararchiven — Testamente, Eigentumsübertragungen, Inventare, Zeugenaussagen — von 1570 bis 1925. Fast 2 Millionen Scans handschriftlicher Dokumente aus Haarlem, Kennemerland und Amstel- en Meerlanden, unzugänglich für alle, die keine historischen Schriften lesen können.

Unser Ansatz

HTR auf die gesamten Notararchive angewandt. Veröffentlicht als durchsuchbare Transkribus Site mit Fuzzy-Suche für Personennamen und Orte. 93–98,6 % Zeichengenauigkeit. Teil des Pionierprojekts „De ijsberg zichtbaar maken“ (2019–2021).

Das Ergebnis

Fast 2 Millionen Scans von Notarakten jetzt volltextdurchsuchbar online. Forschende, Genealog:innen und Bürger:innen können in 350 Jahren nordholländischer Notargeschichte nach Namen, Orten und Themen suchen.

Sammlung erkunden →

Ratsprotokolle aus dem Archiv St. Gallen

Staatsarchiv St. Gallen

Schweiz

Die Herausforderung

417 Bücher, 200.000 Seiten Ratsprotokolle — handschriftlich und maschinenschriftlich, viele von älteren Mikrofilmscans digitalisiert. Nur durch persönlichen Besuch im Archiv zugänglich.

Unser Ansatz

Individuelles Modelltraining auf den Ratsprotokollen. Kombinierte automatisierte Transkription mit manueller Korrektur. Veröffentlicht als durchsuchbare Transkribus Site mit Nebeneinanderdarstellung von Dokument und Transkription.

Das Ergebnis

Ratsprotokolle ab 1803 öffentlich online zugänglich — rund um die Uhr durchsuchbar. Keine Kenntnisse historischer Handschriften erforderlich.

Vollständige Geschichte lesen →

Historische Kurrentschrift aus dem Bautzener Archiv

Archivverbund Bautzen

Deutschland

Die Herausforderung

257 Bände Ratsprotokolle von 1623–1832 — 55.000 Seiten Kurrentschrift. Digitalisiert, aber unzugänglich, weil die Handschrift für ungeübte Forschende zu schwierig zu entziffern war.

Unser Ansatz

Anwendung des Early Kurrent-Modells, dann Training eines individuellen Modells. Veröffentlicht als Transkribus Site mit Permalinks, die in Archivportal-D und Findbuch integriert sind.

Das Ergebnis

200 Jahre Bautzener Stadtgeschichte vollständig durchsuchbar. Nahtlose Auffindbarkeit über bestehende Archivportale.

Vollständige Geschichte lesen →

Weltweit von führenden Institutionen eingesetzt

Ihre Daten gehören Ihnen

Volles Eigentum und volle Kontrolle. Auftragsverarbeitungsverträge (AVV) und individuelle Vereinbarungen möglich.

Gehostet in Österreich, EU

Gesamte Verarbeitung auf eigenen Servern. DSGVO-konform. Keine Drittanbieter-Cloud.

Eine Genossenschaft, kein Startup

Über 250 Archive, Bibliotheken und Universitäten als Miteigentümer. Gebaut für Jahrzehnte, nicht für den Exit.

Kein Vendor Lock-in

Alle Ausgaben in Standardformaten. Trainierte Modelle gehören Ihnen. Daten jederzeit exportierbar.

Ihre Daten gehören IhnenVolles Eigentum und volle Kontrolle. DSGVO-konform mit AVV.

Gehostet in Österreich, EUGesamte Verarbeitung auf eigenen Servern. Keine Drittanbieter-Cloud.

Eine Genossenschaft, kein StartupÜber 250 Archive, Bibliotheken und Universitäten als Miteigentümer.

Ihr Digitalisierungsprojekt, von Anfang bis Ende betreut

Von Standardverarbeitung bis zur Lösung von Problemen, die sonst niemand lösen kann

Stapelverarbeitung mit bewährten Modellen

Individuelles Modelltraining für Ihr Material

Schemadefinition, Datenextraktion & Systemintegration

Neue Frameworks, wenn Standardansätze scheitern

So funktioniert ein betreutes Projekt

Ihr Material verstehen

Proof of Concept

Projektplanung & Kickoff

Verarbeitung, Training & Qualitätssicherung

Meilensteinlieferung & Review

Finale Übergabe & Integration

Was wir geliefert haben

Museum für Naturkunde Berlin

Zeitpunkt.NRW

Noord-Hollands Archief

Staatsarchiv St. Gallen

Archivverbund Bautzen

Ihre Daten gehören Ihnen

Gehostet in Österreich, EU

Eine Genossenschaft, kein Startup

Kein Vendor Lock-in

Erzählen Sie uns von Ihrem Projekt

Häufig gestellte Fragen