Skip to content
  • Preise

Ihr Digitalisierungsprojekt, von Anfang bis Ende betreut

Ob bewährte Texterkennung in großem Maßstab oder ein völlig neuer Ansatz für Material, das keine Standardmethode bewältigen kann — unser Team aus Fachexpert:innen, KI-Spezialist:innen und Archivwissenschaftler:innen führt das gesamte Projekt durch. Von der Analyse Ihres Bestands bis zur Lieferung strukturierter, durchsuchbarer Ergebnisse, integriert in Ihre Systeme.

Ihre DokumenteScans, Bilder, Handschriften
Analyse & Proof of ConceptModellauswahl, CER-Evaluation
Verarbeitung & TrainingErkennung, individuelle Modelle, QA
Strukturierte LieferungXML, CSV, Sites, Systemintegration
20M+Seiten in einem einzigen Projekt
2,000+Institutionen vertrauen Transkribus
95%+Genauigkeit bei trainierten Modellen

Von Standardverarbeitung bis zur Lösung von Problemen, die sonst niemand lösen kann

Jede Sammlung ist anders. Wir passen den Ansatz an die Herausforderung an — von routinemäßiger Stapelverarbeitung bis zur Entwicklung völlig neuer KI-Frameworks.

Stapelverarbeitung mit bewährten Modellen

Für gut gescanntes Material mit Standardschriften: Wir wählen die richtigen Modelle aus über 100 öffentlich verfügbaren Text- und Layouterkennungsmodellen, konfigurieren den Workflow, führen die Stapelverarbeitung durch, prüfen die Qualität und liefern.

Gedruckte Bücher und AmtsdokumenteStandardschriften (Lateinisch, Kurrent, Fraktur)Große Mengen mit gleichbleibender Qualität

Individuelles Modelltraining für Ihr Material

Wenn Standardmodelle nicht die benötigte Genauigkeit erreichen — ungewöhnliche Handschriften, degradierte Scans, seltene Schriften — trainieren wir KI-Modelle speziell auf Ihrem Material. Mehrere Trainingsrunden bis wir die Zielgenauigkeit erreichen.

Seltene oder persönliche HandschriftenDegradierte Scans oder MikrofilmdigitalisierungNicht-lateinische Schriftsysteme
Siehe Bautzen-Projekt — individuelles Kurrent-Modell für 200 Jahre Ratsprotokollen

Schemadefinition, Datenextraktion & Systemintegration

Über reinen Text hinaus: Wir definieren Extraktionsschemata für Ihre Dokumenttypen — Tabellen, Felder, strukturierte Datensätze — und liefern Daten im Format, das Ihre Systeme benötigen. Veröffentlichung als durchsuchbare Transkribus Site mit eigenem Branding.

Tabellen- und Feldextraktion aus RegisternCSV, Excel oder datenbankfertige AusgabeIntegration mit ArchivesSpace, AtoM, scopeArchivVeröffentlichte Transkribus Sites mit Volltextsuche
Siehe St. Gallen-Projekt — 200.000 Seiten als durchsuchbare Site veröffentlicht

Neue Frameworks, wenn Standardansätze scheitern

Manche Sammlungen lassen sich mit vorhandenen Werkzeugen nicht erschließen. Wir entwickeln neuartige KI-Ansätze: End-to-End Smart Extract-Modelle, die Dokumentstrukturen kontextuell verstehen, Named Entity Recognition für automatisches Tagging und maßgeschneiderte Frameworks für Probleme, die keine Standardmethode lösen kann.

Smart Extract — kontextuelles DokumentverständnisNamed Entity Recognition und automatische Geo-AnreicherungNeuartige Frameworks für nicht-standardisierte Dokumente
Siehe MfN Berlin-Projekt — erster realer Smart Extract-Einsatz

So funktioniert ein betreutes Projekt

Ein bewährter Prozess, verfeinert durch Dutzende institutioneller Projekte. Sie behalten die Kontrolle über Umfang und Qualität — wir übernehmen die technische Umsetzung.

Ihr Material verstehen

Wir analysieren Ihre Sammlung: Dokumenttypen, Schriften, Layouts, Zustand, Umfang. Welche Daten müssen extrahiert werden? In welche Systeme muss es integriert werden? Wie sieht Erfolg für Ihre Institution aus?

Proof of Concept

Sie senden uns eine repräsentative Stichprobe. Wir durchlaufen die gesamte Pipeline — inklusive individuellem Modelltraining, wenn nötig — und liefern Ergebnisse mit Zeichenfehlerrate und realistischer Kostenschätzung.

Projektplanung & Kickoff

Wir definieren Umfang, Zeitplan, Meilensteine, Liefergegenstände und Preise. Ein:e dedizierte:r Projektmanager:in mit Hintergrund in Digital Humanities oder Archivwissenschaft wird Ihrem Projekt zugewiesen.

Verarbeitung, Training & Qualitätssicherung

Ihr:e PM koordiniert die technische Pipeline: Erkennung, Modellverfeinerung, Datenextraktion, Qualitätsprüfungen. Zweiwöchentliche Sync-Meetings halten Sie auf dem Laufenden.

Meilensteinlieferung & Review

Ergebnisse werden schrittweise an vereinbarten Meilensteinen geliefert, jeweils mit Qualitätsmetriken und Stichprobenprüfung. Sie prüfen und genehmigen, bevor wir fortfahren.

Finale Übergabe & Integration

Der komplette Datensatz in Ihrem gewünschten Format — PAGE XML, ALTO, TEI, CSV, durchsuchbares PDF — oder veröffentlicht als Transkribus Site mit Volltextsuche und eigenem Branding. Alle individuell trainierten Modelle gehören Ihnen.

Was wir geliefert haben

Von 55.000 handgeschriebenen Seiten bis zu 20 Millionen Zeitungsseiten — jedes Projekt ist anders.

Etiketten aus dem Museum für Naturkunde Berlin

Museum für Naturkunde Berlin

Deutschland
250KEtiketten transkribiert

250.000 Etiketten mit handschriftlichen Metadaten aus zwei Jahrhunderten. Standard-OCR versagte komplett — verblasste Tinte, beschädigtes Papier, gemischte Schriften und nicht-standardisierte Layouts.

Entwicklung eines Smart Extract-Modells — eine KI, die Etikettenstrukturen kontextuell versteht. Ergänzt durch Named Entity Recognition mit GeoNames-Anreicherung für automatisches Tagging von Arten und Auflösung von Ortsnamen.

Erster erfolgreicher realer Einsatz eines Smart Extract-Modells. Vollständiger maschinenlesbarer Datensatz von 250.000 transkribierten und getaggten Etiketten — ein replizierbares Modell für Naturkundesammlungen weltweit.

Vollständige Geschichte lesen
Historische Zeitungsseiten aus dem Zeitpunkt.NRW-Projekt

Zeitpunkt.NRW

Nordrhein-Westfalen, Deutschland
20MZeitungsseiten volltextdurchsuchbar

Der komplette historische Zeitungsbestand Nordrhein-Westfalens — 20 Millionen Seiten über Jahrhunderte. Komplexe mehrspaltige Layouts, Frakturschrift, Anzeigen und gemischte Inhaltstypen.

Volltexterkennung in beispiellosem Maßstab. KI-Layoutsegmentierung für komplexe Zeitungsseiten, Stapelverarbeitung mit Qualitätssicherung und Veröffentlichung über ein landesweites digitales Zeitungsportal.

Eines der größten einzelnen Texterkennungsprojekte überhaupt. Bürger:innen und Forschende können jetzt über Jahrhunderte regionaler Geschichte im öffentlich zugänglichen Zeitpunkt.NRW-Portal suchen.

zeitpunkt.nrw besuchen
Notarielle Urkunden aus dem Noord-Hollands Archief

Noord-Hollands Archief

Haarlem, Niederlande
2MScans von Notararchiven durchsuchbar

Jahrhunderte von Notararchiven — Testamente, Eigentumsübertragungen, Inventare, Zeugenaussagen — von 1570 bis 1925. Fast 2 Millionen Scans handschriftlicher Dokumente aus Haarlem, Kennemerland und Amstel- en Meerlanden, unzugänglich für alle, die keine historischen Schriften lesen können.

HTR auf die gesamten Notararchive angewandt. Veröffentlicht als durchsuchbare Transkribus Site mit Fuzzy-Suche für Personennamen und Orte. 93–98,6 % Zeichengenauigkeit. Teil des Pionierprojekts „De ijsberg zichtbaar maken“ (2019–2021).

Fast 2 Millionen Scans von Notarakten jetzt volltextdurchsuchbar online. Forschende, Genealog:innen und Bürger:innen können in 350 Jahren nordholländischer Notargeschichte nach Namen, Orten und Themen suchen.

Sammlung erkunden
Ratsprotokolle aus dem Archiv St. Gallen

Staatsarchiv St. Gallen

Schweiz
200KSeiten jetzt öffentlich durchsuchbar

417 Bücher, 200.000 Seiten Ratsprotokolle — handschriftlich und maschinenschriftlich, viele von älteren Mikrofilmscans digitalisiert. Nur durch persönlichen Besuch im Archiv zugänglich.

Individuelles Modelltraining auf den Ratsprotokollen. Kombinierte automatisierte Transkription mit manueller Korrektur. Veröffentlicht als durchsuchbare Transkribus Site mit Nebeneinanderdarstellung von Dokument und Transkription.

Ratsprotokolle ab 1803 öffentlich online zugänglich — rund um die Uhr durchsuchbar. Keine Kenntnisse historischer Handschriften erforderlich.

Vollständige Geschichte lesen
Historische Kurrentschrift aus dem Bautzener Archiv

Archivverbund Bautzen

Deutschland
55KSeiten Stadtratsgeschichte

257 Bände Ratsprotokolle von 1623–1832 — 55.000 Seiten Kurrentschrift. Digitalisiert, aber unzugänglich, weil die Handschrift für ungeübte Forschende zu schwierig zu entziffern war.

Anwendung des Early Kurrent-Modells, dann Training eines individuellen Modells. Veröffentlicht als Transkribus Site mit Permalinks, die in Archivportal-D und Findbuch integriert sind.

200 Jahre Bautzener Stadtgeschichte vollständig durchsuchbar. Nahtlose Auffindbarkeit über bestehende Archivportale.

Vollständige Geschichte lesen

Weltweit von führenden Institutionen eingesetzt

Ihre Daten gehören Ihnen

Volles Eigentum und volle Kontrolle. Auftragsverarbeitungsverträge (AVV) und individuelle Vereinbarungen möglich.

Gehostet in Österreich, EU

Gesamte Verarbeitung auf eigenen Servern. DSGVO-konform. Keine Drittanbieter-Cloud.

Eine Genossenschaft, kein Startup

Über 250 Archive, Bibliotheken und Universitäten als Miteigentümer. Gebaut für Jahrzehnte, nicht für den Exit.

Kein Vendor Lock-in

Alle Ausgaben in Standardformaten. Trainierte Modelle gehören Ihnen. Daten jederzeit exportierbar.

Erzählen Sie uns von Ihrem Projekt

Beschreiben Sie Ihre Sammlung und Ihre Ziele — wir melden uns innerhalb eines Werktags mit einem maßgeschneiderten Ansatz, vom Proof of Concept bis zur finalen Lieferung.

Wie viele Seiten müssen Sie ungefähr verarbeiten?

20,000 Seiten

Mit dem Absenden stimmen Sie unserer Privacy Policy.

Ihre Daten gehören IhnenVolles Eigentum und volle Kontrolle. DSGVO-konform mit AVV.
Gehostet in Österreich, EUGesamte Verarbeitung auf eigenen Servern. Keine Drittanbieter-Cloud.
Eine Genossenschaft, kein StartupÜber 250 Archive, Bibliotheken und Universitäten als Miteigentümer.

Häufig gestellte Fragen

Alles, was Sie über betreute Digitalisierungsprojekte wissen müssen.