Early-Access-Programm

Transkribus-Texterkennung, betrieben auf Ihrer Infrastruktur.

Texterkennung, Layout-Analyse, Tabellenextraktion, NER und Modelltraining — auf Ihren Servern eingesetzt, auf Ihre Dokumente zugeschnitten. Jetzt für ausgewählte Institutionen verfügbar.

TexterkennungLayoutanalyseTabellen & FelderNERModelltrainingAir-Gapped-Betrieb

transkribus-onprem — Erkennung

$ transkribus recognize --model super-v2 ./docs/Modell super-v2 wird geladen …GPU: NVIDIA RTX 4090 (24 GB) — CUDA 12.4847 Seiten werden verarbeitet├─ Layoutanalyse ······ fertig (0,8s/Seite)├─ Texterkennung ······ fertig (3,1s/Seite)├─ Tabellenextraktion · fertig (0,4s/Seite)├─ NER ················ fertig (0,2s/Seite)└─ Export: PageXML, PDF✓ 847 Seiten — CER 2,1% — 43 Min. Ergebnisse: ./output/pagexml/

Was enthalten ist

Das On-Prem-Paket bietet Ihrer Institution den vollständigen Transkribus-Erkennungs-Stack, der vollständig auf Ihrer eigenen Hardware läuft.

Recognition — Super Model v2

Den 15ten Januar 1847

wurde in der Kirche zu

Weimar das Kind Johann

Friedrich getauft...

geboren am 12ten des

Monats, Sohn des...

CER2.1%

Erkennungsmotoren

Standard HTR für Hochdurchsatz-Arbeit, Super Models für anspruchsvolle Schriften und historische Handschriften. Dieselben Modelle wie auf der Cloud-Plattform – kein Genauigkeitsunterschied.

Standard HTR für Hochdurchsatz-Stapelverarbeitung
Super Models für 70+ Schriften und anspruchsvolles Material
Konfidenzwerte pro Zeichen und CER-Berichte
GPU-beschleunigt – ~3 Sekunden/Seite auf RTX 3090

Ihre Daten bleiben in Ihrem Netzwerk

Ihre Dokumente verlassen Ihr Netzwerk nie. Keine Cloud-Abhängigkeit, kein externer Datentransfer, kein Drittanbieterzugriff – by Design.

Air-Gapped-Betrieb

Nach der Ersteinrichtung ist keine Internetverbindung erforderlich. Die gesamte Plattform läuft lokal – Erkennung, Training und Export finden alle auf Ihrer Hardware statt.

Ihre Infrastruktur, Ihre Regeln

Sie steuern Speicherorte, Aufbewahrungsrichtlinien, Zugriffsrechte und Backup-Zeitpläne. Transkribus läuft als Container auf Ihren Servern – nichts wird geteilt.

Kontrollierte Updates

Modell- und Plattform-Updates werden als Container-Images geliefert. Sie entscheiden, wann und ob Sie aktualisieren. Keine erzwungenen Upgrades, keine unerwarteten Änderungen.

Compliance-bereit

Konzipiert für Institutionen mit strengen Anforderungen an die Datenverarbeitung. Keine Daten verlassen Ihre Räumlichkeiten – geeignet für vertrauliches, sensibles oder rechtlich eingeschränktes Material.

Compliance-bereit

Your premises

Your infrastructure

Upload

↓

Recognition on your GPU

↓

Results in your storage

No data leaves this boundary

Workstation vs. Enterprise

Dieselben Erkennungsmotoren, dieselbe Genauigkeit, dieselben Ausgabeformate – skaliert auf Ihre Bedürfnisse.

Workstation

Einzelner Server, ein Team

Alles läuft auf einem Rechner mit Docker Compose. Nachmittags eingerichtet, vom Schreibtisch aus betrieben. Ideal, wenn ein Team lokale Erkennungskapazitäten ohne Enterprise-Infrastruktur benötigt.

Einzelne NVIDIA GPU (RTX 3060 oder besser)
Web-Dashboard für Upload, Monitoring und Prüfung
Docker Compose-Deployment – kein Kubernetes erforderlich
Training benutzerdefinierter Modelle auf eigene Dokumente
Alle Ausgabeformate: PageXML, ALTO, PDF, reiner Text

Best forForschungsgruppen, kleine Archive, einzelne Abteilungen

Enterprise

Kubernetes-Cluster, organisationsweit

Skaliert über mehrere GPUs und Worker-Knoten. Entwickelt für Hochvolumen-Digitalisierung mit REST API-Integration, Job-Queuing und Monitoring. Deployment via Helm auf Kubernetes oder OpenShift.

Mehrere GPUs mit horizontaler Skalierung und MIG-Unterstützung
REST API für programmatische Einreichung und Integration
Job-Warteschlange mit automatischer Verteilung auf Worker
Prometheus-Monitoring und Grafana-Dashboards
Helm-Deployment mit ArgoCD / GitOps-Unterstützung

Best forNationalarchive, groß angelegte Digitalisierungsprogramme, Institutionen mit IT-Infrastruktur

Beide Editionen beinhalten den vollständigen Erkennungsmotor-Katalog, Modelltraining und alle Ausgabeformate.

Detaillierte Systemanforderungen

Plattform

Die Transkribus-Plattform läuft auf Ihrer Infrastruktur als Satz containerisierter Dienste. Sie erhalten den vollständigen Erkennungs-Stack – dieselben Engines, Modelle und Ausgabeformate wie in der Cloud-Version.

Texterkennung (Standard HTR & Super Models)

Layoutanalyse & Grundlinienerkennung

Tabellen- & Feldextraktion

Erkennung benannter Entitäten

Training benutzerdefinierter Modelle

Web-Dashboard & REST API

Stapelverarbeitung & Job-Warteschlange

Alle Exportformate (PageXML, ALTO, PDF, reiner Text)

Services – auf Ihre Bedürfnisse abgestimmt

Beratung & Dimensionierung

Wir beginnen damit, Ihre Dokumente, Ihre Volumina und Ihre Rahmenbedingungen zu verstehen. Dann empfehlen wir die passende Hardware, Architektur und die richtigen Modelle für Ihren Anwendungsfall.

Dokumentenanalyse zur Identifikation der besten Erkennungsmodelle
Hardware-Dimensionierung basierend auf Ihrem Durchsatz und Budget
Architekturberatung: einzelner Server oder Kubernetes-Cluster

Deployment & Einrichtung

Unser Ingenieurteam arbeitet gemeinsam mit Ihrem Team an der Installation und Konfiguration von Transkribus auf Ihrer Infrastruktur. Wir begleiten Sie, bis alles reibungslos läuft.

Installation auf Ihrer Hardware oder Cloud-VMs
Integration mit Ihrem Speicher, Netzwerk und Zugriffskontrollen
Validierungsläufe zur Bestätigung der Genauigkeit auf Ihrem Material

Modelltraining & Optimierung

Wir trainieren benutzerdefinierte Erkennungsmodelle auf Ihre spezifischen Dokumentensammlungen – Schriften, Epochen und Hände, mit denen generische Modelle möglicherweise Schwierigkeiten haben.

Ground-Truth-Vorbereitung mit Ihren Domänenexperten
Fine-Tuning ab Basismodellen für Ihr spezifisches Material
CER-Auswertung und iterative Verbesserung

Laufender Support

optional

Nach dem Deployment sind wir nicht verschwunden. Sie haben weiterhin Zugang zu unserem Team für Fehlerbehebung, Updates und neue Modellveröffentlichungen.

Kontrollierte Updates als Container-Images geliefert
Prioritäts-Support-Kanal für technische Probleme
Zugang zu neuen Modellen und Plattformverbesserungen

Teil der READ-COOP-Genossenschaft

Ein europäisches Netzwerk von Archiven, Bibliotheken und Forschungsinstitutionen

Carl von Ossietzky Universität Oldenburg

Fondation des Archives de l'ancien Évêché de Bâle

Friedrich-Alexander-Universität Erlangen-Nürnberg

Informa - Information Management Experts

Institut für Geschichte der Medizin, RBMF

INT - Instituut voor de Nederlandse Taal

Kantonsbibliothek Appenzell Ausserrhoden

Magyar Nemzeti Múzeum Közgyűjteményi Központ

MAK – Österreichisches Museum für angewandte Kunst

Max-Planck Gesellschaft zur Förderung der Wissenschaften e.V.

Max Weber Stiftung - Deutsche Geisteswissenschaftliche lnstitute im Ausland

National and University Library Slovenia

NIOD Institute for War, Holocaust, and Genocide Studies

Österreichische Akademie der Wissenschaften

Sächsische Akademie der Wissenschaften zu Leipzig

School of Advanced Study University of London

Svenska litteratursällskapet i Finland r.f.

Trinity College Dublin, University of Dublin

Universität Bern: Walter Benjamin Kolleg

Universität Bonn: Universitäts- und Landesbibliothek

Universitäts- und Landesbibliothek Darmstadt

Univerzita Mateja Bela v Banskej Bystrici

Early Access beantragen

Wir nehmen eine begrenzte Anzahl von Institutionen für die erste Bereitstellungsphase auf. Kontaktieren Sie uns, um Ihre Anforderungen zu besprechen und Ihren Platz zu sichern.

Early Access anfragen

Transkribus-Texterkennung, betrieben auf Ihrer Infrastruktur.

Was enthalten ist

Erkennungsmotoren

Ihre Daten bleiben in Ihrem Netzwerk

Air-Gapped-Betrieb

Ihre Infrastruktur, Ihre Regeln

Kontrollierte Updates

Compliance-bereit

Compliance-bereit

Workstation vs. Enterprise

Workstation

Enterprise

Vom ersten Kontakt bis zur Produktion

Beratung & Dimensionierung

Deployment & Einrichtung

Modelltraining & Optimierung

Laufender Support

Teil der READ-COOP-Genossenschaft

Early Access beantragen