Technische referentie

Architectuur, verwerkingspijplijn, systeemvereisten en prestatiebenchmarks voor Transkribus On-Prem.

Verwerkingspijplijn

BeeldinvoerTIFF, JPEG, PNG, PDF

→

VoorverwerkingBinarisering, scheve correctie

→

Lay-outanalyseRegio's & basislijnen

→

RegelextractieTekstsegmentatie

→

HerkenningHTR / OCR (GPU)

→

UitvoerPageXML, PDF, ALTO

Fasen worden uitgevoerd als een streaming pijplijn. Terwijl één pagina wordt herkend, wordt de lay-out van de volgende al gedetecteerd. Dit betekent dat de bulkdoorvoer aanzienlijk hoger is dan de latentie van één pagina zou suggereren.

Herkenningsengines

Standaard HTR

Encoder-decoder neuraal netwerk voor handgeschreven en gedrukte tekst. Geoptimaliseerd voor doorvoer. Ondersteunt aangepaste modeltraining op uw eigen data en werkt met de volledige catalogus van publieke en private Transkribus-modellen. Taalmodelondersteuning verbetert de nauwkeurigheid bij domeinspecifieke inhoud.

Schriften: Latijn, Duits (Kurrent, Fraktur), grote Europese schriften
Nauwkeurigheid: CER 2–5% op schone documenten, 5–10% op uitdagend materiaal
Doorvoer: ~2–3 s/pagina per GPU (warm, ~20 regels/pagina)
VRAM: ~4 GB per gelijktijdig model

Best for: Grootschalige bulkverwerking, goed ondersteunde schriften, aangepast getrainde modellen

Super Models

Grotere architectuur met bredere schriftdekking en hogere nauwkeurigheid op moeilijk materiaal. Toegang tot de volledige Transkribus Super Models-catalogus — tientallen schriften en talen, inclusief historisch Duits, Latijn, Grieks, Cyrillisch, Hebreeuws, Arabisch en Oost-Aziatische schriften.

Schriften: 70+ schriften inclusief Latijn, Grieks, Cyrillisch, Hebreeuws, Arabisch, Oost-Aziatisch
Nauwkeurigheid: CER 1–3% op veelvoorkomende schriften, 3–7% op zeldzaam materiaal
Doorvoer: ~4–5 s/pagina per GPU (warm, ~20 regels/pagina)
VRAM: ~8 GB per gelijktijdig model

Best for: Zeldzame schriften, meertalige documenten, hoogste nauwkeurigheidsvereisten

Beide engines kunnen gelijktijdig beschikbaar zijn op dezelfde installatie. De gebruiker selecteert per taak. Gebruik Standaard HTR voor bulkverwerking op grote schaal van goed ondersteunde schriften. Gebruik Super Models bij zeldzame schriften, meertalige documenten of wanneer het minimaliseren van CER de primaire zorg is.

Lay-outanalyse

Automatische detectie van paginastructuur vóór herkenning. Het lay-outmodel identificeert waar tekst, tabellen, koppen en andere inhoudsregio's zich bevinden, legt basislijnen vast binnen tekstgebieden en bepaalt de leesvolgorde. Meerdere lay-outmodellen zijn beschikbaar voor verschillende documenttypen en historische periodes.

Tekstgebieden
Basislijnen
Leesvolgorde
Tabellen
Koppen & voetteksten
Marginalia
Illustraties
Initialen

Tabellen & velden

Toegewijde modeltypen voor gestructureerde gegevensextractie. Tabelmodellen detecteren rij- en kolomstructuur binnen tabelregio's die tijdens lay-outanalyse zijn geïdentificeerd. Veldmodellen extraheren waarden uit formulieren en gestandaardiseerde documenten met bekende indelingen. Beide produceren gestructureerde uitvoer die gereed is voor database-ingest of vervolgverwerking.

Tabelextractie met rij- en kolomstructuur
Herkenning van celinhoud in gedetecteerde tabellen
Veldextractie uit formulieren en gestandaardiseerde documenttypen
Gestructureerde uitvoer als onderdeel van PageXML of afzonderlijke export
Aangepaste veldmodellen voor domeinspecifieke documentindelingen

Uitvoerformaten

Format	What's included	Typical use
PageXML	Basislijnen, polygonen, tekst, betrouwbaarheid per teken, metadata	Heen-en-terug met Transkribus, wetenschappelijk editeren, bewaring
ALTO XML	Bibliotheekstandaard OCR-structuur	METS-containers, institutionele repositories, Europeana
Doorzoekbare PDF	Onzichtbare tekstlaag op woordniveau over originele scan	Toegang voor eindgebruikers, volledige tekst zoeken, citatie
Platte tekst	UTF-8-tekst, één bestand per pagina	Volledige tekstindexering, NLP-pijplijnen, corpusbouw

Modeltraining

Train aangepaste herkenningsmodellen op uw eigen documenten. Alle training draait lokaal op uw GPU — geen data verlaat uw infrastructuur.

Grondwaarheid voorbereiden
Transcribeer een steekproef van uw documenten — doorgaans 50–100 pagina's voor het fine-tunen van een bestaand basismodel. Het webdashboard bevat hulpmiddelen voor het bewerken van grondwaarheid.
Trainen
Selecteer een basismodel en start de training op uw GPU. Trainingstijd is doorgaans 2–6 uur voor een fine-tuningrun, afhankelijk van de datasetomvang en hardware.
Evalueren
Het systeem rapporteert CER (Tekenfoutenpercentage) op een gehouden validatieset. Vergelijk met het basismodel om verbetering te meten.
Implementeren
Publiceer het getrainde model in uw lokale modelregister. Het is onmiddellijk beschikbaar voor herkenningstaken — geen herstart nodig.

Fine-tuning duurt doorgaans uren, niet dagen. Een basismodel getraind op vergelijkbaar materiaal kan worden aangepast aan een specifieke hand of documentcollectie met verrassend weinig grondwaarheid.

Uitbreidbare architectuur

De verwerkingspijplijn is ontworpen als een framework, niet als een vaste reeks. Nieuwe modelarchitecturen en herkenningstaken kunnen na verloop van tijd worden geïntegreerd naarmate ze beschikbaar komen — het systeem is niet beperkt tot de huidige set van HTR-, lay-out-, tabel- en veldmodellen. De gecontaineriseerde architectuur maakt het mogelijk nieuwe verwerkingsfases toe te voegen zonder bestaande workflows te verstoren.

Architectuur

Workstation

Access

BrowserWebdashboard

Services

Webservernginx / poort 443

Processing

HerkenningGPU-versneld

TrainingOptioneel

Data

DatabasePostgreSQL

OpslagLokaal / NAS

Enkelvoudige serverimplementatie met Docker Compose. Alle services draaien op één machine — webdashboard, herkenningsengine, training, database en lokale opslag. 's Middags opgezet. Geen Kubernetes, geen clusterinfrastructuur. Modellen blijven geladen op de GPU tussen taken voor minder-dan-een-seconde opstart bij volgende pagina's.

Enterprise (Kubernetes / OpenShift)

Access

IngressAPI Gateway / LB

Services

REST APIHerkenningsservice

DashboardWeb-UI

Processing

GPU Worker 1A100 / H100

GPU Worker 2A100 / H100

GPU Worker NUitschalen

TrainingsjobsK8s Jobs

Data

S3-opslagMinIO / Ceph

BewakingPrometheus

Kubernetes-native implementatie met horizontale schaalbaarheid. Elke pijplijnfase schaalt onafhankelijk via HPA. GPU-inferentie gebruikt een server/clientarchitectuur — één GPU bedient meerdere clientwatchers. Ondersteunt volledige NVIDIA GPU's en MIG-partities. Evenementcoördinatie via Redis pub/sub. Opslag via S3-compatibele objectopslag (MinIO, Ceph, AWS S3). Geïmplementeerd via Helm met ArgoCD aanbevolen voor GitOps. Rolling updates zonder uitvaltijd.

Systeemvereisten

Workstation

Component	Minimaal	Aanbevolen
OS	Ubuntu 22.04+ / Windows Server 2022	Ubuntu 22.04 LTS
CPU	8 cores	16+ cores
RAM	32 GB	64 GB
GPU	NVIDIA, 12 GB VRAM (RTX 3060+)	RTX 4090 / A6000 (24 GB VRAM)
Storage	500 GB SSD	1 TB+ NVMe
NVIDIA Driver	565.57+	Latest stable
CUDA	12.4+	12.4+
Docker	24.0+	Latest stable

Enterprise

Component	Vereiste
Orchestration	Kubernetes 1.27+ or OpenShift 4.x
GPU Operator	NVIDIA GPU Operator with MIG support
Storage	S3-compatible object storage (MinIO, Ceph, AWS S3)
GPU per worker	NVIDIA A100 or H100 recommended (MIG partitioning supported)
Event coordination	Redis (pub/sub for job coordination)
Monitoring	Prometheus + Grafana (metrics exported natively)
Deployment	Helm chart provided, ArgoCD recommended
NVIDIA Driver	565.57+ / CUDA 12.4+

Prestaties

Doorvoerbenchmarks bij ~20 regels per pagina. Werkelijke resultaten hangen af van documentcomplexiteit, paginaafmetingen en regels per pagina. Schaarse pagina's verlopen sneller, dichte pagina's langzamer — ruwweg lineair met het regelaantal.

Workstation (enkele GPU, RTX 3090)

Workload	Standard HTR	Super Models
Single page (cold start)	~10 s	~13 s
Per page (warm, amortized)	~3 s	~5 s
Archive box (100 pages)	~5 min	~8 min
Archival run (500 pages)	~25 min	~42 min
Daily throughput (24 h)	~27,000 pages	~16,500 pages

Enterprise (per A100)

Workload	Standard HTR	Super Models
Per page (warm, amortized)	~2 s	~4 s
Archive box (100 pages)	~3.5 min	~7 min
Archival run (500 pages)	~17 min	~33 min
Daily per GPU (24 h)	~42,000 pages	~21,000 pages
8× A100 cluster (24 h)	~300,000 pages	~168,000 pages

Koude start voegt 5–10 seconden toe voor het laden van modellen. Volgende pagina's in dezelfde batch gebruiken de bovenstaande warme doorvoer. Doorvoer schaalt lineair met het aantal GPU's — voeg inferentieserverreplica's toe met toegewijde GPU's of MIG-partities om de capaciteit te vermenigvuldigen.

API & Integratie

Transkribus On-Prem biedt integratiepunten voor het inbedden van herkenning in uw bestaande workflows, archiefinstemen en vervolgpijplijnen.

REST API
Dien taken in, bevraag status en haal resultaten op via HTTP. OpenAPI-specificatie beschikbaar op /openapi.json en /openapi.yaml — genereer clients in elke taal. Beschikbaar in de Enterprise-editie.
S3-inname
Zet bestanden in een aangewezen S3/MinIO-bucket en taken starten automatisch. Resultaten verschijnen terug in S3 als PageXML, ALTO, TXT of PDF. Enterprise-editie.
Streaming API
Open live-streaming interface voor realtime resultaten. Resultaten stromen regel voor regel uit naarmate pagina's worden verwerkt — integreer in uw eigen dashboards of vervolgworkflows.
Transkribus-compatibiliteit
Bestandsnamen, metadata en PageXML-uitvoer gaan schoon heen en terug in Transkribus. Compatibel met bestaande Transkribus-integraties — geen herschrijven van workflows nodig.

Technische referentie

Verwerkingspijplijn

Herkenningsengines

Standaard HTR

Super Models

Lay-outanalyse

Tabellen & velden

Uitvoerformaten

Modeltraining

Uitbreidbare architectuur

Architectuur

Workstation

Enterprise (Kubernetes / OpenShift)

Systeemvereisten

Workstation

Enterprise

Prestaties

Workstation (enkele GPU, RTX 3090)

Enterprise (per A100)

API & Integratie

REST API

S3-inname

Streaming API

Transkribus-compatibiliteit