Technische referentie
Architectuur, verwerkingspijplijn, systeemvereisten en prestatiebenchmarks voor Transkribus On-Prem.
Verwerkingspijplijn
Fasen worden uitgevoerd als een streaming pijplijn. Terwijl één pagina wordt herkend, wordt de lay-out van de volgende al gedetecteerd. Dit betekent dat de bulkdoorvoer aanzienlijk hoger is dan de latentie van één pagina zou suggereren.
Herkenningsengines
Standaard HTR
Encoder-decoder neuraal netwerk voor handgeschreven en gedrukte tekst. Geoptimaliseerd voor doorvoer. Ondersteunt aangepaste modeltraining op uw eigen data en werkt met de volledige catalogus van publieke en private Transkribus-modellen. Taalmodelondersteuning verbetert de nauwkeurigheid bij domeinspecifieke inhoud.
- Schriften
- Latijn, Duits (Kurrent, Fraktur), grote Europese schriften
- Nauwkeurigheid
- CER 2–5% op schone documenten, 5–10% op uitdagend materiaal
- Doorvoer
- ~2–3 s/pagina per GPU (warm, ~20 regels/pagina)
- VRAM
- ~4 GB per gelijktijdig model
Best for: Grootschalige bulkverwerking, goed ondersteunde schriften, aangepast getrainde modellen
Super Models
Grotere architectuur met bredere schriftdekking en hogere nauwkeurigheid op moeilijk materiaal. Toegang tot de volledige Transkribus Super Models-catalogus — tientallen schriften en talen, inclusief historisch Duits, Latijn, Grieks, Cyrillisch, Hebreeuws, Arabisch en Oost-Aziatische schriften.
- Schriften
- 70+ schriften inclusief Latijn, Grieks, Cyrillisch, Hebreeuws, Arabisch, Oost-Aziatisch
- Nauwkeurigheid
- CER 1–3% op veelvoorkomende schriften, 3–7% op zeldzaam materiaal
- Doorvoer
- ~4–5 s/pagina per GPU (warm, ~20 regels/pagina)
- VRAM
- ~8 GB per gelijktijdig model
Best for: Zeldzame schriften, meertalige documenten, hoogste nauwkeurigheidsvereisten
Beide engines kunnen gelijktijdig beschikbaar zijn op dezelfde installatie. De gebruiker selecteert per taak. Gebruik Standaard HTR voor bulkverwerking op grote schaal van goed ondersteunde schriften. Gebruik Super Models bij zeldzame schriften, meertalige documenten of wanneer het minimaliseren van CER de primaire zorg is.
Lay-outanalyse
Automatische detectie van paginastructuur vóór herkenning. Het lay-outmodel identificeert waar tekst, tabellen, koppen en andere inhoudsregio's zich bevinden, legt basislijnen vast binnen tekstgebieden en bepaalt de leesvolgorde. Meerdere lay-outmodellen zijn beschikbaar voor verschillende documenttypen en historische periodes.
- Tekstgebieden
- Basislijnen
- Leesvolgorde
- Tabellen
- Koppen & voetteksten
- Marginalia
- Illustraties
- Initialen
Tabellen & velden
Toegewijde modeltypen voor gestructureerde gegevensextractie. Tabelmodellen detecteren rij- en kolomstructuur binnen tabelregio's die tijdens lay-outanalyse zijn geïdentificeerd. Veldmodellen extraheren waarden uit formulieren en gestandaardiseerde documenten met bekende indelingen. Beide produceren gestructureerde uitvoer die gereed is voor database-ingest of vervolgverwerking.
- Tabelextractie met rij- en kolomstructuur
- Herkenning van celinhoud in gedetecteerde tabellen
- Veldextractie uit formulieren en gestandaardiseerde documenttypen
- Gestructureerde uitvoer als onderdeel van PageXML of afzonderlijke export
- Aangepaste veldmodellen voor domeinspecifieke documentindelingen
Uitvoerformaten
| Format | What's included | Typical use |
|---|---|---|
| PageXML | Basislijnen, polygonen, tekst, betrouwbaarheid per teken, metadata | Heen-en-terug met Transkribus, wetenschappelijk editeren, bewaring |
| ALTO XML | Bibliotheekstandaard OCR-structuur | METS-containers, institutionele repositories, Europeana |
| Doorzoekbare PDF | Onzichtbare tekstlaag op woordniveau over originele scan | Toegang voor eindgebruikers, volledige tekst zoeken, citatie |
| Platte tekst | UTF-8-tekst, één bestand per pagina | Volledige tekstindexering, NLP-pijplijnen, corpusbouw |
Modeltraining
Train aangepaste herkenningsmodellen op uw eigen documenten. Alle training draait lokaal op uw GPU — geen data verlaat uw infrastructuur.
- Grondwaarheid voorbereiden
Transcribeer een steekproef van uw documenten — doorgaans 50–100 pagina's voor het fine-tunen van een bestaand basismodel. Het webdashboard bevat hulpmiddelen voor het bewerken van grondwaarheid.
- Trainen
Selecteer een basismodel en start de training op uw GPU. Trainingstijd is doorgaans 2–6 uur voor een fine-tuningrun, afhankelijk van de datasetomvang en hardware.
- Evalueren
Het systeem rapporteert CER (Tekenfoutenpercentage) op een gehouden validatieset. Vergelijk met het basismodel om verbetering te meten.
- Implementeren
Publiceer het getrainde model in uw lokale modelregister. Het is onmiddellijk beschikbaar voor herkenningstaken — geen herstart nodig.
Uitbreidbare architectuur
De verwerkingspijplijn is ontworpen als een framework, niet als een vaste reeks. Nieuwe modelarchitecturen en herkenningstaken kunnen na verloop van tijd worden geïntegreerd naarmate ze beschikbaar komen — het systeem is niet beperkt tot de huidige set van HTR-, lay-out-, tabel- en veldmodellen. De gecontaineriseerde architectuur maakt het mogelijk nieuwe verwerkingsfases toe te voegen zonder bestaande workflows te verstoren.
Architectuur
Workstation
Enkelvoudige serverimplementatie met Docker Compose. Alle services draaien op één machine — webdashboard, herkenningsengine, training, database en lokale opslag. 's Middags opgezet. Geen Kubernetes, geen clusterinfrastructuur. Modellen blijven geladen op de GPU tussen taken voor minder-dan-een-seconde opstart bij volgende pagina's.
Enterprise (Kubernetes / OpenShift)
Kubernetes-native implementatie met horizontale schaalbaarheid. Elke pijplijnfase schaalt onafhankelijk via HPA. GPU-inferentie gebruikt een server/clientarchitectuur — één GPU bedient meerdere clientwatchers. Ondersteunt volledige NVIDIA GPU's en MIG-partities. Evenementcoördinatie via Redis pub/sub. Opslag via S3-compatibele objectopslag (MinIO, Ceph, AWS S3). Geïmplementeerd via Helm met ArgoCD aanbevolen voor GitOps. Rolling updates zonder uitvaltijd.
Systeemvereisten
Workstation
| Component | Minimaal | Aanbevolen |
|---|---|---|
| OS | Ubuntu 22.04+ / Windows Server 2022 | Ubuntu 22.04 LTS |
| CPU | 8 cores | 16+ cores |
| RAM | 32 GB | 64 GB |
| GPU | NVIDIA, 12 GB VRAM (RTX 3060+) | RTX 4090 / A6000 (24 GB VRAM) |
| Storage | 500 GB SSD | 1 TB+ NVMe |
| NVIDIA Driver | 565.57+ | Latest stable |
| CUDA | 12.4+ | 12.4+ |
| Docker | 24.0+ | Latest stable |
Enterprise
| Component | Vereiste |
|---|---|
| Orchestration | Kubernetes 1.27+ or OpenShift 4.x |
| GPU Operator | NVIDIA GPU Operator with MIG support |
| Storage | S3-compatible object storage (MinIO, Ceph, AWS S3) |
| GPU per worker | NVIDIA A100 or H100 recommended (MIG partitioning supported) |
| Event coordination | Redis (pub/sub for job coordination) |
| Monitoring | Prometheus + Grafana (metrics exported natively) |
| Deployment | Helm chart provided, ArgoCD recommended |
| NVIDIA Driver | 565.57+ / CUDA 12.4+ |
Prestaties
Doorvoerbenchmarks bij ~20 regels per pagina. Werkelijke resultaten hangen af van documentcomplexiteit, paginaafmetingen en regels per pagina. Schaarse pagina's verlopen sneller, dichte pagina's langzamer — ruwweg lineair met het regelaantal.
Workstation (enkele GPU, RTX 3090)
| Workload | Standard HTR | Super Models |
|---|---|---|
| Single page (cold start) | ~10 s | ~13 s |
| Per page (warm, amortized) | ~3 s | ~5 s |
| Archive box (100 pages) | ~5 min | ~8 min |
| Archival run (500 pages) | ~25 min | ~42 min |
| Daily throughput (24 h) | ~27,000 pages | ~16,500 pages |
Enterprise (per A100)
| Workload | Standard HTR | Super Models |
|---|---|---|
| Per page (warm, amortized) | ~2 s | ~4 s |
| Archive box (100 pages) | ~3.5 min | ~7 min |
| Archival run (500 pages) | ~17 min | ~33 min |
| Daily per GPU (24 h) | ~42,000 pages | ~21,000 pages |
| 8× A100 cluster (24 h) | ~300,000 pages | ~168,000 pages |
Koude start voegt 5–10 seconden toe voor het laden van modellen. Volgende pagina's in dezelfde batch gebruiken de bovenstaande warme doorvoer. Doorvoer schaalt lineair met het aantal GPU's — voeg inferentieserverreplica's toe met toegewijde GPU's of MIG-partities om de capaciteit te vermenigvuldigen.
API & Integratie
Transkribus On-Prem biedt integratiepunten voor het inbedden van herkenning in uw bestaande workflows, archiefinstemen en vervolgpijplijnen.
REST API
Dien taken in, bevraag status en haal resultaten op via HTTP. OpenAPI-specificatie beschikbaar op /openapi.json en /openapi.yaml — genereer clients in elke taal. Beschikbaar in de Enterprise-editie.
S3-inname
Zet bestanden in een aangewezen S3/MinIO-bucket en taken starten automatisch. Resultaten verschijnen terug in S3 als PageXML, ALTO, TXT of PDF. Enterprise-editie.
Streaming API
Open live-streaming interface voor realtime resultaten. Resultaten stromen regel voor regel uit naarmate pagina's worden verwerkt — integreer in uw eigen dashboards of vervolgworkflows.
Transkribus-compatibiliteit
Bestandsnamen, metadata en PageXML-uitvoer gaan schoon heen en terug in Transkribus. Compatibel met bestaande Transkribus-integraties — geen herschrijven van workflows nodig.