Skip to content
  • Prijzen

Archiefachterstand verminderen met AI-gestuurde tekstherkenning

Miljoenen onverwerkte pagina's, niet genoeg personeel. Transkribus verwerkt volledige collecties in batch — verborgen bestanden worden doorzoekbare, vindbare registraties op institutionele schaal.

BatchverwerkingVerborgen collectiesAI op schaalNeem contact op

Sleep hier een afbeelding

Selecteer een bestand...

PNG of JPG tot 10 Mb

Wolpi
AI Assistant

Door een afbeelding te uploaden, accepteert u onze voorwaarden en ons privacybeleid.

Vertrouwd door 500.000+ gebruikers wereldwijd — 200 M+ pagina's verwerkt

2,000+
Archieven en bibliotheken
200 M+
Pagina's verwerkt
300+
Publieke AI-modellen
250+
Coöperatieleden

Het probleem

De verborgen collectiecrisis: archiefdigitaliseringsachterstanden blijven groeien

Van het Nationaal Archief tot Regionaal Historische Centra en gemeentearchieven — grote delen van Nederlandse en Europese archiefcollecties blijven "verborgen": onverwerkt, niet gecatalogiseerd en feitelijk onzichtbaar voor onderzoekers. Dit zijn geen marginale materialen. Het gaat om correspondentie, juridische stukken, notariële akten, VOC-documenten en manuscripten die onderzoekers niet kunnen vinden omdat er geen toegang, catalogusvermelding of doorzoekbare tekst voor bestaat. Elk jaar groeit de achterstand doordat nieuwe aanwinsten sneller binnenkomen dan onderbezette teams ze kunnen verwerken.
Personeelstekorten zijn structureel, niet tijdelijk — archieven kunnen zich niet uit de achterstand werken door meer personeel aan te nemen
Handmatige transcriptie van een enkele archiefdoos kan weken geschoolde arbeid kosten
Onverwerkte collecties genereren geen citaties, geen onderzoek en geen publiek bereik
Gesubsidieerde digitaliseringsprojecten dekken vaak beeldverwerking maar niet tekstherkenning of metadata-aanmaak
Gemengde collecties — typoscript, handschrift, gedrukte formulieren — vereisen verschillende benaderingen die handmatige workflows verder vertragen
Onverwerkte archiefdozen in afwachting van catalogisering en digitalisering

De oplossing

Verminder archiefachterstanden met AI: van onverwerkte dozen naar doorzoekbare registraties

Transkribus stelt archieven in staat om collecties te verwerken op een schaal die handmatige workflows niet kunnen bereiken. Upload gescande beelden — volledige dozen, series of fondsen — en voer AI-tekstherkenning uit op duizenden pagina's in een enkele batch. De handgeschreven tekstherkenning (HTR) van het platform verwerkt de schriften en documenttypen die het meest voorkomen in archiefbestanden: administratief handschrift, officiële correspondentie, gerechtelijke stukken, gemeentelijke registers en dossiers met gemengde formaten. Het resultaat is machineleesbare, doorzoekbare tekst die direct kan worden geëxporteerd naar archief-informatiesystemen.
Batchverwerking: zet duizenden pagina's in de wachtrij en verwerk ze onbeheerd — geen pagina-voor-pagina tussenkomst
300+ publieke AI-modellen getraind op historische schriften vanaf de 15e eeuw
Exporteer naar PAGE XML, ALTO XML en TEI-XML voor import in ArchivesSpace, AtoM en andere systemen
Metagrapho API maakt volledig geautomatiseerde pipelines mogelijk voor massadigitaliseringsworkflows
Publiceer verwerkte collecties direct als doorzoekbare digitale edities via Transkribus Sites
Transkribus-batchverwerkingsinterface voor grootschalige archiefcollecties

Vergelijking

AI-ondersteunde verwerking vs. handmatige transcriptie voor archieven

Archieven kampen met een fundamenteel verwerkingsprobleem: miljoenen pagina's die wachten om gecatalogiseerd, doorzoekbaar en toegankelijk te worden gemaakt. Zo verhoudt AI-ondersteunde verwerking zich tot traditionele handmatige werkprocessen.

FeatureTranskribus AI-verwerkingHandmatige transcriptie
VerwerkingssnelheidDuizenden pagina's per dag met batchverwerking — schaalt mee met de omvang van de collectieEen ervaren transcribent verwerkt 5–15 pagina's per dag, afhankelijk van de moeilijkheidsgraad
Kosten per paginaEen fractie van een cent per pagina dankzij creditgebaseerde prijzenArbeidsintensief — de kosten lopen lineair op met elke pagina
ConsistentieHetzelfde model levert consistente resultaten over duizenden pagina'sKwaliteit verschilt per transcribent, door vermoeidheid en interpretatieverschillen
DoorzoekbaarheidElke verwerkte pagina wordt direct doorzoekbaar op volledige tekstAlleen getranscribeerde pagina's zijn doorzoekbaar — de achterstand blijft ontoegankelijk
Omgang met historische schriftenMeer dan 300 publieke modellen voor schriften van de 9e eeuw tot hedenVereist gespecialiseerde paleografische kennis — weinig medewerkers beschikken over de benodigde vaardigheden
Tijd tot toegangCollecties worden binnen dagen of weken na digitalisering toegankelijkAchterstanden van jaren of zelfs decennia zijn gebruikelijk bij grote instellingen
KwaliteitscontroleBetrouwbaarheidsscores markeren onzekere regels voor gerichte handmatige controleVereist volledige proeflectuur van elke transcriptie

De vergelijking geeft een beeld van typische institutionele werkprocessen. AI-verwerking werkt het best als aanvulling op menselijke expertise — een geautomatiseerde eerste doorgang met gerichte handmatige controle.

Hoe een archiefcollectie verwerken in 4 stappen

Upload gescande collecties

Upload volledige series of fondsen als meerpagina-PDF's, TIFF's of afbeeldingsbatches. Transkribus verwerkt de lay-outdetectie — kolommen, tabellen, marginalia — automatisch.

Selecteer een AI-model

Kies uit 300+ publieke modellen gefilterd op taal, eeuw en schrifttype. Voor gemengde collecties kun je meerdere modellen draaien op verschillende documentgroepen binnen hetzelfde project.

Voer batchherkenning uit

Zet duizenden pagina's in de wachtrij voor verwerking. Transkribus voert tekstherkenning uit op de achtergrond — geen handmatige tussenkomst vereist. Volg de voortgang via het dashboard.

Exporteer en integreer

Exporteer resultaten als PAGE XML, ALTO XML, TEI-XML, platte tekst of doorzoekbare PDF. Importeer rechtstreeks in ArchivesSpace, AtoM of publiceer via Transkribus Sites.

Op schaal

Geautomatiseerde archiefverwerking met de Metagrapho API

Voor instellingen die grootschalige of terugkerende digitaliseringsprogramma's draaien, maakt de Metagrapho REST API volledig geautomatiseerde verwerkingspipelines mogelijk. Integreer tekstherkenning direct in je bestaande beeldverwerking- en catalogiseringsworkflows — geen handmatige uploads, geen browserinteractie. De API ondersteunt modelselectie, batchjobbeheer en ophalen van gestructureerde output, waardoor het geschikt is voor productiewaardige massadigitaliseringsprojecten.
REST API met volledige documentatie voor integratie in institutionele workflows
Programmatische modelselectie — kies automatisch verschillende modellen voor verschillende collectietypen
Gestructureerde JSON-output met tekst, coördinaten en betrouwbaarheidsscores voor elk tekstgebied
Batchjobbeheer: indienen, monitoren en resultaten ophalen voor duizenden pagina's
Combineer met entiteitsherkenning om namen, datums en plaatsen te extraheren voor catalogusverrijking
batch_process.py
import requests

API = "https://transkribus.eu/processing/v1"
TOKEN = "your-api-token"

# 1. Upload collection
upload = requests.post(f"{API}/uploads",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={"collectionId": 12345}
)

# 2. Start recognition on all pages
job = requests.post(f"{API}/processes",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={
    "docId": upload.json()["docId"],
    "htrId": 53042,   # model ID
    "pages": "all"
  }
)

# 3. Poll for completion
status = requests.get(
  f"{API}/processes/{job.json()['processId']}",
  headers={"Authorization": f"Bearer {TOKEN}"}
).json()
print(f"Status: {status['state']}")

Veelgestelde vragen

De verwerkingssnelheid hangt af van de complexiteit en het aantal pagina's, maar als richtlijn: een enkele pagina duurt doorgaans 15-30 seconden. Batchverwerking draait parallel, zodat een collectie van 10.000 pagina's in uren kan worden verwerkt in plaats van de weken of maanden die handmatige transcriptie vereist. De Metagrapho API maakt continue, onbeheerde verwerking mogelijk voor nog grotere volumes.
De nauwkeurigheid varieert per schrifttype en documentconditie. Op goed bewaard 19e- en 20e-eeuws ambtelijk handschrift zijn Character Error Rates (CER) onder de 5% gebruikelijk met geschikte publieke modellen. Oudere of lastiger schriften kunnen een op maat getraind model vereisen om vergelijkbare nauwkeurigheid te bereiken. Elke tekstregel bevat een betrouwbaarheidsscore, waardoor kwaliteitsgerichte review-workflows mogelijk zijn — medewerkers kunnen zich richten op secties met lage betrouwbaarheid in plaats van hele documenten opnieuw te lezen.
Transkribus exporteert in PAGE XML, ALTO XML, TEI-XML en andere standaardformaten die ArchivesSpace, AtoM en vergelijkbare archief-informatiesystemen kunnen importeren. De API maakt geautomatiseerde exportpipelines mogelijk. Hoewel er geen directe plug-in-connector is, is de gestructureerde XML-output ontworpen voor interoperabiliteit met archivalische metadatastandaarden (EAD, Dublin Core).
Een getrainde medewerker kan een batchverwerkingsproject beheren dat duizenden pagina's omvat. Transkribus verwerkt lay-outdetectie, tekstherkenning en export automatisch. De tijd van medewerkers wordt het best besteed aan kwaliteitscontrole van segmenten met lage betrouwbaarheid en aan curatorische beslissingen — bepalen welke collecties prioriteit krijgen, geschikte modellen kiezen en resultaten valideren.
Transkribus biedt institutionele plannen ontworpen voor verwerking op grote schaal. De prijs hangt af van het paginavolume en of API-toegang vereist is. Neem contact op met ons team via transkribus.org/contact voor een offerte op maat. Elk account bevat 50 gratis credits per maand om het platform te evalueren voordat u zich vastlegt.
Alle verwerking draait op Transkribus' eigen servers in Oostenrijk (EU). Er worden geen gegevens naar externe cloudservices gestuurd. Documenten en transcripties blijven volledig eigendom van de instelling en kunnen op elk moment worden verwijderd. Transkribus wordt beheerd door READ-COOP SCE, een Europese cooperatie — geen door durfkapitaal gefinancierde startup. Verwerkersovereenkomsten zijn beschikbaar voor instellingen die deze nodig hebben.
Instellingen behalen doorgaans het beste rendement door te beginnen met collecties die (1) al gedigitaliseerd (gescand) zijn maar geen doorzoekbare tekst hebben, (2) veel gevraagd worden door onderzoekers, of (3) geschreven zijn in schriften waarvoor sterke publieke modellen bestaan. Deze aanpak maximaliseert de directe impact met minimale opstart. De modelcatalogus van Transkribus kan gefilterd worden op taal, schrifttype en eeuw om vast te stellen welke collecties direct goed verwerkt kunnen worden.
Ja. Archiefcollecties bevatten vaak gemengd materiaal — getypte formulieren met handgeschreven aantekeningen, gedrukte koppen met cursieve vermeldingen, of pagina's die afwisselen tussen drukwerk en handschrift. Transkribus verwerkt de lay-outdetectie voor deze gemengde formaten en ondersteunt het draaien van verschillende modellen op verschillende documenttypen binnen hetzelfde project.
EUAT

Institutionele infrastructuur voor archiefcollecties.

Transkribus is gebouwd en gehost in Europa door een coöperatie van 250+ archieven, bibliotheken en universiteiten. Je collecties blijven onder jouw controle.

Uw gegevens blijven van u

Volledig eigenaarschap. Verwijder op elk moment.

Gehost in Oostenrijk, EU

Verwerking op onze eigen servers. AVG-conform. Geen cloud-afhankelijkheden van derden.

Coöperatie, geen startup

Duizenden archieven, bibliotheken en universiteiten als mede-eigenaren. Gebouwd voor decennia, niet voor een VC-exit.

Gerelateerde bronnen

Meer voor archieven en instellingen

Ontdek hoe Transkribus past in je institutionele workflows: Transkribus voor archieven · Wat is HTR? · Maak doorzoekbare PDF's · Middeleeuwse manuscripten
Archiefcollecties worden gedigitaliseerd

Klaar om je archiefachterstand aan te pakken?

Neem contact op met ons team over institutionele plannen voor grootschalige collectieverwerking, of maak een gratis account aan om Transkribus te evalueren op je eigen materialen.

Gebruikt door 2.000+ archieven en bibliotheken wereldwijd

200 M+Pagina's verwerkt
2,000+Archieven en bibliotheken
300+Publieke AI-modellen