Archiefachterstand verminderen met AI-tekstherkenning

2,000+Archieven en bibliotheken

200 M+Pagina's verwerkt

300+Publieke AI-modellen

250+Coöperatieleden

Het probleem

De verborgen collectiecrisis: archiefdigitaliseringsachterstanden blijven groeien

Van het Nationaal Archief tot Regionaal Historische Centra en gemeentearchieven — grote delen van Nederlandse en Europese archiefcollecties blijven "verborgen": onverwerkt, niet gecatalogiseerd en feitelijk onzichtbaar voor onderzoekers. Dit zijn geen marginale materialen. Het gaat om correspondentie, juridische stukken, notariële akten, VOC-documenten en manuscripten die onderzoekers niet kunnen vinden omdat er geen toegang, catalogusvermelding of doorzoekbare tekst voor bestaat. Elk jaar groeit de achterstand doordat nieuwe aanwinsten sneller binnenkomen dan onderbezette teams ze kunnen verwerken.

Personeelstekorten zijn structureel, niet tijdelijk — archieven kunnen zich niet uit de achterstand werken door meer personeel aan te nemen

Handmatige transcriptie van een enkele archiefdoos kan weken geschoolde arbeid kosten

Onverwerkte collecties genereren geen citaties, geen onderzoek en geen publiek bereik

Gesubsidieerde digitaliseringsprojecten dekken vaak beeldverwerking maar niet tekstherkenning of metadata-aanmaak

Gemengde collecties — typoscript, handschrift, gedrukte formulieren — vereisen verschillende benaderingen die handmatige workflows verder vertragen

Onverwerkte archiefdozen in afwachting van catalogisering en digitalisering

De oplossing

Verminder archiefachterstanden met AI: van onverwerkte dozen naar doorzoekbare registraties

Transkribus stelt archieven in staat om collecties te verwerken op een schaal die handmatige workflows niet kunnen bereiken. Upload gescande beelden — volledige dozen, series of fondsen — en voer AI-tekstherkenning uit op duizenden pagina's in een enkele batch. De handgeschreven tekstherkenning (HTR) van het platform verwerkt de schriften en documenttypen die het meest voorkomen in archiefbestanden: administratief handschrift, officiële correspondentie, gerechtelijke stukken, gemeentelijke registers en dossiers met gemengde formaten. Het resultaat is machineleesbare, doorzoekbare tekst die direct kan worden geëxporteerd naar archief-informatiesystemen.

Batchverwerking: zet duizenden pagina's in de wachtrij en verwerk ze onbeheerd — geen pagina-voor-pagina tussenkomst

300+ publieke AI-modellen getraind op historische schriften vanaf de 15e eeuw

Exporteer naar PAGE XML, ALTO XML en TEI-XML voor import in ArchivesSpace, AtoM en andere systemen

Transkribus API maakt volledig geautomatiseerde pipelines mogelijk voor massadigitaliseringsworkflows

Publiceer verwerkte collecties direct als doorzoekbare digitale edities via Transkribus Sites

Transkribus voor archieven

Transkribus-batchverwerkingsinterface voor grootschalige archiefcollecties

Vergelijking

AI-ondersteunde verwerking vs. handmatige transcriptie voor archieven

Archieven kampen met een fundamenteel verwerkingsprobleem: miljoenen pagina's die wachten om gecatalogiseerd, doorzoekbaar en toegankelijk te worden gemaakt. Zo verhoudt AI-ondersteunde verwerking zich tot traditionele handmatige werkprocessen.

Feature	Transkribus AI-verwerking	Handmatige transcriptie
Verwerkingssnelheid	Duizenden pagina's per dag met batchverwerking — schaalt mee met de omvang van de collectie	Een ervaren transcribent verwerkt 5–15 pagina's per dag, afhankelijk van de moeilijkheidsgraad
Kosten per pagina	Een fractie van een cent per pagina dankzij creditgebaseerde prijzen	Arbeidsintensief — de kosten lopen lineair op met elke pagina
Consistentie	Hetzelfde model levert consistente resultaten over duizenden pagina's	Kwaliteit verschilt per transcribent, door vermoeidheid en interpretatieverschillen
Doorzoekbaarheid	Elke verwerkte pagina wordt direct doorzoekbaar op volledige tekst	Alleen getranscribeerde pagina's zijn doorzoekbaar — de achterstand blijft ontoegankelijk
Omgang met historische schriften	Meer dan 300 publieke modellen voor schriften van de 9e eeuw tot heden	Vereist gespecialiseerde paleografische kennis — weinig medewerkers beschikken over de benodigde vaardigheden
Tijd tot toegang	Collecties worden binnen dagen of weken na digitalisering toegankelijk	Achterstanden van jaren of zelfs decennia zijn gebruikelijk bij grote instellingen
Kwaliteitscontrole	Betrouwbaarheidsscores markeren onzekere regels voor gerichte handmatige controle	Vereist volledige proeflectuur van elke transcriptie

De vergelijking geeft een beeld van typische institutionele werkprocessen. AI-verwerking werkt het best als aanvulling op menselijke expertise — een geautomatiseerde eerste doorgang met gerichte handmatige controle.

Hoe een archiefcollectie verwerken in 4 stappen

Upload gescande collecties

Upload volledige series of fondsen als meerpagina-PDF's, TIFF's of afbeeldingsbatches. Transkribus verwerkt de lay-outdetectie — kolommen, tabellen, marginalia — automatisch.

Selecteer een AI-model

Kies uit 300+ publieke modellen gefilterd op taal, eeuw en schrifttype. Voor gemengde collecties kun je meerdere modellen draaien op verschillende documentgroepen binnen hetzelfde project.

Voer batchherkenning uit

Zet duizenden pagina's in de wachtrij voor verwerking. Transkribus voert tekstherkenning uit op de achtergrond — geen handmatige tussenkomst vereist. Volg de voortgang via het dashboard.

Exporteer en integreer

Exporteer resultaten als PAGE XML, ALTO XML, TEI-XML, platte tekst of doorzoekbare PDF. Importeer rechtstreeks in ArchivesSpace, AtoM of publiceer via Transkribus Sites.

Op schaal

Geautomatiseerde archiefverwerking met de Transkribus API

Voor instellingen die grootschalige of terugkerende digitaliseringsprogramma's draaien, maakt de Transkribus REST API volledig geautomatiseerde verwerkingspipelines mogelijk. Integreer tekstherkenning direct in je bestaande beeldverwerking- en catalogiseringsworkflows — geen handmatige uploads, geen browserinteractie. De API ondersteunt modelselectie, batchjobbeheer en ophalen van gestructureerde output, waardoor het geschikt is voor productiewaardige massadigitaliseringsprojecten.

REST API met volledige documentatie voor integratie in institutionele workflows

Programmatische modelselectie — kies automatisch verschillende modellen voor verschillende collectietypen

Gestructureerde JSON-output met tekst, coördinaten en betrouwbaarheidsscores voor elk tekstgebied

Batchjobbeheer: indienen, monitoren en resultaten ophalen voor duizenden pagina's

Combineer met entiteitsherkenning om namen, datums en plaatsen te extraheren voor catalogusverrijking

Transkribus API voor batchverwerking

import requests

API = "https://transkribus.eu/processing/v1"
TOKEN = "your-api-token"

# 1. Upload collection
upload = requests.post(f"{API}/uploads",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={"collectionId": 12345}
)

# 2. Start recognition on all pages
job = requests.post(f"{API}/processes",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={
    "docId": upload.json()["docId"],
    "htrId": 53042,   # model ID
    "pages": "all"
  }
)

# 3. Poll for completion
status = requests.get(
  f"{API}/processes/{job.json()['processId']}",
  headers={"Authorization": f"Bearer {TOKEN}"}
).json()
print(f"Status: {status['state']}")

Veelgestelde vragen

Hoe snel kan Transkribus archiefcollecties op schaal verwerken?

De verwerkingssnelheid hangt af van de complexiteit en het aantal pagina's, maar als richtlijn: een enkele pagina duurt doorgaans 15-30 seconden. Batchverwerking draait parallel, zodat een collectie van 10.000 pagina's in uren kan worden verwerkt in plaats van de weken of maanden die handmatige transcriptie vereist. De Transkribus API maakt continue, onbeheerde verwerking mogelijk voor nog grotere volumes.

Welke nauwkeurigheid kunnen we verwachten bij gemengde archiefcollecties?

De nauwkeurigheid varieert per schrifttype en documentconditie. Op goed bewaard 19e- en 20e-eeuws ambtelijk handschrift zijn Character Error Rates (CER) onder de 5% gebruikelijk met geschikte publieke modellen. Oudere of lastiger schriften kunnen een op maat getraind model vereisen om vergelijkbare nauwkeurigheid te bereiken. Elke tekstregel bevat een betrouwbaarheidsscore, waardoor kwaliteitsgerichte review-workflows mogelijk zijn — medewerkers kunnen zich richten op secties met lage betrouwbaarheid in plaats van hele documenten opnieuw te lezen.

Integreert Transkribus met ArchivesSpace, AtoM of andere archiefsystemen?

Transkribus exporteert in PAGE XML, ALTO XML, TEI-XML en andere standaardformaten die ArchivesSpace, AtoM en vergelijkbare archief-informatiesystemen kunnen importeren. De API maakt geautomatiseerde exportpipelines mogelijk. Hoewel er geen directe plug-in-connector is, is de gestructureerde XML-output ontworpen voor interoperabiliteit met archivalische metadatastandaarden (EAD, Dublin Core).

Hoeveel medewerkers zijn nodig om een grootschalig verwerkingsproject te draaien?

Een getrainde medewerker kan een batchverwerkingsproject beheren dat duizenden pagina's omvat. Transkribus verwerkt lay-outdetectie, tekstherkenning en export automatisch. De tijd van medewerkers wordt het best besteed aan kwaliteitscontrole van segmenten met lage betrouwbaarheid en aan curatorische beslissingen — bepalen welke collecties prioriteit krijgen, geschikte modellen kiezen en resultaten valideren.

Wat kost Transkribus op institutionele schaal?

Transkribus biedt institutionele plannen ontworpen voor verwerking op grote schaal. De prijs hangt af van het paginavolume en of API-toegang vereist is. Neem contact op met ons team via transkribus.org/contact voor een offerte op maat. Elk account bevat 50 gratis credits per maand om het platform te evalueren voordat u zich vastlegt.

Hoe gaat Transkribus om met AVG en gegevensbescherming?

Alle verwerking draait op Transkribus' eigen servers in Oostenrijk (EU). Er worden geen gegevens naar externe cloudservices gestuurd. Documenten en transcripties blijven volledig eigendom van de instelling en kunnen op elk moment worden verwijderd. Transkribus wordt beheerd door READ-COOP SCE, een Europese cooperatie — geen door durfkapitaal gefinancierde startup. Verwerkersovereenkomsten zijn beschikbaar voor instellingen die deze nodig hebben.

Hoe moeten we prioriteren welke collecties als eerste te verwerken?

Instellingen behalen doorgaans het beste rendement door te beginnen met collecties die (1) al gedigitaliseerd (gescand) zijn maar geen doorzoekbare tekst hebben, (2) veel gevraagd worden door onderzoekers, of (3) geschreven zijn in schriften waarvoor sterke publieke modellen bestaan. Deze aanpak maximaliseert de directe impact met minimale opstart. De modelcatalogus van Transkribus kan gefilterd worden op taal, schrifttype en eeuw om vast te stellen welke collecties direct goed verwerkt kunnen worden.

Kunnen we collecties verwerken die zowel handgeschreven als gedrukt materiaal bevatten?

Ja. Archiefcollecties bevatten vaak gemengd materiaal — getypte formulieren met handgeschreven aantekeningen, gedrukte koppen met cursieve vermeldingen, of pagina's die afwisselen tussen drukwerk en handschrift. Transkribus verwerkt de lay-outdetectie voor deze gemengde formaten en ondersteunt het draaien van verschillende modellen op verschillende documenttypen binnen hetzelfde project.

Institutionele infrastructuur voor archiefcollecties.

Transkribus is gebouwd en gehost in Europa door een coöperatie van 250+ archieven, bibliotheken en universiteiten. Je collecties blijven onder jouw controle.

Uw gegevens blijven van u

Volledig eigenaarschap. Verwijder op elk moment.

Gehost in Oostenrijk, EU

Verwerking op onze eigen servers. AVG-conform. Geen cloud-afhankelijkheden van derden.

Coöperatie, geen startup

Duizenden archieven, bibliotheken en universiteiten als mede-eigenaren. Gebouwd voor decennia, niet voor een VC-exit.

Gerelateerde bronnen

Meer voor archieven en instellingen

Ontdek hoe Transkribus past in je institutionele workflows: Transkribus voor archieven · Wat is HTR? · Maak doorzoekbare PDF's · Middeleeuwse manuscripten