Methodologiegids

Hoe u handschrifttekstherkenning opneemt in uw subsidieaanvraag

Een stapsgewijze handleiding om het belang van HTR te onderbouwen in uw onderzoekssubsidieaanvraag — van methodologiebeschrijving en begrotingsonderbouwing tot referenties en datamanagementplanning. Voor NWO, FWO, ERC, Horizon Europe, KNAW, en andere onderzoeksfinanciers.

10 min leestijd

1.Waarom HTR opnemen in uw methodologie

Handschriftherkenning (HTR) heeft zich ontwikkeld van een experimentele techniek tot een gevestigde onderzoeksmethode die breed wordt ingezet in de geesteswetenschappen en sociale wetenschappen. Honderden peer-reviewed publicaties noemen AI-gestuurde transcriptie inmiddels als kernelement van hun workflow, en grote financieringsinstanties — waaronder de ERC, NWO, FWO, DFG, AHRC, SNSF en FWF — hebben subsidies toegekend aan projecten die hierop steunen.

De methodologische onderbouwing van HTR rust op drie pijlers:

Efficiëntie. Automatische transcriptie verwerkt pagina's in seconden in plaats van de 15–60 minuten die handmatige transcriptie vereist, waardoor grootschalig corpusonderzoek haalbaar wordt binnen gangbare projecttermijnen.
Reproduceerbaarheid. Een getraind model produceert bij dezelfde invoer steeds identieke uitvoer. Dit deterministische gedrag is een wezenlijk voordeel ten opzichte van handmatige transcriptie, waarbij de inter-annotator-overeenstemming onvolmaakt is.
Meetbaarheid. De herkenningskwaliteit wordt gekwantificeerd met de Character Error Rate (CER), een objectieve maat berekend op een onafhankelijke testset. Dit biedt beoordelaars — en het onderzoeksteam — een concrete, verifieerbare kwaliteitsindicator.

Het opnemen van HTR in uw methodologie geeft aan dat uw project gebruikmaakt van state-of-the-art digitale methoden en tegelijkertijd rigoureuze kwaliteitscontrole waarborgt. Het toont tevens bewustzijn van schaalbaarheidsvraagstukken die beoordelaars vaak bezighouden bij de evaluatie van grote documentaire corpora.

2.De Transkribus-workflow beschrijven

Subsidieaanvragen vereisen een heldere, technisch precieze beschrijving van uw instrumenten en methoden. Transkribus is een AI-gestuurd platform voor handschrift- en gedrukte-tekstherkenning, ontwikkeld en beheerd door READ-COOP SCE, een Europese coöperatie met meer dan 250 institutionele leden, waaronder archieven, bibliotheken en universiteiten.

De standaardworkflow bestaat uit vier fasen:

Uploaden. Documentafbeeldingen (scans, foto's of PDF's) worden naar het platform geüpload. Transkribus accepteert alle gangbare afbeeldingsformaten en ondersteunt batchuploads voor grote collecties.
Tekstherkenning. Een AI-model — geselecteerd uit meer dan 300 publiek beschikbare modellen of zelf getraind op uw materiaal — voert automatische transcriptie uit. Lay-outanalyse detecteert tekstgebieden, basislijnen en structuurelementen zoals tabellen.
Handmatige correctie. Het onderzoeksteam beoordeelt en corrigeert de automatische uitvoer in een ingebouwde editor. Deze stap levert Ground Truth-gegevens op die tevens kunnen worden gebruikt om modellen verder te trainen en te verbeteren.
Exporteren. Gecorrigeerde transcripties worden geëxporteerd in standaardformaten (PAGE XML, ALTO XML, TEI, platte tekst, doorzoekbare PDF) voor integratie met databases, repositoria of verdere analysepipelines.

Voor projecten met gevoelig of beperkt toegankelijk materiaal biedt Transkribus on-premises-implementatie: het volledige platform draait op de eigen infrastructuur van uw instelling, zodat documenten uw servers nooit verlaten. Dit is bijzonder relevant voor archieven met wettelijke beperkingen op gegevensoverdracht.

3.Tijd en kosten berekenen

Een nauwkeurige budgetplanning is essentieel voor een geloofwaardige subsidieaanvraag. Transkribus werkt met een op credits gebaseerd systeem voor tekstherkenning, waarbij het aantal verbruikte credits afhangt van het paginaaantal en het type verwerking.

Herkenningskosten inschatten:

Credits worden per pagina verbruikt voor tekstherkenning, lay-outanalyse en aanverwante verwerkingstaken.
Er zijn individuele en organisatieabonnementen op verschillende niveaus beschikbaar, zodat u uw abonnement kunt afstemmen op de schaal van het project.
Volumekortingen zijn beschikbaar voor grote institutionele projecten — neem contact op met het Transkribus-team voor een offerte op maat.

Handmatige correctietijd inschatten:

De benodigde tijd voor nacorrectie hangt af van de moeilijkheidsgraad van het materiaal en de beoogde nauwkeurigheid. Als richtlijn:

Goed herkend materiaal (CER lager dan 5%): 2–5 minuten per pagina voor verificatie en lichte correctie.
Lastig materiaal (CER 5–10%): 5–15 minuten per pagina voor meer substantiële correctie.
Zeer moeilijk materiaal (CER hoger dan 10%): overweeg te investeren in het trainen van een eigen model vóór grootschalige verwerking — dit verlaagt de correctietijd per pagina doorgaans aanzienlijk.

Een proefstudie op 50–100 representatieve pagina's levert concrete correctietijdschattingen op voor uw specifieke materiaal. Neem deze cijfers op in uw aanvraag als voorlopige gegevens.

4.Datamanagement en archiveringsnormen

De meeste onderzoeksfinanciers vereisen tegenwoordig een datamanagementplan (DMP) als onderdeel van de aanvraag. Transkribus ondersteunt naleving van de FAIR-principes en normen voor langetermijnbewaring.

Exportformaten:

PAGE XML — de de facto standaard voor lay-out- en transcriptiegegevens in documentanalyseonderzoek. Bewaart basislijncoördinaten, gebiedstypen en leesvolgorde.
ALTO XML — breed gebruikt in digitale-bibliotheekinfrastructuur en compatibel met METS/IIIF-workflows.
TEI-XML — de standaardcodering voor digitale wetenschappelijke edities in de geesteswetenschappen.
Platte tekst en doorzoekbare PDF — voor vervolganalyse, volledige-tekstzoekopdrachten en leesbare uitvoer.

FAIR-conformiteit:

Findable: Volledige-tekstzoekopdrachten over collecties; gestructureerde metadata in XML-exporten.
Accessible: Gegevens kunnen te allen tijde worden geëxporteerd in open formaten; geen propriëtaire lock-in.
Interoperable: Standaard XML-schema's garanderen compatibiliteit met digitale-bibliotheeksystemen, annotatiegereedschappen en tekstanalysesoftware.
Reusable: Open formaten met ingebedde metadata ondersteunen hergebruik en heranalyse op de lange termijn.

Langetermijnbewaring: Exporteer uw resultaten voor deponering in institutionele repositoria, domeinspecifieke archieven of datacentra. De open, niet-propriëtaire formaten garanderen dat gegevens onafhankelijk van één enkel platform toegankelijk blijven.

5.Modeltraining en nauwkeurigheid

Herkenningsnauwkeurigheid staat centraal in elke HTR-methodologiesectie. Transkribus meet kwaliteit met de Character Error Rate (CER): het aandeel tekens dat verschilt tussen de modeluitvoer en een handmatig geverifieerde referentietranscriptie.

Wat beoordelaars mogen verwachten:

Publieke modellen op geschikt materiaal: 2–5% CER (95–98% van de tekens correct).
Lastige schriften of aangetast materiaal met eigen training: 5–10% CER.
De CER wordt altijd berekend op een onafhankelijke testset (doorgaans 10–15% van de Ground Truth-gegevens die niet zijn gebruikt tijdens de training), wat een onvertekende nauwkeurigheidsschatting oplevert.

Training van een eigen model: Voor gespecialiseerd materiaal — ongebruikelijke schriften, historische spelling of beschadigde documenten — kunt u in Transkribus een eigen model trainen op uw eigen Ground Truth-gegevens. Training vereist doorgaans 25–75 handmatig getranscribeerde pagina's, afhankelijk van de complexiteit van het schrift.

Voor een uitgebreide uitleg over CER en hoe u deze in uw voorstel rapporteert, zie onze speciale gids: Character Error Rate (CER) Explained.

6.Samenwerking en schaalbaarheid

Onderzoeksprojecten opereren zelden in isolatie. Transkribus ondersteunt collaboratieve workflows op elke schaal, van kleine teams tot grote multi-institutionele initiatieven.

Crowdsourcing: Voor projecten met vrijwillige transcribenten of citizen scientists biedt Transkribus ingebouwde crowdsourcingfunctionaliteit. Vrijwilligers leveren correcties aan via een vereenvoudigde interface, waardoor Ground Truth ontstaat die de modelnauwkeurigheid in de loop der tijd verbetert. Zie onze gids over crowdsourcing-transcriptie voor details over het opzetten van collaboratieve transcriptiecampagnes.

API-toegang: Voor projecten die geautomatiseerde pipelines of integratie met bestaande onderzoeksinfrastructuur vereisen, biedt de Transkribus API programmatische toegang tot alle herkennings- en verwerkingsfuncties. Dit maakt batchverwerking, aangepaste workflows en integratie met institutionele digitale-bibliotheeksystemen mogelijk.

Opschalen van proefstudie naar volledig project:

Proeffase (maanden 1–3): Verwerk 50–100 representatieve pagina's, meet de CER, schat de correctietijd in.
Modelverfijning (maanden 3–6): Train indien nodig een eigen model op de Ground Truth uit de proeffase om de nauwkeurigheid te verbeteren.
Volledige verwerking (maanden 6+): Pas het geoptimaliseerde model toe op het gehele corpus. Batchverwerking verwerkt duizenden pagina's per dag.

Deze gefaseerde aanpak is methodologisch verantwoord en toont beoordelaars aan dat u een realistisch, op bewijs gebaseerd plan hebt voor opschaling.

7.Voorbeeldtekst methodologie

De volgende alinea kan worden aangepast voor de methodologiesectie van uw subsidieaanvraag. Vervang de velden tussen haakjes door uw projectspecifieke gegevens.

Handschriftherkenning wordt uitgevoerd met Transkribus (transkribus.org), een AI-gestuurd platform ontwikkeld en beheerd door de Europese coöperatie READ-COOP SCE (250+ institutionele leden). Het platform gebruikt deep learning-architecturen, getraind op PAGE XML Ground Truth-gegevens, om historisch handschrift te herkennen met meetbare nauwkeurigheid. Een proefstudie op [N] representatieve pagina's van [materiaalbeschrijving] bereikte een character error rate van [X]%, berekend op een onafhankelijke testset bestaande uit [Y]% van het Ground Truth-corpus, wat de haalbaarheid van automatische herkenning voor dit materiaal bevestigt. Gedurende het project zullen circa [N] pagina's [schrifttype]-materiaal uit [archief/collectie] worden verwerkt met [een publiek model / een zelf getraind model]. De herkenningskwaliteit wordt doorlopend gevalideerd door CER te meten op onafhankelijke testgegevens. Handmatige nacorrectie door [teamleden / studentassistenten] waarborgt dat de transcriptiekwaliteit voldoet aan de normen van het project. Alle uitvoer wordt geëxporteerd als [PAGE XML / TEI-XML / ALTO XML] voor deponering in [naam repositorium] en integratie met [database / analysepipeline]. Gegevens worden opgeslagen en verwerkt op Transkribus-servers in Oostenrijk (EU), conform de AVG. [Voor gevoelig materiaal: on-premises-implementatie garandeert dat documenten op de institutionele infrastructuur blijven.]

8.Referenties en verdere lectuur

Belangrijke publicaties:

Muehlberger, G. et al. (2019). 'Transforming scholarship in the archives through handwritten text recognition.' Journal of Documentation, 75(5), pp. 954–976.
Kahle, P. et al. (2017). 'Transkribus — A Service Platform for Transcription, Recognition and Retrieval of Historical Documents.' 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), 2017.
'Handwritten Text Recognition for Historical Documents.' Open Research Europe, 5:16 (2025). open-research-europe.ec.europa.eu/articles/5-16

Projectherkomst:

EU Horizon 2020 READ-project (subsidienummer 674943, 2016–2019) — het onderzoeksprogramma waarbinnen Transkribus is ontwikkeld.
READ-COOP SCE — de Europese coöperatie die Transkribus nu beheert en bestuurt, met meer dan 250 institutionele mede-eigenaren.

Gerelateerde methodologische gidsen:

Character Error Rate (CER) Explained — nauwkeurigheidsmetrieken begrijpen en rapporteren.
Crowdsourcing Transcription — collaboratieve transcriptiecampagnes opzetten.
Handwriting Recognition API — programmatische toegang voor geautomatiseerde workflows.
Early Modern Handwriting Recognition — werken met vroegmoderne schriften en handschriften.
Spanish Colonial Record Transcription — gespecialiseerde begeleiding voor koloniaal materiaal.
Hebrew Manuscript Transcription — werken met Hebreeuwse en rechts-naar-links schriften.

Infrastructuur die u met vertrouwen kunt citeren.

Transkribus is onderzoeksinfrastructuur die gebouwd en bestuurd wordt door de instellingen die het gebruiken — een sterk duurzaamheidsargument voor elke subsidieaanvraag.

Gehost in Oostenrijk, EU

Alle verwerking op eigen servers. AVG-conform. Geen afhankelijkheid van externe cloud.

Coöperatie, geen startup

250+ archieven, bibliotheken en universiteiten als mede-eigenaren. Gebouwd voor de lange termijn, niet voor een beursgang.

Uw data blijft van u

Volledig eigendom. Op elk moment exporteren en verwijderen. Geen gegevensdeling met derden.

Begin vandaag met uw pilotonderzoek

Test Transkribus op uw bronmateriaal vóór u de aanvraag schrijft. Neem echte nauwkeurigheidsgegevens op als voorlopig bewijs — het sterkste argument dat u kunt maken tegenover reviewers.

Gratis beginnen Bespreek institutionele abonnementen

50 gratis credits per maand · Geen creditcard nodig

200M+Verwerkte pagina's

500K+Gebruikers wereldwijd

500+Universiteiten