Uw digitaliseringsproject, van begin tot eind beheerd

Of u nu beproefde tekstherkenning op grote schaal nodig hebt of een geheel nieuwe aanpak voor materiaal dat geen standaardmethode aankan — ons team van domeinexperts, AI-specialisten en archivarissen begeleidt het volledige project. Van het begrijpen van uw corpus tot het leveren van gestructureerde, doorzoekbare resultaten, geïntegreerd in uw systemen.

Vertel ons over uw project

Uw documentenScans, afbeeldingen, handschriften

Analyse & proof of conceptModelselectie, CER-evaluatie

Verwerking & trainingHerkenning, aangepaste modellen, QA

Gestructureerde opleveringXML, CSV, Sites, systeemintegratie

20M+pagina's in één project

2,000+instellingen vertrouwen op Transkribus

95%+nauwkeurigheid bij getrainde modellen

Batchverwerking met beproefde modellen

Voor goed gescand materiaal met standaardschriften: wij selecteren de juiste modellen uit meer dan 100 publiek beschikbare tekst- en layoutherkenningsmodellen, configureren de workflow, voeren batchverwerking uit, controleren de kwaliteit en leveren.

Gedrukte boeken en overheidsdocumentenStandaardschriften (Latijns, Kurrent, Fraktur)Grote volumes met consistente kwaliteit

Aangepaste modeltraining voor uw materiaal

Wanneer standaardmodellen niet de vereiste nauwkeurigheid bereiken — ongebruikelijke handschriften, gedegradeerde scans, zeldzame schriften — trainen wij AI-modellen specifiek op uw materiaal. Meerdere trainingsrondes tot we de beoogde nauwkeurigheid bereiken.

Zeldzame of persoonlijke handschriftenGedegradeerde scans of microfilmdigitaliseringNiet-Latijnse schriftsystemen

Zie het Bautzen-project — aangepast Kurrent-model voor 200 jaar raadsverslagen →

Schemadefinitie, data-extractie & systeemintegratie

Verder dan platte tekst: wij definiëren extractieschema's voor uw documenttypen — tabellen, velden, gestructureerde records — en leveren data in het formaat dat uw systemen nodig hebben. Publicatie als doorzoekbare Transkribus Site met uw eigen huisstijl.

Tabel- en veldextractie uit registersCSV, Excel of database-klare outputIntegratie met ArchivesSpace, AtoM, scopeArchivGepubliceerde Transkribus Sites met full-text zoeken

Zie het St. Gallen-project — 200.000 pagina's gepubliceerd als doorzoekbare Site →

Nieuwe frameworks wanneer standaardbenaderingen falen

Sommige collecties kunnen niet worden opgelost met bestaande tools. Wij ontwikkelen nieuwe AI-benaderingen: end-to-end Smart Extract-modellen, Named Entity Recognition voor automatisch taggen en maatwerkframeworks voor problemen die geen standaardmethode kan oplossen.

Smart Extract — contextueel documentbegripNamed Entity Recognition en automatische geo-verrijkingInnovatieve frameworks voor niet-standaard documenten

Zie het MfN Berlijn-project — eerste praktijkinzet van Smart Extract →

Uw materiaal begrijpen

Wij analyseren uw collectie: documenttypen, schriften, layouts, conditie, omvang. Welke data moet worden geëxtraheerd? Met welke systemen moet het integreren? Wat betekent succes voor uw instelling?

Proof of concept

U stuurt ons een representatief sample. Wij doorlopen de volledige pipeline — inclusief aangepaste modeltraining indien nodig — en retourneren resultaten met foutpercentage-metingen en een realistische kostenraming.

Projectplanning & kickoff

Wij definiëren scope, tijdlijn, mijlpalen, deliverables en prijzen. Een toegewijde projectmanager met achtergrond in digital humanities of archiefwetenschap wordt aan uw project toegewezen.

Verwerking, training & kwaliteitsborging

Uw PM coördineert de technische pipeline: herkenning, modelrefinement, data-extractie, kwaliteitscontroles. Tweewekelijkse sync-meetings houden u op de hoogte.

Mijlpaaloplevering & review

Resultaten worden progressief opgeleverd bij afgesproken mijlpalen, elk met kwaliteitsmetrieken en steekproefcontrole. U beoordeelt en keurt goed voordat we verdergaan.

Definitieve oplevering & integratie

De complete dataset in het gewenste formaat — PAGE XML, ALTO, TEI, CSV, doorzoekbare PDF — of gepubliceerd als Transkribus Site met full-text zoeken en eigen huisstijl. Alle aangepast getrainde modellen blijven van u.

Specimenlabels van het Museum für Naturkunde Berlijn

Museum für Naturkunde Berlin

Duitsland

De uitdaging

250.000 specimenlabels met handgeschreven metadata uit twee eeuwen. Standaard OCR faalde volledig — vervaagde inkt, beschadigd papier, gemengde schriften en niet-standaard layouts.

Onze aanpak

Ontwikkeling van een Smart Extract-model — een AI die labelstructuren contextueel begrijpt. Aangevuld met Named Entity Recognition met GeoNames-verrijking voor automatisch taggen van soorten en oplossen van plaatsnamen.

Het resultaat

Eerste succesvolle praktijkinzet van een Smart Extract-model. Complete machineleesbare dataset van 250.000 getranscribeerde en getagde labels — een repliceerbaar model voor natuurhistorische collecties wereldwijd.

Lees het volledige verhaal →

Zeitpunkt.NRW

Noordrijn-Westfalen, Duitsland

De uitdaging

Het volledige historische krantenbezit van Noordrijn-Westfalen — 20 miljoen pagina's over eeuwen. Complexe meerkoloms layouts, Fraktur-druk, advertenties en gemengde inhoudstypen.

Onze aanpak

Full-text herkenning op ongekende schaal. AI-layoutsegmentatie voor complexe krantenpagina's, batchverwerking met kwaliteitsborging en publicatie via een regionaal digitaal krantenportaal.

Het resultaat

Een van de grootste tekstherkenningsprojecten ooit voltooid. Burgers en onderzoekers kunnen nu door eeuwen regionale geschiedenis zoeken via het openbaar toegankelijke Zeitpunkt.NRW-portaal.

Bezoek zeitpunkt.nrw →

Noord-Hollands Archief

Haarlem, Nederland

De uitdaging

Eeuwen aan notariële archieven — testamenten, eigendomsoverdrachten, boedelbeschrijvingen, getuigenverklaringen — van 1570 tot 1925. Bijna 2 miljoen scans van handgeschreven documenten uit Haarlem, Kennemerland en Amstel- en Meerlanden, ontoegankelijk voor wie geen historische schriften kan lezen.

Onze aanpak

HTR toegepast op het volledige notarieel archief. Gepubliceerd als doorzoekbare Transkribus Site met fuzzy zoeken op persoonsnamen en locaties. 93–98,6% tekennauwkeurigheid. Onderdeel van het baanbrekende HTR-project «De ijsberg zichtbaar maken» (2019–2021).

Het resultaat

Bijna 2 miljoen scans van notariële akten nu volledig doorzoekbaar online. Onderzoekers, genealogen en burgers kunnen zoeken op namen, locaties en onderwerpen door 350 jaar Noord-Hollandse notariële geschiedenis.

Verken de collectie →

Raadsverslagen uit het archief van St. Gallen

Staatsarchief St. Gallen

Zwitserland

De uitdaging

417 boeken, 200.000 pagina's raadsverslagen — handgeschreven en getypt, veel gedigitaliseerd van oudere microfilmscans. Alleen toegankelijk via persoonlijk bezoek aan het archief.

Onze aanpak

Aangepaste modeltraining op de raadsverslagen. Combinatie van geautomatiseerde transcriptie en handmatige correctie. Gepubliceerd als doorzoekbare Transkribus Site met zij-aan-zij weergave van document en transcriptie.

Het resultaat

Raadsverslagen vanaf 1803 openbaar online toegankelijk — 24/7 doorzoekbaar. Geen kennis van historisch handschrift vereist.

Lees het volledige verhaal →

Historisch Kurrentschrift uit het Bautzener archief

Archivverbund Bautzen

Duitsland

De uitdaging

257 banden raadsverslagen van 1623–1832 — 55.000 pagina's Kurrentschrift. Gedigitaliseerd maar ontoegankelijk omdat het handschrift te moeilijk was om te ontcijferen voor ongetrainde onderzoekers.

Onze aanpak

Toepassing van het Early Kurrent-model, gevolgd door training van een aangepast model. Gepubliceerd als Transkribus Site met permalinks geïntegreerd in Archivportal-D en Findbuch.

Het resultaat

200 jaar stadsgeschiedenis van Bautzen volledig doorzoekbaar. Naadloze vindbaarheid via bestaande archiefportalen.

Lees het volledige verhaal →

Gebruikt door toonaangevende instellingen wereldwijd

Uw data blijft van u

Volledig eigendom en controle. Verwerkersovereenkomsten (DPA's) en maatwerkovereenkomsten beschikbaar.

Gehost in Oostenrijk, EU

Alle verwerking op onze eigen servers. AVG-conform. Geen cloud van derden.

Een coöperatie, geen startup

250+ archieven, bibliotheken en universiteiten als mede-eigenaren. Gebouwd voor decennia, niet voor de verkoop.

Geen vendor lock-in

Alle output in standaardformaten. Getrainde modellen blijven van u. Data altijd exporteerbaar.

Uw data blijft van uVolledig eigendom en controle. AVG-conform met verwerkersovereenkomsten.

Gehost in Oostenrijk, EUAlle verwerking op onze eigen servers. Geen cloud van derden.

Een coöperatie, geen startup250+ archieven, bibliotheken en universiteiten als mede-eigenaren.

Uw digitaliseringsproject, van begin tot eind beheerd

Van standaardverwerking tot het oplossen van problemen die niemand anders kan oplossen

Batchverwerking met beproefde modellen

Aangepaste modeltraining voor uw materiaal

Schemadefinitie, data-extractie & systeemintegratie

Nieuwe frameworks wanneer standaardbenaderingen falen

Hoe een beheerd project werkt

Uw materiaal begrijpen

Proof of concept

Projectplanning & kickoff

Verwerking, training & kwaliteitsborging

Mijlpaaloplevering & review

Definitieve oplevering & integratie

Wat we hebben opgeleverd

Museum für Naturkunde Berlin

Zeitpunkt.NRW

Noord-Hollands Archief

Staatsarchief St. Gallen

Archivverbund Bautzen

Uw data blijft van u

Gehost in Oostenrijk, EU

Een coöperatie, geen startup

Geen vendor lock-in

Vertel ons over uw project

Veelgestelde vragen