Skip to content
  • Prijzen

Extraheer gestructureerde data uit elk document

Onderzoeks- en digitaliseringsprojecten hebben meer nodig dan leesbare tekst — ze hebben gestructureerde data nodig. Namen, datums, plaatsen, bedragen, relaties. Transkribus combineert AI-tekstherkenning met tabelextractie, Field Models en entiteitstagging om handgeschreven en gedrukte documenten om te zetten in gestructureerde datasets die klaar zijn voor analyse, databases en spreadsheets.

3Extractiemethoden
CSV + XMLExportformaten
No codingVereist
TabellenRijen, kolommen, cellen in spreadsheets
VeldenBenoemde velden uit formulieren extraheren
EntiteitenPersonen, plaatsen, datums taggen
TrainbaarAangepaste modellen voor je lay-outs

Drie manieren om data uit documenten te extraheren

Verschillende documenttypen vereisen verschillende extractiemethoden. Transkribus biedt alle drie — en ze kunnen worden gecombineerd.

Tabelherkenning op historisch document

Tabelherkenning

Detecteer rijen, kolommen en celgrenzen in tabulaire documenten — kerkregisters, volkstellingen, belastingrollen, grootboeken. Elke cel wordt een datapunt. Exporteer de hele tabel als spreadsheet of XML.

Veldextractie uit gestructureerde formulieren

Veldextractie

Train modellen om specifieke velden te vinden en te extraheren uit gestructureerde documenten — datums, namen, referentienummers, bedragen. Werkt met formulieren, indexkaarten, certificaten en elk document met een herhalende structuur.

Entiteitstagging in getranscribeerde tekst

Entiteitstagging

Tag personen, plaatsen, datums en aangepaste entiteiten in lopende tekst. Tags worden doorzoekbare metadata. Exporteer als TEI-XML of filter getagde entiteiten als gestructureerde data voor je onderzoeksdatabase.

Tabelherkenning in actie

Transkribus detecteert de rasterstructuur van tabulaire registers en extraheert elke cel in een gestructureerd spreadsheet — klaar voor je database, genealogiesoftware of onderzoekspipeline.

Document with detected table structure
Geextraheerde tabelgegevens
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

Veldextractie in actie

Field Models detecteren en extraheren specifieke gegevensvelden uit documenten — namen, datums, locaties, referenties — nauwkeurig en op grote schaal. Train op je eigen formulierindelingen voor de beste resultaten.

Document with detected fields
Geextraheerde velden

Intelligente documentverwerking

Van documentafbeeldingen naar onderzoeksdatabases

De typische workflow: upload documentscans, voer AI-tekstherkenning uit om machineleesbare tekst te krijgen, pas vervolgens tabelherkenning of veldextractie toe om gestructureerde data te verkrijgen. Exporteer als CSV voor spreadsheets, als XML voor databases, of voed direct je NLP-pipeline voor named entity recognition, topic modelling of netwerkanalyse.
Exporteer tabellen en velden als CSV, Excel of gestructureerd XML
Entiteitstags worden geexporteerd als TEI-XML met coordinaten die verwijzen naar bronafbeeldingen
REST API-toegang voor geautomatiseerde OCR-data-extractiepipelines
Batchverwerking voor grote documentcollecties

Trainbaar

Train extractiemodellen op je specifieke documenttype

Net als tekstherkenningsmodellen kunnen ook tabel- en veldextractiemodellen worden getraind op je specifieke documenten. Als je registers een unieke indeling hebben — een bepaald type kerkregister, een regionaal volkstellingsformaat, een type indexkaart — kun je een aangepast model trainen dat die structuur begrijpt en data uit handgeschreven documenten met hoge nauwkeurigheid extraheert.
Aangepaste tabelmodellen voor niet-standaard lay-outs en complexe registers
Aangepaste Field Models voor specifieke formuliertypes en indexkaarten
Geen programmeren — training gebeurt in de visuele interface
Modellen verbeteren naarmate je meer trainingsdata toevoegt
Deel getrainde modellen met je team of de community

Toepassingen

Wat onderzoekers extraheren met Transkribus

Instellingen en onderzoekers wereldwijd gebruiken Transkribus om gestructureerde data te extraheren uit historische documenten op grote schaal. Van genealogische databases opgebouwd uit kerkregisters tot economisch onderzoek op basis van koloniale handelsregisters — dezelfde extractietools ondersteunen honderden verschillende onderzoeksprojecten.
Kerkregisters → namen, datums, relaties voor genealogische databases
Volkstellingen → demografische gegevens voor bevolkingsstudies
Belastingrollen en grootboeken → economische data voor historische analyse
Indexkaarten en catalogi → gestructureerde metadata voor bibliotheeksystemen
Correspondentie → getagde personen en plaatsen voor netwerkanalyse

Handschriftspecialisten

Het enige IDP-platform gebouwd voor handschrift

De meeste platforms voor intelligente documentverwerking richten zich op moderne gedrukte formulieren — facturen, bonnetjes, contracten. Transkribus is anders: het is van de grond af opgebouwd voor handgeschreven en historische documenten. Onze AI-modellen verwerken eeuwen aan schrijfstijlen, aangetast papier, onregelmatige lay-outs en gemengde schriften waar standaard OCR-tools op vastlopen.
500.000+ gebruikers die handgeschreven documenten verwerken
300+ openbare AI-modellen voor historisch handschrift
Werkt in meer dan 100 talen en alle belangrijke schriftsystemen
Gehost in de EU en AVG-conform — je documenten blijven in Europa

Begin met het extraheren van data uit je documenten

Maak een gratis account aan. Upload je scans, voer tekstherkenning uit en extraheer gestructureerde data — zonder programmeren, zonder ML-expertise.

300+Openbare AI-modellen
CSV + XMLExportformaten
EU-hostedAVG-conform