Extraheer gestructureerde data uit elk document

Onderzoeks- en digitaliseringsprojecten hebben meer nodig dan leesbare tekst — ze hebben gestructureerde data nodig. Namen, datums, plaatsen, bedragen, relaties. Transkribus combineert AI-tekstherkenning met tabelextractie, Field Models en entiteitstagging om handgeschreven en gedrukte documenten om te zetten in gestructureerde datasets die klaar zijn voor analyse, databases en spreadsheets.

Gratis extraheren Bekijk het in actie

3Extractiemethoden

CSV + XMLExportformaten

No codingVereist

TabellenRijen, kolommen, cellen in spreadsheets

VeldenBenoemde velden uit formulieren extraheren

EntiteitenPersonen, plaatsen, datums taggen

TrainbaarAangepaste modellen voor je lay-outs

Tabelherkenning

Detecteer rijen, kolommen en celgrenzen in tabulaire documenten — kerkregisters, volkstellingen, belastingrollen, grootboeken. Elke cel wordt een datapunt. Exporteer de hele tabel als spreadsheet of XML.

Veldextractie

Train modellen om specifieke velden te vinden en te extraheren uit gestructureerde documenten — datums, namen, referentienummers, bedragen. Werkt met formulieren, indexkaarten, certificaten en elk document met een herhalende structuur.

Entiteitstagging

Tag personen, plaatsen, datums en aangepaste entiteiten in lopende tekst. Tags worden doorzoekbare metadata. Exporteer als TEI-XML of filter getagde entiteiten als gestructureerde data voor je onderzoeksdatabase.

Tabelherkenning in actie

Transkribus detecteert de rasterstructuur van tabulaire registers en extraheert elke cel in een gestructureerd spreadsheet — klaar voor je database, genealogiesoftware of onderzoekspipeline.

Geextraheerde tabelgegevens

Institution	Town	Amount	Object	Date	Disposition
Franklin College (6)	New Athen, O.		General	3/23/16
Fargo College (3)	Fargo, N.D.	100,000	Endowment	4/27/16	Gen 1914, 5/18/16
Franklin Academy (2)	Franklin, Neb.	5,000	Library Building	8/3/16	Gen 1914, 8/7/16
Fessenden Acad. & Ind. School	Fessenden, Fla.		General	12/22/16
Ferris Institute (2)	Big Rapids, Mich.	50,000	Buildings	2/12/17
Findlay College (2)	Findlay, O.	100,000	Endowment	5/23/17	Gen 1914, 5/28/17
Fairmount College	Wichita, Kan.	200,000	Endowment	6/7/17	6/14/17
Franklin College	Franklin, Ind.	50,000	General	9/13/17	Gen 1914, 9/17/17
Fisk University	Nashville, Tenn.	1,000,000	Endowment	6/14/18
Friends University	Wichita, Kan.	200,000	Endowment	6/20/18	Gen 1914, 8/8/18

Veldextractie in actie

Field Models detecteren en extraheren specifieke gegevensvelden uit documenten — namen, datums, locaties, referenties — nauwkeurig en op grote schaal. Train op je eigen formulierindelingen voor de beste resultaten.

Geextraheerde velden

Intelligente documentverwerking

Van documentafbeeldingen naar onderzoeksdatabases

De typische workflow: upload documentscans, voer AI-tekstherkenning uit om machineleesbare tekst te krijgen, pas vervolgens tabelherkenning of veldextractie toe om gestructureerde data te verkrijgen. Exporteer als CSV voor spreadsheets, als XML voor databases, of voed direct je NLP-pipeline voor named entity recognition, topic modelling of netwerkanalyse.

Exporteer tabellen en velden als CSV, Excel of gestructureerd XML

Entiteitstags worden geexporteerd als TEI-XML met coordinaten die verwijzen naar bronafbeeldingen

REST API-toegang voor geautomatiseerde OCR-data-extractiepipelines

Batchverwerking voor grote documentcollecties

Trainbaar

Train extractiemodellen op je specifieke documenttype

Net als tekstherkenningsmodellen kunnen ook tabel- en veldextractiemodellen worden getraind op je specifieke documenten. Als je registers een unieke indeling hebben — een bepaald type kerkregister, een regionaal volkstellingsformaat, een type indexkaart — kun je een aangepast model trainen dat die structuur begrijpt en data uit handgeschreven documenten met hoge nauwkeurigheid extraheert.

Aangepaste tabelmodellen voor niet-standaard lay-outs en complexe registers

Aangepaste Field Models voor specifieke formuliertypes en indexkaarten

Geen programmeren — training gebeurt in de visuele interface

Modellen verbeteren naarmate je meer trainingsdata toevoegt

Deel getrainde modellen met je team of de community

Toepassingen

Wat onderzoekers extraheren met Transkribus

Instellingen en onderzoekers wereldwijd gebruiken Transkribus om gestructureerde data te extraheren uit historische documenten op grote schaal. Van genealogische databases opgebouwd uit kerkregisters tot economisch onderzoek op basis van koloniale handelsregisters — dezelfde extractietools ondersteunen honderden verschillende onderzoeksprojecten.

Kerkregisters → namen, datums, relaties voor genealogische databases

Volkstellingen → demografische gegevens voor bevolkingsstudies

Belastingrollen en grootboeken → economische data voor historische analyse

Indexkaarten en catalogi → gestructureerde metadata voor bibliotheeksystemen

Correspondentie → getagde personen en plaatsen voor netwerkanalyse

Handschriftspecialisten

Het enige IDP-platform gebouwd voor handschrift

De meeste platforms voor intelligente documentverwerking richten zich op moderne gedrukte formulieren — facturen, bonnetjes, contracten. Transkribus is anders: het is van de grond af opgebouwd voor handgeschreven en historische documenten. Onze AI-modellen verwerken eeuwen aan schrijfstijlen, aangetast papier, onregelmatige lay-outs en gemengde schriften waar standaard OCR-tools op vastlopen.

500.000+ gebruikers die handgeschreven documenten verwerken

300+ openbare AI-modellen voor historisch handschrift

Werkt in meer dan 100 talen en alle belangrijke schriftsystemen

Gehost in de EU en AVG-conform — je documenten blijven in Europa

Begin met het extraheren van data uit je documenten

Maak een gratis account aan. Upload je scans, voer tekstherkenning uit en extraheer gestructureerde data — zonder programmeren, zonder ML-expertise.

Gratis beginnen Adviesgesprek boeken

300+Openbare AI-modellen