Extraheer gestructureerde gegevens uit elk document
Transkribus Field Models gebruiken instance segmentation om specifieke velden in uw documenten te detecteren en te extraheren — handgeschreven of gedrukt, historisch of modern. Definieer uw velden, train uw model, verwerk uw collectie.
Begin met het trainen van uw model
Bekijk het in actie
Field Models detecteren en extraheren specifieke structuurelementen uit uw documenten — nauwkeurig en op grote schaal.

Eén technologie, tientallen toepassingen
Onderzoekers, archivarissen en instellingen wereldwijd trainen Field Models op hun specifieke documenten. Dit zijn de meest voorkomende toepassingen.
Segmenteer artikelen, koppen en advertenties uit krantenpagina's
Historische kranten hebben complexe meerkoloms-indelingen met artikelen die rond afbeeldingen lopen en meerdere pagina's beslaan. Field Models detecteren individuele artikelen, koppen, advertenties, auteursvermeldingen en bijschriften — en geven u gestructureerde toegang tot inhoud die eerder opgesloten zat in paginabeelden.

Extraheer gestructureerde velden uit catalogus- en steekkaarten
Bibliotheken, musea en archieven bewaren miljoenen steekkaarten — cataloguskaarten, aanwinstvermeldingen, toegangen, patiëntenkaarten. Elk kaarttype heeft een eigen indeling, maar een goed getraind Field Model verwerkt de variatie en extraheert gestructureerde gegevens op grote schaal.

Haal namen, datums en plaatsen uit handgeschreven registers
Kerkregisters, burgerlijke akten, militaire monsterrollen — de ruggengraat van genealogisch en demografisch onderzoek. Field Models detecteren gestructureerde vermeldingen over eeuwen van veranderende administratieve praktijken, en verwerken verschillende schrijvers, formaten en talen.

Identificeer marginalia, alinea's en kopregels in gerechtelijke protocollen
Historische rechtbankstukken, overheidsprotocollen en officiële documenten bevatten gestructureerde elementen zoals marginalia, genummerde alinea's, kopregels en annotaties. Field Models detecteren deze structurele componenten over eeuwen van veranderende administratieve praktijken.

Scheid afzender, hoofdtekst, illustraties en paginanummers in correspondentie
Persoonlijke en officiële correspondentie beslaat eeuwen van briefschrijfconventies. Field Models detecteren en scheiden paginanummers, alinea's, illustraties en andere structurele elementen — van vroegmoderne diplomatieke depêches tot 20e-eeuwse getypte brieven.

Onderscheid hoofdtekst van marginalia, kopregels en voetnoten
Van middeleeuwse manuscripten tot moderne gedrukte boeken — Field Models verwerken meerkoloms-indelingen, interlineaire glossen, lopende koppen en complexe paginastructuren. Scheid hoofdtekst van marginalia, kopregels van inhoud, voetnoten van de hoofdtekst.
Van documentafbeeldingen naar gestructureerde gegevens
Field Models produceren gestructureerde uitvoer die u kunt exporteren als spreadsheets, importeren in databases of online publiceren.
{
"page": 1,
"fields": [
{
"tag": "Shelfmark",
"text": "O71 P31P"
},
{
"tag": "Name",
"text": "Daley, Jeremiah"
},
{
"tag": "Newspaper",
"text": "Peabody Press"
},
{
"tag": "Details",
"text": "Resident of Aborn St..."
},
{
"tag": "Reference",
"text": "Press July 3, 1889"
}
]
}| Pagina | Signatuur | Naam | Krant | Details | Referentie |
|---|---|---|---|---|---|
| 1 | O71 P31P | Daley, Jeremiah | Peabody Press | Resident of Aborn St... | Press July 3, 1889 |
| 2 | O71 P31Q | Davis, Martha | Salem Gazette | Teacher at Essex... | Gazette Aug 12, 1891 |
| 3 | O71 P31R | Dearborn, William | Lynn Record | Merchant on Main... | Record Jan 5, 1887 |
Exporteer als spreadsheets (XLSX, CSV), importeer in databases of publiceer gestructureerde collecties via Transkribus Sites.
Hoe het werkt
Van ruwe documentafbeeldingen naar gestructureerde, exporteerbare gegevens in drie herkenningsstappen.
Veldherkenning
Voer uw getrainde Field Model uit om regio's op elke pagina te detecteren en te labelen. Het model tekent nauwkeurige polygonen rond elk veld — signaturen, namen, datums of elk ander label dat u hebt gedefinieerd.

Tekstlijndetectie
Transkribus vindt individuele tekstregels binnen elk gedetecteerd veld. Openbare lay-outmodellen verwerken deze stap automatisch — geen extra training nodig.

Tekstherkenning
Elke tekstregel wordt getranscribeerd met behulp van de HTR- of OCR-modellen van Transkribus. Exporteer de gestructureerde resultaten als spreadsheets, importeer ze in databases of publiceer ze via Transkribus Sites.
Hoe train je een Field Model
Field Models zijn niet kant-en-klaar — je traint ze op je specifieke documenten. Zo werkt het.
Velden labelen
Open je documenten in Transkribus en teken regio's rond de velden die je wilt extraheren — namen, datums, signaturen of andere categorieën. Elke regio krijgt een label zodat het model weet waarnaar het moet zoeken.
Trainen
Zodra je ongeveer 50 pagina's hebt geannoteerd, dien je ze in om je eigen Field Model te trainen. Het model maakt gebruik van transfer learning, waardoor zelfs kleine datasets bruikbare resultaten opleveren.
Toepassen & itereren
Pas je getrainde model toe op nieuwe documenten — het detecteert en labelt automatisch de velden. Gebruik de resultaten om fouten te corrigeren, meer trainingspagina's toe te voegen en opnieuw te trainen voor betere nauwkeurigheid.
Begin klein, itereer, schaal op
Field Models gebruiken transfer learning van miljoenen verwerkte pagina's. Begin met een beheersbare trainingsset, gebruik uw eerste model om annotatie te versnellen en train opnieuw voor nog betere resultaten.
Begin met ongeveer 50 geannoteerde pagina's voor eenvoudige indelingen. Complexe documenten kunnen baat hebben bij meer trainingsgegevens.
Klik op trainen en wacht. Geen programmeerkennis, geen ML-expertise, geen cloudinfrastructuur nodig.
Trainingstips van de community
- Begin eenvoudig — train op ongeveer 50 pagina's en evalueer. Uw eerste model is vaak al goed genoeg voor veel toepassingen.
- Gebruik uw model om meer pagina's voor te annoteren, corrigeer ze en train opnieuw. Elke iteratie verbetert de nauwkeurigheid.
- Voor complexe of wisselende indelingen kunt u het beste 200–500 representatieve pagina's uit verschillende documentstijlen gebruiken.
- Exporteer resultaten als spreadsheets waarbij rijen pagina's zijn en kolommen uw veldlabels — klaar voor database-import.
Precisie op pixelniveau
Field Models detecteren regio's als gedetailleerde polygonen, niet als eenvoudige rechthoeken — essentieel voor documenten uit de praktijk met complexe indelingen.
Traditionele begrenzingskaders
Starre rechthoeken die overlappen bij onregelmatige inhoud. Kan niet omgaan met marginalia die rond tekst loopt, stempels die velden overlappen of vermeldingen die over kolommen van wisselende breedte lopen.
Instance segmentation
Detectie op pixelniveau die de exacte vorm van elk veld volgt. Verwerkt overlappende elementen, onregelmatige vormen en gemengde inhoudstypen. Werkt met elk document, van middeleeuwse manuscripten tot moderne formulieren.
Begin vandaag met het extraheren van gestructureerde gegevens
Train uw eerste Field Model met een Scholar+-abonnement. Definieer uw velden, annoteer enkele pagina's en uw documenten worden gestructureerde gegevens.