Skip to content
  • Prijzen

Extraheer gestructureerde gegevens uit elk document

Transkribus Field Models gebruiken instance segmentation om specifieke velden in uw documenten te detecteren en te extraheren — handgeschreven of gedrukt, historisch of modern. Definieer uw velden, train uw model, verwerk uw collectie.

Begin met het trainen van uw model
Index card with detected fields
Signatuur
Naam
Krant
Details
Referentie

Bekijk het in actie

Field Models detecteren en extraheren specifieke structuurelementen uit uw documenten — nauwkeurig en op grote schaal.

Document example
Extracted Fields

Eén technologie, tientallen toepassingen

Onderzoekers, archivarissen en instellingen wereldwijd trainen Field Models op hun specifieke documenten. Dit zijn de meest voorkomende toepassingen.

Segmenteer artikelen, koppen en advertenties uit krantenpagina's

Historische kranten hebben complexe meerkoloms-indelingen met artikelen die rond afbeeldingen lopen en meerdere pagina's beslaan. Field Models detecteren individuele artikelen, koppen, advertenties, auteursvermeldingen en bijschriften — en geven u gestructureerde toegang tot inhoud die eerder opgesloten zat in paginabeelden.

Fields extracted:KoppenArtikeltekstenAdvertentiesAuteursvermeldingenBijschriftenKolommen
Document example

Extraheer gestructureerde velden uit catalogus- en steekkaarten

Bibliotheken, musea en archieven bewaren miljoenen steekkaarten — cataloguskaarten, aanwinstvermeldingen, toegangen, patiëntenkaarten. Elk kaarttype heeft een eigen indeling, maar een goed getraind Field Model verwerkt de variatie en extraheert gestructureerde gegevens op grote schaal.

Fields extracted:NaamDatumReferentienummerCategorieBeschrijvingLocatie
Document example
Signatuur
Naam
Krant
Details
Referentie

Haal namen, datums en plaatsen uit handgeschreven registers

Kerkregisters, burgerlijke akten, militaire monsterrollen — de ruggengraat van genealogisch en demografisch onderzoek. Field Models detecteren gestructureerde vermeldingen over eeuwen van veranderende administratieve praktijken, en verwerken verschillende schrijvers, formaten en talen.

Fields extracted:PlaatsNaamJaarTabelgegevensInschrijvingsdatumMarginalia
Document example
Ort
Name
Jahrgang
Table

Identificeer marginalia, alinea's en kopregels in gerechtelijke protocollen

Historische rechtbankstukken, overheidsprotocollen en officiële documenten bevatten gestructureerde elementen zoals marginalia, genummerde alinea's, kopregels en annotaties. Field Models detecteren deze structurele componenten over eeuwen van veranderende administratieve praktijken.

Fields extracted:MarginaliaAlinea'sKopregelsKoptekstenStempelsHandtekeningen
Document example
Marginalia
Alinea
Alinea
Marginalia
Paginanr.
Marginalia
Marginalia

Scheid afzender, hoofdtekst, illustraties en paginanummers in correspondentie

Persoonlijke en officiële correspondentie beslaat eeuwen van briefschrijfconventies. Field Models detecteren en scheiden paginanummers, alinea's, illustraties en andere structurele elementen — van vroegmoderne diplomatieke depêches tot 20e-eeuwse getypte brieven.

Fields extracted:PaginanummerAlinea'sIllustratiesAfzenderHandtekeningDatum
Document example
Paginanr.
Alinea
Illustratie
Alinea
Alinea

Onderscheid hoofdtekst van marginalia, kopregels en voetnoten

Van middeleeuwse manuscripten tot moderne gedrukte boeken — Field Models verwerken meerkoloms-indelingen, interlineaire glossen, lopende koppen en complexe paginastructuren. Scheid hoofdtekst van marginalia, kopregels van inhoud, voetnoten van de hoofdtekst.

Fields extracted:HoofdtekstMarginaliaKopregelsPaginanummersVoetnotenGlossen

Van documentafbeeldingen naar gestructureerde gegevens

Field Models produceren gestructureerde uitvoer die u kunt exporteren als spreadsheets, importeren in databases of online publiceren.

Gestructureerde uitvoer
{
  "page": 1,
  "fields": [
    {
      "tag": "Shelfmark",
      "text": "O71 P31P"
    },
    {
      "tag": "Name",
      "text": "Daley, Jeremiah"
    },
    {
      "tag": "Newspaper",
      "text": "Peabody Press"
    },
    {
      "tag": "Details",
      "text": "Resident of Aborn St..."
    },
    {
      "tag": "Reference",
      "text": "Press July 3, 1889"
    }
  ]
}
Spreadsheet export
PaginaSignatuurNaamKrantDetailsReferentie
1O71 P31PDaley, JeremiahPeabody PressResident of Aborn St...Press July 3, 1889
2O71 P31QDavis, MarthaSalem GazetteTeacher at Essex...Gazette Aug 12, 1891
3O71 P31RDearborn, WilliamLynn RecordMerchant on Main...Record Jan 5, 1887

Exporteer als spreadsheets (XLSX, CSV), importeer in databases of publiceer gestructureerde collecties via Transkribus Sites.

XLSXCSVPAGE XMLTEIALTO

Hoe het werkt

Van ruwe documentafbeeldingen naar gestructureerde, exporteerbare gegevens in drie herkenningsstappen.

1

Veldherkenning

Voer uw getrainde Field Model uit om regio's op elke pagina te detecteren en te labelen. Het model tekent nauwkeurige polygonen rond elk veld — signaturen, namen, datums of elk ander label dat u hebt gedefinieerd.

Field recognition
Signatuur
Naam
Krant
Details
Referentie
2

Tekstlijndetectie

Transkribus vindt individuele tekstregels binnen elk gedetecteerd veld. Openbare lay-outmodellen verwerken deze stap automatisch — geen extra training nodig.

Text line detection
3

Tekstherkenning

Elke tekstregel wordt getranscribeerd met behulp van de HTR- of OCR-modellen van Transkribus. Exporteer de gestructureerde resultaten als spreadsheets, importeer ze in databases of publiceer ze via Transkribus Sites.

SignatuurO71 P31P
NaamDaley, Jeremiah
KrantPeabody Press
DetailsResident of Aborn St. died June 29, 1889...
Referentie(In) Press July 3, 1889. p.1.

Hoe train je een Field Model

Field Models zijn niet kant-en-klaar — je traint ze op je specifieke documenten. Zo werkt het.

1

Velden labelen

Open je documenten in Transkribus en teken regio's rond de velden die je wilt extraheren — namen, datums, signaturen of andere categorieën. Elke regio krijgt een label zodat het model weet waarnaar het moet zoeken.

Name
Date
Details
Ref
2

Trainen

Zodra je ongeveer 50 pagina's hebt geannoteerd, dien je ze in om je eigen Field Model te trainen. Het model maakt gebruik van transfer learning, waardoor zelfs kleine datasets bruikbare resultaten opleveren.

~50 geannoteerde pagina's
3

Toepassen & itereren

Pas je getrainde model toe op nieuwe documenten — het detecteert en labelt automatisch de velden. Gebruik de resultaten om fouten te corrigeren, meer trainingspagina's toe te voegen en opnieuw te trainen voor betere nauwkeurigheid.

Name
Date
Details
Ref
Auto

Begin klein, itereer, schaal op

Field Models gebruiken transfer learning van miljoenen verwerkte pagina's. Begin met een beheersbare trainingsset, gebruik uw eerste model om annotatie te versnellen en train opnieuw voor nog betere resultaten.

0Pagina's om te starten

Begin met ongeveer 50 geannoteerde pagina's voor eenvoudige indelingen. Complexe documenten kunnen baat hebben bij meer trainingsgegevens.

0Om uw model te trainen

Klik op trainen en wacht. Geen programmeerkennis, geen ML-expertise, geen cloudinfrastructuur nodig.

Trainingstips van de community

  • Begin eenvoudig — train op ongeveer 50 pagina's en evalueer. Uw eerste model is vaak al goed genoeg voor veel toepassingen.
  • Gebruik uw model om meer pagina's voor te annoteren, corrigeer ze en train opnieuw. Elke iteratie verbetert de nauwkeurigheid.
  • Voor complexe of wisselende indelingen kunt u het beste 200–500 representatieve pagina's uit verschillende documentstijlen gebruiken.
  • Exporteer resultaten als spreadsheets waarbij rijen pagina's zijn en kolommen uw veldlabels — klaar voor database-import.

Precisie op pixelniveau

Field Models detecteren regio's als gedetailleerde polygonen, niet als eenvoudige rechthoeken — essentieel voor documenten uit de praktijk met complexe indelingen.

Traditionele begrenzingskaders

Starre rechthoeken die overlappen bij onregelmatige inhoud. Kan niet omgaan met marginalia die rond tekst loopt, stempels die velden overlappen of vermeldingen die over kolommen van wisselende breedte lopen.

Instance segmentation

Detectie op pixelniveau die de exacte vorm van elk veld volgt. Verwerkt overlappende elementen, onregelmatige vormen en gemengde inhoudstypen. Werkt met elk document, van middeleeuwse manuscripten tot moderne formulieren.

Begin vandaag met het extraheren van gestructureerde gegevens

Train uw eerste Field Model met een Scholar+-abonnement. Definieer uw velden, annoteer enkele pagina's en uw documenten worden gestructureerde gegevens.