Skip to content
  • Prijzen

Zet historische tabellen om in gestructureerde data

Transkribus Table Models gebruiken instance segmentation om rijen en kolommen in documentafbeeldingen te detecteren en tabelgegevens met ongeëvenaarde nauwkeurigheid naar spreadsheets te exporteren.

Begin met het trainen van uw model
Table document with detected grid

Bekijk de extractie in actie

Table Models detecteren de rasterstructuur van uw document en extraheren de inhoud van elke cel naar een gestructureerde spreadsheet die u kunt exporteren.

Document example
Extracted Data
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Florida Baptist Academy (2)Jacksonville, Fla.General4/27/17
Fort Valley High & Ind. SchoolFort Valley, Ga.12,500Building12/15/17
Fisk UniversityNashville, Tenn.50,000General12/5/18
First Dist. State Normal SchoolKirksville, Mo.Library Building2/26/19Gen. 3/3/19

Gebouwd voor elk type tabelvormig document

Van ledenregisters tot volkstellingsgegevens: Table Models verwerken het volledige spectrum van historische tabellen met consistente nauwkeurigheid.

Ledenregisters & grootboeken

Handgeschreven ledenlijsten, verenigingsregisters en financiële grootboeken met duidelijk gedefinieerde kolommen. Table Models blinken uit bij deze uniforme rasterstructuren en detecteren rijen en kolommen nauwkeurig, zelfs wanneer het handschrift sterk varieert tussen de vermeldingen.

Columns detected:NumberYearNameOccupationResidenceNotes
Document example

Volkstellings- & statistische tabellen

Gedrukte volkstellingsformulieren, bevolkingsenquêtes en statistische tabellen met complexe kopteksten. Zelfs voorgedrukte formulieren met fijne rasterlijnen worden betrouwbaar verwerkt, waardoor pagina's met demografische gegevens worden omgezet in bruikbare spreadsheets voor grootschalige analyse.

Columns detected:DistrictsCountiesPopulationTotal DistrictsCounty Towns
Document example

Meerregelige vermeldingen & scheve rijen

Aanvraagregisters en uitgebreide records waarbij cellen meerdere regels tekst bevatten. Table Models verwerken meerregelige inhoud binnen cellen op natuurlijke wijze, en zelfs scheve of geroteerde rijscheidingen worden correct gedetecteerd dankzij instance segmentation.

Columns detected:NameDateAgePlaceApplicationDecision
Document example

Administratieve & institutionele tabellen

Onderwijsregisters, financiële overzichten en administratieve tabellen met vele kolommen handgeschreven gegevens. Of uw tabel nu 3 kolommen heeft of 30, Table Models schalen mee en herkennen de structuur nauwkeurig over honderden pagina's.

Columns detected:InstitutionTownAmountObjectDateDisposition
Document example

Gestructureerde output, klaar voor gebruik

Elke gedetecteerde cel wordt gekoppeld aan zijn rij- en kolompositie, wat u schone gestructureerde data oplevert die u direct kunt exporteren.

PAGE XML
<TableRegion id="t1">
  <Coords points="0,646 0,4014 6060,4013 6060,638"/>
  <TableCell row="0" col="0">
    <Coords points="0,646 0,822 1548,822 1548,644"/>
    <TextLine>
      <Unicode>Franklin College (6)</Unicode>
    </TextLine>
  </TableCell>
  <TableCell row="0" col="1">
    <Coords points="1548,644 1548,822 2241,822 2241,644"/>
    <TextLine>
      <Unicode>New Athen, O.</Unicode>
    </TextLine>
  </TableCell>
  <!-- ... -->
</TableRegion>
Spreadsheet-export
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914
Fessenden Acad.Fessenden, Fla.General12/22/16

Exporteer uw tabellen in meerdere formaten

XLSXCSVPAGE XMLTEIALTO

Hoe Table Models werken

Een drietraps-pipeline transformeert uw documentafbeeldingen naar gestructureerde tabeldata.

1

Tabelstructuurherkenning

Twee instance-segmentatiemodellen draaien parallel: het ene detecteert horizontale rijscheidingen, het andere detecteert verticale kolomscheidingen. De resultaten worden samengevoegd tot een complete rasterstructuur.

Table structure recognition
2

Tekstlijndetectie

Binnen elke gedetecteerde cel worden tekstbasislijnen geïdentificeerd. Deze stap verwerkt meerregelige cellen op natuurlijke wijze en detecteert elke tekstregel ongeacht de celhoogte.

Text line detection
3

Tekstherkenning

Een HTR-model leest de gedetecteerde tekstregels en produceert de uiteindelijke transcriptie. Het resultaat is een gestructureerde spreadsheet waarin elke waarde is gekoppeld aan zijn rij en kolom.

InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914

Hoe train je een Table Model

Table Models zijn niet kant-en-klaar — je traint ze op je specifieke documenten. Zo werkt het.

1

Tabellen annoteren

Open je documenten in Transkribus en teken de rij- en kolomstructuur op elke pagina. Markeer elke rij- en kolomscheiding zodat het model je specifieke tabelindeling kan leren.

2

Trainen

Zodra je ongeveer 20 pagina's hebt geannoteerd (meer voor complexe layouts), dien je ze in om je eigen Table Model te trainen. Het trainen duurt doorgaans enkele uren.

~20 geannoteerde pagina's
3

Toepassen & itereren

Pas je getrainde model toe op nieuwe documenten — het detecteert automatisch tabelstructuren en extraheert celinhoud. Gebruik de resultaten om fouten te corrigeren, meer pagina's toe te voegen en opnieuw te trainen.

Auto

Train uw eigen Table Model

Begin met slechts 20 geannoteerde pagina's en verbeter de nauwkeurigheid van uw model stap voor stap.

0pagina's om te starten

Voor eenvoudige, uniforme tabellen zijn 20 geannoteerde pagina's voldoende om een eerste werkend model te trainen.

0%MAP voor goede resultaten

Een Mean Average Precision van 35% of hoger levert in de praktijk al betrouwbare tabeldetectie op.

Tips van de experts

  • Begin met eenvoudige, uniforme tabellen en breid later uit naar complexere lay-outs
  • Sluit koptekstrijen uit tijdens de eerste training om de structuur consistent te houden
  • Gebruik 50–100 pagina's voor complexe of gemengde tabellay-outs
  • Itereer: train, evalueer, corrigeer fouten, hertrain voor de beste resultaten
  • Table Models werken het best voor strikte rasterstructuren — gebruik voor formulieren en onregelmatige lay-outs in plaats daarvan Field Models

Table Models vs. Field Models

Kies het juiste hulpmiddel voor uw documentstructuur.

Tabelmodellen

Het beste voor uniforme rasterstructuren waarbij data in consistente rijen en kolommen is georganiseerd.

  • Rijen × kolommen rasterdetectie
  • Meerregelige tekst per cel
  • Scheve rijen en kolommen worden ondersteund
  • Exporteren als XLSX, CSV, PAGE XML
  • Ideaal voor: registers, grootboeken, volkstellingstabellen

Veldmodellen

Het beste voor complexe lay-outs, formulieren en documenten waarbij gebieden onregelmatige vormen hebben.

  • Getagde gebieden van elke vorm
  • Onregelmatige en overlappende gebieden
  • Aangepaste veldtypen en labels
  • Werkt voor elke documentstructuur
  • Ideaal voor: formulieren, brieven, indexkaarten

Begin vandaag nog met het extraheren van tabeldata

Train een aangepast Table Model op uw documenten en ontsluit gestructureerde data uit duizenden handgeschreven tabellen.