Skip to content
  • Prijzen

Layoutanalyse die elke pagina begrijpt

Voordat ook maar één teken kan worden gelezen, moet de AI de structuur van de pagina begrijpen — waar de tekstblokken zich bevinden, waar elke regel zit, waar tabellen, kolommen en marginalia beginnen en eindigen. Transkribus doet dit automatisch voor elk document en produceert pixelnauwkeurige coördinaten voor elk gedetecteerd element.

AutomaticPaginasegmentatie
Pixel-levelCoördinaatnauwkeurigheid
PAGE XMLStandaard exportformaat
Regio’sDetecteer tekstblokken, afbeeldingen, tabellen
BaselinesNauwkeurige coördinaten op regelniveau
StructuurKoppen, alinea’s, marginalia
ExportPAGE XML, doorzoekbare PDF, ALTO

Zie layoutanalyse in actie

De AI scant het document en detecteert elk structureel element — tekstgebieden, individuele baselines en annotaties. Schakel elementtypen in en uit om de gedetecteerde layout te verkennen.

Document with layout analysis overlay
Layout Elements

Paginasegmentatie

Automatische regiodetectie voor elk document

Transkribus segmenteert elke pagina automatisch in gestructureerde regio’s — tekstblokken, afbeeldingen, tabellen, scheidingslijnen en decoraties. De AI verwerkt complexe layouts die eenvoudige kolomdetectie te boven gaan: meerkolomstekst met wisselende breedtes, marginalia naast de hoofdtekst, interlineaire annotaties en tekst die rond illustraties loopt.
Detecteert tekstgebieden, afbeeldingsgebieden, tabelgebieden en scheidingslijnen
Verwerkt meerkolomslayouts, gemengde oriëntaties en geneste regio’s
Werkt op handgeschreven, gedrukte en gemengde documenten uit elke eeuw
Wordt automatisch uitgevoerd tijdens tekstherkenning — geen handmatige zonering nodig
Structurele regio’s worden gelabeld als koptekst, alinea, paginanummer of marginalia

Baselinedetectie

Pixelnauwkeurige baselines voor elke tekstregel

Baselines vormen het fundament van handschriftherkenning in Transkribus. De AI traceert het exacte pad dat elke tekstregel volgt — inclusief gebogen, schuin en onregelmatig handschrift. Elke baseline slaat een polylijn van coördinaatpunten op die de tekst nauwkeurig aan het originele beeld koppelen. Dit is wat de uitvoer van Transkribus ruimtelijk verbindt met de bron: u weet altijd precies waar op de pagina elk woord is gevonden.
Polylijn-baselines volgen de exacte kromming van het handschrift
Elke baseline koppelt herkende tekst aan zijn pixelcoördinaten
Verwerkt schuine schrijfstijl, gebogen regels en onregelmatige spatiëring
Coördinaten worden geëxporteerd in PAGE XML- en ALTO-formaat
Essentieel voor het genereren van doorzoekbare PDF’s met uitgelijnde tekstlaag

Detectie van tabelstructuur

Tabellayoutanalyse gaat verder dan tekstgebieden — het detecteert rijen, kolommen, kopteksten en individuele cellen. Train aangepaste tabelmodellen voor uw specifieke documentlayouts.

Document with detected table structure
Geëxtraheerde tabelgegevens
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

Exportformaten

Coördinaten die u overal kunt gebruiken

Elk layoutelement dat Transkribus detecteert bevat volledige coördinaatgegevens. Exporteer in industriestandaard formaten voor gebruik in Digital Humanities-tools, bibliotheeksystemen of uw eigen verwerkingspipeline. Doorzoekbare PDF’s lijnen de herkende tekstlaag uit met het originele beeld aan de hand van deze coördinaten — waardoor elk woord klikbaar en doorzoekbaar wordt.
PAGE XML — de standaard voor documentlayout met polygooncoördinaten
ALTO XML — breed gebruikt in bibliotheek- en archiefsystemen
Doorzoekbare PDF — tekstlaag uitgelijnd met beeldcoördinaten
TEI-XML — met facsimilelinks naar bronregio’s
Platte tekst, DOCX en Excel voor eenvoudigere workflows

De editor

Bewerk en corrigeer de layout in een visuele editor

Transkribus bevat een volledige visuele editor voor layoutcorrecties. Pas regiogrenzen aan, voeg tekstregels samen of splits ze, corrigeer baselinecoördinaten, annoteer structurele regio’s als koppen of marginalia, en corrigeer de leesvolgorde. Alle wijzigingen worden weerspiegeld in de geëxporteerde coördinaten.
Versleep visueel regiogrenzen en baselinepunten
Voeg tekstgebieden en regels samen of splits ze
Wijs structurele tags toe: koptekst, alinea, marginalia, paginanummer
Corrigeer de leesvolgorde in complexe meerkolomslayouts
Wijzigingen worden opgeslagen en doorgevoerd in alle exports

Gebouwd voor handschrift

OCR-layoutanalyse die werkt bij historische documenten

De meeste tools voor documentlayoutanalyse zijn ontworpen voor moderne gedrukte documenten met schone, voorspelbare layouts. Transkribus is gebouwd voor de moeilijke gevallen: eeuwenoud handschrift met onregelmatige regelafstand, aangetast papier, inktdoorslag, gemengde oriëntaties en onvoorspelbare structuur. Onze AI-modellen zijn getraind op miljoenen pagina’s van historische documenten.
Verwerkt aangetaste, bevlekte en beschadigde documenten
Werkt met alle eeuwen en schrijfstijlen
Beheert inktdoorslag, doorschijning en tekst met laag contrast
Detecteert baselines bij schuin, gebogen en onregelmatig handschrift
Meer dan 500.000 gebruikers verwerken dagelijks historische documenten

Probeer documentlayoutanalyse gratis

Upload uw documenten en zie hoe de AI elke regio, baseline en structureel element detecteert. Geen installatie, geen code — gewoon uploaden en beginnen.

AutomaticGeen handmatige zonering
PAGE XMLStandaardcoördinaten
Free50 credits elke maand