Bouw tekstcorpora van historische documenten.

Historische taalkunde en corpusonderzoek zijn afhankelijk van machineleesbare tekst — en die tekst moet ergens vandaan komen. Transkribus converteert handgeschreven en gedrukte documenten naar gestructureerde tekst met XML-opmaak die lay-out, marginalia, doorhalingen en andere kenmerken bewaart die linguïsten nodig hebben. Van daaruit exporteert u naar uw corpustools.

Gratis beginnen Hoe tekstherkenning werkt

Historische teksttranscriptie voor corpusbouw

100+talen en schriften

300+door de gemeenschap getrainde modellen

XMLgestructureerde tekstexport

Transcriptieeditor met structurele opmaak

Gestructureerde tekst met lay-outopmaak

Koppen, kolommen, marginalia, voetnoten, doorhalingen, invoegingen — de XML-export bewaart de documentstructuur die voor linguïstische analyse van belang is. Geen platte tekstdump.

Doorzoekbaar in de gehele collectie

Zodra getranscribeerd zijn uw documenten volledig doorzoekbaar. Vind woordvormen, spellingsvarianten en patronen over duizenden pagina's — een concordantier voor uw handschriftencorpus.

Exporteren voor vervolganalyse

Exporteer als platte tekst, TEI-XML, PAGE XML of ALTO XML. Voer in uw NLP-pijplijn, concordantier of corpusannotatietool. De gestructureerde opmaak blijft behouden.

Casestudy

KorBa: Een digitaal corpus van 17e–18e-eeuwse Poolse teksten opbouwen

Het KorBa-project aan de Poolse Academie van Wetenschappen gebruikt Transkribus om een grootschalig linguïstisch corpus van historische Poolse teksten uit de 17e en 18e eeuw op te bouwen. Het project traint aangepaste modellen op periodespecifiek handschrift en druk, en verwerkt vervolgens volledige handschriftencollecties in machineleesbare tekst die de corpusanalyseomgeving voedt.

Aangepaste HTR-modellen getraind op historisch Pools handschrift en druk

Gestructureerde tekstexport met behoud van documentlay-out en annotaties

Corpus gebruikt voor diachronische linguïstische analyse van de Poolse taal

Lees de KorBa-casestudy

Historisch Pools handschrift — KorBa-corpusproject

Meertalig

100+ talen en schriften — met modellen getraind door de gemeenschap

Transkribus ondersteunt meer dan 100 talen en schriften, met 300+ publieke modellen die door onderzoekers over de hele wereld zijn getraind. Of u nu een corpus opbouwt van middeleeuwse Latijnse preken, vroegmodern Frans briefverkeer of 19e-eeuwse Devanagari-druk — er is waarschijnlijk een model waarmee u kunt beginnen. Anders traint u zelf een model op 50 pagina's.

Latijn, Duits, Frans, Engels, Nederlands, Italiaans, Spaans, Portugees en 90+ meer

Historische schriften: Kurrent, Sütterlin, Secretary Hand, Gotische textura, Karolingische minuskel

Niet-Latijns: Hebreeuws, Arabisch, Grieks, Cyrillisch, Devanagari en meer

Aangepaste modeltraining voor elk schrift of elke taal met 50+ pagina's grondwaarheid

Bekijk publieke modellen

Meertalige handschriftherkenningsmodellen

Begin met het opbouwen van uw corpus

Begin gratis met 50 credits per maand. Voor grootschalige corpusprojecten kunt u contact opnemen met ons team over institutionele plannen en onderzoekspartnerschappen.

Gratis beginnen Een gesprek inplannen

100+talen

300+publieke modellen

EU-hostingAVG-conform