Skip to content
  • Prijzen

Bouw tekstcorpora van historische documenten.

Historische taalkunde en corpusonderzoek zijn afhankelijk van machineleesbare tekst — en die tekst moet ergens vandaan komen. Transkribus converteert handgeschreven en gedrukte documenten naar gestructureerde tekst met XML-opmaak die lay-out, marginalia, doorhalingen en andere kenmerken bewaart die linguïsten nodig hebben. Van daaruit exporteert u naar uw corpustools.

Historische teksttranscriptie voor corpusbouw
100+talen en schriften
300+door de gemeenschap getrainde modellen
XMLgestructureerde tekstexport

Wat u krijgt voor corpuswerk

Tekstuitvoer die de kenmerken bewaart die linguïsten en corpusonderzoekers nodig hebben.

Transcriptieeditor met structurele opmaak

Gestructureerde tekst met lay-outopmaak

Koppen, kolommen, marginalia, voetnoten, doorhalingen, invoegingen — de XML-export bewaart de documentstructuur die voor linguïstische analyse van belang is. Geen platte tekstdump.

Volledige tekst doorzoeken in corpus

Doorzoekbaar in de gehele collectie

Zodra getranscribeerd zijn uw documenten volledig doorzoekbaar. Vind woordvormen, spellingsvarianten en patronen over duizenden pagina's — een concordantier voor uw handschriftencorpus.

Exporteren naar NLP- en corpustools

Exporteren voor vervolganalyse

Exporteer als platte tekst, TEI-XML, PAGE XML of ALTO XML. Voer in uw NLP-pijplijn, concordantier of corpusannotatietool. De gestructureerde opmaak blijft behouden.

Casestudy

KorBa: Een digitaal corpus van 17e–18e-eeuwse Poolse teksten opbouwen

Het KorBa-project aan de Poolse Academie van Wetenschappen gebruikt Transkribus om een grootschalig linguïstisch corpus van historische Poolse teksten uit de 17e en 18e eeuw op te bouwen. Het project traint aangepaste modellen op periodespe­cifiek handschrift en druk, en verwerkt vervolgens volledige handschriftencollecties in machineleesbare tekst die de corpusanalyse­omgeving voedt.
Aangepaste HTR-modellen getraind op historisch Pools handschrift en druk
Gestructureerde tekstexport met behoud van documentlay-out en annotaties
Corpus gebruikt voor diachronische linguïstische analyse van de Poolse taal
Historisch Pools handschrift — KorBa-corpusproject

Meertalig

100+ talen en schriften — met modellen getraind door de gemeenschap

Transkribus ondersteunt meer dan 100 talen en schriften, met 300+ publieke modellen die door onderzoekers over de hele wereld zijn getraind. Of u nu een corpus opbouwt van middeleeuwse Latijnse preken, vroegmodern Frans briefverkeer of 19e-eeuwse Devanagari-druk — er is waarschijnlijk een model waarmee u kunt beginnen. Anders traint u zelf een model op 50 pagina's.
Latijn, Duits, Frans, Engels, Nederlands, Italiaans, Spaans, Portugees en 90+ meer
Historische schriften: Kurrent, Sütterlin, Secretary Hand, Gotische textura, Karolingische minuskel
Niet-Latijns: Hebreeuws, Arabisch, Grieks, Cyrillisch, Devanagari en meer
Aangepaste modeltraining voor elk schrift of elke taal met 50+ pagina's grondwaarheid
Meertalige handschriftherken­nings­modellen

Begin met het opbouwen van uw corpus

Begin gratis met 50 credits per maand. Voor grootschalige corpusprojecten kunt u contact opnemen met ons team over institutionele plannen en onderzoekspartnerschappen.

100+talen
300+publieke modellen
EU-hostingAVG-conform