Bouw tekstcorpora van historische documenten.
Historische taalkunde en corpusonderzoek zijn afhankelijk van machineleesbare tekst — en die tekst moet ergens vandaan komen. Transkribus converteert handgeschreven en gedrukte documenten naar gestructureerde tekst met XML-opmaak die lay-out, marginalia, doorhalingen en andere kenmerken bewaart die linguïsten nodig hebben. Van daaruit exporteert u naar uw corpustools.

Wat u krijgt voor corpuswerk
Tekstuitvoer die de kenmerken bewaart die linguïsten en corpusonderzoekers nodig hebben.

Gestructureerde tekst met lay-outopmaak
Koppen, kolommen, marginalia, voetnoten, doorhalingen, invoegingen — de XML-export bewaart de documentstructuur die voor linguïstische analyse van belang is. Geen platte tekstdump.

Doorzoekbaar in de gehele collectie
Zodra getranscribeerd zijn uw documenten volledig doorzoekbaar. Vind woordvormen, spellingsvarianten en patronen over duizenden pagina's — een concordantier voor uw handschriftencorpus.

Exporteren voor vervolganalyse
Exporteer als platte tekst, TEI-XML, PAGE XML of ALTO XML. Voer in uw NLP-pijplijn, concordantier of corpusannotatietool. De gestructureerde opmaak blijft behouden.
Casestudy
KorBa: Een digitaal corpus van 17e–18e-eeuwse Poolse teksten opbouwen

Meertalig
100+ talen en schriften — met modellen getraind door de gemeenschap

Begin met het opbouwen van uw corpus
Begin gratis met 50 credits per maand. Voor grootschalige corpusprojecten kunt u contact opnemen met ons team over institutionele plannen en onderzoekspartnerschappen.