Constituez des corpus de textes à partir de documents historiques.
La linguistique historique et la recherche sur corpus reposent sur du texte lisible par machine — et ce texte doit bien venir de quelque part. Transkribus convertit les documents manuscrits et imprimés en texte structuré avec un balisage XML qui préserve la mise en page, les marginalia, les suppressions et d'autres caractéristiques dont les linguistes ont besoin. Ensuite, exportez vers vos outils de corpus.

Ce que vous obtenez pour le travail sur corpus
Une sortie de texte qui préserve les caractéristiques dont les linguistes et les chercheurs en corpus ont besoin.

Texte structuré avec balisage de mise en page
En-têtes, colonnes, marginalia, notes de bas de page, suppressions, insertions — l'export XML préserve la structure du document qui compte pour l'analyse linguistique. Pas seulement un vidage de texte brut.

Consultable sur l'ensemble de la collection
Une fois transcrits, vos documents sont consultables en plein texte. Trouvez des formes de mots, des variantes orthographiques et des motifs sur des milliers de pages — un concordancier pour votre corpus de manuscrits.

Export pour l'analyse en aval
Exportez en texte brut, TEI-XML, PAGE XML ou ALTO XML. Alimentez votre pipeline NLP, votre concordancier ou votre outil d'annotation de corpus. Le balisage structuré est conservé.
Étude de cas
KorBa : constitution d'un corpus numérique de textes polonais des XVIIe–XVIIIe siècles

Multilingue
Plus de 100 langues et systèmes d'écriture — avec des modèles entraînés par la communauté

Commencez à construire votre corpus
Commencez gratuitement avec 50 crédits par mois. Pour les projets de corpus à grande échelle, contactez notre équipe pour les formules institutionnelles et les partenariats de recherche.