Skip to content
  • Tarifs

Constituez des corpus de textes à partir de documents historiques.

La linguistique historique et la recherche sur corpus reposent sur du texte lisible par machine — et ce texte doit bien venir de quelque part. Transkribus convertit les documents manuscrits et imprimés en texte structuré avec un balisage XML qui préserve la mise en page, les marginalia, les suppressions et d'autres caractéristiques dont les linguistes ont besoin. Ensuite, exportez vers vos outils de corpus.

Transcription de textes historiques pour la constitution de corpus
100+langues et systèmes d'écriture
300+modèles entraînés par la communauté
XMLexport de texte structuré

Ce que vous obtenez pour le travail sur corpus

Une sortie de texte qui préserve les caractéristiques dont les linguistes et les chercheurs en corpus ont besoin.

Éditeur de transcription avec balisage structurel

Texte structuré avec balisage de mise en page

En-têtes, colonnes, marginalia, notes de bas de page, suppressions, insertions — l'export XML préserve la structure du document qui compte pour l'analyse linguistique. Pas seulement un vidage de texte brut.

Recherche plein texte dans le corpus

Consultable sur l'ensemble de la collection

Une fois transcrits, vos documents sont consultables en plein texte. Trouvez des formes de mots, des variantes orthographiques et des motifs sur des milliers de pages — un concordancier pour votre corpus de manuscrits.

Export vers des outils NLP et de corpus

Export pour l'analyse en aval

Exportez en texte brut, TEI-XML, PAGE XML ou ALTO XML. Alimentez votre pipeline NLP, votre concordancier ou votre outil d'annotation de corpus. Le balisage structuré est conservé.

Étude de cas

KorBa : constitution d'un corpus numérique de textes polonais des XVIIe–XVIIIe siècles

Le projet KorBa de l'Académie polonaise des sciences utilise Transkribus pour constituer un corpus linguistique de grande envergure à partir de textes polonais historiques des XVIIe et XVIIIe siècles. Le projet entraîne des modèles personnalisés sur les écritures manuscrites et imprimées propres à cette époque, puis traite des collections entières de manuscrits en texte lisible par machine, qui alimente la plateforme d'analyse de corpus.
Modèles HTR personnalisés entraînés sur l'écriture manuscrite et l'imprimé polonais historiques
Export de texte structuré préservant la mise en page du document et les annotations
Corpus utilisé pour l'analyse linguistique diachronique de la langue polonaise
Manuscrit polonais historique — projet de corpus KorBa

Multilingue

Plus de 100 langues et systèmes d'écriture — avec des modèles entraînés par la communauté

Transkribus prend en charge plus de 100 langues et systèmes d'écriture, avec 300+ modèles publics entraînés par des chercheurs du monde entier. Que vous constituiez un corpus de sermons latins médiévaux, de correspondances françaises du début de la période moderne ou d'imprimés devanagari du XIXe siècle — il existe probablement un modèle par lequel commencer. Sinon, entraînez le vôtre en 50 pages.
Latin, allemand, français, anglais, néerlandais, italien, espagnol, portugais et plus de 90 autres langues
Écritures historiques : Kurrent, Sütterlin, Secretary Hand, gothique textura, minuscule caroline
Non-latin : hébreu, arabe, grec, cyrillique, devanagari, et plus encore
Entraînement de modèles personnalisés pour toute écriture ou langue à partir de 50+ pages de vérité terrain
Modèles de reconnaissance d'écriture manuscrite multilingues

Commencez à construire votre corpus

Commencez gratuitement avec 50 crédits par mois. Pour les projets de corpus à grande échelle, contactez notre équipe pour les formules institutionnelles et les partenariats de recherche.

100+langues
300+modèles publics
Hébergé en UEconforme au RGPD