Constituez des corpus de textes à partir de documents historiques.

La linguistique historique et la recherche sur corpus reposent sur du texte lisible par machine — et ce texte doit bien venir de quelque part. Transkribus convertit les documents manuscrits et imprimés en texte structuré avec un balisage XML qui préserve la mise en page, les marginalia, les suppressions et d'autres caractéristiques dont les linguistes ont besoin. Ensuite, exportez vers vos outils de corpus.

Commencer gratuitement Comment fonctionne la reconnaissance de texte

Transcription de textes historiques pour la constitution de corpus

100+langues et systèmes d'écriture

300+modèles entraînés par la communauté

XMLexport de texte structuré

Éditeur de transcription avec balisage structurel

Texte structuré avec balisage de mise en page

En-têtes, colonnes, marginalia, notes de bas de page, suppressions, insertions — l'export XML préserve la structure du document qui compte pour l'analyse linguistique. Pas seulement un vidage de texte brut.

Consultable sur l'ensemble de la collection

Une fois transcrits, vos documents sont consultables en plein texte. Trouvez des formes de mots, des variantes orthographiques et des motifs sur des milliers de pages — un concordancier pour votre corpus de manuscrits.

Export pour l'analyse en aval

Exportez en texte brut, TEI-XML, PAGE XML ou ALTO XML. Alimentez votre pipeline NLP, votre concordancier ou votre outil d'annotation de corpus. Le balisage structuré est conservé.

Étude de cas

KorBa : constitution d'un corpus numérique de textes polonais des XVIIe–XVIIIe siècles

Le projet KorBa de l'Académie polonaise des sciences utilise Transkribus pour constituer un corpus linguistique de grande envergure à partir de textes polonais historiques des XVIIe et XVIIIe siècles. Le projet entraîne des modèles personnalisés sur les écritures manuscrites et imprimées propres à cette époque, puis traite des collections entières de manuscrits en texte lisible par machine, qui alimente la plateforme d'analyse de corpus.

Modèles HTR personnalisés entraînés sur l'écriture manuscrite et l'imprimé polonais historiques

Export de texte structuré préservant la mise en page du document et les annotations

Corpus utilisé pour l'analyse linguistique diachronique de la langue polonaise

Lire l'étude de cas KorBa

Manuscrit polonais historique — projet de corpus KorBa

Multilingue

Plus de 100 langues et systèmes d'écriture — avec des modèles entraînés par la communauté

Transkribus prend en charge plus de 100 langues et systèmes d'écriture, avec 300+ modèles publics entraînés par des chercheurs du monde entier. Que vous constituiez un corpus de sermons latins médiévaux, de correspondances françaises du début de la période moderne ou d'imprimés devanagari du XIXe siècle — il existe probablement un modèle par lequel commencer. Sinon, entraînez le vôtre en 50 pages.

Latin, allemand, français, anglais, néerlandais, italien, espagnol, portugais et plus de 90 autres langues

Écritures historiques : Kurrent, Sütterlin, Secretary Hand, gothique textura, minuscule caroline

Non-latin : hébreu, arabe, grec, cyrillique, devanagari, et plus encore

Entraînement de modèles personnalisés pour toute écriture ou langue à partir de 50+ pages de vérité terrain

Parcourir les modèles publics

Modèles de reconnaissance d'écriture manuscrite multilingues

Commencez à construire votre corpus

Commencez gratuitement avec 50 crédits par mois. Pour les projets de corpus à grande échelle, contactez notre équipe pour les formules institutionnelles et les partenariats de recherche.

Commencer gratuitement Prendre rendez-vous

100+langues

300+modèles publics

Hébergé en UEconforme au RGPD