Skip to content
  • Tarifs

Transcrire des manuscrits médiévaux : reconnaissance d'écriture par IA pour les écritures historiques

Textura gothique, minuscule caroline, bâtarde, bénéventaine et plus encore — la HTR par IA transforme des mois de transcription manuelle en quelques heures, avec export TEI-XML pour les éditions critiques.

Écritures médiévalesTextura gothiqueModèles personnalisésEssai gratuit

Glissez une image ici

Sélectionner un fichier...

PNG ou JPG jusqu'à 10 Mo

Wolpi
AI Assistant

En téléchargeant une image, vous acceptez nos conditions et notre politique de confidentialité.

Utilisé par 500 000+ utilisateurs dans le monde — 200 M+ pages traitées

500 000+Utilisateurs dans le monde
200 M+Pages traitées
300+Modèles IA publics
500+Universités et institutions de recherche

Le défi

Pourquoi la reconnaissance d'écriture médiévale exige des outils spécialisés

Les manuscrits médiévaux présentent des défis qu'aucun système OCR généraliste ne peut relever. Les écritures elles-mêmes constituent la première barrière : un codex en minuscule caroline du XIIe siècle ne partage presque aucune caractéristique visuelle avec une charte en bastarda du XVe siècle. Mais les difficultés vont bien au-delà des formes de lettres. Les copistes médiévaux utilisaient des systèmes d'abréviations extensifs — signes de suspension, traits de contraction, notes tironiennes et symboles spécialisés pour les mots latins courants — qui compressent le texte de 30 à 40 %. Les ligatures fusionnent les caractères de manières qui varient selon le scriptorium et le copiste. Le parchemin endommagé, l'encre ferro-gallique effacée, les palimpsestes et les gloses marginales ajoutent une complexité supplémentaire. L'OCR standard, entraîné sur du texte imprimé, ne produit aucun résultat exploitable sur ces matériaux.
Systèmes d'abréviations : suspension, contraction, lettres en exposant, notes tironiennes — l'OCR standard n'a aucun cadre pour les interpréter
Diversité des écritures : textura gothique, rotunda, cursiva, minuscule caroline, bénéventaine, insulaire, bâtarde — chacune nécessite des modèles de reconnaissance distincts
Ligatures et fusions de lettres varient selon le scriptorium, la période et le copiste individuel
Dommages physiques : trous dans le parchemin, effacement de l'encre, palimpsestes, taches d'eau et reliure masquant le texte près de la gouttière
Texte multicouche : gloses marginales, ajouts interlinéaires, corrections et rubrication nécessitent une analyse de mise en page sophistiquée
Exemples d'abréviations et ligatures dans les écritures de manuscrits médiévaux

La solution

Comment Transkribus transcrit les documents médiévaux avec la HTR

Transkribus utilise la reconnaissance d'écriture manuscrite (HTR) — des modèles d'apprentissage profond entraînés sur des pages de manuscrits transcrits — plutôt que la correspondance de modèles de caractères. Cette approche est fondamentalement adaptée aux écritures médiévales car elle apprend des motifs holistiques de mots et de lignes, pas des formes de caractères isolées. Le dépôt de modèles publics de la plateforme comprend des modèles entraînés sur des écritures médiévales spécifiques par des chercheurs qui travaillent quotidiennement avec ces matériaux. Lorsqu'aucun modèle existant ne convient à votre collection, Transkribus vous permet d'entraîner un modèle HTR personnalisé sur vos propres données de vérité terrain, produisant un moteur de reconnaissance calibré pour un copiste, un scriptorium ou un type de document spécifique.
Modèles HTR publics pour la textura gothique, la minuscule caroline, la bâtarde et d'autres écritures médiévales majeures — prêts à l'emploi
Entraînement de modèle personnalisé : fournissez 50 à 100 pages de vérité terrain et entraînez un modèle pour la main spécifique de votre manuscrit
L'analyse de mise en page gère les pages multi-colonnes, les gloses marginales, la rubrication et le texte interlinéaire
Le développement des abréviations peut être intégré à l'entraînement du modèle pour des transcriptions entièrement résolues
Exportez en TEI-XML avec des coordonnées au niveau des mots et des scores de confiance pour les éditions savantes numériques
Document
Addres to dear Isabella on the Authors
recovery
O Isa pain did visit me
I was at the last extremity
How often did I think of you
I wished your graceful form to view
To clasp you in my weak embrace
Indeed I thought Id run my race
Good Care Im sure was of me taken
But indeed I was much shaken
At last I daily strength did gain

De l'image du manuscrit à l'édition TEI-XML en 4 étapes

Importer les images du manuscrit

Importez des scans haute résolution ou des photographies de folios de manuscrits. Transkribus accepte les formats TIFF, JPG, PNG et PDF. Organisez par codex, cahier ou collection.

Sélectionner ou entraîner un modèle HTR

Choisissez parmi les modèles publics entraînés sur les écritures médiévales, ou entraînez un modèle personnalisé sur votre propre vérité terrain. Pour de meilleurs résultats sur une main de manuscrit spécifique, 50 à 100 pages transcrites suffisent.

Lancer l'analyse de mise en page et la reconnaissance

Transkribus détecte automatiquement les régions de texte, les lignes de base, les colonnes et les zones marginales. La HTR traite chaque ligne détectée et renvoie la transcription avec des scores de confiance par ligne.

Réviser, corriger et exporter

Révisez la transcription dans l'éditeur intégré en regard de l'image du manuscrit. Corrigez les erreurs, ajoutez le balisage TEI, puis exportez en TEI-XML, PAGE XML, ALTO ou texte brut pour votre édition ou corpus.

Modèles et écritures

De la textura gothique à la bâtarde : modèles publics pour la paléographie médiévale

Le répertoire de modèles publics de Transkribus comprend des modèles HTR créés par des chercheurs en études médiévales et des projets d'humanités numériques du monde entier. Ces modèles couvrent les grandes familles d'écritures rencontrées dans les traditions manuscrites européennes du VIIIe au XVIe siècle. Chaque modèle étant entraîné sur de véritables pages de manuscrits — et non sur des données synthétiques —, il reflète la variation réelle des mains de copistes, des conventions régionales et des pratiques d'abréviation propres à chaque période.
Textura gothique (textualis formata et libraria) : manuscrits liturgiques et littéraires latins, XIIe-XVe siècle
Minuscule caroline : codex de l'époque carolingienne, IXe-XIIe siècle — la base des écritures européennes ultérieures
Écriture bénéventaine : manuscrits du sud de l'Italie et de Dalmatie, VIIIe-XIIIe siècle
Écritures insulaires (majuscule et minuscule insulaires) : manuscrits irlandais et anglo-saxons, VIe-IXe siècle
Bâtarde et hybrida : manuscrits administratifs et littéraires du bas Moyen Âge, XIVe-XVIe siècle
Entraînement de modèles personnalisés pour toute écriture non couverte par les modèles publics existants
Exemples de types d'écritures médiévales pris en charge par les modèles HTR de Transkribus

Entraînement personnalisé

Entraînez un modèle HTR personnalisé pour votre collection de manuscrits

Aucune collection de manuscrits médiévaux ne ressemble à une autre. Un registre notarial provençal du XIVe siècle utilise une main différente de celle d'un psautier bohémien du XIVe siècle, même si les deux relèvent de la 'cursive gothique'. Transkribus vous permet d'entraîner un modèle HTR personnalisé sur votre propre vérité terrain transcrite, produisant un moteur de reconnaissance précisément calibré pour vos documents. C'est ainsi que les équipes de recherche atteignent la meilleure précision — en combinant l'expertise paléographique du domaine avec l'apprentissage automatique.
Commencez avec 50 à 100 pages de vérité terrain transcrites manuellement à partir de votre manuscrit
Le processus d'entraînement prend généralement quelques heures et peut être lancé depuis l'interface Transkribus
Les modèles entraînés peuvent résoudre les abréviations de copistes si votre vérité terrain inclut les formes développées
Affinez un modèle public existant sur vos données pour une convergence plus rapide et moins de pages d'entraînement
Partagez votre modèle entraîné avec la communauté de recherche ou gardez-le privé pour votre projet
Flux d'entraînement de modèles HTR personnalisés pour les manuscrits médiévaux

Questions fréquemment posées

Transkribus dispose de modèles HTR publics pour les principales familles d'écritures médiévales, y compris la textura gothique (textualis), la minuscule caroline, la bénéventaine, l'insulaire (majuscule et minuscule), la bastarda, l'hybrida et diverses cursives régionales. Le catalogue de modèles est continuellement enrichi par la communauté de recherche. Pour les écritures non encore couvertes, vous pouvez entraîner un modèle personnalisé sur vos propres données de vérité terrain.
La précision varie considérablement selon l'écriture, l'état du manuscrit et le modèle utilisé. Sur une textura gothique bien conservée avec un modèle adapté, des taux d'erreur par caractère de 3 à 5 % sont atteignables. Les matériaux plus difficiles — parchemin endommagé, texte fortement abrégé, mains inhabituelles — peuvent commencer à 10-15 % d'erreur avec un modèle public et s'améliorer substantiellement avec un entraînement de modèle personnalisé. Chaque ligne inclut un score de confiance pour une révision ciblée.
Transcrivez 50 à 100 pages représentatives de votre manuscrit à l'aide de l'éditeur Transkribus. Ces données de vérité terrain servent d'entrée d'entraînement. Lancez le processus d'entraînement depuis l'interface — il dure généralement quelques heures. Le modèle résultant est spécifique à la main du copiste de votre manuscrit, son système d'abréviations et sa mise en page. Vous pouvez améliorer le modèle de manière itérative en ajoutant plus de vérité terrain.
Cela dépend de la préparation de votre vérité terrain. Si vos données d'entraînement développent les abréviations (par exemple, transcrire le signe de suspension au-dessus de 'dn' comme 'dominus'), le modèle apprend à produire les formes développées. Si votre vérité terrain préserve les signes d'abréviation en caractères Unicode, le modèle les reproduit. De nombreux chercheurs entraînent deux modèles — un pour la transcription diplomatique et un pour la transcription développée — selon leur méthodologie éditoriale.
Oui. Transkribus prend en charge l'exportation TEI-XML avec des coordonnées au niveau des mots, des scores de confiance et un balisage structurel. Cette sortie peut être intégrée dans des cadres d'édition numérique tels qu'EVT (Edition Visualization Technology) ou utilisée comme entrée pour des outils de collation comme CollateX. Les exports PAGE XML et ALTO XML sont également disponibles pour d'autres flux de travail en aval.
Le moteur d'analyse de mise en page détecte les régions de texte même sur les pages comportant des trous, des taches ou des sections manquantes. Pour les zones endommagées, le modèle HTR produit une sortie avec des scores de confiance plus faibles, signalant clairement les lectures incertaines. Les chercheurs peuvent marquer les lacunes dans l'éditeur et exclure les régions endommagées du traitement. Le système ne fabrique pas de texte là où rien n'est lisible.
Transkribus fournit un format de citation recommandé dans sa documentation. En général, vous citez la plateforme (Transkribus, développé à l'Université d'Innsbruck), le modèle HTR spécifique utilisé (y compris son identifiant et sa version) et la date de traitement. Cela garantit la reproductibilité — un autre chercheur peut appliquer le même modèle pour vérifier vos transcriptions. La liste de publications de READ-COOP comprend les articles de référence principaux.

Conçu pour la recherche. Hébergé en Europe. Gouverné par la communauté.

Transkribus est développé et exploité par la READ-COOP, une coopérative européenne de plus de 250 institutions de recherche, archives et bibliothèques.

Vos données restent les vôtres

Propriété totale de tous les documents importés et des transcriptions générées. Supprimez à tout moment.

Hébergé en Autriche, UE

Traitement sur nos propres serveurs. Conforme au RGPD. Aucune dépendance cloud tierce.

Coopérative, pas une startup

Des milliers d'archives, bibliothèques et universités comme copropriétaires. Construit pour des décennies, pas pour une sortie de capital-risque.

Ressources associées

Plus pour les chercheurs

Résultats du pipeline de recherche

Prêt à accélérer la transcription de vos manuscrits ?

Rejoignez plus de 500 universités qui utilisent déjà Transkribus pour la reconnaissance d'écriture manuscrite. Commencez avec des crédits gratuits et explorez les modèles publics pour les écritures médiévales.

50 crédits gratuits par mois — Aucune carte bancaire requise

200 M+Pages traitées
500+Universités utilisant Transkribus
300+Modèles IA publics