Skip to content
  • Tarifs

Qu'est-ce que la reconnaissance d'écriture manuscrite (HTR) ?

La reconnaissance d'écriture manuscrite utilise l'apprentissage profond pour convertir les documents manuscrits en texte lisible par machine. Contrairement à l'OCR standard, la HTR est entraînée sur de véritables échantillons d'écriture et peut déchiffrer les écritures historiques, cursives et connectées que les systèmes à base de règles ne peuvent pas traiter.

HTR expliquéeComment ça marcheHTR vs OCRApplications

Glissez une image ici

Sélectionner un fichier...

PNG ou JPG jusqu'à 10 Mo

Wolpi
AI Assistant

En téléchargeant une image, vous acceptez nos conditions et notre politique de confidentialité.

Essayez maintenant — importez un document manuscrit et voyez la HTR en action. Utilisé dans plus de 500 universités dans le monde.

500 000+
Utilisateurs dans le monde
200 M+
Pages traitées
300+
Modèles HTR publics
100+
Langues et écritures

Le problème

Pourquoi l'OCR standard échoue sur l'écriture manuscrite

La reconnaissance optique de caractères (OCR) a été conçue pour le texte imprimé — des polices uniformes avec un espacement constant et des mises en page prévisibles. Appliqué aux documents manuscrits, l'OCR standard produit des résultats inexploitables. L'écriture manuscrite est intrinsèquement variable : les formes des lettres diffèrent d'un scripteur à l'autre, les caractères se connectent de manière imprévisible, et les écritures historiques comme Kurrent, Sütterlin ou Secretary Hand ne ressemblent guère à l'imprimé moderne. C'est le problème fondamental que la technologie de reconnaissance d'écriture manuscrite a été développée pour résoudre.
Les moteurs OCR standard attendent des formes de caractères uniformes — l'écriture manuscrite varie d'un scripteur à l'autre et même au sein d'une seule page
Les écritures connectées et cursives ne peuvent pas être segmentées en caractères individuels comme le texte imprimé
Les écritures historiques (ronde, bâtarde, Kurrent, Secretary Hand) utilisent des formes de lettres absentes des jeux d'entraînement OCR modernes
Les abréviations, ligatures et conventions de signes en exposant dans les manuscrits historiques n'ont pas d'équivalent dans l'imprimé
La dégradation des documents — encre estompée, transparence, rousseurs — amplifie le défi au-delà de ce que les systèmes à base de règles peuvent traiter
Comparaison : résultat OCR contre résultat HTR sur un document manuscrit

La solution

Comment fonctionne la HTR ? La reconnaissance d'écriture manuscrite par IA

La reconnaissance d'écriture manuscrite utilise des réseaux de neurones profonds — généralement une combinaison de réseaux de neurones convolutifs (CNN) et de réseaux de neurones récurrents (RNN) — pour apprendre les motifs visuels de l'écriture directement à partir d'exemples étiquetés. Plutôt que de s'appuyer sur des règles prédéfinies sur l'apparence des lettres, un modèle HTR est entraîné sur des milliers d'images associées à leurs transcriptions correctes (appelées 'vérité terrain'). Grâce à cet entraînement, le modèle apprend à reconnaître non seulement les caractères individuels, mais aussi les séquences de traits connectés, les formes contextuelles des lettres et les relations spatiales entre les éléments de texte sur une page.
L'analyse de mise en page détecte les régions de texte, les lignes et les éléments structurels (colonnes, tableaux, marginalia) sur la page
La segmentation en lignes isole les lignes de texte individuelles à partir de la mise en page détectée
Le réseau de neurones traite chaque image de ligne et prédit une séquence de caractères, en tenant compte du contexte des traits environnants
La modélisation linguistique et le post-traitement affinent le résultat, résolvant les caractères ambigus à l'aide de motifs statistiques
Des scores de confiance sont attribués à chaque caractère et ligne prédits, permettant une révision ciblée de la qualité
Document
Addres to dear Isabella on the Authors
recovery
O Isa pain did visit me
I was at the last extremity
How often did I think of you
I wished your graceful form to view
To clasp you in my weak embrace
Indeed I thought Id run my race
Good Care Im sure was of me taken
But indeed I was much shaken
At last I daily strength did gain

HTR vs OCR

Reconnaissance d'écriture manuscrite vs. reconnaissance optique de caractères

La HTR et l'OCR sont des technologies apparentées mais répondent à des défis fondamentalement différents. Comprendre cette distinction est important pour évaluer les outils de traitement de documents historiques.

FeatureHTR (Reconnaissance d’écriture manuscrite)OCR standard
Conçu pourTexte manuscrit et cursifTexte imprimé et dactylographié
Segmentation des caractèresNon requise — traite les traits connectés comme des séquencesNécessite l'isolation de chaque caractère
Écritures historiquesRonde, bâtarde, Kurrent, Secretary Hand, Copperplate et plus de 100 autresPrise en charge limitée ou inexistante
Approche d'entraînementApprentissage profond sur des échantillons d'écriture étiquetés (vérité terrain)Correspondance de motifs par règles ou modèles entraînés sur l'imprimé
AdaptabilitéDes modèles personnalisés peuvent être entraînés pour des mains ou écritures spécifiquesGénéralement figé — ne peut pas s'adapter à de nouvelles écritures
Précision sur l'écriture manuscriteGénéralement 90-98 % de précision par caractère avec des modèles entraînésSouvent inférieure à 50 % sur l'écriture cursive ou historique
Analyse de mise en pageGère les mises en page complexes : colonnes, tableaux, marginaliaBasique — suppose un flux de texte simple de gauche à droite
Écritures connectéesOui — arabe, hébreu, écritures latines cursivesLimitées ou non prises en charge
Documents dégradésRobuste — entraîné sur de vrais documents historiques endommagésLes performances se dégradent considérablement
Score de confianceScores de confiance par caractère et par ligneVariable — souvent absent ou peu fiable

Cette comparaison reflète les capacités générales des systèmes HTR (dont Transkribus) par rapport aux moteurs OCR standard. Les résultats spécifiques dépendent du type de document, du modèle choisi et de l'état du document.

Couverture

Quelles écritures, langues et périodes la HTR prend-elle en charge ?

Les plateformes HTR modernes — Transkribus en particulier — prennent en charge un éventail remarquablement large d'écritures, de langues et de périodes historiques. L'élément clé est la disponibilité de modèles entraînés. Les modèles HTR apprenant à partir d'exemples plutôt que de règles, toute écriture pour laquelle des données d'entraînement suffisantes existent peut être prise en charge. Transkribus propose plus de 300 modèles publics créés par des chercheurs et institutions du monde entier, couvrant des documents du IXe siècle à nos jours.
Écritures latines : variantes modernes et historiques incluant ronde, bâtarde, Kurrent, Sütterlin, Secretary Hand, Copperplate et cursive gothique
Écritures non latines : arabe, hébreu, grec, cyrillique, devanagari, chinois, japonais et plus — avec des modèles disponibles ou entraînables
Plus de 100 langues représentées dans le catalogue de modèles publics, du français et l'allemand au finnois, hongrois et turc ottoman
Période couverte des manuscrits médiévaux (IXe siècle) aux archives administratives de l'époque moderne jusqu'à la correspondance du XXe siècle
Documents multi-écritures : les modèles gèrent les pages contenant plusieurs écritures (par ex., en-têtes en latin avec corps de texte en Kurrent)
Exemples d'écritures manuscrites prises en charge par la HTR : Kurrent, arabe, Secretary Hand et plus

Utilisé dans les principales institutions de recherche du monde entier

Qui utilise la HTR

La technologie de reconnaissance d'écriture manuscrite en pratique

La HTR a dépassé le stade expérimental. C'est désormais un outil de production utilisé dans les sciences humaines, le patrimoine culturel et les sciences de l'information. Les chercheurs l'utilisent pour constituer des corpus interrogeables à partir de collections de manuscrits. Les archives l'utilisent pour traiter les arriérés de fonds non numérisés. Les bibliothèques l'utilisent pour rendre les collections spéciales accessibles. La technologie est particulièrement transformatrice dans les contextes où le volume de matériaux manuscrits rend la transcription manuelle économiquement impossible.
Chercheurs en humanités numériques transcrivant de la correspondance, des journaux intimes et des manuscrits littéraires pour des éditions savantes
Archives nationales et municipales traitant des documents administratifs, judiciaires et des registres civiques à grande échelle
Bibliothèques et collections spéciales rendant les instruments de recherche et les notices de catalogue interrogeables et accessibles
Généalogistes lisant des registres paroissiaux, des recensements et des actes d'état civil en écritures historiques
Projets de patrimoine culturel numérisant des collections de manuscrits menacées avant leur détérioration physique
Historical notarial document — one of many document types HTR handles in practice

Au-delà de la reconnaissance

Le pipeline complet : du document manuscrit aux données structurées

La reconnaissance d'écriture manuscrite n'est qu'une étape d'un pipeline de traitement documentaire plus large. Un flux de travail complet commence par la numérisation (scan ou photographie), passe par l'analyse de mise en page et la reconnaissance de texte, puis se poursuit avec le post-traitement : reconnaissance d'entités, extraction de métadonnées, export structuré et publication. Transkribus intègre toutes ces étapes dans une plateforme unique, afin que les chercheurs n'aient pas à assembler des outils séparés pour chaque étape.
Analyse de mise en page : détection automatique des régions de texte, colonnes, tableaux, en-têtes et marginalia
Reconnaissance de texte : la HTR convertit les lignes de texte détectées en caractères lisibles par machine
Entraînement de modèles personnalisés : affinez les modèles sur votre type de manuscrit spécifique pour une précision accrue
Reconnaissance et balisage d'entités : identification des personnes, lieux, dates et autres entités nommées dans le texte transcrit
Export en TEI-XML, PAGE XML, ALTO XML, PDF interrogeable ou texte brut — prêt pour l'analyse, la publication ou l'intégration archivistique
Le pipeline complet de traitement documentaire : du scan aux données structurées

Questions fréquentes sur la reconnaissance d'écriture manuscrite

L'OCR (Optical Character Recognition) a été conçu pour le texte imprimé et fonctionne en associant les formes de caractères individuels à des polices connues. La HTR (Handwritten Text Recognition) utilise l'apprentissage profond pour traiter l'écriture manuscrite connectée et variable comme des séquences de traits plutôt que des caractères isolés. La HTR gère les écritures cursives, les mains historiques et la variation naturelle inhérente à l'écriture manuscrite — des tâches pour lesquelles l'OCR standard échoue généralement. En résumé : l'OCR lit l'imprimé, la HTR lit l'écriture manuscrite.
Les modèles HTR sont entraînés sur des jeux de données appariés appelés 'vérité terrain' : des images de texte manuscrit alignées avec leurs transcriptions correctes. Le réseau de neurones apprend à associer les motifs visuels de l'écriture à des séquences de caractères. L'entraînement nécessite généralement 50 à 100 pages transcrites pour un modèle personnalisé, bien que des jeux de données plus importants améliorent la précision. Le modèle apprend non seulement les formes des lettres mais aussi les motifs contextuels — comment les caractères se connectent, les abréviations courantes et les conventions propres à chaque écriture.
La précision est mesurée par le taux d'erreur par caractère (CER) — le pourcentage de caractères qui diffèrent entre la sortie HTR et le texte correct. Des modèles bien entraînés sur des écritures lisibles atteignent couramment un CER inférieur à 5 % (plus de 95 % de précision par caractère). Les documents difficiles — très endommagés, estompés ou en écritures inhabituelles — peuvent donner un CER de 10-15 % avant entraînement personnalisé. Après l'affinage d'un modèle sur votre type de document spécifique, la précision s'améliore généralement de manière significative.
La HTR fonctionne sur pratiquement tout document manuscrit pour lequel un modèle entraîné existe ou peut être créé : lettres, journaux intimes, registres paroissiaux, archives judiciaires, dossiers administratifs, recensements, cahiers scientifiques, manuscrits littéraires, actes fonciers et bien plus. Elle traite également les documents mixtes contenant à la fois de l'imprimé et de l'écriture manuscrite. L'exigence principale est un modèle entraîné sur un type d'écriture et de document similaire.
Transkribus, la principale plateforme HTR, offre 50 crédits gratuits chaque mois — suffisants pour traiter environ 50 pages. Aucune carte bancaire n'est requise pour commencer. Des forfaits payants sont disponibles pour les chercheurs et institutions traitant de plus gros volumes. Consultez les offres et tarifs pour plus de détails.
Le traitement d'une seule page prend généralement 15 à 30 secondes, selon la complexité du document et le modèle utilisé. Le traitement par lots permet de mettre en file d'attente et de traiter automatiquement des centaines ou des milliers de pages. Un manuscrit de 500 pages peut être transcrit en moins d'une heure — un travail qui prendrait des semaines ou des mois à la main.
Transkribus propose plus de 300 modèles HTR publics couvrant plus de 100 langues et écritures. Ceux-ci incluent les langues à écriture latine (anglais, allemand, français, espagnol, néerlandais, suédois et bien d'autres), ainsi que l'arabe, l'hébreu, le grec, le cyrillique et d'autres systèmes d'écriture. Les écritures historiques comme Kurrent, Sütterlin, Secretary Hand et Copperplate sont bien représentées. Si un modèle pour votre écriture spécifique n'existe pas, vous pouvez entraîner un modèle personnalisé.
EUAT

Conçu pour la recherche. Hébergé en Europe. Ouvert et coopératif.

Transkribus est développé et hébergé par READ-COOP SCE, une coopérative européenne de plus de 250 institutions. Vos données restent les vôtres.

Vos données restent les vôtres

Propriété totale. Suppression à tout moment.

Hébergé en Autriche, UE

Traitement sur nos propres serveurs. Conforme au RGPD. Aucune dépendance cloud tierce.

Coopérative, pas une startup

Des milliers d'archives, bibliothèques et universités comme copropriétaires. Construit pour des décennies, pas pour une sortie de capital-risque.

La HTR en action

Explorez les guides par cas d'utilisation

Découvrez comment la HTR est appliquée à de vrais documents : Registres paroissiaux · Recensements · Manuscrits médiévaux · Réduction des arriérés d'archives · Créer des PDF interrogeables
Applications concrètes de la HTR

Prêt à essayer la reconnaissance d'écriture manuscrite ?

Créez un compte gratuit et traitez vos premiers documents avec Transkribus. 50 crédits gratuits chaque mois — aucune carte bancaire requise.

Utilisé dans plus de 500 universités et institutions de recherche

200 M+Pages traitées
500 000+Utilisateurs dans le monde
300+Modèles HTR publics