Guide méthodologique

Comment intégrer la reconnaissance d'écriture manuscrite dans votre dossier de subvention

Un guide pas à pas pour défendre l'intégration du HTR dans votre demande de financement de recherche — de la description méthodologique et la justification budgétaire aux références et à la planification de la gestion des données. Pour l'ANR, l'ERC, Horizon Europe, Collex-Persée, la BnF, le FNS, le FWF et autres financeurs de la recherche.

10 min de lecture

1.Pourquoi intégrer le HTR dans votre méthodologie

La reconnaissance d'écriture manuscrite (HTR) est passée du stade expérimental à celui de méthode de recherche établie, employée dans l'ensemble des sciences humaines et sociales. Des centaines de publications évaluées par les pairs citent désormais la transcription assistée par IA comme élément central de leur méthodologie, et les principaux organismes de financement — dont l'ERC, la DFG, le NEH, l'AHRC, le FNS, le FWF et l'ANR — ont attribué des subventions à des projets qui s'appuient sur cette technologie.

L'argumentaire méthodologique en faveur du HTR repose sur trois piliers :

Efficacité. La transcription automatisée traite les pages en quelques secondes, contre les 15 à 60 minutes requises pour une transcription manuelle, rendant ainsi réalisable le travail sur de vastes corpus dans les délais habituels d'un projet financé.
Reproductibilité. Un modèle entraîné produit un résultat identique sur la même entrée à chaque exécution. Ce comportement déterministe constitue un avantage significatif par rapport à la transcription manuelle, où l'accord inter-annotateurs est imparfait.
Mesurabilité. La qualité de la reconnaissance est quantifiée au moyen du Character Error Rate (CER), une métrique objective calculée sur des données de test non vues lors de l'entraînement. Cela fournit aux évaluateurs — et à l'équipe de recherche — un indicateur de qualité concret et vérifiable.

Intégrer le HTR dans votre méthodologie signale que votre projet mobilise des méthodes numériques de pointe tout en maintenant un contrôle qualité rigoureux. Cela démontre également une prise en compte des contraintes de passage à l'échelle, un point qui préoccupe fréquemment les évaluateurs confrontés à de vastes corpus documentaires.

2.Décrire le flux de travail Transkribus

Les demandes de financement exigent une description claire et techniquement précise de vos outils et méthodes. Transkribus est une plateforme de reconnaissance d'écriture manuscrite et imprimée par intelligence artificielle, développée et exploitée par READ-COOP SCE, une coopérative européenne comptant plus de 250 membres institutionnels, dont des archives départementales, des bibliothèques et des universités.

Le flux de travail standard comprend quatre étapes :

Téléversement. Les images de documents (numérisations, photographies ou PDF) sont téléversées sur la plateforme. Transkribus accepte tous les formats d'image courants et gère les envois par lot pour les grandes collections.
Reconnaissance de texte. Un modèle d'IA — sélectionné parmi plus de 300 modèles publics ou entraîné sur mesure à partir de votre matériel — effectue la transcription automatique. L'analyse de mise en page détecte les régions de texte, les lignes de base et les éléments structurels tels que les tableaux.
Correction manuelle. L'équipe de recherche vérifie et corrige les résultats automatiques dans un éditeur intégré. Cette étape produit des données de Ground Truth qui peuvent également servir à améliorer les modèles par entraînement complémentaire.
Export. Les transcriptions corrigées sont exportées dans des formats normalisés (PAGE XML, ALTO XML, TEI, texte brut, PDF interrogeable) pour intégration dans des bases de données, des entrepôts de données ou des chaînes d'analyse.

Pour les projets traitant du matériel sensible ou à accès restreint, Transkribus propose un déploiement sur site : l'ensemble de la plateforme fonctionne sur l'infrastructure de votre institution, garantissant que les documents ne quittent jamais vos serveurs. Cette option est particulièrement pertinente pour les archives soumises à des restrictions légales de transfert de données.

3.Calculer le temps et les coûts

Une planification budgétaire rigoureuse est indispensable à la crédibilité d'une demande de financement. Transkribus utilise un système de crédits pour la reconnaissance de texte, le nombre de crédits consommés dépendant du nombre de pages et du type de traitement appliqué.

Estimation des coûts de reconnaissance :

Les crédits sont consommés par page pour la reconnaissance de texte, l'analyse de mise en page et les tâches de traitement associées.
Des formules individuelles et institutionnelles sont disponibles à différents niveaux, permettant d'adapter votre abonnement à l'échelle du projet.
Des remises sur volume sont proposées pour les grands projets institutionnels — contactez l'équipe Transkribus pour un devis sur mesure.

Estimation du temps de correction manuelle :

Le temps nécessaire à la post-correction dépend de la difficulté du matériel et de la précision visée. À titre indicatif :

Matériel bien reconnu (CER inférieur à 5 %) : 2 à 5 minutes par page pour vérification et correction légère.
Matériel difficile (CER entre 5 et 10 %) : 5 à 15 minutes par page pour une correction plus substantielle.
Matériel très difficile (CER supérieur à 10 %) : envisagez d'investir dans l'entraînement d'un modèle personnalisé avant le traitement à grande échelle — cela réduit généralement de manière significative le temps de correction par page.

Une étude pilote portant sur 50 à 100 pages représentatives vous fournira des estimations concrètes du temps de correction pour votre matériel spécifique. Intégrez ces chiffres dans votre proposition en tant que données préliminaires.

4.Gestion des données et normes d'archivage

La plupart des organismes de financement exigent désormais un plan de gestion des données (PGD) dans le cadre de la demande. Transkribus facilite la conformité aux principes FAIR et aux normes de conservation à long terme.

Formats d'export :

PAGE XML — le standard de facto pour les données de mise en page et de transcription dans la recherche en analyse de documents. Préserve les coordonnées des lignes de base, les types de régions et l'ordre de lecture.
ALTO XML — largement utilisé dans l'infrastructure des bibliothèques numériques et compatible avec les flux de travail METS/IIIF.
TEI-XML — le standard d'encodage pour les éditions savantes numériques en sciences humaines.
Texte brut et PDF interrogeable — pour l'analyse en aval, la recherche plein texte et la production de documents lisibles.

Conformité FAIR :

Findable (Trouvable) : Recherche plein texte dans les collections ; métadonnées structurées dans les exports XML.
Accessible : Les données peuvent être exportées à tout moment dans des formats ouverts ; aucun verrouillage propriétaire.
Interoperable (Interopérable) : Les schémas XML normalisés garantissent la compatibilité avec les systèmes de bibliothèques numériques, les outils d'annotation et les logiciels d'analyse textuelle.
Reusable (Réutilisable) : Les formats ouverts avec métadonnées intégrées favorisent la réutilisation et la ré-analyse à long terme.

Conservation à long terme : Exportez vos résultats pour dépôt dans des entrepôts institutionnels, des archives spécialisées ou des centres de données. Les formats ouverts et non propriétaires garantissent que les données restent accessibles indépendamment de toute plateforme.

5.Entraînement des modèles et précision

La précision de la reconnaissance est au cœur de toute section méthodologique consacrée au HTR. Transkribus mesure la qualité au moyen du Character Error Rate (CER) : la proportion de caractères qui diffèrent entre la sortie du modèle et une transcription de référence vérifiée manuellement.

Ce à quoi les évaluateurs doivent s'attendre :

Modèles publics sur du matériel adapté : 2–5 % de CER (95–98 % des caractères corrects).
Écritures difficiles ou matériel dégradé avec entraînement personnalisé : 5–10 % de CER.
Le CER est toujours calculé sur un jeu de test réservé (généralement 10–15 % des données de Ground Truth non utilisées lors de l'entraînement), garantissant une estimation non biaisée de la précision.

Entraînement de modèles personnalisés : Pour du matériel spécifique — écritures inhabituelles, orthographes historiques ou documents dégradés — Transkribus vous permet d'entraîner un modèle personnalisé sur vos propres données de Ground Truth. L'entraînement nécessite généralement 25 à 75 pages de matériel transcrit manuellement, selon la complexité de l'écriture.

Pour une explication détaillée du CER et de la manière de le présenter dans votre proposition, consultez notre guide dédié : Character Error Rate (CER) — Explication détaillée.

6.Collaboration et passage à l'échelle

Les projets de recherche fonctionnent rarement de manière isolée. Transkribus prend en charge les flux de travail collaboratifs à toutes les échelles, de la petite équipe aux grandes initiatives multi-institutionnelles.

Production participative : Pour les projets impliquant des transcripteurs bénévoles ou des citoyens scientifiques, Transkribus offre des fonctionnalités intégrées de transcription participative. Les bénévoles contribuent des corrections via une interface simplifiée, générant des données de Ground Truth qui améliorent la précision du modèle au fil du temps. Consultez notre guide sur la transcription participative pour la mise en place de campagnes de transcription collaborative.

Accès API : Pour les projets nécessitant des chaînes de traitement automatisées ou une intégration avec l'infrastructure de recherche existante, l'API Transkribus offre un accès programmatique à l'ensemble des fonctions de reconnaissance et de traitement. Cela permet le traitement par lot, les flux de travail personnalisés et l'intégration avec les systèmes de bibliothèques numériques institutionnelles.

Du pilote au projet complet :

Phase pilote (mois 1–3) : Traiter 50 à 100 pages représentatives, mesurer le CER, estimer le temps de correction.
Optimisation du modèle (mois 3–6) : Si nécessaire, entraîner un modèle personnalisé sur les données de Ground Truth du pilote pour améliorer la précision.
Traitement complet (à partir du mois 6) : Appliquer le modèle optimisé à l'ensemble du corpus. Le traitement par lot permet de traiter plusieurs milliers de pages par jour.

Cette approche par phases est méthodologiquement rigoureuse et démontre aux évaluateurs que vous disposez d'un plan réaliste et fondé sur des données probantes pour le passage à l'échelle.

7.Exemple de texte méthodologique

Le paragraphe suivant peut être adapté pour la section méthodologique de votre demande de financement. Remplacez les champs entre crochets par les détails propres à votre projet.

La reconnaissance d'écriture manuscrite sera réalisée à l'aide de Transkribus (transkribus.org), une plateforme d'intelligence artificielle développée et exploitée par la coopérative européenne READ-COOP SCE (plus de 250 membres institutionnels). La plateforme utilise des architectures d'apprentissage profond entraînées sur des données de Ground Truth au format PAGE XML pour reconnaître les écritures historiques avec une précision mesurable. Une étude pilote portant sur [N] pages représentatives de [description du matériel] a atteint un taux d'erreur par caractère de [X] %, calculé sur un jeu de test réservé comprenant [Y] % du corpus de Ground Truth, confirmant la faisabilité de la reconnaissance automatique pour ce matériel. Au cours du projet, environ [N] pages de documents en [type d'écriture] provenant de [service d'archives / collection] seront traitées à l'aide d'[un modèle public / un modèle entraîné sur mesure]. La qualité de la reconnaissance sera validée en continu par la mesure du CER sur des données de test réservées. La post-correction manuelle par [membres de l'équipe / vacataires] garantira que la qualité de la transcription répond aux standards du projet. L'ensemble des résultats sera exporté au format [PAGE XML / TEI-XML / ALTO XML] pour dépôt dans [nom de l'entrepôt] et intégration avec [base de données / chaîne d'analyse]. Les données seront stockées et traitées sur les serveurs Transkribus en Autriche (UE), en conformité avec le RGPD. [Pour le matériel sensible : le déploiement sur site garantit que les documents restent sur l'infrastructure institutionnelle.]

8.Références et lectures complémentaires

Publications de référence :

Muehlberger, G. et al. (2019). 'Transforming scholarship in the archives through handwritten text recognition.' Journal of Documentation, 75(5), pp. 954–976.
Kahle, P. et al. (2017). 'Transkribus — A Service Platform for Transcription, Recognition and Retrieval of Historical Documents.' 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), 2017.
'Handwritten Text Recognition for Historical Documents.' Open Research Europe, 5:16 (2025). open-research-europe.ec.europa.eu/articles/5-16

Origine du projet :

Projet Horizon 2020 READ de l'UE (subvention n° 674943, 2016–2019) — le programme de recherche dans le cadre duquel Transkribus a été développé.
READ-COOP SCE — la coopérative européenne qui exploite et gouverne désormais Transkribus, avec plus de 250 co-propriétaires institutionnels.

Guides méthodologiques connexes :

Character Error Rate (CER) — Explication détaillée — comprendre et rendre compte des métriques de précision.
Transcription participative — mettre en place des campagnes de transcription collaborative.
API de reconnaissance d'écriture — accès programmatique pour les flux de travail automatisés.
Reconnaissance des écritures de l'époque moderne — travailler avec les écritures et les mains de l'époque moderne.
Transcription de documents coloniaux espagnols — guide spécialisé pour le matériel de l'époque coloniale.
Transcription de manuscrits hébraïques — travailler avec les écritures hébraïques et de droite à gauche.

Une infrastructure que vous pouvez citer en toute confiance.

Transkribus est une infrastructure de recherche construite et gouvernée par les institutions qui l'utilisent — un argument de pérennité solide pour tout dossier de subvention.

Hébergé en Autriche, UE

Tout le traitement sur nos propres serveurs. Conforme au RGPD. Aucune dépendance à un cloud tiers.

Une coopérative, pas une startup

Plus de 250 archives, bibliothèques et universités comme copropriétaires. Conçu pour durer, pas pour une revente.

Vos données restent les vôtres

Propriété totale. Exportez et supprimez à tout moment. Aucun partage de données avec des tiers.

Lancez votre étude pilote dès aujourd'hui

Testez Transkribus sur vos sources avant de rédiger le dossier. Incluez des données de précision réelles comme résultats préliminaires — c'est l'argument le plus convaincant auprès des évaluateurs.

Commencer gratuitement Nous parler des forfaits institutionnels

50 crédits gratuits chaque mois · Aucune carte bancaire requise

200 M+Pages traitées

500 K+Utilisateurs dans le monde

500+Universités