Skip to content
  • Tarifs

Réduire l'arriéré archivistique avec la reconnaissance de texte par IA

Des millions de pages non traitées, pas assez de personnel. Transkribus traite des collections entières par lots — transformant les fonds cachés en documents consultables et découvrables à l'échelle institutionnelle.

Traitement par lotsCollections cachéesIA à grande échelleContactez-nous

Glissez une image ici

Sélectionner un fichier...

PNG ou JPG jusqu'à 10 Mo

Wolpi
AI Assistant

En téléchargeant une image, vous acceptez nos conditions et notre politique de confidentialité.

Utilisé par 500 000+ utilisateurs dans le monde — 200 M+ pages traitées

2,000+
Archives et bibliothèques
200 M+
Pages traitées
300+
Modèles IA publics
250+
Membres de la coopérative

Le problème

La crise des fonds inexploités : les arriérés de traitement archivistique ne cessent de croître

En France, les Archives départementales, les Archives nationales et les bibliothèques patrimoniales conservent des kilomètres linéaires de fonds non traités — non catalogués, non numérisés et invisibles pour les chercheurs. La situation est similaire dans toute l'Europe. Ce ne sont pas des matériaux marginaux. Ils comprennent de la correspondance, des actes notariés, des dossiers administratifs et des manuscrits que les chercheurs ne peuvent pas découvrir car aucun instrument de recherche, entrée de catalogue ou texte consultable n'existe pour eux. Chaque année, l'arriéré s'accroît car les nouvelles acquisitions arrivent plus vite que les équipes en sous-effectif ne peuvent les traiter.
Les pénuries de personnel sont structurelles, pas temporaires — les archives ne peuvent pas recruter pour rattraper l'arriéré
La transcription manuelle d'une seule boîte d'archives peut prendre des semaines de travail qualifié
Les collections non traitées ne génèrent aucune citation, aucune recherche et aucun engagement public
Les projets de numérisation financés par des subventions couvrent souvent l'imagerie mais pas la reconnaissance de texte ou la création de métadonnées
Les collections mixtes — dactylographie, manuscrit, formulaires imprimés — nécessitent des approches différentes qui ralentissent encore les flux de travail manuels
Boîtes d'archives non traitées en attente de catalogage et de numérisation

La solution

Réduire l'arriéré archivistique avec l'IA : des boîtes non traitées aux documents consultables

Transkribus permet aux archives de traiter des collections à une échelle que les flux de travail manuels ne peuvent atteindre. Importez des images numérisées — des boîtes entières, des séries ou des fonds — et lancez la reconnaissance de texte par IA sur des milliers de pages en un seul lot. La reconnaissance d'écriture manuscrite (HTR) de la plateforme gère les écritures et types de documents les plus courants dans les fonds d'archives : écriture administrative, correspondance officielle, actes judiciaires, registres municipaux et dossiers de formats mixtes. Le résultat est un texte lisible par machine et consultable, exportable directement dans les systèmes d'information archivistique.
Traitement par lots : mettez en file d'attente des milliers de pages et traitez-les sans surveillance — aucune intervention page par page
Plus de 300 modèles IA publics entraînés sur des écritures historiques du XVe siècle à nos jours
Exportez en PAGE XML, ALTO XML et TEI-XML pour intégration dans ArchivesSpace, AtoM et d'autres systèmes
L'API Metagrapho permet des pipelines entièrement automatisés pour les flux de numérisation de masse
Publiez les collections traitées directement comme éditions numériques consultables via Transkribus Sites
Interface de traitement par lots Transkribus pour les collections archivistiques à grande échelle

Comparaison

Traitement assisté par IA vs. transcription manuelle pour les archives

Les archives font face à un problème fondamental de débit : des millions de pages attendent d'être cataloguées, rendues consultables et accessibles. Voici comment le traitement assisté par IA se compare aux flux de travail manuels traditionnels.

FeatureTraitement IA TranskribusTranscription manuelle
Débit de traitementDes milliers de pages par jour en traitement par lots — s'adapte à la taille de la collectionUn transcripteur expérimenté traite 5 à 15 pages par jour selon la difficulté
Coût par pageUne fraction de centime par page grâce à la tarification par créditsForte intensité de main-d'œuvre — les coûts augmentent linéairement avec chaque page
CohérenceLe même modèle produit des résultats cohérents sur des milliers de pagesLa qualité varie selon les transcripteurs, la fatigue et les différences d'interprétation
Recherche en texte intégralChaque page traitée devient immédiatement consultable en texte intégralSeules les pages transcrites sont consultables — l'arriéré reste inexploité
Prise en charge des écritures historiquesPlus de 300 modèles publics couvrant les écritures du IXe siècle à nos joursNécessite une formation spécialisée en paléographie — rares sont les agents qui possèdent ces compétences
Délai d'accèsLes collections deviennent accessibles quelques jours ou semaines après la numérisationDes retards de plusieurs années, voire décennies, sont courants dans les grandes institutions
Contrôle qualitéLes scores de confiance signalent les lignes incertaines pour une relecture cibléeNécessite une relecture complète de chaque transcription

Cette comparaison reflète les flux de travail institutionnels typiques. Le traitement par IA fonctionne au mieux en complément de l'expertise humaine — première passe automatisée suivie d'une relecture manuelle ciblée.

Comment traiter une collection archivistique en 4 étapes

Importer les collections numérisées

Importez des séries entières ou des fonds en PDF multipages, TIFF ou lots d'images. Transkribus gère automatiquement la détection de mise en page — colonnes, tableaux, marginalia.

Sélectionner un modèle IA

Choisissez parmi plus de 300 modèles publics filtrés par langue, siècle et type d'écriture. Pour les collections mixtes, exécutez plusieurs modèles sur différents groupes de documents au sein d'un même projet.

Lancer la reconnaissance par lots

Mettez en file d'attente des milliers de pages pour le traitement. Transkribus exécute la reconnaissance de texte en arrière-plan — aucune intervention manuelle requise. Suivez la progression depuis le tableau de bord.

Exporter et intégrer

Exportez les résultats en PAGE XML, ALTO XML, TEI-XML, texte brut ou PDF consultable. Intégrez directement dans ArchivesSpace, AtoM ou publiez via Transkribus Sites.

A grande échelle

Traitement archivistique automatisé avec l'API Metagrapho

Pour les institutions menant des programmes de numérisation à grande échelle ou récurrents, l'API REST Metagrapho permet des pipelines de traitement entièrement automatisés. Intégrez la reconnaissance de texte directement dans vos flux de travail d'imagerie et de catalogage existants — aucun import manuel, aucune interaction via navigateur. L'API prend en charge la sélection de modèles, la gestion des tâches par lots et la récupération de sorties structurées, ce qui la rend adaptée aux projets de numérisation de masse de qualité professionnelle.
API REST avec documentation complète pour l'intégration dans les flux de travail institutionnels
Sélection programmatique de modèles — choisissez automatiquement différents modèles pour différents types de collections
Sortie JSON structurée avec texte, coordonnées et scores de confiance pour chaque région de texte
Gestion des tâches par lots : soumettez, surveillez et récupérez les résultats pour des milliers de pages
Combinez avec la reconnaissance d'entités pour extraire noms, dates et lieux pour l'enrichissement des catalogues
batch_process.py
import requests

API = "https://transkribus.eu/processing/v1"
TOKEN = "your-api-token"

# 1. Upload collection
upload = requests.post(f"{API}/uploads",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={"collectionId": 12345}
)

# 2. Start recognition on all pages
job = requests.post(f"{API}/processes",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={
    "docId": upload.json()["docId"],
    "htrId": 53042,   # model ID
    "pages": "all"
  }
)

# 3. Poll for completion
status = requests.get(
  f"{API}/processes/{job.json()['processId']}",
  headers={"Authorization": f"Bearer {TOKEN}"}
).json()
print(f"Status: {status['state']}")

Questions fréquemment posées

La vitesse de traitement dépend de la complexité des documents et du nombre de pages, mais à titre indicatif : une seule page prend généralement 15 à 30 secondes. Le traitement par lots s'exécute en parallèle, de sorte qu'une collection de 10 000 pages peut être traitée en quelques heures plutôt que les semaines ou mois nécessaires pour une transcription manuelle. L'API Metagrapho permet un traitement continu et sans surveillance pour des volumes encore plus importants.
La précision varie selon le type d'écriture et l'état des documents. Sur des écritures administratives bien conservées des XIXe et XXe siècles, des taux d'erreur par caractère (CER) inférieurs à 5 % sont typiques avec les modèles publics appropriés. Les écritures plus anciennes ou plus difficiles peuvent nécessiter un entraînement de modèle personnalisé pour atteindre une précision comparable. Chaque ligne de texte inclut un score de confiance, permettant des flux de révision axés sur la qualité — le personnel peut se concentrer sur les sections à faible confiance plutôt que de relire des documents entiers.
Transkribus exporte en PAGE XML, ALTO XML, TEI-XML et d'autres formats standard qu'ArchivesSpace, AtoM et les systèmes d'information archivistique peuvent ingérer. La sortie XML structurée est compatible avec les normes de métadonnées archivistiques (EAD, Dublin Core, ISAD(G)) utilisées par les Archives départementales et nationales. L'API permet des pipelines d'exportation automatisés.
Un seul membre du personnel formé peut gérer un projet de traitement par lots couvrant des milliers de pages. Transkribus gère automatiquement la détection de mise en page, la reconnaissance de texte et l'exportation. Le temps du personnel est mieux employé à la révision qualité des segments à faible confiance et aux décisions curatoriales — sélectionner les collections à prioriser, choisir les modèles appropriés et valider les résultats.
Transkribus propose des offres institutionnelles conçues pour le traitement à haut volume. La tarification dépend du volume de pages et de la nécessité d'un accès API. Contactez notre équipe à transkribus.org/contact pour un devis personnalisé. Chaque compte inclut 50 crédits gratuits par mois pour évaluer la plateforme avant de s'engager.
Tout le traitement s'effectue sur les propres serveurs de Transkribus en Autriche (UE). Aucune donnée n'est envoyée à des services cloud tiers. Les documents et transcriptions restent sous la pleine propriété de l'institution et peuvent être supprimés à tout moment. Transkribus est exploité par READ-COOP SCE, une coopérative européenne — pas une startup soutenue par du capital-risque. Des accords de traitement des données sont disponibles pour les institutions qui en ont besoin.
Les institutions obtiennent généralement le meilleur retour en commençant par les collections qui sont (1) déjà numérisées (scannées) mais sans texte consultable, (2) très demandées par les chercheurs, ou (3) écrites dans des écritures pour lesquelles de solides modèles publics existent déjà. Cette approche maximise l'impact immédiat avec une mise en place minimale. Le catalogue de modèles Transkribus peut être filtré par langue, type d'écriture et siècle pour identifier quelles collections fonctionneront bien immédiatement.
Oui. Les collections archivistiques contiennent fréquemment des matériaux mixtes — formulaires dactylographiés avec annotations manuscrites, en-têtes imprimés avec entrées cursives, ou pages alternant entre imprimé et manuscrit. Transkribus gère la détection de mise en page pour ces formats mixtes et permet d'exécuter différents modèles sur différents types de documents au sein d'un même projet.
EUAT

Infrastructure de niveau institutionnel pour les collections archivistiques.

Transkribus est développé et hébergé en Europe par une coopérative de plus de 250 archives, bibliothèques et universités. Vos collections restent sous votre contrôle.

Vos données restent les vôtres

Propriété totale. Suppression à tout moment.

Hébergé en Autriche, UE

Traitement sur nos propres serveurs. Conforme au RGPD. Aucune dépendance cloud tierce.

Coopérative, pas une startup

Des milliers d'archives, bibliothèques et universités comme copropriétaires. Construit pour des décennies, pas pour une sortie de capital-risque.

Ressources connexes

Plus pour les archives et institutions

Découvrez comment Transkribus s'intègre dans vos flux de travail institutionnels : Transkribus pour les archives · Qu'est-ce que la HTR ? · Créer des PDF consultables · Manuscrits médiévaux
Collections d'archives en cours de numérisation

Prêt à résorber votre arriéré archivistique ?

Discutez avec notre équipe des offres institutionnelles pour le traitement de collections à grande échelle, ou créez un compte gratuit pour évaluer Transkribus sur vos propres documents.

Utilisé par plus de 2 000 archives et bibliothèques dans le monde

200 M+Pages traitées
2,000+Archives et bibliothèques
300+Modèles IA publics