Résorber l'arriéré archivistique grâce à l'IA

2,000+Archives et bibliothèques

200 M+Pages traitées

300+Modèles IA publics

250+Membres de la coopérative

Le problème

La crise des fonds inexploités : les arriérés de traitement archivistique ne cessent de croître

En France, les Archives départementales, les Archives nationales et les bibliothèques patrimoniales conservent des kilomètres linéaires de fonds non traités — non catalogués, non numérisés et invisibles pour les chercheurs. La situation est similaire dans toute l'Europe. Ce ne sont pas des matériaux marginaux. Ils comprennent de la correspondance, des actes notariés, des dossiers administratifs et des manuscrits que les chercheurs ne peuvent pas découvrir car aucun instrument de recherche, entrée de catalogue ou texte consultable n'existe pour eux. Chaque année, l'arriéré s'accroît car les nouvelles acquisitions arrivent plus vite que les équipes en sous-effectif ne peuvent les traiter.

Les pénuries de personnel sont structurelles, pas temporaires — les archives ne peuvent pas recruter pour rattraper l'arriéré

La transcription manuelle d'une seule boîte d'archives peut prendre des semaines de travail qualifié

Les collections non traitées ne génèrent aucune citation, aucune recherche et aucun engagement public

Les projets de numérisation financés par des subventions couvrent souvent l'imagerie mais pas la reconnaissance de texte ou la création de métadonnées

Les collections mixtes — dactylographie, manuscrit, formulaires imprimés — nécessitent des approches différentes qui ralentissent encore les flux de travail manuels

Boîtes d'archives non traitées en attente de catalogage et de numérisation

La solution

Réduire l'arriéré archivistique avec l'IA : des boîtes non traitées aux documents consultables

Transkribus permet aux archives de traiter des collections à une échelle que les flux de travail manuels ne peuvent atteindre. Importez des images numérisées — des boîtes entières, des séries ou des fonds — et lancez la reconnaissance de texte par IA sur des milliers de pages en un seul lot. La reconnaissance d'écriture manuscrite (HTR) de la plateforme gère les écritures et types de documents les plus courants dans les fonds d'archives : écriture administrative, correspondance officielle, actes judiciaires, registres municipaux et dossiers de formats mixtes. Le résultat est un texte lisible par machine et consultable, exportable directement dans les systèmes d'information archivistique.

Traitement par lots : mettez en file d'attente des milliers de pages et traitez-les sans surveillance — aucune intervention page par page

Plus de 300 modèles IA publics entraînés sur des écritures historiques du XVe siècle à nos jours

Exportez en PAGE XML, ALTO XML et TEI-XML pour intégration dans ArchivesSpace, AtoM et d'autres systèmes

L'API Transkribus permet des pipelines entièrement automatisés pour les flux de numérisation de masse

Publiez les collections traitées directement comme éditions numériques consultables via Transkribus Sites

Transkribus pour les archives

Interface de traitement par lots Transkribus pour les collections archivistiques à grande échelle

Comparaison

Traitement assisté par IA vs. transcription manuelle pour les archives

Les archives font face à un problème fondamental de débit : des millions de pages attendent d'être cataloguées, rendues consultables et accessibles. Voici comment le traitement assisté par IA se compare aux flux de travail manuels traditionnels.

Feature	Traitement IA Transkribus	Transcription manuelle
Débit de traitement	Des milliers de pages par jour en traitement par lots — s'adapte à la taille de la collection	Un transcripteur expérimenté traite 5 à 15 pages par jour selon la difficulté
Coût par page	Une fraction de centime par page grâce à la tarification par crédits	Forte intensité de main-d'œuvre — les coûts augmentent linéairement avec chaque page
Cohérence	Le même modèle produit des résultats cohérents sur des milliers de pages	La qualité varie selon les transcripteurs, la fatigue et les différences d'interprétation
Recherche en texte intégral	Chaque page traitée devient immédiatement consultable en texte intégral	Seules les pages transcrites sont consultables — l'arriéré reste inexploité
Prise en charge des écritures historiques	Plus de 300 modèles publics couvrant les écritures du IXe siècle à nos jours	Nécessite une formation spécialisée en paléographie — rares sont les agents qui possèdent ces compétences
Délai d'accès	Les collections deviennent accessibles quelques jours ou semaines après la numérisation	Des retards de plusieurs années, voire décennies, sont courants dans les grandes institutions
Contrôle qualité	Les scores de confiance signalent les lignes incertaines pour une relecture ciblée	Nécessite une relecture complète de chaque transcription

Cette comparaison reflète les flux de travail institutionnels typiques. Le traitement par IA fonctionne au mieux en complément de l'expertise humaine — première passe automatisée suivie d'une relecture manuelle ciblée.

Comment traiter une collection archivistique en 4 étapes

Importer les collections numérisées

Importez des séries entières ou des fonds en PDF multipages, TIFF ou lots d'images. Transkribus gère automatiquement la détection de mise en page — colonnes, tableaux, marginalia.

Sélectionner un modèle IA

Choisissez parmi plus de 300 modèles publics filtrés par langue, siècle et type d'écriture. Pour les collections mixtes, exécutez plusieurs modèles sur différents groupes de documents au sein d'un même projet.

Lancer la reconnaissance par lots

Mettez en file d'attente des milliers de pages pour le traitement. Transkribus exécute la reconnaissance de texte en arrière-plan — aucune intervention manuelle requise. Suivez la progression depuis le tableau de bord.

Exporter et intégrer

Exportez les résultats en PAGE XML, ALTO XML, TEI-XML, texte brut ou PDF consultable. Intégrez directement dans ArchivesSpace, AtoM ou publiez via Transkribus Sites.

A grande échelle

Traitement archivistique automatisé avec l'API Transkribus

Pour les institutions menant des programmes de numérisation à grande échelle ou récurrents, l'API REST Metagrapho permet des pipelines de traitement entièrement automatisés. Intégrez la reconnaissance de texte directement dans vos flux de travail d'imagerie et de catalogage existants — aucun import manuel, aucune interaction via navigateur. L'API prend en charge la sélection de modèles, la gestion des tâches par lots et la récupération de sorties structurées, ce qui la rend adaptée aux projets de numérisation de masse de qualité professionnelle.

API REST avec documentation complète pour l'intégration dans les flux de travail institutionnels

Sélection programmatique de modèles — choisissez automatiquement différents modèles pour différents types de collections

Sortie JSON structurée avec texte, coordonnées et scores de confiance pour chaque région de texte

Gestion des tâches par lots : soumettez, surveillez et récupérez les résultats pour des milliers de pages

Combinez avec la reconnaissance d'entités pour extraire noms, dates et lieux pour l'enrichissement des catalogues

API Transkribus pour le traitement par lots

import requests

API = "https://transkribus.eu/processing/v1"
TOKEN = "your-api-token"

# 1. Upload collection
upload = requests.post(f"{API}/uploads",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={"collectionId": 12345}
)

# 2. Start recognition on all pages
job = requests.post(f"{API}/processes",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={
    "docId": upload.json()["docId"],
    "htrId": 53042,   # model ID
    "pages": "all"
  }
)

# 3. Poll for completion
status = requests.get(
  f"{API}/processes/{job.json()['processId']}",
  headers={"Authorization": f"Bearer {TOKEN}"}
).json()
print(f"Status: {status['state']}")

Questions fréquemment posées

Quelle est la vitesse de traitement de Transkribus pour les collections archivistiques à grande échelle ?

La vitesse de traitement dépend de la complexité des documents et du nombre de pages, mais à titre indicatif : une seule page prend généralement 15 à 30 secondes. Le traitement par lots s'exécute en parallèle, de sorte qu'une collection de 10 000 pages peut être traitée en quelques heures plutôt que les semaines ou mois nécessaires pour une transcription manuelle. L'API Transkribus permet un traitement continu et sans surveillance pour des volumes encore plus importants.

Quelle précision peut-on attendre sur des collections archivistiques mixtes ?

La précision varie selon le type d'écriture et l'état des documents. Sur des écritures administratives bien conservées des XIXe et XXe siècles, des taux d'erreur par caractère (CER) inférieurs à 5 % sont typiques avec les modèles publics appropriés. Les écritures plus anciennes ou plus difficiles peuvent nécessiter un entraînement de modèle personnalisé pour atteindre une précision comparable. Chaque ligne de texte inclut un score de confiance, permettant des flux de révision axés sur la qualité — le personnel peut se concentrer sur les sections à faible confiance plutôt que de relire des documents entiers.

Transkribus s'intègre-t-il avec ArchivesSpace, AtoM ou d'autres systèmes de gestion archivistique ?

Transkribus exporte en PAGE XML, ALTO XML, TEI-XML et d'autres formats standard qu'ArchivesSpace, AtoM et les systèmes d'information archivistique peuvent ingérer. La sortie XML structurée est compatible avec les normes de métadonnées archivistiques (EAD, Dublin Core, ISAD(G)) utilisées par les Archives départementales et nationales. L'API permet des pipelines d'exportation automatisés.

Combien de membres du personnel sont nécessaires pour gérer un projet de traitement à grande échelle ?

Un seul membre du personnel formé peut gérer un projet de traitement par lots couvrant des milliers de pages. Transkribus gère automatiquement la détection de mise en page, la reconnaissance de texte et l'exportation. Le temps du personnel est mieux employé à la révision qualité des segments à faible confiance et aux décisions curatoriales — sélectionner les collections à prioriser, choisir les modèles appropriés et valider les résultats.

Quel est le coût de Transkribus à l'échelle institutionnelle ?

Transkribus propose des offres institutionnelles conçues pour le traitement à haut volume. La tarification dépend du volume de pages et de la nécessité d'un accès API. Contactez notre équipe à transkribus.org/contact pour un devis personnalisé. Chaque compte inclut 50 crédits gratuits par mois pour évaluer la plateforme avant de s'engager.

Comment Transkribus gère-t-il le RGPD et la confidentialité des données ?

Tout le traitement s'effectue sur les propres serveurs de Transkribus en Autriche (UE). Aucune donnée n'est envoyée à des services cloud tiers. Les documents et transcriptions restent sous la pleine propriété de l'institution et peuvent être supprimés à tout moment. Transkribus est exploité par READ-COOP SCE, une coopérative européenne — pas une startup soutenue par du capital-risque. Des accords de traitement des données sont disponibles pour les institutions qui en ont besoin.

Comment prioriser les collections à traiter en premier ?

Les institutions obtiennent généralement le meilleur retour en commençant par les collections qui sont (1) déjà numérisées (scannées) mais sans texte consultable, (2) très demandées par les chercheurs, ou (3) écrites dans des écritures pour lesquelles de solides modèles publics existent déjà. Cette approche maximise l'impact immédiat avec une mise en place minimale. Le catalogue de modèles Transkribus peut être filtré par langue, type d'écriture et siècle pour identifier quelles collections fonctionneront bien immédiatement.

Peut-on traiter des collections contenant à la fois des documents manuscrits et imprimés ?

Oui. Les collections archivistiques contiennent fréquemment des matériaux mixtes — formulaires dactylographiés avec annotations manuscrites, en-têtes imprimés avec entrées cursives, ou pages alternant entre imprimé et manuscrit. Transkribus gère la détection de mise en page pour ces formats mixtes et permet d'exécuter différents modèles sur différents types de documents au sein d'un même projet.

Infrastructure de niveau institutionnel pour les collections archivistiques.

Transkribus est développé et hébergé en Europe par une coopérative de plus de 250 archives, bibliothèques et universités. Vos collections restent sous votre contrôle.

Vos données restent les vôtres

Propriété totale. Suppression à tout moment.

Hébergé en Autriche, UE

Traitement sur nos propres serveurs. Conforme au RGPD. Aucune dépendance cloud tierce.

Coopérative, pas une startup

Des milliers d'archives, bibliothèques et universités comme copropriétaires. Construit pour des décennies, pas pour une sortie de capital-risque.

Ressources connexes

Plus pour les archives et institutions

Découvrez comment Transkribus s'intègre dans vos flux de travail institutionnels : Transkribus pour les archives · Qu'est-ce que la HTR ? · Créer des PDF consultables · Manuscrits médiévaux