Votre projet de numérisation, géré du début à la fin

Que vous ayez besoin d'une reconnaissance de texte éprouvée à grande échelle ou d'une approche entièrement nouvelle pour du matériel qu'aucune méthode standard ne peut traiter — notre équipe d'experts, de spécialistes en IA et d'archivistes gère l'ensemble du projet. De l'analyse de votre corpus à la livraison de résultats structurés et consultables, intégrés dans vos systèmes.

Parlez-nous de votre projet

Vos documentsScans, images, manuscrits

Analyse & preuve de conceptSélection de modèles, évaluation CER

Traitement & entraînementReconnaissance, modèles personnalisés, QA

Livraison structuréeXML, CSV, Sites, intégration système

20M+pages dans un seul projet

2,000+institutions font confiance à Transkribus

95%+de précision sur les modèles entraînés

Traitement par lots avec des modèles éprouvés

Pour du matériel bien numérisé avec des écritures standard : nous sélectionnons les bons modèles parmi plus de 100 modèles de reconnaissance de texte et de mise en page, configurons le workflow, lançons le traitement par lots, vérifions la qualité et livrons.

Livres imprimés et documents administratifsÉcritures standard (Latin, Kurrent, Fraktur)Grands volumes de qualité homogène

Entraînement de modèles personnalisés pour votre matériel

Quand les modèles standard n'atteignent pas la précision requise — écritures inhabituelles, scans dégradés, écritures rares — nous entraînons des modèles d'IA spécifiquement sur votre matériel. Plusieurs cycles d'entraînement jusqu'à atteindre la précision cible.

Écritures rares ou personnellesScans dégradés ou numérisation de microfilmsSystèmes d'écriture non latins

Voir le projet Bautzen — modèle Kurrent personnalisé pour 200 ans de procès-verbaux →

Définition de schémas, extraction de données & intégration système

Au-delà du texte brut : nous définissons des schémas d'extraction pour vos types de documents — tableaux, champs, enregistrements structurés — et livrons les données dans le format requis par vos systèmes. Publication en tant que Transkribus Site consultable avec votre identité visuelle.

Extraction de tableaux et de champs à partir de registresSortie CSV, Excel ou prête pour base de donnéesIntégration avec ArchivesSpace, AtoM, scopeArchivTranskribus Sites publiés avec recherche plein texte

Voir le projet St-Gall — 200 000 pages publiées en Site consultable →

Nouveaux frameworks quand les approches standard échouent

Certaines collections ne peuvent pas être traitées avec les outils existants. Nous développons de nouvelles approches d'IA : modèles Smart Extract de bout en bout, reconnaissance d'entités nommées pour le balisage automatique et frameworks sur mesure pour des problèmes qu'aucune méthode standard ne peut résoudre.

Smart Extract — compréhension contextuelle des documentsReconnaissance d'entités nommées et géo-enrichissement automatiqueFrameworks novateurs pour documents non standard

Voir le projet MfN Berlin — premier déploiement réel de Smart Extract →

Comprendre votre matériel

Nous analysons votre collection : types de documents, écritures, mises en page, état, volume. Quelles données devez-vous extraire ? Dans quels systèmes doivent-elles être intégrées ? Que signifie le succès pour votre institution ?

Preuve de concept

Vous nous envoyez un échantillon représentatif. Nous exécutons le pipeline complet — y compris l'entraînement d'un modèle personnalisé si nécessaire — et retournons les résultats avec des mesures de taux d'erreur et une estimation réaliste des coûts.

Planification du projet & lancement

Nous définissons le périmètre, le calendrier, les jalons, les livrables et les tarifs. Un(e) chef de projet dédié(e) avec une formation en humanités numériques ou en archivistique est assigné(e) à votre projet.

Traitement, entraînement & assurance qualité

Votre chef de projet coordonne le pipeline technique : reconnaissance, affinage des modèles, extraction de données, contrôles qualité. Des réunions de synchronisation bimensuelles vous tiennent informé(e).

Livraison par jalons & revue

Les résultats sont livrés progressivement aux jalons convenus, chacun avec des métriques de qualité et une revue d'échantillons. Vous examinez et approuvez avant que nous ne continuions.

Livraison finale & intégration

Le jeu de données complet dans le format requis — PAGE XML, ALTO, TEI, CSV, PDF consultable — ou publié en tant que Transkribus Site avec recherche plein texte et identité visuelle personnalisée. Tous les modèles entraînés vous appartiennent.

Museum für Naturkunde Berlin

Allemagne

Le défi

250 000 étiquettes de spécimens avec des métadonnées manuscrites couvrant deux siècles. L'OCR standard a complètement échoué — encre pâlie, papier endommagé, écritures mixtes et mises en page non standard.

Notre approche

Développement d'un modèle Smart Extract — une IA qui comprend contextuellement la structure des étiquettes. Ajout de la reconnaissance d'entités nommées avec enrichissement GeoNames pour le balisage automatique des espèces et la résolution des noms de lieux.

Le résultat

Premier déploiement réel réussi d'un modèle Smart Extract. Jeu de données complet de 250 000 étiquettes transcrites et balisées — un modèle reproductible pour les collections d'histoire naturelle du monde entier.

Lire l'histoire complète →

Zeitpunkt.NRW

Rhénanie-du-Nord-Westphalie, Allemagne

Le défi

L'intégralité du fonds de journaux historiques de Rhénanie-du-Nord-Westphalie — 20 millions de pages sur plusieurs siècles. Mises en page multi-colonnes complexes, impression Fraktur, publicités et types de contenu mixtes.

Notre approche

Reconnaissance plein texte à une échelle sans précédent. Segmentation de mise en page par IA pour les pages de journaux complexes, traitement par lots avec assurance qualité et publication via un portail numérique régional.

Le résultat

L'un des plus grands projets de reconnaissance de texte jamais réalisés. Citoyens et chercheurs peuvent désormais effectuer des recherches à travers des siècles d'histoire régionale via le portail Zeitpunkt.NRW.

Visiter zeitpunkt.nrw →

Noord-Hollands Archief

Haarlem, Pays-Bas

Le défi

Des siècles d'archives notariales — testaments, transferts de propriété, inventaires, déclarations de témoins — de 1570 à 1925. Près de 2 millions de scans de documents manuscrits de Haarlem, Kennemerland et Amstel- en Meerlanden, inaccessibles à quiconque ne sait pas lire les écritures historiques.

Notre approche

Application de l'HTR à l'ensemble des archives notariales. Publication en tant que Transkribus Site consultable avec recherche approximative pour les noms de personnes et de lieux. Précision de 93–98,6 %. Partie du projet pionnier « De ijsberg zichtbaar maken » (2019–2021).

Le résultat

Près de 2 millions de scans d'actes notariés désormais consultables en ligne en plein texte. Chercheurs, généalogistes et citoyens peuvent rechercher des noms, lieux et sujets à travers 350 ans d'histoire notariale de Hollande-Septentrionale.

Explorer la collection →

Procès-verbaux du conseil des archives de St-Gall

Archives d'État de St-Gall

Suisse

Le défi

417 volumes, 200 000 pages de procès-verbaux du conseil — manuscrits et dactylographiés, beaucoup numérisés à partir d'anciens microfilms. Accessibles uniquement par visite en personne aux archives.

Notre approche

Entraînement de modèle personnalisé sur les procès-verbaux. Combinaison de transcription automatisée et de correction manuelle. Publication en tant que Transkribus Site consultable avec vue côte à côte du document et de la transcription.

Le résultat

Les procès-verbaux du conseil à partir de 1803 accessibles au public en ligne — consultables 24h/24. Aucune expertise en paléographie requise.

Lire l'histoire complète →

Écriture Kurrent historique des archives de Bautzen

Archivverbund Bautzen

Allemagne

Le défi

257 volumes de procès-verbaux du conseil municipal de 1623 à 1832 — 55 000 pages en écriture Kurrent. Numérisés mais inaccessibles car l'écriture était trop difficile à déchiffrer pour les chercheurs non formés.

Notre approche

Application du modèle Early Kurrent, puis entraînement d'un modèle personnalisé. Publication en tant que Transkribus Site avec des permaliens intégrés à Archivportal-D et Findbuch.

Le résultat

200 ans d'histoire de la ville de Bautzen entièrement consultables. Découverte transparente via les portails d'archives existants.

Lire l'histoire complète →

Utilisé par des institutions de premier plan dans le monde entier

Vos données restent les vôtres

Propriété et contrôle complets. Accords de traitement des données (DPA) et accords personnalisés disponibles.

Hébergé en Autriche, UE

Tout le traitement sur nos propres serveurs. Conforme au RGPD. Pas de cloud tiers.

Une coopérative, pas une startup

Plus de 250 archives, bibliothèques et universités comme copropriétaires. Conçu pour durer des décennies.

Pas de verrouillage fournisseur

Toutes les sorties en formats standard. Les modèles entraînés vous appartiennent. Données toujours exportables.

Vos données restent les vôtresPropriété et contrôle complets. Conforme au RGPD avec DPA disponibles.

Hébergé en Autriche, UETout le traitement sur nos propres serveurs. Pas de cloud tiers.

Une coopérative, pas une startupPlus de 250 archives, bibliothèques et universités comme copropriétaires.

Votre projet de numérisation, géré du début à la fin

Du traitement standard à la résolution de problèmes que personne d'autre ne peut résoudre

Traitement par lots avec des modèles éprouvés

Entraînement de modèles personnalisés pour votre matériel

Définition de schémas, extraction de données & intégration système

Nouveaux frameworks quand les approches standard échouent

Comment fonctionne un projet géré

Comprendre votre matériel

Preuve de concept

Planification du projet & lancement

Traitement, entraînement & assurance qualité

Livraison par jalons & revue

Livraison finale & intégration

Ce que nous avons livré

Museum für Naturkunde Berlin

Zeitpunkt.NRW

Noord-Hollands Archief

Archives d'État de St-Gall

Archivverbund Bautzen

Vos données restent les vôtres

Hébergé en Autriche, UE

Une coopérative, pas une startup

Pas de verrouillage fournisseur

Parlez-nous de votre projet

Questions fréquentes