Skip to content
  • Tarifs

Votre projet de numérisation, géré du début à la fin

Que vous ayez besoin d'une reconnaissance de texte éprouvée à grande échelle ou d'une approche entièrement nouvelle pour du matériel qu'aucune méthode standard ne peut traiter — notre équipe d'experts, de spécialistes en IA et d'archivistes gère l'ensemble du projet. De l'analyse de votre corpus à la livraison de résultats structurés et consultables, intégrés dans vos systèmes.

Vos documentsScans, images, manuscrits
Analyse & preuve de conceptSélection de modèles, évaluation CER
Traitement & entraînementReconnaissance, modèles personnalisés, QA
Livraison structuréeXML, CSV, Sites, intégration système
20M+pages dans un seul projet
2,000+institutions font confiance à Transkribus
95%+de précision sur les modèles entraînés

Du traitement standard à la résolution de problèmes que personne d'autre ne peut résoudre

Chaque collection est différente. Nous adaptons l'approche au défi — du traitement par lots routinier au développement de nouveaux frameworks d'IA.

Traitement par lots avec des modèles éprouvés

Pour du matériel bien numérisé avec des écritures standard : nous sélectionnons les bons modèles parmi plus de 100 modèles de reconnaissance de texte et de mise en page, configurons le workflow, lançons le traitement par lots, vérifions la qualité et livrons.

Livres imprimés et documents administratifsÉcritures standard (Latin, Kurrent, Fraktur)Grands volumes de qualité homogène

Entraînement de modèles personnalisés pour votre matériel

Quand les modèles standard n'atteignent pas la précision requise — écritures inhabituelles, scans dégradés, écritures rares — nous entraînons des modèles d'IA spécifiquement sur votre matériel. Plusieurs cycles d'entraînement jusqu'à atteindre la précision cible.

Écritures rares ou personnellesScans dégradés ou numérisation de microfilmsSystèmes d'écriture non latins
Voir le projet Bautzen — modèle Kurrent personnalisé pour 200 ans de procès-verbaux

Définition de schémas, extraction de données & intégration système

Au-delà du texte brut : nous définissons des schémas d'extraction pour vos types de documents — tableaux, champs, enregistrements structurés — et livrons les données dans le format requis par vos systèmes. Publication en tant que Transkribus Site consultable avec votre identité visuelle.

Extraction de tableaux et de champs à partir de registresSortie CSV, Excel ou prête pour base de donnéesIntégration avec ArchivesSpace, AtoM, scopeArchivTranskribus Sites publiés avec recherche plein texte
Voir le projet St-Gall — 200 000 pages publiées en Site consultable

Nouveaux frameworks quand les approches standard échouent

Certaines collections ne peuvent pas être traitées avec les outils existants. Nous développons de nouvelles approches d'IA : modèles Smart Extract de bout en bout, reconnaissance d'entités nommées pour le balisage automatique et frameworks sur mesure pour des problèmes qu'aucune méthode standard ne peut résoudre.

Smart Extract — compréhension contextuelle des documentsReconnaissance d'entités nommées et géo-enrichissement automatiqueFrameworks novateurs pour documents non standard
Voir le projet MfN Berlin — premier déploiement réel de Smart Extract

Comment fonctionne un projet géré

Un processus éprouvé, affiné au fil de dizaines d'engagements institutionnels. Vous gardez le contrôle du périmètre et de la qualité — nous assurons l'exécution technique.

Comprendre votre matériel

Nous analysons votre collection : types de documents, écritures, mises en page, état, volume. Quelles données devez-vous extraire ? Dans quels systèmes doivent-elles être intégrées ? Que signifie le succès pour votre institution ?

Preuve de concept

Vous nous envoyez un échantillon représentatif. Nous exécutons le pipeline complet — y compris l'entraînement d'un modèle personnalisé si nécessaire — et retournons les résultats avec des mesures de taux d'erreur et une estimation réaliste des coûts.

Planification du projet & lancement

Nous définissons le périmètre, le calendrier, les jalons, les livrables et les tarifs. Un(e) chef de projet dédié(e) avec une formation en humanités numériques ou en archivistique est assigné(e) à votre projet.

Traitement, entraînement & assurance qualité

Votre chef de projet coordonne le pipeline technique : reconnaissance, affinage des modèles, extraction de données, contrôles qualité. Des réunions de synchronisation bimensuelles vous tiennent informé(e).

Livraison par jalons & revue

Les résultats sont livrés progressivement aux jalons convenus, chacun avec des métriques de qualité et une revue d'échantillons. Vous examinez et approuvez avant que nous ne continuions.

Livraison finale & intégration

Le jeu de données complet dans le format requis — PAGE XML, ALTO, TEI, CSV, PDF consultable — ou publié en tant que Transkribus Site avec recherche plein texte et identité visuelle personnalisée. Tous les modèles entraînés vous appartiennent.

Ce que nous avons livré

De 55 000 pages manuscrites à 20 millions de pages de journaux — chaque projet est différent.

Étiquettes de spécimens du Museum für Naturkunde Berlin

Museum für Naturkunde Berlin

Allemagne
250Kétiquettes de spécimens transcrites

250 000 étiquettes de spécimens avec des métadonnées manuscrites couvrant deux siècles. L'OCR standard a complètement échoué — encre pâlie, papier endommagé, écritures mixtes et mises en page non standard.

Développement d'un modèle Smart Extract — une IA qui comprend contextuellement la structure des étiquettes. Ajout de la reconnaissance d'entités nommées avec enrichissement GeoNames pour le balisage automatique des espèces et la résolution des noms de lieux.

Premier déploiement réel réussi d'un modèle Smart Extract. Jeu de données complet de 250 000 étiquettes transcrites et balisées — un modèle reproductible pour les collections d'histoire naturelle du monde entier.

Lire l'histoire complète
Pages de journaux historiques du projet Zeitpunkt.NRW

Zeitpunkt.NRW

Rhénanie-du-Nord-Westphalie, Allemagne
20Mpages de journaux en recherche plein texte

L'intégralité du fonds de journaux historiques de Rhénanie-du-Nord-Westphalie — 20 millions de pages sur plusieurs siècles. Mises en page multi-colonnes complexes, impression Fraktur, publicités et types de contenu mixtes.

Reconnaissance plein texte à une échelle sans précédent. Segmentation de mise en page par IA pour les pages de journaux complexes, traitement par lots avec assurance qualité et publication via un portail numérique régional.

L'un des plus grands projets de reconnaissance de texte jamais réalisés. Citoyens et chercheurs peuvent désormais effectuer des recherches à travers des siècles d'histoire régionale via le portail Zeitpunkt.NRW.

Visiter zeitpunkt.nrw
Documents notariaux du Noord-Hollands Archief

Noord-Hollands Archief

Haarlem, Pays-Bas
2Mscans d'archives notariales consultables

Des siècles d'archives notariales — testaments, transferts de propriété, inventaires, déclarations de témoins — de 1570 à 1925. Près de 2 millions de scans de documents manuscrits de Haarlem, Kennemerland et Amstel- en Meerlanden, inaccessibles à quiconque ne sait pas lire les écritures historiques.

Application de l'HTR à l'ensemble des archives notariales. Publication en tant que Transkribus Site consultable avec recherche approximative pour les noms de personnes et de lieux. Précision de 93–98,6 %. Partie du projet pionnier « De ijsberg zichtbaar maken » (2019–2021).

Près de 2 millions de scans d'actes notariés désormais consultables en ligne en plein texte. Chercheurs, généalogistes et citoyens peuvent rechercher des noms, lieux et sujets à travers 350 ans d'histoire notariale de Hollande-Septentrionale.

Explorer la collection
Procès-verbaux du conseil des archives de St-Gall

Archives d'État de St-Gall

Suisse
200Kpages désormais consultables publiquement

417 volumes, 200 000 pages de procès-verbaux du conseil — manuscrits et dactylographiés, beaucoup numérisés à partir d'anciens microfilms. Accessibles uniquement par visite en personne aux archives.

Entraînement de modèle personnalisé sur les procès-verbaux. Combinaison de transcription automatisée et de correction manuelle. Publication en tant que Transkribus Site consultable avec vue côte à côte du document et de la transcription.

Les procès-verbaux du conseil à partir de 1803 accessibles au public en ligne — consultables 24h/24. Aucune expertise en paléographie requise.

Lire l'histoire complète
Écriture Kurrent historique des archives de Bautzen

Archivverbund Bautzen

Allemagne
55Kpages d'histoire du conseil municipal

257 volumes de procès-verbaux du conseil municipal de 1623 à 1832 — 55 000 pages en écriture Kurrent. Numérisés mais inaccessibles car l'écriture était trop difficile à déchiffrer pour les chercheurs non formés.

Application du modèle Early Kurrent, puis entraînement d'un modèle personnalisé. Publication en tant que Transkribus Site avec des permaliens intégrés à Archivportal-D et Findbuch.

200 ans d'histoire de la ville de Bautzen entièrement consultables. Découverte transparente via les portails d'archives existants.

Lire l'histoire complète

Utilisé par des institutions de premier plan dans le monde entier

Vos données restent les vôtres

Propriété et contrôle complets. Accords de traitement des données (DPA) et accords personnalisés disponibles.

Hébergé en Autriche, UE

Tout le traitement sur nos propres serveurs. Conforme au RGPD. Pas de cloud tiers.

Une coopérative, pas une startup

Plus de 250 archives, bibliothèques et universités comme copropriétaires. Conçu pour durer des décennies.

Pas de verrouillage fournisseur

Toutes les sorties en formats standard. Les modèles entraînés vous appartiennent. Données toujours exportables.

Parlez-nous de votre projet

Décrivez votre collection et vos objectifs — nous vous répondrons sous un jour ouvré avec une approche sur mesure, de la preuve de concept à la livraison finale.

Combien de pages devez-vous traiter environ ?

20,000 pages

En soumettant, vous acceptez notre Privacy Policy.

Vos données restent les vôtresPropriété et contrôle complets. Conforme au RGPD avec DPA disponibles.
Hébergé en Autriche, UETout le traitement sur nos propres serveurs. Pas de cloud tiers.
Une coopérative, pas une startupPlus de 250 archives, bibliothèques et universités comme copropriétaires.

Questions fréquentes

Tout ce que vous devez savoir sur les projets de numérisation gérés.