Soumettez des milliers de tâches. Nous nous occupons du reste.

L'API Transkribus gère intelligemment votre file de traitement. Soumettez des documents un par un ou par milliers en parallèle — les tâches sont distribuées sur des clusters GPU, traitées de manière asynchrone, et les résultats sont transmis via long polling ou polling standard. Du prototype d'intégration à des millions de pages d'archives.

Prendre rendez-vous Voir l'API

Traitement en lot d'une collection de documents

200M+pages traitées sur la plateforme

15M+pages dans un seul projet

300+modèles IA pour tout type d'écriture

Pipeline traditionnel vs. Transkribus

Le traitement de documents à grande échelle impliquait autrefois de gérer manuellement des équipes et des files d'attente. Transkribus prend en charge cette infrastructure à votre place.

Approche traditionnelle

Embaucher des transcripteurs

Recruter, former et gérer une équipe de lecteurs qualifiés

Traitement séquentiel

Chaque page transcrite à la main, une à la fois

Contrôle qualité

Un second lecteur vérifie chaque page pour détecter les erreurs

Mise en forme et export

Conversion manuelle vers le format de sortie requis

Linéaire — s'adapte aux effectifs

Traitement en lot avec Transkribus

Soumettre les tâches

Téléchargement via l'application web ou soumission de milliers de tâches via l'API

File d'attente intelligente

Les tâches sont distribuées automatiquement sur les clusters GPU

Récupérer les résultats

Long polling pour des résultats instantanés, ou polling asynchrone pour les traitements en lot

Export

Texte brut, PAGE XML, ALTO, TEI — sortie structurée

Parallèle — s'adapte à l'infrastructure

Gestion intelligente des files d'attente

Comment fonctionne le pipeline de traitement

L'API Transkribus est conçue pour le traitement asynchrone. Soumettez des tâches à n'importe quel rythme — la file d'attente les distribue sur la capacité GPU disponible. Pour les intégrations en temps réel, utilisez le long polling pour obtenir les résultats dès qu'ils sont prêts. Pas satisfait de la précision ? Entraînez un modèle personnalisé sur vos documents spécifiques grâce à l'éditeur visuel, puis relancez le traitement de l'ensemble du lot.

Soumettre

Envoyez des images via l'API — URL, base64 ou téléchargement de fichier

File d'attente

Distribution intelligente des tâches sur les clusters GPU

Traitement

Analyse de mise en page et reconnaissance de texte en parallèle

Résultat

Long polling ou polling asynchrone — à votre convenance

Export

Texte brut, PAGE XML, ALTO ou JSON

Étude de cas

Zeitpunkt.NRW : 15 millions de pages de journaux en un seul projet

L'État de Rhénanie-du-Nord-Westphalie a utilisé Transkribus pour traiter 15 millions de pages de journaux historiques — le plus grand projet de numérisation unique sur la plateforme. La collection couvre plus d'un siècle de journaux régionaux, désormais entièrement consultables et accessibles au public sur zeitpunkt.nrw.

15 millions de pages traitées par reconnaissance de texte par IA

Fraktur historique et caractères gothiques traités automatiquement

Accessible au public et consultable en plein texte

Lire la présentation du projet

Zeitpunkt.NRW — 15 millions de pages de journaux traitées

Texte brut

Sortie texte simple en UTF-8. Alimentez vos moteurs de recherche, bases de données ou pipelines NLP.

PAGE XML

Coordonnées complètes de mise en page — régions, lignes, mots, lignes de base. Le standard pour les workflows HTR.

ALTO XML

Format standard pour les bibliothèques pour les collections numérisées. Compatible avec Europeana, DFG Viewer et IIIF.

TEI XML

Format Text Encoding Initiative pour les éditions savantes et les projets en humanités numériques.

Données tabulaires

Reconnaissance structurée de tableaux — lignes, colonnes et contenu des cellules extraits automatiquement.

Recherche plein texte

Les documents traités sont immédiatement consultables dans Transkribus — noms, dates, lieux, mots-clés.

Prêt à traiter votre collection ?

Commencez avec un compte gratuit pour tester sur un échantillon. Pour les projets à grande échelle, contactez notre équipe pour obtenir une tarification par volume et un accompagnement de projet.

Commencer gratuitement Prendre rendez-vous

200M+pages traitées

Volumetarification disponible

Hébergé en UEconforme au RGPD

Soumettez des milliers de tâches. Nous nous occupons du reste.

Pipeline traditionnel vs. Transkribus

Approche traditionnelle

Embaucher des transcripteurs

Traitement séquentiel

Contrôle qualité

Mise en forme et export

Traitement en lot avec Transkribus

Soumettre les tâches

File d'attente intelligente

Récupérer les résultats

Export

Comment fonctionne le pipeline de traitement

Soumettre

File d'attente

Traitement

Résultat

Export

Zeitpunkt.NRW : 15 millions de pages de journaux en un seul projet

Une sortie structurée, pas seulement du texte brut

Texte brut

PAGE XML

ALTO XML

TEI XML

Données tabulaires

Recherche plein texte

Prêt à traiter votre collection ?