Soumettez des milliers de tâches. Nous nous occupons du reste.
L'API Transkribus gère intelligemment votre file de traitement. Soumettez des documents un par un ou par milliers en parallèle — les tâches sont distribuées sur des clusters GPU, traitées de manière asynchrone, et les résultats sont transmis via long polling ou polling standard. Du prototype d'intégration à des millions de pages d'archives.

Pipeline traditionnel vs. Transkribus
Le traitement de documents à grande échelle impliquait autrefois de gérer manuellement des équipes et des files d'attente. Transkribus prend en charge cette infrastructure à votre place.
Approche traditionnelle
Embaucher des transcripteurs
Recruter, former et gérer une équipe de lecteurs qualifiés
Traitement séquentiel
Chaque page transcrite à la main, une à la fois
Contrôle qualité
Un second lecteur vérifie chaque page pour détecter les erreurs
Mise en forme et export
Conversion manuelle vers le format de sortie requis
Traitement en lot avec Transkribus
Soumettre les tâches
Téléchargement via l'application web ou soumission de milliers de tâches via l'API
File d'attente intelligente
Les tâches sont distribuées automatiquement sur les clusters GPU
Récupérer les résultats
Long polling pour des résultats instantanés, ou polling asynchrone pour les traitements en lot
Export
Texte brut, PAGE XML, ALTO, TEI — sortie structurée
Gestion intelligente des files d'attente
Comment fonctionne le pipeline de traitement
L'API Transkribus est conçue pour le traitement asynchrone. Soumettez des tâches à n'importe quel rythme — la file d'attente les distribue sur la capacité GPU disponible. Pour les intégrations en temps réel, utilisez le long polling pour obtenir les résultats dès qu'ils sont prêts. Pas satisfait de la précision ? Entraînez un modèle personnalisé sur vos documents spécifiques grâce à l'éditeur visuel, puis relancez le traitement de l'ensemble du lot.
Soumettre
Envoyez des images via l'API — URL, base64 ou téléchargement de fichier
File d'attente
Distribution intelligente des tâches sur les clusters GPU
Traitement
Analyse de mise en page et reconnaissance de texte en parallèle
Résultat
Long polling ou polling asynchrone — à votre convenance
Export
Texte brut, PAGE XML, ALTO ou JSON
Étude de cas
Zeitpunkt.NRW : 15 millions de pages de journaux en un seul projet

Une sortie structurée, pas seulement du texte brut
Chaque page est retournée avec des régions de mise en page, des lignes de texte, des coordonnées de mots et des scores de confiance.
Texte brut
Sortie texte simple en UTF-8. Alimentez vos moteurs de recherche, bases de données ou pipelines NLP.
PAGE XML
Coordonnées complètes de mise en page — régions, lignes, mots, lignes de base. Le standard pour les workflows HTR.
ALTO XML
Format standard pour les bibliothèques pour les collections numérisées. Compatible avec Europeana, DFG Viewer et IIIF.
TEI XML
Format Text Encoding Initiative pour les éditions savantes et les projets en humanités numériques.
Données tabulaires
Reconnaissance structurée de tableaux — lignes, colonnes et contenu des cellules extraits automatiquement.
Recherche plein texte
Les documents traités sont immédiatement consultables dans Transkribus — noms, dates, lieux, mots-clés.
Prêt à traiter votre collection ?
Commencez avec un compte gratuit pour tester sur un échantillon. Pour les projets à grande échelle, contactez notre équipe pour obtenir une tarification par volume et un accompagnement de projet.