Skip to content
  • Tarifs

Une analyse de mise en page qui comprend n’importe quelle page

Avant qu’un seul caractère puisse être lu, l’IA doit comprendre la structure de la page — où se trouvent les blocs de texte, où se situe chaque ligne, où commencent et finissent les tableaux, colonnes et marginalia. Transkribus effectue cela automatiquement pour chaque document, produisant des coordonnées au pixel près pour chaque élément détecté.

AutomaticSegmentation de page
Pixel-levelPrécision des coordonnées
PAGE XMLFormat d’export standard
RégionsDétection de blocs de texte, images, tableaux
BaselinesCoordonnées précises au niveau des lignes
StructureTitres, paragraphes, marginalia
ExportPAGE XML, PDF interrogeable, ALTO

Voir l’analyse de mise en page en action

L’IA analyse le document et détecte chaque élément structurel — régions de texte, baselines individuelles et annotations. Activez ou désactivez les types d’éléments pour explorer la mise en page détectée.

Document with layout analysis overlay
Layout Elements

Segmentation de page

Détection automatique de régions pour tout type de document

Transkribus segmente automatiquement chaque page en régions structurées — blocs de texte, images, tableaux, séparateurs et décorations. L’IA gère les mises en page complexes qui déjouent la simple détection de colonnes : texte multi-colonnes avec des largeurs variables, marginalia côtoyant le texte principal, annotations interlinéaires et texte qui s’enroule autour des illustrations.
Détecte les régions de texte, d’images, de tableaux et les séparateurs
Gère les mises en page multi-colonnes, les orientations mixtes et les régions imbriquées
Fonctionne sur les documents manuscrits, imprimés et mixtes de tous les siècles
S’exécute automatiquement pendant la reconnaissance de texte — aucun zonage manuel nécessaire
Les régions structurelles sont étiquetées comme titre, paragraphe, numéro de page ou marginalia

Détection de baselines

Baselines au pixel près pour chaque ligne de texte

Les baselines sont le fondement de la reconnaissance d’écriture dans Transkribus. L’IA trace le chemin exact que suit chaque ligne de texte — y compris l’écriture courbe, inclinée et irrégulière. Chaque baseline stocke une polyligne de points de coordonnées qui lie précisément le texte à l’image originale. C’est ce qui rend la sortie de Transkribus spatialement liée à la source : vous savez toujours exactement où sur la page chaque mot a été trouvé.
Les baselines polylignes suivent la courbure exacte de l’écriture
Chaque baseline relie le texte reconnu à ses coordonnées pixel
Gère l’écriture inclinée, les lignes courbes et les espacements irréguliers
Coordonnées exportées en PAGE XML et au format ALTO
Essentiel pour la génération de PDF interrogeables avec couche de texte alignée

Détection de la structure des tableaux

L’analyse de mise en page des tableaux va au-delà des régions de texte — elle détecte les lignes, colonnes, en-têtes et cellules individuelles. Entraînez des modèles de tableaux personnalisés pour vos mises en page documentaires spécifiques.

Document with detected table structure
Données de tableau extraites
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

Formats d’export

Des coordonnées utilisables partout

Chaque élément de mise en page détecté par Transkribus est accompagné de données de coordonnées complètes. Exportez dans des formats standard pour une utilisation dans les outils d’humanités numériques, les systèmes de bibliothèques ou votre propre chaîne de traitement. Les PDF interrogeables alignent la couche de texte reconnu sur l’image originale grâce à ces coordonnées — rendant chaque mot cliquable et recherchable.
PAGE XML — le standard pour la mise en page de documents avec coordonnées polygonales
ALTO XML — largement utilisé dans les systèmes de bibliothèques et d’archives
PDF interrogeable — couche de texte alignée sur les coordonnées de l’image
TEI-XML — avec liens fac-similé vers les régions sources
Texte brut, DOCX et Excel pour des flux de travail simples

L’éditeur

Modifiez et corrigez la mise en page dans un éditeur visuel

Transkribus inclut un éditeur visuel complet pour les corrections de mise en page. Ajustez les limites de régions, fusionnez ou divisez les lignes de texte, corrigez les coordonnées de baselines, annotez les régions structurelles comme titres ou marginalia, et corrigez l’ordre de lecture. Toutes vos modifications sont reflétées dans les coordonnées exportées.
Déplacez visuellement les limites de régions et les points de baselines
Fusionnez ou divisez les régions de texte et les lignes
Attribuez des tags structurels : titre, paragraphe, marginalia, numéro de page
Corrigez l’ordre de lecture dans les mises en page complexes multi-colonnes
Les modifications sont enregistrées et prises en compte dans tous les exports

Conçu pour l’écriture manuscrite

Analyse de mise en page OCR qui fonctionne sur les documents historiques

La plupart des outils d’analyse de mise en page sont conçus pour des documents imprimés modernes avec des mises en page propres et prévisibles. Transkribus a été conçu pour les cas difficiles : des écritures vieilles de plusieurs siècles avec un espacement irrégulier des lignes, du papier dégradé, de l’encre traversante, des orientations mixtes et une structure imprévisible. Nos modèles d’IA ont été entraînés sur des millions de pages de documents historiques.
Traite les documents dégradés, tachés et endommagés
Fonctionne à travers tous les siècles et styles d’écriture
Gère le passage d’encre, la transparence et le texte à faible contraste
Détecte les baselines sur l’écriture inclinée, courbe et irrégulière
Plus de 500 000 utilisateurs traitent des documents historiques chaque jour

Essayez l’analyse de mise en page gratuitement

Téléchargez vos documents et voyez l’IA détecter chaque région, baseline et élément structurel. Aucune configuration, aucun code — il suffit de télécharger et c’est parti.

AutomaticPas de zonage manuel
PAGE XMLCoordonnées standard
Free50 crédits chaque mois