Extraire des données structurées de n'importe quel document

Les Transkribus Field Models utilisent la segmentation d'instances pour détecter et extraire des champs spécifiques de vos documents — manuscrits ou imprimés, historiques ou modernes. Définissez vos champs, entraînez votre modèle, traitez votre collection.

Commencez à entraîner votre modèle

Cote

Nom

Journal

Détails

Référence

Voyez-le en action

Les Field Models détectent et extraient des éléments structurels spécifiques de vos documents — avec précision et à grande échelle.

Extracted Fields

Qu'avez-vous besoin d'extraire ?

Des chercheurs, archivistes et institutions du monde entier entraînent des Field Models sur leurs documents spécifiques. Voici les applications les plus courantes.

Segmentez articles, titres et publicités depuis les pages de journaux

Les journaux historiques présentent des mises en page complexes multi-colonnes avec des articles entourant les images et s'étendant sur plusieurs pages. Les Field Models détectent les articles individuels, les titres, les publicités, les signatures d'auteurs et les légendes — vous offrant un accès structuré à un contenu auparavant enfermé dans des images de pages.

Fields extracted:TitresCorps d'articlesPublicitésSignatures d'auteursLégendesColonnes

Extraire des champs structurés de fiches de catalogue et de fiches index

Les bibliothèques, musées et archives détiennent des millions de fiches — fiches de catalogue, registres d'acquisition, instruments de recherche, fiches de patients. Chaque type de fiche a sa propre mise en page, mais un Field Model bien entraîné gère les variations et extrait les données structurées à grande échelle.

Fields extracted:NomDateNuméro de référenceCatégorieDescriptionLocalisation

Cote

Nom

Journal

Détails

Référence

Extraire noms, dates et lieux de registres manuscrits

Registres paroissiaux, actes d'état civil, rôles militaires — les piliers de la recherche généalogique et démographique. Les Field Models détectent les entrées structurées à travers des siècles de pratiques d'enregistrement en évolution, gérant différents scribes, formats et langues.

Fields extracted:LieuNomAnnéeDonnées tabulairesDate d'entréeMarginalia

Ort

Name

Jahrgang

Table

Identifier marginalia, paragraphes et titres dans les protocoles judiciaires

Les archives judiciaires historiques, les protocoles gouvernementaux et les documents officiels contiennent des éléments structurés tels que des marginalia, des paragraphes numérotés, des titres et des annotations. Les Field Models détectent ces composants structurels à travers des siècles de pratiques administratives changeantes.

Fields extracted:MarginaliaParagraphesTitresEn-têtesTamponsSignatures

Marginalia

Paragraphe

Marginalia

N° de page

Marginalia

Séparer expéditeur, corps, illustrations et numéros de page dans la correspondance

La correspondance personnelle et officielle couvre des siècles de conventions épistolaires. Les Field Models détectent et séparent les numéros de page, les paragraphes, les illustrations et les autres éléments structurels — des dépêches diplomatiques de l'époque moderne aux lettres dactylographiées du XXe siècle.

Fields extracted:Numéro de pageParagraphesIllustrationsExpéditeurSignatureDate

N° de page

Paragraphe

Illustration

Paragraphe

Distinguer le corps de texte des marginalia, titres et notes de bas de page

Des manuscrits médiévaux aux livres imprimés modernes — les Field Models gèrent les mises en page multi-colonnes, les gloses interlinéaires, les titres courants et les structures de page complexes. Séparez le corps de texte des marginalia, les titres du contenu, les notes de bas de page du texte principal.

Fields extracted:Corps de texteMarginaliaTitresNuméros de pageNotes de bas de pageGloses

Des images de documents aux données structurées

Les Field Models produisent une sortie structurée que vous pouvez exporter sous forme de tableurs, importer dans des bases de données ou publier en ligne.

Sortie structurée

{
  "page": 1,
  "fields": [
    {
      "tag": "Shelfmark",
      "text": "O71 P31P"
    },
    {
      "tag": "Name",
      "text": "Daley, Jeremiah"
    },
    {
      "tag": "Newspaper",
      "text": "Peabody Press"
    },
    {
      "tag": "Details",
      "text": "Resident of Aborn St..."
    },
    {
      "tag": "Reference",
      "text": "Press July 3, 1889"
    }
  ]
}

Spreadsheet export

Page	Cote	Nom	Journal	Détails	Référence
1	O71 P31P	Daley, Jeremiah	Peabody Press	Resident of Aborn St...	Press July 3, 1889
2	O71 P31Q	Davis, Martha	Salem Gazette	Teacher at Essex...	Gazette Aug 12, 1891
3	O71 P31R	Dearborn, William	Lynn Record	Merchant on Main...	Record Jan 5, 1887

Exportez sous forme de tableurs (XLSX, CSV), importez dans des bases de données ou publiez des collections structurées via Transkribus Sites.

XLSXCSVPAGE XMLTEIALTO

Comment ça marche

Des images de documents brutes aux données structurées et exportables en trois étapes de reconnaissance.

Reconnaissance de champs

Exécutez votre Field Model entraîné pour détecter et étiqueter les régions sur chaque page. Le modèle trace des polygones précis autour de chaque champ — cotes, noms, dates ou toute étiquette personnalisée que vous avez définie.

Cote

Nom

Journal

Détails

Référence

Détection des lignes de texte

Transkribus identifie les lignes de texte individuelles au sein de chaque champ détecté. Les modèles de mise en page publics gèrent cette étape automatiquement — aucun entraînement supplémentaire nécessaire.

Reconnaissance de texte

Chaque ligne de texte est transcrite à l'aide des modèles HTR ou OCR de Transkribus. Exportez les résultats structurés sous forme de tableurs, importez-les dans des bases de données ou publiez-les via Transkribus Sites.

CoteO71 P31P

NomDaley, Jeremiah

JournalPeabody Press

DétailsResident of Aborn St. died June 29, 1889...

Référence(In) Press July 3, 1889. p.1.

Comment entraîner un Field Model

Les Field Models ne sont pas pré-construits — vous les entraînez sur vos documents spécifiques. Voici comment cela fonctionne.

Étiqueter vos champs

Ouvrez vos documents dans Transkribus et dessinez des régions autour des champs que vous souhaitez extraire — noms, dates, cotes ou toute catégorie personnalisée. Chaque région reçoit un label pour que le modèle sache quoi chercher.

Name

Date

Details

Ref

Entraîner

Une fois environ 50 pages annotées, soumettez-les pour entraîner votre Field Model personnalisé. Le modèle utilise le transfer learning, donc même de petits jeux de données produisent des résultats exploitables.

~50 pages annotées

Appliquer & itérer

Appliquez votre modèle entraîné à de nouveaux documents — il détecte et étiquette automatiquement les champs. Utilisez les résultats pour corriger les erreurs, ajouter des pages d'entraînement et ré-entraîner pour une meilleure précision.

Name

Date

Details

Ref

Auto

Commencez petit, itérez, passez à l'échelle

Les Field Models utilisent le transfer learning à partir de millions de pages traitées. Commencez avec un jeu d'entraînement gérable, utilisez votre premier modèle pour accélérer l'annotation, puis réentraînez pour des résultats encore meilleurs.

0Pages pour débuter

Commencez avec environ 50 pages annotées pour les mises en page simples. Les documents complexes peuvent nécessiter davantage de données d'entraînement.

0Pour entraîner votre modèle

Cliquez sur entraîner et patientez. Aucune programmation, aucune expertise en ML, aucune infrastructure cloud nécessaire.

Conseils d'entraînement de la communauté

Commencez simplement — entraînez sur environ 50 pages et évaluez. Votre premier modèle est souvent suffisant pour de nombreux cas d'utilisation.
Utilisez votre modèle pour pré-annoter d'autres pages, corrigez-les, puis réentraînez. Chaque itération améliore la précision.
Pour les mises en page complexes ou variables, visez 200 à 500 pages représentatives couvrant différents styles de documents.
Exportez les résultats sous forme de tableurs où les lignes sont des pages et les colonnes vos étiquettes de champs — prêts pour l'import en base de données.

Précision au pixel près

Les Field Models détectent les régions sous forme de polygones détaillés, et non de simples rectangles — essentiel pour les documents réels aux mises en page complexes.

Boîtes englobantes traditionnelles

Des rectangles rigides qui se chevauchent sur du contenu irrégulier. Ne peut pas gérer les marginalia entourant le texte, les tampons chevauchant les champs ou les entrées s'étendant sur des colonnes de largeur variable.

Segmentation d'instances

Détection au niveau du pixel qui suit la forme exacte de chaque champ. Gère les éléments superposés, les formes irrégulières et les types de contenu mixtes. Fonctionne sur tout type de document, des manuscrits médiévaux aux formulaires modernes.

Commencez l'extraction de données structurées dès aujourd'hui

Entraînez votre premier Field Model avec un abonnement Scholar+. Définissez vos champs, annotez quelques pages, et vos documents deviennent des données structurées.

Obtenir Scholar+Parcourir les Field Models