Extraire des données structurées de n'importe quel document
Les Transkribus Field Models utilisent la segmentation d'instances pour détecter et extraire des champs spécifiques de vos documents — manuscrits ou imprimés, historiques ou modernes. Définissez vos champs, entraînez votre modèle, traitez votre collection.
Commencez à entraîner votre modèle
Voyez-le en action
Les Field Models détectent et extraient des éléments structurels spécifiques de vos documents — avec précision et à grande échelle.

Qu'avez-vous besoin d'extraire ?
Des chercheurs, archivistes et institutions du monde entier entraînent des Field Models sur leurs documents spécifiques. Voici les applications les plus courantes.
Segmentez articles, titres et publicités depuis les pages de journaux
Les journaux historiques présentent des mises en page complexes multi-colonnes avec des articles entourant les images et s'étendant sur plusieurs pages. Les Field Models détectent les articles individuels, les titres, les publicités, les signatures d'auteurs et les légendes — vous offrant un accès structuré à un contenu auparavant enfermé dans des images de pages.

Extraire des champs structurés de fiches de catalogue et de fiches index
Les bibliothèques, musées et archives détiennent des millions de fiches — fiches de catalogue, registres d'acquisition, instruments de recherche, fiches de patients. Chaque type de fiche a sa propre mise en page, mais un Field Model bien entraîné gère les variations et extrait les données structurées à grande échelle.

Extraire noms, dates et lieux de registres manuscrits
Registres paroissiaux, actes d'état civil, rôles militaires — les piliers de la recherche généalogique et démographique. Les Field Models détectent les entrées structurées à travers des siècles de pratiques d'enregistrement en évolution, gérant différents scribes, formats et langues.

Identifier marginalia, paragraphes et titres dans les protocoles judiciaires
Les archives judiciaires historiques, les protocoles gouvernementaux et les documents officiels contiennent des éléments structurés tels que des marginalia, des paragraphes numérotés, des titres et des annotations. Les Field Models détectent ces composants structurels à travers des siècles de pratiques administratives changeantes.

Séparer expéditeur, corps, illustrations et numéros de page dans la correspondance
La correspondance personnelle et officielle couvre des siècles de conventions épistolaires. Les Field Models détectent et séparent les numéros de page, les paragraphes, les illustrations et les autres éléments structurels — des dépêches diplomatiques de l'époque moderne aux lettres dactylographiées du XXe siècle.

Distinguer le corps de texte des marginalia, titres et notes de bas de page
Des manuscrits médiévaux aux livres imprimés modernes — les Field Models gèrent les mises en page multi-colonnes, les gloses interlinéaires, les titres courants et les structures de page complexes. Séparez le corps de texte des marginalia, les titres du contenu, les notes de bas de page du texte principal.
Des images de documents aux données structurées
Les Field Models produisent une sortie structurée que vous pouvez exporter sous forme de tableurs, importer dans des bases de données ou publier en ligne.
{
"page": 1,
"fields": [
{
"tag": "Shelfmark",
"text": "O71 P31P"
},
{
"tag": "Name",
"text": "Daley, Jeremiah"
},
{
"tag": "Newspaper",
"text": "Peabody Press"
},
{
"tag": "Details",
"text": "Resident of Aborn St..."
},
{
"tag": "Reference",
"text": "Press July 3, 1889"
}
]
}| Page | Cote | Nom | Journal | Détails | Référence |
|---|---|---|---|---|---|
| 1 | O71 P31P | Daley, Jeremiah | Peabody Press | Resident of Aborn St... | Press July 3, 1889 |
| 2 | O71 P31Q | Davis, Martha | Salem Gazette | Teacher at Essex... | Gazette Aug 12, 1891 |
| 3 | O71 P31R | Dearborn, William | Lynn Record | Merchant on Main... | Record Jan 5, 1887 |
Exportez sous forme de tableurs (XLSX, CSV), importez dans des bases de données ou publiez des collections structurées via Transkribus Sites.
Comment ça marche
Des images de documents brutes aux données structurées et exportables en trois étapes de reconnaissance.
Reconnaissance de champs
Exécutez votre Field Model entraîné pour détecter et étiqueter les régions sur chaque page. Le modèle trace des polygones précis autour de chaque champ — cotes, noms, dates ou toute étiquette personnalisée que vous avez définie.

Détection des lignes de texte
Transkribus identifie les lignes de texte individuelles au sein de chaque champ détecté. Les modèles de mise en page publics gèrent cette étape automatiquement — aucun entraînement supplémentaire nécessaire.

Reconnaissance de texte
Chaque ligne de texte est transcrite à l'aide des modèles HTR ou OCR de Transkribus. Exportez les résultats structurés sous forme de tableurs, importez-les dans des bases de données ou publiez-les via Transkribus Sites.
Comment entraîner un Field Model
Les Field Models ne sont pas pré-construits — vous les entraînez sur vos documents spécifiques. Voici comment cela fonctionne.
Étiqueter vos champs
Ouvrez vos documents dans Transkribus et dessinez des régions autour des champs que vous souhaitez extraire — noms, dates, cotes ou toute catégorie personnalisée. Chaque région reçoit un label pour que le modèle sache quoi chercher.
Entraîner
Une fois environ 50 pages annotées, soumettez-les pour entraîner votre Field Model personnalisé. Le modèle utilise le transfer learning, donc même de petits jeux de données produisent des résultats exploitables.
Appliquer & itérer
Appliquez votre modèle entraîné à de nouveaux documents — il détecte et étiquette automatiquement les champs. Utilisez les résultats pour corriger les erreurs, ajouter des pages d'entraînement et ré-entraîner pour une meilleure précision.
Commencez petit, itérez, passez à l'échelle
Les Field Models utilisent le transfer learning à partir de millions de pages traitées. Commencez avec un jeu d'entraînement gérable, utilisez votre premier modèle pour accélérer l'annotation, puis réentraînez pour des résultats encore meilleurs.
Commencez avec environ 50 pages annotées pour les mises en page simples. Les documents complexes peuvent nécessiter davantage de données d'entraînement.
Cliquez sur entraîner et patientez. Aucune programmation, aucune expertise en ML, aucune infrastructure cloud nécessaire.
Conseils d'entraînement de la communauté
- Commencez simplement — entraînez sur environ 50 pages et évaluez. Votre premier modèle est souvent suffisant pour de nombreux cas d'utilisation.
- Utilisez votre modèle pour pré-annoter d'autres pages, corrigez-les, puis réentraînez. Chaque itération améliore la précision.
- Pour les mises en page complexes ou variables, visez 200 à 500 pages représentatives couvrant différents styles de documents.
- Exportez les résultats sous forme de tableurs où les lignes sont des pages et les colonnes vos étiquettes de champs — prêts pour l'import en base de données.
Précision au pixel près
Les Field Models détectent les régions sous forme de polygones détaillés, et non de simples rectangles — essentiel pour les documents réels aux mises en page complexes.
Boîtes englobantes traditionnelles
Des rectangles rigides qui se chevauchent sur du contenu irrégulier. Ne peut pas gérer les marginalia entourant le texte, les tampons chevauchant les champs ou les entrées s'étendant sur des colonnes de largeur variable.
Segmentation d'instances
Détection au niveau du pixel qui suit la forme exacte de chaque champ. Gère les éléments superposés, les formes irrégulières et les types de contenu mixtes. Fonctionne sur tout type de document, des manuscrits médiévaux aux formulaires modernes.
Commencez l'extraction de données structurées dès aujourd'hui
Entraînez votre premier Field Model avec un abonnement Scholar+. Définissez vos champs, annotez quelques pages, et vos documents deviennent des données structurées.