Skip to content
  • Tarifs

Extrayez des donnees structurees de n'importe quel document

Les projets de recherche et de numerisation ont besoin de plus que du texte lisible — ils ont besoin de donnees structurees. Noms, dates, lieux, montants, relations. Transkribus combine la reconnaissance de texte par IA avec l'extraction de tableaux, les Field Models et le balisage d'entites pour transformer les documents manuscrits et imprimes en jeux de donnees structures, prets pour l'analyse, les bases de donnees et les tableurs.

3Methodes d'extraction
CSV + XMLFormats d'export
No codingRequis
TableauxLignes, colonnes, cellules en tableurs
ChampsExtraire des champs nommes des formulaires
EntitesBaliser personnes, lieux, dates
EntrainableModeles personnalises pour vos mises en page

Trois facons d'extraire des donnees de vos documents

Differents types de documents necessitent differentes methodes d'extraction. Transkribus offre les trois — et elles peuvent etre combinees.

Reconnaissance de tableaux sur un document historique

Reconnaissance de tableaux

Detectez les lignes, colonnes et limites de cellules dans les documents tabulaires — registres paroissiaux, recensements, roles fiscaux, grands livres. Chaque cellule devient un point de donnees. Exportez le tableau entier sous forme de tableur ou de XML.

Extraction de champs a partir de formulaires structures

Extraction de champs

Entrainez des modeles pour trouver et extraire des champs specifiques dans des documents structures — dates, noms, numeros de reference, montants. Fonctionne sur des formulaires, des fiches, des certificats et tout document a structure repetitive.

Balisage d'entites dans le texte transcrit

Balisage d'entites

Balisez les personnes, lieux, dates et entites personnalisees dans le texte courant. Les balises deviennent des metadonnees interrogeables. Exportez en TEI-XML ou filtrez les entites balisees comme donnees structurees pour votre base de recherche.

Reconnaissance de tableaux en action

Transkribus detecte la structure en grille des registres tabulaires et extrait chaque cellule dans un tableur structure — pret pour votre base de donnees, votre logiciel de genealogie ou votre pipeline de recherche.

Document with detected table structure
Donnees de tableau extraites
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

L'extraction de champs en action

Les Field Models detectent et extraient des champs de donnees specifiques dans les documents — noms, dates, lieux, references — avec precision et a grande echelle. Entrainez-les sur vos propres mises en page de formulaires pour de meilleurs resultats.

Document with detected fields
Champs extraits

Traitement intelligent de documents

Des images de documents aux bases de recherche

Le workflow typique : telechargez des scans de documents, lancez la reconnaissance de texte par IA pour obtenir du texte exploitable, puis appliquez la reconnaissance de tableaux ou l'extraction de champs pour obtenir des donnees structurees. Exportez en CSV pour les tableurs, en XML pour les bases de donnees, ou injectez directement dans votre pipeline NLP pour la reconnaissance d'entites nommees, la modelisation thematique ou l'analyse de reseaux.
Exportez les tableaux et champs en CSV, Excel ou XML structure
Les balises d'entites s'exportent en TEI-XML avec des coordonnees liees aux images sources
Acces REST API pour les pipelines automatisees d'extraction de donnees OCR
Traitement par lots pour les grandes collections de documents

Entrainable

Entrainez des modeles d'extraction sur votre type de document

Comme les modeles de reconnaissance de texte, les modeles d'extraction de tableaux et de champs peuvent etre entraines sur vos documents specifiques. Si vos registres ont une mise en page unique — un type particulier de registre paroissial, un format de recensement regional, un type de fiche — vous pouvez entrainer un modele personnalise qui comprend cette structure et extrait les donnees des documents manuscrits avec une grande precision.
Modeles de tableaux personnalises pour les mises en page non standard et les registres complexes
Field Models personnalises pour des types de formulaires et fiches specifiques
Sans programmation — l'entrainement se fait dans l'interface visuelle
Les modeles s'ameliorent a mesure que vous ajoutez des donnees d'entrainement
Partagez les modeles entraines avec votre equipe ou la communaute

Cas d'utilisation

Ce que les chercheurs extraient avec Transkribus

Des institutions et des chercheurs du monde entier utilisent Transkribus pour extraire des donnees structurees de documents historiques a grande echelle. Des bases de donnees genealogiques construites a partir de registres paroissiaux a la recherche economique basee sur des registres de commerce coloniaux — les memes outils d'extraction alimentent des centaines de projets de recherche differents.
Registres paroissiaux → noms, dates, relations pour les bases genealogiques
Recensements → donnees demographiques pour les etudes de population
Roles fiscaux et grands livres → donnees economiques pour l'analyse historique
Fiches et catalogues → metadonnees structurees pour les systemes de bibliotheques
Correspondance → personnes et lieux balises pour l'analyse de reseaux

Specialistes de l'ecriture manuscrite

La seule plateforme IDP concue pour l'ecriture manuscrite

La plupart des plateformes de traitement intelligent de documents se concentrent sur les formulaires imprimes modernes — factures, recus, contrats. Transkribus est different : il a ete concu des le depart pour les documents manuscrits et historiques. Nos modeles IA gerent des siecles de styles d'ecriture, le papier degrade, les mises en page irregulieres et les ecritures mixtes qui mettent en echec les outils OCR generalistes.
Plus de 500 000 utilisateurs traitant des documents manuscrits
Plus de 300 modeles IA publics pour l'ecriture historique
Fonctionne dans plus de 100 langues et tous les principaux systemes d'ecriture
Heberge dans l'UE et conforme au RGPD — vos documents restent en Europe

Commencez a extraire des donnees de vos documents

Creez un compte gratuit. Telechargez vos scans, lancez la reconnaissance de texte et extrayez des donnees structurees — sans programmation, sans expertise en ML.

300+Modeles IA publics
CSV + XMLFormats d'export
EU-hostedConforme au RGPD