Extrayez des donnees structurees de n'importe quel document

Les projets de recherche et de numerisation ont besoin de plus que du texte lisible — ils ont besoin de donnees structurees. Noms, dates, lieux, montants, relations. Transkribus combine la reconnaissance de texte par IA avec l'extraction de tableaux, les Field Models et le balisage d'entites pour transformer les documents manuscrits et imprimes en jeux de donnees structures, prets pour l'analyse, les bases de donnees et les tableurs.

Extraire gratuitement Voir en action

3Methodes d'extraction

CSV + XMLFormats d'export

No codingRequis

TableauxLignes, colonnes, cellules en tableurs

ChampsExtraire des champs nommes des formulaires

EntitesBaliser personnes, lieux, dates

EntrainableModeles personnalises pour vos mises en page

Reconnaissance de tableaux

Detectez les lignes, colonnes et limites de cellules dans les documents tabulaires — registres paroissiaux, recensements, roles fiscaux, grands livres. Chaque cellule devient un point de donnees. Exportez le tableau entier sous forme de tableur ou de XML.

Extraction de champs

Entrainez des modeles pour trouver et extraire des champs specifiques dans des documents structures — dates, noms, numeros de reference, montants. Fonctionne sur des formulaires, des fiches, des certificats et tout document a structure repetitive.

Balisage d'entites

Balisez les personnes, lieux, dates et entites personnalisees dans le texte courant. Les balises deviennent des metadonnees interrogeables. Exportez en TEI-XML ou filtrez les entites balisees comme donnees structurees pour votre base de recherche.

Reconnaissance de tableaux en action

Transkribus detecte la structure en grille des registres tabulaires et extrait chaque cellule dans un tableur structure — pret pour votre base de donnees, votre logiciel de genealogie ou votre pipeline de recherche.

Donnees de tableau extraites

Institution	Town	Amount	Object	Date	Disposition
Franklin College (6)	New Athen, O.		General	3/23/16
Fargo College (3)	Fargo, N.D.	100,000	Endowment	4/27/16	Gen 1914, 5/18/16
Franklin Academy (2)	Franklin, Neb.	5,000	Library Building	8/3/16	Gen 1914, 8/7/16
Fessenden Acad. & Ind. School	Fessenden, Fla.		General	12/22/16
Ferris Institute (2)	Big Rapids, Mich.	50,000	Buildings	2/12/17
Findlay College (2)	Findlay, O.	100,000	Endowment	5/23/17	Gen 1914, 5/28/17
Fairmount College	Wichita, Kan.	200,000	Endowment	6/7/17	6/14/17
Franklin College	Franklin, Ind.	50,000	General	9/13/17	Gen 1914, 9/17/17
Fisk University	Nashville, Tenn.	1,000,000	Endowment	6/14/18
Friends University	Wichita, Kan.	200,000	Endowment	6/20/18	Gen 1914, 8/8/18

L'extraction de champs en action

Les Field Models detectent et extraient des champs de donnees specifiques dans les documents — noms, dates, lieux, references — avec precision et a grande echelle. Entrainez-les sur vos propres mises en page de formulaires pour de meilleurs resultats.

Champs extraits

Traitement intelligent de documents

Des images de documents aux bases de recherche

Le workflow typique : telechargez des scans de documents, lancez la reconnaissance de texte par IA pour obtenir du texte exploitable, puis appliquez la reconnaissance de tableaux ou l'extraction de champs pour obtenir des donnees structurees. Exportez en CSV pour les tableurs, en XML pour les bases de donnees, ou injectez directement dans votre pipeline NLP pour la reconnaissance d'entites nommees, la modelisation thematique ou l'analyse de reseaux.

Exportez les tableaux et champs en CSV, Excel ou XML structure

Les balises d'entites s'exportent en TEI-XML avec des coordonnees liees aux images sources

Acces REST API pour les pipelines automatisees d'extraction de donnees OCR

Traitement par lots pour les grandes collections de documents

Entrainable

Entrainez des modeles d'extraction sur votre type de document

Comme les modeles de reconnaissance de texte, les modeles d'extraction de tableaux et de champs peuvent etre entraines sur vos documents specifiques. Si vos registres ont une mise en page unique — un type particulier de registre paroissial, un format de recensement regional, un type de fiche — vous pouvez entrainer un modele personnalise qui comprend cette structure et extrait les donnees des documents manuscrits avec une grande precision.

Modeles de tableaux personnalises pour les mises en page non standard et les registres complexes

Field Models personnalises pour des types de formulaires et fiches specifiques

Sans programmation — l'entrainement se fait dans l'interface visuelle

Les modeles s'ameliorent a mesure que vous ajoutez des donnees d'entrainement

Partagez les modeles entraines avec votre equipe ou la communaute

Cas d'utilisation

Ce que les chercheurs extraient avec Transkribus

Des institutions et des chercheurs du monde entier utilisent Transkribus pour extraire des donnees structurees de documents historiques a grande echelle. Des bases de donnees genealogiques construites a partir de registres paroissiaux a la recherche economique basee sur des registres de commerce coloniaux — les memes outils d'extraction alimentent des centaines de projets de recherche differents.

Registres paroissiaux → noms, dates, relations pour les bases genealogiques

Recensements → donnees demographiques pour les etudes de population

Roles fiscaux et grands livres → donnees economiques pour l'analyse historique

Fiches et catalogues → metadonnees structurees pour les systemes de bibliotheques

Correspondance → personnes et lieux balises pour l'analyse de reseaux

Specialistes de l'ecriture manuscrite

La seule plateforme IDP concue pour l'ecriture manuscrite

La plupart des plateformes de traitement intelligent de documents se concentrent sur les formulaires imprimes modernes — factures, recus, contrats. Transkribus est different : il a ete concu des le depart pour les documents manuscrits et historiques. Nos modeles IA gerent des siecles de styles d'ecriture, le papier degrade, les mises en page irregulieres et les ecritures mixtes qui mettent en echec les outils OCR generalistes.

Plus de 500 000 utilisateurs traitant des documents manuscrits

Plus de 300 modeles IA publics pour l'ecriture historique

Fonctionne dans plus de 100 langues et tous les principaux systemes d'ecriture

Heberge dans l'UE et conforme au RGPD — vos documents restent en Europe

Commencez a extraire des donnees de vos documents

Creez un compte gratuit. Telechargez vos scans, lancez la reconnaissance de texte et extrayez des donnees structurees — sans programmation, sans expertise en ML.

Commencer gratuitement Prendre rendez-vous

300+Modeles IA publics