Extraiga datos estructurados de cualquier documento

Los proyectos de investigacion y digitalizacion necesitan mas que texto legible — necesitan datos estructurados. Nombres, fechas, lugares, cantidades, relaciones. Transkribus combina el reconocimiento de texto con IA con la extraccion de tablas, los Field Models y el etiquetado de entidades para convertir documentos manuscritos e impresos en conjuntos de datos estructurados listos para el analisis, bases de datos y hojas de calculo.

Extraer gratis Ver en accion

3Metodos de extraccion

CSV + XMLFormatos de exportacion

No codingRequerido

TablasFilas, columnas, celdas en hojas de calculo

CamposExtraer campos nombrados de formularios

EntidadesEtiquetar personas, lugares, fechas

EntrenableModelos personalizados para sus disenos

Reconocimiento de tablas

Detecte filas, columnas y limites de celdas en documentos tabulares — registros parroquiales, censos, padrones fiscales, libros de cuentas. Cada celda se convierte en un dato. Exporte la tabla completa como hoja de calculo o XML.

Extraccion de campos

Entrene modelos para encontrar y extraer campos especificos de documentos estructurados — fechas, nombres, numeros de referencia, cantidades. Funciona con formularios, fichas, certificados y cualquier documento con estructura repetitiva.

Etiquetado de entidades

Etiquete personas, lugares, fechas y entidades personalizadas en texto corrido. Las etiquetas se convierten en metadatos consultables. Exporte como TEI-XML o filtre las entidades etiquetadas como datos estructurados para su base de investigacion.

Vea el reconocimiento de tablas en accion

Transkribus detecta la estructura de cuadricula de los registros tabulares y extrae cada celda en una hoja de calculo estructurada — lista para su base de datos, software genealogico o pipeline de investigacion.

Datos de tabla extraidos

Institution	Town	Amount	Object	Date	Disposition
Franklin College (6)	New Athen, O.		General	3/23/16
Fargo College (3)	Fargo, N.D.	100,000	Endowment	4/27/16	Gen 1914, 5/18/16
Franklin Academy (2)	Franklin, Neb.	5,000	Library Building	8/3/16	Gen 1914, 8/7/16
Fessenden Acad. & Ind. School	Fessenden, Fla.		General	12/22/16
Ferris Institute (2)	Big Rapids, Mich.	50,000	Buildings	2/12/17
Findlay College (2)	Findlay, O.	100,000	Endowment	5/23/17	Gen 1914, 5/28/17
Fairmount College	Wichita, Kan.	200,000	Endowment	6/7/17	6/14/17
Franklin College	Franklin, Ind.	50,000	General	9/13/17	Gen 1914, 9/17/17
Fisk University	Nashville, Tenn.	1,000,000	Endowment	6/14/18
Friends University	Wichita, Kan.	200,000	Endowment	6/20/18	Gen 1914, 8/8/18

Vea la extraccion de campos en accion

Los Field Models detectan y extraen campos de datos especificos de los documentos — nombres, fechas, lugares, referencias — con precision y a gran escala. Entrene con sus propios disenos de formularios para obtener los mejores resultados.

Campos extraidos

Procesamiento inteligente de documentos

De imagenes de documentos a bases de datos de investigacion

El flujo de trabajo tipico: suba escaneos de documentos, ejecute el reconocimiento de texto por IA para obtener texto legible por maquinas, luego aplique el reconocimiento de tablas o la extraccion de campos para obtener datos estructurados. Exporte como CSV para hojas de calculo, como XML para bases de datos, o alimente directamente su pipeline de NLP para reconocimiento de entidades nombradas, modelado de temas o analisis de redes.

Exporte tablas y campos como CSV, Excel o XML estructurado

Las etiquetas de entidades se exportan como TEI-XML con coordenadas vinculadas a las imagenes originales

Acceso a REST API para pipelines automatizadas de extraccion de datos OCR

Procesamiento por lotes para grandes colecciones de documentos

Entrenable

Entrene modelos de extraccion para su tipo de documento especifico

Al igual que los modelos de reconocimiento de texto, los modelos de extraccion de tablas y campos se pueden entrenar con sus documentos especificos. Si sus registros tienen un diseno unico — un tipo particular de registro parroquial, un formato de censo regional, un tipo de ficha — puede entrenar un modelo personalizado que entienda esa estructura y extraiga datos de documentos manuscritos con alta precision.

Modelos de tablas personalizados para disenos no estandar y registros complejos

Field Models personalizados para tipos de formularios y fichas especificos

Sin programacion — el entrenamiento se realiza en la interfaz visual

Los modelos mejoran a medida que se anaden mas datos de entrenamiento

Comparta modelos entrenados con su equipo o la comunidad

Casos de uso

Lo que los investigadores extraen con Transkribus

Instituciones e investigadores de todo el mundo utilizan Transkribus para extraer datos estructurados de documentos historicos a gran escala. Desde bases genealogicas construidas a partir de registros parroquiales hasta investigacion economica basada en libros de comercio colonial — las mismas herramientas de extraccion impulsan cientos de proyectos de investigacion diferentes.

Registros parroquiales → nombres, fechas, relaciones para bases genealogicas

Censos → datos demograficos para estudios de poblacion

Padrones fiscales y libros de cuentas → datos economicos para el analisis historico

Fichas y catalogos → metadatos estructurados para sistemas bibliotecarios

Correspondencia → personas y lugares etiquetados para el analisis de redes

Especialistas en escritura manuscrita

La unica plataforma IDP creada para la escritura manuscrita

La mayoria de las plataformas de procesamiento inteligente de documentos se centran en formularios impresos modernos — facturas, recibos, contratos. Transkribus es diferente: fue creado desde cero para documentos manuscritos e historicos. Nuestros modelos de IA manejan siglos de estilos de escritura, papel degradado, disenos irregulares y escrituras mixtas que superan a las herramientas OCR convencionales.

Mas de 500.000 usuarios procesando documentos manuscritos

Mas de 300 modelos IA publicos para escritura historica

Funciona en mas de 100 idiomas y todos los principales sistemas de escritura

Alojado en la UE y compatible con el RGPD — sus documentos permanecen en Europa

Empiece a extraer datos de sus documentos

Cree una cuenta gratuita. Suba sus escaneos, ejecute el reconocimiento de texto y extraiga datos estructurados — sin programacion, sin conocimientos de ML.

Empezar gratis Reservar una consulta

300+Modelos IA publicos