Skip to content
  • Precios

Extraiga datos estructurados de cualquier documento

Los proyectos de investigacion y digitalizacion necesitan mas que texto legible — necesitan datos estructurados. Nombres, fechas, lugares, cantidades, relaciones. Transkribus combina el reconocimiento de texto con IA con la extraccion de tablas, los Field Models y el etiquetado de entidades para convertir documentos manuscritos e impresos en conjuntos de datos estructurados listos para el analisis, bases de datos y hojas de calculo.

3Metodos de extraccion
CSV + XMLFormatos de exportacion
No codingRequerido
TablasFilas, columnas, celdas en hojas de calculo
CamposExtraer campos nombrados de formularios
EntidadesEtiquetar personas, lugares, fechas
EntrenableModelos personalizados para sus disenos

Tres formas de extraer datos de documentos

Diferentes tipos de documentos requieren diferentes metodos de extraccion. Transkribus ofrece los tres — y se pueden combinar.

Reconocimiento de tablas en documento historico

Reconocimiento de tablas

Detecte filas, columnas y limites de celdas en documentos tabulares — registros parroquiales, censos, padrones fiscales, libros de cuentas. Cada celda se convierte en un dato. Exporte la tabla completa como hoja de calculo o XML.

Extraccion de campos de formularios estructurados

Extraccion de campos

Entrene modelos para encontrar y extraer campos especificos de documentos estructurados — fechas, nombres, numeros de referencia, cantidades. Funciona con formularios, fichas, certificados y cualquier documento con estructura repetitiva.

Etiquetado de entidades en texto transcrito

Etiquetado de entidades

Etiquete personas, lugares, fechas y entidades personalizadas en texto corrido. Las etiquetas se convierten en metadatos consultables. Exporte como TEI-XML o filtre las entidades etiquetadas como datos estructurados para su base de investigacion.

Vea el reconocimiento de tablas en accion

Transkribus detecta la estructura de cuadricula de los registros tabulares y extrae cada celda en una hoja de calculo estructurada — lista para su base de datos, software genealogico o pipeline de investigacion.

Document with detected table structure
Datos de tabla extraidos
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

Vea la extraccion de campos en accion

Los Field Models detectan y extraen campos de datos especificos de los documentos — nombres, fechas, lugares, referencias — con precision y a gran escala. Entrene con sus propios disenos de formularios para obtener los mejores resultados.

Document with detected fields
Campos extraidos

Procesamiento inteligente de documentos

De imagenes de documentos a bases de datos de investigacion

El flujo de trabajo tipico: suba escaneos de documentos, ejecute el reconocimiento de texto por IA para obtener texto legible por maquinas, luego aplique el reconocimiento de tablas o la extraccion de campos para obtener datos estructurados. Exporte como CSV para hojas de calculo, como XML para bases de datos, o alimente directamente su pipeline de NLP para reconocimiento de entidades nombradas, modelado de temas o analisis de redes.
Exporte tablas y campos como CSV, Excel o XML estructurado
Las etiquetas de entidades se exportan como TEI-XML con coordenadas vinculadas a las imagenes originales
Acceso a REST API para pipelines automatizadas de extraccion de datos OCR
Procesamiento por lotes para grandes colecciones de documentos

Entrenable

Entrene modelos de extraccion para su tipo de documento especifico

Al igual que los modelos de reconocimiento de texto, los modelos de extraccion de tablas y campos se pueden entrenar con sus documentos especificos. Si sus registros tienen un diseno unico — un tipo particular de registro parroquial, un formato de censo regional, un tipo de ficha — puede entrenar un modelo personalizado que entienda esa estructura y extraiga datos de documentos manuscritos con alta precision.
Modelos de tablas personalizados para disenos no estandar y registros complejos
Field Models personalizados para tipos de formularios y fichas especificos
Sin programacion — el entrenamiento se realiza en la interfaz visual
Los modelos mejoran a medida que se anaden mas datos de entrenamiento
Comparta modelos entrenados con su equipo o la comunidad

Casos de uso

Lo que los investigadores extraen con Transkribus

Instituciones e investigadores de todo el mundo utilizan Transkribus para extraer datos estructurados de documentos historicos a gran escala. Desde bases genealogicas construidas a partir de registros parroquiales hasta investigacion economica basada en libros de comercio colonial — las mismas herramientas de extraccion impulsan cientos de proyectos de investigacion diferentes.
Registros parroquiales → nombres, fechas, relaciones para bases genealogicas
Censos → datos demograficos para estudios de poblacion
Padrones fiscales y libros de cuentas → datos economicos para el analisis historico
Fichas y catalogos → metadatos estructurados para sistemas bibliotecarios
Correspondencia → personas y lugares etiquetados para el analisis de redes

Especialistas en escritura manuscrita

La unica plataforma IDP creada para la escritura manuscrita

La mayoria de las plataformas de procesamiento inteligente de documentos se centran en formularios impresos modernos — facturas, recibos, contratos. Transkribus es diferente: fue creado desde cero para documentos manuscritos e historicos. Nuestros modelos de IA manejan siglos de estilos de escritura, papel degradado, disenos irregulares y escrituras mixtas que superan a las herramientas OCR convencionales.
Mas de 500.000 usuarios procesando documentos manuscritos
Mas de 300 modelos IA publicos para escritura historica
Funciona en mas de 100 idiomas y todos los principales sistemas de escritura
Alojado en la UE y compatible con el RGPD — sus documentos permanecen en Europa

Empiece a extraer datos de sus documentos

Cree una cuenta gratuita. Suba sus escaneos, ejecute el reconocimiento de texto y extraiga datos estructurados — sin programacion, sin conocimientos de ML.

300+Modelos IA publicos
CSV + XMLFormatos de exportacion
EU-hostedCompatible con el RGPD