Skip to content
  • Precios

Extraiga datos estructurados de cualquier documento

Los Field Models de Transkribus utilizan segmentación de instancias para detectar y extraer campos específicos de sus documentos, manuscritos o impresos, históricos o modernos. Defina sus campos, entrene su modelo y procese su colección.

Comience a entrenar su modelo
Index card with detected fields
Signatura
Nombre
Periódico
Detalles
Referencia

Véalo en acción

Los Field Models detectan y extraen elementos estructurales específicos de sus documentos, con precisión y a escala.

Document example
Extracted Fields

Una tecnología, decenas de casos de uso

Investigadores, archiveros e instituciones de todo el mundo entrenan Field Models con sus documentos específicos. Estos son los casos de uso más frecuentes.

Segmente artículos, titulares y anuncios de páginas de periódicos

Los periódicos históricos tienen diseños complejos de múltiples columnas con artículos que rodean imágenes y abarcan varias páginas. Los Field Models detectan artículos individuales, titulares, anuncios, líneas de autoría y pies de foto, proporcionándole acceso estructurado a contenido que antes estaba encerrado en imágenes de páginas.

Fields extracted:TitularesCuerpos de artículosAnunciosLíneas de autoríaPies de fotoColumnas
Document example

Extraiga campos estructurados de fichas de catálogo e índice

Bibliotecas, museos y archivos albergan millones de fichas: fichas de catálogo, registros de adquisiciones, instrumentos de descripción, fichas de pacientes. Cada tipo de ficha tiene su propio diseño, pero un Field Model bien entrenado maneja la variación y extrae datos estructurados a escala.

Fields extracted:NombreFechaNúmero de referenciaCategoríaDescripciónUbicación
Document example
Signatura
Nombre
Periódico
Detalles
Referencia

Extraiga nombres, fechas y lugares de registros manuscritos

Registros parroquiales, registros civiles, listas militares: la columna vertebral de la investigación genealógica y demográfica. Los Field Models detectan entradas estructuradas a lo largo de siglos de prácticas de registro en evolución, manejando diferentes escribanos, formatos e idiomas.

Fields extracted:LugarNombreAñoDatos tabularesFecha de registroNotas marginales
Document example
Ort
Name
Jahrgang
Table

Identifique notas marginales, párrafos y encabezados en protocolos judiciales

Las actas judiciales históricas, los protocolos gubernamentales y los documentos oficiales contienen elementos estructurados como notas marginales, párrafos numerados, encabezados y anotaciones. Los Field Models detectan estos componentes estructurales a lo largo de siglos de prácticas administrativas cambiantes.

Fields extracted:Notas marginalesPárrafosEncabezadosCabecerasSellosFirmas
Document example
Notas marginales
Párrafo
Párrafo
Notas marginales
N.º de pág.
Notas marginales
Notas marginales

Separe remitente, cuerpo, ilustraciones y números de página en correspondencia

La correspondencia personal y oficial abarca siglos de convenciones epistolares. Los Field Models detectan y separan números de página, párrafos, ilustraciones y otros elementos estructurales, desde despachos diplomáticos de la Edad Moderna hasta cartas mecanografiadas del siglo XX.

Fields extracted:Número de páginaPárrafosIlustracionesRemitenteFirmaFecha
Document example
N.º de pág.
Párrafo
Ilustración
Párrafo
Párrafo

Distinga el texto principal de las notas marginales, encabezados y notas al pie

De manuscritos medievales a libros impresos modernos: los Field Models manejan diseños de múltiples columnas, glosas interlineales, encabezados continuos y estructuras de página complejas. Separe el texto principal de las notas marginales, los encabezados del contenido y las notas al pie del texto principal.

Fields extracted:Texto principalNotas marginalesEncabezadosNúmeros de páginaNotas al pieGlosas

De imágenes de documentos a datos estructurados

Los Field Models producen una salida estructurada que puede exportar como hojas de cálculo, importar a bases de datos o publicar en línea.

Salida estructurada
{
  "page": 1,
  "fields": [
    {
      "tag": "Shelfmark",
      "text": "O71 P31P"
    },
    {
      "tag": "Name",
      "text": "Daley, Jeremiah"
    },
    {
      "tag": "Newspaper",
      "text": "Peabody Press"
    },
    {
      "tag": "Details",
      "text": "Resident of Aborn St..."
    },
    {
      "tag": "Reference",
      "text": "Press July 3, 1889"
    }
  ]
}
Spreadsheet export
PáginaSignaturaNombrePeriódicoDetallesReferencia
1O71 P31PDaley, JeremiahPeabody PressResident of Aborn St...Press July 3, 1889
2O71 P31QDavis, MarthaSalem GazetteTeacher at Essex...Gazette Aug 12, 1891
3O71 P31RDearborn, WilliamLynn RecordMerchant on Main...Record Jan 5, 1887

Exporte como hojas de cálculo (XLSX, CSV), importe a bases de datos o publique colecciones estructuradas a través de Transkribus Sites.

XLSXCSVPAGE XMLTEIALTO

Cómo funciona

De imágenes de documentos sin procesar a datos estructurados y exportables en tres pasos de reconocimiento.

1

Reconocimiento de campos

Ejecute su Field Model entrenado para detectar y etiquetar regiones en cada página. El modelo dibuja polígonos precisos alrededor de cada campo: signaturas, nombres, fechas o cualquier etiqueta personalizada que haya definido.

Field recognition
Signatura
Nombre
Periódico
Detalles
Referencia
2

Detección de líneas de texto

Transkribus detecta líneas de texto individuales dentro de cada campo identificado. Los modelos de diseño públicos gestionan este paso automáticamente, sin necesidad de entrenamiento adicional.

Text line detection
3

Reconocimiento de texto

Cada línea de texto se transcribe utilizando los modelos HTR u OCR de Transkribus. Exporte los resultados estructurados como hojas de cálculo, impórtelos a bases de datos o publíquelos a través de Transkribus Sites.

SignaturaO71 P31P
NombreDaley, Jeremiah
PeriódicoPeabody Press
DetallesResident of Aborn St. died June 29, 1889...
Referencia(In) Press July 3, 1889. p.1.

Cómo entrenar un Field Model

Los Field Models no vienen preconstruidos — los entrena usted con sus documentos específicos. Así es como funciona.

1

Etiquetar sus campos

Abra sus documentos en Transkribus y dibuje regiones alrededor de los campos que desea extraer: nombres, fechas, signaturas o cualquier categoría personalizada. Cada región recibe una etiqueta para que el modelo sepa qué buscar.

Name
Date
Details
Ref
2

Entrenar

Una vez que haya anotado unas 50 páginas, envíelas para entrenar su Field Model personalizado. El modelo utiliza transfer learning, por lo que incluso conjuntos de datos pequeños producen resultados útiles.

~50 páginas anotadas
3

Aplicar e iterar

Aplique su modelo entrenado a nuevos documentos: detecta y etiqueta automáticamente los campos. Use los resultados para corregir errores, añadir más páginas de entrenamiento y reentrenar para mayor precisión.

Name
Date
Details
Ref
Auto

Empiece con poco, itere y escale

Los Field Models utilizan aprendizaje por transferencia a partir de millones de páginas procesadas. Comience con un conjunto de entrenamiento manejable, use su primer modelo para acelerar la anotación y luego reentrene para obtener resultados aún mejores.

0Páginas para empezar

Comience con unas 50 páginas anotadas para diseños sencillos. Los documentos complejos pueden beneficiarse de más datos de entrenamiento.

0Para entrenar su modelo

Haga clic en entrenar y espere. Sin programación, sin experiencia en ML, sin infraestructura en la nube.

Consejos de entrenamiento de la comunidad

  • Empiece con algo sencillo: entrene con unas 50 páginas y evalúe. Su primer modelo suele ser suficiente para muchos casos de uso.
  • Use su modelo para preanotar más páginas, corríjalas y luego reentrene. Cada iteración mejora la precisión.
  • Para diseños complejos o variables, apunte a 200-500 páginas representativas de diferentes estilos de documentos.
  • Exporte los resultados como hojas de cálculo donde las filas son páginas y las columnas son sus etiquetas de campo, listas para importar a bases de datos.

Precisión a nivel de píxel

Los Field Models detectan regiones como polígonos detallados, no como simples rectángulos, algo fundamental para documentos reales con diseños complejos.

Cuadros delimitadores tradicionales

Rectángulos rígidos que se superponen en contenido irregular. No pueden manejar notas marginales que rodean el texto, sellos que se superponen a los campos ni entradas que abarcan columnas de ancho variable.

Segmentación de instancias

Detección a nivel de píxel que sigue la forma exacta de cada campo. Maneja elementos superpuestos, formas irregulares y tipos de contenido mixtos. Funciona con cualquier documento, desde manuscritos medievales hasta formularios modernos.

Comience a extraer datos estructurados hoy

Entrene su primer Field Model con un plan Scholar+. Defina sus campos, anote algunas páginas y sus documentos se convertirán en datos estructurados.