Extraiga datos estructurados de cualquier documento

Los Field Models de Transkribus utilizan segmentación de instancias para detectar y extraer campos específicos de sus documentos, manuscritos o impresos, históricos o modernos. Defina sus campos, entrene su modelo y procese su colección.

Comience a entrenar su modelo

Signatura

Nombre

Periódico

Detalles

Referencia

Véalo en acción

Los Field Models detectan y extraen elementos estructurales específicos de sus documentos, con precisión y a escala.

Extracted Fields

Una tecnología, decenas de casos de uso

Investigadores, archiveros e instituciones de todo el mundo entrenan Field Models con sus documentos específicos. Estos son los casos de uso más frecuentes.

Segmente artículos, titulares y anuncios de páginas de periódicos

Los periódicos históricos tienen diseños complejos de múltiples columnas con artículos que rodean imágenes y abarcan varias páginas. Los Field Models detectan artículos individuales, titulares, anuncios, líneas de autoría y pies de foto, proporcionándole acceso estructurado a contenido que antes estaba encerrado en imágenes de páginas.

Fields extracted:TitularesCuerpos de artículosAnunciosLíneas de autoríaPies de fotoColumnas

Extraiga campos estructurados de fichas de catálogo e índice

Bibliotecas, museos y archivos albergan millones de fichas: fichas de catálogo, registros de adquisiciones, instrumentos de descripción, fichas de pacientes. Cada tipo de ficha tiene su propio diseño, pero un Field Model bien entrenado maneja la variación y extrae datos estructurados a escala.

Fields extracted:NombreFechaNúmero de referenciaCategoríaDescripciónUbicación

Signatura

Nombre

Periódico

Detalles

Referencia

Extraiga nombres, fechas y lugares de registros manuscritos

Registros parroquiales, registros civiles, listas militares: la columna vertebral de la investigación genealógica y demográfica. Los Field Models detectan entradas estructuradas a lo largo de siglos de prácticas de registro en evolución, manejando diferentes escribanos, formatos e idiomas.

Fields extracted:LugarNombreAñoDatos tabularesFecha de registroNotas marginales

Ort

Name

Jahrgang

Table

Identifique notas marginales, párrafos y encabezados en protocolos judiciales

Las actas judiciales históricas, los protocolos gubernamentales y los documentos oficiales contienen elementos estructurados como notas marginales, párrafos numerados, encabezados y anotaciones. Los Field Models detectan estos componentes estructurales a lo largo de siglos de prácticas administrativas cambiantes.

Fields extracted:Notas marginalesPárrafosEncabezadosCabecerasSellosFirmas

Notas marginales

Párrafo

Notas marginales

N.º de pág.

Notas marginales

Separe remitente, cuerpo, ilustraciones y números de página en correspondencia

La correspondencia personal y oficial abarca siglos de convenciones epistolares. Los Field Models detectan y separan números de página, párrafos, ilustraciones y otros elementos estructurales, desde despachos diplomáticos de la Edad Moderna hasta cartas mecanografiadas del siglo XX.

Fields extracted:Número de páginaPárrafosIlustracionesRemitenteFirmaFecha

N.º de pág.

Párrafo

Ilustración

Párrafo

Distinga el texto principal de las notas marginales, encabezados y notas al pie

De manuscritos medievales a libros impresos modernos: los Field Models manejan diseños de múltiples columnas, glosas interlineales, encabezados continuos y estructuras de página complejas. Separe el texto principal de las notas marginales, los encabezados del contenido y las notas al pie del texto principal.

Fields extracted:Texto principalNotas marginalesEncabezadosNúmeros de páginaNotas al pieGlosas

De imágenes de documentos a datos estructurados

Los Field Models producen una salida estructurada que puede exportar como hojas de cálculo, importar a bases de datos o publicar en línea.

Salida estructurada

{
  "page": 1,
  "fields": [
    {
      "tag": "Shelfmark",
      "text": "O71 P31P"
    },
    {
      "tag": "Name",
      "text": "Daley, Jeremiah"
    },
    {
      "tag": "Newspaper",
      "text": "Peabody Press"
    },
    {
      "tag": "Details",
      "text": "Resident of Aborn St..."
    },
    {
      "tag": "Reference",
      "text": "Press July 3, 1889"
    }
  ]
}

Spreadsheet export

Página	Signatura	Nombre	Periódico	Detalles	Referencia
1	O71 P31P	Daley, Jeremiah	Peabody Press	Resident of Aborn St...	Press July 3, 1889
2	O71 P31Q	Davis, Martha	Salem Gazette	Teacher at Essex...	Gazette Aug 12, 1891
3	O71 P31R	Dearborn, William	Lynn Record	Merchant on Main...	Record Jan 5, 1887

Exporte como hojas de cálculo (XLSX, CSV), importe a bases de datos o publique colecciones estructuradas a través de Transkribus Sites.

XLSXCSVPAGE XMLTEIALTO

Cómo funciona

De imágenes de documentos sin procesar a datos estructurados y exportables en tres pasos de reconocimiento.

Reconocimiento de campos

Ejecute su Field Model entrenado para detectar y etiquetar regiones en cada página. El modelo dibuja polígonos precisos alrededor de cada campo: signaturas, nombres, fechas o cualquier etiqueta personalizada que haya definido.

Signatura

Nombre

Periódico

Detalles

Referencia

Detección de líneas de texto

Transkribus detecta líneas de texto individuales dentro de cada campo identificado. Los modelos de diseño públicos gestionan este paso automáticamente, sin necesidad de entrenamiento adicional.

Reconocimiento de texto

Cada línea de texto se transcribe utilizando los modelos HTR u OCR de Transkribus. Exporte los resultados estructurados como hojas de cálculo, impórtelos a bases de datos o publíquelos a través de Transkribus Sites.

SignaturaO71 P31P

NombreDaley, Jeremiah

PeriódicoPeabody Press

DetallesResident of Aborn St. died June 29, 1889...

Referencia(In) Press July 3, 1889. p.1.

Cómo entrenar un Field Model

Los Field Models no vienen preconstruidos — los entrena usted con sus documentos específicos. Así es como funciona.

Etiquetar sus campos

Abra sus documentos en Transkribus y dibuje regiones alrededor de los campos que desea extraer: nombres, fechas, signaturas o cualquier categoría personalizada. Cada región recibe una etiqueta para que el modelo sepa qué buscar.

Name

Date

Details

Ref

Entrenar

Una vez que haya anotado unas 50 páginas, envíelas para entrenar su Field Model personalizado. El modelo utiliza transfer learning, por lo que incluso conjuntos de datos pequeños producen resultados útiles.

~50 páginas anotadas

Aplicar e iterar

Aplique su modelo entrenado a nuevos documentos: detecta y etiqueta automáticamente los campos. Use los resultados para corregir errores, añadir más páginas de entrenamiento y reentrenar para mayor precisión.

Name

Date

Details

Ref

Auto

Empiece con poco, itere y escale

Los Field Models utilizan aprendizaje por transferencia a partir de millones de páginas procesadas. Comience con un conjunto de entrenamiento manejable, use su primer modelo para acelerar la anotación y luego reentrene para obtener resultados aún mejores.

0Páginas para empezar

Comience con unas 50 páginas anotadas para diseños sencillos. Los documentos complejos pueden beneficiarse de más datos de entrenamiento.

0Para entrenar su modelo

Haga clic en entrenar y espere. Sin programación, sin experiencia en ML, sin infraestructura en la nube.

Consejos de entrenamiento de la comunidad

Empiece con algo sencillo: entrene con unas 50 páginas y evalúe. Su primer modelo suele ser suficiente para muchos casos de uso.
Use su modelo para preanotar más páginas, corríjalas y luego reentrene. Cada iteración mejora la precisión.
Para diseños complejos o variables, apunte a 200-500 páginas representativas de diferentes estilos de documentos.
Exporte los resultados como hojas de cálculo donde las filas son páginas y las columnas son sus etiquetas de campo, listas para importar a bases de datos.

Precisión a nivel de píxel

Los Field Models detectan regiones como polígonos detallados, no como simples rectángulos, algo fundamental para documentos reales con diseños complejos.

Cuadros delimitadores tradicionales

Rectángulos rígidos que se superponen en contenido irregular. No pueden manejar notas marginales que rodean el texto, sellos que se superponen a los campos ni entradas que abarcan columnas de ancho variable.

Segmentación de instancias

Detección a nivel de píxel que sigue la forma exacta de cada campo. Maneja elementos superpuestos, formas irregulares y tipos de contenido mixtos. Funciona con cualquier documento, desde manuscritos medievales hasta formularios modernos.

Comience a extraer datos estructurados hoy

Entrene su primer Field Model con un plan Scholar+. Defina sus campos, anote algunas páginas y sus documentos se convertirán en datos estructurados.

Obtener Scholar+Explorar modelos de campo