Extraiga datos estructurados de cualquier documento
Los Field Models de Transkribus utilizan segmentación de instancias para detectar y extraer campos específicos de sus documentos, manuscritos o impresos, históricos o modernos. Defina sus campos, entrene su modelo y procese su colección.
Comience a entrenar su modelo
Véalo en acción
Los Field Models detectan y extraen elementos estructurales específicos de sus documentos, con precisión y a escala.

Una tecnología, decenas de casos de uso
Investigadores, archiveros e instituciones de todo el mundo entrenan Field Models con sus documentos específicos. Estos son los casos de uso más frecuentes.
Segmente artículos, titulares y anuncios de páginas de periódicos
Los periódicos históricos tienen diseños complejos de múltiples columnas con artículos que rodean imágenes y abarcan varias páginas. Los Field Models detectan artículos individuales, titulares, anuncios, líneas de autoría y pies de foto, proporcionándole acceso estructurado a contenido que antes estaba encerrado en imágenes de páginas.

Extraiga campos estructurados de fichas de catálogo e índice
Bibliotecas, museos y archivos albergan millones de fichas: fichas de catálogo, registros de adquisiciones, instrumentos de descripción, fichas de pacientes. Cada tipo de ficha tiene su propio diseño, pero un Field Model bien entrenado maneja la variación y extrae datos estructurados a escala.

Extraiga nombres, fechas y lugares de registros manuscritos
Registros parroquiales, registros civiles, listas militares: la columna vertebral de la investigación genealógica y demográfica. Los Field Models detectan entradas estructuradas a lo largo de siglos de prácticas de registro en evolución, manejando diferentes escribanos, formatos e idiomas.

Identifique notas marginales, párrafos y encabezados en protocolos judiciales
Las actas judiciales históricas, los protocolos gubernamentales y los documentos oficiales contienen elementos estructurados como notas marginales, párrafos numerados, encabezados y anotaciones. Los Field Models detectan estos componentes estructurales a lo largo de siglos de prácticas administrativas cambiantes.

Separe remitente, cuerpo, ilustraciones y números de página en correspondencia
La correspondencia personal y oficial abarca siglos de convenciones epistolares. Los Field Models detectan y separan números de página, párrafos, ilustraciones y otros elementos estructurales, desde despachos diplomáticos de la Edad Moderna hasta cartas mecanografiadas del siglo XX.

Distinga el texto principal de las notas marginales, encabezados y notas al pie
De manuscritos medievales a libros impresos modernos: los Field Models manejan diseños de múltiples columnas, glosas interlineales, encabezados continuos y estructuras de página complejas. Separe el texto principal de las notas marginales, los encabezados del contenido y las notas al pie del texto principal.
De imágenes de documentos a datos estructurados
Los Field Models producen una salida estructurada que puede exportar como hojas de cálculo, importar a bases de datos o publicar en línea.
{
"page": 1,
"fields": [
{
"tag": "Shelfmark",
"text": "O71 P31P"
},
{
"tag": "Name",
"text": "Daley, Jeremiah"
},
{
"tag": "Newspaper",
"text": "Peabody Press"
},
{
"tag": "Details",
"text": "Resident of Aborn St..."
},
{
"tag": "Reference",
"text": "Press July 3, 1889"
}
]
}| Página | Signatura | Nombre | Periódico | Detalles | Referencia |
|---|---|---|---|---|---|
| 1 | O71 P31P | Daley, Jeremiah | Peabody Press | Resident of Aborn St... | Press July 3, 1889 |
| 2 | O71 P31Q | Davis, Martha | Salem Gazette | Teacher at Essex... | Gazette Aug 12, 1891 |
| 3 | O71 P31R | Dearborn, William | Lynn Record | Merchant on Main... | Record Jan 5, 1887 |
Exporte como hojas de cálculo (XLSX, CSV), importe a bases de datos o publique colecciones estructuradas a través de Transkribus Sites.
Cómo funciona
De imágenes de documentos sin procesar a datos estructurados y exportables en tres pasos de reconocimiento.
Reconocimiento de campos
Ejecute su Field Model entrenado para detectar y etiquetar regiones en cada página. El modelo dibuja polígonos precisos alrededor de cada campo: signaturas, nombres, fechas o cualquier etiqueta personalizada que haya definido.

Detección de líneas de texto
Transkribus detecta líneas de texto individuales dentro de cada campo identificado. Los modelos de diseño públicos gestionan este paso automáticamente, sin necesidad de entrenamiento adicional.

Reconocimiento de texto
Cada línea de texto se transcribe utilizando los modelos HTR u OCR de Transkribus. Exporte los resultados estructurados como hojas de cálculo, impórtelos a bases de datos o publíquelos a través de Transkribus Sites.
Cómo entrenar un Field Model
Los Field Models no vienen preconstruidos — los entrena usted con sus documentos específicos. Así es como funciona.
Etiquetar sus campos
Abra sus documentos en Transkribus y dibuje regiones alrededor de los campos que desea extraer: nombres, fechas, signaturas o cualquier categoría personalizada. Cada región recibe una etiqueta para que el modelo sepa qué buscar.
Entrenar
Una vez que haya anotado unas 50 páginas, envíelas para entrenar su Field Model personalizado. El modelo utiliza transfer learning, por lo que incluso conjuntos de datos pequeños producen resultados útiles.
Aplicar e iterar
Aplique su modelo entrenado a nuevos documentos: detecta y etiqueta automáticamente los campos. Use los resultados para corregir errores, añadir más páginas de entrenamiento y reentrenar para mayor precisión.
Empiece con poco, itere y escale
Los Field Models utilizan aprendizaje por transferencia a partir de millones de páginas procesadas. Comience con un conjunto de entrenamiento manejable, use su primer modelo para acelerar la anotación y luego reentrene para obtener resultados aún mejores.
Comience con unas 50 páginas anotadas para diseños sencillos. Los documentos complejos pueden beneficiarse de más datos de entrenamiento.
Haga clic en entrenar y espere. Sin programación, sin experiencia en ML, sin infraestructura en la nube.
Consejos de entrenamiento de la comunidad
- Empiece con algo sencillo: entrene con unas 50 páginas y evalúe. Su primer modelo suele ser suficiente para muchos casos de uso.
- Use su modelo para preanotar más páginas, corríjalas y luego reentrene. Cada iteración mejora la precisión.
- Para diseños complejos o variables, apunte a 200-500 páginas representativas de diferentes estilos de documentos.
- Exporte los resultados como hojas de cálculo donde las filas son páginas y las columnas son sus etiquetas de campo, listas para importar a bases de datos.
Precisión a nivel de píxel
Los Field Models detectan regiones como polígonos detallados, no como simples rectángulos, algo fundamental para documentos reales con diseños complejos.
Cuadros delimitadores tradicionales
Rectángulos rígidos que se superponen en contenido irregular. No pueden manejar notas marginales que rodean el texto, sellos que se superponen a los campos ni entradas que abarcan columnas de ancho variable.
Segmentación de instancias
Detección a nivel de píxel que sigue la forma exacta de cada campo. Maneja elementos superpuestos, formas irregulares y tipos de contenido mixtos. Funciona con cualquier documento, desde manuscritos medievales hasta formularios modernos.
Comience a extraer datos estructurados hoy
Entrene su primer Field Model con un plan Scholar+. Defina sus campos, anote algunas páginas y sus documentos se convertirán en datos estructurados.