Skip to content
  • Precios

Su hemeroteca, completamente buscable.

Millones de páginas de periódicos históricos permanecen en los archivos: escaneadas pero no buscables. Transkribus lee el texto, comprende la maquetación y convierte cada artículo, titular y clasificado en datos estructurados y buscables. Desde un único título hasta una colección nacional completa.

Segmentación de la maquetación de periódicos históricos
30M+páginas de periódico procesadas
15M+páginas solo en Zeitpunkt.NRW
100+modelos públicos de impresión y Fraktur

El resultado

El resultado final tras procesar su colección de periódicos.

Búsqueda en texto completo en artículos de periódico

Texto completo buscable

Cada artículo, titular, anuncio y clasificado de cada página: reconocido e indexado. Busque por nombre, fecha, palabra clave o frase en toda la colección.

Segmentación automática de la maquetación de periódicos

Datos de maquetación estructurados

La IA segmenta las páginas de múltiples columnas en regiones de contenido individuales: artículos, titulares, anuncios y pies de foto. Cada región se etiqueta y se exporta por separado, para que los sistemas posteriores puedan trabajar con artículos y no con volcados de páginas en bruto.

Colección de periódicos publicada como Transkribus Site

Una colección navegable en línea

Los periódicos procesados pueden publicarse como un Transkribus Site: una interfaz alojada con búsqueda para su colección. Sin necesidad de desarrollo. Con la identidad corporativa de su institución.

Caso de estudio

Zeitpunkt.NRW: 20 millones de páginas de periódico para Renania del Norte-Westfalia

El proyecto Zeitpunkt.NRW está digitalizando todo el fondo histórico de periódicos de Renania del Norte-Westfalia: 20 millones de páginas que abarcan siglos de historia regional. Transkribus realiza el reconocimiento de texto completo a escala, convirtiendo las páginas escaneadas en texto buscable que se publica a través del portal de periódicos digitales del estado.
20 millones de páginas de periódico procesadas con Transkribus
Siglos de periódicos regionales de las bibliotecas de NRW
Búsqueda en texto completo disponible a través del portal Zeitpunkt.NRW
Zeitpunkt.NRW — 20 millones de páginas de periódico digitalizadas

Caso de estudio

NewsEye: mejora del reconocimiento de texto en periódicos con la Biblioteca Nacional de Finlandia

El proyecto NewsEye financiado por la UE (Horizonte 2020) reunió a la Biblioteca Nacional de Finlandia con investigadores en informática y humanidades digitales para mejorar el reconocimiento de texto en periódicos históricos. Trabajando con 2,5 millones de páginas de 10 títulos de periódicos finlandeses —la mitad en sueco y muchos con tipos de letra góticos—, el equipo utilizó Transkribus para entrenar modelos personalizados que mejoraron la precisión del reconocimiento en una media de 10 puntos porcentuales sobre los métodos de OCR heredados.
2,5 millones de páginas de periódico (1771-1914), 10 títulos
El reconocimiento de tipos de letra góticos mejoró en promedio 10 puntos porcentuales
Búsqueda mejorada en la biblioteca digital nacional de Finlandia
Proyecto NewsEye — digitalización de periódicos históricos

El enfoque

De los escaneos al texto estructurado: cómo las instituciones digitalizan periódicos a escala

La digitalización de periódicos sigue un flujo de trabajo probado: cargue sus escaneos, seleccione entre más de 100 modelos de impresión y Fraktur pre-entrenados (o entrene el suyo propio con sus tipos de letra específicos), ejecute el reconocimiento de texto en lote con análisis automático de la maquetación y exporte los resultados estructurados. La IA gestiona maquetaciones de múltiples columnas, tipos de contenido mixtos y tipos de letra históricos, incluidos Fraktur, letra gótica e impresión de la Edad Moderna temprana.
Más de 100 modelos públicos para Fraktur, letra gótica y tipos de impresión históricos
Segmentación automática de la maquetación para páginas de periódico de múltiples columnas
Procesamiento en lote de miles de páginas sin intervención manual
Exportación como PDF buscable, texto sin formato o XML estructurado (ALTO, PAGE)
Análisis de maquetación y reconocimiento de texto en periódicos

Guías y modelos

Tutoriales, modelos de IA y casos de uso relacionados para la digitalización de periódicos.

Cómo digitalizar periódicos con Transkribus

Guía paso a paso: digitalización, segmentación de maquetación, selección de modelos y reconocimiento de texto para periódicos históricos.

Guía

Modelos de IA para Fraktur, Kurrent y Sütterlin

Los tipos de letra de impresión y escritura manuscrita alemanes históricos más habituales, y los modelos públicos que pueden leerlos.

Modelos

Reducción del retraso archivístico

Cómo los archivos utilizan la IA para procesar millones de páginas no buscables: el mismo enfoque que se aplica a las colecciones de periódicos.

Caso de uso

¿Listo para hacer buscable su hemeroteca?

Hable con nuestro equipo sobre su colección. Le ayudaremos a encontrar los modelos adecuados, planificar el flujo de trabajo y estimar el alcance.

30M+páginas de periódico procesadas
100+modelos de impresión públicos
Alojado en la UEcumple con el RGPD