Su hemeroteca, completamente buscable.

Millones de páginas de periódicos históricos permanecen en los archivos: escaneadas pero no buscables. Transkribus lee el texto, comprende la maquetación y convierte cada artículo, titular y clasificado en datos estructurados y buscables. Desde un único título hasta una colección nacional completa.

Reserve una consulta Leer la guía práctica

Segmentación de la maquetación de periódicos históricos

30M+páginas de periódico procesadas

15M+páginas solo en Zeitpunkt.NRW

100+modelos públicos de impresión y Fraktur

Búsqueda en texto completo en artículos de periódico

Texto completo buscable

Cada artículo, titular, anuncio y clasificado de cada página: reconocido e indexado. Busque por nombre, fecha, palabra clave o frase en toda la colección.

Segmentación automática de la maquetación de periódicos

Datos de maquetación estructurados

La IA segmenta las páginas de múltiples columnas en regiones de contenido individuales: artículos, titulares, anuncios y pies de foto. Cada región se etiqueta y se exporta por separado, para que los sistemas posteriores puedan trabajar con artículos y no con volcados de páginas en bruto.

Colección de periódicos publicada como Transkribus Site

Una colección navegable en línea

Los periódicos procesados pueden publicarse como un Transkribus Site: una interfaz alojada con búsqueda para su colección. Sin necesidad de desarrollo. Con la identidad corporativa de su institución.

Caso de estudio

Zeitpunkt.NRW: 20 millones de páginas de periódico para Renania del Norte-Westfalia

El proyecto Zeitpunkt.NRW está digitalizando todo el fondo histórico de periódicos de Renania del Norte-Westfalia: 20 millones de páginas que abarcan siglos de historia regional. Transkribus realiza el reconocimiento de texto completo a escala, convirtiendo las páginas escaneadas en texto buscable que se publica a través del portal de periódicos digitales del estado.

20 millones de páginas de periódico procesadas con Transkribus

Siglos de periódicos regionales de las bibliotecas de NRW

Búsqueda en texto completo disponible a través del portal Zeitpunkt.NRW

Visitar Zeitpunkt.NRW

Zeitpunkt.NRW — 20 millones de páginas de periódico digitalizadas

Caso de estudio

NewsEye: mejora del reconocimiento de texto en periódicos con la Biblioteca Nacional de Finlandia

El proyecto NewsEye financiado por la UE (Horizonte 2020) reunió a la Biblioteca Nacional de Finlandia con investigadores en informática y humanidades digitales para mejorar el reconocimiento de texto en periódicos históricos. Trabajando con 2,5 millones de páginas de 10 títulos de periódicos finlandeses —la mitad en sueco y muchos con tipos de letra góticos—, el equipo utilizó Transkribus para entrenar modelos personalizados que mejoraron la precisión del reconocimiento en una media de 10 puntos porcentuales sobre los métodos de OCR heredados.

2,5 millones de páginas de periódico (1771-1914), 10 títulos

El reconocimiento de tipos de letra góticos mejoró en promedio 10 puntos porcentuales

Búsqueda mejorada en la biblioteca digital nacional de Finlandia

Leer sobre el proyecto NewsEye

Proyecto NewsEye — digitalización de periódicos históricos

El enfoque

De los escaneos al texto estructurado: cómo las instituciones digitalizan periódicos a escala

La digitalización de periódicos sigue un flujo de trabajo probado: cargue sus escaneos, seleccione entre más de 100 modelos de impresión y Fraktur pre-entrenados (o entrene el suyo propio con sus tipos de letra específicos), ejecute el reconocimiento de texto en lote con análisis automático de la maquetación y exporte los resultados estructurados. La IA gestiona maquetaciones de múltiples columnas, tipos de contenido mixtos y tipos de letra históricos, incluidos Fraktur, letra gótica e impresión de la Edad Moderna temprana.

Más de 100 modelos públicos para Fraktur, letra gótica y tipos de impresión históricos

Segmentación automática de la maquetación para páginas de periódico de múltiples columnas

Procesamiento en lote de miles de páginas sin intervención manual

Exportación como PDF buscable, texto sin formato o XML estructurado (ALTO, PAGE)

Cómo digitalizar periódicos con Transkribus

Análisis de maquetación y reconocimiento de texto en periódicos

Cómo digitalizar periódicos con Transkribus

Guía paso a paso: digitalización, segmentación de maquetación, selección de modelos y reconocimiento de texto para periódicos históricos.

Guía

Leer la guía

Modelos de IA para Fraktur, Kurrent y Sütterlin

Los tipos de letra de impresión y escritura manuscrita alemanes históricos más habituales, y los modelos públicos que pueden leerlos.

Modelos

Ver modelos

Reducción del retraso archivístico

Cómo los archivos utilizan la IA para procesar millones de páginas no buscables: el mismo enfoque que se aplica a las colecciones de periódicos.

Caso de uso

Más información

¿Listo para hacer buscable su hemeroteca?

Hable con nuestro equipo sobre su colección. Le ayudaremos a encontrar los modelos adecuados, planificar el flujo de trabajo y estimar el alcance.

Reserve una consulta Empiece gratis

30M+páginas de periódico procesadas

100+modelos de impresión públicos

Alojado en la UEcumple con el RGPD

Su hemeroteca, completamente buscable.

El resultado

Texto completo buscable

Datos de maquetación estructurados

Una colección navegable en línea

Zeitpunkt.NRW: 20 millones de páginas de periódico para Renania del Norte-Westfalia

NewsEye: mejora del reconocimiento de texto en periódicos con la Biblioteca Nacional de Finlandia

De los escaneos al texto estructurado: cómo las instituciones digitalizan periódicos a escala

Guías y modelos

Cómo digitalizar periódicos con Transkribus

Modelos de IA para Fraktur, Kurrent y Sütterlin

Reducción del retraso archivístico

¿Listo para hacer buscable su hemeroteca?