Skip to content
  • Tarifs

Vos archives de journaux, entièrement consultables.

Des millions de pages de journaux historiques sont conservées dans des archives — numérisées mais non consultables. Transkribus lit le texte, comprend la mise en page et transforme chaque article, titre et petite annonce en données structurées et consultables. D'un seul titre à une collection nationale entière.

Segmentation de mise en page de journaux historiques
30M+pages de journaux traitées
15M+pages rien que pour Zeitpunkt.NRW
100+modèles d'imprimé et Fraktur publics

Le résultat

Ce que vous obtenez après avoir traité votre collection de journaux.

Recherche plein texte dans les articles de journaux

Texte intégral consultable

Chaque article, titre, publicité et petite annonce sur chaque page — reconnu et indexé. Recherchez par nom, date, mot-clé ou expression sur l'ensemble de la collection.

Segmentation automatique de la mise en page des journaux

Données de mise en page structurées

L'IA segmente les pages à plusieurs colonnes en régions de contenu distinctes — articles, titres, publicités, légendes. Chaque région est taguée et exportée séparément, pour que les systèmes en aval puissent travailler avec des articles, et non des vidages de pages brutes.

Collection de journaux publiée sous forme de Site Transkribus

Une collection en ligne navigable

Les journaux traités peuvent être publiés sous forme de Site Transkribus — une interface hébergée et consultable pour votre collection. Aucun développement nécessaire. Personnalisé avec l'identité visuelle de votre institution.

Étude de cas

Zeitpunkt.NRW : 20 millions de pages de journaux pour la Rhénanie-du-Nord-Westphalie

Le projet Zeitpunkt.NRW numérise l'intégralité des fonds de journaux historiques de Rhénanie-du-Nord-Westphalie — 20 millions de pages couvrant des siècles d'histoire régionale. Transkribus effectue la reconnaissance de texte intégral à grande échelle, transformant les pages scannées en texte consultable publié via le portail numérique de journaux de l'État.
20 millions de pages de journaux traitées avec Transkribus
Des siècles de journaux régionaux des bibliothèques de NRW
Recherche plein texte disponible via le portail Zeitpunkt.NRW
Zeitpunkt.NRW — 20 millions de pages de journaux numérisées

Étude de cas

NewsEye : amélioration de la reconnaissance de texte de journaux avec la Bibliothèque nationale de Finlande

Le projet NewsEye financé par l'UE (Horizon 2020) a réuni la Bibliothèque nationale de Finlande avec des informaticiens et des chercheurs en humanités numériques pour améliorer la reconnaissance de texte sur les journaux historiques. En travaillant sur 2,5 millions de pages de 10 titres de journaux finlandais — dont la moitié en suédois, beaucoup en typographies gothiques — l'équipe a utilisé Transkribus pour entraîner des modèles personnalisés qui ont amélioré la précision de reconnaissance de 10 points de pourcentage en moyenne par rapport aux méthodes OCR traditionnelles.
2,5 millions de pages de journaux (1771–1914), 10 titres
La reconnaissance des polices gothiques améliorée de 10 points de pourcentage en moyenne
Recherche améliorée dans la bibliothèque numérique nationale finlandaise
Projet NewsEye — numérisation de journaux historiques

L'approche

Des scans au texte structuré — comment les institutions numérisent les journaux à grande échelle

La numérisation de journaux suit un workflow éprouvé : téléchargez vos scans, sélectionnez parmi plus de 100 modèles d'imprimé et Fraktur pré-entraînés (ou entraînez le vôtre sur vos polices de caractères spécifiques), lancez la reconnaissance de texte en lot avec analyse automatique de la mise en page, et exportez les résultats structurés. L'IA gère les mises en page à plusieurs colonnes, les types de contenu mixtes et les typographies historiques — dont le Fraktur, la lettre gothique et l'imprimé du début de la période moderne.
Plus de 100 modèles publics pour le Fraktur, la lettre gothique et l'imprimé historique
Segmentation automatique de la mise en page pour les pages de journaux à plusieurs colonnes
Traitement en lot pour des milliers de pages — sans intervention manuelle
Export en PDF consultable, texte brut ou XML structuré (ALTO, PAGE)
Analyse de mise en page et reconnaissance de texte de journaux

Guides et modèles

Tutoriels, modèles IA et cas d'usage connexes pour la numérisation de journaux.

Comment numériser des journaux avec Transkribus

Guide pas à pas : numérisation, segmentation de la mise en page, sélection de modèles et reconnaissance de texte pour les journaux historiques.

Guide

Modèles IA pour le Fraktur, le Kurrent et le Sütterlin

Les écritures imprimées et manuscrites historiques allemandes les plus courantes — et les modèles publics capables de les lire.

Modèles

Réduction des arriérés d'archives

Comment les archives utilisent l'IA pour traiter des millions de pages non consultables — la même approche applicable aux collections de journaux.

Cas d'usage

Prêt à rendre vos archives de journaux consultables ?

Parlez à notre équipe de votre collection. Nous vous aiderons à trouver les bons modèles, planifier le workflow et estimer la portée du projet.

30M+pages de journaux traitées
100+modèles d'imprimé publics
Hébergé en UEconforme au RGPD