Reducir el atraso archivístico con reconocimiento de texto por IA

2.000+Archivos y bibliotecas

200 M+Páginas procesadas

300+Modelos de IA públicos

250+Miembros de la cooperativa

El problema

La crisis de las colecciones ocultas: los atrasos en la digitalización de archivos siguen creciendo

En España, los Archivos Históricos Provinciales, el Archivo General de Indias y miles de archivos municipales y eclesiásticos custodian millones de legajos que siguen sin texto buscable. Aunque PARES ha digitalizado imágenes de muchos fondos, la mayoría carece de transcripción que permita la búsqueda a texto completo. No se trata de materiales marginales: incluyen protocolos notariales, expedientes judiciales, correspondencia administrativa y manuscritos que los investigadores no pueden descubrir porque no existe instrumento de descripción digital ni texto buscable. Cada año el atraso crece a medida que las nuevas adquisiciones llegan más rápido de lo que los equipos con poco personal pueden procesarlas.

La escasez de personal es estructural, no temporal: los archivos no pueden resolver el atraso contratando más personal

La transcripción manual de una sola caja de archivo puede llevar semanas de trabajo especializado

Las colecciones sin procesar no generan citas, investigación ni participación pública

Los proyectos de digitalización financiados con subvenciones suelen cubrir la obtención de imágenes pero no el reconocimiento de texto ni la creación de metadatos

Las colecciones mixtas — mecanografiadas, manuscritas, formularios impresos — requieren enfoques diferentes que ralentizan aún más los flujos de trabajo manuales

Cajas de archivo sin procesar esperando catalogación y digitalización

La solución

Reduce el atraso archivístico con IA: de cajas sin procesar a registros buscables

Transkribus permite a los archivos procesar colecciones a una escala que los flujos de trabajo manuales no pueden alcanzar. Sube imágenes escaneadas — cajas, series o fondos completos — y ejecuta el reconocimiento de texto con IA en miles de páginas en un solo lote. El reconocimiento de texto manuscrito (HTR) de la plataforma maneja las escrituras y tipos de documentos más comunes en los fondos archivísticos: escritura administrativa, correspondencia oficial, documentos judiciales, registros municipales y expedientes de formato mixto. El resultado es texto legible por máquina y buscable que se puede exportar directamente a sistemas de información archivística.

Procesamiento por lotes: pon en cola miles de páginas y procésalas de forma desatendida, sin intervención página por página

Más de 300 modelos de IA públicos entrenados en escrituras históricas desde el siglo XV en adelante

Exporta a PAGE XML, ALTO XML y TEI-XML para importar en ArchivesSpace, AtoM y otros sistemas

La API Transkribus permite pipelines totalmente automatizados para flujos de trabajo de digitalización masiva

Publica las colecciones procesadas directamente como ediciones digitales buscables a través de Transkribus Sites

Transkribus para archivos

Interfaz de procesamiento por lotes de Transkribus para colecciones archivísticas a gran escala

Comparación

Procesamiento asistido por IA vs. transcripción manual para archivos

Los archivos afrontan un problema fundamental de rendimiento: millones de páginas esperando a ser catalogadas, buscables y accesibles. Así es como el procesamiento asistido por IA se compara con los flujos de trabajo manuales tradicionales.

Feature	Procesamiento con IA de Transkribus	Transcripción manual
Rendimiento	Miles de páginas al día con procesamiento por lotes, escalable según el tamaño de la colección	Un transcriptor cualificado procesa entre 5 y 15 páginas al día según la dificultad
Coste por página	Una fracción de céntimo por página con precios basados en créditos	Intensivo en mano de obra: los costes se acumulan linealmente con cada página
Consistencia	El mismo modelo produce resultados consistentes en miles de páginas	La calidad varía según el transcriptor, la fatiga y las diferencias de interpretación
Posibilidad de búsqueda	Cada página procesada se convierte en texto completo con búsqueda inmediata	Solo las páginas transcritas son buscables; el resto del fondo permanece inaccesible
Manejo de escrituras históricas	Más de 300 modelos públicos que cubren escrituras desde el siglo IX hasta la actualidad	Requiere formación especializada en paleografía; pocos empleados poseen las competencias necesarias
Tiempo de acceso	Las colecciones quedan accesibles en días o semanas tras la digitalización	Es habitual acumular retrasos de años o décadas en grandes instituciones
Control de calidad	Las puntuaciones de confianza señalan las líneas inciertas para una revisión humana selectiva	Requiere una revisión completa de cada transcripción

La comparación refleja flujos de trabajo institucionales típicos. El procesamiento con IA funciona mejor como complemento de la experiencia humana: una primera pasada automatizada con revisión manual selectiva.

Cómo procesar una colección archivística en 4 pasos

Sube colecciones escaneadas

Sube series o fondos completos como PDF de varias páginas, TIFF o lotes de imágenes. Transkribus gestiona automáticamente la detección de diseño — columnas, tablas, notas marginales.

Seleccionar un modelo de IA

Elige entre más de 300 modelos públicos filtrados por idioma, siglo y tipo de escritura. Para colecciones mixtas, ejecuta múltiples modelos en diferentes grupos de documentos dentro del mismo proyecto.

Ejecuta el reconocimiento por lotes

Pon en cola miles de páginas para su procesamiento. Transkribus ejecuta el reconocimiento de texto en segundo plano sin intervención manual. Monitorea el progreso desde el panel de control.

Exporta e integra

Exporta los resultados como PAGE XML, ALTO XML, TEI-XML, texto plano o PDF buscable. Importa directamente en ArchivesSpace, AtoM o publica a través de Transkribus Sites.

A escala

Procesamiento archivístico automatizado con la API Transkribus

Para instituciones que ejecutan programas de digitalización a gran escala o recurrentes, la API REST Metagrapho permite pipelines de procesamiento totalmente automatizados. Integra el reconocimiento de texto directamente en tus flujos de trabajo existentes de captura de imágenes y catalogación, sin cargas manuales ni interacción basada en navegador. La API admite selección de modelos, gestión de trabajos por lotes y recuperación de salidas estructuradas, lo que la hace adecuada para proyectos de digitalización masiva de nivel productivo.

API REST con documentación completa para integración en flujos de trabajo institucionales

Selección programática de modelos: elige automáticamente diferentes modelos para diferentes tipos de colecciones

Salida JSON estructurada con texto, coordenadas y puntuaciones de confianza para cada región de texto

Gestión de trabajos por lotes: envía, monitorea y recupera resultados de miles de páginas

Combina con reconocimiento de entidades para extraer nombres, fechas y lugares para el enriquecimiento del catálogo

API Transkribus para procesamiento por lotes

import requests

API = "https://transkribus.eu/processing/v1"
TOKEN = "your-api-token"

# 1. Upload collection
upload = requests.post(f"{API}/uploads",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={"collectionId": 12345}
)

# 2. Start recognition on all pages
job = requests.post(f"{API}/processes",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={
    "docId": upload.json()["docId"],
    "htrId": 53042,   # model ID
    "pages": "all"
  }
)

# 3. Poll for completion
status = requests.get(
  f"{API}/processes/{job.json()['processId']}",
  headers={"Authorization": f"Bearer {TOKEN}"}
).json()
print(f"Status: {status['state']}")

Preguntas frecuentes

¿Con qué rapidez puede Transkribus procesar colecciones archivísticas a escala?

La velocidad de procesamiento depende de la complejidad del documento y el número de páginas, pero como referencia: una sola página suele tardar entre 15 y 30 segundos. El procesamiento por lotes se ejecuta en paralelo, por lo que una colección de 10 000 páginas puede procesarse en horas en lugar de las semanas o meses que requiere la transcripción manual. La API Transkribus permite el procesamiento continuo y desatendido para volúmenes aún mayores.

¿Qué precisión podemos esperar en colecciones archivísticas mixtas?

La precisión varía según el tipo de escritura y el estado del documento. En escritura administrativa bien conservada de los siglos XIX y XX, tasas de error por carácter (CER) inferiores al 5 % son habituales con los modelos públicos adecuados. Escrituras más antiguas o difíciles pueden requerir entrenamiento de modelos personalizados para alcanzar una precisión comparable. Cada línea de texto incluye una puntuación de confianza, lo que permite flujos de revisión enfocados en la calidad — el personal puede concentrarse en las secciones de baja confianza en lugar de releer documentos completos.

¿Se integra Transkribus con ArchivesSpace, AtoM u otros sistemas de gestión archivística?

Transkribus exporta en PAGE XML, ALTO XML, TEI-XML y otros formatos estándar que ArchivesSpace, AtoM y sistemas de información archivística similares pueden importar. La API permite pipelines de exportación automatizados. Aunque no existe un conector plug-in directo, la salida XML estructurada está diseñada para la interoperabilidad con estándares de metadatos archivísticos (EAD, Dublin Core).

¿Cuántos miembros del personal se necesitan para ejecutar un proyecto de procesamiento a gran escala?

Un solo miembro del personal capacitado puede gestionar un proyecto de procesamiento por lotes que abarque miles de páginas. Transkribus se encarga automáticamente de la detección de diseño, el reconocimiento de texto y la exportación. El tiempo del personal se aprovecha mejor en la revisión de calidad de segmentos de baja confianza y en decisiones curatoriales — seleccionar qué colecciones priorizar, elegir los modelos apropiados y validar los resultados.

¿Cuánto cuesta Transkribus a escala institucional?

Transkribus ofrece planes institucionales diseñados para el procesamiento de alto volumen. El precio depende del volumen de páginas y de si se requiere acceso a la API. Contacta con nuestro equipo en transkribus.org/contact para obtener un presupuesto personalizado. Cada cuenta incluye 50 créditos gratis al mes para evaluar la plataforma antes de comprometerse.

¿Cómo gestiona Transkribus el RGPD y la privacidad de datos?

Todo el procesamiento se ejecuta en los propios servidores de Transkribus en Austria (UE). No se envían datos a servicios de nube de terceros. Los documentos y transcripciones permanecen bajo la plena propiedad de la institución y pueden eliminarse en cualquier momento. Transkribus es operado por READ-COOP SCE, una cooperativa europea, no una startup financiada por capital de riesgo. Los acuerdos de tratamiento de datos están disponibles para las instituciones que los requieran.

¿Cómo debemos priorizar qué colecciones procesar primero?

Las instituciones suelen obtener el mejor rendimiento comenzando con colecciones que (1) ya están digitalizadas (escaneadas) pero carecen de texto buscable, (2) tienen alta demanda por parte de investigadores, o (3) están escritas en escrituras para las cuales ya existen modelos públicos sólidos. Este enfoque maximiza el impacto inmediato con una configuración mínima. El catálogo de modelos de Transkribus se puede filtrar por idioma, tipo de escritura y siglo para identificar qué colecciones funcionarán bien de forma inmediata.

¿Podemos procesar colecciones que contienen material tanto manuscrito como impreso?

Sí. Las colecciones archivísticas contienen frecuentemente materiales mixtos — formularios mecanografiados con anotaciones manuscritas, encabezados impresos con entradas en cursiva, o páginas que alternan entre impresión y escritura manuscrita. Transkribus gestiona la detección de diseño para estos formatos mixtos y permite ejecutar diferentes modelos en diferentes tipos de documentos dentro del mismo proyecto.

Infraestructura de nivel institucional para colecciones archivísticas.

Transkribus está construido y alojado en Europa por una cooperativa de más de 250 archivos, bibliotecas y universidades. Tus colecciones permanecen bajo tu control.

Sus datos son suyos

Propiedad total. Elimine en cualquier momento.

Alojado en Austria, UE

Procesamiento en nuestros propios servidores. Conforme al RGPD. Sin dependencia de nube de terceros.

Cooperativa, no una startup

Miles de archivos, bibliotecas y universidades como copropietarios. Construido para décadas, no para una salida de capital riesgo.

Recursos relacionados

Más para archivos e instituciones

Explora cómo Transkribus se integra en tus flujos de trabajo institucionales: Transkribus para archivos · ¿Qué es el HTR? · Crear PDF buscables · Manuscritos medievales