Skip to content
  • Precios

Reducción del atraso archivístico con reconocimiento de texto impulsado por IA

Millones de páginas sin procesar, personal insuficiente. Transkribus procesa por lotes colecciones completas, convirtiendo fondos ocultos en registros buscables y descubribles a escala institucional.

Procesamiento por lotesColecciones ocultasIA a escalaContáctenos

Arrastra una imagen aquí

Seleccionar archivo...

PNG o JPG hasta 10 Mb

Wolpi
AI Assistant

Al subir una imagen, aceptas nuestros términos y nuestra política de privacidad.

Utilizado por 500.000+ usuarios en todo el mundo — 200 M+ páginas procesadas

2.000+
Archivos y bibliotecas
200 M+
Páginas procesadas
300+
Modelos de IA públicos
250+
Miembros de la cooperativa

El problema

La crisis de las colecciones ocultas: los atrasos en la digitalización de archivos siguen creciendo

En España, los Archivos Históricos Provinciales, el Archivo General de Indias y miles de archivos municipales y eclesiásticos custodian millones de legajos que siguen sin texto buscable. Aunque PARES ha digitalizado imágenes de muchos fondos, la mayoría carece de transcripción que permita la búsqueda a texto completo. No se trata de materiales marginales: incluyen protocolos notariales, expedientes judiciales, correspondencia administrativa y manuscritos que los investigadores no pueden descubrir porque no existe instrumento de descripción digital ni texto buscable. Cada año el atraso crece a medida que las nuevas adquisiciones llegan más rápido de lo que los equipos con poco personal pueden procesarlas.
La escasez de personal es estructural, no temporal: los archivos no pueden resolver el atraso contratando más personal
La transcripción manual de una sola caja de archivo puede llevar semanas de trabajo especializado
Las colecciones sin procesar no generan citas, investigación ni participación pública
Los proyectos de digitalización financiados con subvenciones suelen cubrir la obtención de imágenes pero no el reconocimiento de texto ni la creación de metadatos
Las colecciones mixtas — mecanografiadas, manuscritas, formularios impresos — requieren enfoques diferentes que ralentizan aún más los flujos de trabajo manuales
Cajas de archivo sin procesar esperando catalogación y digitalización

La solución

Reduce el atraso archivístico con IA: de cajas sin procesar a registros buscables

Transkribus permite a los archivos procesar colecciones a una escala que los flujos de trabajo manuales no pueden alcanzar. Sube imágenes escaneadas — cajas, series o fondos completos — y ejecuta el reconocimiento de texto con IA en miles de páginas en un solo lote. El reconocimiento de texto manuscrito (HTR) de la plataforma maneja las escrituras y tipos de documentos más comunes en los fondos archivísticos: escritura administrativa, correspondencia oficial, documentos judiciales, registros municipales y expedientes de formato mixto. El resultado es texto legible por máquina y buscable que se puede exportar directamente a sistemas de información archivística.
Procesamiento por lotes: pon en cola miles de páginas y procésalas de forma desatendida, sin intervención página por página
Más de 300 modelos de IA públicos entrenados en escrituras históricas desde el siglo XV en adelante
Exporta a PAGE XML, ALTO XML y TEI-XML para importar en ArchivesSpace, AtoM y otros sistemas
La API Metagrapho permite pipelines totalmente automatizados para flujos de trabajo de digitalización masiva
Publica las colecciones procesadas directamente como ediciones digitales buscables a través de Transkribus Sites
Interfaz de procesamiento por lotes de Transkribus para colecciones archivísticas a gran escala

Comparación

Procesamiento asistido por IA vs. transcripción manual para archivos

Los archivos afrontan un problema fundamental de rendimiento: millones de páginas esperando a ser catalogadas, buscables y accesibles. Así es como el procesamiento asistido por IA se compara con los flujos de trabajo manuales tradicionales.

FeatureProcesamiento con IA de TranskribusTranscripción manual
RendimientoMiles de páginas al día con procesamiento por lotes, escalable según el tamaño de la colecciónUn transcriptor cualificado procesa entre 5 y 15 páginas al día según la dificultad
Coste por páginaUna fracción de céntimo por página con precios basados en créditosIntensivo en mano de obra: los costes se acumulan linealmente con cada página
ConsistenciaEl mismo modelo produce resultados consistentes en miles de páginasLa calidad varía según el transcriptor, la fatiga y las diferencias de interpretación
Posibilidad de búsquedaCada página procesada se convierte en texto completo con búsqueda inmediataSolo las páginas transcritas son buscables; el resto del fondo permanece inaccesible
Manejo de escrituras históricasMás de 300 modelos públicos que cubren escrituras desde el siglo IX hasta la actualidadRequiere formación especializada en paleografía; pocos empleados poseen las competencias necesarias
Tiempo de accesoLas colecciones quedan accesibles en días o semanas tras la digitalizaciónEs habitual acumular retrasos de años o décadas en grandes instituciones
Control de calidadLas puntuaciones de confianza señalan las líneas inciertas para una revisión humana selectivaRequiere una revisión completa de cada transcripción

La comparación refleja flujos de trabajo institucionales típicos. El procesamiento con IA funciona mejor como complemento de la experiencia humana: una primera pasada automatizada con revisión manual selectiva.

Cómo procesar una colección archivística en 4 pasos

Sube colecciones escaneadas

Sube series o fondos completos como PDF de varias páginas, TIFF o lotes de imágenes. Transkribus gestiona automáticamente la detección de diseño — columnas, tablas, notas marginales.

Seleccionar un modelo de IA

Elige entre más de 300 modelos públicos filtrados por idioma, siglo y tipo de escritura. Para colecciones mixtas, ejecuta múltiples modelos en diferentes grupos de documentos dentro del mismo proyecto.

Ejecuta el reconocimiento por lotes

Pon en cola miles de páginas para su procesamiento. Transkribus ejecuta el reconocimiento de texto en segundo plano sin intervención manual. Monitorea el progreso desde el panel de control.

Exporta e integra

Exporta los resultados como PAGE XML, ALTO XML, TEI-XML, texto plano o PDF buscable. Importa directamente en ArchivesSpace, AtoM o publica a través de Transkribus Sites.

A escala

Procesamiento archivístico automatizado con la API Metagrapho

Para instituciones que ejecutan programas de digitalización a gran escala o recurrentes, la API REST Metagrapho permite pipelines de procesamiento totalmente automatizados. Integra el reconocimiento de texto directamente en tus flujos de trabajo existentes de captura de imágenes y catalogación, sin cargas manuales ni interacción basada en navegador. La API admite selección de modelos, gestión de trabajos por lotes y recuperación de salidas estructuradas, lo que la hace adecuada para proyectos de digitalización masiva de nivel productivo.
API REST con documentación completa para integración en flujos de trabajo institucionales
Selección programática de modelos: elige automáticamente diferentes modelos para diferentes tipos de colecciones
Salida JSON estructurada con texto, coordenadas y puntuaciones de confianza para cada región de texto
Gestión de trabajos por lotes: envía, monitorea y recupera resultados de miles de páginas
Combina con reconocimiento de entidades para extraer nombres, fechas y lugares para el enriquecimiento del catálogo
batch_process.py
import requests

API = "https://transkribus.eu/processing/v1"
TOKEN = "your-api-token"

# 1. Upload collection
upload = requests.post(f"{API}/uploads",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={"collectionId": 12345}
)

# 2. Start recognition on all pages
job = requests.post(f"{API}/processes",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={
    "docId": upload.json()["docId"],
    "htrId": 53042,   # model ID
    "pages": "all"
  }
)

# 3. Poll for completion
status = requests.get(
  f"{API}/processes/{job.json()['processId']}",
  headers={"Authorization": f"Bearer {TOKEN}"}
).json()
print(f"Status: {status['state']}")

Preguntas frecuentes

La velocidad de procesamiento depende de la complejidad del documento y el número de páginas, pero como referencia: una sola página suele tardar entre 15 y 30 segundos. El procesamiento por lotes se ejecuta en paralelo, por lo que una colección de 10 000 páginas puede procesarse en horas en lugar de las semanas o meses que requiere la transcripción manual. La API Metagrapho permite el procesamiento continuo y desatendido para volúmenes aún mayores.
La precisión varía según el tipo de escritura y el estado del documento. En escritura administrativa bien conservada de los siglos XIX y XX, tasas de error por carácter (CER) inferiores al 5 % son habituales con los modelos públicos adecuados. Escrituras más antiguas o difíciles pueden requerir entrenamiento de modelos personalizados para alcanzar una precisión comparable. Cada línea de texto incluye una puntuación de confianza, lo que permite flujos de revisión enfocados en la calidad — el personal puede concentrarse en las secciones de baja confianza en lugar de releer documentos completos.
Transkribus exporta en PAGE XML, ALTO XML, TEI-XML y otros formatos estándar que ArchivesSpace, AtoM y sistemas de información archivística similares pueden importar. La API permite pipelines de exportación automatizados. Aunque no existe un conector plug-in directo, la salida XML estructurada está diseñada para la interoperabilidad con estándares de metadatos archivísticos (EAD, Dublin Core).
Un solo miembro del personal capacitado puede gestionar un proyecto de procesamiento por lotes que abarque miles de páginas. Transkribus se encarga automáticamente de la detección de diseño, el reconocimiento de texto y la exportación. El tiempo del personal se aprovecha mejor en la revisión de calidad de segmentos de baja confianza y en decisiones curatoriales — seleccionar qué colecciones priorizar, elegir los modelos apropiados y validar los resultados.
Transkribus ofrece planes institucionales diseñados para el procesamiento de alto volumen. El precio depende del volumen de páginas y de si se requiere acceso a la API. Contacta con nuestro equipo en transkribus.org/contact para obtener un presupuesto personalizado. Cada cuenta incluye 50 créditos gratis al mes para evaluar la plataforma antes de comprometerse.
Todo el procesamiento se ejecuta en los propios servidores de Transkribus en Austria (UE). No se envían datos a servicios de nube de terceros. Los documentos y transcripciones permanecen bajo la plena propiedad de la institución y pueden eliminarse en cualquier momento. Transkribus es operado por READ-COOP SCE, una cooperativa europea, no una startup financiada por capital de riesgo. Los acuerdos de tratamiento de datos están disponibles para las instituciones que los requieran.
Las instituciones suelen obtener el mejor rendimiento comenzando con colecciones que (1) ya están digitalizadas (escaneadas) pero carecen de texto buscable, (2) tienen alta demanda por parte de investigadores, o (3) están escritas en escrituras para las cuales ya existen modelos públicos sólidos. Este enfoque maximiza el impacto inmediato con una configuración mínima. El catálogo de modelos de Transkribus se puede filtrar por idioma, tipo de escritura y siglo para identificar qué colecciones funcionarán bien de forma inmediata.
Sí. Las colecciones archivísticas contienen frecuentemente materiales mixtos — formularios mecanografiados con anotaciones manuscritas, encabezados impresos con entradas en cursiva, o páginas que alternan entre impresión y escritura manuscrita. Transkribus gestiona la detección de diseño para estos formatos mixtos y permite ejecutar diferentes modelos en diferentes tipos de documentos dentro del mismo proyecto.
EUAT

Infraestructura de nivel institucional para colecciones archivísticas.

Transkribus está construido y alojado en Europa por una cooperativa de más de 250 archivos, bibliotecas y universidades. Tus colecciones permanecen bajo tu control.

Sus datos son suyos

Propiedad total. Elimine en cualquier momento.

Alojado en Austria, UE

Procesamiento en nuestros propios servidores. Conforme al RGPD. Sin dependencia de nube de terceros.

Cooperativa, no una startup

Miles de archivos, bibliotecas y universidades como copropietarios. Construido para décadas, no para una salida de capital riesgo.

Recursos relacionados

Más para archivos e instituciones

Explora cómo Transkribus se integra en tus flujos de trabajo institucionales: Transkribus para archivos · ¿Qué es el HTR? · Crear PDF buscables · Manuscritos medievales
Colecciones de archivo en proceso de digitalización

¿Listo para abordar el atraso de tu archivo?

Habla con nuestro equipo sobre planes institucionales para el procesamiento de colecciones a gran escala, o crea una cuenta gratuita para evaluar Transkribus con tus propios materiales.

Utilizado por más de 2000 archivos y bibliotecas en todo el mundo

200 M+Páginas procesadas
2.000+Archivos y bibliotecas
300+Modelos de IA públicos