Skip to content
  • Precios

Software de transcripción de manuscritos medievales: HTR con IA para escrituras históricas

Textura gótica, minúscula carolina, beneventana y más — el HTR impulsado por IA convierte meses de transcripción manual en horas, con exportación TEI-XML para ediciones críticas.

Escrituras medievalesTextura góticaModelos personalizadosPrueba gratuita

Arrastra una imagen aquí

Seleccionar archivo...

PNG o JPG hasta 10 Mb

Wolpi
AI Assistant

Al subir una imagen, aceptas nuestros términos y nuestra política de privacidad.

Utilizado por 500.000+ usuarios en todo el mundo — 200 M+ páginas procesadas

500.000+
Usuarios en todo el mundo
200 M+
Páginas procesadas
300+
Modelos de IA públicos
500+
Universidades e instituciones de investigación

El desafío

Por qué el reconocimiento de escritura medieval exige herramientas especializadas

Los manuscritos medievales presentan desafíos que ningún sistema OCR de propósito general puede manejar. Las escrituras en sí son la primera barrera: un códice en minúscula carolina del siglo XII no comparte casi ninguna característica visual con una carta en bastarda del siglo XV. Pero las dificultades van mucho más allá de las formas de las letras. Los escribas medievales usaban extensos sistemas de abreviaturas — marcas de suspensión, trazos de contracción, notas tironianas y símbolos especializados para palabras latinas comunes — que comprimen el texto entre un 30 y un 40 %. Las ligaduras fusionan caracteres de maneras que varían según el scriptorium y el escriba. El pergamino dañado, la tinta ferrogálica descolorida, los palimpsestos y las glosas marginales añaden mayor complejidad. El OCR estándar, entrenado en texto impreso, no produce resultados utilizables en estos materiales.
Sistemas de abreviaturas: suspensión, contracción, letras en superíndice, notas tironianas — el OCR estándar no tiene marco para interpretarlas
Diversidad de escrituras: textura gótica, rotunda, cursiva, minúscula carolina, beneventana, insular, bastarda — cada una requiere modelos de reconocimiento distintos
Las ligaduras y la fusión de letras varían según el scriptorium, el período y el escriba individual
Daños físicos: agujeros en el pergamino, desvanecimiento de la tinta, palimpsestos, manchas de agua y encuadernación que oculta el texto cerca del lomo
Texto multicapa: glosas marginales, adiciones interlineales, correcciones y rubricación requieren un análisis de diseño sofisticado
Ejemplos de abreviaturas y ligaduras en escrituras de manuscritos medievales

La solución

Cómo Transkribus transcribe documentos medievales con HTR

Transkribus utiliza el Reconocimiento de Texto Manuscrito (HTR) — modelos de aprendizaje profundo entrenados con páginas de manuscritos transcritas — en lugar de coincidencia de plantillas de caracteres. Este enfoque es fundamentalmente adecuado para escrituras medievales porque aprende patrones holísticos de palabras y líneas, no formas de caracteres aislados. El repositorio de modelos públicos de la plataforma incluye modelos entrenados en escrituras medievales específicas por investigadores que trabajan diariamente con estos materiales. Cuando ningún modelo existente se ajusta a tu colección, Transkribus te permite entrenar un modelo HTR personalizado con tus propios datos de ground truth, produciendo un motor de reconocimiento ajustado a un escriba, scriptorium o tipo de documento específico.
Modelos HTR públicos para textura gótica, minúscula carolina y otras escrituras medievales principales — listos para usar de inmediato
Entrenamiento de modelos personalizados: proporciona 50-100 páginas de ground truth y entrena un modelo para tu escritura manuscrita específica
El análisis de diseño maneja páginas multicolumna, glosas marginales, rubricación y texto interlineal
La expansión de abreviaturas se puede incorporar al entrenamiento del modelo para transcripciones completamente resueltas
Exporta como TEI-XML con coordenadas a nivel de palabra y puntuaciones de confianza para ediciones académicas digitales
Document
Addres to dear Isabella on the Authors
recovery
O Isa pain did visit me
I was at the last extremity
How often did I think of you
I wished your graceful form to view
To clasp you in my weak embrace
Indeed I thought Id run my race
Good Care Im sure was of me taken
But indeed I was much shaken
At last I daily strength did gain

De la imagen del manuscrito a la edición TEI-XML en 4 pasos

Sube imágenes de manuscritos

Importa escaneos de alta resolución o fotografías de folios de manuscritos. Transkribus acepta TIFF, JPG, PNG y PDF. Organiza por códice, cuaderno o colección.

Selecciona o entrena un modelo HTR

Elige entre modelos públicos entrenados en escrituras medievales, o entrena un modelo personalizado con tu propio ground truth. Para mejores resultados con una escritura manuscrita específica, 50-100 páginas transcritas son suficientes.

Ejecuta el análisis de diseño y el reconocimiento

Transkribus detecta regiones de texto, líneas base, columnas y zonas marginales automáticamente. El HTR procesa cada línea detectada y devuelve la transcripción con puntuaciones de confianza por línea.

Revisa, corrige y exporta

Revisa la transcripción en el editor integrado junto a la imagen del manuscrito. Corrige errores, añade marcado TEI y exporta como TEI-XML, PAGE XML, ALTO o texto plano para tu edición o corpus.

Modelos y escrituras

Reconocimiento de escritura gótica y más allá: modelos públicos para paleografía medieval

El repositorio de modelos públicos de Transkribus incluye modelos HTR aportados por investigadores en estudios medievales y proyectos de humanidades digitales de todo el mundo. Estos modelos cubren las principales familias de escrituras encontradas en las tradiciones manuscritas europeas del siglo VIII al XVI. Dado que cada modelo se entrena con páginas de manuscritos reales — no datos sintéticos — reflejan la variación real de las manos de los escribas, las convenciones regionales y las prácticas de abreviación específicas de cada período.
Textura gótica (textualis formata y libraria): manuscritos litúrgicos y literarios latinos, siglos XII-XV
Minúscula carolina: códices de la era carolingia, siglos IX-XII — la base de las escrituras europeas posteriores
Escritura beneventana: manuscritos del sur de Italia y Dalmacia, siglos VIII-XIII
Escrituras insulares (mayúscula y minúscula insular): manuscritos irlandeses y anglosajones, siglos VI-IX
Bastarda e híbrida: manuscritos administrativos y literarios del final de la Edad Media, siglos XIV-XVI
Entrenamiento de modelos personalizados para cualquier escritura no cubierta por los modelos públicos existentes
Ejemplos de tipos de escritura medieval admitidos por los modelos HTR de Transkribus

Entrenamiento personalizado

Entrena un modelo HTR personalizado para tu colección de manuscritos

No hay dos colecciones de manuscritos medievales iguales. Un registro notarial del siglo XIV de Provenza usa una mano diferente a la de un salterio del siglo XIV de Bohemia, aunque ambos entren dentro de la 'cursiva gótica'. Transkribus te permite entrenar un modelo HTR personalizado con tu propio ground truth transcrito, produciendo un motor de reconocimiento calibrado con precisión para tus documentos. Así es como los equipos de investigación alcanzan la mayor precisión — combinando experiencia paleográfica de dominio con aprendizaje automático.
Comienza con 50-100 páginas de ground truth transcritas manualmente de tu manuscrito
El proceso de entrenamiento normalmente tarda unas pocas horas y se puede ejecutar desde la interfaz de Transkribus
Los modelos entrenados pueden resolver las abreviaturas de los escribas si tu ground truth incluye las formas expandidas
Ajusta un modelo público existente con tus datos para una convergencia más rápida y menos páginas de entrenamiento
Comparte tu modelo entrenado con la comunidad investigadora o mantenlo privado para tu proyecto
Flujo de trabajo de entrenamiento de modelos HTR personalizados para manuscritos medievales

Preguntas frecuentes

Transkribus tiene modelos HTR públicos para las principales familias de escrituras medievales, incluidas la textura gótica (textualis), la minúscula carolina, la beneventana, la insular (tanto mayúscula como minúscula), la bastarda, la híbrida y diversas escrituras cursivas regionales. El catálogo de modelos se amplía continuamente por la comunidad investigadora. Para escrituras que aún no están cubiertas, puedes entrenar un modelo personalizado con tus propios datos de ground truth.
La precisión varía significativamente según la escritura, el estado del manuscrito y el modelo utilizado. En textura gótica bien conservada con un modelo adecuado, se pueden alcanzar tasas de error por carácter del 3-5 %. Materiales más difíciles — pergaminos dañados, texto con muchas abreviaturas, escrituras inusuales — pueden empezar con una tasa de error del 10-15 % con un modelo público y mejorar sustancialmente con entrenamiento de modelos personalizados. Cada línea incluye una puntuación de confianza para revisión focalizada.
Transcribe entre 50 y 100 páginas representativas de tu manuscrito usando el editor de Transkribus. Estos datos de ground truth sirven como entrada de entrenamiento. Lanza el proceso de entrenamiento desde la interfaz — normalmente se ejecuta en unas pocas horas. El modelo resultante es específico para la mano del escriba, el sistema de abreviaturas y el diseño de tu manuscrito. Puedes mejorar iterativamente el modelo añadiendo más ground truth.
Esto depende de cómo se prepare tu ground truth. Si tus datos de entrenamiento expanden las abreviaturas (por ejemplo, transcribiendo la marca de suspensión sobre 'dn' como 'dominus'), el modelo aprende a producir las formas expandidas. Si tu ground truth conserva las marcas de abreviatura como caracteres Unicode, el modelo las reproduce. Muchos investigadores entrenan dos modelos — uno para transcripción diplomática y otro para la expandida — según su metodología editorial.
Sí. Transkribus admite la exportación en TEI-XML con coordenadas a nivel de palabra, puntuaciones de confianza y marcado estructural. Esta salida puede integrarse en marcos de edición digital como EVT (Edition Visualization Technology) o utilizarse como entrada para herramientas de colación como CollateX. También están disponibles las exportaciones en PAGE XML y ALTO XML para otros flujos de trabajo posteriores.
El motor de análisis de diseño detecta regiones de texto incluso en páginas con agujeros, manchas o secciones faltantes. Para las zonas dañadas, el modelo HTR produce resultados con puntuaciones de confianza más bajas, señalando claramente las lecturas inciertas. Los investigadores pueden marcar lagunas en el editor y excluir regiones dañadas del procesamiento. El sistema no inventa texto donde nada es legible.
Transkribus proporciona un formato de citación recomendado en su documentación. Normalmente, se cita la plataforma (Transkribus, desarrollada en la Universidad de Innsbruck), el modelo HTR específico utilizado (incluyendo su ID y versión) y la fecha de procesamiento. Esto garantiza la reproducibilidad — otro investigador puede aplicar el mismo modelo para verificar tus transcripciones. La lista de publicaciones de READ-COOP incluye los artículos de referencia clave.
EUAT

Hecho para la investigación. Alojado en Europa. Gobernado por la comunidad.

Transkribus está desarrollado y operado por READ-COOP, una cooperativa europea de más de 250 instituciones de investigación, archivos y bibliotecas.

Sus datos son suyos

Propiedad total de todos los documentos subidos y las transcripciones generadas. Elimínalos en cualquier momento.

Alojado en Austria, UE

Procesamiento en nuestros propios servidores. Conforme al RGPD. Sin dependencia de nube de terceros.

Cooperativa, no una startup

Miles de archivos, bibliotecas y universidades como copropietarios. Construido para décadas, no para una salida de capital riesgo.

Recursos relacionados

Más para investigadores

Explora el conjunto de herramientas de investigación de Transkribus: Transkribus para investigadores · ¿Qué es el HTR? · Reducción del atraso archivístico · Crear PDF buscables
Resultados del pipeline de investigación

¿Listo para acelerar la transcripción de tus manuscritos?

Únete a más de 500 universidades que ya usan Transkribus para el reconocimiento de texto manuscrito. Comienza con créditos gratis y explora los modelos públicos para escrituras medievales.

50 créditos gratuitos al mes — Sin tarjeta de crédito

200 M+Páginas procesadas
500+Universidades que usan Transkribus
300+Modelos de IA públicos