Skip to content
  • Precios

Su proyecto de digitalización, gestionado de principio a fin

Ya necesite reconocimiento de texto probado a gran escala o un enfoque completamente nuevo para material que ningún método estándar puede manejar — nuestro equipo de expertos, especialistas en IA y archivistas gestiona todo el proyecto. Desde el análisis de su corpus hasta la entrega de resultados estructurados y consultables, integrados en sus sistemas.

Sus documentosEscaneos, imágenes, manuscritos
Análisis y prueba de conceptoSelección de modelos, evaluación CER
Procesamiento y entrenamientoReconocimiento, modelos personalizados, QA
Entrega estructuradaXML, CSV, Sites, integración de sistemas
20M+páginas en un solo proyecto
2,000+instituciones confían en Transkribus
95%+de precisión en modelos entrenados

Del procesamiento estándar a la resolución de problemas que nadie más puede resolver

Cada colección es diferente. Adaptamos el enfoque al desafío — desde el procesamiento por lotes rutinario hasta el desarrollo de nuevos frameworks de IA.

Procesamiento por lotes con modelos probados

Para material bien escaneado con escrituras estándar: seleccionamos los modelos adecuados de entre más de 100 modelos de reconocimiento de texto y diseño, configuramos el flujo de trabajo, ejecutamos el procesamiento por lotes, verificamos la calidad y entregamos.

Libros impresos y documentos gubernamentalesEscrituras estándar (latina, Kurrent, Fraktur)Grandes volúmenes con calidad consistente

Entrenamiento de modelos personalizados para su material

Cuando los modelos estándar no alcanzan la precisión necesaria — escritura inusual, escaneos degradados, escrituras raras — entrenamos modelos de IA específicamente en su material. Múltiples rondas de entrenamiento hasta alcanzar la precisión objetivo.

Escrituras raras o personalesEscaneos degradados o digitalización de microfilmSistemas de escritura no latinos
Ver el proyecto Bautzen — modelo Kurrent personalizado para 200 años de actas del consejo

Definición de esquemas, extracción de datos e integración de sistemas

Más allá del texto plano: definimos esquemas de extracción para sus tipos de documentos — tablas, campos, registros estructurados — y entregamos datos en el formato que sus sistemas necesitan. Publicación como Transkribus Site consultable con su imagen de marca.

Extracción de tablas y campos de registrosSalida CSV, Excel o lista para base de datosIntegración con ArchivesSpace, AtoM, scopeArchivTranskribus Sites publicados con búsqueda de texto completo
Ver el proyecto St. Gallen — 200.000 páginas publicadas como Site consultable

Nuevos frameworks cuando los enfoques estándar fallan

Algunas colecciones no pueden resolverse con herramientas existentes. Desarrollamos nuevos enfoques de IA: modelos Smart Extract de extremo a extremo, reconocimiento de entidades nombradas para etiquetado automático y frameworks a medida para problemas que ningún método estándar puede resolver.

Smart Extract — comprensión contextual de documentosReconocimiento de entidades nombradas y geoenriquecimiento automáticoFrameworks novedosos para documentos no estándar
Ver el proyecto MfN Berlín — primer despliegue real de Smart Extract

Cómo funciona un proyecto gestionado

Un proceso probado, perfeccionado a lo largo de decenas de proyectos institucionales. Usted mantiene el control del alcance y la calidad — nosotros nos encargamos de la ejecución técnica.

Comprender su material

Analizamos su colección: tipos de documentos, escrituras, diseños, estado, volumen. ¿Qué datos necesita extraer? ¿En qué sistemas deben integrarse? ¿Qué significa el éxito para su institución?

Prueba de concepto

Nos envía una muestra representativa. Ejecutamos el pipeline completo — incluyendo entrenamiento de modelo personalizado si es necesario — y devolvemos resultados con mediciones de tasa de error y una estimación realista de costes.

Planificación del proyecto e inicio

Definimos alcance, cronograma, hitos, entregables y precios. Un/a gestor/a de proyecto dedicado/a con formación en humanidades digitales o archivística se asigna a su proyecto.

Procesamiento, entrenamiento y control de calidad

Su gestor/a de proyecto coordina el pipeline técnico: reconocimiento, refinamiento de modelos, extracción de datos, controles de calidad. Reuniones de sincronización quincenales le mantienen informado/a.

Entrega por hitos y revisión

Los resultados se entregan progresivamente en hitos acordados, cada uno con métricas de calidad y revisión de muestras. Usted revisa y aprueba antes de que continuemos.

Entrega final e integración

El conjunto de datos completo en el formato requerido — PAGE XML, ALTO, TEI, CSV, PDF consultable — o publicado como Transkribus Site con búsqueda de texto completo y marca personalizada. Todos los modelos entrenados le pertenecen.

Lo que hemos entregado

De 55.000 páginas manuscritas a 20 millones de páginas de periódicos — cada proyecto es diferente.

Etiquetas de especímenes del Museum für Naturkunde Berlin

Museum für Naturkunde Berlin

Alemania
250Ketiquetas de especímenes transcritas

250.000 etiquetas de especímenes con metadatos manuscritos que abarcan dos siglos. El OCR estándar falló por completo — tinta descolorida, papel dañado, escrituras mixtas y diseños no estándar.

Desarrollo de un modelo Smart Extract — una IA que comprende contextualmente la estructura de las etiquetas. Añadido reconocimiento de entidades nombradas con enriquecimiento GeoNames para el etiquetado automático de especies y resolución de topónimos.

Primer despliegue real exitoso de un modelo Smart Extract. Conjunto de datos completo de 250.000 etiquetas transcritas y etiquetadas — un modelo replicable para colecciones de historia natural en todo el mundo.

Leer la historia completa
Páginas históricas de periódicos del proyecto Zeitpunkt.NRW

Zeitpunkt.NRW

Renania del Norte-Westfalia, Alemania
20Mpáginas de periódicos con búsqueda de texto completo

El fondo completo de periódicos históricos de Renania del Norte-Westfalia — 20 millones de páginas que abarcan siglos. Diseños multicolumna complejos, tipografía Fraktur, anuncios y tipos de contenido mixtos.

Reconocimiento de texto completo a una escala sin precedentes. Segmentación de diseño por IA para páginas de periódicos complejas, procesamiento por lotes con control de calidad y publicación a través de un portal digital regional.

Uno de los mayores proyectos de reconocimiento de texto jamás realizados. Ciudadanos e investigadores pueden ahora buscar a través de siglos de historia regional en el portal Zeitpunkt.NRW.

Visitar zeitpunkt.nrw
Documentos notariales del Noord-Hollands Archief

Noord-Hollands Archief

Haarlem, Países Bajos
2Mescaneos de archivos notariales consultables

Siglos de archivos notariales — testamentos, transferencias de propiedad, inventarios, declaraciones de testigos — de 1570 a 1925. Casi 2 millones de escaneos de documentos manuscritos de Haarlem, Kennemerland y Amstel- en Meerlanden, inaccesibles para quienes no saben leer escrituras históricas.

Aplicación de HTR a los archivos notariales completos. Publicado como Transkribus Site consultable con búsqueda aproximada para nombres de personas y lugares. Precisión del 93–98,6 %. Parte del proyecto pionero «De ijsberg zichtbaar maken» (2019–2021).

Casi 2 millones de escaneos de actas notariales ahora consultables en texto completo en línea. Investigadores, genealogistas y ciudadanos pueden buscar nombres, lugares y temas a lo largo de 350 años de historia notarial de Holanda Septentrional.

Explorar la colección
Actas del consejo del archivo de St. Gallen

Archivo Estatal de St. Gallen

Suiza
200Kpáginas ahora consultables públicamente

417 volúmenes, 200.000 páginas de actas del consejo — manuscritas y mecanografiadas, muchas digitalizadas de antiguos microfilms. Solo accesibles mediante visita presencial al archivo.

Entrenamiento de modelo personalizado en las actas del consejo. Combinación de transcripción automatizada y corrección manual. Publicado como Transkribus Site consultable con vista lado a lado del documento y la transcripción.

Las actas del consejo desde 1803 accesibles al público en línea — consultables las 24 horas. Sin necesidad de conocimientos de paleografía.

Leer la historia completa
Escritura Kurrent histórica del archivo de Bautzen

Archivverbund Bautzen

Alemania
55Kpáginas de historia del consejo municipal

257 volúmenes de actas del consejo municipal de 1623 a 1832 — 55.000 páginas en escritura Kurrent. Digitalizadas pero inaccesibles porque la escritura era demasiado difícil de descifrar para investigadores no formados.

Aplicación del modelo Early Kurrent, seguido del entrenamiento de un modelo personalizado. Publicado como Transkribus Site con enlaces permanentes integrados en Archivportal-D y Findbuch.

200 años de historia de la ciudad de Bautzen completamente consultables. Descubrimiento transparente a través de los portales de archivo existentes.

Leer la historia completa

Utilizado por instituciones líderes en todo el mundo

Sus datos siguen siendo suyos

Propiedad y control total. Acuerdos de procesamiento de datos (DPA) y acuerdos personalizados disponibles.

Alojado en Austria, UE

Todo el procesamiento en nuestros propios servidores. Conforme al RGPD. Sin nube de terceros.

Una cooperativa, no una startup

Más de 250 archivos, bibliotecas y universidades como copropietarios. Construido para décadas, no para la venta.

Sin dependencia del proveedor

Todas las salidas en formatos estándar. Los modelos entrenados le pertenecen. Datos siempre exportables.

Cuéntenos sobre su proyecto

Describa su colección y sus objetivos — le responderemos en un día laborable con un enfoque a medida, desde la prueba de concepto hasta la entrega final.

¿Aproximadamente cuántas páginas necesita procesar?

20,000 páginas

Al enviar, acepta nuestra Privacy Policy.

Sus datos siguen siendo suyosPropiedad y control total. Conforme al RGPD con DPA disponibles.
Alojado en Austria, UETodo el procesamiento en nuestros propios servidores. Sin nube de terceros.
Una cooperativa, no una startupMás de 250 archivos, bibliotecas y universidades como copropietarios.

Preguntas frecuentes

Todo lo que necesita saber sobre los proyectos de digitalización gestionados.