Skip to content
  • Precios
Referencia

Tasa de error por carácter (CER) — La métrica estándar de precisión en transcripción

El CER es la métrica más utilizada para evaluar el reconocimiento de texto manuscrito. Mide el porcentaje de caracteres que difieren entre una transcripción generada por IA y una referencia verificada por un humano, y es el dato que evaluadores, financiadores e investigadores le van a solicitar.

6 min de lectura

Cómo se calcula el CER

La tasa de error de caracteres (CER) mide la distancia de edición entre la transcripción automática y el Ground Truth, normalizada por la longitud del texto de referencia.

CER=S+D+IN

S = substitutions, D = deletions, I = insertions, N = total characters in the reference text. A CER of 20.0% means 5 out of 25 characters differ.

< 2%

Excelente

Precisión lista para publicación. Adecuada para ediciones críticas y trabajos académicos con una revisión manual mínima.

2–5%

Buena

Adecuada para la mayoría de los flujos de trabajo de investigación. Revise y corrija los pasajes clave antes de publicar.

5–10%

Requiere revisión

Utilizable para búsqueda por palabras clave e indexación. Considere entrenar un modelo personalizado para obtener mejores resultados.

¿Cuánto Ground Truth necesita?

La cantidad de datos de entrenamiento depende de su material, su precisión objetivo y cuántas manos diferentes esté manejando.

Colecciones de una sola mano

Para documentos escritos por una sola persona con una letra consistente, entre 15 y 30 páginas de Ground Truth suelen ser suficientes para obtener buenos resultados (CER inferior al 5%).

Colecciones de múltiples manos

Registros, actas judiciales o correspondencia con múltiples escritores requieren mayor diversidad en los datos de entrenamiento — normalmente entre 50 y 100 páginas de diferentes manos.

Comience con un modelo público

Hay más de 300 modelos preentrenados disponibles. Comience con uno, evalúe su CER sobre su material y solo entrene un modelo personalizado si es necesario.

Mejora iterativa

No necesita todo el Ground Truth de antemano. Comience con 15 páginas, entrene, evalúe, añada más páginas donde el modelo tenga dificultades y vuelva a entrenar.

El CER objetivo depende del caso de uso

La búsqueda de texto completo funciona bien con un CER del 5–8%. Las ediciones académicas pueden requerir menos del 2%. La búsqueda por palabras clave tolera incluso un 10–15%.

Calidad antes que cantidad

La calidad del Ground Truth importa más que la cantidad. 20 páginas cuidadosamente corregidas superan a 100 páginas con errores en la referencia.

Vea cómo funciona el CER: compare la calidad de transcripción de un vistazo

Cada ejemplo muestra una línea de Ground Truth y el texto reconocido correspondiente. Los caracteres que difieren están resaltados. El CER se calcula automáticamente a partir de la distancia de edición de Levenshtein.

Ground Truth
Am 15. März 1782 erschien vor dem Gericht der Bürger Johann Georg Müller
Recognised Text
Am 15. März 1782 erschien vor dem Gericht der Bürger Johann Georg Muller
Correct Substitution Insertion Deletion
72Total chars
71Correct
1Substitutions
0Insertions
0Deletions
CER = (1 + 0 + 0) / 72= 1.4%

Comparativa

Benchmarks de CER según tipo de documento

Los valores de CER en la práctica dependen del tipo de documento, la escritura y el modelo utilizado. La tabla compara resultados típicos de los modelos de IA de Transkribus frente a motores OCR estándar.

FeatureTranskribus HTROCR estándar
Printed modern text (post-1950)0.5–1% CER1–3% CER
Typewritten documents (1920s–1960s)1–3% CER3–8% CER
Handwritten 19th century2–5% CER15–30% CER
Kurrent / Sütterlin (18th–19th c.)3–8% CERFails
Medieval manuscripts5–15% CERFails

Los valores son rangos indicativos basados en modelos bien ajustados. El CER real depende del estado del documento, la consistencia de la escritura y los datos de entrenamiento del modelo.

Qué factores afectan al CER

Seis factores que determinan la precisión con la que se pueden transcribir sus documentos, y qué puede hacer respecto a cada uno.

Calidad del documento

Tinta desvanecida, manchas, traspaso de tinta y daño físico introducen ruido que dificulta el reconocimiento de caracteres. Los escaneos de alta calidad de originales bien conservados producen el mejor CER.

Tipo de escritura

La cursiva moderna es más fácil de reconocer que la Kurrent, la Sütterlin o las escrituras medievales. Cuanto más se aleje la escritura de las formas modernas, más datos de entrenamiento necesita el modelo.

Datos de entrenamiento del modelo

Un modelo entrenado con material similar al suyo superará con creces a uno genérico. Los modelos personalizados entrenados con 50–100 páginas de Ground Truth pueden reducir el CER a la mitad o más.

Resolución de imagen

Los escaneos a 300 DPI o más conservan los detalles finos necesarios para distinguir caracteres de apariencia similar. Las imágenes de baja resolución aumentan significativamente los errores de sustitución.

Complejidad del diseño

Los diseños multicolumna, las anotaciones marginales, las tablas y las anotaciones interlineales requieren un análisis preciso del diseño. Los errores en la detección de regiones de texto reducen directamente el CER efectivo.

Idioma

Los idiomas con diacríticos complejos, escrituras no latinas o ligaduras extensas presentan desafíos adicionales. Los modelos específicos por idioma suelen lograr los mejores resultados.

Encuentre el modelo adecuado

Encuentre el modelo adecuado para sus documentos

Explore más de 300 modelos públicos de IA en el catálogo de modelos de Transkribus. Filtre por idioma, tipo de escritura y siglo para encontrar modelos que coincidan con su material, y consulte las puntuaciones de CER publicadas antes de empezar.
Documento de protocolo histórico transcrito con Transkribus
EUAT

Construido sobre la confianza, impulsado por la comunidad.

Transkribus es desarrollado y alojado en Europa por una cooperativa de investigadores, archivos y bibliotecas. Sus datos permanecen bajo su control.

Sus datos le pertenecen

Propiedad total. Elimine en cualquier momento.

Alojado en Austria, UE

Todo el procesamiento en nuestros propios servidores. Cumple con el RGPD. Sin dependencias de nubes de terceros.

Cooperativa, no una startup

Cientos de universidades, archivos y bibliotecas como copropietarios. Construido para décadas, no para una salida de capital riesgo.

Pruebe Transkribus con sus propios documentos

Cree una cuenta gratuita y compruebe qué CER puede lograr con su material. Comience con un modelo público o entrene el suyo propio.

50 créditos gratuitos cada mes · Sin tarjeta de crédito

200 M+Páginas procesadas
500 K+Usuarios en todo el mundo
300+Modelos de IA públicos