Skip to content
  • Precios

Cree corpus de textos a partir de documentos históricos.

La lingüística histórica y la investigación de corpus dependen del texto legible por máquina, y ese texto tiene que venir de algún lugar. Transkribus convierte documentos escritos a mano e impresos en texto estructurado con marcado XML que preserva la maquetación, las notas marginales, las eliminaciones y otras características que los lingüistas necesitan. A partir de ahí, exporte a sus herramientas de corpus.

Transcripción de textos históricos para la construcción de corpus
100+idiomas y sistemas de escritura
300+modelos entrenados por la comunidad
XMLexportación de texto estructurado

Qué obtiene para el trabajo con corpus

Resultados de texto que preservan las características que necesitan los lingüistas e investigadores de corpus.

Editor de transcripción con marcado estructural

Texto estructurado con marcado de maquetación

Títulos, columnas, notas marginales, notas al pie, eliminaciones, inserciones: la exportación XML preserva la estructura del documento que importa para el análisis lingüístico. No es solo un volcado de texto sin formato.

Búsqueda en texto completo en el corpus

Búsqueda en toda la colección

Una vez transcritos, sus documentos son buscables en texto completo. Encuentre formas de palabras, variantes ortográficas y patrones en miles de páginas: una herramienta de concordancias para su corpus de manuscritos.

Exportación a herramientas de NLP y corpus

Exportación para análisis posterior

Exporte como texto sin formato, TEI-XML, PAGE XML o ALTO XML. Aliméntese de su canal de procesamiento NLP, su herramienta de concordancias o su programa de anotación de corpus. El marcado estructurado se transfiere.

Caso de estudio

KorBa: construcción de un corpus digital de textos polacos de los siglos XVII y XVIII

El proyecto KorBa de la Academia Polaca de Ciencias utiliza Transkribus para crear un corpus lingüístico a gran escala de textos históricos en polaco de los siglos XVII y XVIII. El proyecto entrena modelos personalizados en la escritura manuscrita y la impresión propias de cada época y luego procesa colecciones enteras de manuscritos en texto legible por máquina que se incorpora a la plataforma de análisis del corpus.
Modelos HTR personalizados entrenados en escritura manuscrita e impresión históricas en polaco
Exportación de texto estructurado que preserva la maquetación del documento y las anotaciones
Corpus utilizado para el análisis lingüístico diacrónico de la lengua polaca
Manuscrito histórico en polaco — proyecto del corpus KorBa

Multilingüe

Más de 100 idiomas y sistemas de escritura: con modelos entrenados por la comunidad

Transkribus es compatible con más de 100 idiomas y sistemas de escritura, con más de 300 modelos públicos entrenados por investigadores de todo el mundo. Tanto si está creando un corpus de sermones latinos medievales, correspondencia francesa de la Edad Moderna temprana o impresión en devanagari del siglo XIX, lo más probable es que encuentre un modelo con el que empezar. Si no es así, entrene el suyo propio con 50 páginas.
Latín, alemán, francés, inglés, neerlandés, italiano, español, portugués y más de 90 idiomas más
Escrituras históricas: Kurrent, Sütterlin, Secretary Hand, textura gótica, minúscula carolina
No latinas: hebreo, árabe, griego, cirílico, devanagari y más
Entrenamiento de modelos personalizados para cualquier escritura o idioma con más de 50 páginas de datos de referencia
Modelos de reconocimiento de escritura manuscrita multilingüe

Empiece a construir su corpus

Empiece gratis con 50 créditos al mes. Para proyectos de corpus a gran escala, hable con nuestro equipo sobre planes institucionales y colaboraciones de investigación.

100+idiomas
300+modelos públicos
Alojado en la UEcumple con el RGPD