Cree corpus de textos a partir de documentos históricos.
La lingüística histórica y la investigación de corpus dependen del texto legible por máquina, y ese texto tiene que venir de algún lugar. Transkribus convierte documentos escritos a mano e impresos en texto estructurado con marcado XML que preserva la maquetación, las notas marginales, las eliminaciones y otras características que los lingüistas necesitan. A partir de ahí, exporte a sus herramientas de corpus.

Qué obtiene para el trabajo con corpus
Resultados de texto que preservan las características que necesitan los lingüistas e investigadores de corpus.

Texto estructurado con marcado de maquetación
Títulos, columnas, notas marginales, notas al pie, eliminaciones, inserciones: la exportación XML preserva la estructura del documento que importa para el análisis lingüístico. No es solo un volcado de texto sin formato.

Búsqueda en toda la colección
Una vez transcritos, sus documentos son buscables en texto completo. Encuentre formas de palabras, variantes ortográficas y patrones en miles de páginas: una herramienta de concordancias para su corpus de manuscritos.

Exportación para análisis posterior
Exporte como texto sin formato, TEI-XML, PAGE XML o ALTO XML. Aliméntese de su canal de procesamiento NLP, su herramienta de concordancias o su programa de anotación de corpus. El marcado estructurado se transfiere.
Caso de estudio
KorBa: construcción de un corpus digital de textos polacos de los siglos XVII y XVIII

Multilingüe
Más de 100 idiomas y sistemas de escritura: con modelos entrenados por la comunidad

Empiece a construir su corpus
Empiece gratis con 50 créditos al mes. Para proyectos de corpus a gran escala, hable con nuestro equipo sobre planes institucionales y colaboraciones de investigación.