Costruisci corpora testuali da documenti storici.
La linguistica storica e la ricerca sui corpora dipendono da testo leggibile dalle macchine — e quel testo deve provenire da qualche parte. Transkribus converte documenti scritti a mano e testi a stampa in testo strutturato con markup XML che preserva il layout, i marginalia, le cancellature e altre caratteristiche di cui i linguisti hanno bisogno. Da lì, esporta nei tuoi strumenti di corpus.

Cosa ottieni per il lavoro sul corpus
Output testuale che preserva le caratteristiche di cui linguisti e ricercatori di corpus hanno bisogno.

Testo strutturato con markup di layout
Intestazioni, colonne, marginalia, note a piè di pagina, cancellature, inserzioni — l'esportazione XML preserva la struttura del documento rilevante per l'analisi linguistica. Non solo un semplice testo piatto.

Ricercabile nell'intera collezione
Una volta trascritti, i tuoi documenti sono ricercabili full-text. Trova forme di parole, varianti ortografiche e pattern su migliaia di pagine — un concordanziere per il tuo corpus di manoscritti.

Esporta per l'analisi successiva
Esporta come testo semplice, TEI-XML, PAGE XML o ALTO XML. Integra nella tua pipeline NLP, nel concordanziere o nello strumento di annotazione del corpus. Il markup strutturato viene trasferito.
Caso di studio
KorBa: costruzione di un corpus digitale di testi polacchi del XVII–XVIII secolo

Multilingue
100+ lingue e scritture — con modelli addestrati dalla comunità

Inizia a costruire il tuo corpus
Inizia gratuitamente con 50 crediti al mese. Per progetti di corpus su larga scala, contatta il nostro team per i piani istituzionali e le partnership di ricerca.