Skip to content
  • Prezzi

Costruisci corpora testuali da documenti storici.

La linguistica storica e la ricerca sui corpora dipendono da testo leggibile dalle macchine — e quel testo deve provenire da qualche parte. Transkribus converte documenti scritti a mano e testi a stampa in testo strutturato con markup XML che preserva il layout, i marginalia, le cancellature e altre caratteristiche di cui i linguisti hanno bisogno. Da lì, esporta nei tuoi strumenti di corpus.

Trascrizione di testi storici per la costruzione di corpora
100+lingue e scritture
300+modelli addestrati dalla comunità
XMLesportazione di testo strutturato

Cosa ottieni per il lavoro sul corpus

Output testuale che preserva le caratteristiche di cui linguisti e ricercatori di corpus hanno bisogno.

Editor di trascrizione con markup strutturale

Testo strutturato con markup di layout

Intestazioni, colonne, marginalia, note a piè di pagina, cancellature, inserzioni — l'esportazione XML preserva la struttura del documento rilevante per l'analisi linguistica. Non solo un semplice testo piatto.

Ricerca full-text nel corpus

Ricercabile nell'intera collezione

Una volta trascritti, i tuoi documenti sono ricercabili full-text. Trova forme di parole, varianti ortografiche e pattern su migliaia di pagine — un concordanziere per il tuo corpus di manoscritti.

Esportazione per strumenti NLP e di corpus

Esporta per l'analisi successiva

Esporta come testo semplice, TEI-XML, PAGE XML o ALTO XML. Integra nella tua pipeline NLP, nel concordanziere o nello strumento di annotazione del corpus. Il markup strutturato viene trasferito.

Caso di studio

KorBa: costruzione di un corpus digitale di testi polacchi del XVII–XVIII secolo

Il progetto KorBa dell'Accademia delle Scienze Polacca utilizza Transkribus per costruire un corpus linguistico su larga scala di testi polacchi storici del XVII e XVIII secolo. Il progetto addestra modelli personalizzati sulla scrittura a mano e sulla stampa tipici del periodo, poi elabora intere collezioni di manoscritti in testo leggibile dalle macchine che alimenta la piattaforma di analisi del corpus.
Modelli HTR personalizzati addestrati sulla scrittura a mano e sulla stampa polacca storica
Esportazione di testo strutturato che preserva il layout del documento e le annotazioni
Corpus utilizzato per l'analisi linguistica diacronica della lingua polacca
Manoscritto polacco storico — progetto corpus KorBa

Multilingue

100+ lingue e scritture — con modelli addestrati dalla comunità

Transkribus supporta oltre 100 lingue e scritture, con più di 300 modelli pubblici addestrati da ricercatori di tutto il mondo. Che tu stia costruendo un corpus di sermoni medievali latini, corrispondenza francese della prima età moderna o stampa Devanagari del XIX secolo — molto probabilmente esiste già un modello da cui partire. In caso contrario, addestra il tuo su 50 pagine.
Latino, tedesco, francese, inglese, olandese, italiano, spagnolo, portoghese e oltre 90 altri
Scritture storiche: Kurrent, Sütterlin, Secretary Hand, gotico textura, minuscola carolina
Non latine: ebraico, arabo, greco, cirillico, devanagari e altro ancora
Addestramento di modelli personalizzati per qualsiasi scrittura o lingua con almeno 50 pagine di ground truth
Modelli di riconoscimento della scrittura multilingue

Inizia a costruire il tuo corpus

Inizia gratuitamente con 50 crediti al mese. Per progetti di corpus su larga scala, contatta il nostro team per i piani istituzionali e le partnership di ricerca.

100+lingue
300+modelli pubblici
Hosted in UEconforme al GDPR