Costruisci corpora testuali da documenti storici.

La linguistica storica e la ricerca sui corpora dipendono da testo leggibile dalle macchine — e quel testo deve provenire da qualche parte. Transkribus converte documenti scritti a mano e testi a stampa in testo strutturato con markup XML che preserva il layout, i marginalia, le cancellature e altre caratteristiche di cui i linguisti hanno bisogno. Da lì, esporta nei tuoi strumenti di corpus.

Inizia gratuitamente Come funziona il riconoscimento del testo

Trascrizione di testi storici per la costruzione di corpora

100+lingue e scritture

300+modelli addestrati dalla comunità

XMLesportazione di testo strutturato

Editor di trascrizione con markup strutturale

Testo strutturato con markup di layout

Intestazioni, colonne, marginalia, note a piè di pagina, cancellature, inserzioni — l'esportazione XML preserva la struttura del documento rilevante per l'analisi linguistica. Non solo un semplice testo piatto.

Ricercabile nell'intera collezione

Una volta trascritti, i tuoi documenti sono ricercabili full-text. Trova forme di parole, varianti ortografiche e pattern su migliaia di pagine — un concordanziere per il tuo corpus di manoscritti.

Esportazione per strumenti NLP e di corpus

Esporta per l'analisi successiva

Esporta come testo semplice, TEI-XML, PAGE XML o ALTO XML. Integra nella tua pipeline NLP, nel concordanziere o nello strumento di annotazione del corpus. Il markup strutturato viene trasferito.

Caso di studio

KorBa: costruzione di un corpus digitale di testi polacchi del XVII–XVIII secolo

Il progetto KorBa dell'Accademia delle Scienze Polacca utilizza Transkribus per costruire un corpus linguistico su larga scala di testi polacchi storici del XVII e XVIII secolo. Il progetto addestra modelli personalizzati sulla scrittura a mano e sulla stampa tipici del periodo, poi elabora intere collezioni di manoscritti in testo leggibile dalle macchine che alimenta la piattaforma di analisi del corpus.

Modelli HTR personalizzati addestrati sulla scrittura a mano e sulla stampa polacca storica

Esportazione di testo strutturato che preserva il layout del documento e le annotazioni

Corpus utilizzato per l'analisi linguistica diacronica della lingua polacca

Leggi il caso di studio KorBa

Manoscritto polacco storico — progetto corpus KorBa

Multilingue

100+ lingue e scritture — con modelli addestrati dalla comunità

Transkribus supporta oltre 100 lingue e scritture, con più di 300 modelli pubblici addestrati da ricercatori di tutto il mondo. Che tu stia costruendo un corpus di sermoni medievali latini, corrispondenza francese della prima età moderna o stampa Devanagari del XIX secolo — molto probabilmente esiste già un modello da cui partire. In caso contrario, addestra il tuo su 50 pagine.

Latino, tedesco, francese, inglese, olandese, italiano, spagnolo, portoghese e oltre 90 altri

Scritture storiche: Kurrent, Sütterlin, Secretary Hand, gotico textura, minuscola carolina

Non latine: ebraico, arabo, greco, cirillico, devanagari e altro ancora

Addestramento di modelli personalizzati per qualsiasi scrittura o lingua con almeno 50 pagine di ground truth

Sfoglia i modelli pubblici

Modelli di riconoscimento della scrittura multilingue

Inizia a costruire il tuo corpus

Inizia gratuitamente con 50 crediti al mese. Per progetti di corpus su larga scala, contatta il nostro team per i piani istituzionali e le partnership di ricerca.

Inizia gratuitamente Prenota una consulenza

100+lingue

300+modelli pubblici

Hosted in UEconforme al GDPR