Riduzione dell'arretrato archivistico con il riconoscimento testo basato su IA

2,000+Archivi e biblioteche

200 M+Pagine elaborate

300+Modelli IA pubblici

250+Membri della cooperativa

Il problema

La crisi delle collezioni nascoste: gli arretrati di digitalizzazione degli archivi continuano a crescere

In Italia, gli Archivi di Stato e le Soprintendenze archivistiche custodiscono fondi immensi — atti notarili, catasti, registri comunali, carteggi — in gran parte ancora inaccessibili in formato digitale. La situazione è analoga in tutta Europa: una quota enorme del patrimonio documentario resta "nascosta", priva di inventari ricercabili o trascrizioni. Non si tratta di materiali marginali. Includono corrispondenza, documenti giuridici, fascicoli amministrativi e manoscritti che i ricercatori non possono scoprire perché non esiste alcun inventario, voce di catalogo o testo ricercabile. Ogni anno l'arretrato cresce poiché le nuove acquisizioni arrivano più velocemente di quanto il personale disponibile possa elaborarle.

La carenza di personale è strutturale, non temporanea — gli archivi non possono risolvere l'arretrato assumendo più personale

La trascrizione manuale di una singola scatola d'archivio può richiedere settimane di lavoro qualificato

Le collezioni non elaborate non generano citazioni, ricerche né coinvolgimento pubblico

I progetti di digitalizzazione finanziati con sovvenzioni spesso coprono l'acquisizione delle immagini ma non il riconoscimento del testo o la creazione dei metadati

Le collezioni miste — dattiloscritti, manoscritti, moduli stampati — richiedono approcci diversi che rallentano ulteriormente i flussi di lavoro manuali

Scatole d'archivio non elaborate in attesa di catalogazione e digitalizzazione

La soluzione

Riduci l'arretrato archivistico con l'IA: da scatole non elaborate a documenti ricercabili

Transkribus consente agli archivi di elaborare collezioni su una scala che i flussi di lavoro manuali non possono raggiungere. Carica immagini scansionate — intere scatole, serie o fondi — ed esegui il riconoscimento del testo con IA su migliaia di pagine in un singolo blocco. Il riconoscimento del testo manoscritto (HTR) della piattaforma gestisce le scritture e i tipi di documenti più comuni nelle collezioni archivistiche: scritture amministrative, corrispondenza ufficiale, atti giudiziari, registri comunali e fascicoli in formato misto. Il risultato è testo leggibile dalla macchina e ricercabile che può essere esportato direttamente nei sistemi informativi archivistici.

Elaborazione in blocco: metti in coda migliaia di pagine ed elaborale senza sorveglianza — nessun intervento pagina per pagina

Oltre 300 modelli IA pubblici addestrati su scritture storiche dal XV secolo in poi

Esportazione in PAGE XML, ALTO XML e TEI-XML per l'importazione in ArchivesSpace, AtoM e altri sistemi

L'API Transkribus consente pipeline completamente automatizzate per flussi di lavoro di digitalizzazione di massa

Pubblica le collezioni elaborate direttamente come edizioni digitali ricercabili tramite Transkribus Sites

Transkribus per gli archivi

Interfaccia di elaborazione in blocco di Transkribus per collezioni archivistiche su larga scala

Confronto

Elaborazione assistita dall’IA vs. trascrizione manuale per gli archivi

Gli archivi affrontano un problema fondamentale di produttività: milioni di pagine in attesa di essere catalogate, ricercabili e accessibili. Ecco come l’elaborazione assistita dall’IA si confronta con i tradizionali flussi di lavoro manuali.

Feature	Elaborazione IA di Transkribus	Trascrizione manuale
Produttività	Migliaia di pagine al giorno con l’elaborazione in batch — scala in base alla dimensione della collezione	Un trascrittore esperto elabora 5–15 pagine al giorno a seconda della difficoltà
Costo per pagina	Una frazione di centesimo per pagina con tariffazione a crediti	Ad alta intensità di manodopera — i costi si accumulano linearmente per ogni pagina
Coerenza	Lo stesso modello produce risultati coerenti su migliaia di pagine	La qualità varia tra trascrittori, affaticamento e differenze di interpretazione
Ricercabilità	Ogni pagina elaborata diventa immediatamente ricercabile a testo pieno	Solo le pagine trascritte sono ricercabili — l’arretrato resta inaccessibile
Gestione delle scritture storiche	Oltre 300 modelli pubblici che coprono scritture dal IX secolo a oggi	Richiede una formazione specializzata in paleografia — pochi operatori possiedono le competenze necessarie
Tempi di accesso	Le collezioni diventano accessibili in pochi giorni o settimane dalla digitalizzazione	Arretrati di anni o decenni sono comuni nelle grandi istituzioni
Controllo qualità	I punteggi di confidenza segnalano le righe incerte per una revisione umana mirata	Richiede la rilettura completa di ogni trascrizione

Il confronto riflette i flussi di lavoro istituzionali tipici. L’elaborazione tramite IA funziona al meglio come complemento alla competenza umana — una prima passata automatizzata seguita da una revisione manuale mirata.

Come elaborare una collezione archivistica in 4 passaggi

Carica le collezioni scansionate

Carica intere serie o fondi come PDF multipagina, TIFF o lotti di immagini. Transkribus gestisce automaticamente il rilevamento del layout — colonne, tabelle, annotazioni marginali.

Seleziona un modello IA

Scegli tra oltre 300 modelli pubblici filtrati per lingua, secolo e tipo di scrittura. Per collezioni miste, esegui più modelli su diversi gruppi di documenti all'interno dello stesso progetto.

Esegui il riconoscimento in blocco

Metti in coda migliaia di pagine per l'elaborazione. Transkribus esegue il riconoscimento del testo in background — nessun intervento manuale richiesto. Monitora l'avanzamento dalla dashboard.

Esporta e integra

Esporta i risultati come PAGE XML, ALTO XML, TEI-XML, testo semplice o PDF ricercabile. Importa direttamente in ArchivesSpace, AtoM o pubblica tramite Transkribus Sites.

Su larga scala

Elaborazione archivistica automatizzata con l'API Transkribus

Per le istituzioni che gestiscono programmi di digitalizzazione su larga scala o ricorrenti, l'API REST Metagrapho consente pipeline di elaborazione completamente automatizzate. Integra il riconoscimento del testo direttamente nei tuoi flussi di lavoro esistenti di acquisizione immagini e catalogazione — nessun caricamento manuale, nessuna interazione tramite browser. L'API supporta la selezione dei modelli, la gestione dei job in blocco e il recupero dell'output strutturato, rendendola adatta a progetti di digitalizzazione di massa di livello produttivo.

API REST con documentazione completa per l'integrazione nei flussi di lavoro istituzionali

Selezione programmatica dei modelli — scegli automaticamente modelli diversi per diversi tipi di collezione

Output JSON strutturato con testo, coordinate e punteggi di affidabilità per ogni regione di testo

Gestione dei job in blocco: invio, monitoraggio e recupero dei risultati per migliaia di pagine

Combinabile con il riconoscimento delle entità per estrarre nomi, date e luoghi per l'arricchimento del catalogo

API Transkribus per l'elaborazione in blocco

import requests

API = "https://transkribus.eu/processing/v1"
TOKEN = "your-api-token"

# 1. Upload collection
upload = requests.post(f"{API}/uploads",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={"collectionId": 12345}
)

# 2. Start recognition on all pages
job = requests.post(f"{API}/processes",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={
    "docId": upload.json()["docId"],
    "htrId": 53042,   # model ID
    "pages": "all"
  }
)

# 3. Poll for completion
status = requests.get(
  f"{API}/processes/{job.json()['processId']}",
  headers={"Authorization": f"Bearer {TOKEN}"}
).json()
print(f"Status: {status['state']}")

Domande frequenti

Quanto velocemente può Transkribus elaborare collezioni archivistiche su larga scala?

La velocità di elaborazione dipende dalla complessità del documento e dal numero di pagine, ma come riferimento: una singola pagina richiede tipicamente 15-30 secondi. L'elaborazione in blocco avviene in parallelo, quindi una collezione di 10.000 pagine può essere elaborata in ore anziché nelle settimane o mesi richiesti dalla trascrizione manuale. L'API Transkribus consente l'elaborazione continua e non presidiata per volumi ancora maggiori.

Quale accuratezza possiamo aspettarci su collezioni archivistiche miste?

La precisione varia in base al tipo di scrittura e alle condizioni del documento. Su scritture amministrative del XIX e XX secolo ben conservate, i tassi di errore a livello di carattere (CER) inferiori al 5% sono tipici con modelli pubblici appropriati. Scritture più antiche o più impegnative possono richiedere l'addestramento di modelli personalizzati per raggiungere una precisione comparabile. Ogni riga di testo include un punteggio di affidabilità, consentendo flussi di lavoro di revisione mirati alla qualità — il personale può concentrarsi sulle sezioni a bassa affidabilità anziché rileggere interi documenti.

Transkribus si integra con ArchivesSpace, AtoM o altri sistemi di gestione archivistica?

Transkribus esporta in PAGE XML, ALTO XML, TEI-XML e altri formati standard che ArchivesSpace, AtoM e sistemi informativi archivistici simili possono importare. L'API consente pipeline di esportazione automatizzate. Sebbene non esista un connettore plug-in diretto, l'output XML strutturato è progettato per l'interoperabilità con gli standard di metadati archivistici (EAD, Dublin Core).

Quanti membri del personale sono necessari per gestire un progetto di elaborazione su larga scala?

Un membro del personale formato può gestire un progetto di elaborazione in blocco che copre migliaia di pagine. Transkribus gestisce automaticamente il rilevamento del layout, il riconoscimento del testo e l'esportazione. Il tempo del personale è meglio impiegato nella revisione qualitativa dei segmenti a bassa affidabilità e nelle decisioni curatoriali — selezione delle collezioni da prioritizzare, scelta dei modelli appropriati e validazione dei risultati.

Quanto costa Transkribus a livello istituzionale?

Transkribus offre piani istituzionali progettati per l'elaborazione ad alto volume. I prezzi dipendono dal volume di pagine e dalla necessità di accesso API. Contatta il nostro team su transkribus.org/contact per un preventivo personalizzato. Ogni account include 50 crediti gratuiti al mese per valutare la piattaforma prima di impegnarsi.

Come gestisce Transkribus il GDPR e la privacy dei dati?

Tutta l'elaborazione avviene sui server di Transkribus in Austria (UE). Nessun dato viene inviato a servizi cloud di terze parti. Documenti e trascrizioni rimangono sotto la piena proprietà dell'istituzione e possono essere eliminati in qualsiasi momento. Transkribus è gestito da READ-COOP SCE, una cooperativa europea — non una startup sostenuta da venture capital. Accordi per il trattamento dei dati sono disponibili per le istituzioni che lo richiedono.

Come dovremmo prioritizzare quali collezioni elaborare per prime?

Le istituzioni ottengono tipicamente il miglior ritorno iniziando con le collezioni che sono (1) già digitalizzate (scansionate) ma prive di testo ricercabile, (2) molto richieste dai ricercatori, o (3) scritte in scritture per le quali esistono già modelli pubblici solidi. Questo approccio massimizza l'impatto immediato con una configurazione minima. Il catalogo di modelli di Transkribus può essere filtrato per lingua, tipo di scrittura e secolo per identificare quali collezioni funzioneranno bene senza interventi aggiuntivi.

Possiamo elaborare collezioni che contengono sia materiale manoscritto sia stampato?

Sì. Le collezioni archivistiche contengono frequentemente materiali misti — moduli dattiloscritti con annotazioni manoscritte, intestazioni stampate con voci in corsivo, o pagine che alternano stampa e scrittura. Transkribus gestisce il rilevamento del layout per questi formati misti e supporta l'esecuzione di modelli diversi su tipi di documenti diversi all'interno dello stesso progetto.

Infrastruttura di livello istituzionale per collezioni archivistiche.

Transkribus è costruito e ospitato in Europa da una cooperativa di oltre 250 archivi, biblioteche e università. Le tue collezioni restano sotto il tuo controllo.

I vostri dati restano vostri

Piena proprietà. Cancellate in qualsiasi momento.

Ospitato in Austria, UE

Elaborazione sui nostri server. Conforme al GDPR. Nessuna dipendenza cloud di terzi.

Cooperativa, non una startup

Migliaia di archivi, biblioteche e università come comproprietari. Costruito per decenni, non per un'uscita VC.

Risorse correlate

Altro per archivi e istituzioni

Scopri come Transkribus si integra nei tuoi flussi di lavoro istituzionali: Transkribus per gli archivi · Cos'è l'HTR? · Crea PDF ricercabili · Manoscritti medievali