Skip to content
  • Prezzi

Riduzione dell'arretrato archivistico con il riconoscimento del testo basato su IA

Milioni di pagine non elaborate, personale insufficiente. Transkribus elabora in blocco intere collezioni — trasformando fondi nascosti in documenti ricercabili e accessibili su scala istituzionale.

Elaborazione in bloccoCollezioni nascosteIA su larga scalaContattateci

Trascina un'immagine qui

Seleziona un file...

PNG o JPG fino a 10 Mb

Wolpi
AI Assistant

Caricando un'immagine, accetti i nostri termini e la nostra informativa sulla privacy.

Scelto da 500.000+ utenti in tutto il mondo — 200 M+ pagine elaborate

2,000+
Archivi e biblioteche
200 M+
Pagine elaborate
300+
Modelli IA pubblici
250+
Membri della cooperativa

Il problema

La crisi delle collezioni nascoste: gli arretrati di digitalizzazione degli archivi continuano a crescere

In Italia, gli Archivi di Stato e le Soprintendenze archivistiche custodiscono fondi immensi — atti notarili, catasti, registri comunali, carteggi — in gran parte ancora inaccessibili in formato digitale. La situazione è analoga in tutta Europa: una quota enorme del patrimonio documentario resta "nascosta", priva di inventari ricercabili o trascrizioni. Non si tratta di materiali marginali. Includono corrispondenza, documenti giuridici, fascicoli amministrativi e manoscritti che i ricercatori non possono scoprire perché non esiste alcun inventario, voce di catalogo o testo ricercabile. Ogni anno l'arretrato cresce poiché le nuove acquisizioni arrivano più velocemente di quanto il personale disponibile possa elaborarle.
La carenza di personale è strutturale, non temporanea — gli archivi non possono risolvere l'arretrato assumendo più personale
La trascrizione manuale di una singola scatola d'archivio può richiedere settimane di lavoro qualificato
Le collezioni non elaborate non generano citazioni, ricerche né coinvolgimento pubblico
I progetti di digitalizzazione finanziati con sovvenzioni spesso coprono l'acquisizione delle immagini ma non il riconoscimento del testo o la creazione dei metadati
Le collezioni miste — dattiloscritti, manoscritti, moduli stampati — richiedono approcci diversi che rallentano ulteriormente i flussi di lavoro manuali
Scatole d'archivio non elaborate in attesa di catalogazione e digitalizzazione

La soluzione

Riduci l'arretrato archivistico con l'IA: da scatole non elaborate a documenti ricercabili

Transkribus consente agli archivi di elaborare collezioni su una scala che i flussi di lavoro manuali non possono raggiungere. Carica immagini scansionate — intere scatole, serie o fondi — ed esegui il riconoscimento del testo con IA su migliaia di pagine in un singolo blocco. Il riconoscimento del testo manoscritto (HTR) della piattaforma gestisce le scritture e i tipi di documenti più comuni nelle collezioni archivistiche: scritture amministrative, corrispondenza ufficiale, atti giudiziari, registri comunali e fascicoli in formato misto. Il risultato è testo leggibile dalla macchina e ricercabile che può essere esportato direttamente nei sistemi informativi archivistici.
Elaborazione in blocco: metti in coda migliaia di pagine ed elaborale senza sorveglianza — nessun intervento pagina per pagina
Oltre 300 modelli IA pubblici addestrati su scritture storiche dal XV secolo in poi
Esportazione in PAGE XML, ALTO XML e TEI-XML per l'importazione in ArchivesSpace, AtoM e altri sistemi
L'API Metagrapho consente pipeline completamente automatizzate per flussi di lavoro di digitalizzazione di massa
Pubblica le collezioni elaborate direttamente come edizioni digitali ricercabili tramite Transkribus Sites
Interfaccia di elaborazione in blocco di Transkribus per collezioni archivistiche su larga scala

Confronto

Elaborazione assistita dall’IA vs. trascrizione manuale per gli archivi

Gli archivi affrontano un problema fondamentale di produttività: milioni di pagine in attesa di essere catalogate, ricercabili e accessibili. Ecco come l’elaborazione assistita dall’IA si confronta con i tradizionali flussi di lavoro manuali.

FeatureElaborazione IA di TranskribusTrascrizione manuale
ProduttivitàMigliaia di pagine al giorno con l’elaborazione in batch — scala in base alla dimensione della collezioneUn trascrittore esperto elabora 5–15 pagine al giorno a seconda della difficoltà
Costo per paginaUna frazione di centesimo per pagina con tariffazione a creditiAd alta intensità di manodopera — i costi si accumulano linearmente per ogni pagina
CoerenzaLo stesso modello produce risultati coerenti su migliaia di pagineLa qualità varia tra trascrittori, affaticamento e differenze di interpretazione
RicercabilitàOgni pagina elaborata diventa immediatamente ricercabile a testo pienoSolo le pagine trascritte sono ricercabili — l’arretrato resta inaccessibile
Gestione delle scritture storicheOltre 300 modelli pubblici che coprono scritture dal IX secolo a oggiRichiede una formazione specializzata in paleografia — pochi operatori possiedono le competenze necessarie
Tempi di accessoLe collezioni diventano accessibili in pochi giorni o settimane dalla digitalizzazioneArretrati di anni o decenni sono comuni nelle grandi istituzioni
Controllo qualitàI punteggi di confidenza segnalano le righe incerte per una revisione umana mirataRichiede la rilettura completa di ogni trascrizione

Il confronto riflette i flussi di lavoro istituzionali tipici. L’elaborazione tramite IA funziona al meglio come complemento alla competenza umana — una prima passata automatizzata seguita da una revisione manuale mirata.

Come elaborare una collezione archivistica in 4 passaggi

Carica le collezioni scansionate

Carica intere serie o fondi come PDF multipagina, TIFF o lotti di immagini. Transkribus gestisce automaticamente il rilevamento del layout — colonne, tabelle, annotazioni marginali.

Seleziona un modello IA

Scegli tra oltre 300 modelli pubblici filtrati per lingua, secolo e tipo di scrittura. Per collezioni miste, esegui più modelli su diversi gruppi di documenti all'interno dello stesso progetto.

Esegui il riconoscimento in blocco

Metti in coda migliaia di pagine per l'elaborazione. Transkribus esegue il riconoscimento del testo in background — nessun intervento manuale richiesto. Monitora l'avanzamento dalla dashboard.

Esporta e integra

Esporta i risultati come PAGE XML, ALTO XML, TEI-XML, testo semplice o PDF ricercabile. Importa direttamente in ArchivesSpace, AtoM o pubblica tramite Transkribus Sites.

Su larga scala

Elaborazione archivistica automatizzata con l'API Metagrapho

Per le istituzioni che gestiscono programmi di digitalizzazione su larga scala o ricorrenti, l'API REST Metagrapho consente pipeline di elaborazione completamente automatizzate. Integra il riconoscimento del testo direttamente nei tuoi flussi di lavoro esistenti di acquisizione immagini e catalogazione — nessun caricamento manuale, nessuna interazione tramite browser. L'API supporta la selezione dei modelli, la gestione dei job in blocco e il recupero dell'output strutturato, rendendola adatta a progetti di digitalizzazione di massa di livello produttivo.
API REST con documentazione completa per l'integrazione nei flussi di lavoro istituzionali
Selezione programmatica dei modelli — scegli automaticamente modelli diversi per diversi tipi di collezione
Output JSON strutturato con testo, coordinate e punteggi di affidabilità per ogni regione di testo
Gestione dei job in blocco: invio, monitoraggio e recupero dei risultati per migliaia di pagine
Combinabile con il riconoscimento delle entità per estrarre nomi, date e luoghi per l'arricchimento del catalogo
batch_process.py
import requests

API = "https://transkribus.eu/processing/v1"
TOKEN = "your-api-token"

# 1. Upload collection
upload = requests.post(f"{API}/uploads",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={"collectionId": 12345}
)

# 2. Start recognition on all pages
job = requests.post(f"{API}/processes",
  headers={"Authorization": f"Bearer {TOKEN}"},
  json={
    "docId": upload.json()["docId"],
    "htrId": 53042,   # model ID
    "pages": "all"
  }
)

# 3. Poll for completion
status = requests.get(
  f"{API}/processes/{job.json()['processId']}",
  headers={"Authorization": f"Bearer {TOKEN}"}
).json()
print(f"Status: {status['state']}")

Domande frequenti

La velocità di elaborazione dipende dalla complessità del documento e dal numero di pagine, ma come riferimento: una singola pagina richiede tipicamente 15-30 secondi. L'elaborazione in blocco avviene in parallelo, quindi una collezione di 10.000 pagine può essere elaborata in ore anziché nelle settimane o mesi richiesti dalla trascrizione manuale. L'API Metagrapho consente l'elaborazione continua e non presidiata per volumi ancora maggiori.
La precisione varia in base al tipo di scrittura e alle condizioni del documento. Su scritture amministrative del XIX e XX secolo ben conservate, i tassi di errore a livello di carattere (CER) inferiori al 5% sono tipici con modelli pubblici appropriati. Scritture più antiche o più impegnative possono richiedere l'addestramento di modelli personalizzati per raggiungere una precisione comparabile. Ogni riga di testo include un punteggio di affidabilità, consentendo flussi di lavoro di revisione mirati alla qualità — il personale può concentrarsi sulle sezioni a bassa affidabilità anziché rileggere interi documenti.
Transkribus esporta in PAGE XML, ALTO XML, TEI-XML e altri formati standard che ArchivesSpace, AtoM e sistemi informativi archivistici simili possono importare. L'API consente pipeline di esportazione automatizzate. Sebbene non esista un connettore plug-in diretto, l'output XML strutturato è progettato per l'interoperabilità con gli standard di metadati archivistici (EAD, Dublin Core).
Un membro del personale formato può gestire un progetto di elaborazione in blocco che copre migliaia di pagine. Transkribus gestisce automaticamente il rilevamento del layout, il riconoscimento del testo e l'esportazione. Il tempo del personale è meglio impiegato nella revisione qualitativa dei segmenti a bassa affidabilità e nelle decisioni curatoriali — selezione delle collezioni da prioritizzare, scelta dei modelli appropriati e validazione dei risultati.
Transkribus offre piani istituzionali progettati per l'elaborazione ad alto volume. I prezzi dipendono dal volume di pagine e dalla necessità di accesso API. Contatta il nostro team su transkribus.org/contact per un preventivo personalizzato. Ogni account include 50 crediti gratuiti al mese per valutare la piattaforma prima di impegnarsi.
Tutta l'elaborazione avviene sui server di Transkribus in Austria (UE). Nessun dato viene inviato a servizi cloud di terze parti. Documenti e trascrizioni rimangono sotto la piena proprietà dell'istituzione e possono essere eliminati in qualsiasi momento. Transkribus è gestito da READ-COOP SCE, una cooperativa europea — non una startup sostenuta da venture capital. Accordi per il trattamento dei dati sono disponibili per le istituzioni che lo richiedono.
Le istituzioni ottengono tipicamente il miglior ritorno iniziando con le collezioni che sono (1) già digitalizzate (scansionate) ma prive di testo ricercabile, (2) molto richieste dai ricercatori, o (3) scritte in scritture per le quali esistono già modelli pubblici solidi. Questo approccio massimizza l'impatto immediato con una configurazione minima. Il catalogo di modelli di Transkribus può essere filtrato per lingua, tipo di scrittura e secolo per identificare quali collezioni funzioneranno bene senza interventi aggiuntivi.
Sì. Le collezioni archivistiche contengono frequentemente materiali misti — moduli dattiloscritti con annotazioni manoscritte, intestazioni stampate con voci in corsivo, o pagine che alternano stampa e scrittura. Transkribus gestisce il rilevamento del layout per questi formati misti e supporta l'esecuzione di modelli diversi su tipi di documenti diversi all'interno dello stesso progetto.
EUAT

Infrastruttura di livello istituzionale per collezioni archivistiche.

Transkribus è costruito e ospitato in Europa da una cooperativa di oltre 250 archivi, biblioteche e università. Le tue collezioni restano sotto il tuo controllo.

I vostri dati restano vostri

Piena proprietà. Cancellate in qualsiasi momento.

Ospitato in Austria, UE

Elaborazione sui nostri server. Conforme al GDPR. Nessuna dipendenza cloud di terzi.

Cooperativa, non una startup

Migliaia di archivi, biblioteche e università come comproprietari. Costruito per decenni, non per un'uscita VC.

Risorse correlate

Altro per archivi e istituzioni

Scopri come Transkribus si integra nei tuoi flussi di lavoro istituzionali: Transkribus per gli archivi · Cos'è l'HTR? · Crea PDF ricercabili · Manoscritti medievali
Collezioni archivistiche in fase di digitalizzazione

Pronto ad affrontare il tuo arretrato archivistico?

Parla con il nostro team riguardo ai piani istituzionali per l'elaborazione di collezioni su larga scala, oppure crea un account gratuito per valutare Transkribus sui tuoi materiali.

Utilizzato da oltre 2.000 archivi e biblioteche in tutto il mondo

200 M+Pagine elaborate
2,000+Archivi e biblioteche
300+Modelli di IA pubblici