Transkribus API

API di riconoscimento della scrittura per sviluppatori

Integri il riconoscimento testo basato sull'IA nella Sua applicazione. API REST con supporto per Python, JavaScript e cURL. Elabori documenti manoscritti e stampati su larga scala.

Legga la documentazione Ottenga la chiave API

Utilizzata da archivi, biblioteche e istituti di ricerca in tutto il mondo

transcribe.py

import requests

TOKEN = "your-bearer-token"
API = "https://transkribus.eu/processing/v2/processes"

# Start a transcription job
resp = requests.post(API,
    headers={"Authorization": f"Bearer {TOKEN}"},
    json={
        "config": {"modelId": 38230},
        "image": {
            "imageUrl": "https://your-archive.org/scan.jpg"
        }
    }
)
job = resp.json()
print(f"Job started: {job['processId']}")

Autenticazione

from transkribus import Transkribus

client = Transkribus(
    api_key="sk_..."
)

Ottenete la vostra chiave API dalla dashboard di Transkribus e inizializzate il client.

Caricamento

upload = client.uploads.create(
    file=open("document.pdf", "rb")
)
print(upload.id)

Caricate documenti digitalizzati in formato PDF, JPEG, PNG o TIFF. Il caricamento batch è supportato.

Trascrizione

job = client.transcriptions.create(
    upload_id=upload.id,
    model="handwritten_text_v2"
)
result = job.wait()

Scegliete un modello di riconoscimento e avviate l'elaborazione. Monitorate l'avanzamento tramite webhook o polling.

Esportazione

text = result.export(format="page-xml")
with open("output.xml", "w") as f:
    f.write(text)

Scaricate i risultati in formato PAGE XML, ALTO XML, testo semplice, PDF o TEI.

POST/v2/uploads

Caricate un'immagine o un PDF del documento da elaborare. Supporta il caricamento multipart di file.

Parameters

filebinaryrequired

File del documento (PDF, JPEG, PNG, TIFF)

collection_idinteger

ID della collezione di destinazione

<span class="code-keyword">import</span> requests

response = requests.post(
    <span class="code-string">"https://transkribus.eu/api/v2/uploads"</span>,
    headers={<span class="code-string">"Authorization"</span>: <span class="code-string">"Bearer sk_..."</span>},
    files={<span class="code-string">"file"</span>: <span class="code-keyword">open</span>(<span class="code-string">"document.pdf"</span>, <span class="code-string">"rb"</span>)}
)

Response

{
  <span class="code-string">"id"</span>: <span class="code-number">12345</span>,
  <span class="code-string">"status"</span>: <span class="code-string">"uploaded"</span>,
  <span class="code-string">"pages"</span>: <span class="code-number">3</span>,
  <span class="code-string">"created_at"</span>: <span class="code-string">"2024-01-15T10:30:00Z"</span>
}

Cosa sviluppano i team con l'API

Dalle pipeline di elaborazione batch alla ricerca intelligente — scoprite come i team integrano Transkribus.

Pipeline di elaborazione batch

Elaborate migliaia di pagine documentarie in modo automatico. Caricate archivi, avviate il riconoscimento e raccogliete l'output strutturato — il tutto tramite script.

PythonRESTWebhooks

for doc in archive:
    upload = client.upload(doc)
    client.transcribe(upload.id)
    results.append(client.export(upload.id))

Guida all'elaborazione batch

Indicizzazione full-text

Rendete ricercabili gli archivi manoscritti. Trascrivete i documenti e alimentate l'output in Elasticsearch, Solr o nel vostro indice di ricerca personalizzato.

RESTJSONElasticsearch

text = client.export(job_id, format="text")
es.index(index="archives", body={
    "content": text,
    "source": doc.metadata
})

Estrazione dati strutturati

Estraete tabelle, campi ed entità denominate da documenti storici. Alimentate i dati strutturati in database o fogli di calcolo.

PythonPAGE XMLField Models

result = client.transcribe(
    upload.id,
    model=FIELD_MODEL_ID
)
for field in result.fields:
    db.insert(field.name, field.value)

Pipeline ML personalizzate

Addestrate modelli di riconoscimento personalizzati per materiale specialistico. Integrate l'addestramento e la valutazione dei modelli nel vostro flusso di lavoro ML.

PythonPyLaiaGround Truth

model = client.models.train(
    name="Colonial Spanish 1600",
    training_data=gt_collection,
    base_model=BASE_MODEL_ID
)

Confronto

Metagrapho vs. altre API HTR/OCR

Le API OCR generiche sono progettate per il testo stampato. Metagrapho è progettata specificamente per il riconoscimento della scrittura, comprese le scritture storiche che altri servizi non sono in grado di leggere.

Feature	Transkribus API	Google / AWS / Azure
Modern handwriting recognition	Yes	Limited
Historical documents (pre-1900)	Yes	No
Custom model training	Yes	Limited
300+ specialised HTR models	Yes	No
EU-hosted processing	Yes	Partial
GDPR-compliant by default	Yes	Partial
Credit-based pricing (no per-call fees)	Yes	No

Confronto basato sulla documentazione pubblica disponibile al 2025. Google Cloud Vision, AWS Textract e Azure AI Document Intelligence offrono OCR generico con supporto limitato alla scrittura manuale, ma nessun modello HTR specializzato né funzionalità per documenti storici.

Infrastruttura di livello enterprise. Hosting europeo.

Transkribus è sviluppato e gestito da READ-COOP SCE, una cooperativa europea. I Suoi dati restano sotto il Suo controllo.

Elaborazione su hosting UE

Tutti i dati elaborati su server in Austria. Nessuna dipendenza da cloud di terze parti. I Suoi documenti non lasciano mai l'UE.

Conforme al GDPR by design

Piena proprietà dei dati. Cancellazione di documenti e risultati in qualsiasi momento. Accordi per il trattamento dati disponibili per le organizzazioni.

Proprietà cooperativa

Di proprietà di oltre 250 archivi, biblioteche e università. Costruito per l'affidabilità a lungo termine e la comunità di ricerca, non per un'uscita da venture capital.

Inizi a sviluppare con l'API Transkribus

Ottenga le Sue credenziali API e inizi a elaborare documenti oggi. Piani per organizzazioni disponibili per carichi di lavoro in produzione con throughput dedicato e supporto.

Legga la documentazione Parli con il commerciale

50 crediti gratuiti al mese. Nessuna carta di credito richiesta.

200M+Pagine elaborate

2.000+Istituzioni

300+Modelli IA