API di riconoscimento della scrittura per sviluppatori
Integri il riconoscimento testo basato sull'IA nella Sua applicazione. API REST con supporto per Python, JavaScript e cURL. Elabori documenti manoscritti e stampati su larga scala.
Utilizzata da archivi, biblioteche e istituti di ricerca in tutto il mondo
import requests
TOKEN = "your-bearer-token"
API = "https://transkribus.eu/processing/v2/processes"
# Start a transcription job
resp = requests.post(API,
headers={"Authorization": f"Bearer {TOKEN}"},
json={
"config": {"modelId": 38230},
"image": {
"imageUrl": "https://your-archive.org/scan.jpg"
}
}
)
job = resp.json()
print(f"Job started: {job['processId']}")Integrazione in quattro passaggi
Dalla chiave API al testo strutturato in pochi minuti.
Autenticazione
from transkribus import Transkribus
client = Transkribus(
api_key="sk_..."
)Ottenete la vostra chiave API dalla dashboard di Transkribus e inizializzate il client.
Caricamento
upload = client.uploads.create(
file=open("document.pdf", "rb")
)
print(upload.id)Caricate documenti digitalizzati in formato PDF, JPEG, PNG o TIFF. Il caricamento batch è supportato.
Trascrizione
job = client.transcriptions.create(
upload_id=upload.id,
model="handwritten_text_v2"
)
result = job.wait()Scegliete un modello di riconoscimento e avviate l'elaborazione. Monitorate l'avanzamento tramite webhook o polling.
Esportazione
text = result.export(format="page-xml")
with open("output.xml", "w") as f:
f.write(text)Scaricate i risultati in formato PAGE XML, ALTO XML, testo semplice, PDF o TEI.
Riferimento API
API REST completa con librerie client per Python, Node.js e accesso HTTP diretto.
/v2/uploadsParameters
filebinaryrequiredcollection_idinteger<span class="code-keyword">import</span> requests
response = requests.post(
<span class="code-string">"https://transkribus.eu/api/v2/uploads"</span>,
headers={<span class="code-string">"Authorization"</span>: <span class="code-string">"Bearer sk_..."</span>},
files={<span class="code-string">"file"</span>: <span class="code-keyword">open</span>(<span class="code-string">"document.pdf"</span>, <span class="code-string">"rb"</span>)}
){
<span class="code-string">"id"</span>: <span class="code-number">12345</span>,
<span class="code-string">"status"</span>: <span class="code-string">"uploaded"</span>,
<span class="code-string">"pages"</span>: <span class="code-number">3</span>,
<span class="code-string">"created_at"</span>: <span class="code-string">"2024-01-15T10:30:00Z"</span>
}Cosa sviluppano i team con l'API
Dalle pipeline di elaborazione batch alla ricerca intelligente — scoprite come i team integrano Transkribus.
Pipeline di elaborazione batch
Elaborate migliaia di pagine documentarie in modo automatico. Caricate archivi, avviate il riconoscimento e raccogliete l'output strutturato — il tutto tramite script.
for doc in archive:
upload = client.upload(doc)
client.transcribe(upload.id)
results.append(client.export(upload.id))Indicizzazione full-text
Rendete ricercabili gli archivi manoscritti. Trascrivete i documenti e alimentate l'output in Elasticsearch, Solr o nel vostro indice di ricerca personalizzato.
text = client.export(job_id, format="text")
es.index(index="archives", body={
"content": text,
"source": doc.metadata
})Estrazione dati strutturati
Estraete tabelle, campi ed entità denominate da documenti storici. Alimentate i dati strutturati in database o fogli di calcolo.
result = client.transcribe(
upload.id,
model=FIELD_MODEL_ID
)
for field in result.fields:
db.insert(field.name, field.value)Pipeline ML personalizzate
Addestrate modelli di riconoscimento personalizzati per materiale specialistico. Integrate l'addestramento e la valutazione dei modelli nel vostro flusso di lavoro ML.
model = client.models.train(
name="Colonial Spanish 1600",
training_data=gt_collection,
base_model=BASE_MODEL_ID
)Confronto
Metagrapho vs. altre API HTR/OCR
Le API OCR generiche sono progettate per il testo stampato. Metagrapho è progettata specificamente per il riconoscimento della scrittura, comprese le scritture storiche che altri servizi non sono in grado di leggere.
| Feature | Metagrapho | Google / AWS / Azure |
|---|---|---|
| Modern handwriting recognition | Yes | Limited |
| Historical documents (pre-1900) | Yes | No |
| Custom model training | Yes | Limited |
| 300+ specialised HTR models | Yes | No |
| EU-hosted processing | Yes | Partial |
| GDPR-compliant by default | Yes | Partial |
| Credit-based pricing (no per-call fees) | Yes | No |
Confronto basato sulla documentazione pubblica disponibile al 2025. Google Cloud Vision, AWS Textract e Azure AI Document Intelligence offrono OCR generico con supporto limitato alla scrittura manuale, ma nessun modello HTR specializzato né funzionalità per documenti storici.
Inizi a sviluppare con l'API Metagrapho
Ottenga le Sue credenziali API e inizi a elaborare documenti oggi. Piani per organizzazioni disponibili per carichi di lavoro in produzione con throughput dedicato e supporto.
50 crediti gratuiti al mese. Nessuna carta di credito richiesta.