Handschrifterkennungs-API für Entwickler
Integrieren Sie KI-gestützte Texterkennung in Ihre Anwendung. REST API mit Python-, JavaScript- und cURL-Unterstützung. Verarbeiten Sie handschriftliche und gedruckte Dokumente im großen Maßstab.
Weltweit von Archiven, Bibliotheken und Forschungseinrichtungen genutzt
import requests
TOKEN = "your-bearer-token"
API = "https://transkribus.eu/processing/v2/processes"
# Start a transcription job
resp = requests.post(API,
headers={"Authorization": f"Bearer {TOKEN}"},
json={
"config": {"modelId": 38230},
"image": {
"imageUrl": "https://your-archive.org/scan.jpg"
}
}
)
job = resp.json()
print(f"Job started: {job['processId']}")Integration in vier Schritten
Vom API-Schlüssel zur strukturierten Textausgabe in wenigen Minuten.
Authentifizieren
from transkribus import Transkribus
client = Transkribus(
api_key="sk_..."
)Holen Sie Ihren API-Schlüssel aus dem Transkribus-Dashboard und initialisieren Sie den Client.
Hochladen
upload = client.uploads.create(
file=open("document.pdf", "rb")
)
print(upload.id)Laden Sie gescannte Dokumente als PDF, JPEG, PNG oder TIFF hoch. Stapelverarbeitung wird unterstützt.
Transkribieren
job = client.transcriptions.create(
upload_id=upload.id,
model="handwritten_text_v2"
)
result = job.wait()Wählen Sie ein Erkennungsmodell und starten Sie die Verarbeitung. Überwachen Sie den Fortschritt über Webhooks oder Polling.
Exportieren
text = result.export(format="page-xml")
with open("output.xml", "w") as f:
f.write(text)Laden Sie die Ergebnisse als PAGE XML, ALTO XML, Reintext, PDF oder TEI herunter.
API-Referenz
Vollständige REST API mit Client-Bibliotheken für Python, Node.js und direktem HTTP-Zugriff.
/v2/uploadsParameters
filebinaryrequiredcollection_idinteger<span class="code-keyword">import</span> requests
response = requests.post(
<span class="code-string">"https://transkribus.eu/api/v2/uploads"</span>,
headers={<span class="code-string">"Authorization"</span>: <span class="code-string">"Bearer sk_..."</span>},
files={<span class="code-string">"file"</span>: <span class="code-keyword">open</span>(<span class="code-string">"document.pdf"</span>, <span class="code-string">"rb"</span>)}
){
<span class="code-string">"id"</span>: <span class="code-number">12345</span>,
<span class="code-string">"status"</span>: <span class="code-string">"uploaded"</span>,
<span class="code-string">"pages"</span>: <span class="code-number">3</span>,
<span class="code-string">"created_at"</span>: <span class="code-string">"2024-01-15T10:30:00Z"</span>
}Was Entwickler:innen mit der API bauen
Von Stapelverarbeitungs-Pipelines bis zur intelligenten Suche -- so integrieren Teams Transkribus.
Stapelverarbeitungs-Pipelines
Verarbeiten Sie tausende Dokumentseiten automatisch. Laden Sie Archive hoch, starten Sie die Erkennung und sammeln Sie strukturierte Ausgaben -- alles per Skript.
for doc in archive:
upload = client.upload(doc)
client.transcribe(upload.id)
results.append(client.export(upload.id))Volltextsuche und Indexierung
Machen Sie handschriftliche Archive durchsuchbar. Transkribieren Sie Dokumente und speisen Sie die Ergebnisse in Elasticsearch, Solr oder Ihren eigenen Suchindex ein.
text = client.export(job_id, format="text")
es.index(index="archives", body={
"content": text,
"source": doc.metadata
})Strukturierte Datenextraktion
Extrahieren Sie Tabellen, Felder und benannte Entitäten aus historischen Dokumenten. Speisen Sie strukturierte Daten in Datenbanken oder Tabellenkalkulationen ein.
result = client.transcribe(
upload.id,
model=FIELD_MODEL_ID
)
for field in result.fields:
db.insert(field.name, field.value)Eigene ML-Pipelines
Trainieren Sie eigene Erkennungsmodelle für spezielles Material. Integrieren Sie Modelltraining und Evaluation in Ihren ML-Workflow.
model = client.models.train(
name="Colonial Spanish 1600",
training_data=gt_collection,
base_model=BASE_MODEL_ID
)Vergleich
Metagrapho vs. andere HTR/OCR-APIs
Allgemeine OCR-APIs sind für gedruckten Text konzipiert. Metagrapho ist speziell für Handschrifterkennung entwickelt — einschließlich historischer Schriften, die andere Dienste nicht lesen können.
| Feature | Metagrapho | Google / AWS / Azure |
|---|---|---|
| Modern handwriting recognition | Yes | Limited |
| Historical documents (pre-1900) | Yes | No |
| Custom model training | Yes | Limited |
| 300+ specialised HTR models | Yes | No |
| EU-hosted processing | Yes | Partial |
| GDPR-compliant by default | Yes | Partial |
| Credit-based pricing (no per-call fees) | Yes | No |
Vergleich basiert auf öffentlich verfügbarer Dokumentation, Stand 2025. Google Cloud Vision, AWS Textract und Azure AI Document Intelligence bieten allgemeine OCR mit eingeschränkter Handschrift-Unterstützung, aber keine spezialisierten HTR-Modelle oder Funktionen für historische Dokumente.
Starten Sie mit der Metagrapho API
Erhalten Sie Ihre API-Zugangsdaten und beginnen Sie noch heute mit der Dokumentenverarbeitung. Organisationstarife mit dediziertem Durchsatz und Support für Produktionsumgebungen verfügbar.
50 kostenlose Credits pro Monat. Keine Kreditkarte erforderlich.