Skip to content
  • Preise
Metagrapho API

Handschrifterkennungs-API für Entwickler

Integrieren Sie KI-gestützte Texterkennung in Ihre Anwendung. REST API mit Python-, JavaScript- und cURL-Unterstützung. Verarbeiten Sie handschriftliche und gedruckte Dokumente im großen Maßstab.

Weltweit von Archiven, Bibliotheken und Forschungseinrichtungen genutzt

transcribe.py
import requests

TOKEN = "your-bearer-token"
API = "https://transkribus.eu/processing/v2/processes"

# Start a transcription job
resp = requests.post(API,
    headers={"Authorization": f"Bearer {TOKEN}"},
    json={
        "config": {"modelId": 38230},
        "image": {
            "imageUrl": "https://your-archive.org/scan.jpg"
        }
    }
)
job = resp.json()
print(f"Job started: {job['processId']}")

Integration in vier Schritten

Vom API-Schlüssel zur strukturierten Textausgabe in wenigen Minuten.

01

Authentifizieren

from transkribus import Transkribus

client = Transkribus(
    api_key="sk_..."
)

Holen Sie Ihren API-Schlüssel aus dem Transkribus-Dashboard und initialisieren Sie den Client.

02

Hochladen

upload = client.uploads.create(
    file=open("document.pdf", "rb")
)
print(upload.id)

Laden Sie gescannte Dokumente als PDF, JPEG, PNG oder TIFF hoch. Stapelverarbeitung wird unterstützt.

03

Transkribieren

job = client.transcriptions.create(
    upload_id=upload.id,
    model="handwritten_text_v2"
)
result = job.wait()

Wählen Sie ein Erkennungsmodell und starten Sie die Verarbeitung. Überwachen Sie den Fortschritt über Webhooks oder Polling.

04

Exportieren

text = result.export(format="page-xml")
with open("output.xml", "w") as f:
    f.write(text)

Laden Sie die Ergebnisse als PAGE XML, ALTO XML, Reintext, PDF oder TEI herunter.

API-Referenz

Vollständige REST API mit Client-Bibliotheken für Python, Node.js und direktem HTTP-Zugriff.

POST/v2/uploads
Laden Sie ein Dokumentbild oder PDF zur Verarbeitung hoch. Unterstützt Multipart-Dateiupload.

Parameters

filebinaryrequired
Dokumentdatei (PDF, JPEG, PNG, TIFF)
collection_idinteger
Ziel-Sammlungs-ID
<span class="code-keyword">import</span> requests

response = requests.post(
    <span class="code-string">"https://transkribus.eu/api/v2/uploads"</span>,
    headers={<span class="code-string">"Authorization"</span>: <span class="code-string">"Bearer sk_..."</span>},
    files={<span class="code-string">"file"</span>: <span class="code-keyword">open</span>(<span class="code-string">"document.pdf"</span>, <span class="code-string">"rb"</span>)}
)
Response
{
  <span class="code-string">"id"</span>: <span class="code-number">12345</span>,
  <span class="code-string">"status"</span>: <span class="code-string">"uploaded"</span>,
  <span class="code-string">"pages"</span>: <span class="code-number">3</span>,
  <span class="code-string">"created_at"</span>: <span class="code-string">"2024-01-15T10:30:00Z"</span>
}

Was Entwickler:innen mit der API bauen

Von Stapelverarbeitungs-Pipelines bis zur intelligenten Suche -- so integrieren Teams Transkribus.

Stapelverarbeitungs-Pipelines

Verarbeiten Sie tausende Dokumentseiten automatisch. Laden Sie Archive hoch, starten Sie die Erkennung und sammeln Sie strukturierte Ausgaben -- alles per Skript.

PythonRESTWebhooks
for doc in archive:
    upload = client.upload(doc)
    client.transcribe(upload.id)
    results.append(client.export(upload.id))
Anleitung zur Stapelverarbeitung

Volltextsuche und Indexierung

Machen Sie handschriftliche Archive durchsuchbar. Transkribieren Sie Dokumente und speisen Sie die Ergebnisse in Elasticsearch, Solr oder Ihren eigenen Suchindex ein.

RESTJSONElasticsearch
text = client.export(job_id, format="text")
es.index(index="archives", body={
    "content": text,
    "source": doc.metadata
})

Strukturierte Datenextraktion

Extrahieren Sie Tabellen, Felder und benannte Entitäten aus historischen Dokumenten. Speisen Sie strukturierte Daten in Datenbanken oder Tabellenkalkulationen ein.

PythonPAGE XMLField Models
result = client.transcribe(
    upload.id,
    model=FIELD_MODEL_ID
)
for field in result.fields:
    db.insert(field.name, field.value)

Eigene ML-Pipelines

Trainieren Sie eigene Erkennungsmodelle für spezielles Material. Integrieren Sie Modelltraining und Evaluation in Ihren ML-Workflow.

PythonPyLaiaGround Truth
model = client.models.train(
    name="Colonial Spanish 1600",
    training_data=gt_collection,
    base_model=BASE_MODEL_ID
)

Vergleich

Metagrapho vs. andere HTR/OCR-APIs

Allgemeine OCR-APIs sind für gedruckten Text konzipiert. Metagrapho ist speziell für Handschrifterkennung entwickelt — einschließlich historischer Schriften, die andere Dienste nicht lesen können.

FeatureMetagraphoGoogle / AWS / Azure
Modern handwriting recognition Yes Limited
Historical documents (pre-1900) Yes No
Custom model training Yes Limited
300+ specialised HTR models Yes No
EU-hosted processing Yes Partial
GDPR-compliant by default Yes Partial
Credit-based pricing (no per-call fees) Yes No

Vergleich basiert auf öffentlich verfügbarer Dokumentation, Stand 2025. Google Cloud Vision, AWS Textract und Azure AI Document Intelligence bieten allgemeine OCR mit eingeschränkter Handschrift-Unterstützung, aber keine spezialisierten HTR-Modelle oder Funktionen für historische Dokumente.

EUAT

Enterprise-Infrastruktur. Europäisches Hosting.

Transkribus wird von der READ-COOP SCE, einer europäischen Genossenschaft, entwickelt und betrieben. Ihre Daten bleiben unter Ihrer Kontrolle.

EU-Hosting

Alle Daten werden auf Servern in Österreich verarbeitet. Keine Drittanbieter-Cloud-Abhängigkeiten. Ihre Dokumente verlassen niemals die EU.

DSGVO-konform by Design

Volle Datenhoheit. Dokumente und Ergebnisse jederzeit löschbar. Auftragsverarbeitungsverträge für Organisationen verfügbar.

Genossenschaftliches Eigentum

Im Besitz von 250+ Archiven, Bibliotheken und Universitäten. Auf langfristige Verlässlichkeit für die Forschungsgemeinschaft ausgelegt, nicht auf einen VC-Exit.

Starten Sie mit der Metagrapho API

Erhalten Sie Ihre API-Zugangsdaten und beginnen Sie noch heute mit der Dokumentenverarbeitung. Organisationstarife mit dediziertem Durchsatz und Support für Produktionsumgebungen verfügbar.

50 kostenlose Credits pro Monat. Keine Kreditkarte erforderlich.

200 Mio.+Verarbeitete Seiten
2.000+Institutionen
300+KI-Modelle