Transkribus API

Handschrifterkennungs-API für Entwickler

Integrieren Sie KI-gestützte Texterkennung in Ihre Anwendung. REST API mit Python-, JavaScript- und cURL-Unterstützung. Verarbeiten Sie handschriftliche und gedruckte Dokumente im großen Maßstab.

Dokumentation lesen API-Key erhalten

Weltweit von Archiven, Bibliotheken und Forschungseinrichtungen genutzt

transcribe.py

import requests

TOKEN = "your-bearer-token"
API = "https://transkribus.eu/processing/v2/processes"

# Start a transcription job
resp = requests.post(API,
    headers={"Authorization": f"Bearer {TOKEN}"},
    json={
        "config": {"modelId": 38230},
        "image": {
            "imageUrl": "https://your-archive.org/scan.jpg"
        }
    }
)
job = resp.json()
print(f"Job started: {job['processId']}")

Authentifizieren

from transkribus import Transkribus

client = Transkribus(
    api_key="sk_..."
)

Holen Sie Ihren API-Schlüssel aus dem Transkribus-Dashboard und initialisieren Sie den Client.

Hochladen

upload = client.uploads.create(
    file=open("document.pdf", "rb")
)
print(upload.id)

Laden Sie gescannte Dokumente als PDF, JPEG, PNG oder TIFF hoch. Stapelverarbeitung wird unterstützt.

Transkribieren

job = client.transcriptions.create(
    upload_id=upload.id,
    model="handwritten_text_v2"
)
result = job.wait()

Wählen Sie ein Erkennungsmodell und starten Sie die Verarbeitung. Überwachen Sie den Fortschritt über Webhooks oder Polling.

Exportieren

text = result.export(format="page-xml")
with open("output.xml", "w") as f:
    f.write(text)

Laden Sie die Ergebnisse als PAGE XML, ALTO XML, Reintext, PDF oder TEI herunter.

POST/v2/uploads

Laden Sie ein Dokumentbild oder PDF zur Verarbeitung hoch. Unterstützt Multipart-Dateiupload.

Parameters

filebinaryrequired

Dokumentdatei (PDF, JPEG, PNG, TIFF)

collection_idinteger

Ziel-Sammlungs-ID

<span class="code-keyword">import</span> requests

response = requests.post(
    <span class="code-string">"https://transkribus.eu/api/v2/uploads"</span>,
    headers={<span class="code-string">"Authorization"</span>: <span class="code-string">"Bearer sk_..."</span>},
    files={<span class="code-string">"file"</span>: <span class="code-keyword">open</span>(<span class="code-string">"document.pdf"</span>, <span class="code-string">"rb"</span>)}
)

Response

{
  <span class="code-string">"id"</span>: <span class="code-number">12345</span>,
  <span class="code-string">"status"</span>: <span class="code-string">"uploaded"</span>,
  <span class="code-string">"pages"</span>: <span class="code-number">3</span>,
  <span class="code-string">"created_at"</span>: <span class="code-string">"2024-01-15T10:30:00Z"</span>
}

Was Entwickler:innen mit der API bauen

Von Stapelverarbeitungs-Pipelines bis zur intelligenten Suche -- so integrieren Teams Transkribus.

Stapelverarbeitungs-Pipelines

Verarbeiten Sie tausende Dokumentseiten automatisch. Laden Sie Archive hoch, starten Sie die Erkennung und sammeln Sie strukturierte Ausgaben -- alles per Skript.

PythonRESTWebhooks

for doc in archive:
    upload = client.upload(doc)
    client.transcribe(upload.id)
    results.append(client.export(upload.id))

Anleitung zur Stapelverarbeitung

Volltextsuche und Indexierung

Machen Sie handschriftliche Archive durchsuchbar. Transkribieren Sie Dokumente und speisen Sie die Ergebnisse in Elasticsearch, Solr oder Ihren eigenen Suchindex ein.

RESTJSONElasticsearch

text = client.export(job_id, format="text")
es.index(index="archives", body={
    "content": text,
    "source": doc.metadata
})

Strukturierte Datenextraktion

Extrahieren Sie Tabellen, Felder und benannte Entitäten aus historischen Dokumenten. Speisen Sie strukturierte Daten in Datenbanken oder Tabellenkalkulationen ein.

PythonPAGE XMLField Models

result = client.transcribe(
    upload.id,
    model=FIELD_MODEL_ID
)
for field in result.fields:
    db.insert(field.name, field.value)

Eigene ML-Pipelines

Trainieren Sie eigene Erkennungsmodelle für spezielles Material. Integrieren Sie Modelltraining und Evaluation in Ihren ML-Workflow.

PythonPyLaiaGround Truth

model = client.models.train(
    name="Colonial Spanish 1600",
    training_data=gt_collection,
    base_model=BASE_MODEL_ID
)

Vergleich

Metagrapho vs. andere HTR/OCR-APIs

Allgemeine OCR-APIs sind für gedruckten Text konzipiert. Metagrapho ist speziell für Handschrifterkennung entwickelt — einschließlich historischer Schriften, die andere Dienste nicht lesen können.

Feature	Transkribus API	Google / AWS / Azure
Modern handwriting recognition	Yes	Limited
Historical documents (pre-1900)	Yes	No
Custom model training	Yes	Limited
300+ specialised HTR models	Yes	No
EU-hosted processing	Yes	Partial
GDPR-compliant by default	Yes	Partial
Credit-based pricing (no per-call fees)	Yes	No

Vergleich basiert auf öffentlich verfügbarer Dokumentation, Stand 2025. Google Cloud Vision, AWS Textract und Azure AI Document Intelligence bieten allgemeine OCR mit eingeschränkter Handschrift-Unterstützung, aber keine spezialisierten HTR-Modelle oder Funktionen für historische Dokumente.

Enterprise-Infrastruktur. Europäisches Hosting.

Transkribus wird von der READ-COOP SCE, einer europäischen Genossenschaft, entwickelt und betrieben. Ihre Daten bleiben unter Ihrer Kontrolle.

EU-Hosting

Alle Daten werden auf Servern in Österreich verarbeitet. Keine Drittanbieter-Cloud-Abhängigkeiten. Ihre Dokumente verlassen niemals die EU.

DSGVO-konform by Design

Volle Datenhoheit. Dokumente und Ergebnisse jederzeit löschbar. Auftragsverarbeitungsverträge für Organisationen verfügbar.

Genossenschaftliches Eigentum

Im Besitz von 250+ Archiven, Bibliotheken und Universitäten. Auf langfristige Verlässlichkeit für die Forschungsgemeinschaft ausgelegt, nicht auf einen VC-Exit.

Starten Sie mit der Transkribus API

Erhalten Sie Ihre API-Zugangsdaten und beginnen Sie noch heute mit der Dokumentenverarbeitung. Organisationstarife mit dediziertem Durchsatz und Support für Produktionsumgebungen verfügbar.

Dokumentation lesen Vertrieb kontaktieren

50 kostenlose Credits pro Monat. Keine Kreditkarte erforderlich.

200 Mio.+Verarbeitete Seiten

2.000+Institutionen

300+KI-Modelle