Transkribus API

Handschriftherkenning-API voor ontwikkelaars

Integreer AI-gestuurde tekstherkenning in uw applicatie. REST API met ondersteuning voor Python, JavaScript en cURL. Verwerk handgeschreven en gedrukte documenten op schaal.

Lees de documentatie API-sleutel ophalen

Gebruikt door archieven, bibliotheken en onderzoeksinstellingen wereldwijd

transcribe.py

import requests

TOKEN = "your-bearer-token"
API = "https://transkribus.eu/processing/v2/processes"

# Start a transcription job
resp = requests.post(API,
    headers={"Authorization": f"Bearer {TOKEN}"},
    json={
        "config": {"modelId": 38230},
        "image": {
            "imageUrl": "https://your-archive.org/scan.jpg"
        }
    }
)
job = resp.json()
print(f"Job started: {job['processId']}")

Authenticatie

from transkribus import Transkribus

client = Transkribus(
    api_key="sk_..."
)

Haal uw API-sleutel op uit het Transkribus-dashboard en initialiseer de client.

Uploaden

upload = client.uploads.create(
    file=open("document.pdf", "rb")
)
print(upload.id)

Upload gescande documenten als PDF, JPEG, PNG of TIFF. Batchuploads worden ondersteund.

Transcriberen

job = client.transcriptions.create(
    upload_id=upload.id,
    model="handwritten_text_v2"
)
result = job.wait()

Kies een herkenningsmodel en start de verwerking. Volg de voortgang via webhooks of polling.

Exporteren

text = result.export(format="page-xml")
with open("output.xml", "w") as f:
    f.write(text)

Download resultaten als PAGE XML, ALTO XML, platte tekst, PDF of TEI.

POST/v2/uploads

Upload een documentafbeelding of PDF ter verwerking. Ondersteunt multipart-bestandsupload.

Parameters

filebinaryrequired

Documentbestand (PDF, JPEG, PNG, TIFF)

collection_idinteger

Doel-collectie-ID

<span class="code-keyword">import</span> requests

response = requests.post(
    <span class="code-string">"https://transkribus.eu/api/v2/uploads"</span>,
    headers={<span class="code-string">"Authorization"</span>: <span class="code-string">"Bearer sk_..."</span>},
    files={<span class="code-string">"file"</span>: <span class="code-keyword">open</span>(<span class="code-string">"document.pdf"</span>, <span class="code-string">"rb"</span>)}
)

Response

{
  <span class="code-string">"id"</span>: <span class="code-number">12345</span>,
  <span class="code-string">"status"</span>: <span class="code-string">"uploaded"</span>,
  <span class="code-string">"pages"</span>: <span class="code-number">3</span>,
  <span class="code-string">"created_at"</span>: <span class="code-string">"2024-01-15T10:30:00Z"</span>
}

Wat ontwikkelaars bouwen met de API

Van batchverwerkingspipelines tot intelligente zoekoplossingen — ontdek hoe teams Transkribus integreren.

Batchverwerkingspipelines

Verwerk duizenden documentpagina's automatisch. Upload archieven, start herkenning en verzamel gestructureerde uitvoer — alles via een script.

PythonRESTWebhooks

for doc in archive:
    upload = client.upload(doc)
    client.transcribe(upload.id)
    results.append(client.export(upload.id))

Bekijk de gids voor batchverwerking

Volledige-tekstindex

Maak handgeschreven archieven doorzoekbaar. Transcribeer documenten en voer de uitvoer in Elasticsearch, Solr of uw eigen zoekindex in.

RESTJSONElasticsearch

text = client.export(job_id, format="text")
es.index(index="archives", body={
    "content": text,
    "source": doc.metadata
})

Gestructureerde data-extractie

Extraheer tabellen, velden en entiteiten uit historische documenten. Voer gestructureerde gegevens in databases of spreadsheets in.

PythonPAGE XMLField Models

result = client.transcribe(
    upload.id,
    model=FIELD_MODEL_ID
)
for field in result.fields:
    db.insert(field.name, field.value)

Aangepaste ML-pipelines

Train aangepaste herkenningsmodellen voor gespecialiseerd materiaal. Integreer modeltraining en -evaluatie in uw ML-workflow.

PythonPyLaiaGround Truth

model = client.models.train(
    name="Colonial Spanish 1600",
    training_data=gt_collection,
    base_model=BASE_MODEL_ID
)

Hoe wij ons onderscheiden

Metagrapho vs. andere HTR/OCR API's

Algemene OCR-API's zijn gebouwd voor gedrukte tekst. Metagrapho is speciaal ontworpen voor handschriftherkenning, inclusief historische schriften die andere diensten niet kunnen lezen.

Feature	Transkribus API	Google / AWS / Azure
Modern handwriting recognition	Yes	Limited
Historical documents (pre-1900)	Yes	No
Custom model training	Yes	Limited
300+ specialised HTR models	Yes	No
EU-hosted processing	Yes	Partial
GDPR-compliant by default	Yes	Partial
Credit-based pricing (no per-call fees)	Yes	No

Vergelijking gebaseerd op publiek beschikbare documentatie per 2025. Google Cloud Vision, AWS Textract en Azure AI Document Intelligence bieden algemene OCR met beperkte handschriftondersteuning, maar geen gespecialiseerde HTR-modellen of mogelijkheden voor historische documenten.

Enterprise-infrastructuur. Europese hosting.

Transkribus is gebouwd en wordt beheerd door READ-COOP SCE, een Europese coöperatie. Uw data blijft onder uw controle.

EU-gehoste verwerking

Alle data verwerkt op servers in Oostenrijk. Geen afhankelijkheid van externe cloud. Uw documenten verlaten nooit de EU.

AVG-conform by design

Volledig data-eigendom. Verwijder documenten en resultaten op elk moment. Verwerkersovereenkomsten beschikbaar voor organisaties.

Coöperatief eigendom

In eigendom van 250+ archieven, bibliotheken en universiteiten. Gebouwd voor langdurige betrouwbaarheid en de onderzoeksgemeenschap, niet voor een beursgang.

Begin met bouwen met de Transkribus API

Haal uw API-inloggegevens op en begin vandaag met het verwerken van documenten. Organisatieabonnementen beschikbaar voor productiewerklasten met dedicated doorvoer en ondersteuning.

Lees de documentatie Neem contact op met sales

50 gratis credits per maand. Geen creditcard nodig.

200M+Verwerkte pagina's

2.000+Instellingen

300+AI-modellen