Transkribus API

API de reconnaissance d'écriture manuscrite pour développeurs

Intégrez la reconnaissance de texte par IA dans votre application. API REST avec support Python, JavaScript et cURL. Traitez des documents manuscrits et imprimés à grande échelle.

Lire la documentation Obtenir une clé API

Utilisée par des archives, bibliothèques et institutions de recherche dans le monde entier

transcribe.py

import requests

TOKEN = "your-bearer-token"
API = "https://transkribus.eu/processing/v2/processes"

# Start a transcription job
resp = requests.post(API,
    headers={"Authorization": f"Bearer {TOKEN}"},
    json={
        "config": {"modelId": 38230},
        "image": {
            "imageUrl": "https://your-archive.org/scan.jpg"
        }
    }
)
job = resp.json()
print(f"Job started: {job['processId']}")

Authentification

from transkribus import Transkribus

client = Transkribus(
    api_key="sk_..."
)

Obtenez votre clé API depuis le tableau de bord Transkribus et initialisez le client.

Téléversement

upload = client.uploads.create(
    file=open("document.pdf", "rb")
)
print(upload.id)

Téléversez des documents numérisés au format PDF, JPEG, PNG ou TIFF. L'envoi par lot est pris en charge.

Transcription

job = client.transcriptions.create(
    upload_id=upload.id,
    model="handwritten_text_v2"
)
result = job.wait()

Choisissez un modèle de reconnaissance et lancez le traitement. Suivez la progression par webhooks ou par interrogation périodique.

Export

text = result.export(format="page-xml")
with open("output.xml", "w") as f:
    f.write(text)

Téléchargez les résultats au format PAGE XML, ALTO XML, texte brut, PDF ou TEI.

POST/v2/uploads

Téléversez une image de document ou un PDF pour traitement. Prend en charge l'envoi multipart.

Parameters

filebinaryrequired

Fichier du document (PDF, JPEG, PNG, TIFF)

collection_idinteger

Identifiant de la collection cible

<span class="code-keyword">import</span> requests

response = requests.post(
    <span class="code-string">"https://transkribus.eu/api/v2/uploads"</span>,
    headers={<span class="code-string">"Authorization"</span>: <span class="code-string">"Bearer sk_..."</span>},
    files={<span class="code-string">"file"</span>: <span class="code-keyword">open</span>(<span class="code-string">"document.pdf"</span>, <span class="code-string">"rb"</span>)}
)

Response

{
  <span class="code-string">"id"</span>: <span class="code-number">12345</span>,
  <span class="code-string">"status"</span>: <span class="code-string">"uploaded"</span>,
  <span class="code-string">"pages"</span>: <span class="code-number">3</span>,
  <span class="code-string">"created_at"</span>: <span class="code-string">"2024-01-15T10:30:00Z"</span>
}

Ce que les développeurs construisent avec l'API

Du traitement par lot aux moteurs de recherche intelligents : découvrez comment les équipes intègrent Transkribus.

Chaînes de traitement par lot

Traitez automatiquement des milliers de pages de documents. Téléversez des archives, lancez la reconnaissance et collectez les résultats structurés, le tout par script.

PythonRESTWebhooks

for doc in archive:
    upload = client.upload(doc)
    client.transcribe(upload.id)
    results.append(client.export(upload.id))

Consulter le guide de traitement par lot

Indexation plein texte

Rendez les archives manuscrites interrogeables. Transcrivez les documents et injectez les résultats dans Elasticsearch, Solr ou votre propre index de recherche.

RESTJSONElasticsearch

text = client.export(job_id, format="text")
es.index(index="archives", body={
    "content": text,
    "source": doc.metadata
})

Extraction de données structurées

Extrayez tableaux, champs et entités nommées à partir de documents historiques. Injectez des données structurées dans des bases de données ou des tableurs.

PythonPAGE XMLField Models

result = client.transcribe(
    upload.id,
    model=FIELD_MODEL_ID
)
for field in result.fields:
    db.insert(field.name, field.value)

Pipelines d'apprentissage automatique personnalisés

Entraînez des modèles de reconnaissance personnalisés pour du matériel spécifique. Intégrez l'entraînement et l'évaluation de modèles dans votre flux de travail d'apprentissage automatique.

PythonPyLaiaGround Truth

model = client.models.train(
    name="Colonial Spanish 1600",
    training_data=gt_collection,
    base_model=BASE_MODEL_ID
)

Comparaison

Metagrapho vs. autres API HTR/OCR

Les API OCR généralistes sont conçues pour le texte imprimé. Metagrapho est spécialement conçue pour la reconnaissance d'écriture manuscrite, y compris les écritures historiques que les autres services ne peuvent pas lire.

Feature	Transkribus API	Google / AWS / Azure
Modern handwriting recognition	Yes	Limited
Historical documents (pre-1900)	Yes	No
Custom model training	Yes	Limited
300+ specialised HTR models	Yes	No
EU-hosted processing	Yes	Partial
GDPR-compliant by default	Yes	Partial
Credit-based pricing (no per-call fees)	Yes	No

Comparaison basée sur la documentation publique disponible en 2025. Google Cloud Vision, AWS Textract et Azure AI Document Intelligence proposent de l'OCR généraliste avec un support limité de l'écriture manuscrite, mais sans modèles HTR spécialisés ni capacités pour les documents historiques.

Infrastructure de niveau professionnel. Hébergement européen.

Transkribus est développé et exploité par READ-COOP SCE, une coopérative européenne. Vos données restent sous votre contrôle.

Traitement hébergé dans l'UE

Toutes les données traitées sur des serveurs en Autriche. Aucune dépendance à un cloud tiers. Vos documents ne quittent jamais l'UE.

Conforme au RGPD par conception

Propriété totale des données. Supprimez documents et résultats à tout moment. Contrats de sous-traitance disponibles pour les organisations.

Gouvernance coopérative

Propriété de plus de 250 archives, bibliothèques et universités. Conçu pour la fiabilité à long terme et la communauté de la recherche, pas pour une revente.

Commencez à développer avec l'API Transkribus

Obtenez vos identifiants API et commencez à traiter des documents dès aujourd'hui. Des forfaits organisation sont disponibles pour les charges de production avec débit dédié et support.

Lire la documentation Contacter l'équipe commerciale

50 crédits gratuits par mois. Aucune carte bancaire requise.

200 M+Pages traitées

2 000+Institutions

300+Modèles d'IA