API de reconnaissance d'écriture manuscrite pour développeurs
Intégrez la reconnaissance de texte par IA dans votre application. API REST avec support Python, JavaScript et cURL. Traitez des documents manuscrits et imprimés à grande échelle.
Utilisée par des archives, bibliothèques et institutions de recherche dans le monde entier
import requests
TOKEN = "your-bearer-token"
API = "https://transkribus.eu/processing/v2/processes"
# Start a transcription job
resp = requests.post(API,
headers={"Authorization": f"Bearer {TOKEN}"},
json={
"config": {"modelId": 38230},
"image": {
"imageUrl": "https://your-archive.org/scan.jpg"
}
}
)
job = resp.json()
print(f"Job started: {job['processId']}")Intégration en quatre étapes
De la clé API au texte structuré en quelques minutes.
Authentification
from transkribus import Transkribus
client = Transkribus(
api_key="sk_..."
)Obtenez votre clé API depuis le tableau de bord Transkribus et initialisez le client.
Téléversement
upload = client.uploads.create(
file=open("document.pdf", "rb")
)
print(upload.id)Téléversez des documents numérisés au format PDF, JPEG, PNG ou TIFF. L'envoi par lot est pris en charge.
Transcription
job = client.transcriptions.create(
upload_id=upload.id,
model="handwritten_text_v2"
)
result = job.wait()Choisissez un modèle de reconnaissance et lancez le traitement. Suivez la progression par webhooks ou par interrogation périodique.
Export
text = result.export(format="page-xml")
with open("output.xml", "w") as f:
f.write(text)Téléchargez les résultats au format PAGE XML, ALTO XML, texte brut, PDF ou TEI.
Référence API
API REST complète avec bibliothèques clientes pour Python, Node.js et accès HTTP direct.
/v2/uploadsParameters
filebinaryrequiredcollection_idinteger<span class="code-keyword">import</span> requests
response = requests.post(
<span class="code-string">"https://transkribus.eu/api/v2/uploads"</span>,
headers={<span class="code-string">"Authorization"</span>: <span class="code-string">"Bearer sk_..."</span>},
files={<span class="code-string">"file"</span>: <span class="code-keyword">open</span>(<span class="code-string">"document.pdf"</span>, <span class="code-string">"rb"</span>)}
){
<span class="code-string">"id"</span>: <span class="code-number">12345</span>,
<span class="code-string">"status"</span>: <span class="code-string">"uploaded"</span>,
<span class="code-string">"pages"</span>: <span class="code-number">3</span>,
<span class="code-string">"created_at"</span>: <span class="code-string">"2024-01-15T10:30:00Z"</span>
}Ce que les développeurs construisent avec l'API
Du traitement par lot aux moteurs de recherche intelligents : découvrez comment les équipes intègrent Transkribus.
Chaînes de traitement par lot
Traitez automatiquement des milliers de pages de documents. Téléversez des archives, lancez la reconnaissance et collectez les résultats structurés, le tout par script.
for doc in archive:
upload = client.upload(doc)
client.transcribe(upload.id)
results.append(client.export(upload.id))Indexation plein texte
Rendez les archives manuscrites interrogeables. Transcrivez les documents et injectez les résultats dans Elasticsearch, Solr ou votre propre index de recherche.
text = client.export(job_id, format="text")
es.index(index="archives", body={
"content": text,
"source": doc.metadata
})Extraction de données structurées
Extrayez tableaux, champs et entités nommées à partir de documents historiques. Injectez des données structurées dans des bases de données ou des tableurs.
result = client.transcribe(
upload.id,
model=FIELD_MODEL_ID
)
for field in result.fields:
db.insert(field.name, field.value)Pipelines d'apprentissage automatique personnalisés
Entraînez des modèles de reconnaissance personnalisés pour du matériel spécifique. Intégrez l'entraînement et l'évaluation de modèles dans votre flux de travail d'apprentissage automatique.
model = client.models.train(
name="Colonial Spanish 1600",
training_data=gt_collection,
base_model=BASE_MODEL_ID
)Comparaison
Metagrapho vs. autres API HTR/OCR
Les API OCR généralistes sont conçues pour le texte imprimé. Metagrapho est spécialement conçue pour la reconnaissance d'écriture manuscrite, y compris les écritures historiques que les autres services ne peuvent pas lire.
| Feature | Metagrapho | Google / AWS / Azure |
|---|---|---|
| Modern handwriting recognition | Yes | Limited |
| Historical documents (pre-1900) | Yes | No |
| Custom model training | Yes | Limited |
| 300+ specialised HTR models | Yes | No |
| EU-hosted processing | Yes | Partial |
| GDPR-compliant by default | Yes | Partial |
| Credit-based pricing (no per-call fees) | Yes | No |
Comparaison basée sur la documentation publique disponible en 2025. Google Cloud Vision, AWS Textract et Azure AI Document Intelligence proposent de l'OCR généraliste avec un support limité de l'écriture manuscrite, mais sans modèles HTR spécialisés ni capacités pour les documents historiques.
Commencez à développer avec l'API Metagrapho
Obtenez vos identifiants API et commencez à traiter des documents dès aujourd'hui. Des forfaits organisation sont disponibles pour les charges de production avec débit dédié et support.
50 crédits gratuits par mois. Aucune carte bancaire requise.