Transkribus API

API de reconocimiento de escritura manuscrita para desarrolladores

Integre reconocimiento de texto con IA en su aplicación. API REST con soporte para Python, JavaScript y cURL. Procese documentos manuscritos e impresos a gran escala.

Leer la documentación Obtener clave de API

Utilizado por archivos, bibliotecas e instituciones de investigación de todo el mundo

transcribe.py

import requests

TOKEN = "your-bearer-token"
API = "https://transkribus.eu/processing/v2/processes"

# Start a transcription job
resp = requests.post(API,
    headers={"Authorization": f"Bearer {TOKEN}"},
    json={
        "config": {"modelId": 38230},
        "image": {
            "imageUrl": "https://your-archive.org/scan.jpg"
        }
    }
)
job = resp.json()
print(f"Job started: {job['processId']}")

Autenticación

from transkribus import Transkribus

client = Transkribus(
    api_key="sk_..."
)

Obtenga su clave de API desde el panel de Transkribus e inicialice el cliente.

Carga

upload = client.uploads.create(
    file=open("document.pdf", "rb")
)
print(upload.id)

Cargue documentos escaneados en formato PDF, JPEG, PNG o TIFF. Se admite la carga por lotes.

Transcripción

job = client.transcriptions.create(
    upload_id=upload.id,
    model="handwritten_text_v2"
)
result = job.wait()

Seleccione un modelo de reconocimiento e inicie el procesamiento. Supervise el progreso mediante webhooks o sondeo.

Exportación

text = result.export(format="page-xml")
with open("output.xml", "w") as f:
    f.write(text)

Descargue los resultados en formato PAGE XML, ALTO XML, texto plano, PDF o TEI.

POST/v2/uploads

Cargue una imagen de documento o un PDF para su procesamiento. Admite carga multiparte de archivos.

Parameters

filebinaryrequired

Archivo del documento (PDF, JPEG, PNG, TIFF)

collection_idinteger

ID de la colección de destino

<span class="code-keyword">import</span> requests

response = requests.post(
    <span class="code-string">"https://transkribus.eu/api/v2/uploads"</span>,
    headers={<span class="code-string">"Authorization"</span>: <span class="code-string">"Bearer sk_..."</span>},
    files={<span class="code-string">"file"</span>: <span class="code-keyword">open</span>(<span class="code-string">"document.pdf"</span>, <span class="code-string">"rb"</span>)}
)

Response

{
  <span class="code-string">"id"</span>: <span class="code-number">12345</span>,
  <span class="code-string">"status"</span>: <span class="code-string">"uploaded"</span>,
  <span class="code-string">"pages"</span>: <span class="code-number">3</span>,
  <span class="code-string">"created_at"</span>: <span class="code-string">"2024-01-15T10:30:00Z"</span>
}

Qué construyen los desarrolladores con la API

Desde flujos de procesamiento por lotes hasta búsqueda inteligente: descubra cómo los equipos integran Transkribus.

Flujos de procesamiento por lotes

Procese miles de páginas de documentos de forma automática. Cargue archivos, lance el reconocimiento y recopile la salida estructurada, todo mediante script.

PythonRESTWebhooks

for doc in archive:
    upload = client.upload(doc)
    client.transcribe(upload.id)
    results.append(client.export(upload.id))

Ver guía de procesamiento por lotes

Indexación de texto completo

Haga que los archivos manuscritos sean consultables. Transcriba documentos y alimente la salida en Elasticsearch, Solr o su índice de búsqueda personalizado.

RESTJSONElasticsearch

text = client.export(job_id, format="text")
es.index(index="archives", body={
    "content": text,
    "source": doc.metadata
})

Extracción de datos estructurados

Extraiga tablas, campos y entidades nombradas de documentos históricos. Alimente datos estructurados en bases de datos u hojas de cálculo.

PythonPAGE XMLField Models

result = client.transcribe(
    upload.id,
    model=FIELD_MODEL_ID
)
for field in result.fields:
    db.insert(field.name, field.value)

Flujos de aprendizaje automático personalizados

Entrene modelos de reconocimiento personalizados para material especializado. Integre el entrenamiento y la evaluación de modelos en su flujo de trabajo de aprendizaje automático.

PythonPyLaiaGround Truth

model = client.models.train(
    name="Colonial Spanish 1600",
    training_data=gt_collection,
    base_model=BASE_MODEL_ID
)

Comparativa

Metagrapho vs. otras APIs de HTR/OCR

Las APIs de OCR de propósito general están diseñadas para texto impreso. Metagrapho está diseñada específicamente para el reconocimiento de escritura manuscrita, incluidas escrituras históricas que otros servicios no pueden leer.

Feature	Transkribus API	Google / AWS / Azure
Modern handwriting recognition	Yes	Limited
Historical documents (pre-1900)	Yes	No
Custom model training	Yes	Limited
300+ specialised HTR models	Yes	No
EU-hosted processing	Yes	Partial
GDPR-compliant by default	Yes	Partial
Credit-based pricing (no per-call fees)	Yes	No

Comparación basada en documentación disponible públicamente a fecha de 2025. Google Cloud Vision, AWS Textract y Azure AI Document Intelligence ofrecen OCR general con soporte limitado para manuscritos, pero sin modelos HTR especializados ni capacidades para documentos históricos.

Infraestructura de nivel empresarial. Alojamiento europeo.

Transkribus está construido y operado por READ-COOP SCE, una cooperativa europea. Sus datos permanecen bajo su control.

Procesamiento alojado en la UE

Todos los datos se procesan en servidores en Austria. Sin dependencias de nubes de terceros. Sus documentos nunca salen de la UE.

Conforme al RGPD por diseño

Propiedad total de los datos. Elimine documentos y resultados en cualquier momento. Acuerdos de procesamiento de datos disponibles para organizaciones.

Propiedad cooperativa

Propiedad de más de 250 archivos, bibliotecas y universidades. Construido para la fiabilidad a largo plazo y la comunidad investigadora, no para una salida de capital riesgo.

Comience a desarrollar con la API Transkribus

Obtenga sus credenciales de API y comience a procesar documentos hoy mismo. Planes para organizaciones disponibles para cargas de producción con rendimiento y soporte dedicados.

Leer la documentación Contactar con ventas

50 créditos gratuitos al mes. Sin tarjeta de crédito.

200 M+Páginas procesadas

2000+Instituciones

300+Modelos de IA