API de reconocimiento de escritura manuscrita para desarrolladores
Integre reconocimiento de texto con IA en su aplicación. API REST con soporte para Python, JavaScript y cURL. Procese documentos manuscritos e impresos a gran escala.
Utilizado por archivos, bibliotecas e instituciones de investigación de todo el mundo
import requests
TOKEN = "your-bearer-token"
API = "https://transkribus.eu/processing/v2/processes"
# Start a transcription job
resp = requests.post(API,
headers={"Authorization": f"Bearer {TOKEN}"},
json={
"config": {"modelId": 38230},
"image": {
"imageUrl": "https://your-archive.org/scan.jpg"
}
}
)
job = resp.json()
print(f"Job started: {job['processId']}")Integración en cuatro pasos
De la clave de API al texto estructurado en minutos.
Autenticación
from transkribus import Transkribus
client = Transkribus(
api_key="sk_..."
)Obtenga su clave de API desde el panel de Transkribus e inicialice el cliente.
Carga
upload = client.uploads.create(
file=open("document.pdf", "rb")
)
print(upload.id)Cargue documentos escaneados en formato PDF, JPEG, PNG o TIFF. Se admite la carga por lotes.
Transcripción
job = client.transcriptions.create(
upload_id=upload.id,
model="handwritten_text_v2"
)
result = job.wait()Seleccione un modelo de reconocimiento e inicie el procesamiento. Supervise el progreso mediante webhooks o sondeo.
Exportación
text = result.export(format="page-xml")
with open("output.xml", "w") as f:
f.write(text)Descargue los resultados en formato PAGE XML, ALTO XML, texto plano, PDF o TEI.
Referencia de la API
API REST completa con bibliotecas cliente para Python, Node.js y acceso HTTP directo.
/v2/uploadsParameters
filebinaryrequiredcollection_idinteger<span class="code-keyword">import</span> requests
response = requests.post(
<span class="code-string">"https://transkribus.eu/api/v2/uploads"</span>,
headers={<span class="code-string">"Authorization"</span>: <span class="code-string">"Bearer sk_..."</span>},
files={<span class="code-string">"file"</span>: <span class="code-keyword">open</span>(<span class="code-string">"document.pdf"</span>, <span class="code-string">"rb"</span>)}
){
<span class="code-string">"id"</span>: <span class="code-number">12345</span>,
<span class="code-string">"status"</span>: <span class="code-string">"uploaded"</span>,
<span class="code-string">"pages"</span>: <span class="code-number">3</span>,
<span class="code-string">"created_at"</span>: <span class="code-string">"2024-01-15T10:30:00Z"</span>
}Qué construyen los desarrolladores con la API
Desde flujos de procesamiento por lotes hasta búsqueda inteligente: descubra cómo los equipos integran Transkribus.
Flujos de procesamiento por lotes
Procese miles de páginas de documentos de forma automática. Cargue archivos, lance el reconocimiento y recopile la salida estructurada, todo mediante script.
for doc in archive:
upload = client.upload(doc)
client.transcribe(upload.id)
results.append(client.export(upload.id))Indexación de texto completo
Haga que los archivos manuscritos sean consultables. Transcriba documentos y alimente la salida en Elasticsearch, Solr o su índice de búsqueda personalizado.
text = client.export(job_id, format="text")
es.index(index="archives", body={
"content": text,
"source": doc.metadata
})Extracción de datos estructurados
Extraiga tablas, campos y entidades nombradas de documentos históricos. Alimente datos estructurados en bases de datos u hojas de cálculo.
result = client.transcribe(
upload.id,
model=FIELD_MODEL_ID
)
for field in result.fields:
db.insert(field.name, field.value)Flujos de aprendizaje automático personalizados
Entrene modelos de reconocimiento personalizados para material especializado. Integre el entrenamiento y la evaluación de modelos en su flujo de trabajo de aprendizaje automático.
model = client.models.train(
name="Colonial Spanish 1600",
training_data=gt_collection,
base_model=BASE_MODEL_ID
)Comparativa
Metagrapho vs. otras APIs de HTR/OCR
Las APIs de OCR de propósito general están diseñadas para texto impreso. Metagrapho está diseñada específicamente para el reconocimiento de escritura manuscrita, incluidas escrituras históricas que otros servicios no pueden leer.
| Feature | Metagrapho | Google / AWS / Azure |
|---|---|---|
| Modern handwriting recognition | Yes | Limited |
| Historical documents (pre-1900) | Yes | No |
| Custom model training | Yes | Limited |
| 300+ specialised HTR models | Yes | No |
| EU-hosted processing | Yes | Partial |
| GDPR-compliant by default | Yes | Partial |
| Credit-based pricing (no per-call fees) | Yes | No |
Comparación basada en documentación disponible públicamente a fecha de 2025. Google Cloud Vision, AWS Textract y Azure AI Document Intelligence ofrecen OCR general con soporte limitado para manuscritos, pero sin modelos HTR especializados ni capacidades para documentos históricos.
Comience a desarrollar con la API Metagrapho
Obtenga sus credenciales de API y comience a procesar documentos hoy mismo. Planes para organizaciones disponibles para cargas de producción con rendimiento y soporte dedicados.
50 créditos gratuitos al mes. Sin tarjeta de crédito.