Skip to content
  • Preise

Trainieren Sie KI-Modelle für Ihre Dokumente

Jede Sammlung historischer Dokumente hat ihre eigene, einzigartige Handschrift. Wenn öffentliche Modelle nicht ausreichen, können Sie mit Transkribus ein individuelles KI-Modell trainieren — zugeschnitten auf Ihre Handschrift, Sprache und Dokumentart. Keine Machine-Learning-Kenntnisse erforderlich.

300+Öffentliche KI-Modelle
2–5%Erreichbare CER
25–50Seiten zum Start des Trainings

So funktioniert das Modelltraining

Das Training eines individuellen Modells in Transkribus folgt einem bewährten, iterativen Workflow. Jeder Zyklus verbessert die Genauigkeit Ihres Modells.

01

Laden Sie Ihre Dokumente hoch

Laden Sie zunächst Scans der handschriftlichen oder gedruckten Dokumente hoch, die Sie transkribieren möchten. Transkribus akzeptiert JPEG, PNG, PDF und TIFF. Organisieren Sie Ihre Dokumente in Sammlungen für eine einfache Verwaltung.

Tipp: Beginnen Sie mit 25–50 repräsentativen Seiten, die die Bandbreite der Handschriften in Ihrer Sammlung abdecken.

4TypenUnterstützte Formate

Texterkennungsmodelle

Trainieren Sie ein individuelles Textmodell mit PyLaia

PyLaia ist die Deep-Learning-Engine hinter den Texterkennungsmodellen von Transkribus. Sie verarbeitet handschriftlichen Text aus jedem Jahrhundert, in jeder Sprache und jeder Schrift — von mittelalterlichen lateinischen Handschriften bis hin zur Kurrentschrift des 20. Jahrhunderts. Sie liefern die Ground Truth; PyLaia lernt die Handschrift.
Funktioniert mit jeder Schrift: Lateinisch, Kyrillisch, Arabisch, Hebräisch, Chinesisch und mehr
Verarbeitet gemischte Druck- und Handschrift auf derselben Seite
25–50 transkribierte Seiten reichen aus, um mit dem Training zu beginnen
Modelle verbessern sich automatisch mit mehr Ground Truth Daten
Teilen Sie Ihr Modell mit Kollegen oder der gesamten Transkribus-Community

Modelle für strukturierte Tabellen trainieren

Historische Dokumente sind voller tabellarischer Daten — Volkszählungen, Kirchenbücher, Schiffsmanifeste, Buchführungsunterlagen. Tabellenmodelle erkennen Zeilen- und Spaltenstrukturen und extrahieren Zellinhalte in strukturierte Daten, die Sie nach Excel, CSV oder XML exportieren können.

Document with detected table structure
Extrahierte Tabellendaten
InstitutionTownAmountObjectDateDisposition
Franklin College (6)New Athen, O.General3/23/16
Fargo College (3)Fargo, N.D.100,000Endowment4/27/16Gen 1914, 5/18/16
Franklin Academy (2)Franklin, Neb.5,000Library Building8/3/16Gen 1914, 8/7/16
Fessenden Acad. & Ind. SchoolFessenden, Fla.General12/22/16
Ferris Institute (2)Big Rapids, Mich.50,000Buildings2/12/17
Findlay College (2)Findlay, O.100,000Endowment5/23/17Gen 1914, 5/28/17
Fairmount CollegeWichita, Kan.200,000Endowment6/7/176/14/17
Franklin CollegeFranklin, Ind.50,000General9/13/17Gen 1914, 9/17/17
Fisk UniversityNashville, Tenn.1,000,000Endowment6/14/18
Friends UniversityWichita, Kan.200,000Endowment6/20/18Gen 1914, 8/8/18

Bestimmte Felder aus Formularen extrahieren

Wenn Sie bestimmte Datenpunkte — Namen, Daten, Adressen, Beträge — aus strukturierten oder teilstrukturierten Dokumenten extrahieren müssen, lokalisieren und lesen Field Models einzelne Felder. Ideal für Volkszählungsformulare, Melderegister und Verwaltungsunterlagen.

Document with detected fields
Extrahierte Felder

Demnächst verfügbar

Named Entity Recognition (NER) Modelle

Bald können Sie Modelle trainieren, die automatisch benannte Entitäten in Ihren Transkriptionen identifizieren und taggen — Personen, Orte, Daten, Organisationen und eigene Entitätstypen. NER verwandelt Rohtext in strukturierte, durchsuchbare Daten ohne manuelle Auszeichnung.
Automatische Erkennung von Personen, Orten, Daten und Organisationen
Definieren Sie eigene Entitätstypen für Ihren Forschungsbereich
Trainieren Sie mit Ihren eigenen annotierten Beispielen
Verknüpfen Sie Entitäten über Dokumente hinweg für Netzwerkanalysen
Kombinieren Sie mit der Suche, um leistungsfähige Forschungsdatenbanken aufzubauen

Ground Truth Tipps

So erstellen Sie Trainingsdaten effizient

Die Qualität und Menge Ihrer Ground Truth bestimmt direkt die Modellgenauigkeit. Hier sind bewährte Strategien, um Trainingsdaten schneller zu erstellen.

Zuerst ein öffentliches Modell anwenden

Verwenden Sie Text Titan oder ein sprachspezifisches öffentliches Modell für eine erste Transkription. Korrigieren ist 3–5x schneller als von Grund auf zu transkribieren.

Systematisch korrigieren

Arbeiten Sie jede Seite durch und korrigieren Sie alle Fehler. Achten Sie besonders auf ungewöhnliche Zeichen, Abkürzungen und Zeilenumbrüche.

Vielfältige Beispiele auswählen

Wählen Sie Seiten von verschiedenen Schreibern, Zeiträumen und Dokumenttypen aus. Vielfalt in den Trainingsdaten führt zu einem robusteren Modell.

Trainieren, auswerten, wiederholen

Verwenden Sie nach dem ersten Modell dieses, um weitere Seiten vorzutranskribieren, korrigieren Sie diese und trainieren Sie erneut. Jeder Zyklus fügt Daten hinzu und verbessert die Genauigkeit.

Über 300 Community-Modelle — starten Sie ohne Training

Bevor Sie selbst trainieren, werfen Sie einen Blick in den Modellkatalog. Über 300 Modelle wurden von der Community geteilt und decken Hunderte von Sprachen und Schriften ab.

Trainieren Sie Ihr erstes Modell

Erstellen Sie ein kostenloses Konto, laden Sie Ihre Dokumente hoch und trainieren Sie ein individuelles KI-Modell — ganz ohne Machine-Learning-Vorkenntnisse.

Kostenlos50 Credits jeden Monat
Kein CodeKeine ML-Kenntnisse nötig
GPU-gestütztTraining in Stunden