Trainieren Sie KI-Modelle für Ihre Dokumente

Jede Sammlung historischer Dokumente hat ihre eigene, einzigartige Handschrift. Wenn öffentliche Modelle nicht ausreichen, können Sie mit Transkribus ein individuelles KI-Modell trainieren — zugeschnitten auf Ihre Handschrift, Sprache und Dokumentart. Keine Machine-Learning-Kenntnisse erforderlich.

Jetzt kostenlos trainieren Öffentliche Modelle durchsuchen

300+Öffentliche KI-Modelle

2–5%Erreichbare CER

25–50Seiten zum Start des Trainings

Laden Sie Ihre Dokumente hoch

Laden Sie zunächst Scans der handschriftlichen oder gedruckten Dokumente hoch, die Sie transkribieren möchten. Transkribus akzeptiert JPEG, PNG, PDF und TIFF. Organisieren Sie Ihre Dokumente in Sammlungen für eine einfache Verwaltung.

Tipp: Beginnen Sie mit 25–50 repräsentativen Seiten, die die Bandbreite der Handschriften in Ihrer Sammlung abdecken.

4TypenUnterstützte Formate

Texterkennungsmodelle

Trainieren Sie ein individuelles Textmodell mit PyLaia

PyLaia ist die Deep-Learning-Engine hinter den Texterkennungsmodellen von Transkribus. Sie verarbeitet handschriftlichen Text aus jedem Jahrhundert, in jeder Sprache und jeder Schrift — von mittelalterlichen lateinischen Handschriften bis hin zur Kurrentschrift des 20. Jahrhunderts. Sie liefern die Ground Truth; PyLaia lernt die Handschrift.

Funktioniert mit jeder Schrift: Lateinisch, Kyrillisch, Arabisch, Hebräisch, Chinesisch und mehr

Verarbeitet gemischte Druck- und Handschrift auf derselben Seite

25–50 transkribierte Seiten reichen aus, um mit dem Training zu beginnen

Modelle verbessern sich automatisch mit mehr Ground Truth Daten

Teilen Sie Ihr Modell mit Kollegen oder der gesamten Transkribus-Community

Modelle für strukturierte Tabellen trainieren

Historische Dokumente sind voller tabellarischer Daten — Volkszählungen, Kirchenbücher, Schiffsmanifeste, Buchführungsunterlagen. Tabellenmodelle erkennen Zeilen- und Spaltenstrukturen und extrahieren Zellinhalte in strukturierte Daten, die Sie nach Excel, CSV oder XML exportieren können.

Extrahierte Tabellendaten

Institution	Town	Amount	Object	Date	Disposition
Franklin College (6)	New Athen, O.		General	3/23/16
Fargo College (3)	Fargo, N.D.	100,000	Endowment	4/27/16	Gen 1914, 5/18/16
Franklin Academy (2)	Franklin, Neb.	5,000	Library Building	8/3/16	Gen 1914, 8/7/16
Fessenden Acad. & Ind. School	Fessenden, Fla.		General	12/22/16
Ferris Institute (2)	Big Rapids, Mich.	50,000	Buildings	2/12/17
Findlay College (2)	Findlay, O.	100,000	Endowment	5/23/17	Gen 1914, 5/28/17
Fairmount College	Wichita, Kan.	200,000	Endowment	6/7/17	6/14/17
Franklin College	Franklin, Ind.	50,000	General	9/13/17	Gen 1914, 9/17/17
Fisk University	Nashville, Tenn.	1,000,000	Endowment	6/14/18
Friends University	Wichita, Kan.	200,000	Endowment	6/20/18	Gen 1914, 8/8/18

Bestimmte Felder aus Formularen extrahieren

Wenn Sie bestimmte Datenpunkte — Namen, Daten, Adressen, Beträge — aus strukturierten oder teilstrukturierten Dokumenten extrahieren müssen, lokalisieren und lesen Field Models einzelne Felder. Ideal für Volkszählungsformulare, Melderegister und Verwaltungsunterlagen.

Extrahierte Felder

Demnächst verfügbar

Named Entity Recognition (NER) Modelle

Bald können Sie Modelle trainieren, die automatisch benannte Entitäten in Ihren Transkriptionen identifizieren und taggen — Personen, Orte, Daten, Organisationen und eigene Entitätstypen. NER verwandelt Rohtext in strukturierte, durchsuchbare Daten ohne manuelle Auszeichnung.

Automatische Erkennung von Personen, Orten, Daten und Organisationen

Definieren Sie eigene Entitätstypen für Ihren Forschungsbereich

Trainieren Sie mit Ihren eigenen annotierten Beispielen

Verknüpfen Sie Entitäten über Dokumente hinweg für Netzwerkanalysen

Kombinieren Sie mit der Suche, um leistungsfähige Forschungsdatenbanken aufzubauen

Ground Truth Tipps

So erstellen Sie Trainingsdaten effizient

Die Qualität und Menge Ihrer Ground Truth bestimmt direkt die Modellgenauigkeit. Hier sind bewährte Strategien, um Trainingsdaten schneller zu erstellen.

Zuerst ein öffentliches Modell anwenden

Verwenden Sie Text Titan oder ein sprachspezifisches öffentliches Modell für eine erste Transkription. Korrigieren ist 3–5x schneller als von Grund auf zu transkribieren.

Systematisch korrigieren

Arbeiten Sie jede Seite durch und korrigieren Sie alle Fehler. Achten Sie besonders auf ungewöhnliche Zeichen, Abkürzungen und Zeilenumbrüche.

Vielfältige Beispiele auswählen

Wählen Sie Seiten von verschiedenen Schreibern, Zeiträumen und Dokumenttypen aus. Vielfalt in den Trainingsdaten führt zu einem robusteren Modell.

Trainieren, auswerten, wiederholen

Verwenden Sie nach dem ersten Modell dieses, um weitere Seiten vorzutranskribieren, korrigieren Sie diese und trainieren Sie erneut. Jeder Zyklus fügt Daten hinzu und verbessert die Genauigkeit.

Trainieren Sie Ihr erstes Modell

Erstellen Sie ein kostenloses Konto, laden Sie Ihre Dokumente hoch und trainieren Sie ein individuelles KI-Modell — ganz ohne Machine-Learning-Vorkenntnisse.

Jetzt kostenlos starten Trainingsanleitung lesen

Kostenlos50 Credits jeden Monat

Kein CodeKeine ML-Kenntnisse nötig

GPU-gestütztTraining in Stunden

Trainieren Sie KI-Modelle für Ihre Dokumente

So funktioniert das Modelltraining

Laden Sie Ihre Dokumente hoch

Trainieren Sie ein individuelles Textmodell mit PyLaia

Modelle für strukturierte Tabellen trainieren

Bestimmte Felder aus Formularen extrahieren

Named Entity Recognition (NER) Modelle

So erstellen Sie Trainingsdaten effizient

Zuerst ein öffentliches Modell anwenden

Systematisch korrigieren

Vielfältige Beispiele auswählen

Trainieren, auswerten, wiederholen

Über 300 Community-Modelle — starten Sie ohne Training

Text Titan II

The Text Titan I ter

The Text Titan I (Super Model)

Dutch Dean (Super Model)

Trainieren Sie Ihr erstes Modell