Methodikleitfaden

Handschrifterkennung im Förderantrag — so überzeugen Sie Gutachter

Eine Schritt-für-Schritt-Anleitung, wie Sie HTR in Ihrem Forschungsantrag überzeugend darstellen — von der Methodenbeschreibung und Kostenbegründung über Referenzen bis zur Datenmanagementplanung. Für DFG, FWF, SNF, ERC, Horizon Europe und andere Forschungsförderer.

10 Min. Lesezeit

1.Warum HTR in die Methodik aufnehmen

Handschriftenerkennung (HTR) hat sich von einer experimentellen Technik zu einer etablierten Forschungsmethode in den Geistes- und Sozialwissenschaften entwickelt. Hunderte begutachtete Publikationen nennen KI-gestützte Transkription als zentralen Bestandteil ihres Arbeitsablaufs, und bedeutende Förderinstitutionen -- darunter ERC, DFG, NEH, AHRC, SNF und FWF -- haben Projekte gefördert, die darauf aufbauen.

Die methodische Begründung für HTR ruht auf drei Säulen:

Effizienz. Die automatisierte Transkription verarbeitet Seiten in Sekunden statt der 15–60 Minuten, die für eine manuelle Transkription erforderlich sind. So werden großangelegte Korpusarbeiten innerhalb üblicher Projektlaufzeiten realisierbar.
Reproduzierbarkeit. Ein trainiertes Modell erzeugt bei gleichem Input stets identische Ergebnisse. Dieses deterministische Verhalten ist ein wesentlicher Vorteil gegenüber manueller Transkription, bei der die Inter-Annotator-Übereinstimmung stets unvollkommen ist.
Messbarkeit. Die Erkennungsqualität wird anhand der Character Error Rate (CER) quantifiziert, einer objektiven Metrik, die auf zurückgehaltenen Testdaten berechnet wird. Dies gibt Gutachter:innen -- und dem Forschungsteam -- einen konkreten, überprüfbaren Qualitätsindikator.

Die Einbindung von HTR in Ihre Methodik signalisiert, dass Ihr Projekt modernste digitale Verfahren nutzt und gleichzeitig strenge Qualitätskontrolle gewährleistet. Sie zeigt zudem ein Bewusstsein für Skalierbarkeitsfragen, die Gutachter:innen bei der Bewertung großer Dokumentenkorpora häufig beschäftigen.

2.Den Transkribus-Workflow beschreiben

Förderanträge erfordern eine klare, technisch präzise Beschreibung Ihrer Werkzeuge und Methoden. Transkribus ist eine KI-gestützte Plattform für die Erkennung handschriftlicher und gedruckter Texte, entwickelt und betrieben von READ-COOP SCE, einer europäischen Genossenschaft mit über 250 institutionellen Mitgliedern, darunter Archive, Bibliotheken und Universitäten.

Der Standardworkflow umfasst vier Schritte:

Upload. Dokumentbilder (Scans, Fotografien oder PDFs) werden auf die Plattform hochgeladen. Transkribus akzeptiert alle gängigen Bildformate und unterstützt den Stapelupload für große Sammlungen.
Texterkennung. Ein KI-Modell -- ausgewählt aus über 300 öffentlich verfügbaren Modellen oder eigens auf Ihrem Material trainiert -- führt die automatische Transkription durch. Die Layoutanalyse erkennt Textregionen, Grundlinien und Strukturelemente wie Tabellen.
Manuelle Korrektur. Das Forschungsteam überprüft und korrigiert die automatisierte Ausgabe in einem integrierten Editor. Dieser Schritt erzeugt Ground Truth-Daten, die auch zum weiteren Training und zur Verbesserung der Modelle verwendet werden können.
Export. Korrigierte Transkriptionen werden in Standardformaten (PAGE XML, ALTO XML, TEI, Reintext, durchsuchbares PDF) für die Integration in Datenbanken, Repositorien oder weiterführende Analysepipelines exportiert.

Für Projekte mit sensiblem oder zugangsbeschränktem Material bietet Transkribus ein On-Premises-Deployment: Die gesamte Plattform läuft auf der eigenen Infrastruktur Ihrer Institution, sodass Dokumente Ihre Server niemals verlassen. Dies ist besonders relevant für Archive mit Sperrfristen oder rechtlichen Einschränkungen bei der Datenübertragung.

3.Zeit und Kosten kalkulieren

Eine genaue Budgetplanung ist für einen überzeugenden Förderantrag unerlässlich. Transkribus verwendet ein kreditbasiertes System für die Texterkennung, wobei die Anzahl der verbrauchten Credits von der Seitenzahl und der Art der angewandten Verarbeitung abhängt.

Erkennungskosten kalkulieren:

Credits werden pro Seite für Texterkennung, Layoutanalyse und zugehörige Verarbeitungsschritte verbraucht.
Individual- und Organisationstarife sind in verschiedenen Stufen verfügbar, sodass Sie Ihren Tarif an den Umfang des Projekts anpassen können.
Mengenrabatte sind für große institutionelle Projekte verfügbar -- kontaktieren Sie das Transkribus-Team für ein individuelles Angebot.

Manuellen Korrekturaufwand kalkulieren:

Der Zeitaufwand für die Nachkorrektur hängt von der Schwierigkeit des Materials und der angestrebten Genauigkeit ab. Als Richtwert:

Gut erkanntes Material (CER unter 5 %): 2–5 Minuten pro Seite für Überprüfung und leichte Korrekturen.
Anspruchsvolles Material (CER 5–10 %): 5–15 Minuten pro Seite für umfangreichere Korrekturen.
Sehr schwieriges Material (CER über 10 %): Erwägen Sie zunächst das Training eines eigenen Modells -- dies reduziert den Korrekturaufwand pro Seite in der Regel erheblich.

Eine Pilotstudie an 50–100 repräsentativen Seiten liefert Ihnen konkrete Korrekturzeiten für Ihr spezifisches Material. Nehmen Sie diese Zahlen als Vorarbeiten in Ihren Antrag auf.

4.Datenmanagement und Archivierungsstandards

Die meisten Fördergeber verlangen mittlerweile einen Datenmanagementplan (DMP) als Bestandteil des Antrags. Transkribus unterstützt die Einhaltung der FAIR-Datenprinzipien und Standards zur Langzeitarchivierung.

Exportformate:

PAGE XML -- der De-facto-Standard für Layout- und Transkriptionsdaten in der Dokumentanalyseforschung. Bewahrt Grundlinienkoordinaten, Regionstypen und Lesereihenfolge.
ALTO XML -- weit verbreitet in der Infrastruktur digitaler Bibliotheken und kompatibel mit METS/IIIF-Workflows.
TEI XML -- der Standardcodierung für digitale wissenschaftliche Editionen in den Geisteswissenschaften.
Reintext und durchsuchbares PDF -- für nachgelagerte Analysen, Volltextsuche und menschenlesbare Ausgabe.

FAIR-Konformität:

Findable: Volltextsuche über Sammlungen hinweg; strukturierte Metadaten in XML-Exporten.
Accessible: Daten können jederzeit in offenen Formaten exportiert werden; kein proprietärer Lock-in.
Interoperable: Standard-XML-Schemata gewährleisten Kompatibilität mit digitalen Bibliothekssystemen, Annotationswerkzeugen und Textanalysesoftware.
Reusable: Offene Formate mit eingebetteten Metadaten unterstützen langfristige Nachnutzung und erneute Analyse.

Langzeitarchivierung: Exportieren Sie Ihre Ergebnisse zur Hinterlegung in institutionellen Repositorien, fachspezifischen Archiven oder Datenzentren. Die offenen, nicht-proprietären Formate stellen sicher, dass die Daten unabhängig von einer einzelnen Plattform zugänglich bleiben.

5.Modelltraining und Genauigkeit

Die Erkennungsgenauigkeit ist zentral für jeden HTR-Methodenteil. Transkribus misst die Qualität anhand der Character Error Rate (CER): dem Anteil der Zeichen, die zwischen der Modellausgabe und einer manuell verifizierten Referenztranskription abweichen.

Was Gutachter:innen erwarten sollten:

Öffentliche Modelle bei geeignetem Material: 2–5 % CER (95–98 % der Zeichen korrekt).
Anspruchsvolle Schriften oder degradiertes Material mit eigenem Training: 5–10 % CER.
Die CER wird stets auf einem zurückgehaltenen Testset berechnet (typischerweise 10–15 % der Ground Truth-Daten, die nicht im Training verwendet wurden), um eine unverzerrte Genauigkeitsschätzung zu gewährleisten.

Training eigener Modelle: Für spezielles Material -- ungewöhnliche Schriften, historische Orthographien oder degradierte Dokumente -- ermöglicht Transkribus das Training eines eigenen Modells auf Ihren Ground Truth-Daten. Das Training erfordert typischerweise 25–75 Seiten manuell transkribiertes Material, abhängig von der Komplexität der Schrift.

Eine ausführliche Erklärung der CER und wie Sie diese in Ihrem Antrag angeben, finden Sie in unserem Leitfaden: Character Error Rate (CER) -- Erklärung.

6.Zusammenarbeit und Skalierbarkeit

Forschungsprojekte arbeiten selten isoliert. Transkribus unterstützt kollaborative Arbeitsabläufe in jeder Größenordnung, von kleinen Teams bis hin zu großen multi-institutionellen Initiativen.

Crowdsourcing: Für Projekte, die ehrenamtliche Transkribierende oder Citizen Scientists einbinden, bietet Transkribus integrierte Crowdsourcing-Funktionen. Freiwillige tragen Korrekturen über eine vereinfachte Oberfläche bei und erzeugen dabei Ground Truth, das die Modellgenauigkeit im Laufe der Zeit verbessert. Details zur Einrichtung kollaborativer Transkriptionskampagnen finden Sie in unserem Leitfaden zur Crowdsourcing-Transkription.

API-Zugang: Für Projekte, die automatisierte Pipelines oder die Integration in bestehende Forschungsinfrastruktur benötigen, bietet die Transkribus API programmatischen Zugriff auf alle Erkennungs- und Verarbeitungsfunktionen. Dies ermöglicht Stapelverarbeitung, individuelle Workflows und die Integration in institutionelle digitale Bibliothekssysteme.

Vom Pilotprojekt zum Vollbetrieb:

Pilotphase (Monate 1–3): 50–100 repräsentative Seiten verarbeiten, CER messen, Korrekturzeiten schätzen.
Modellverfeinerung (Monate 3–6): Bei Bedarf ein eigenes Modell auf dem Pilot-Ground Truth trainieren, um die Genauigkeit zu verbessern.
Vollverarbeitung (ab Monat 6): Das optimierte Modell auf das gesamte Korpus anwenden. Die Stapelverarbeitung bewältigt tausende Seiten pro Tag.

Dieser stufenweise Ansatz ist methodisch fundiert und zeigt Gutachter:innen, dass Sie einen realistischen, evidenzbasierten Plan zur Skalierung haben.

7.Beispiel-Methodentext

Der folgende Absatz kann für den Methodenteil Ihres Förderantrags angepasst werden. Ersetzen Sie die Felder in eckigen Klammern durch Ihre projektspezifischen Angaben.

Die Handschriftenerkennung wird mit Transkribus (transkribus.org) durchgeführt, einer KI-gestützten Plattform, die von der europäischen Genossenschaft READ-COOP SCE (250+ institutionelle Mitglieder) entwickelt und betrieben wird. Die Plattform verwendet Deep-Learning-Architekturen, die auf PAGE XML Ground Truth-Daten trainiert wurden, um historische Handschriften mit messbarer Genauigkeit zu erkennen. Eine Pilotstudie an [N] repräsentativen Seiten von [Materialbeschreibung] ergab eine Character Error Rate von [X] %, berechnet auf einem zurückgehaltenen Testset von [Y] % des Ground Truth-Korpus, was die Machbarkeit der automatisierten Erkennung für dieses Material bestätigt. Im Rahmen des Projekts werden ca. [N] Seiten [Schrifttyp]-Material aus [Archiv/Sammlung] mit [einem öffentlichen Modell / einem eigens trainierten Modell] verarbeitet. Die Erkennungsqualität wird fortlaufend durch CER-Messung auf zurückgehaltenen Testdaten validiert. Manuelle Nachkorrektur durch [Teammitglieder / studentische Hilfskräfte] stellt sicher, dass die Transkriptionsqualität den Projektstandards entspricht. Alle Ergebnisse werden als [PAGE XML / TEI XML / ALTO XML] für die Hinterlegung in [Repositoriumsname] und die Integration in [Datenbank / Analysepipeline] exportiert. Die Daten werden auf Transkribus-Servern in Österreich (EU) gespeichert und verarbeitet, in Übereinstimmung mit der DSGVO. [Für sensibles Material: Das On-Premises-Deployment stellt sicher, dass Dokumente auf der institutionellen Infrastruktur verbleiben.]

8.Referenzen und weiterführende Literatur

Zentrale Publikationen:

Muehlberger, G. et al. (2019). 'Transforming scholarship in the archives through handwritten text recognition.' Journal of Documentation, 75(5), S. 954–976.
Kahle, P. et al. (2017). 'Transkribus — A Service Platform for Transcription, Recognition and Retrieval of Historical Documents.' 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), 2017.
'Handwritten Text Recognition for Historical Documents.' Open Research Europe, 5:16 (2025). open-research-europe.ec.europa.eu/articles/5-16

Projektherkunft:

EU Horizon 2020 READ-Projekt (Fördernr. 674943, 2016–2019) -- das Forschungsprogramm, in dessen Rahmen Transkribus entwickelt wurde.
READ-COOP SCE -- die europäische Genossenschaft, die Transkribus betreibt und verwaltet, mit über 250 institutionellen Miteigentümern.

Weiterführende Methodikleitfäden:

Character Error Rate (CER) -- Erklärung -- Genauigkeitsmetriken verstehen und berichten.
Crowdsourcing-Transkription -- Kollaborative Transkriptionskampagnen einrichten.
Handwriting Recognition API -- Programmatischer Zugriff für automatisierte Workflows.
Frühneuzeitliche Handschriftenerkennung -- Arbeiten mit frühneuzeitlichen Schriften und Händen.
Transkription spanischer Kolonialdokumente -- Spezialleitfaden für kolonialzeitliches Material.
Transkription hebräischer Handschriften -- Arbeiten mit hebräischen und rechtsläufigen Schriften.

Infrastruktur, die Sie guten Gewissens zitieren können.

Transkribus ist eine Forschungsinfrastruktur, die von den Institutionen gebaut und gesteuert wird, die sie nutzen — ein starkes Nachhaltigkeitsargument für jeden Förderantrag.

Gehostet in Österreich, EU

Verarbeitung ausschließlich auf eigenen Servern. DSGVO-konform. Keine Abhängigkeit von Drittanbieter-Clouds.

Genossenschaft, kein Startup

250+ Archive, Bibliotheken und Universitäten als Miteigentümer. Auf Jahrzehnte gebaut, nicht auf einen VC-Exit.

Ihre Daten gehören Ihnen

Volle Datenhoheit. Jederzeit exportieren und löschen. Kein Datenaustausch mit Dritten.

Starten Sie Ihre Pilotstudie noch heute

Testen Sie Transkribus an Ihrem Quellenmaterial, bevor Sie den Antrag schreiben. Legen Sie echte Genauigkeitsdaten als Vorarbeiten bei — das stärkste Argument für Gutachter.

Kostenlos starten Sprechen Sie mit uns über institutionelle Tarife

50 kostenlose Credits pro Monat · Keine Kreditkarte erforderlich

200 Mio.+Verarbeitete Seiten

500.000+Nutzer weltweit

500+Universitäten