+ Working with (Early Modern) Dutch script? Join a new Transkribus working group!

by Annemieke Romein, University of Ghent

(Dutch language version below)

Throughout the Early Modern era much was written in the Dutch language, not just in the Low Countries – but in former colonies, among certain religious groups within Northern America, and in Hansa cities as well. An Early Modern Gothic script was widely used, though it had some varieties depending on its contexts, aim, and type. First experiments with documents from Belgium (Ghent, in Flanders) have demonstrated that the Dutch language can be recognised by Handwritten Text Recognition (HTR) models with a good level of accuracy.

The next step is to combine different examples of Early Modern Dutch texts in order to build and improve generic models for the recognition of various types of documents. Dr. Annemieke Romein (Erasmus University Rotterdam/ Ghent University), Dr. Jetze Touber, and Koen Verstraeten have initiated the ‘Early Modern Dutch’ working group – where all Transkribus users can work together towards the aim of the improved recognition of the Dutch language. Scroll down to find out more about joining the working group and its aims.

The process of combining training data of different Early Modern Dutch documents has already started at Ghent University. Various researchers at the Institute for Early Modern History and the Ghent Center for Digital Humanities are bringing materials together in order to train a HTR model. However, within a multidisciplinary group such as this, we have quickly realised that there are various types of texts as well as periods within the early modern period to deal with. Sixteenth-century handwriting is different from a century later, even when in terms of content little changed; likewise, texts written with a political-institutional or legal background will differ tremendously from diaries, letters and academic texts. Nonetheless, each of these types of texts can train the recognition of the text as well as of the handwriting. How smart computers can be made, is yet to be discovered within such a context.

In order to streamline this endeavour, three Ghent-based historians are working together and will be coordinating/ training different language models, hopefully leading to one final model for the Dutch language (depending on the amount of training material).

Dr. Annemieke Romein 16th, 17th, 18th century Political-institutional/ legal texts (incl. requests, letters of statesmen).
Dr. Jetze Touber 16th, 17th, 18th century Cultural texts (diaries, letters); Scholarly, academic and religious texts.
Koen Verstraeten 19th century Cultural texts (diaries, letters); Scholarly and academic texts.

The ‘Early Modern Dutch’-working group is looking for further examples of documents written in Dutch from the 16th, 17th and 18th century. You can help us add to the collection – all that is needed are images (preferably around 300 dpi) and transcriptions.

You can:

Please do indicate what type of textual material you are sharing, so that we have an overview and can start training models a.s.a.p..

To join the working group and get access to the ‘Early Modern Dutch’ collection in Transkribus, contact the group at: TranskribusEMDutch@gmail.com.

The ‘Early Modern Dutch’ working group aims to demonstrate that training based algorithms like Handwritten Text Recognition need significant input from many stakeholders – they can only be improved by cooperation and sharing!

————————————————————————————————————

Werkt u met Vroegmoderne Nederlandse teksten (± 1500-1900)? Sluit u aan bij de Transkribus werkgroep!

Er zijn veel teksten geschreven in de Nederlandse taal, niet alleen in de Lage Landen zelf, maar ook in voormalige koloniën, bij religieuze groepen in Noord-Amerika, alsook in de Hanze steden. Het vroegmoderne gotische schrift werd veel gebezigd, hoewel er variaties te vinden zijn afhankelijk van de context, doel en het type tekst. Eerste experimenten met documenten laten zien dat de Nederlandse taal middels Automatische Tekst Herkenning (OCR) modellen herkend kunnen worden en dat middels training hier goede resultaten geboekt kunnen worden.

De volgende stap is het combineren van verschillende voorbeelden van Nederlandse teksten, in een poging om algemene taalmodellen te maken die verschillende typen documenten kunnen analyseren en herkennen. Dr. Annemieke Romein (Erasmus University Rotterdam/ Ghent University – IEMH), Dr. Jetze Touber (UGent – IEMH), en Koen Verstraeten (UGent archief) nemen het initiatief om een werkgroep ‘Vroegmodern Nederlands’ te starten. De focus ligt op de periode 1500-1900, maar materiaal uit andere perioden is eveneens welkom. In deze groep kunnen Transkribus-gebruikers samenwerken om de herkenning van de Nederlandse taal van teksten te verbeteren. Leest u vooral verder om meer te komen over deelname aan deze groep en de doelen.

Het proces van het combineren van trainingsmateriaal van verschillende vroegmoderne teksten is al enige tijd aan de gang. Aan de UGent zijn verschillende onderzoekers van het Institute for Early Modern History en het Ghent Center for Digital Humanities bezig met het uploaden van hun materialen naar Transkribus. Via Text2Image worden bestaande transcripties aan foto’s gekoppeld en worden computers getraind. Dit is momenteel in volle gang. We hebben ons al snel gerealiseerd date r verschillende typen teksten bestaan, alsook verschillende tijdsperioden waarin gradueel veranderingen optreden. Alle soorten teksten kunnen worden getraind in Transkribus, maar daar is veel trainingsmateriaal voor nodig. Méér dan een enkele onderzoeker kan verzamelen. Daarom deze oproep tot deelname.

Transkribus (voorlopig) een gratis programma dat kan worden gebruikt om servers in Innsbruck te trainen om handschriften (maar ook drukwerk) te herkennen middels “Handwriting Text Recognition” (HTR). Ten minste 75 pagina’s getranscribeerde tekst zijn nodig om een handschrift goed te kunnen herkennen, maar dat betreft dan één auteur. Hoe meer materiaal er wordt geüpload, hoe universeler wordt het model. Het wordt dan steeds breder toepasbaar. Archieven, bibliotheken en erfgoedinstellingen, maar zeker ook individuele onderzoekers wordt dringend verzocht om hun materiaal te delen dat de 16e tot en met 19e eeuw bestrijkt.

Drie Gentse onderzoekers zijn betrokken bij het coördineren van het Nederlandstalige model en zullen tests uitvoeren om een zo accuraat mogelijk model (of modellen) te trainen. Voornoemde onderzoekers houden zich bezig met respectievelijk:

Dr. Annemieke Romein 16e, 17e, 18e, , 19e eeuw Politiek-institutionele/ juridische teksten (incl. rekesten, brieven van staatslieden)
Dr. Jetze Touber 16e, 17e, 18e eeuw Culturele teksten (dagboeken, brieven); wetenschappelijke, academische en religieuze teksten.
Koen Verstraeten 19e eeuw Culturele teksten (dagboeken, brieven); wetenschappelijke, academische en religieuze teksten.

Als u materiaal beschikbaar wilt stellen en deel wilt nemen aan deze werkgroep vragen wij u om contact op te nemen via TranskribusEMDutch@gmail.com. Het is handig als u dan aangeeft om welk type teksten het gaat, zodat wij een beeld hebben in welke modellen wij dit kunnen gaan gebruiken.

Veel gestelde vragen:

Start unlocking the past with Transkribus

Leverage the power of Transkribus to get the most out of your historical documents.