Handschriftherkenning

Wat is handschriftherkenning?

Archiefinstellingen beheren vele handgeschreven archieven. Maar wie kan die nog lezen? En zou je niet makkelijker willen zoeken in de scans van deze archieven. Het Nationaal Archief lost dit op met artificial intelligence (AI). We gebruiken machine learning om software te trainen handschriften automatisch te transcriberen. Oftewel om te zetten naar tekst die de machine kan lezen. Hiervoor voeden we de software met handgemaakte transcripties. Om het zoeken in de transcripties te verbeteren worden persoonsnamen en locaties in de teksten automatische gemarkeerd. Lees meer over handschriftherkenning op deze pagina.

Wat doet het Nationaal Archief met handschriftherkenning?

In 2019 startten we ons eerste grote project De ijsberg zichtbaar maken. 
Het Nationaal Archief werkte samen met het Noord-Hollands Archief en andere regionaal historische centra aan automatische handschriftherkenning (htr). In het project De ijsberg zichtbaar maken transcribeerden we archieven van de VOC uit de 17e en 18e eeuw en archieven van notarissen uit de 19e eeuw. Voor het zoeken in de twee miljoen transcripties ontwikkelen we de projectwebsite www.zoekintranscripties.nl. Aan deze website wordt nog steeds gewerkt. Anderhalf miljoen transcripties en de trainingsdata zijn beschikbaar op Zenodo.

Oorlog voor de rechter

Het project De ijsberg zichtbaar maken maakt duidelijk hoe waardevol transcripties zijn bij het doen van archiefonderzoek. Ook in het project Oorlog voor de Rechter speelt tekstherkenning een belangrijke rol.. In dat project willen we 30 miljoen scans van het Centraal Archief Bijzonder Rechtspleging (CABR) transcriberen. In het CABR zitten dossiers over 300.000 mensen die werden verdacht van onder andere samenwerking met de Duitse bezetter tijdens de Tweede Wereldoorlog. In het project Oorlog voor de Rechter werken we samen met WO2Net, KNAW Humanities Cluster en het NIOD.

Voor het transcriberen ontwikkelde het KNAW Humanities Cluster met hulp van het Nationaal Archief de transcriptie-software Loghi. De software is open source beschikbaar op de Github website. Het vereist meer dan gemiddelde IT-kennis om er mee te kunnen werken. Het Nationaal Archief en het KNAW Humanities Cluster blijven Loghi verder ontwikkelen.

Om de scans van Oorlog voor de Rechter maar ook die van alle andere archieven van het Nationaal Archief te kunnen transcriberen, wordt er hard gewerkt aan het integreren van de transcriptiesoftware in de technische infrastructuur. 

Contact

Liesbeth Keijser

Projectleider digitalisering 

Liesbeth Keijser
liesbeth.keijser@nationaalarchief.nl

Ik denk we een revolutie teweeg gaan brengen in archiefonderzoek.

Projectwebsite zoekintranscripties.nl

Tijdens het symposium De ijsberg zichtbaar maken lanceerde het Nationaal Archief zoekintranscripties.nl. Op deze website kunnen bezoekers handgeschreven bronnen bekijken en doorzoeken. Een innovatie voor historisch onderzoek; tijdrovend archiefonderzoek kan nu veel sneller. Het snel doorzoeken van archiefstukken op zoekintranscripties.nl is mogelijk omdat handgeschreven bronnen met behulp van transcriptietechniek machineleesbaar zijn gemaakt, en zijn verrijkt met kunstmatige intelligentie.

Op dit moment zijn er meer dan een miljoen transcripties te doorzoeken. Een deel hiervan is al verrijkt met correcties, modernisaties en entiteiten. De verwachting is dat deze zomer 2 miljoen verrijkte transcripties doorzoekbaar zijn op zoekintranscripties.nl. Het gaat om historische handgeschreven documenten van de Verenigde Oost-Indische Compagnie (VOC) uit de 17e en 18e eeuw van het Nationaal Archief en notariële archieven uit de 19e eeuw van het Noord-Hollands Archief en andere Regionaal Historische Centra. Robert Goené en Tom Dalenberg ontwikkelden de frontend en de zoekmachine van de website. Picturae, Aincient en Sioux Technologies bouwden het transcriptiebeheerssysteem en verrijkten de transcripties met inzet van AI. Zoekintranscripties.nl is qua inhoud en gekozen techniek, waar mogelijk open source en bruikbaar voor andere erfgoedinstellingen.

Tijdens het symposium passeerden verschillende projecten met handschriftherkenning de revue. Ook het doen van onderzoek in transcripties kwam aan bod. Een panel van deskundigen uit de geesteswetenschappen voorzag de verschillende presentaties van commentaar.