In 2019 startten we ons eerste grote project met handschriftherkenning De ijsberg zichtbaar maken. Het Nationaal Archief werkte samen met het Noord-Hollands Archief en andere regionaal historische centra aan automatische handschriftherkenning (htr). In het project De ijsberg zichtbaar maken transcribeerden we archieven van de VOC uit de 17e en 18e eeuw en archieven van notarissen uit de 19e eeuw. Voor het zoeken in de twee miljoen transcripties ontwikkelen we de tijdelijke projectwebsite www.zoekintranscripties.nl. Anderhalf miljoen transcripties en de trainingsdata zijn beschikbaar op Zenodo.
Oorlog voor de rechter
Het project De ijsberg zichtbaar maken liet ons zien hoe waardevol transcripties zijn bij het doen van archiefonderzoek. Ook in het project Oorlog voor de Rechter speelt tekstherkenning een belangrijke rol. In dat project transcriberen we 30 miljoen scans van het Centraal Archief Bijzonder Rechtspleging (CABR). In het CABR zitten dossiers over 425.000 mensen die werden verdacht van onder andere samenwerking met de Duitse bezetter tijdens de Tweede Wereldoorlog. In het project Oorlog voor de Rechter werken we samen met WO2Net, KNAW Humanities Cluster en het NIOD.
Met tekstherkenning willen we het mogelijk maken dat in de tekst van de documenten kan worden gezocht, bijvoorbeeld naar slachtoffers. Daarnaast kunnen we hierdoor de naam van een verdachte koppelen aan een dossier en bepalen wat voor documenttypen er in een dossier zitten.
Voor het transcriberen ontwikkelde het KNAW Humanities Cluster met hulp van het Nationaal Archief de transcriptie-software Loghi. De software is open source beschikbaar op de GitHub website van het knaw-huc. Het vereist meer dan gemiddelde IT-kennis om er mee te kunnen werken. Het Nationaal Archief en het KNAW Humanities Cluster blijven Loghi verder ontwikkelen. Om de scans van Oorlog voor de Rechter maar ook die van alle andere archieven van het Nationaal Archief te kunnen transcriberen, is de transcriptiesoftware geïntegreerd in de technische infrastructuur.