Het Nationaal Archief digitaliseert op grote schaal. Meters historische archieven zijn als plaatjes beschikbaar op internet. De toegankelijkheid van deze archieven wordt hiermee enorm vergroot. Maar het bladeren door duizenden scans is een tijdrovende zaak. Daar wordt nu een oplossing voor ontwikkeld: een check om scans nader toegankelijk te maken. Waardoor onderzoekers straks veel sneller kunnen zoeken in digitaal archief.
Hoe werkt het? Met data entry
Op dit moment wordt deze check toegepast op een groot verbaal archief van het Ministerie van Koloniën uit de 19de eeuw. Met data entry. Via een index vindt een onderzoeker besluiten over een bepaald onderwerp en ziet op welke dag en met welk registratienummer een besluit is genomen. Door de eerste scan van een dagbundel te markeren en de vermelde datum op de omslag in te voeren met data entry, kan de onderzoeker nu ook digitaal eenvoudig een dagbundel terugvinden. Binnen een dagbundel markeren we vervolgens de afzonderlijke archiefstukken (de agenda, besluiten en bijlagen). Het resultaat is een Excel-bestand met een kolom met namen van gemarkeerde scans en een kolom met de datum van de dagbundel of de term ‘archiefstuk’.
De resultaten zijn nog niet beschikbaar. De website van het Nationaal Archief is namelijk nog in bewerking. Maar zodra deze klaar is, kan de klant eenvoudig navigeren naar de juiste dag binnen een inventarisnummer. En vervolgens springen van archiefstuk naar archiefstuk om het juiste besluit te vinden.
Indexen zichtbaar maken en gegevens koppelen
In archiefstukken komen we vaak eigentijdse indexen tegen, lijsten van zaken en personen met verwijzingen naar folio’s of pagina’s. Deze indexen zijn niet altijd vermeld in de beschrijving van het archiefstuk. Het zichtbaar maken van de locatie van deze indexen binnen een inventarisnummer op onze website, vereenvoudigt het zoeken. En belangrijke indexen, kunnen we nu met data entry omzetten naar een digitale index.
Bestaande digitale indexen kunnen worden verrijkt met de bijbehorende scans. Zo koppelden we bijna 2 miljoen scans van de VOC aan de index van de VOC-opvarenden. Als een genealoog op zoek is naar een voorvader, dan vindt deze nu op de website van het Nationaal Archief niet alleen de naam, functie en informatie over zijn dienstreis. Maar ook een scan met de originele registratie van zijn voorouder en een overzicht met een specificatie van de uitgaven die hij deed.
Transkribus: automatische handschriftherkenning
Revolutionair is de mogelijkheid om ‘full text’ te kunnen zoeken in archieven. Dit gebeurt met optical character recognition (OCR) bij getypte en gedrukte stukken. En bij handgeschreven documenten met automatische handschriftherkenning (handwritten text recognition/HTR). Het Nationaal Archief startte begin 2019 met het grootschalig transcriberen van scans met HTR in het platform Transkribus. We selecteerden hiervoor ongeveer één miljoen scans van het archief van de VOC uit de 17de en 18de eeuw van het Nationaal Archief en één miljoen scans van notariële archieven uit de 19e eeuw van het Noord-Hollands Archief en acht andere Regionaal Historische Centra. Deze kunnen we nu automatisch transcriberen. In Transkribus is het daarvoor gebruikte model IJsberg vrij beschikbaar. Iedereen kan het hiermee transcriberen of gebruiken als basis voor een eigen model.
Toekomstige ontwikkelingen
Het vervolgplan is om de doorzoekbaarheid van deze transcripties klantvriendelijk maken. Net als in Delpher voor het zoeken in kranten, willen we een scan en bijbehorende transcriptie gecombineerd tonen. En de zoekresultaten in beide highlighten. De beschrijving van een archief helpt om te kunnen filteren op bijvoorbeeld jaartal van het archiefstuk of naam van de notaris. En met Named Entity Recognition kunnen plaats- en persoonsnamen worden gevonden.
Vragen? Stel ze!
Heb je vragen naar aanleiding van dit bericht of ben je geïnteresseerd in ontwikkelingen op het gebied van automatische handschriftherkenning? Op de pagina handschriftherkenning van het Nationaal Archief staan verschillende artikelen en verwijzingen over dit onderwerp. Je kunt je vragen ook stellen via het contactformulier.