Het Nationaal Archief, Stadsarchief Amsterdam, en Noord-Hollands Archief werken mee aan het project Tag de tekst. In dit artificial intelligence-project taggen (labelen) vrijwilligers bepaalde begrippen in duizenden teksten uit de 17e, 18e en 19e eeuw uit collecties van deze instellingen. Op die manier leert het systeem deze begrippen automatisch te herkennen. Hiermee wordt zoeken in archieven makkelijker.
Het gaat om notariële stukken uit Amsterdam, Haarlem en andere provincies, en archieven van de VOC. De vrijwilligers taggen de teksten op persoonsnamen, locaties en datums. De teksten zijn al gescand en getranscribeerd, oftewel omgezet in machine-leesbare tekst.
Trainingsmateriaal voor artificial intelligence
Door het AI-systeem met deze tags te ‘voeden’, wordt het steeds beter in het herkennen van persoonsnamen, locaties en tijdsaanduidingen. In vervolgprojecten kan het systeem verder getraind worden om ook andere begrippen te vinden in teksten, zoals scheepsnamen, beroepen of kunstvoorwerpen.
Liesbeth Keijser van het Nationaal Archief is nauw betrokken bij het project: “Tag de tekst stelt ons in staat om handgeschreven teksten veel gedetailleerder doorzoekbaar te maken, bijvoorbeeld op locaties. Niet alleen van de archieven die meedoen aan dit project, maar op den duur ook van elk Nederlands archief. Dat is goed nieuws, omdat er nog honderden kilometers documenten in Nederlandse archieven wachten op deze vorm van digitalisering.”
Meedoen? Graag!
Voor het project zijn we nog steeds op zoek naar vrijwilligers. Iedereen is van harte welkom. Aanmelden kan op VeleHanden en Tag de tekst.
Samenwerkingsverband
Het project Tag de tekst is een samenwerking van de leveranciers Picturae, Aincient, Sioux LIME en Islands of Meaning. Het heeft tot doel nieuwe dienstverlening te ontwikkelen voor en samen met het Stadsarchief Amsterdam, Noord-Hollands Archief en Nationaal Archief. Het project wordt mede mogelijk gemaakt door het SBIR-programma voor innovatie van de Rijksdienst voor Ondernemend Nederland.
Meer informatie
Zie voor meer informatie over dit project en gerelateerde projecten de pagina Handschriftherkenning.