Het rapport Machine Learning en Automatische Classificatie is nu online beschikbaar. Het rapport bevat de bevindingen van het gelijknamige experiment van het Nationaal Archief. Mette van Essen, projectleider: 'We zochten naar een manier om grote hoeveelheden informatie gemakkelijker te verwerken en functionele mails en niet-functionele mails of ruis automatisch te scheiden. Om zo de informatiehuishouding efficiënter op orde te houden.'
Van Essen: 'Vrijwel iedereen kent het probleem: een overvolle mailbox. Alles lezen en opruimen kost ontzettend veel tijd, terwijl lang niet ieder bericht voor het werk inhoudelijk belangrijke informatie bevat. Handmatige selectie van functionele mail en ruis kost veel tijd. Automatische classificering biedt uitkomst, althans dat hebben we onderzocht.'
In het experiment stonden drie doelen centraal:
- het ontwikkelen van een zelflerend classificatiemodel dat (ongelezen) binnenkomende e-mailberichten kan identificeren en toewijzen aan een bepaalde klasse;
- het scheppen van vertrouwen en transparantie bij medewerkers in zelflerende systemen;
- inzicht krijgen in de mogelijkheden en beperkingen van de verschillende zelflerende algoritmen die inzetbaar zijn voor een classificatieprobleem.
Doelen behaald?
Van Essen vindt het experiment geslaagd. 'Het heeft uitgewezen dat zelflerende systemen kunnen bijdragen aan een betere informatiehuishouding. Hiervoor moeten we wel kennis opdoen en kennis ontwikkelen.'
Het systeem werd gedurende het experiment steeds beter in het herkennen van de verschillende soorten e-mails, vertelt Van Essen. Het ging dan vooral om de duidelijk functionele en duidelijke ruis mails. Het model had meer moeite met berichten waarin zowel ruis als functionele boodschappen stonden en de twijfelgevallen. 'Dit is logisch. Medewerkers vonden het zelf namelijk ook lastig om deze mails te beoordelen.'
Een ander belangrijk streven was het vertrouwen in het classificatiemodel van medewerkers. 'Men kreeg meer vertrouwen als er (een gevoel van) controle was. De mogelijkheid om het systeem zelf te trainen en te corrigeren droeg hier het meest aan bij. Door deze controle werd ook de menselijke inconsequentie zichtbaar. Hierdoor beseften de medewerkers dat een perfect systeem niet bestaat – en ook niet nodig is.'
'Onderaan de streep blijkt dat mens en machine afzonderlijk niet perfect zijn. Als je mens en machine combineert, zorgt dit voor mooie resultaten. Zo bleek dat 40 tot 50% van de e-mails tot de categorie ruis behoort. We besparen niet alleen veel tijd door een zelflerend systeem te laten helpen om die e-mails te herkennen en te verwijderen, maar ook bijna de helft aan opslagruimte. Dat is een mooie bijvangst!'
Een mooie les
Van Essen kijkt terug op een mooi, leerzaam en succesvol experiment. 'Het was niet altijd makkelijk. Het was een proces van vallen en opstaan. Ik ben trots op het resultaat dat er nu ligt. Een resultaat waar ontzettend veel mensen een bijdrage aan geleverd hebben. Het is een open deur, maar experimenteren kun je niet alleen. Het vraagt om tijd en mensen vrijmaken en een structuur om binnen te experimenteren. Betrek medewerkers bij de ontwikkeling van nieuwe tools en train ze zelf. Dat zorgt voor vertrouwen. Medewerkers groeien ook mee in de ontwikkeling van het systeem. Dus doe het stapsgewijs. Dan accepteren ze de ontwikkeling beter en eerder.'
Lees meer op KIA over het rapport ‘Machine Learning en Automatische Classificatie’.