Klussen aan nieuw tekstherkenningsmodel Transkribus-platform

Vanwege de corona-uitbraak zijn de kantoren van het Nationaal Archief gesloten. Bijna iedereen moet thuis werken, op een aantal medewerkers na. Hun werkzaamheden zijn namelijk aan het gebouw of archief verbonden. Voor hen is een klussenbank opgericht.

Een van de klussen is een nieuw herkenningsmodel voor het Transkribus-platform, met als doel een publiek model maken dat geschikt is voor zowel gedrukte als getypte stukken uit de periode rond 1900. Er is geen (publiek) model voor het automatische transcriberen van getypte documenten in Transkribus. Deze thuiswerkperiode is het ideale moment om dat gat op te vullen.

Werkwijze

De werkwijze voor het maken van een nieuw model kent 3 stappen: 1. Een selectie maken van de scans die representatief zijn voor het doel dat je wilt bereiken. Deze set scans worden de nieuwe ground truths. 2. Een bestaand model gebruiken dat het eerste grove transcriptiewerk doet. Om daarna de machinegemaakte transcripties te corrigeren. 3. Het trainen van een nieuw model.

1. Selectie

Bij het selecteren van de scans zijn drie verschillende typen scans gekozen. Hierbij is gezocht naar zoveel mogelijk verscheidenheid per type scan:

volledig getypte scans
volledig gedrukte scans
geschreven scans

Bij de geschreven scans is meestal sprake van handschrift op gedrukte formulieren. Daarnaast staan er vaak stempels op. Deze scans zijn vooral nuttig omdat veel getypte of gedrukte archiefstukken handgeschreven, vaak belangrijke, aantekeningen bevatten .
Alle scans komen uit de eerste helft van de 20e eeuw. Voor elk type zijn ongeveer honderd scans handmatig geselecteerd uit verschillende archieven (zie afbeeldingen 1 t/m 3 voor een collage van de verschillende types scans).

2. Transcriberen

Het transcriberen werkt het snelst door eerst een bestaand HTR (Handwritten Text Recognition)-model te gebruiken, dat goede resultaten oplevert. Hiervoor is het model voor gedrukt werk uit de 16e t/m de 18e eeuw gebruikt, Roman_type_print (dataset op KB Lab). Met dit model worden automatische transcripties geproduceerd en vervolgens handmatig gecorrigeerd.
Op getypte documenten is de CER (Character Error Rate) van dit model tussen de 13 en 25%. Van alle karakters wordt 75 a 87% automatisch goed herkend. Het Roman_type_print model bevat geen trainingsdata met getypte scans. Dit zijn redelijk goede resultaten, maar niet goed genoeg om documenten full-text te doorzoeken. Daar is een CER tussen de 5 en 8% voor nodig.

3. Trainen nieuw model

Met de gemaakte transcripties, ook wel Ground Truths (GT’s) genoemd, is vervolgens een nieuw model gemaakt. Na wat geëxperimenteer met het trainen van de modellen bleken de beste resultaten te worden behaald door van alle driehonderd GT’s één HTR-model te maken. Het nieuwe model: Typewritten/print_early_1900, scoort fantastische resultaten. Op onze testset van tien scans met getypt materiaal is de CER gemiddeld slechts 1,03%.
Om de vooruitgang te illustreren, zie afbeeldingen 4 & 5. De rode tekst is verkeerd herkend, ongemarkeerde tekst is goed herkend en de groene tekst is handmatig gecorrigeerde tekst.