Bijlage: testresultaten onderzoek

Handreiking WARC-validatie voor webarchiefbestanden

In een onderzoek uitgevoerd door het Nationaal Archief met een testbestand van 23 webarchieven van verschillende grootte, rapporteerden de verschillende validatietools diverse (fout)meldingen over de geteste WARC-bestanden. De onderstaande tabel bevat een overzicht van de meldingen die voorkwamen. En wat die meldingen (volgens ons) betekenen.

JHOVE

Getest: JHOVE-versie 1.22 (van april 2019), met daarin versie 1.0.3 van JWAT-WARC.
Gebruikte toepassing: commandoregel-tool.
Gebruikt commando: jhove –m WARC-kb [bestandsnaam].warc

Melding

Verklaring

Incorrect payload digest, 0F4E929DD5BB2564F7AB9C76338E04E292A42ACE, DA39A3EE5E6B4B0D3255BFEF95601890AFD80709

De in het WARC-record opgeslagen checksum van de payload komt niet overeen met de berekende waarde.

 

‘WARC-Target-URI' value <http://www.website.nl/> Unexpected encapsulating '<' and '>' characters

De WARC-Target-URI bevat onverwachte < en > karakters. Conform de huidige toepassing van de WARC 1.1-specificatie mag dit niet. De 'defacto toepassing' van de WARC 1.0-specificatie maakt ook geen gebruik van deze zogenaamde 'angled brackets'. JHOVE valideert conform de 'defacto toepassing' van de WARC 1.0-specificatie en niet naar de letterlijke specificatie.

JWAT

Getest: JWAT-WARC-versie 1.1.1 (van maart 2018), ingebouwd in de commandoregel-tool JWAT-Tools 0.6.6 (van maart 2018).
Gebruikte toepassing: commandoregel-tool.
Gebruikt commando: jwattools test -i -e [bestandsnaam].warc

Melding

Verklaring

'WARC-Target-URI'

De WARC-Target-URI bevat onverwachte < en > karakters. Zie verder verklaring van dezelfde JHOVE-melding.

Incorrect payload digest

De in het WARC-record opgeslagen checksum van de payload komt niet overeen met de berekende waarde.

WARCAT

Getest: Warcat 2.2.5 (van april 2017).
Gebruikte toepassing: commandoregel-tool.
Gebruikt commando: warcat verify [bestandsnaam].warc

Melding

Verklaring

Warcat.tool.VerifyProblem: ('Bad payload digest.', '5.9', True)

De in het WARC-record opgeslagen checksum, van de payload die aanwezig is of waar naar wordt verwezen, komt niet overeen met de berekende waarde.

Warcat.tool.VerifyProblem: ('Concurrent Record ID <urn:uuid:10399947-52fa-4b4d-bfac-ce1b01c2a22f> not seen yet', None, False)

Het record-ID waar naar verwezen wordt is nog niet voorgekomen in de WARC. Conform de standaard moet een ‘concurrent record-ID’ al voorgekomen zijn in een eerder WARC-record. Wel mag binnen een WARC-bestand naar een WARC-record vooruit verwezen worden.

Warcat.tool.VerifyProblem: ('Duplicate Record ID.', None, True)

Het record-ID is niet uniek (ten opzichte van alle andere record-ID’s in de WARC).

WARCIO

Getest: Warcio 1.7.1 (van juli 2019)
Gebruikte toepassing: commandoregel-tool
Gebruikt commando: warcio check [bestandsnaam].warc

Melding

Verklaring

Digest present but not checked (revisit)

 

Het WARC-record bevat een checksum (digest) van de payload maar deze is niet gecontroleerd, omdat het een 'revisit record' betreft. Het controleren is niet eenvoudig, omdat de inhoud van het record dat opnieuw werd bezocht (revisit) elders staat. Het ‘revisit record’ verwijst hiernaar.

No digest to check

Het WARC-record bevat geen checksum (digest) en kan niet gecontroleerd worden.

Digest present but not checked

Het WARC-record bevat een checksum van de payload, maar die is niet gecontroleerd.

Payload digest failed: sha1:22TRD4UTL6ARBYHUPHEO3BABNW56FYJY

De in het WARC-record opgeslagen checksum van de payload komt niet overeen met de berekende waarde.