In een onderzoek uitgevoerd door het Nationaal Archief met een testbestand van 23 webarchieven van verschillende grootte, rapporteerden de verschillende validatietools diverse (fout)meldingen over de geteste WARC-bestanden. De onderstaande tabel bevat een overzicht van de meldingen die voorkwamen. En wat die meldingen (volgens ons) betekenen.
JHOVE
Getest: JHOVE-versie 1.22 (van april 2019), met daarin versie 1.0.3 van JWAT-WARC.
Gebruikte toepassing: commandoregel-tool.
Gebruikt commando: jhove –m WARC-kb [bestandsnaam].warc
Melding |
Verklaring |
---|---|
Incorrect payload digest, 0F4E929DD5BB2564F7AB9C76338E04E292A42ACE, DA39A3EE5E6B4B0D3255BFEF95601890AFD80709 |
De in het WARC-record opgeslagen checksum van de payload komt niet overeen met de berekende waarde.
|
‘WARC-Target-URI' value <http://www.website.nl/> Unexpected encapsulating '<' and '>' characters |
De WARC-Target-URI bevat onverwachte < en > karakters. Conform de huidige toepassing van de WARC 1.1-specificatie mag dit niet. De 'defacto toepassing' van de WARC 1.0-specificatie maakt ook geen gebruik van deze zogenaamde 'angled brackets'. JHOVE valideert conform de 'defacto toepassing' van de WARC 1.0-specificatie en niet naar de letterlijke specificatie. |
JWAT
Getest: JWAT-WARC-versie 1.1.1 (van maart 2018), ingebouwd in de commandoregel-tool JWAT-Tools 0.6.6 (van maart 2018).
Gebruikte toepassing: commandoregel-tool.
Gebruikt commando: jwattools test -i -e [bestandsnaam].warc
Melding |
Verklaring |
---|---|
'WARC-Target-URI' |
De WARC-Target-URI bevat onverwachte < en > karakters. Zie verder verklaring van dezelfde JHOVE-melding. |
Incorrect payload digest |
De in het WARC-record opgeslagen checksum van de payload komt niet overeen met de berekende waarde. |
WARCAT
Getest: Warcat 2.2.5 (van april 2017).
Gebruikte toepassing: commandoregel-tool.
Gebruikt commando: warcat verify [bestandsnaam].warc
Melding |
Verklaring |
---|---|
Warcat.tool.VerifyProblem: ('Bad payload digest.', '5.9', True) |
De in het WARC-record opgeslagen checksum, van de payload die aanwezig is of waar naar wordt verwezen, komt niet overeen met de berekende waarde. |
Warcat.tool.VerifyProblem: ('Concurrent Record ID <urn:uuid:10399947-52fa-4b4d-bfac-ce1b01c2a22f> not seen yet', None, False) |
Het record-ID waar naar verwezen wordt is nog niet voorgekomen in de WARC. Conform de standaard moet een ‘concurrent record-ID’ al voorgekomen zijn in een eerder WARC-record. Wel mag binnen een WARC-bestand naar een WARC-record vooruit verwezen worden. |
Warcat.tool.VerifyProblem: ('Duplicate Record ID.', None, True) |
Het record-ID is niet uniek (ten opzichte van alle andere record-ID’s in de WARC). |
WARCIO
Getest: Warcio 1.7.1 (van juli 2019)
Gebruikte toepassing: commandoregel-tool
Gebruikt commando: warcio check [bestandsnaam].warc
Melding |
Verklaring |
---|---|
Digest present but not checked (revisit)
|
Het WARC-record bevat een checksum (digest) van de payload maar deze is niet gecontroleerd, omdat het een 'revisit record' betreft. Het controleren is niet eenvoudig, omdat de inhoud van het record dat opnieuw werd bezocht (revisit) elders staat. Het ‘revisit record’ verwijst hiernaar. |
No digest to check |
Het WARC-record bevat geen checksum (digest) en kan niet gecontroleerd worden. |
Digest present but not checked |
Het WARC-record bevat een checksum van de payload, maar die is niet gecontroleerd. |
Payload digest failed: sha1:22TRD4UTL6ARBYHUPHEO3BABNW56FYJY |
De in het WARC-record opgeslagen checksum van de payload komt niet overeen met de berekende waarde. |