16
WARC 1.1 je skoro tady - co přinese nová verze? Mgr. Jaroslav Kvasnica

WARC 1.1 - co přinese nová verze?

Embed Size (px)

Citation preview

Page 1: WARC 1.1 - co přinese nová verze?

WARC 1.1je skoro tady - co přinese nová verze?

Mgr. Jaroslav Kvasnica

Page 2: WARC 1.1 - co přinese nová verze?

Web ARChive (WARC)

• evoluce formátu ARC

• standard ISO 28500:2009

• otevřený formát!

Page 3: WARC 1.1 - co přinese nová verze?

Proces vzniku nové verze

• každý standard by měl projít revizí ideálně každých 5 let

• v roce 2014 ISO odhlasovalo revizi standardu

• dvě pracovní skupiny: IIPC & ISO

Page 4: WARC 1.1 - co přinese nová verze?

Změny v nové verzi

1. Rozšíření normy

2. Oprava chyb

3. Odstranění redundantních částí

4. Úpravy stávajícího znění standardu

Nová verze = pouze “minor update”

Page 5: WARC 1.1 - co přinese nová verze?

Rozšíření: deduplikace

• zefektivnění deduplikace + prostorová deduplikace

WARC-Refers-To-Target-URI

V tomto poli je zapsáno URI záznamu, který je deduplikován.

WARC-Refers-To-Date

V tomto poli by měl být zapsán časový údaj deduplikovaného

záznamu.

Obě pole pouze pro hlavičku “revisit”.

Page 6: WARC 1.1 - co přinese nová verze?

Deduplikace

• funkce, která umožňuje, aby se stejný obsah nemusel opakovaně ukládat

• statický obsah (loga firem, fotogalerie atd.)

• velká úspora místa pro webové archivy

Page 7: WARC 1.1 - co přinese nová verze?

Rozšíření: timestamps

• větší variabilita pro zápis časového údaje:

• 2007-11-02T15:20:44Z

• 2007-11

• 2007-11-02T15:20:44.5Z

• 2007-11-02T15:20:44.23453Z

Page 8: WARC 1.1 - co přinese nová verze?

příklady:

WARC-Target-URI: http://example.com

text standardu:

WARC-Target-URI: <http://example.com>

Oprava: text standardu vs. příklady

Page 9: WARC 1.1 - co přinese nová verze?

Odstranění: definice MIME type

• definice MIME type v ISO standardu bude odstraněna

• nově v registru MIME, který spravuje AINA

• pouze formální změna

• application/warc, application/warc-fields

Page 10: WARC 1.1 - co přinese nová verze?

Odstranění: názvová konvence

• prefix “iipc_” pro členy konsorcia bude odstraněn

• neujalo se v praxi

Page 11: WARC 1.1 - co přinese nová verze?

Úpravy znění

1. vytváření vlastních názvových polí je možné, ale je doporučené to konzultovat s IIPC

2. standard využívají i jiné instituce než webové archivy

3. zaznamenání https není součástí standardu

Page 12: WARC 1.1 - co přinese nová verze?

Úpravy znění

4. v hlavičce “warcinfo” je nyní možné uvést použitý algoritmus u kontrolního součtu

WARC-Block-Digest: sha1:AB2CD3EF4GH5IJ6KL7MN8OPQ

WARC-Block-Digest: sha1_Base32:AB2CD3EF4GH5IJ6KL7MN8OPQ

Page 13: WARC 1.1 - co přinese nová verze?

Co bude dál?

Hlasování končí 22. listopadu a hlasují jen zúčastněné země.V4: jen Maďarsko.

Page 14: WARC 1.1 - co přinese nová verze?

• 100 % ano -> formát vstoupí v platnost

• po redakčních úpravách bude vydána nová verze standardu

• v případě negativního výsledku:

• další kolo připomínek, další hlasování

• hypotetická možnost úplného zrušení revize

Page 15: WARC 1.1 - co přinese nová verze?

Co to bude znamenat v praxi?

• změny budou reflektovány v základních nástrojích

• již se na tom pracuje -> Heritrix, openWayback

• nutnost opravit vlastní nástroje (?)

• zpětná kompatibilita !