23
22-06-07 1 Sidnumme r Nätet och nyheterna : Om insamling och bevarande av webbtidningar Pär Nilsson / Kungliga biblioteket @selanna / @kungbib [email protected] www.kb.se

Nätet och nyheterna

Embed Size (px)

DESCRIPTION

Session vid WebCoast 2012.

Citation preview

Page 1: Nätet och nyheterna

23-04-10

1Sidnummer

Nätet och nyheterna :

Om insamling och

bevarande av

webbtidningar

Pär Nilsson / Kungliga biblioteket@selanna / @kungbib

[email protected]

Page 2: Nätet och nyheterna

23-04-10

2Sidnummer

Kungliga biblioteket - historia och mål

• Sveriges nationalbibliotek och statlig myndighet – kungligt från 1500-1877

• Stockholm: Humlegården, över och under jord – och Karlavägen

• Bålsta: Statens biblioteksdepå – blandannat 122 miljoner sidor dagstidningar

• Strängnäs: Roggebiblioteket – stifts- och läroverksbibliotek och bokbinderi

• Samlar, bevarar och lånar ut allt svenskt tryck, ljud och rörlig bild

• KB:s uppdrag: att bevara för samtida och framtida forskning.

Page 3: Nätet och nyheterna

23-04-10

3Sidnummer

Pliktleveranser av tryck, ljud och rörlig bild

• Lagen om leveransplikt från 1661 – från kontroll till forskning.

• Tryckt material till KB och 6 universitetsbibliotek: böcker, tidskrifter, dagstidningar, kartor, noter, reklam, medlemsblad, instruktionsböcker, broschyrer med mera.

• Etermedia, film, video och fonogram som sprids till svensk allmänhet till KB.

• Digitalt material endast om det getts ut på fysisk bärare (diskett, CD)

www.kb.se/plikt/

Page 4: Nätet och nyheterna

23-04-10

4Sidnummer

Dagstidningar - tryck, mikrofilm, digitaliserat

• Alla nuvarande svenska dagstidningar (cirka 200), inklusive alla editioner, bilagor och löpsedlar. Sammanlagt cirka 2 miljoner sidor per år.

• Mikrofilmning (i svartvitt!) av allt unikt innehåll sedan 1979 och en stor del av den svenska pressen även tidigare. 70 av 122 miljoner sidor på mikrofilm.

• Digitalisering av 2-3 miljoner sidor (Aftonbladet 1830-2010 och Svenska dagbladet 1884-2010) i projekt med EU-stöd och samarbete med Riksarkivet. Webbpublicering av det som är upphovsrättsligt fritt (t.o.m.1850).

Page 5: Nätet och nyheterna

23-04-10

5Sidnummer

Webben i backspegeln

• CERN:s tillkännagivande att World Wide Web skulle vara fritt för alla – 30 april 1993

• NCSA Mosaic – 10 september 1993

• Aftonbladet som första svenska dagstidningen på webben – 25 augusti 1994

• Första insamlingen av Aftonbladet hos Internet Archive – 23 oktober 1996

• Första insamlingen av Aftonbladet i KB:s webbinsamling Kulturarw3 – 1997

Page 6: Nätet och nyheterna

23-04-10

6Sidnummer

Insamling och arkivering av webben

• The Internet Archive 1996

• Pandoraprojektet (Australien) oktober 1996

• Kulturarw3-projektet på Kungliga biblioteket sommaren 1997

• Kungliga biblioteket medlem av International Internet Preservation Consortium (IIPC) sedan 2003

(www.kb.se/om/projekt/Svenska-webbsidor---Kulturarw3/)

Page 7: Nätet och nyheterna

23-04-10

7Sidnummer

”Kungl. bibliotekets digitala kulturarvsprojekt”

• Den svenska webbinsamlingen (Kulturarw3) reglerad i förordning sen maj 2002

• Förordningen tillåter KB att “med hjälp av automatiserad robotteknik samla in, bevara och tillhandahålla det nationella digitala kulturarvet i form av det svenska material som publiceras på Internet”.

• Förordningen gäller “material som går att hänföra till Sverige genom sådan anknytning som adress, adressat, språk, upphovsman eller avsändare.”

• "Personuppgifter får behandlas i projektet för att tillgodose behovet av forskning och information", även när det gäller ras eller etniskt ursprung, politiska åsikter, religiös eller filosofisk övertygelse, medlemskap i fackförening och uppgifter som rör hälsa eller sexualliv.

(www.riksdagen.se/webbnav/index.aspx?nid=3911&bet=2002:287)

Page 8: Nätet och nyheterna

23-04-10

8Sidnummer

Vad har samlats in och hur?

Vad?

• Alla svenska webbplatser sedan 1997 – 1-3 gånger per år

• Cirka 140 svenska dagstidningars webbplatser på daglig basis sedan 2004

• 1,7 miljarder objekt och 1,5 petabyte data

Hur?

• Helt automatiserad robotinsamling utan manuella kontroller

• Ett begränsat antal objekt per webbplats

• Ett begränsat djup i insamlingen per webbplats

Page 9: Nätet och nyheterna

23-04-10

9Sidnummer

Resultat av Kulturarw3 för dagstidningarna

• En omfattande samling som täcker stora och små tidningar

• Snapshots vid tidpunkten för insamlingen

• Ofta ofullständiga sidor där stilmallar och bilder saknas

• En hel del av överflödigt material, upprepat från dag till dag

• De arkiverade sidorna innehåller ibland länkar till reklam som inte har samlats in och i stället visas nuvarande annonser

Page 10: Nätet och nyheterna

23-04-10

10Sidnummer

Tillgång till materialet i Kulturarw3

• Två allmänt tillgängliga datorer på biblioteket, utan anslutning till Internet.

• Kopiering av arkiverade sidor är inte tillåtet, men utskrift är OK.

• Inga sökfunktion för sidorna, men åtkomst genom URL till sidor och länkar som presenteras i resultatet, med en länk för varje gång sidan arkiveras. Dagstidningars webbplatser förtecknas separat

• Arkiverade webbsidor lagras på band och hämtas till disk på begäran, vilket tar cirka två minuter.

Page 11: Nätet och nyheterna

23-04-10

11Sidnummer

Fyra scenarier för webbarkivering

• The "Nirvana" Scenario

• The "Apocalypse" Scenario

• The "Singularity" Scenario

• The "Dusty Archive" Scenario

Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder

30 juni 2011 - Oxford Internet Institute, University of Oxford

(netpreserve.org/publications/2011_06_IIPC_WebArchives-TheFutures.pdf)

Page 12: Nätet och nyheterna

23-04-10

12Sidnummer

The ”Nirvana” scenario

“… web archives would be at once robust, standardized, and securely preserved while at the same time, open, flexible, widely used, and part of the standard research toolkit in Internet science, political science, economics, sociology, contemporary history (and, in the future, history of the late 20th and early 21st century), journalism, linguistics, communications, business, media studies, and other disciplines …

usable and useful for the general public, governments, policy units and think tanks, businesses, and non-governmental organizations.”

Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder

Page 13: Nätet och nyheterna

23-04-10

13Sidnummer

The ”Apocalypse” scenario

“The vast amount of information being created globally today may just as well have been written on scraps of paper storied in a billion shoeboxes, for all the good it will do towards understanding developments in the world as reflected by the content on the Internet.”

Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder

Page 14: Nätet och nyheterna

23-04-10

14Sidnummer

The ”Singularity” scenario

"a world in which human and machine intelligence become inextricably inter-twined, and the boundary between them diffuse. In such a world, it is not even clear what “archiving” could possibly mean, so as time goes forward, the past is inevitably and irretrievably lost. "

Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder

Page 15: Nätet och nyheterna

23-04-10

15Sidnummer

The "Dusty Archive" Scenario

“often well-curated and maintained, but hardly used.

Even though the web archiving community continues to develop standards and practices for preserving portions of the Internet, few really impressive uses emerge from the research community.

Pages may be individually consulted via online tools, and some researchers will continue to build small archives for particular research topics, but Internet research will continue to focus primarily on the live web, and little interest will develop in using the past web for serious research any time in the near future.”

Web Archives: The Future(s) / Eric T. Meyer, Arthur Thomas, Ralph Schroeder

Page 16: Nätet och nyheterna

23-04-10

16Sidnummer

E-plikt - vad är det?

Elektroniskt material som:

• är av avslutad och permanent karaktär, formuleras: ”en avgränsad enhet av elektroniskt material med text, ljud eller bild som har ett på förhand bestämt innehåll som är avsett att presenteras vid varje användning”

• gjorts tillgängligt för allmänheten genom överföring via nätverk

• riktar sig till allmänheten i Sverige eller till personer som förstår svenska språket eller om materialet har en svensk upphovsman

Page 17: Nätet och nyheterna

23-04-10

17Sidnummer

E-plikt – vad ska levereras?

• Artiklar (reportage, krönikor, debattartiklar, bloggposter, recensioner)

• Egenpublicerade annonser

• Broschyrer, vägledningar, guider

• Egenproducerad rörlig bild (webb-tv, videoklipp)

• Webbradio

• Poddradio

• Bilder

Page 18: Nätet och nyheterna

23-04-10

18Sidnummer

E-plikt - vad ska inte levereras?

• Hela webbsidor, hela databaser

• Programkod som bygger upp databaser

• Direktsändning

• Material som förs fortlöpande (t.ex. wikiwebbplats som uppdateras av vem som helst)

• Krönikor som är identiska med den i den tryckta versionen av dagstidningen

• Seminarieinbjudan

• Innehåll på intranät eller andra slutna nätverk

• Privatpublicerade bilder, musik, filmer, bloggar och kommentarer

• Kalendarier, tablåer

• Artiklar utgivna av nyhetsbyråer

• Reklamfilm/text som inleder egenproducerat tv-inslag

Page 19: Nätet och nyheterna

23-04-10

19Sidnummer

Vad kommer e-plikten att ge?

Metadata

<vem>SVD</vem>

<när>2010-05-24</när>

Etc

Metadata

<vem>Försäkringskassan</vem>

<när>2010-05-24</när>

Etc

Page 20: Nätet och nyheterna

23-04-10

20Sidnummer

Metoder för leverans av e-pliktmaterial

• Fysisk bärare– Leverans av pliktmaterial ska enligt lagförslaget ske via fysisk bärare – KB kommer att föreskriva att USB-minne ska användas för detta ändamål

• Nätverk– KB kommer att tillhandahålla leverans via nätverk– Ger möjlighet att automatisera inleverans– Olika metoder, leverantören väljer det som passar bäst utifrån karaktären

på materialet– KB tillhandahåller specifikationer och genomför testleveranser i samarbete

med leverantören

Page 21: Nätet och nyheterna

23-04-10

21Sidnummer

Leverans av e-pliktmaterial via nätverk

• FTP – Metadata samt filresurser förs över via ftp– Möjligt med flera ftp-kanaler för en och samma leverantör– Automatiserat, eller manuellt, flöde hos leverantören

• RSS– RSS 2.0 med tillägg av vissa element från MediaRSS och DCMI Metadata

Terms (Dublin Core) – Möjligt med flera RSS-flöden för en och samma leverantör– Helt automatiserat flöde för leverantören– KB läser med lämpligt intervall RSS-flöden och hämtar pliktmaterial

• Webbgränssnitt– Manuell uppladdning av filresurser via webbgränssnitt– Metadata anges i formulär, alternativt bifogas som fil– Lämpligt för leverantörer med liten mängd material

Page 22: Nätet och nyheterna

23-04-10

22Sidnummer

Vad kan bevaras av nätets nyheter?

Via robotinsamlingen:

• Helheten, så gott det går

• Utseendet

• En ögonblicksbild

Via e-plikten:

• Delarna, så gott det går

• Ren information, i text, bild, ljud eller video

• En nyhets utveckling över dygnet

Page 23: Nätet och nyheterna

23-04-10

23Sidnummer

Hur bevara nyheterna på nätet?

• Fortsatt dagliga insamling med mer kontroll över vad vi får

• Bättre kontroll över stilmallar etc för att bevara layout

• Möjligen insamling en gång per månad till ett större djup

• Styrd insamling så att viktiga nyheter fångas i sitt sammanhang

• E-pliktleveranser som representerar tidslinjen för en nyhet

• Nytt gränssnitt och indexering för att söka i arkivet och se tidslinjer

• Och - i Nirvana - inte bara bitar av papper i en skokartong, men en sömlös integration av robotinsamlat material och e-pliktmaterial