25
網站典藏的現況與發展 陳光華 Kuang-hua Chen 臺灣大學圖書館,臺灣大學圖書資訊學系 www.lis.ntu.edu.tw/~khchen/ [email protected] 工作團隊:陳彥良、阮紹薇、廖偉辰 2009-03-31 2/49 大綱 Introduction Activities of Web Archiving NTUWAS Development of NTUWAS Challenges and Difficulties Conclusions

網站典藏的現況與發展 - moodle.lips.twmoodle.lips.tw/~tcasist/activities/2009/20090523WebArchiving.pdf2009-03-31 7/49 Internet Archive Internet Archive總部位於美國舊金山

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

  • 網站典藏的現況與發展

    陳光華 Kuang-hua Chen臺灣大學圖書館,臺灣大學圖書資訊學系

    www.lis.ntu.edu.tw/~khchen/[email protected]

    工作團隊:陳彥良、阮紹薇、廖偉辰

    2009-03-31 2/49

    大綱

    IntroductionActivities of Web ArchivingNTUWAS

    Development of NTUWAS Challenges and Difficulties Conclusions

  • 2009-03-31 3/49

    網站典藏

    昔日實體文獻的典藏,是圖書館的重要任務之一,且訂定具有特色的館藏發展政策

    隨著網際網路時代的崛起,網路資訊流通地非常快速,網際網路訊息或資源的生命其實是很短暫的,網路資訊的保存卻成為亟待處理的問題

    根據調查,平均一個網站的生命週期大概只有44天(Library of Congress, 2003),重要的資訊,可能就因為時間的更迭而從此消逝

    典藏具有價值的網站及網路文獻,成為大學圖書館必須積極承擔的責任,網站典藏應是數位典藏的一環,同時也屬於館藏發展的範疇

    2009-03-31 4/49

    網站典藏的現況

    Internet Archive 美國 WAS 新加坡

    LCWA 美國 GCWA 加拿大

    PANDORA 澳洲 European Archive 歐洲

    UKWAC 英國 netarchive 丹麥

    WARP 日本 Tomba 葡萄牙

    Web Infomall 大陸 NTUWAS 臺灣

    OASIA 韓國 WAT 臺灣

  • 2009-03-31 5/49

    美國:LCWA

    The Library of Congress Web Archives 美國國會圖書館數位典藏計劃中的一個分項計畫,其有

    主題性的深入蒐集美國網站資料,在完整蒐集主題相關的網站後,並進行細緻的分類 以選舉主題的網站為例,又細分為候選人、政府、政黨、

    民意等等,目前正在蒐集911事件網站、2002 年冬季奧林匹克運動會、伊拉克戰爭

    對於網站內容,MINERVA盡可能複製一份存檔,使用的網頁蒐集工具為Heritrix

    完整收錄網站上的HTML網頁、圖片、PDF、Flash、聲音、影像檔

    截至2007年5月,已收錄超過36,000個網站,超過70TB的資料(Library of Congress, 2007)

    截至2009年2月,已收錄超過95TB

    2009-03-31 6/49

    LCWA: Minerva

  • 2009-03-31 7/49

    Internet Archive

    Internet Archive總部位於美國舊金山 Internet Archive計畫的一部分工作是廣泛地蒐集網際網路上各種類型的網站,其目標是想成為獨一無二的網站圖書館

    Internet Archive的Wayback Machine功能比較陽春,目前只提供介於兩個日期間的網址檢索功能,不支援關鍵字檢索或是全文檢索功能

    Wayback Machine從1996年開始已蒐集了將近850億頁,200TB的資料,但蒐集與審核較不嚴謹,有些網站也不見得可以瀏覽

    2009-03-31 8/49

  • 2009-03-31 9/49

    加拿大:GCWA

    Government of Canada Web Archive從2005年12月開始,為了保存的目的,加拿大圖書暨檔案館(Library and Archives Canada, LAC)開始搜集具代表性的加拿大網站

    使用者可以透過關鍵字、政府部門名稱、網址列檢索網站

    2009-03-31 10/49

  • 2009-03-31 11/49

    歐洲:European Archive

    歐洲檔案組織是一個設立於阿姆斯特丹與巴黎的非營利組織,透過與圖書館、博物館、政黨與政府等機構合作,蒐集並保存網路上的資源

    網站是其中一項典藏,除此之外,還包括影像、聲音等數位影像檔案的典藏

    目前的檢索功能只提供影像與聲音檔案的檢索,網站的部份只提供瀏覽的功能

    2009-03-31 12/49

  • 2009-03-31 13/49

    英國:UKWAC

    UK Web Archiving Consortium於2004年6月成立 British Library、The National Archives、National Library

    of Wales、National Library of Scotland、JISC、Wellcome Trust等六個機構合作

    由2005年開始選擇性地收錄英國相關的網站,上述之機構可以訂定自己的典藏政策,各有其收藏的主題 Wellcome Library專著於醫學的網站 British Library專注於文化歷史或重大政治議題 National Library of Wales則蒐集能夠反應現代Wales生活的

    相關網站

    UKWAC收錄網站前會徵求網站擁有者的同意

    2009-03-31 14/49

  • 2009-03-31 15/49

    丹麥:netarchive

    丹麥阿爾路斯(Aarhus)大學圖書館與丹麥皇家圖書館(The Royal Library)於2005年開始合作的計劃,主要是為了蒐集以保存與丹麥相關的網站

    目前,此一計劃並不打算對外開放讓公眾搜尋,主要是專注在保存的工作上

    2009-03-31 16/49

  • 2009-03-31 17/49

    葡萄牙:Tomba

    Portuguese web archive葡萄牙里斯本大學資訊科學系研發的系統,主要目的是為了典藏與保存葡萄牙的網站

    入口頁面類似著名的搜尋網站Google,但系統功能比較陽春,目前只提供網址檢索功能

    2009-03-31 18/49

  • 2009-03-31 19/49

    澳洲:PANDORA

    1996年成立,最初由澳洲國家圖書館投入發展,目前則是與澳洲九所大學院校共同開發系統功能,並建立一套名為PANDAS的管理系統

    主要蒐集澳洲的網站,包含社會、政治、文化、宗教、科學、經濟等議題相關的網站

    共分成十八大類典藏主題,清楚的分門別類,並依照英文字母予以排序,提供使用者檢索

    2009-03-31 20/49

  • 2009-03-31 21/49

    日本:WARP

    Web ARchiving Project 日本國會圖書館負責研發,2002年開始實驗性質的開

    辦,於2006年計畫臻於成熟 WARP已經收錄三千多個網站,所有上傳的網站都有詳

    細的審核和授權機制

    一年一次下載完整網站,主要收藏中央/地方政府、公營/法人/大學網站、特殊重要主題的網站

    網站目錄除依照網站特質分類,也依照圖書館分類法分類,亦提供關鍵字與全文檢索功能

    WARP已著手留意已經消失機構或網站,並於首頁提供連結

    2009-03-31 22/49

  • 2009-03-31 23/49

    韓國:OASIS

    Online Archiving & Searching Internet Sources 韓國數位圖書館五項子計劃中的一項

    韓國國家圖書館為了典藏與保存網路時代的資源,於2001年開始嘗試發展的計劃,並於2004年2月正式營運

    OASIS提供多樣化的檢索方式,使用者除了可以用全文、網址檢索外,也有類別瀏覽的功能

    OASIS為每一筆資料提供詳細的編目 截至2009年3月,共計257 Websites

    2009-03-31 24/49

  • 2009-03-31 25/49

    新加坡:WAS

    Web archive Singapore新加坡國立圖書館建置的計劃

    網站共分成十一大類典藏主題,搜集大約1000個以上與新加坡相關的網站

    WAS針對網站提供詳細的編目使用者可以瀏覽或檢索典藏的網站,檢索功能採用Google

    2009-03-31 26/49

  • 2009-03-31 27/49

    大陸:Web Infomall

    北京大學網絡實驗室負責,每月平均以4,500萬個網頁的速度擴展,截至2007年6月,已經有25億頁以中文為主的網頁

    除了蒐集網站,亦建置主題性的網站典藏

    除了自行設定典藏範圍外,也允許有意將網站網頁永久典藏的機構申請網站的上傳

    目前Web Infomall系統僅提供網址的搜尋,必須輸入完整網址才能尋找到網站資料,對使用者較為不方便

    2009-03-31 28/49

  • 2009-03-31 29/49

    2009-03-31 30/49

    臺灣大學圖書館的數位資源服務

    National Taiwan University Library provides multiple digital resources, including Digital Library of Buddhist Studies, Institutional Repository, and NTUWAS.

  • 2009-03-31 31/49

    臺灣大學網站典藏庫 NTUWAS

    National Taiwan University Web Archiving System – preserve the past.

    Until Mar 12, 2009, NTUWAS has archived 4,259 websites 10,251 collections 8.8 TB

    2009-03-31 32/49

    大綱

    Introduction Development of NTUWAS

    User’s Environment Collection and Classification Scheme Search Features Recommendation Features Management System

    Challenges and Difficulties Conclusions

  • 2009-03-31 33/49

    使用者介面與系統功能 (1/3)

    (1)

    (2)

    (3)

    (4)

    (5)

    (6)

    (7)

    2009-03-31 34/49

  • 2009-03-31 35/49

    使用者介面與系統功能 (2/3)(1)

    (2) (3)

    2009-03-31 36/49

    使用者介面與系統功能 (3/3)

    Archived Dates

    Metadata

  • 2009-03-31 37/49

    時光迴廊

    Running pictures show the different layouts of the website in different dates.

    Users will perceive this website in a historical feeling.

    2009-03-31 38/49

    網站特色與分類

    Based on the from-inner-to-outerperspectives

    Archive NTU=> Archive [Taiwan]=> Archive [Chinese websites] => Archive [World]

    分類體系

    National Taiwan University Ethnic Groups

    Government Agencies

    Economic and Technology

    Academic and Education Incidents

    Arts and Cultures People

    PoliticsNon-

    governmental Organizations

  • 2009-03-31 39/49

    分類體系的呈現

    CategoriesResearch Issues .well-known issues

    Three-level hierarchy

    Significant Events .well-concerned events

    2009-03-31 40/49

    網站檢索功能

    Metadata SearchBasic Searc

    h

    Advanced Sea

    rch

    Full-text Search

  • 2009-03-31 41/49

    讀者推薦功能

    Evaluating

    Testing

    Success

    2009-03-31 42/49

    NTUWAS管理模組功能

    Maintain Websites and Categories

    Schedule Harvestings Process

    Recommendations Register Statistics

  • 2009-03-31 43/49

    網站收割排程

    定期收割

    For websites changed frequently

    立即收割

    For websites changed unpredictably

    預設收割

    For known events

    NTUWAS

    Metadata Database Website Repository

    Websites and Classes Maintenance

    Harvesting List

    Initiate AutoTrack to

    generate harvesting list

    Initiate HTTrack to harvest websites.

    Management System

    Users’ Environment

    2009-03-31 44/49

    推薦處理流程

    Step 1: Examine Recommendations

    Step 3: Verify Recommendations

    Open to General Publics

    Success

    Recommendations

    Fail Target Websites

    Step 2: Harvest Recommendations

    Recommended Websites

    Evaluating

    Testing

    Success

  • 2009-03-31 45/49

    大綱

    Introduction Development of NTUWAS Challenges and Difficulties

    Quality of Archived Websites Policies and Strategies Allocation of System Resources Cooperation of Different Professionals

    Conclusions

    2009-03-31 46/49

    網站的品質

    HTTrack is difficult to analyze FLASH files. Internal files are crawled, but external files are not. Frequent change of websites’ URLs.

  • 2009-03-31 47/49

    挑戰

    Policies and Strategies How to decide the target websites? How to catalogue the archived websites?

    Allocation of System Resources Main system and web crawler will disturb each other in the same

    computer system. Harvesting websites with unnecessary frequency wastes disc

    space. Cooperation of Different Professionals

    How to coordinate the librarians and the technicians?

    2009-03-31 48/49

    大綱

    Introduction Development of NTUWAS Challenges and Difficulties Conclusions

  • 2009-03-31 49/49

    結論

    Websites are transient. Websites should be regarded as the collections of libraries. Each library should establish its own guidelines and strategies

    for web archiving. NTUWAS hopes the other libraries in Taiwan could join

    archiving Taiwan together.