第九章網際網路資料探勘

1

第九章網際網路資料探勘

2

內容概要簡介網頁結構探勘 (Web Structure Mining) 網頁內容探勘 (Web Content Mining) 網頁使用行為探勘 (Web Usage Mining) 總結

3

簡介 (1) 網際網路資料探勘的目的是要從網際網路中發掘並且分析出有用的資訊，主要的探勘類型分為三大類：

網頁結構探勘 (Web structure mining) 網頁內容探勘 (Web content mining) 網頁使用行為探勘 (Web usage mining) 。

4

簡介 (2)

網頁結構探勘主要是著重在網頁連結架構的分析，藉此發掘出更多有意義的網頁。網頁內容探勘的目的是從本文 (text) 、影像

(image) 、多媒體 (multimedia) 以及其它組成網頁內容的物件中發掘有意義的資訊。網頁使用行為探勘是應用資料探勘的技術來發掘使用者經常存取的網頁樣式。

藉由分析使用者瀏覽網頁的記錄，可以了解使用者的瀏覽行為，進而提供更好的客製化服務。

5


6

網頁結構探勘 (1) 在超連結的網路環境中，網頁結構隱含著許多豐富的資訊來源。

藉由發掘網頁連結架構中的資訊，能夠更清楚地了解網頁之間的關係，進而發掘出在某些主題上最具 “權威性”的網頁 (authoritative homepage) 。例如，考慮查詢： “尋找有關資料探勘的資訊”。

和這個查詢相關的網頁可能多到讓人難以處理。為了提供使用者一個正確有用的查詢結果，我們必須要能夠從大量的相關網頁中，過濾出少數最具 “權威性” 的網頁。

7

網頁結構探勘 (2) 一個有趣的例子是 “尋找主要的 WWW 搜尋引擎的首頁”。

直覺地，我們會使用 “搜尋引擎” 來查詢，但是許多具權威性的搜尋引擎並不包含關鍵字 “搜尋引擎” 。因此我們很難用一種客觀的方式來評估網頁的權威性。

超連結的建立基本上包含了大量潛在的人為判斷，而這種判斷對於 “權威” (authority) 的授予是非常重要的。例如，在網頁 p建立一個連結到網頁 q，在意義上代表q被授予某種權威。當某個網頁被愈多其它的網頁連結時，則代表這個網頁的重要性愈高。

8

Kleinberg 的方法 (1) Kleinberg 提出一個以連結為基礎的模式來決定具有權威性的網頁。一個連結到許多相關權威性頁面的網頁則被稱為 “聚集中心”網頁 (hub homepage) 。網頁和超連結構成一個有向圖 (directed graph) G

= (V, E) ，其中，頂點 (vertex) 代表網頁，邊 (edge) 表示超連結。有向邊 (a,b) E的意思是網頁 a連結至網頁 b。頂點 a的出分支度 (out-degree) 代表從頂點 a連結出去的邊的個數。頂點 a的入分支度 (in-degree) 則代表連結至頂點 a的邊的個數。

9

使用有向圖來表示網頁之間的連結關係首頁A

首頁B

首頁C

A2

A1

A3

B1

B2

C1

C2

C3

10

Kleinberg 的方法 (2) 假設使用者使用字串 s 來進行查詢。令 Qs是所有包含關鍵字 s 的網頁所成的集合。有兩個問題必須特別留意：

Qs可能包含上百萬個網頁，因此後續的處理時間勢必非常冗長。大多數具權威性的網頁可能不包含在 Qs中。

理想上我們真正所要尋找的網頁集合 Cs應該具備下列條件：條件 (1) ： Cs的大小要在合理的範圍之內。條件 (2) ： Cs中的網頁要具備高度的相關性。條件 (3) ： Cs要包含大多數具高度權威性的網頁。

11

Kleinberg 的方法 (3) 如何找到 Cs呢？

首先，利用某一個搜尋引擎找出前 p個和查詢字串相關的網頁。這 p個網頁被稱之為 “根網頁群” (root set) ，以 Rs來表示。根網頁群 Rs滿足上述條件 (1) 和 (2) ，但是可能不滿足條件 (3) 。具有高度權威性的網頁可能不被包含在 Rs，但是有極高的可能性它至少會被 Rs中某一個網頁利用超連結指向它。所以，我們可以將指向 Rs的網頁和由 Rs指向的網頁加入 Cs，以增加 Cs中高度權威性網頁的個數。在這裡有一個限制：在 Rs中的任何一個網頁 h，最多只能將q個指向它的網頁加入 Cs。這個限制的目的是為了控制 Cs的大小在一個合理的範圍內。擴充後的 Cs稱之為關鍵字 s的 “基底網頁群” (base set) 。

12

擴充根網頁群成為基底網頁群基底網頁群

根網頁群

13

產生基底網頁群的演算法輸入 : s: 查詢關鍵字； p, q: 自然數；步驟 1 ： Rs = 使用某一個搜尋引擎所找出來的前 p 個和查詢關鍵字相關的網頁；步驟 2 ： Cs = Rs；步驟 3 ： for each 網頁 hRs do begin步驟 4 ： Out(h) = h 直接連結到的網頁所成的集合；步驟 5 ： In(h) = 直接連結到 h 的網頁所成的集合；步驟 6 ：將 Out(h) 所有網頁加入 Cs中；步驟 7 ： if | In(h)| q then步驟 8 ：將 In(h) 所有網頁加入 Cs中；步驟 9 ： else 從 In(h) 任選 q 個網頁加入 Cs中；步驟 10 ： end步驟 11 ： return Cs

14

Kleinberg 的方法 (4) 令 Gs為基底網頁群所構成的圖形。一個尋找權威性網頁的簡單方法是將 Gs所包含的網頁根據它們的入分支度做排序，入分支度愈高者表示它的權威性愈高。使用入分支度排序的方法在某些情況可以得到不錯的結果，但是這種方法仍存在一些問題。例如，輸入 “書籍線上購物” 進行查詢時，若以入分支度來決定權威性，“ PChome 線上購物” 網站可能具有最高的入分支度，但是和我們所想要的專業書商的網站仍有一段距離。

這是因為 “ PChome 線上購物” 是一個普遍受歡迎的網站，因此許多購物網站也會將它加入超連結，而造成它的入分支度非常的高。

15

Kleinberg 的方法 (5)

與查詢相關的權威性網頁不應該只以入分支度的大小來衡量。同一個主題的權威性網頁，對於連結到它們的網頁應該有極高的比例是相同的。

也就是說，聚集中心網頁應該會同時連結到這些相關的權威性網頁。

16

聚集中心網頁、權威性網頁和受歡迎的網頁之間的關係

17


聚集中心網頁和權威性網頁彼此之間有相互加強的關係。一個好的聚集中心網頁會連結到許多好的權威性網頁。同樣地，一個好的權威性網頁會被許多好的聚集中心網頁所連結。

18


對於每一個網頁 p ，它有一個非負值的 “權威” 權值 (authority weight) xp 和一個非負值的 “聚集中心” 權值 (hub weight) yp。每一種型態的網頁權值經過標準化的動作之後必須滿足平方和等於 1 的條件：和，其中 Cs是 Gs所包含的網頁所成的集合。具有較大 x值和 y值的網頁將分別被視為是較佳的權威性網頁和聚集中心網頁。

12 Csp

px

12 Csp

py

19

Kleinberg 的方法 (8) 聚集中心網頁和權威性網頁之間有相互增強的關係。

若 p連結到許多具有較大 x值的網頁，則它應該有一個較大的 y值。同樣地，若 p被許多具有較大 y值的網頁所連結，則它應該有一個較大的 x值。

Kleinberg 的運算更新 x值的方式如下：其中 E 是 Gs中所有邊的集合。 Kleinberg 的運算更新 y值的方式如下：

Epqqp yx

),(

Eqpqp xy

),(

20

Kleinberg 的運算

網頁 p

q1

q2

q3

q4

xp = yq1+ yq2+ yq3+yq4

21

Kleinberg 的運算

網頁 p

q1

q2

q3

q4

yp = xq1+xq2+xq3+xq4

22

產生聚集中心網頁和權威網頁的演算法輸入： Gs: 包含 n 個網頁； k: 自然數；步驟 1 ： Z = vector (1, 1, 1, …, 1) ；步驟 2 ： X0 = Z ；步驟 3 ： Y0 = Z ；步驟 4 ： k = 1 ；步驟 5 ： while (X值和 Y值尚未達到收斂之前 ) do begin 步驟 6 ：對 (Xk-1,Yk-1) 進行運算， Xk-1更新後的權值向量為 Xk’ ；步驟 7 ：對 (Xk’,Yk-1) 進行運算， Yk-1更新後的權值向量為 Yk’ ；步驟 8 ：對 Xk’ 進行標準化後得到 Xk；步驟 9 ：對 Yk’ 進行標準化後得到 Yk；步驟 10 ： k = k+1 ；步驟 11 ： end步驟 12 ： return (Xk,Yk)

23


24

網頁內容探勘我們可以使用 “資訊萃取” (information e

xtraction) 的技術來進行網頁內容探勘。資訊萃取是將文件 (text) 轉換成一個結構化的格式，這對於要擷取具有某一個特定主題的文件有很大的幫助。

對於資訊萃取所得到的結果，可以使用 “反查” (recall) 和 “準度” (precision) 分別來評估它能夠提供的正確資訊的比例，以及所提供的資訊中正確資訊所佔的比例。

25

“反查” 和 “準度” 的定義反查 =

準度 =

使用資訊萃取技術在網際網路的環境中所得到的結果，也可以利用這兩個指標來衡量。準度可以告訴我們在所找到的網頁中，正確符合搜尋主題的比例有多少。而反查則是告訴我們，所搜尋到的正確網頁佔全體符合搜尋主題的網頁之比例。

數整體符合條件的資訊個資訊的個數資訊萃取所發掘的正確

資訊個數使用資訊萃取所得到的資訊的個數資訊萃取所發掘的正確

26

記憶基礎推論記憶基礎推論的基本觀念是先找出新資料的鄰近資料，然後再根據鄰近資料的特性對新資料進行分類和預測。這個方法基本上必須要有一個歷史資料庫，它包含許多已知分類的網頁。

將新網頁和這些已知分類的網頁進行比較之後，可以從中找到 k 個和新網頁最近似的網頁。再利用這些近似網頁所屬的分類類別來決定新網頁的類別。

27

範例一 (1)

假設我們要對新網頁“ N” 進行分類，根據記憶基礎推論的方法，先從歷史資料庫中找出 k 個和新網頁最近似的網頁。假設 k = 5 ，表 9-1記錄新網頁和相似網頁間的相似度以及這些相似網頁所屬的已知類別。根據所找出來的最近似的 5 個網頁，將它們和新網頁的相似度當作它們對於新網頁類別的決定上所給予的權重，如表 9-2 所示。

28

範例一 (2) 以網頁 “ B” 為例，網頁 “ B” 所屬的類別為 “汽車”、“娛樂” 和 “理財”，因此根據網頁 “ B” 和新網頁的相似度，在這三個類別上給予新網頁一個加權分數，其它依此類推。將各類別的加權分數做累計，得到一個評分值，評分值愈高者，表示新網頁屬於這個類別的可能性愈高。假設每一個網頁最多只能屬於三個不同的分類且評分值大於或等於 2 者才列入考慮。在這個例子中，新網頁最後被歸類屬於 “理財” 和 “娛樂” 這兩類。

29

範例一 (3)

假設以人工的方式請專家對新網頁做分類，得到的結果是新網頁屬於 “汽車”、“娛樂” 和 “理財” 這三類，我們將它視為正確的分類結果。使用 “反查” 和 “準度” 來衡量記憶基礎推論的方法所得到的預測結果：反查 = 且準度 = = 1 3

222

30

表 9-1 ：與新網頁最近似的 5 個已知類別的網頁相似網頁相似度所屬類別

A 0.9 理財、娛樂、購物B 0.8 汽車、娛樂、理財C 0.7 購物、新聞D 0.6 理財、娛樂E 0.5 新聞、娛樂、藝術

31

表 9-2 ：為新網頁所屬的類別做評分類別 A B C D E 評分理財 0.9 0.8 0 0.6 0 2.3

娛樂 0.9 0.8 0 0.6 0.5 2.8

購物 0.9 0 0.7 0 0 1.6

汽車 0 0.8 0 0 0 0.8

新聞 0 0 0.7 0 0.5 1.2

藝術 0 0 0 0 0.5 0.5

32


33

網頁使用行為探勘網頁使用行為探勘是從網頁伺服器中發掘使用者存取網頁樣式的過程。

這類資料的分析可以幫助企業了解顧客瀏覽網頁的模式，進而改善網頁結構的設計，以吸引更多的消費者。一般網站瀏覽者的資訊如圖 9-9 所示，以第一筆資料為例，它包含了下列資訊：

瀏覽者來源： dial38.20365189.gcn.net.tw 閱讀資訊： GET/DNS-basic/IP-dns.html HTTP/1.1 時間： [03/Sep/1997:17:46:49+8000] 訊息代號： 200 來源 proxy ： 1366

34

圖 9-9 ：網站瀏覽者的資訊 d ial 38.20365189.gcn .net.tw G ET /D N S-b asic/I P-dn s.htm l H T T P /1.1 [03/Sep /19 97:17:4 6:49 +080 0] 20 0 1 366ccsun35 .cc.n ctu .ed u.tw G ET / HT T P/1.0 [03/Sep /19 97:17:4 7:49 +080 0] 20 0 5 800ccsun35 .cc.n ctu .ed u.tw G ET /dns.jpg H T T P/1.0 [03/Sep /19 97:17:4 7:49 +080 0] 20 0 9 668auto .hf.com .tw G ET /D N S-N amed-C on f/R -140 .11 3.3 HT T P/1 .0 [03/Sep /19 97:17:4 9:41 +080 0] 20 0 1 155d ial 38.20365189.gcn .net.tw G ET /D N S-conf/ index.htm l H T T P/1.1 [03/Sep /19 97:17:5 0:30 +080 0] 20 0 2 930proxy .acer.net G ET /D N S-conf/DM Z-L ame-1.html H T T P/1.0 [03/Sep /19 97:17:5 1:21 +080 0] 20 0 6 589203.69.74.1 G ET /D N S-b asic/W henT o U se-R ev .htm l H T T P /1.0 [03/Sep /19 97:17:5 1:54 +080 0] 30 4 -203.73.242 .11 G ET /D N S-R ev-N otR ead y.html HT T P/1 .0 [03/Sep /19 97:17:5 8:55 +080 0] 20 0 2 710w 3-p roxy .nctu.edu.tw G ET /D N S-b asic/W henT o U se-R ev .htm l H T T P /1.0 [03/Sep /19 97:17:5 9:52 +080 0] 20 0 1 269 1203.73.242 .11 G ET /D N S-m isc/U sr-D NS -I sp -1.h tml HT T P/1 .0 [03/Sep /19 97:18:0 0:37 +080 0] 20 0 1 153 8mob ile.cm.nctu.edu.tw G ET / HT T P/1.0 [03/Sep /19 97:18:0 2:07 +080 0] 20 0 5 800mob ile.cm.nctu.edu.tw G ET /dns.jpg H T T P/1.0 [03/Sep /19 97:18:0 2:08 +080 0] 20 0 9 668203.73.242 .11 G ET /D N S-b asic/W henT o U se-R ev .htm l H T T P /1.0 [03/Sep /19 97:18:0 4:48 +080 0] 20 0 1 269 1203.73.242 .11 G ET /S rv-D eny-H ow T o/N C T U C C -netnew s.htm l H T T P/1.0 [03/Sep /19 97:18:0 5:21 +080 0] 20 0 2 645w 3-p roxy .nctu.edu.tw G ET /D N S-conf/Named-b oot.htm l H T T P /1.0 [03/Sep /19 97:18:0 5:29 +080 0] 20 0 6 644203.73.242 .11 G ET /D N S-tech /ip -dns-w hoi s.h tml H T T P/1 .0 [03/Sep /19 97:18:0 5:44 +080 0] 20 0 1 548 0w 3-p roxy .nctu.edu.tw G ET /D N S-N amed-C on f/co nf.html HT T P/1.0 [03/Sep /19 97:18:0 7:12 +080 0] 20 0 2 378w 3-p roxy .nctu.edu.tw G ET /D N S-N amed-C on f/DN S-N C T U -conf.h tml H T T P/1 .0 [03/Sep /19 97:18:0 7:41 +080 0] 20 0 7 680w 3-p roxy .nctu.edu.tw G ET /D N S-b ind/Named-v er.h tml H T T P/1 .0 [03/Sep /19 97:18:0 8:41 +080 0] 20 0 2 589tfpc2 .ep.nctu .ed u.tw G ET / HT T P/1.0 [03/Sep /19 97:18:0 9:34 +080 0] 20 0 5 800

35

網頁使用行為探勘的應用 (1)

使用路徑分析來發掘網際網路中經常被瀏覽的路徑。例如： 50% 進入 “中央氣象局” 網站的使用者是從 “ Yahoo!奇摩” 中的 “氣象” 超連結進入，再連結至 “中央氣象局” 的網站。這條規則隱含著我們可以在 “ Yahoo!奇摩” 的 “氣象” 這一頁放置一些相關資訊，或者是將 “中央氣象局” 網站中經常被存取的超連結直接放置在這個網頁中。

36


使用關連法則探勘的技術發掘使用者進入某一網站之後，經常會點選的超連結。例如： 50% 連結 “ Yahoo!奇摩” 網站中 “股市” 超連結的使用者，也會使用 “理財” 超連結。這條規則隱含著 “股市” 和 “理財” 這兩個超連結的相關性，這將有助於網站設計者根據這些資訊來調整網站的架構，以提供使用者一個更舒適的瀏覽環境。

37


使用循序樣式探勘發掘被點選的網頁之間的先後關係。例如： 40% 的使用者在某一個購物網站的 “ B級產品” 網頁購物後一個月內，也會至該網站的 “ A級產品” 網頁購物。這條規則顯示網頁內容存在著某種程度的相關性，這將有助於我們對於瀏覽 “ B級產品” 網頁的使用者進行目標行銷。

38


根據使用者的基本資料以及他們存取網頁的樣式，利用分類技術發掘使用者的網頁使用模型。例如： 60%職業屬於 “軍公教” 的使用者會使用 “ Yahoo!奇摩” 進行資料搜尋。

39

發掘顧客的交易樣式 WTM (Web Transaction Mining) 演算法的目的是在電子商務的環境中發掘顧客的交易樣式 (transaction patterns) 。每一筆網路交易記錄被表示為 <瀏覽路徑：所購買的產品項目 > 。

其中每一個被購買的產品項目被表示為 Ok{i} ，也就是說，項目 i是在瀏覽路徑中的網頁 Ok被購買的。

40

相關定義令 <S1S2…Sk： O1{i1}, O2{i2}, …, Ox{ix}> 是一個交易樣式，其中 {O1, O2, …, Ox}{S1,S2,…,Sk} 。 <S1S2…Sk： O1{i1}, O2{i2}, …, Ox{ix}> 包含交易樣式 <T1T2

…Tp： N1{j1}, N2{j2}, …, Ny{jy}> 若且惟若瀏覽路徑 <S1,S2,…,Sk> 包含瀏覽路徑 <T1,T2,…,Tp> 且 {O1{i1}, O2{i2}, …, O

x{ix}} 包含 {N1{j1}, N2{j2}, …, Ny{jy}} 。一個包含 k 個購買物品的交易樣式稱之為 k-交易樣式。若包含交易樣式 P 的交易數量大於或等於最小支持個數，則稱 P 為一個大型交易樣式。令 Ck代表候選 k-交易樣式所成的集合且 Tk表示所有大型 k-交易樣式的集合。

41

WTM 演算法步驟 1 ：找出 C1，計算在各個網頁所購買的商品次數。對同一個交易編號而言，同一項商品只能計算一次。步驟 2 ：將所購買的商品次數大於或等於最小支持個數者，儲存至 T1。步驟 3 ：我們可以使用類似第七章候選項目集的產生方式，利用 Tk-1來產生 Ck (k2) 。不過在考慮網頁項目的組合時，組合後所對應的瀏覽路徑必須被包含在網站可能的瀏覽路徑中。步驟 4 ：將所購買的商品次數大於或等於最小支持個數者儲存至 Tk。步驟 5 ：重複步驟 3 和步驟 4 ，直到 Tk為空集合為止。

42

網路交易資料範例網路交易資料

網路交易編號路徑所購買的物品 100

ACE C{i3},E{i5}ABF B{i2},F{i6}AGKL G{i7},K{i8}

200

ACD C{i3},D{i4}

ABF B{i2},F{i6}

AG G{i7} 300

AGKL G{i7},K{i8}

ABF B{i2},F{i6}ACD C{i3},D{i4}

400

AGKL G{i7},K{i8},L{i9}

ACD C{i3},D{i4}ABF B{i2},F{i6}

43

範例二 (1)

使用網路交易資料範例與下列網頁瀏覽樹狀圖，說明WTM 演算法在每一個階段的執行過程。假設最小支持個數為 3 。

44

範例二 (2) 首先將交易資料中的每一個網頁項目都視為候選 1-交易樣式。 WTM 讀取資料庫中的所有交易之後，即可計算出在每一個候選 1-交易樣式的支持個數。

路徑所購買的物品支持個數AB B{i2} 4AC C{i3} 4ACD D{i4} 3

ACE E{i5} 1

ABF F{i6} 4

AG G{i7} 4AGK K{i8} 3

AGKL L{i9} 1

C1

45

範例二 (3)

刪除支持個數小於最小支持個數的候選 1-交易樣式，即可得到大型 1-交易樣式。路徑所購買的物品支持個數AB B{i2} 4

AC C{i3} 4

ACD D{i4} 3

ABF F{i6} 4

AG G{i7} 4

AGK K{i8} 3

T1

46

範例二 (4)

從 T1中考慮所購買的物品的組合，得到候選 2-交易樣式的集合。路徑所購買的物品支持個數

ABF B{i2},F{i6} 4

ACD C{i3},D{i4} 3

AGK G{i7},K{i8} 3

C2

47

範例二 (5)

刪除支持個數小於最小支持個數的候選 2-交易樣式，即可得到大型 2-交易樣式 T2。從 T2已無法組合出候選 3-交易樣式，因此T3為空集合。

路徑所購買的物品支持個數

ABF B{i2},F{i6} 4

ACD C{i3},D{i4} 3

AGK G{i7},K{i8} 3

T2

48


49

總結本章內容包括：

網頁結構探勘：網頁連結架構的分析網頁內容探勘：記憶基礎推論的方法網頁使用行為探勘：使用者瀏覽路徑與在網站中所購買的物品之關連分析

相關的研究包括：網路流量分析 (network traffic analysis) 網頁點選串流探勘 (Web click stream mining) 網路入侵偵測 (network intrusion detection)

Documents

第九章 網際網路資料探勘

第九章網際網路資料探勘