25
1 第第第第 第第第第 - 第第第第

第十三章 案例探討 - 圖書借閱

Embed Size (px)

DESCRIPTION

第十三章 案例探討 - 圖書借閱. 內容概要. 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結. 簡介. 以圖書借閱資料為例,說明資料探勘的處理過程 : 資料取得、需求分析、資料整理、 資料倉儲建立、資料探勘、結果分析。 探討問題: 探討不同科系是否借閱不同類別的書? 不同年級學生是否借閱不同類別的書? 大學部與研究生是否有不同的借閱習慣? 圖書分類是否有改進的地方? 借閱紀錄是否隱藏不易發掘而且重要的資訊 ? 實例解說資料探勘過程,瞭解資料探勘的過程,建立具體的印象與觀念,注重過程,而非結果。. 內容概要. 簡介 - PowerPoint PPT Presentation

Citation preview

Page 1: 第十三章  案例探討 - 圖書借閱

1

第十三章 案例探討 - 圖書借閱

Page 2: 第十三章  案例探討 - 圖書借閱

2

內容概要 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結

Page 3: 第十三章  案例探討 - 圖書借閱

3

簡介 以圖書借閱資料為例,說明資料探勘的處理過程 :

資料取得、需求分析、資料整理、 資料倉儲建立、資料探勘、結果分析。

探討問題: 探討不同科系是否借閱不同類別的書? 不同年級學生是否借閱不同類別的書? 大學部與研究生是否有不同的借閱習慣? 圖書分類是否有改進的地方? 借閱紀錄是否隱藏不易發掘而且重要的資訊 ?

實例解說資料探勘過程,瞭解資料探勘的過程,建立具體的印象與觀念,注重過程,而非結果。

Page 4: 第十三章  案例探討 - 圖書借閱

4

內容概要 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結

Page 5: 第十三章  案例探討 - 圖書借閱

5

原始資料來源 根據需求分析,只考慮書籍、系所部

門、讀者、借閱資料 四個資料表資料表名稱 原始資料總筆數 欄位個數Book 364299 22

Department 323 9

Reader 37318 31

History (借閱歷史資料

)

1132648 3

Page 6: 第十三章  案例探討 - 圖書借閱

6

內容概要 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結

Page 7: 第十三章  案例探討 - 圖書借閱

7

第一階段資料前置處理 (1)

原始資料利用資料轉換匯入 SQL Server 將 Reader 與 Department 資料表合成新的 Read

er 資料表 。 在 Reader 資料表內:

增加 college 欄位,建立:系所學院 概念階層。 依學號分類,新增 grade 欄位,記錄使用者年級,區分為「 freshman 、 sophomore 、 junior 、 senior 、 postgraduate 、 candidate for PhD 、 teacher 」七個類別。

只保留 rno( 讀者 id) 、 dept_code 、 dept_name 、 college_name 、 grade 欄位,其餘欄位全部刪除。

Page 8: 第十三章  案例探討 - 圖書借閱

8

第一階段資料前置處理 (2)

在 Book 資料表內的: 根據中西文圖書分類,在索書號上新增 sub_class 及 clas

s 屬性,建立書籍種類的概念階層 。 將 language 欄位重新分類,保留最多的中文、英文、日文三類,將其餘語言歸類為 other 。

建立 publsih_interval 欄位,出版年以五年為一區間,作為出版年代的概念階層之用。

僅留下 marc_id( 書籍 id) 、 title 、 author 、 publisher 、publish_year 、 language 、 subject 、 marc_class 、 cla

ss 、 sub_class 、 publish_interval 等欄位。

Page 9: 第十三章  案例探討 - 圖書借閱

9

第一階段資料前置處理 (3)

利用中西文圖書分類檢表,將書分為 4 大類,大類再細分成子項目。

Page 10: 第十三章  案例探討 - 圖書借閱

10

第一階段資料前置處理 (4)

在 History 資料表內: 將借閱日期拆成三個欄位:借閱年、借閱月、借閱日,作為將來時間的概念階層。

加入 amount 欄位,代表借書的本數,一般都為 1 ,作為事實資料表的量值。

僅留下 marc_id 、 rno 、 borrow_year 、 borrow_month 、borrow_date 、 amount 欄位,其中 amount 欄位為量值。

Page 11: 第十三章  案例探討 - 圖書借閱

11

第二階段資料前置處理 (1)

在 Reader 資料表,分析對象為正常學制學生,刪除外校人士、行政人員、在職專班、轉系、大五、大六、系所空白者、身分無法辨認者。

在 Book 資料表內,刪除索書號不完全者;刪除期刊資料及校內論文、不能外借之書籍(如當期雜誌)、視聽資料(如 CD 、 LD 、 tape )等。

在 History 資料表內,刪除索書號不完整之紀錄;刪除 rno(user id) 無法在整理過的 Reader 資料表找到之紀錄;刪除索書號無法在整理過的 Book 資料表找到之紀錄。

Page 12: 第十三章  案例探討 - 圖書借閱

12

第二階段資料前置處理 (2)

資料整理前後資料表內容變化比較

資料表名稱

原始資料總筆數

資料整理後的總筆數

原始欄位個數

整理過後欄位個數

Book 364299 75214 22 11

Reader 37318 8587 31 5

History 1132648 612075 3 6

Page 13: 第十三章  案例探討 - 圖書借閱

13

內容概要 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結

Page 14: 第十三章  案例探討 - 圖書借閱

14

資料倉儲設計 (1)

事實資料表: History 為事實資料表, amount 量值。

維度: Reader 、 Book 與 Time 三個維度。

Page 15: 第十三章  案例探討 - 圖書借閱

15

資料倉儲設計 (2)

在 Reader 維度資料表內找到兩種概念階層: 年級: rno grade 學院系所: rno dept_name college_name

在 Book 維度資料表內找到三種概念階層: 語言: title language 主題分類: title sub_class class 出版年: publish_year publish_interval

在 Time 維度找到一種概念階層: 借閱日期: borrow_dateborrow_monthborrow_year

Page 16: 第十三章  案例探討 - 圖書借閱

16

資料倉儲設計 (3)

星狀式架構的資料倉儲

Page 17: 第十三章  案例探討 - 圖書借閱

17

內容概要 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結

Page 18: 第十三章  案例探討 - 圖書借閱

18

決策樹資料探勘分析 預測項目 書籍、學生、語言類別 百分比

(預測借書類別 )人文社會學院博士班學生

Art

13.56%

General 1.69%

Geography/History 1.69%

Language/Literature 1.69%

Natural Sciences 59.32%

Philosophy/Psychology 6.78%

Religion 1.69%

Social Sciences 11.86%

Missing 1.69%

(預測借閱讀者

的身分 )心理哲學方面的英文書

Candidate for PhD 11.08%

Freshman 7.06%

Junior 16.67%

Postgraduate 34.58%

Senior 15.59%

Sophomore 14.25%

Teacher 0.75%

Missing 0.03%

(預測借閱書籍

的語言 )語言文學方面被借的書籍

Chinese 66.58%

English 33.32%

Japan 0.09%

Others 0.01%

Missing 0.00%

Page 19: 第十三章  案例探討 - 圖書借閱

19

分群資料探勘分析 (1)群組一:不同時間借書比例

Cluster 1 總計 3064.04 100.00%

2001/Dec 242.44 7.91%

2001/Apr 236.85 7.73%

2002/Apr 225.34 7.35%

2002/May 223.59 7.30%

2002/Mar 220.51 7.20%

2001/Nov 218.38 7.13%

2001/Oct 198.85 6.49%

2002/Jan 196.18 6.40%

2001/Mar 190.56 6.22%

2001/May 188.30 6.15%

2002/Feb 173.92 5.68%

2001/Feb 169.10 5.52%

2001/Jun 146.56 4.78%

2001/Sep 145.13 4.74%

2001/Jan 118.29 3.86%

2001/Aug 90.89 2.97%

2001/Jul 79.15 2.58%

Missing 0 0.00%

群組二:不同時間借書比例Cluster 2 總計 2951.87 100.00%

2002/May 318.21 10.78%

2001/Dec 225.62 7.64%

2001/Jan 221.28 7.50%

2002/Apr 203.85 6.91%

2001/Nov 197.87 6.70%

2001/Feb 190.02 6.44%

2002/Jan 184.67 6.26%

2002/Mar 180.3 6.11%

2001/May 179.82 6.09%

2001/Oct 179.09 6.07%

2001/Mar 174.69 5.92%

2001/Apr 154.05 5.22%

2001/Jun 150.35 5.09%

2002/Feb 141.99 4.81%

2001/Sep 127.51 4.32%

2001/Jul 69.08 2.34%

2001/Aug 53.46 1.81%

Missing 0 0.00%

Page 20: 第十三章  案例探討 - 圖書借閱

20

分群資料探勘分析 (2)

群組一:不同年級、類別借書比例Cluster 1 總計 3064.04 100.00

%

Postgraduate 1347.75 43.99%

Candidate for PhD 427.37 13.95%

Sophomore 375.96 12.27%

Junior 318.11 10.38%

Freshman 300.59 9.81%

Senior 287.55 9.38%

Teacher 6.72 0.22%

Missing 0 0.00%

群組二:不同年級、類別借書比例Cluster 2 總計 2951.87 100.00

%

Postgraduate 1322.56 44.80%

Freshman 489.12 16.57%

Candidate for PhD 427.77 14.49%

Sophomore 339.09 11.49%

Junior 217.24 7.36%

Senior 139.52 4.73%

Teacher 16.57 0.56%

Missing 0 0.00%

Page 21: 第十三章  案例探討 - 圖書借閱

21

分群資料探勘分析 (3)

群組一:不同類別書籍被借比例Cluster 1 總計 3064.04 100.00%

Natural Sciences

1611.51 52.59%

Language/Literature 411.55 13.43%

Social Sciences 352.23 11.50%

General 240.92 7.86%

Art 178.23 5.82%

Geography/History 142.67 4.66%

Philosophy/ Psychology 108.16 3.53%

Religion 18.76 0.61%

Missing 0 0.00%

群組二:不同類別書籍被借比例Cluster 2 總計 2951.87 100.00%

Natural Sciences

1864.76 63.17%

Language/Literature 355.02 12.03%

Social Sciences 275.09 9.32%

General 155.55 5.27%

Geography/History 119.21 4.04%

Art 104.28 3.53%

Philosophy/Psychology 61.62 2.09%

Religion 16.34 0.55%

Missing 0 0.00%

Page 22: 第十三章  案例探討 - 圖書借閱

22

關連法則資料探勘分析 (1)項次 學 生 類 別 Imply 書籍類別 支持度 (%) 信賴度 (%)

1 College = [Electrical Engineering and Computer Science] AND

People = [Candidate for PhD.]

→ Natural Science

12.2 90.0

2 College =[Electrical Engineering and Computer Science] AND

People = [Postgraduate]

→ Natural Science

23.8 96.2

3 College = [Engineering] ANDPeople = [Postgraduate]

→ Natural Science

12.7 96.2

4 College = [Science] ANDPeople = [Postgraduate]

→ Natural Science

10.8 85.7

5 College = [Electrical Engineering AND Computer Science]

→ Natural Science

40.5 92.7

6 College = [Engineering] → Natural Science

22.5 93.3

7 College = [Science] → NaturalScience

21.2 78.9

8 People = [Candidate for PhD.] → NaturalScience

26.2 91.0

9 People = [Postgraduate] → Natural Science

48.5 89.8

Page 23: 第十三章  案例探討 - 圖書借閱

23

結果分析 發現借閱率較高的書,大多是 1988 年到 1999 年,建議多購新版的書,

或者調查新書流動率不高的原因。 每個系所借閱書籍的種類,和所學科系有相關,建議借閱方式可以更彈

性。例如,提高電子系學生借閱電子類別書目的冊數,以方便學生閱讀與研究。

書籍類別 subject 欄位,為人工手動建置,欄位格式並不統一,例如有: 「 Computer Language – Makeup Language 」 「 Computer_Language_Makeup_ Language 」 「 Computer Language : Extensible Makeup Language 」

建議分類機制由手動輸入改為下拉式選單挑選,以提高書目資料的準確度。

Page 24: 第十三章  案例探討 - 圖書借閱

24

內容概要 簡介 原始資料來源 資料前置處理 資料倉儲設計 資料探勘結果 總結

Page 25: 第十三章  案例探討 - 圖書借閱

25

總結

以圖書借閱資料說明資料探勘的處理過程。 需求分析與資料整理的工作量不小。 細節 (參數調整等 )必須靠讀者自行練習。 幫助讀者建立資料探勘具體的印象與觀念。 找貴校圖書館合作,進行類似資料探勘。