41
CATAR- 文文文文文文文文 文文 文文 文文 文文 文文 曾曾曾 曾曾曾曾曾曾曾曾 曾曾曾曾 2011/04/16

CATAR- 文獻內容探勘工具

  • Upload
    keaton

  • View
    179

  • Download
    0

Embed Size (px)

DESCRIPTION

CATAR- 文獻內容探勘工具. 簡介 安裝 使用 解讀 案例. 曾元顯 國立臺灣師範大學 資訊中心 2011/04/16. 文獻內容分析 - 簡介. 相關學科: Bibliometrics 、 Scientometrics 、 Infometrics Content analysis in social science 相關期刊 JASIST, Scientometrics, Journal of Infometrics 相關會議 ISSI: International Society for Scientometrics and Infometrics - PowerPoint PPT Presentation

Citation preview

Page 1: CATAR- 文獻內容探勘工具

CATAR- 文獻內容探勘工具

簡介安裝使用解讀案例

曾元顯國立臺灣師範大學 資訊中心

2011/04/16

Page 2: CATAR- 文獻內容探勘工具

文獻內容分析 - 簡介• 相關學科:

– Bibliometrics 、 Scientometrics 、 Infometrics

– Content analysis in social science

• 相關期刊– JASIST, Scientometrics, Journal of Infometrics

• 相關會議– ISSI: International Society for Scientometrics and

Infometrics

– STI: Science and Technology Indicators2

Page 3: CATAR- 文獻內容探勘工具

文獻內容分析 - 動機• 專利的前案分析,希望能在半天內完成

– 引自類比 IC 設計製造公司副總經理說法• 鑑往知來、避開重複、促進創新• 擷取重點、評估形勢、規劃策略• 找出特定作者、機構

– 邀請投稿、演講、審查、合作、求助• 科技政策分析與決策輔助

– 作者、機構、國家生產力分析– 績效評鑑、經費分配

3

Page 4: CATAR- 文獻內容探勘工具

文獻內容自動分析• 長期目標:

– 自動掃描相關文獻,分析、組織、呈現– 提供探索、線索,以供後續驗證、決策

• 相關研究– Structured Abstract in library science (1987)

– Automated structured abstract in biology (2007)

– 專利文獻自動分析 (2004, NTCIR)

– 科教領域– 研究文獻中的情緒語意分析 (2010, STI)

4

Page 5: CATAR- 文獻內容探勘工具

文獻內容自動分析 - 工具現況• CiteSpace

– 陳超美 , Drexel University (2003)

– http://cluster.cis.drexel.edu/~cchen/citespace/

– 擷取科學論文中自然呈現的聚類– 顯示典範移轉中的轉折點 - 類別間的橋樑

• VOSviewer – Nees Jan van Eck and Ludo Waltman (2007)

– CWTS of Leiden University

– http://www.vosviewer.com/

• CATAR5

Page 6: CATAR- 文獻內容探勘工具

CATAR 簡介• Content Analysis Toolkit for Academic Research

• 曾元顯 , 2004-2011– http://web.ntnu.edu.tw/~samtseng/CATAR/

• CATAR 技術細節:– 曾元顯、林瑜一( 2011 )。

內容探勘技術在教育評鑑研究發展趨勢分析之應用。教育科學研究期刊, 56(1) , 129-166 。

– Yuen-Hsien Tseng, Chi-Jen Lin, and Yu-I Lin, "Text Mining Techniques for Patent Analysis", Information Processing and Management, Vol. 43, No. 5, 2007, pp. 1216-1247. (cited 23 times in WoK, 38 times in Scopus, 58 times in Google Scholar)

6

Page 7: CATAR- 文獻內容探勘工具

CATAR 分析功能• 概觀分析( overview )• 主題歸類分析( clustering )

– 書目對分析( bibliographic coupling )– 共現字分析( co-word analysis )

7

Page 8: CATAR- 文獻內容探勘工具

CATAR 安裝• 安裝 Perl

– http://strawberryperl.com/, at least Version 5.12.0

• 下載 CATAR– http://web.ntnu.edu.tw/~samtseng/CATAR/

• 解壓縮到 C:\ ,以便產生 C:\CATAR 目錄– C:\CATAR\bin\ :程式放置處,命令由此目錄下達

– C:\CATAR\doc\ :執行過程資料放置處– C:\CATAR\Result\ :執行結果資料放置處– C:\CATAR\Source\Data\ :待分析資料放置處8

Page 9: CATAR- 文獻內容探勘工具

待分析資料的準備• 待分析資料的界定 ( 最重要的步驟、第二有價值的部

分 )– 關鍵詞搜尋的結果– 核心期刊的論文– 綜合查詢的結果(期刊 + 關鍵詞 + 年代限制)– 一篇篇專家確認過的文獻

• WoK 資料的搜尋– 搜尋技巧– 以 etch 為例

9

Page 10: CATAR- 文獻內容探勘工具

ISI WoK Publication Record

FN ISI Export FormatVR 1.0PT JAU Tseng, SC Tsai, CCAF Tseng, Sheng-Chau Tsai, Chin-ChungTI On-line peer assessment and the role of the peer feedback: A study of high

school computer courseSO COMPUTERS & EDUCATIONLA EnglishDT ArticleDE interactive learning environments; secondary education; learning communities; improving classroom teaching; peer assessmentID WORLD-WIDE-WEB; ASSESSMENT SYSTEM; HIGHER-EDUCATION; STUDENTS; THINKING; SCIENCE; SELFAB The purposes of this study were to explore the effects and the validity of on-

line peer assessment in high schools and …C1 Natl Chiao Tung Univ, Inst Educ, Hsinchu 300, Taiwan. Natl Chiao Tung Univ, Ctr Teacher Educ, Hsinchu 300, Taiwan.RP Tsai, CC, Natl Chiao Tung Univ, Inst Educ, 1001 Ta Hsueh Rd, Hsinchu 300, Taiwan.EM [email protected]

CR ROTH WM, 1997, SCI EDUC, V6, P373 DOCHY F, 1999, STUD HIGH EDUC, V24, P331 …NR 23TC 2PU PERGAMON-ELSEVIER SCIENCE LTDPI OXFORDPA THE BOULEVARD, LANGFORD LANE, KIDLINGTON, OXFORD OX5 1GB,

ENGLANDSN 0360-1315J9 COMPUT EDUCJI Comput. Educ.PD DECPY 2007VL 49IS 4BP 1161EP 1174DI 10.1016/j.compedu.2006.01.007PG 14SC Computer Science, Interdisciplinary Applications; Education & Educational ResearchGA 218OFUT ISI:000250024100013ER

Only the fields in red color are used. Cited References are used in the bibliographic coupling for topic clustering and citation tracking

Page 11: CATAR- 文獻內容探勘工具

WoK 的 13 個欄位AU :作者欄,例: Kainz, H; Hofstetter, H

TI :論文標題,例: Adaption of the main waste water treatment plant …

SO :期刊全名,例: WATER SCIENCE AND TECHNOLOGY 。DE :作者給定的關鍵詞,例: large wastewater treatment plant; 。ID :論文描述詞,例: WATER; CONTAMINATION; PLANT; 。AB :論文摘要,約 100-300 個英文字。C1 :作者所屬機構之國家。CR :參考文獻 , 例: BALDI F, 1988, WATER AIR SOIL POLL, V38, P111

NR :參考文獻篇數,例: 3 。TC :被引用的次數,例: 1 。PY :論文出版年,例: 1996 。SC :論文所屬領域別,例: Environmental Sciences; Water Resources

UT : Web of Science 之論文主鍵欄,例: ISI:A1996VF74600009

Page 12: CATAR- 文獻內容探勘工具

概觀分析• 將資料解剖,置於資料庫內,以便於管理• 從資料庫中,讀取各欄位,進行交叉統計• 趨勢分析

– 年代篇數序列的線性回歸線斜率作為趨勢指標– Yuen-Hsien Tseng, Yu-I Lin, Yi-Yang Lee, Wen-Chi Hung, and Chun-

Hsiang Lee, " A Comparison of Methods for Detecting Hot Topics", Scientometrics, Vol. 81, No. 1, Oct. 2009, pp. 73-90.

• 執行命令 ( 範例 ) :– C:\CATAR\bin>parl CATAR.par automc.pl -OOA SE ..\Source_Data\SE\data

12

待分析資料之路徑名稱分析結果之目錄名稱命令選項

Page 13: CATAR- 文獻內容探勘工具

命令提示字元 (DOS) 命令• 開啟命令提示字元

– 開始 -> 所有程式 -> 附屬應用程式 -> 命令提示字元

• 變換到磁碟機 C : C:• 變換目錄到 CATAR : cd \CATAR• 變換到上一層目錄: cd ..• 絕對路徑: C:\CATAR\Source_Data\SE\data

• 相對路徑:若已經在目錄 \CATAR\bin下,則為 ..\Source_Data\SE\data13

Page 14: CATAR- 文獻內容探勘工具

概觀分析範例• 結果參考: C:\CATAR\Result\SE\SE_by_field.xls

14

篇數 查詢條件#1 54 SO=(Journal of the Learning Sciences)#2 640 SO=(Computers & Education)#3 238 SO=(Science Education)#4 187 SO=(Journal of Computer Assisted Learning)#5 249 SO=(Journal of Research in Science Teaching)#6 365 SO=(British Journal of Educational Technology)#7 326 SO=(Educational Technology & Society)#8 144 SO=(ETR&D-Educational Technology Research And Development)#9 422 SO=(International Journal of Science Education)

#10 144 SO=(Research in Science Education)#11 143 SO=(Innovations in Education and Teaching International)#12 2,912 #1 or #2 or #3 or #4 or #5 or #6 or #7 or #8 or #9 or #10 or #11

Document Type=(Article) Databases=SCI-EXPANDED, SSCI, A&HCI Timespan=2005-2009

Page 15: CATAR- 文獻內容探勘工具

Year Production: Top 8 Countries

USA UK TAIWAN AUSTRALIA CANADA TURKEYNETHERLANDS

SPAIN

2004 12 3 1 6 1 0 4 0

2005 138 69 36 38 16 14 29 15

2006 139 63 31 25 18 19 18 13

2007 173 70 61 43 28 18 20 21

2008 204 72 108 44 34 31 19 18

2009 198 71 84 42 44 34 24 29

2010 6 4 7 0 0 0 0 2

total 870 352 328 198 141 116 114 98

Page 16: CATAR- 文獻內容探勘工具

Most Productive Authors: Top 10

NC=Normal Count: each co-author is counted as a single authorFC=Fractional Count: all the co-authors are counted as a single authorIF =TC/NC, FIF=FTC/FC

AU Tseng, SC Tsai, CCTseng, SC : 1Tsai, CC : 1

AU Tseng, SC Tsai, CCTseng, SC : 0.5Tsai, CC : 0.5

AU NC TC IF FC FTC FIF

Tsai, CC 37 227 6.14 17.6 104.9 5.96

Roth, WM 18 61 3.39 7.7 25.7 3.34

Koper, R 15 60 4.00 3.8 21.4 5.63

Hwang, GJ 14 94 6.71 3.7 27.3 7.38

Valcke, M 13 165 12.69 4.3 53.4 12.42

Lee, O 12 93 7.75 3.2 23.0 7.19

Chang, CY 11 49 4.45 5.2 25.6 4.92

Huang, YM 11 42 3.82 3.6 12.8 3.56

Sadler, TD 11 110 10.00 4.7 48.6 10.34

Chang, KE 11 56 5.09 3.3 16.6 5.03

Page 17: CATAR- 文獻內容探勘工具

Most Productive Institutes: Top 15

Data are from the C1 field of each record:C1 Natl Chiao Tung Univ, Inst Educ, Hsinchu 300, Taiwan

IN NC TC IF FC FTC FIF

Natl Taiwan Normal Univ 61 220 3.61 45.6 157.4 3.45

Nanyang Technol Univ 52 217 4.17 37 149.2 4.03

Open Univ 50 265 5.30 41.3 234.4 5.68

Natl Cent Univ 46 276 6.00 29.2 164.1 5.62

Indiana Univ 39 315 8.08 22.8 171.0 7.50

Natl Taiwan Univ Sci & Technol 35 212 6.06 22 117.8 5.35

Natl Cheng Kung Univ 34 108 3.18 27.4 90.3 3.30

Middle E Tech Univ 33 87 2.64 24.3 70.3 2.89

Florida State Univ 32 145 4.53 21.2 75.0 3.54

Curtin Univ Technol 31 85 2.74 18.9 51.2 2.71

Univ Georgia 31 138 4.45 19.3 81.7 4.23

Natl Chiao Tung Univ 29 150 5.17 18.6 93.8 5.04

Univ London 29 168 5.79 20.9 83.6 4.00

Arizona State Univ 28 104 3.71 18.4 62.8 3.41

Weizmann Inst Sci 27 153 5.67 20.7 121.3 5.86

Page 18: CATAR- 文獻內容探勘工具

Most Cited References*NAT RES COUNC, 1996, NAT SCI ED STAND 245 LEDERMAN NG, 1992, J RES SCI TEACH, V29, P331 63

LAVE J, 1991, SITUATED LEARNING LE 157 *NRC, 1996, NAT SCI ED STAND 63

VYGOTSKY LS, 1978, MIND SOC DEV HIGHER 131 DRIVER R, 2000, SCI EDUC, V84, P287 61

BROWN JS, 1989, EDUC RES, V18, P32 113 DRIVER R, 1996, YOUNG PEOPLES IMAGES 59

WENGER E, 1998, COMMUNITIES PRACTICE 109 MILLAR R, 1998, 2000 SCI ED FUTURE 59

*AM ASS ADV SCI, 1993, BENCHM SCI LIT 93 LEMKE JL, 1990, TALKING SCI LANGUAGE 59

POSNER GJ, 1982, SCI EDUC, V66, P211 78 *NAT RES COUNC, 2000, INQ NAT SCI ED STAND 57

SHULMAN LS, 1986, EDUC RES, V15, P4 76 LINCOLN YS, 1985, NATURALISTIC INQUIRY 52

COHEN J, 1988, STAT POWER ANAL BEHA 70 BROWN AL, 1992, J LEARN SCI, V2, P141 52

SHULMAN LS, 1987, HARVARD EDUC REV, V57, P1 67 COLLINS A, 1989, KNOWING LEARNING INS, P453 52

Data are from the CR field of each record:CR ROTH WM, 1997, SCI EDUC, V6, P373

Page 19: CATAR- 文獻內容探勘工具

Most Cited AuthorsRank AU NC Rank AU NC

1 ROTH WM 411 11 LEDERMAN NG 230

2 *NAT RES COUNC 397 12 BANDURA A 226

3 DRIVER R 395 13 VOSNIADOU S 214

4 JONASSEN DH 336 14 KUHN D 213

5 MAYER RE 323 15 TABER KS 196

6 VYGOTSKY LS 259 16 OSBORNE J 195

7 TSAI CC 250 17 BROWN AL 184

8 CHI MTH 249 18 SHULMAN LS 180

9 *AM ASS ADV SCI 246 19 AIKENHEAD GS 178

10 LAVE J 242 20 TOBIN K 176

Data are from the CR field of each record:CR ROTH WM, 1997, SCI EDUC, V6, P373

Page 20: CATAR- 文獻內容探勘工具

Most Cited Journals

Data are from the CR field of each record:CR ROTH WM, 1997, SCI EDUC, V6, P373

rank J9 DF rank J9 DF

1 J RES SCI TEACH 4707 11 COMPUT HUM BEHAV 622

2 SCI EDUC 3368 12 LEARN INSTR 622

3 INT J SCI EDUC 2927 13 EDUC RES 618

4 COMPUT EDUC 1668 14 COGNITION INSTRUCT 581

5 J LEARN SCI 899 15 J EDUC COMPUT RES 562

6 J EDUC PSYCHOL 877 16 EDUC PSYCHOL 523

7 ETR&D-EDUC TECH RES 829 17 STUDIES SCI ED 468

8 REV EDUC RES 825 18 RES SCI EDUC 446

9 J COMPUT ASSIST LEAR 737 19 J CHEM EDUC 443

10 BRIT J EDUC TECHNOL 717 20 INSTR SCI 433

Page 21: CATAR- 文獻內容探勘工具

主題歸類分析• 索引建立• 相似度計算• 文件歸類 - 建立主題樹• 類別標題詞擷取• 多階段歸類 - 建立高階主題樹• 多維縮放 (MDS) - 建立主題地圖• 主題與各項資料的交叉分析

21

Page 22: CATAR- 文獻內容探勘工具

索引建立• 書目對分析:

–建立書目對強度矩陣– 計數並正規化引用次數

• 共現字 ( 與任何文字 ) 分析:–刪除停用詞( the 、 of 、 for 、 on 、 and, at, …)

–正規化詞彙(消除單複數、被動、進行式的差異 )

– 擷取關鍵片語(已專利之技術 [Tseng, 2002, JASIST] )–建立詞彙到文件的反向索引資訊檔案

Page 23: CATAR- 文獻內容探勘工具

相似度之計算

文件A

文件B

詞彙 1

詞彙 2

詞彙 T

共現字相似性

文件A

文件B

文獻 1

文獻 2

文獻 M

書目對相似性

nnnn

n

n

sss

sss

sss

21

22221

11211D1

D2

Dn

D1 D2 Dn

nnnn

n

n

sss

sss

sss

21

22221

11211D1

D2

Dn

D1 D2 Dn

M=9957for 318 EEPA papers

T=2529 for 318 EEPA papers

Sim(A, B) =

2x|S(A)∩S(B)| -------------------- |S(A)|+|S(B)|

Page 24: CATAR- 文獻內容探勘工具

主題樹• 根據相似度 (距離 )矩陣,進行凝聚階層歸

類 agglomerative hierarchical clustering (AHC)– Complete link criterion

– Dendrogram主題樹

24

D1 D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 D12 D13 D14 D15 D16 D17

門檻: 0.075結果: 6 類

0.3

0.2

0.1

0.0

Page 25: CATAR- 文獻內容探勘工具

主題樹範例 ( 電影新聞資料 )• 1(7): 161 : 7 Docs. : 0.3478 ( 美國 : 9.4)

– 2 : 4 Docs. : 1.0000 ( 美國 : 4.1) • 13 : 101765 : 2006-01-01:納尼亞傳奇 美國片 • 55 : 113371 : 2006-03-19:V怪客 美國片 • 48 : 109839 : 2006-03-12:北國性騷擾 美國片 • 1 : 98663 : 2006-01-08:惡狼ID 美國片

– 32 : 3 Docs. : 0.7245 ( 影迷 : 7.0, 美國 : 2.4) • 14 : 2 Docs. : 0.9340 ( 影迷 : 4.0, 絕命終結站 : 3.5, 絕命 : 3.5, 飛車 : 2.8, 雲霄飛車 : 2.8)

– 11 : 101543 : 2006-01-15:奪魂鋸2美國片 – 27 : 104778 : 2006-02-26:絕命終結站3雲霄飛車驚魂

• 16 : 102575 : 2006-01-08:偷穿高跟鞋 美國片 • 9(3): 28 : 3 Docs. : 0.7614 ( 傑克 : 10.0, 李安 : 8.9, 傑克基倫霍 : 7.0, 基倫霍 : 7.0, 希斯萊傑 : 3.2)

– 17 : 2 Docs. : 0.9141 ( 李安 : 11.0, 傑克 : 5.7, 斷背山 : 4.9, 希斯萊傑 : 4.0, 傑克基倫霍 : 3.2) • 3 : 98770 : 2006-01-22:李安靠 斷背山重拾熱情 • 7 : 100886 : 2006-01-22:斷背山 美國片

– 21 : 104156 : 2006-02-26:鍋蓋頭 美國片 • 12(3): 74 : 3 Docs. : 0.5263 ( 奶油 : 7.3, 絕配 : 6.0, 料理 : 5.1, 凱特 : 4.9, 尼克 : 3.2)

– 58 : 2 Docs. : 0.6041 ( 番紅花 : 6.3, 凱特 : 6.0, 番紅花醬汁 : 4.9, 尼克 : 4.0, 鮮奶 : 4.0) • 68 : 397612 : 2007-08-25:料理絕配 跟著男主角做義國菜 • 71 : 403973 : 2007-08-25:料理絕配 跟著女主角做法國菜

– 69 : 398615 : 2007-08-25:料理絕配 看電影學用餐禮儀 25

類別序號與篇數

類別編號( 下一階使用 )與篇數

相似度

類別標題詞

Page 26: CATAR- 文獻內容探勘工具

類別標題詞自動擷取• 歸類後,自動擷取類別特徵詞,作為類別標題

– 結合「相關係數」及「詞頻」排序詞彙,可獲顯著成效 Yuen-Hsien Tseng, " Generic Title Labeling for Clustered Documents", Expert Systems With Applications, Vol. 37, No. 3, 15 March 2010, pp. 2247-2254 .

TN)+FP)(FN+TN)(TP+FN)(FP+(TP

)FP FN-TN TP(),(

CTCo

Term T

Yes No Yes TP FN Category

C No FP TN

Page 27: CATAR- 文獻內容探勘工具

多階段歸類示意圖

Docs.

Concepts

Topics

Outliers:低於門檻,無法歸入類別者

第一階段

第二階段

每一階段 均為 獨立的 凝聚階層歸類 (AHC)

Page 28: CATAR- 文獻內容探勘工具

主題地圖• MDS (Multi-Dimensional Scaling,多維縮放 )

– 將 n 個物件,總共 n(n-1)/2 個相似度關係,投影到 2 或 3維空間上,以便於視覺化其關係

6. Biomedicine

1.Chemistry

5. Material

3. Generality

2. Electronics and Semi-conductors

4. Communication and computers

NSC 美國專利文獻主題地圖

Page 29: CATAR- 文獻內容探勘工具

25 docs. : 0.228054 (emission:180.1, field:177.2, emitter:157.1, cathode:108.4, field emission: 88.0) + 23 docs. : 0.424787 (emitter:187.0, emission:141.9, field:141.4, cathode:129.0, field emission:104.7) + 19 docs. : 0.693770 (emitter:139.7, field emission:132.0, cathode: 96.0, electron: 67.1, display: 61.9) + ID=2 : 7 docs.,0.09(cathode:0.58, source:0.56, display:0.50, field emission:0.45, vacuum:0.43) + ID=1 : 12 docs.,0.07(emitter:0.67, emission:0.60, field:0.57, display:0.40, cathode:0.38) + ID=11 : 4 docs.,0.13(chemic vapor deposition:0.86, sic:0.56, grow:0.44, plate:0.42, thicknes:0.42) + ID=19 : 2 docs.,0.21(electron-emissive:1.00, carbon film:0.70, compromise:0.70, emissive material ... 13 docs. : 0.240830 (energy: 46.8, circuit: 34.0, junction: 33.3, device: 26.0, element: 24.9) + 9 docs. : 0.329811 (antenna: 31.0, energy: 29.5, system: 29.4, electromagnetic: 25.0, granular: 20.6) + ID=4 : 5 docs.,0.07(wave:0.77, induc:0.58, pattern:0.45, nanoscale:0.44, molecule:0.35) + ID=15 : 4 docs.,0.12(linear:0.86, antenna:0.86, frequency:0.74, optic antenna:0.70, …) + ID=10 : 4 docs.,0.06(cool:0.70, sub-ambient:0.70, thermoelectric cool apparatuse:0.70, nucleate:0.70, ...

主題樹與主題地圖

Carbon Nanotube 專利文獻分析

Page 30: CATAR- 文獻內容探勘工具

書目對分析• 執行命令 ( 範例 ) :

– C:\CATAR\bin>parl CATAR.par automc.pl -OBC SE ..\Source_Data\SE\SE.mdb

• 結果:– C:\CATAR\Result\SE_BC

• *.html:主題樹• *all*.html:主題樹以及各項資料之交叉分析• *.xls:各主題與各項資料之交叉分析• *titles*.html:每個主題包含之篇名

30

Page 31: CATAR- 文獻內容探勘工具

共現字分析• 執行命令 ( 範例 ) :

– C:\CATAR\bin>parl CATAR.par automc.pl -OCW SE ..\Source_Data\SE\SE.mdb

• 結果:– C:\CATAR\Result\SE_CW

• *.html:主題樹• *all*.html:主題樹以及各項資料之交叉分析• *.xls:各主題與各項資料之交叉分析• *titles*.html:每個主題包含之篇名

31

Page 32: CATAR- 文獻內容探勘工具

分析範例 - 曾元顯著作 - 書目對• 1(6): 34 : 6 Docs. : 0.020000 (cluster: 5.1, map: 3.0, min: 3.0, text: 2.1)

– 12 : 4 Docs. : 0.142857 (cluster: 7.0, patent: 5.2, text: 3.7, generic: 2.6, title: 2.6) • 5 : 3 Docs. : 0.224490 (cluster: 5.0, generic: 3.1, title: 3.1, text: 2.4, document: 2.3)

– 1 : 2 Docs. : 0.692308 (generic: 4.0, title: 4.0, cluster: 3.2, document: 3.1, correlation coefficient: 2.0) » 2 : ISI:000241690200012 : 2006:Toward generic title generation for clustered documents

6 : ISI:000272846500049 : 2010:Generic title labeling for clustered documents – 3 : ISI:000246869800006 : 2007:Text mining techniques for patent analysis

• 4 : ISI:000251991600006 : 2007:Patent surrogate extraction and evaluation in the context of patent mapping – 18 : 2 Docs. : 0.052632 (education: 4.0, content analysi: 2.0, content: 2.0, media: 2.0)

• 7 : ISI:000277110400017 : 2010:Mining concept maps from news stories for measuring civic scientific literacy in media • 8 : ISI:000279714800001 : 2010:Trends of Science Education Research: An Automatic Content Analysis

• 2(3): 15 : 3 Docs. : 0.095238 (neural network: 3.1, quadratic: 2.3, sort: 2.3, perceptron: 1.7) – 2 : 2 Docs. : 0.333333 (quadratic: 3.0, sort: 3.0, perceptron: 2.3, winner-take-all: 1.4, constant-time: 1.4)

• 13 : ISI:A1995QT09700011 : 1995:ON A CONSTANT-TIME, LOW-COMPLEXITY WINNER-TAKE-ALL NEURAL-NETWORK • 9 : ISI:A1992HU15600007 : 1992:SOLVING SORTING AND RELATED PROBLEMS BY QUADRATIC PERCEPTRONS

– 10 : ISI:A1992HY58100028 : 1992:CONSTRUCTING ASSOCIATIVE MEMORIES USING HIGH-ORDER NEURAL NETWORKS

• 3(2): 14 : 2 Docs. : 0.113208 (automatic: 3.1, chinese: 1.4, text: 1.4, thesauru: 1.4) – 0 : ISI:000167255500002 : 2001:Automatic cataloguing and searching for retrospective data by use of OCR te

xt

– 1 : ISI:000178776600007 : 2002:Automatic thesaurus generation for Chinese documents • 4(2): 3 : 2 Docs. : 0.285714 (code: 4.0, decoder: 1.4, fast: 1.4, reed-muller: 1.4)

– 11 : ISI:A1993MA58300001 : 1993:DECODING REED-MULLER CODES BY MULTILAYER PERCEPTRONS

– 12 : ISI:A1993MA58300002 : 1993:FAST NEURAL DECODERS FOR SOME CYCLIC CODES • 5(1): 36 : 1 Docs. : 0 (hot: 2.0, detect: 2.0, comparison: 2.0, topic: 1.1, scientometric: 0.7) • 5 : ISI:000270841800006 : 2009:A comparison of methods for detecting hot topics

32

合理度: 100%

門檻 =0.0

Page 33: CATAR- 文獻內容探勘工具

分析範例 - 曾元顯著作 - 書目對 (

第二階 )

• 1(2): 1 : 5 Docs. : 0.100000 (neural: 4.0, perceptron: 3.0, code: 2.4, decoder: 1.8, network: 1.8) – 1 : 15 : 3 Docs. : 0.095238(neural network: 3.1, quadratic: 2.3, sort: 2.3,

perceptron: 1.7)

– 3 : 3 : 2 Docs. : 0.285714(code: 4.0, decoder: 1.4, fast: 1.4, reed-muller: 1.4)

• 2(2): 2 : 8 Docs. : 0.022556 (automatic: 5.0, document: 4.0, text: 4.0, generation: 3.0, cluster: 1.8) – 0 : 34 : 6 Docs. : 0.020000(cluster: 5.1, map: 3.0, min: 3.0, text: 2.1) – 2 : 14 : 2 Docs. : 0.113208(automatic: 3.1, chinese: 1.4, text: 1.4, thesaur

u: 1.4)• 3(1): 4 : 1 Docs. : 0 (hot: 2.0, detect: 2.0, comparison: 2.0,

topic: 2.0, scientometric: 1.0) – 4 : 36 : 1 Docs. : 0(hot: 2.0, detect: 2.0, comparison: 2.0, topic: 1.1, scientometri

c: 0.7)

33

合理度: 100%

門檻 =0.0

第一階的類別編號與篇數

Page 34: CATAR- 文獻內容探勘工具

分析範例 - 曾元顯著作 - 書目對 (

第二階 )

34

Page 35: CATAR- 文獻內容探勘工具

分析範例 - 曾元顯著作 - 共現字• 1(5): 29 : 5 Docs. : 0.0940 (term: 19.0, document: 6.7, algorithm: 4.0)

– 7 : 3 Docs. : 0.5403 (document: 12.2, generic: 7.7, cluster: 7.6, term: 7.4, algorithm: 6.0) • 2 : 2 Docs. : 0.9610 (cluster: 10.8, generic: 10.0, label: 7.0, title: 7.0, document: 5.6)

– 2 : ISI:000272846500049 : 2010:Generic title labeling for clustered documents

– 6 : ISI:000241690200012 : 2006:Toward generic title generation for clustered documents

• 7 : ISI:000178776600007 : 2002:Automatic thesaurus generation for Chinese documents

– 3 : 2 Docs. : 0.7090 (map: 7.7, patent: 5.4, term: 4.1, scientific: 4.0, new: 4.0) • 1 : ISI:000277110400017 : 2010:Mining concept maps from news stories for measuring civic scientific literacy in media

• 4 : ISI:000251991600006 : 2007:Patent surrogate extraction and evaluation in the context of patent mapping

• 2(3): 19 : 3 Docs. : 0.2776 (automatic: 7.3, text: 6.9, analysi: 4.9, approach: 4.6, topic: 1.9) – 4 : 2 Docs. : 0.6881 (science: 7.4, analysi: 6.9, education: 5.4, science education: 5.4, research: 5.4)

• 0 : ISI:000279714800001 : 2010:Trends of Science Education Research: An Automatic Content Analysis

• 5 : ISI:000246869800006 : 2007:Text mining techniques for patent analysis

– 8 : ISI:000167255500002 : 2001:Automatic cataloguing and searching for retrospective data by use of OCR text

• 3(2): 1 : 2 Docs. : 1.00 (network: 7.7, memory: 4.0, associative memory: 2.7, winner-take-all: 2.0) – 12 : ISI:A1992HY58100028 : 1992:CONSTRUCTING ASSOCIATIVE MEMORIES USING HIGH-ORDER

NEURAL NETWORKS

– 9 : ISI:A1995QT09700011 : 1995:ON A CONSTANT-TIME, LOW-COMPLEXITY WINNER-TAKE-ALL NEURAL-NETWORK

• 4(1): 30 : 1 Docs. : 0 (trend: 6.7, different: 5.0, better: 3.0, trend observation: 3.0, choice: 3.0) – 3 : ISI:000270841800006 : 2009:A comparison of methods for detecting hot topics

35

有共同的 Map 或Mapping 之詞彙與概念,但其他概念則不相同

合理度: 60%-80%

Page 36: CATAR- 文獻內容探勘工具

主題趨勢分析• 列出主題之年代篇數序列• 計算其線性回歸線的斜率• 按此斜率排序主題,可分析

– 趨勢漸增之主題– 趨勢漸減之主題

Page 37: CATAR- 文獻內容探勘工具

Breakdown Trends of ICT in Edu.Cluster 1 Cluster 2 Cluster 3 Cluster 4 Cluster 5 Cluster 6

68 : 993 筆 104 : 464 筆 22 : 237 筆 85 : 139 筆 97 : 55 筆 51 : 83 筆

1990 38 1 9 1 7 1

1991 53 1 8 2 6 0

1992 55 4 4 1 11 0

1993 50 3 9 1 7 1

1994 42 2 18 5 5 1

1995 50 17 23 0 6 0

1996 47 12 19 2 5 0

1997 57 27 17 10 3 0

1998 66 29 11 5 2 0

1999 52 28 14 7 0 1

2000 69 33 15 8 0 0

2001 43 43 13 11 0 1

2002 44 44 9 10 0 2

2003 53 34 8 14 1 11

2004 56 59 7 12 0 11

2005 71 43 21 15 1 14

2006 69 37 10 10 1 27

2007 78 47 22 25 0 13

Dying out

topics

Hot topics during that

periodM

ain stream

to

pic

Topic w

ith perio

dic

attraction

Promising topics (not yet mature)

Page 38: CATAR- 文獻內容探勘工具

解讀• 最有價值的部分• Access 檔案

–可人工修改,再進行書目對與共現字之分析• Excel 檔案:各種交叉分析結果,可作圖• HTML 檔案:主題樹、篇名與交叉分析結果• 主題地圖檔案

– 第 n階的文件,其主題地圖在第 n階的結果裡,而其中的顏色,代表各個文件所屬的類別

– 第 n階的類別,其主題地圖在第 n+1階的結果裡38

Page 39: CATAR- 文獻內容探勘工具

解讀• 多用不同參數、方式探索• 解讀出有意義的資訊為準• 有意義的資訊,可能散落在不同參數所產生的結果中• 每一種參數、方式,都有可解讀之處,越多者,越佳• 配合領域專家、有經驗者 ( 科學計量專家 ) 一起解讀• 參考:

– 陳超美 (2010) 。如何選取 CiteSpace 的參數。 http://www.sciencenet.cn/m/user_content.aspx?id=378974

39

Page 40: CATAR- 文獻內容探勘工具

分析案例• 曾元顯、林瑜一( 2011 )。 內容探勘技術在教育評鑑研究發展趨勢分析之應用。教育科學研究期刊, 56(1) , 1-38 。

• Yueh-Hsia Chang, Chun-Yen Chang, and Yuen-Hsien Tseng, "Trends of Science Education Research: An Automatic Content Analysis", Journal of Science Education and Technology, Vol. 19, No. 4, 2010, pp. 315-331.

40

Page 41: CATAR- 文獻內容探勘工具

• 先從概觀分析開始– 才能將 WoK 資料剖析到資料庫中– 其後才能進行書目對與共現字分析

• 非 WoK 資料之分析– 參考:

• C:\CATAR\Source_Data\movie\movie.mdb

• C:\CATAR\Source_Data\eport\eport.mdb (感謝本校資訊中心汪耀華組長整理資料 )

– 將自己的資料,依照上述檔案範例放入資料庫中,若無 CR 欄位則直接進行共現字分析

– 若某欄位要置放多個項目,則每個項目之間以「 ; 」隔開,如「 Chang, YH; Chang, CY; Tseng, YH」

• 將 WoK 的 SC 對應到自己定義的類別– 編輯: C:\CATAR\bin\ISI_SC2C.txt

– 如果沒有此項需求,可以不用理會這一點

注意事項

41