Download ppt - Data Mining - Baseball Data

Data Mining - Baseball DataData Mining - Baseball Data

Clustering ( 群聚方法 )

學生 : 鄭嘉仁 . 蘇信嘉

指導老師 : 于昌永

目的目的 ::

利用 K-mean , Pam , Hierarchical 三種群聚的方法 (Cluster) , 去分析 Baseball Data 中 , 球員的表現與薪水高低的關聯性 .

接著利用這三種方法的結果 , 去預測 Baseball Data 中某些球員的缺失薪水 .

步驟步驟 ::Standardize K-meansPam Hierarchical

總結總結 ::

因為 k-mean 和 pam 皆需選定 k 值 , 而我們可以利用 Hierarchical 的方法 , 選定最佳的 k 值 , 再去進行 k-mean 和 pam 的分析 .

所以經過這三種方法的分析結果 , 我們選定了 k=5 為最佳 k 值 . 然後對 k-mean跟 pam 作比較 , 結果如下 :

0 50 100 150 200 250 300

05

00

10

00

15

00

20

00

25

00

Index

hitte

rm[o

rde

r(t1

), "

SA

LA

RY

"]

0 50 100 150 200 250 300

05

001

00

015

002

00

025

00

Index

hitte

rm

od

[o

rd

er(t1

), "S

AL

AR

Y"]

用用 k-mean(k=5)k-mean(k=5) 下去預測缺失的薪水資下去預測缺失的薪水資料料

球員編號薪水預測第一類 102.104.107.200.247. 50 萬第二類 16.37.43.58.67.72.78.84.95.106.139.151.158.

161.170.172.174.204.209.271.299.317 95 萬

第三類 33.49.81.105.236.284.309. 15 萬第四類 19.23.31.39.42.45.53.65.70.98.115.126.145.

159.211.226.229.251.255.293.303 55 萬

第五類 1.40.198.254 45 萬