Data Mining - Baseball DataData Mining - Baseball Data
Clustering ( 群 聚 方 法 )
學生 : 鄭嘉仁 . 蘇信嘉
指導老師 : 于昌永
目的 目的 ::
利用 K-mean , Pam , Hierarchical 三種群聚的方法 (Cluster) , 去分析 Baseball Data 中 , 球員的表現與薪水高低的關聯性 .
接著利用這三種方法的結果 , 去預測 Baseball Data 中某些球員的缺失薪水 .
步驟 步驟 ::Standardize K-meansPam Hierarchical
總結 總結 ::
因為 k-mean 和 pam 皆需選定 k 值 , 而我們可以利用 Hierarchical 的方法 , 選定最佳的 k 值 , 再去進行 k-mean 和 pam 的分析 .
所以經過這三種方法的分析結果 , 我們選定了 k=5 為最佳 k 值 . 然後對 k-mean跟 pam 作比較 , 結果如下 :
0 50 100 150 200 250 300
05
00
10
00
15
00
20
00
25
00
Index
hitte
rm[o
rde
r(t1
), "
SA
LA
RY
"]
0 50 100 150 200 250 300
05
001
00
015
002
00
025
00
Index
hitte
rm
od
[o
rd
er(t1
), "S
AL
AR
Y"]
用用 k-mean(k=5)k-mean(k=5) 下去預測缺失的薪水資下去預測缺失的薪水資料料
球員編號 薪水預測第一類 102.104.107.200.247. 50 萬第二類 16.37.43.58.67.72.78.84.95.106.139.151.158.
161.170.172.174.204.209.271.299.317 95 萬
第三類 33.49.81.105.236.284.309. 15 萬第四類 19.23.31.39.42.45.53.65.70.98.115.126.145.
159.211.226.229.251.255.293.303 55 萬
第五類 1.40.198.254 45 萬