6
Data Mining - Data Mining - Baseball Data Baseball Data Clustering ( 群 群 群 群 ) 群群 : 群群群 . 群群群

Data Mining - Baseball Data

  • Upload
    poppy

  • View
    44

  • Download
    4

Embed Size (px)

DESCRIPTION

Data Mining - Baseball Data. Clustering ( 群 聚 方 法 ) 學生 : 鄭嘉仁 . 蘇信嘉 指導老師 : 于昌永. 目的 :. 利用 K-mean , Pam , Hierarchical 三種群聚的方法 (Cluster) , 去分析 Baseball Data 中 , 球員的表現與薪水高低的關聯性 . 接著利用這三種方法的結果 , 去預測 Baseball Data 中某些球員的缺失薪水. 步驟 :. Standardize K-means Pam - PowerPoint PPT Presentation

Citation preview

Page 1: Data Mining - Baseball Data

Data Mining - Baseball DataData Mining - Baseball Data

Clustering ( 群 聚 方 法 )

學生 : 鄭嘉仁 . 蘇信嘉

指導老師 : 于昌永

Page 2: Data Mining - Baseball Data

目的 目的 ::

利用 K-mean , Pam , Hierarchical 三種群聚的方法 (Cluster) , 去分析 Baseball Data 中 , 球員的表現與薪水高低的關聯性 .

接著利用這三種方法的結果 , 去預測 Baseball Data 中某些球員的缺失薪水 .

Page 3: Data Mining - Baseball Data

步驟 步驟 ::Standardize K-meansPam Hierarchical

Page 4: Data Mining - Baseball Data

總結 總結 ::

因為 k-mean 和 pam 皆需選定 k 值 , 而我們可以利用 Hierarchical 的方法 , 選定最佳的 k 值 , 再去進行 k-mean 和 pam 的分析 .

所以經過這三種方法的分析結果 , 我們選定了 k=5 為最佳 k 值 . 然後對 k-mean跟 pam 作比較 , 結果如下 :

Page 5: Data Mining - Baseball Data

0 50 100 150 200 250 300

05

00

10

00

15

00

20

00

25

00

Index

hitte

rm[o

rde

r(t1

), "

SA

LA

RY

"]

0 50 100 150 200 250 300

05

001

00

015

002

00

025

00

Index

hitte

rm

od

[o

rd

er(t1

), "S

AL

AR

Y"]

Page 6: Data Mining - Baseball Data

用用 k-mean(k=5)k-mean(k=5) 下去預測缺失的薪水資下去預測缺失的薪水資料料

  球員編號 薪水預測第一類 102.104.107.200.247. 50 萬第二類 16.37.43.58.67.72.78.84.95.106.139.151.158.

161.170.172.174.204.209.271.299.317 95 萬

第三類 33.49.81.105.236.284.309. 15 萬第四類 19.23.31.39.42.45.53.65.70.98.115.126.145.

159.211.226.229.251.255.293.303 55 萬

第五類 1.40.198.254 45 萬