24
1 SPSS 軟 軟軟軟軟軟軟 南南南南南南南南南 南南南

SPSS 軟體與多變量分析

  • Upload
    kyrene

  • View
    66

  • Download
    3

Embed Size (px)

DESCRIPTION

SPSS 軟體與多變量分析. 南台科技大學企管系 呂金河. §1 主成分分析. 目的 : 將原來多個有相關的變數,藉由原變數的線性組合,“簡化”成較少個數的新變數 ( 主成份 ) ,這些新變數彼此不相關,且希望能解釋大部分原始資料中的變異,而這幾個主成份可用來代表原始資料的較簡化的綜合性指標,以做進一步分析應用。. 例如 (1) 分析某公司的財務健康狀況,分析師找出了 100 種財務比率的資料,如何將這 100 種比率“簡化”成少數幾個 ( 約 3 種 ) 綜合指標,可由原 100 種變數的線性組合呈現。 - PowerPoint PPT Presentation

Citation preview

Page 1: SPSS 軟體與多變量分析

1

SPSS軟體與多變量分析

南台科技大學企管系 呂金河

Page 2: SPSS 軟體與多變量分析

2

§1 主成分分析 目的:將原來多個有相關的變數,藉由原

變數的線性組合,“簡化”成較少個數的新變數 ( 主成份 ) ,這些新變數彼此不相關,且希望能解釋大部分原始資料中的變異,而這幾個主成份可用來代表原始資料的較簡化的綜合性指標,以做進一步分析應用。

Page 3: SPSS 軟體與多變量分析

3

例如 (1) 分析某公司的財務健康狀況,分析師找出了 1

00 種財務比率的資料,如何將這 100 種比率“簡化”成少數幾個 ( 約 3 種 ) 綜合指標,可由原 100種變數的線性組合呈現。

(2) 學期末各科考試成績,設有國、英、數、理、化、史、地七科,如何將七科成績 ( 原始資料 )“化簡”成一個綜合數字 ( 主成份 ) ,用來“代表”學生的全部成績 ?

(3) 品管工程師想由一堆製程變數的量測資料,導出少數幾個主要的綜合指標,以顯示製程是否 in control

Page 4: SPSS 軟體與多變量分析

4

方法:將一組行為變數 ( 或稱構面函數 ) 減縮為指標變數 Yi , Yi 為 的線性組合,希望第一主成分 Y1 是此線性組合中變異數最大者

1. 利用 的變異數矩陣 ( 或相關矩陣 ) 的特徵根 λi 的特徵向量決定主成分中線性組合的係數值

2. Var(Yi)= λi ,其解釋總變異的百分比為 此值表示 Yi 的解釋(總變異的)能力 3. 用陡坡圖或保留特徵值大於 1 者,決定要保留

使用的主成分個數,若 Y1 已解釋 60% 以上,即可認定 Y1 為總指標,足以代表 k 個行為變數 ( 或認為前幾個主成分能解釋 70% 以上,即算滿意結果 )

k21 X , ,X ,X k21 X , ,X ,X

k21 X , ,X ,X

k

1ii

i

Page 5: SPSS 軟體與多變量分析

5

4. 用 loading ( 負荷 ) = Corr(Xi,Yj) 0.5≧ 者,解釋Yj 的意義 ( 命名 )

5. 主成分 Yj 互為獨立,故可取主成分計分 (Score)為新變數,再做迴歸或區別分析,可避免原 Xi 共線性 ( 高度線性相關 ) 的問題

6. 用相關矩陣所得 Y1 的主成分計分,可轉換成 N(0,1) 的 CDF ,稱為百分位序,可用以顯示個案

( 各觀察點 ) 在總指標上的相對強度,以比較個案間的差異

Page 6: SPSS 軟體與多變量分析

6

例 1 :用下列資料求消費者物價指數 (Consumer Price Index(CPI))

SPSS 操作 :

點選分析 資料縮減 因子 在對話框將 Bread 、 Burger 等物價變數移入變數 按描述統計量,勾選未轉軸之統計量,相關矩陣的係數 繼續 按萃取,勾選方法為主成份,分析用相關矩陣,顯示未旋轉因子解陡坡圖,萃取特徵值 繼續 按分數,勾選因素儲存或變數,方法為迴歸方法 繼續 確定

Page 7: SPSS 軟體與多變量分析

7

§2典型相關分析 目的:: 1. 求兩組變數 {X1, X2, …, Xp} 與 {Y1, Y2, …, Yq} 之

間的相關,尋找 X 變數的線性組合 Wi 與 Y 變數的線性組合 Vi , Wi, Vi 分別為 X, Y 的第 i 個典型變數(canonical variate) ,使得

(1) W1, V1 為 X, Y 變數的所有線性組合中,相關係數最大者

(2) W2, V2 與 W1, V1 互為獨立,且 W2, V2 為滿足此條件的線性組合中,相關係數最大者。

(3) Wi, Vi 與前所有個典型變數 Wj, Vj 互為獨立,且為滿足此條件的線性組合中,相關係數最大者。

2. 典型變數最多 min(p, q) 對,但相關係數可能只有m < min(p, q) 個顯著,應決定需要至少多少個典型相關,才能適當描述兩組變數 X, Y 的關聯。

Page 8: SPSS 軟體與多變量分析

8

例如: (1) 健康部門想知道住家品質,如房屋型態,冷暖氣條件,自來水的提供,廚房及衛浴設備,與微小和嚴重疾病發生數,無力工作天數間的關連大小。

(2)研究人員想知道個人的生活型態及飲食習慣是否對其健康有影響,健康情況可用一些相關變數如高血壓,體重,焦慮,緊張水準等量測。

(3) 行銷經理想知道購買的產品型態與消費者生活型態及個性是否有關連。

二組變數若能分出其中一組為自變數或預測變數 (predictor) ,另一組為因變數或準則變數 (criterion) ,則典型相關可以看出自變數是否影響因變數。

Page 9: SPSS 軟體與多變量分析

9

方法 : 1. 的特徵向量 a ,得典型變數

的特徵向量 b ,得典型變數 。兩

者特徵值 ρ2 相等,即為典型相關係數 ρ ,向量 a ,b 為典型權重,大於 0.3 者具有解釋能力。

2. 用 Wilk ‘s Lambda(Λ)檢定是否所有 ,即

作總檢定。用 Likelihood ratio(概似比 )檢定,檢定是否第 m + j 個之後的 ρ 為 0

(註 ) ,以決定應保留幾組典型變數 ( 則不保留 )

YX1

YYXY1XX

XaW

XY1

XXYX1

YY YaV

0i i ,0:H i0

M21 0i

Page 10: SPSS 軟體與多變量分析

10

3. 計算 W 與 X 的相關係數稱為 W 的典型負荷,得典型結構矩陣,用以解釋 W 的意義 ( 命名 ) 。 V 的命名,亦由 V 與 Y 的典型負荷量 ( 值者 ) 決定

4. 計算 W 與 Y 的相關係數,及 V 與 X 的相關係數,進一步說明彼此的相關大小與方向

5. 計算自我相關係數,為典型負荷值的平方的平均值,用以表示典型變數所解釋的共有變異量的比例,即自我解釋的能力。

Page 11: SPSS 軟體與多變量分析

11

6. 計算重疊指數 (Index of Redundancy)R.I. ,此為自我相關係數乘以典型相關係數的乘積。 如同複迴歸的 R2(判定係數 ) , R.I. 是衡量典型相關中一組變數被另一組變數解釋的變異百分比。 R.I.<0.05 者表示解釋力不足,該典型變數不予考慮。

7. 若 X, Y 能分出 X 為自變數, Y 為因變數,則可用的複歸估計式,直接看 Xi 與 Yj 的關係情況。

Page 12: SPSS 軟體與多變量分析

12

例 : 用消費情境變數 (飲用習慣 滿足胃口 換用品牌 享受氣氛 ) 與產品強度變數 (口味偏好、產品形象、競爭優勢 ) 作典型相關析,以決定廣告策略及廣告訴求重點。

Page 13: SPSS 軟體與多變量分析

13

SPSS 程式須用語法寫出程式以執行典型相關分析。 manova飲用習慣 滿足胃口 換用品牌 享受氣氛 with 口味偏好、產品形象、競爭優勢

/Discrim raw stan estim corr rotate (varimax) alpha(0.05)

/print signif(eign dimenr hypoth) /noprint signif(mult univ) param(estim) /error within+residual /design.

Page 14: SPSS 軟體與多變量分析

14

3 區別 (判別 )分析 目的: (1) 指出能最佳分辨出二群或多群的變數。 (2) 利用這些有分辨力的變數,導出一個方程式或函

數,以形成一個新變數或指標,用來簡約的呈現群間的差別。

(3) 利用這些有分辨力的變數或新指標,導出一種規則,用來判別一個新觀察點應歸屬那一群。

Page 15: SPSS 軟體與多變量分析

15

例如: (1) 國稅局( IRS )想找出在查稅時,能分辨

出逃稅與未逃稅的兩群人的重要變數,再將此類變數合成一個指標,以此簡約的方法,呈現二群間的差別。然後用此指標,預測某人報稅時是否逃稅。

(2)醫藥研究員想對有心臟病的兩群人,找出二者顯著不同的決定性變數,然後用這些變數的值,來預測某一病人是否會得心臟病。

(3) 行銷經理想找出能成功顯示品牌購買者與未購買者二者不同的突出特質,再利用這些資訊,以預測潛在顧客購買的意向

Page 16: SPSS 軟體與多變量分析

16

方法 : 1. 利用兩母體 t檢定或單因子變異數分析指

出哪些自變數,具有區別能力 (i.e. 各群的均值應不等 ) ,亦可用逐次區別分析 (常用 Wilks 法 ) ,指出具較佳分辨力的變數

2. 利用 Wilk’s Λ 檢定各群的均值向量是否不等, ( 此表示自變數向量具有總體區別能力 )

3. 利用 Box’s M檢定各群的變異數矩陣是否相等

Page 17: SPSS 軟體與多變量分析

17

4. 計算典型區別函數 (Canonical discriminant functions) ( 求群間變異數矩陣 B ,與群內變異數矩陣 W相除的 矩陣的特徵值 λi 所對應的特徵向量 γi ,即為第 i 個典型區別函數的係數向量 )

由特徵值的 Wilks’ Lambda檢定,判定要選幾個區別函數

標準化係數常用來評估自變數在該區別函數的重要性 ( 但自變數間共線性強時, 應避用之 )

用 loading (結構矩陣係數)來解釋區別函數的意義 ( 取值> 0.3 者 ) 或命名。

BW 1

Page 18: SPSS 軟體與多變量分析

18

用區別函數的值 ( 區別計分 ) ,判定觀察值應歸屬哪一群 ( 分兩群時,切割點 C常取兩群區別計分平均值 、 的加權平均 )

5. 計算分類函數 (classification functions) 第 i群的分類函數 將觀察值 x ,帶入 ,其值最大時, x就歸屬該群

計算事後機率 ,其值最大時, x就歸屬該群 計算分類結果 (摘要表 ) 及誤判率 ( 或命中率 )常與集群分析共同使用,即在集群分析後,用區別

分析來鑑定分群之效度

1Z 2Z

21

2211

nn

ZnZnC

ii1

i1

ii pln2

1x)x(d

)x(d i

)x|(p i

Page 19: SPSS 軟體與多變量分析

19

例 3 : 以 Y = 偏好廠牌, X1=年齡, X2= 所得,X3=產品認知為自變數做區別分析,以預測偏好口味。

SPSS 操作 : 點選分析 分類 判別 在對話框將偏好廠牌移到分組變數,並將年齡、所得和產品認知移到自變數 按統計量,勾選描述性統計量的單變量 ANOVA 、 Box’s M檢定、平均數、 Fisher’s判別函數係數、未標準化 繼續 若點選 ”使用逐步迴歸分析方法” 則按方法 勾選方法中的 Wilks’ lambda值 繼續 按分類,勾選事前機率的設定及顯示的摘要表或 Leave-one-out 分類方法 繼續 按儲存,勾選儲存預測的組群及其他 繼續 確定

Page 20: SPSS 軟體與多變量分析

20

§4 集群分析 目的:集群分析的目的是要將觀察點分群,使得每群內元素對集群變數而言,同質性高,期能掌握集群結構。因此群聚分析的步驟如下:

(1) 量測相似性 (2) 決定分群的技巧 (層次法或非層次法 )(hierarchic

al or nonhierarchical) (3) 決定分群技巧的分群方式 (層次法中的重心法,華德法等 )

(4) 決定分群的群數 (5)群聚解的解釋

Page 21: SPSS 軟體與多變量分析

21

例如: (1)投資銀行的財務分析師想指出最值得接收

的公司群名單。 (2) 行銷經理想指出可以用來檢測市場情況的

相似城市的名單。 (3) 某候選人的競選活動經理想指出對某重要議題有相似觀點的選民群集

Page 22: SPSS 軟體與多變量分析

22

方法 : 1. 分群的方法分為層次法 (含單一連結法、完全連

結法、平均 ( 中心 )連結法、華德法等 ) 與非層次法(K-means 法 )二大類。分群的基本原則是同質的個案集成一群,而同質性的衡量對分析性變數,用距離 (含歐氏距離、馬氏距離、市街距離等 ) ,對分類性變數,用相似性 (含匹配相似量數、 Jaccard相似比等 )衡量。

2.先用層次法分群,用華德法等樹狀圖的高度對分群個數畫陡坡圖,跳躍量最大處的右端點即為最適分群個數,或用 R2 、半偏 R2 等決定分群個數。

3. 用層次法決定分群個數 ( 可用層次法分群的各群中心值為初始種子 ) ,再做 K-means 法決定最後的分群

4. 由 1-way ANOVA ,若各變數在各群的均值差異顯著,則可由其均值大小對各分群命名。

Page 23: SPSS 軟體與多變量分析

23

例 4 : 27 種食品的營養資料,今用單一聯結,完全聯結,重心法,華德法做層次法群聚分析,以決定最合理的分群,再用此分群的重心為初始 seeds ,進行非層次法群聚分析,以得最佳分群。

Page 24: SPSS 軟體與多變量分析

24

SPSS 操作 先做層次法: 點選分析 分類 階層集群分析法 在對話框上 ,

將 5 個分群變數右移至變數 (V)欄 按統計量 , 勾選群數凝聚過程 ,及近似性矩陣 繼續 按圖形 , 勾選樹狀圖及方向 繼續 按方法 ,集群方法選 Ward 's法 , 測量選區間的歐基里得直線距離平方 繼續 確定

再做非層次法 (K-means 法 ) : 點選分析 分類 K平均數集群 在對話框上,將 5

個分群變數右移至變數 (V)欄 集群個數鍵入 3 若要自訂初始種子,則按中心點,勾選起始中心點讀入來源,按檔案,選取起始種子存檔的檔名,按開啟 按儲存,勾選各集群組員與集群中心點的距離 繼續 按選項,勾選各集群初始的中心, ANOVA摘要表,各觀察值的集群資訊 繼續 確定

在 ANOVA 表的各變數若差異顯著,則由各群在各變數平均值的大小,對集群命名