18
STAT0_corr 1 二二二二二二二 二二二二二二二二二二二二二二 二二二 二二二二二二二二二二二 二二二二二二二 二二二二二二二二二二 二二二 x-y 二二二二二二二二二二二二 二二二二二二二二二二二二二二二

STAT0_corr1 二變數的相關性 變數之間的關係是統計研究上的一大目標 討論二分類變數的相關性,以列聯表來表示 討論二連續隨機變數時,可以作

  • View
    295

  • Download
    1

Embed Size (px)

Citation preview

STAT0_corr 1

二變數的相關性

變數之間的關係是統計研究上的一大目標 討論二分類變數的相關性,以列聯表來表示 討論二連續隨機變數時,可以作 x-y 散佈圖觀察

它們的關係強度 以相關係數來代表二者關係的強度

STAT0_corr 2

工作表現  差 中等 好

平均以下 67 64 25

測驗成績 平均 42 76 56

平均以上 10 23 37

二分類變數:工作表現與測驗成績

0

20

40

60

80

100

120

0 20 40 60 80 100 120

Eco-score

Anth

-sco

re

二連續變數: 經濟學成績與人類學成績

Econ Anthro51 74

68 70

72 88

97 93

人數

分數

STAT0_corr 3

二變數的關係可以是正相關,負相關,或 無關

-80

-70

-60

-50

-40

-30

-20

-10

0

10

20

30

0 2 4 6 8 10 12

X

Y

-10

0

10

20

30

40

50

60

70

0 2 4 6 8 10 12

X

Y

-20

-15

-10

-5

0

5

10

15

20

25

30

0 2 4 6 8 10 12

X

Y

STAT0_corr 4

即是二變數相關,相關性也有不同強度

0

10

20

30

40

50

60

70

0 2 4 6 8 10 12

X

Y

0

10

20

30

40

50

60

70

0 2 4 6 8 10 12

X

Y

-20

-10

0

10

20

30

40

50

60

70

0 2 4 6 8 10 12

X

Y

-60

-40

-20

0

20

40

60

80

100

0 2 4 6 8 10 12

X

Y

如何量測相關性強度?

STAT0_corr 5

二變數的相關係數

x , y 皆為隨機變數時,二者之相關性強度以 ρ 代表,稱為母體的相關係數。

。 樣本相關係數公式如下,稱為 Pearson’s coefficient of correlation

)()(

))((

22 yyxx

yyxx

SS

Sr

ii

ii

yyxx

xy

STAT0_corr 6

Computation formula for r

nx

iixxixxxS

2)(22)(

nyx

iiiixyiiyxyyxxS ))(())((

( 平方和 – 和之平方 / 樣本數 )

同理可得到下列二式:

ny

iiyyiyyyS

2)(22)(

STAT0_corr 7

例 17.1 : 12 個學生 final exam 經濟和人類學的成績如下表,求相關係數 r

需要的基本統計值為: X 之和, X 之平方和 Y 之和, Y 之平方和 XY 之和

Econ Anthro51 74

68 70

72 88

97 93

55 67

73 73

95 99

74 73

20 33

91 91

74 80

80 86

0

20

40

60

80

100

120

0 20 40 60 80 100 120

Eco-score

Ant

h-sc

ore

STAT0_corr 8

12n ,69453

74883 ,927

65230 ,8502

2

xy

yy

xx

Sxx =

Syy =

Sxy =

r =

STAT0_corr 9

例 17.2 :經過職前訓練後, 400 位學員工作表現和考試成績統計如下表,求相關係數 r

因為是分類變數,無法直接作計算

需要將各類別數量化 工作表現: -1, 0, 1 測驗成績: -1, 0, 1

工作表現  差 中等 好

平均以下 67 64 25

測驗成績 平均 42 76 56

平均以上 10 23 37

工作表現 (y)  -1 0 1

-1 67 64 25

測驗成績 (x) 0 42 76 56

1 10 23 37

STAT0_corr 10

xy

y

y

x

x

2

222 226)1(70)1(156

,86)1(700174)1(156

Sxx =

Syy =

Sxy =

r =

工作表現 (y)  -1 0 1

-1 67 64 25

x 0 42 76 56

1 10 23 37

STAT0_corr 11

相關係數之意義

-1≦r≦+1 r >0 時, X 與 Y 是正相關, r < 0 時, X

與 Y 是負相關 r 值度量 X 與 Y 線性關係之強度 Y=a+bX 時, r=1 或 -1 |r| 愈接近 1 ,表示 X 與 Y 線性關係愈強;

|r| 愈接近 0 ,表示 X 與 Y 線性關係愈弱。

STAT0_corr 12

猜猜下列資料的相關係數

0

10

20

30

40

50

60

70

0 2 4 6 8 10 12

X

Y

0

10

20

30

40

50

60

70

0 2 4 6 8 10 12

X

Y

-20

-10

0

10

20

30

40

50

60

70

0 2 4 6 8 10 12

X

Y

r=0.958

r=0.813

r=0.912

r=0.427

-100

-80

-60

-40

-20

0

20

40

60

80

100

120

0 2 4 6 8 10 12

X

Y

STAT0_corr 13

相關係數之特性

r 值與使用的單位無關 資料加減一常數, r 值不變,資料乘一倍

數, r 值不變 經驗: r > 0.9 ,視為強相關; r < 0.5 ,視為弱相關; r 值介於中間,視為中強相關。

實作上對相關係數的要求會因研究的領域而有差異。

STAT0_corr 14

以直線配適資料

當我們發現二變數間有相關性時,自然地想進一步地去得到一直線

得到的直線稱為迴歸線 (regression line) 此直線可用來解釋變數之間互相影響的效

果,或用來作預測 正式的迴歸分析涉及層面很廣,會有專門

的課學習

STAT0_corr 15

例 16.1 :我們知道長期暴露在噪音下會影響聽力,現在想用一直線式來說明暴露時間的長短對聽力的影響程度。搜集了 12 個人暴露時間的週數 (x) 與聽力範圍 (y) 的資料

10

11

12

13

14

15

16

0 50 100 150 200

no of weeks

hear

ing

rang

e

length hearing

47 15.1

56 14.1

116 13.2

178 12.7

19 14.6

75 13.8

160 11.9

31 14.8

12 15.3

164 12.6

43 14.7

74 14

STAT0_corr 16

最小平方法 Ordinary Least Square

先假設直線為: Y = a+bX 資料為 (xi, yi) 欲使樣本誤差項 (ei=yi- a - bxi ) 的平方和極小化,即

mini (yi- a - bxi )2

求解 a, b

STAT0_corr 17

令 Q =i (yi - a - bxi )2 , Q 對 a 微分 = 0 , Q 對 b 微分 =0

xbyS

Sb

xx

xy a ,

STAT0_corr 18

例 16.1 :我們知道長期暴露在噪音下會影響聽力,現在想用一直線式來說明暴露時間的長短對聽力的影響程度。搜集了 12 個人暴露時間的週數 (x) 與聽力範圍 (y) 的資料

4.12884

54.2331 ,8.166

117397 ,9752

2

xy

yy

xx

Sxx =

Sxy =

b = a=

最小平方線為 xy 0175.03.15ˆ

暴露在噪音下的時間每增加一星期,聽力範圍減少 0.0175