24
1 2 変数の集計 統計学入門 2008.04 2010.05.18 演習問題にヒント追加 2011.05.11 一部修正 2012.05.08 抵抗線アニメーション付加

030 2変数の集計

Embed Size (px)

Citation preview

Page 1: 030 2変数の集計

1

2変数の集計

統計学入門2008.04

2010.05.18 演習問題にヒント追加2011.05.11 一部修正

2012.05.08 抵抗線アニメーション付加

Page 2: 030 2変数の集計

2

2変量のデータ番号 身長 体重

1 148 412 160 493 159 454 153 435 151 426 140 297 156 498 137 319 149 47

10 160 4711 151 4212 157 3913 157 4814 144 36

番号 X Y1 x1 y12 x2 y23 x3 y34 x4 y45 x5 y5

n xn yn

一般には

Page 3: 030 2変数の集計

3

2変量データの分析• 1変量データとして

– 「身長」の分析• 代表値 ばらつき グラフ表現

– 「体重」の分析• 代表値 ばらつき グラフ表現

• 2変量データとして– 「身長」と「体重」の関係

• 散布図• 傾向線(回帰直線)• 直線的な傾向の強さ(相関係数)

Page 4: 030 2変数の集計

4

1変量データとしての集計• 変量 Xについて

– データ   x1, x2, ・・・ xn

– 平均値

– 分散  

n

xxxx n+++= 21

∑=

−=n

iix xx

ns

1

22 )(1

• 変量 Yについて– データ   y1, y2,

・・・ yn

– 平均値

– 分散  

n

yyyy n+++= 21

∑=

−=n

iiy yy

ns

1

22 )(1

Page 5: 030 2変数の集計

5

各変数ごとの要約> (1var-analysis height)

fivnum (137 148.5 152 157 160)

mean 151.57142857142856

S.D. 7.345477789500418

> (1var-analysis weight)

fivnum (29 40 42.5 47 49)

mean 42.000000000000008

S.D. 6.385078759829887

Page 6: 030 2変数の集計

6

平行箱ひげ図> (boxplot (list height weight))

> (boxplot (list height height2))

Page 7: 030 2変数の集計

7

2変量データとしての分析

• Xと Yとの関連を調べる– 散布図– 直線的な傾向– 傾向線(回帰直線)– 直線的な傾向の強弱を数値化

• 相関係数

Page 8: 030 2変数の集計

8

散布図 (scatterplot scattergram)

• (xi, yi) を平面上の点の座標として、n個の点をプロットしたもの

> plot(height, weight)

x軸   y軸

Page 9: 030 2変数の集計

9

さまざまな散布図 � 右上がり

� 右下がり� 傾向なし� 直線以外の関係

Page 10: 030 2変数の集計

10

傾向線

• 散布図に右上がり、ないしは右下がりの直線的な傾向がある場合

• 傾向を示す直線(傾向線)を引こう

• どんな基準で傾向線を決めるか?

Page 11: 030 2変数の集計

11

抵抗線? (resistance line)

• x軸の変数の値の大きさで n/3個づつに3分割– X軸の値が小さい  G1グループ– X軸の値が中位の  G2グループ– X軸の値が大きな  G3グループ

• G1, G3のグループで– X, Yの中央値(ないしは平均値)を計算– G1 の中央値 XM1, YM1

– G3の中央値  XM3, YM3

• 傾き b = (YM1 - YM3)/( XM - XM3)

• 切片 上記の傾きの直線を上下し、直線より上側の点の個数と下側の点の個数が同じになるところ

Page 12: 030 2変数の集計

12

抵抗線

G1 G2 G3

個3

n 個3

n個3

n

Page 13: 030 2変数の集計

13

回帰直線 (regression line)  y=a+bx• 最小2乗法

– 誤差の考え方 i 番目のデータ (xi, yi) について

データの y の値   yi

直線上の yの値   a+bxi =

2乗誤差の和

iy

∑∑==

+−=−=n

iii

n

iii bxayyybaQ

1

2

1

2 )}({)ˆ(),(

minimize

Page 14: 030 2変数の集計

14

誤 差

Page 15: 030 2変数の集計

15

y=a+bx

xi

yi

データ

誤差

ii bxay +=ˆ

) ,( ii yx

Page 16: 030 2変数の集計

16

回帰直線(つづき)

0)1)}(({2)}({1

2

1

=−+−=+−∂∂=

∂∂ ∑∑

==ii

n

iii

n

i

bxaybxayaa

Q

0)}({1

=+−∑=

ii

n

i

bxay

∑∑∑===

+=n

ii

n

i

n

ii xbay

111

xbay +=

Page 17: 030 2変数の集計

17

∑∑

=

=

==

=−−−−−=

−−−∂∂=

+−−∂∂=+−

∂∂=

∂∂

n

iiii

n

iii

ii

n

iii

n

i

xxxxbyy

xxbyyb

bxxbyyb

bxaybb

Q

1

1

2

2

1

2

1

0))()}((){(2

)}(){(

)}({)}({

0))}(({2)}({1

2

1

=−+−=+−∂∂=

∂∂ ∑∑

==iii

n

iii

n

i

xbxaybxaybb

Q

∑∑==

−−=−−n

iii

n

iii xxxxbxxyy

11

))(())((

2

1

2

1

1

2

1

)(1

))((1

)(

))((

x

xy

n

ii

n

iii

n

ii

n

iii

s

s

xxn

yyxxn

xx

yyxxb =

−−=

−−=

=

=

=

=

Page 18: 030 2変数の集計

18

切片と傾きxbay +=

=

=

−−== n

ii

n

iii

x

xy

xxn

yyxxn

s

sb

1

2

12

)(1

))((1

Page 19: 030 2変数の集計

19

回帰直線 (regression line)• 最小2乗法で求めた直線

ˆˆ

x

xy

s

sb

xbya

=

−=

)(

)(ˆ

ˆ)ˆ(

ˆˆ

2xx

s

syy

xxbyy

xbxbyy

xbay

x

xy −=−

−=−

+−=

+=

yyxx ==  のとき 

Page 20: 030 2変数の集計

20

2本の回帰直線

体重

身長

身長

体重

Page 21: 030 2変数の集計

21

2本の回帰直線• 身長 (x)と体重 (y)の回帰直線

• 体重 (x')と身長 (y')の回帰直線

• 記号を元の x, y に戻すと

)(2

xxs

syy

x

xy −=−

)''(''2'

'' xxs

syy

x

yx −=−

)(2

yys

sxx

y

xy −=−

yの (xの上への)回帰直線

xの (yの上への )回帰直線

身長

体重

体重

身長

Page 22: 030 2変数の集計

22

2本の回帰直線• yの回帰直線

• xの回帰直線

• いずれも         という点を通る

• 2本の回帰直線は         で交わる

)(2

xxs

syy

x

xy −=−

)(2

yys

sxx

y

xy −=−

),(),( yxyx =

),(),( yxyx =

Page 23: 030 2変数の集計

23

2本の回帰直線が等しくなるのは

)(2

xxs

syy

x

xy −=− )(2

yys

sxx

y

xy −=−

)(2

xxs

syy

xy

y −=−

122

2

2

2

=

=

yx

xy

xy

y

x

xy

ss

s

s

s

s

s

の場合である

Page 24: 030 2変数の集計

24

演習• 回帰直線を求めよう

• height– 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151,

157, 157, 144– 和 2122 2 乗和 322338

• weight– 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36– 和 588 2 乗和 25226

• 積和  89643

平均: 42分散: 37.8571

平均: 151.57分散: 50.2449