Upload
t2tarumi
View
142
Download
2
Embed Size (px)
Citation preview
1
2変数の集計
統計学入門2008.04
2010.05.18 演習問題にヒント追加2011.05.11 一部修正
2012.05.08 抵抗線アニメーション付加
2
2変量のデータ番号 身長 体重
1 148 412 160 493 159 454 153 435 151 426 140 297 156 498 137 319 149 47
10 160 4711 151 4212 157 3913 157 4814 144 36
番号 X Y1 x1 y12 x2 y23 x3 y34 x4 y45 x5 y5
n xn yn
一般には
3
2変量データの分析• 1変量データとして
– 「身長」の分析• 代表値 ばらつき グラフ表現
– 「体重」の分析• 代表値 ばらつき グラフ表現
• 2変量データとして– 「身長」と「体重」の関係
• 散布図• 傾向線(回帰直線)• 直線的な傾向の強さ(相関係数)
4
1変量データとしての集計• 変量 Xについて
– データ x1, x2, ・・・ xn
– 平均値
– 分散
n
xxxx n+++= 21
∑=
−=n
iix xx
ns
1
22 )(1
• 変量 Yについて– データ y1, y2,
・・・ yn
– 平均値
– 分散
n
yyyy n+++= 21
∑=
−=n
iiy yy
ns
1
22 )(1
5
各変数ごとの要約> (1var-analysis height)
fivnum (137 148.5 152 157 160)
mean 151.57142857142856
S.D. 7.345477789500418
> (1var-analysis weight)
fivnum (29 40 42.5 47 49)
mean 42.000000000000008
S.D. 6.385078759829887
6
平行箱ひげ図> (boxplot (list height weight))
> (boxplot (list height height2))
7
2変量データとしての分析
• Xと Yとの関連を調べる– 散布図– 直線的な傾向– 傾向線(回帰直線)– 直線的な傾向の強弱を数値化
• 相関係数
8
散布図 (scatterplot scattergram)
• (xi, yi) を平面上の点の座標として、n個の点をプロットしたもの
> plot(height, weight)
x軸 y軸
9
さまざまな散布図 � 右上がり
� 右下がり� 傾向なし� 直線以外の関係
10
傾向線
• 散布図に右上がり、ないしは右下がりの直線的な傾向がある場合
• 傾向を示す直線(傾向線)を引こう
• どんな基準で傾向線を決めるか?
11
抵抗線? (resistance line)
• x軸の変数の値の大きさで n/3個づつに3分割– X軸の値が小さい G1グループ– X軸の値が中位の G2グループ– X軸の値が大きな G3グループ
• G1, G3のグループで– X, Yの中央値(ないしは平均値)を計算– G1 の中央値 XM1, YM1
– G3の中央値 XM3, YM3
• 傾き b = (YM1 - YM3)/( XM - XM3)
• 切片 上記の傾きの直線を上下し、直線より上側の点の個数と下側の点の個数が同じになるところ
12
抵抗線
G1 G2 G3
個3
n 個3
n個3
n
13
回帰直線 (regression line) y=a+bx• 最小2乗法
– 誤差の考え方 i 番目のデータ (xi, yi) について
データの y の値 yi
直線上の yの値 a+bxi =
2乗誤差の和
iy
∑∑==
+−=−=n
iii
n
iii bxayyybaQ
1
2
1
2 )}({)ˆ(),(
minimize
14
誤 差
15
y=a+bx
xi
yi
データ
誤差
ii bxay +=ˆ
) ,( ii yx
16
回帰直線(つづき)
0)1)}(({2)}({1
2
1
=−+−=+−∂∂=
∂∂ ∑∑
==ii
n
iii
n
i
bxaybxayaa
Q
0)}({1
=+−∑=
ii
n
i
bxay
∑∑∑===
+=n
ii
n
i
n
ii xbay
111
xbay +=
17
∑
∑
∑∑
=
=
==
=−−−−−=
−−−∂∂=
+−−∂∂=+−
∂∂=
∂∂
n
iiii
n
iii
ii
n
iii
n
i
xxxxbyy
xxbyyb
bxxbyyb
bxaybb
Q
1
1
2
2
1
2
1
0))()}((){(2
)}(){(
)}({)}({
0))}(({2)}({1
2
1
=−+−=+−∂∂=
∂∂ ∑∑
==iii
n
iii
n
i
xbxaybxaybb
Q
∑∑==
−−=−−n
iii
n
iii xxxxbxxyy
11
))(())((
2
1
2
1
1
2
1
)(1
))((1
)(
))((
x
xy
n
ii
n
iii
n
ii
n
iii
s
s
xxn
yyxxn
xx
yyxxb =
−
−−=
−
−−=
∑
∑
∑
∑
=
=
=
=
18
切片と傾きxbay +=
∑
∑
=
=
−
−−== n
ii
n
iii
x
xy
xxn
yyxxn
s
sb
1
2
12
)(1
))((1
19
回帰直線 (regression line)• 最小2乗法で求めた直線
2ˆ
ˆˆ
x
xy
s
sb
xbya
=
−=
)(
)(ˆ
ˆ)ˆ(
ˆˆ
2xx
s
syy
xxbyy
xbxbyy
xbay
x
xy −=−
−=−
+−=
+=
yyxx == のとき
20
2本の回帰直線
体重
身長
身長
体重
21
2本の回帰直線• 身長 (x)と体重 (y)の回帰直線
• 体重 (x')と身長 (y')の回帰直線
• 記号を元の x, y に戻すと
)(2
xxs
syy
x
xy −=−
)''(''2'
'' xxs
syy
x
yx −=−
)(2
yys
sxx
y
xy −=−
yの (xの上への)回帰直線
xの (yの上への )回帰直線
身長
体重
体重
身長
22
2本の回帰直線• yの回帰直線
• xの回帰直線
• いずれも という点を通る
• 2本の回帰直線は で交わる
)(2
xxs
syy
x
xy −=−
)(2
yys
sxx
y
xy −=−
),(),( yxyx =
),(),( yxyx =
23
2本の回帰直線が等しくなるのは
)(2
xxs
syy
x
xy −=− )(2
yys
sxx
y
xy −=−
)(2
xxs
syy
xy
y −=−
122
2
2
2
=
=
yx
xy
xy
y
x
xy
ss
s
s
s
s
s
の場合である
24
演習• 回帰直線を求めよう
• height– 148, 160, 159, 153, 151, 140, 156, 137, 149, 160, 151,
157, 157, 144– 和 2122 2 乗和 322338
• weight– 41, 49, 45, 43, 42, 29, 49, 31, 47, 47, 42, 39, 48, 36– 和 588 2 乗和 25226
• 積和 89643
平均: 42分散: 37.8571
平均: 151.57分散: 50.2449