Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
散らばりの代表値:分散と標準偏差
この章では、平均値を中心として、データがどの程度散らばっているかを測る量について勉強してゆこう。
平均は同じでも、散らばりが違えば、
2
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
2.5
-7.5
7.5
-12
.5
12
.5-1
7.5
17
.5-2
2.5
22
.5-2
7.5
27
.5-3
2.5
32
.5-3
7.5
37
.5-4
2.5
42
.5-4
7.5
47
.5-5
2.5
52
.5-5
7.5
57
.5-6
2.5
62
.5-6
7.5
67
.5-7
2.5
72
.5-7
7.5
77
.5-8
2.5
82
.5-8
7.5
87
.5-9
2.5
92
.5-9
7.5
均質な分布
散らばりの大きな分布
散らばりが大きいと・・・・
日本は様々な面で、米欧の国々と較べて、均質であると言われている。
女子バレーボールW杯では、イタリアが、努力の結果、優勝した。
アメリカには、かなり貧しい層が存在する。教育水準も同様。
フランスには、アフリカ難民を養子にしたい人々が数多く存在する。
3
平均と散らばり
オリンピックマラソン代表選手候補が2名いる。一人だけを選ぶ。
AはBより平均タイムは上であり、タイムの散らばりは少ない。
平均タイムでは、両選手はメダルに届かない。
メダルを獲ることが目的なら、どちらの選手を選ぶか?
4
散らばり重視の場合
5
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
平均55標準偏差5
平均50標準偏差10
6
様々な、散らばりの代表値
範囲:(最大値ー最小値)
四分位範囲:(上位25%の値ー下位25%の値)
分散:データと平均の距離の2乗を平均したもの.
平均絶対偏差:データと平均の距離を平均したもの.
7
1 代表値——分散
一般にデータは,バラツキを持っている.
平均値からの距離を用いて,散らばりの尺度を作りたい.
x1
x2
x3
x4
x5
x
8
分散
12,15,18,11,23の(算術)平均値は,
)2311181512(5
18.15
5
)8.1523()8.1511()8.1518()8.1515()8.1512( 222222 s
そこで,分散は次のように計算される.
9
平均値と分散
データを
nxxxxx ,,,,, 4321 とするとき,平均値と分散は,
n
i
in xn
xxxxxn
x1
4321
1)(
1
n
i i
n
xxn
xxxxxxn
s
1
2
22
2
2
1
2
)(1
})()(){(1
10
標準偏差
データを
nxxxxx ,,,,, 4321 とするとき,標準偏差は,
n
i
in xn
xxxxxn
x1
4321
1)(
1
n
i i
n
xxn
xxxxxxn
s
1
2
22
2
2
1
)(1
})()(){(1
実際に、分散と標準偏差の計算をしよう。
表5-1 ある5人の2回の数学のテストの得点
i 1 2 3 4 5 平均1回目 70 70 70 70 85 732回目 55 55 75 95 85 73
11
最高点 最低点
1回目 85 70
2回目 95 55
表5-2 分散の計算 (a)1回目
1 70
2 70
3 70
4 70
5 85
合計
平均
12
iix xxi
2)( xxi
365
73
37370
37370
37370
37370
127385
0365365
0
9)7370( 2
9)7370( 2
9)7370( 2
9)7370( 2
144)7385( 2
180
36
73x平均 362 s分散 636 s標準偏差
表5-2 分散の計算 (b)2回目
1 55
2 55
3 75
4 95
5 85
合計
平均
13
iix xxi
2)( xxi
365
73
187355
187355
27375
227395
127385
0365365
0
324)7355( 2
324)7355( 2
4)7375( 2
484)7395( 2
144)7385( 2
1280
256
73x平均 2562 s分散 16256 s標準偏差
表5-2 分散の計算 記号
1
2
n-1
n
合計
平均
14
iix xxi
2)( xxi
1x
2x
1nx
nx
n
i
ix1
n
i
ixn
x1
1
xx 1
xx 2
xxn 1
xxn
01
xnxn
i
i
0
2
1 )( xx 2
2 )( xx
2
1 )( xxn
2)( xxn
2
1
)( xxn
i
i
2
1
2 )(1
xxn
sn
i
i
15
分散と標準偏差の性質(1)
データに一定の数を加えても,分散・標準偏差は不変である.
nxxxxx ,,,,, 4321
cxcxcxcx n ,,,, 321
の分散(標準偏差)と
の分散(標準偏差)は等しい。
分散と標準偏差の性質(1)
1
2
n-1
n
合計
平均
16
i cxy ii yyi 2)( yyi
cxy 11
cnxyn
i
i
n
i
i 11
cxy
xxyy 11
xxyy 22
xxn 1
xxn
01
xnxn
i
i
0
2
1 )( xx 2
2 )( xx
2
1 )( xxn
2)( xxn
2
1
)( xxn
i
i
2
1
22 )(1
xxn
ssn
i
ixy
cxy 22
cxy nn 11
cxy nn
17
分散と標準偏差の性質(2)
データに一定の数 a を掛けると,分散は元の分散の a2 倍・標準偏差は |a| 倍になる.
nxxxxx ,,,,, 4321
naxaxaxax ,,,, 321 の分散を
の分散は
とすると, 222 )(1
xxn
ss ix
22
xsa 標準偏差は xsa ||
分散と標準偏差の性質(2)
1
2
n-1
n
合計
平均
18
iii xay yyi
2)( yyi
11 xay
n
i
i
n
i
i xay11
xay
)( 11 xxayy
)( 22 xxayy
)( 1 xxa n
)( xxa n
0)(1
xnxan
i
i
0
2
1
2 )( xxa 2
2
2 )( xxa
2
1
2 )( xxa n
22 )( xxa n
2
1
2 )( xxan
i
i
2
1
2222 )(1
xxn
asasn
i
ixy
22 xay
11 nn xay
nn xay
19
分性質(1)(2)より
であり、
caxcaxcaxcax n ,,,, 321
標準偏差は、
の分散は22
xsa
xsa || である。
20
分散と標準偏差の性質(3)
多くの実際のデータでは,平均から標準偏差の3倍以上離れたデータは,あまりない.
)(3)( 標準偏差平均値
xsx 3
男子学生の身長の場合
2186.19162.63172 14.15262.63172
女子学生の場合
2233.1755.5383.158 33.14250.5383.158
分布が釣鐘型をしていたら(正規分布と見てよいならば)
経験的に、以下の法則が成り立つ。
平均±標準偏差の範囲には、
全体の約70%のデータが含まれる。
平均±2×標準偏差の範囲には、
全体の約95%のデータが含まれる。
平均±3×標準偏差の範囲には、
全体の99.7%のデータが含まれる。
統計学 23
正規分布とは、
自然科学の分野では最も標準的な分布である。
平均50標準偏差10の正規分布に従うデータが数
限りなく得られたとしたら、そのヒストグラムは下のようになる。
24
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.00
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0-2
6-8
12-1
4
18-2
0
24-2
6
30-3
2
36-3
8
42-4
4
48-5
0
54-5
6
60-6
2
66-6
8
72-7
4
78-8
0
84-8
6
90-9
2
96-9
8級幅を小さく
0.000
0.005
0.010
0.015
0.020
0.025
0.030
0.035
0.040
0.045
0-1
6-7
12-1
3
18-1
9
24-2
5
30-3
1
36-3
7
42-4
3
48-4
9
54-5
5
60-6
1
66-6
7
72-7
3
78-7
9
84-8
5
90-9
1
96-9
7
男子学生の身長が正規分布に従っているとしたら、
平均±
標準偏差平均±
2×標準偏差
平均±
3×標準偏差
男子学生の場合
165.4~178.6
158.8~185.2
152.1~191.9
男子学生の割合
正規分布から計算
25
%2.65 %0.97 %100
cm
cm
62.6
0.172
標準偏差
平均
データから計算
同じ平均・標準偏差の正規分布 %68 %95 %7.99
cm
cm
50.5
8.158
標準偏差
平均
データから計算
同じ平均・標準偏差の正規分布
女子学生の場合は、
平均±
標準偏差平均±
2×標準偏差
平均±
3×標準偏差
女子学生の場合
153.3~164.3
147.8~169.8
142.3~175.3
女子学生の割合
正規分布から計算
26
%2.65 %7.95 %100
%68 %95 %7.99
27
トヨタ株価収益率の場合
平均±
標準偏差平均±
2×標準偏差
平均±
3×標準偏差
収益率の場合
-2.8%~3.0%
-5.7%~5.9%
-8.6%~8.8%
収益率の割合
正規分布から計算
%0.75 %0.96 %0.98
t
tt
x
xx 1(
前時点の株価
前時点の株価)現時点の株価収益率
%68 %95 %7.99
28
度数分布表から分散を計算する
階級平均収入
人数
Ⅰ 4 2
Ⅱ 6 3
Ⅲ 8 4
Ⅳ 12 1
表にまとめられる前のデータは、
4, 4, 6, 6, 6, 8, 8, 8, 8, 12
であると考えて、平均と分散を計算すればよい。
これまでの計算方法
1 4
2 4
3 6
4 6
5 6
6 8
7 8
8 8
9 8
10 12
合計
平均 29
iix xxi
2)( xxi
70
71070
374
374
176
176
176
178
178
178
178
5712
0
0
9
9
1
11
1
1
1
1
25
50
51050 52 s分散は
7x
平均は
30
度数分布表から分散を計算する
階級平均収入
人数階級内収入合計
偏差 偏差2 偏差2×人数
Ⅰ 4 2
Ⅱ 6 3
Ⅲ 8 4
Ⅳ 12 1
合計
平均 分散
10
824
1836
3248
12112
70
71070
374
176
178
5712
9
1
1
25
1829
331
441
50
25125
51050
31
度数分布表から分散を計算する
階級平均収入
人数合計収入
偏差 偏差2 偏差2×人数
Ⅰ
Ⅱ
Ⅲ
Ⅳ
合計
平均 分散
n1
n2
n3
n4
in
x1
x2
x3
x4
n1 x1
n2 x2
n3 x3
n4 x4
*
ii xn
iii nxnx
32
度数分布表から分散を計算する
階級平均収入
人数階級内収入合計 偏差 偏差2 偏差2×人
数
Ⅰ
Ⅱ
Ⅲ
Ⅳ
合計
平均 分散
n1
n2
n3
n4
in
x1
x2
x3
x4
n1 x1
n2 x2
n3 x3
n4 x4
*
ii xn
iii nxnx
xx 1
xx 2
xx 3
xx 4
2
1 )( xx
2
2 )( xx
2
3 )( xx
2
4 )( xx
2
11 )( xxn
2
22 )( xxn
2
33 )( xxn
2
44 )( xxn
2)( xxn ii
iii nxxns 22 )(
33
リスクとリターン
株価や為替レートでは,時間変化率(収益率)を求め,それを分析対象とする.
時間変化率の平均をリターンと呼び,標準偏差をリスクを示すものと考える.
変動が大きければ大きいほど,資産価値が元本を割り込むリスクが増す.
実際に計算してみよう(表2−2).
34
4. 時間変化率と寄与度
時系列データでは、数値の変化率を観察することが多い。
前時点に比べて何パーセントの増加/減少が見られるかを知りたい。
1
1
t
ttt
y
yyx
35
時間変化率(収益率)の計算
年月 1997/1 1997/2 1997/3 1997/4
株価 18330 18557 18003 19151
変化率
t
1
2
4
3
yt
y1
y2
y3
y4
xt
x2 y2 y1
y1 18330
1833018557
0124.0
株価収益率の分布を、リスク(標準偏差)とリターン(平均)で代表させる
36
他の会社についても同様
37
その他の会社も同様
38
39
40
自由度調整済分散(不偏分散)
n
i i
n
xxn
xxxxxxn
s
1
2
22
2
2
1
2
)(1
})()(){(1
n
i i
n
xxn
xxxxxxn
v
1
2
22
2
2
1
2
)(1
1
})()(){(1
1
記述統計の場合=VARP()
推測統計の場合=VAR()
41
3 変動係数
変動係数とは,(標準偏差)÷(平均)を言う.
身長をメートルで表すときと、センチメートルで表すときでは標準偏差が異なる。
データ 身長(m) 身長(cm)
1 1.75
: : :
55 1.69
平均 1.725
標準偏差 0.062
5.172
175
169
2.6
5.172
2.6
725.1
062.0
変動係数
変動係数は、単位を変えても、一定である。
100
100
100
100
42
同様に、
価格の散らばりを見るとき、円で計算しても、ドルで計算しても、変動係数は変わらない。
データ ドル価格 円価格
1 120
: : :
55 220
平均 155
標準偏差 30
a155
a120
a220
a30
a
a
155
30
155
30
変動係数
変動係数は、単位を変えても、一定である。
a
a
a
a
変動係数を利用して、散らばりの程度を比較できるかもしれない
象の体重とネズミの体重
株価変動
家計の支出項目
43
表5-5項目別支出の平均・標準偏差・変動係数(2006年)
食料 光熱・水道 教育 教養娯楽
平均(円) 69403.1 21998.2 18713.3 31421.5
標準偏差(円) 13634.4 2794.2 9821.8 11599.7
変動係数 0.20 0.13 0.52 0.37
表2-5より算出
44
レンジ(範囲)と4分位範囲
レンジ(Range:範囲)
(データの最大値)ー(データの最小値)
四分位範囲
(上位25%の値)ー(下位25%の値)
=第3四分位数ー第1四分位数
四分位偏差
四分位範囲÷2
45
平均偏差(あまり用いられない)
数学的に扱い難い×
標準偏差に比べ,離れた値があっても大きくならない○
平均値との相性が悪い×
}{1
1
21
1
xxxxxxn
xxn
n
n
i i
表5-2 分散の計算 (a)1回目
1 70
2 70
3 70
4 70
5 85
合計
平均
46
iix xxi
2)( xxi
表5-2 分散の計算 (b)2回目
1 55
2 55
3 75
4 95
5 85
合計
平均
47
iix xxi
2)( xxi
表5-2 分散の計算 記号
1
2
n-1
n
合計
平均
48
iix xxi
2)( xxi
1x
2x
1nx
nx
これまでの計算方法
1 4
2 4
3 6
4 6
5 6
6 8
7 8
8 8
9 8
10 12
合計
平均 49
iix xxi
2)( xxi
50
度数分布表から分散を計算する
階級平均収入
人数階級内収入合計
偏差 偏差2 偏差2×人数
Ⅰ 4 2
Ⅱ 6 3
Ⅲ 8 4
Ⅳ 12 1
合計
平均 分散
51
度数分布表から分散を計算する
階級平均収入
人数階級内収入合計 偏差 偏差2 偏差2×人数
Ⅰ
Ⅱ
Ⅲ
Ⅳ
合計
平均 分散
n1
n2
n3
n4
x1
x2
x3
x4
52
時間変化率の計算
年月 1997/1 1997/2 1997/3 1997/4
株価 18330 18557 18003 19151
変化率
xt
他の会社についても同様
53
その他の会社も同様
54
55