Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
統計学- 社会統計の基礎 -
第5回
仕入れ計画体験
~相関係数と回帰直線
担当: 岸 康人
資料ページ: https://goo.gl/qw1DJw
前回の演習
(3+10+5+2)/4 = 5
解答
{3, 10, 5, 2}の平均値は?
{3, 10, 5, 2}の中央値は?
小さい方から並べると、{2, 3, 5, 10}だから、(3+5)/2 = 4
解答
前回の演習
{3, 10, 5, -100}の中央値は?
小さい方から並べると、{-100, 3, 5, 10}だから、(3+5)/2 = 4
解答
この2つ以外の値は中央値に影響しない
前回の演習
(3+10100+5-100)/4 = 2502
解答
{3, 10100, 5, -100}の平均値は?
{3, 10100, 5, -100}の中央値は?
小さい方から並べると、{-100, 3, 5, 10100}だから、(3+5)/2 = 4
解答
前回の演習
{3, 10100, 5, -100, -91812, 7136113}の中央値は?
小さい方から並べると、
{-91812, -100, 3, 5, 10100, 7136113}だから、
(3+5)/2 = 4
解答
前回の演習
正しい
平均値:全てのデータの値の和/データの個数
中央値:データを小さい順に並べたときに中央に位置する値
解答
中央値と平均値の違いについて、正しいものを選べ
ー違いはデータの値に着目するか、順序に着目するか、である
前回の演習
間違い
データの和(足し算)に順序は関係ない
解答
中央値と平均値の違いについて、正しいものを選べ
ー平均値は全てのデータの順序が重要である
前回の演習
間違い
{10,20,30}と{-100,20,100}で、最大値・最小値は異なるが
中央値には影響していない
解答
中央値と平均値の違いについて、正しいものを選べ
ー中央値は、サンプルサイズが3以上で、最大値と最小値の
影響を受ける
前回の演習
間違い
中央に位置する1つ、または、それに近い2つの値以外の値は
いくら大きくても、いくら小さくても中央値には無関係
解答
中央値と平均値の違いについて、正しいものを選べ
ー中央値は、データの中で一番大きい値が大きくなるほど、大
きくなる
前回の演習
標準偏差
解答
ばらつきを表す指標は、次の中のどれか
ばらつき小
前回の演習
標準偏差
解答
ばらつきを表す指標は、次の中のどれか
ばらつき大
統計学
▋教科書
– 「活用事例でわかる! 統計リテラシー ~数学が苦手でも大丈夫! ~」
– noa出版
統計の活用事例(2.2)
▋仕入れ計画0
– 対象:あるコンビニ店舗でのおにぎりの売上
• 具:梅、明太子、ツナマヨ
– 仕入れの個数調整がうまくいっていない
• 廃棄ロスが大きな課題
• 具材ごとの販売数予測が必要
– 仕入れ分析のためのデータを収集
• (最高)気温、それぞれの具の売上個数
売上予測をして効率的な仕入れをしたい
→仕入れ計画(Excel)
統計の活用事例(2.2)
▋仕入れ計画0:ファイルの確認
– シート
• 販売戸数データ:日付、月、最高気温、梅、明太子、ツナマヨ
• 分析
統計の活用事例(2.2)
▋仕入れ計画0:練習
– シート「販売個数データ」のB列に月の数値だけを表示する数式を入力せよ
• 後で月別の集計をしやすくするため
=MONTH(A3)
日付(シリアル値)から月の数値だけを取り出す関数
– シート「販売個数データ」のG列に梅、明太子、ツナマヨの売上個数の合計を求めよ
統計の活用事例(2.2)
▋仕入れ計画1:練習
– シート「分析」のB3:B14に、最高気温の月別平均を求めよ
• ヒント:AVERAGEIF()
– シート「分析」のC3:E14に、梅、明太子、ツナマヨ、合計それぞれについて、月毎に1日の販売個数平均を求めよ
– 月毎の販売数と気温のグラフを観察せよ
• 1つのグラフ内にプロット(複合グラフ)
• 販売数は折れ線、気温は棒グラフ
統計の活用事例(2.2)
▋仕入れ計画1:練習
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
40.0
0
200
400
600
800
1,000
1,200
1,400
1 2 3 4 5 6 7 8 9 10 11 12
気
温
(℃)
販
売
個
数
月
月別販売数と気温
最高気温の平均 梅 明太子 ツナマヨ
統計の活用事例(2.2)
▋仕入れ計画2
– 気温と販売個数は関係ある?
– 相関係数 Correlation Coefficient
• CORREL( データ1 , データ2 )
データ1とデータ2は同じ個数の対応したものでないといけない
• 気温と梅おにぎりの販売個数の相関係数
分析!A18:= CORREL( 気温のセル範囲 , 梅おにぎりの~ )
• Y=aX+bの関係があるかどうかの指標
例えば、Xは気温、Yは梅の販売個数
a>0ならば相関係数は1、a<0ならば-1
統計の活用事例(2.2)
▋仕入れ計画2
– 相関係数
• 相関の正負
1に近い場合「正の相関がある」
» Xが大きくなれば、Yも大きくなる
-1に近い場合「負の相関がある」
» Xが大きくなれば、Yは小さくなる
• 相関の強弱
(絶対値が)1~0.7:強い相関
(絶対値が)0.4前後:弱い相関
XとYは独立→相関は0
相関係数
▋相関係数(Correlation Coefficient)
– 共分散: Cov[X, Y]=E[ (X-E[X]) (Y-E[Y]) ]
• XとYのそれぞれの平均からのずれの積についての平均
• Y=Xとすると分散となる
相関係数
▋相関係数(Correlation Coefficient)
– 散布図と相関係数
http://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0
相関係数
▋相関係数(Correlation Coefficient)
– 散布図と相関係数
http://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0
相関係数
▋相関係数(Correlation Coefficient)
– 散布図と相関係数
• 相関係数が0だからといって独立とは限らない
http://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0
相関係数
▋相関係数(Correlation Coefficient)
– 使いドコロ
• 2つのサンプルパスに関連がありそうな/あってほしいときに論拠のひ
とつとなる
2つのサンプルパスは、観測値等、ランダム性を含むデータでないと
意味がない
論理的に関連があることが明らかな場合は意味がない
北京の蝶とニューヨークの嵐のような解釈の難しいケースに使用し
てもあまり意味がない
相関係数
▋相関係数(Correlation Coefficient)
– 使いドコロ
• Y=aX+bにどれだけ近いか、という指標であって、他の関係について
は何も言えない
Y=sin(X)という関係が成り立っている場合、YとXは従属関係だが、
相関係数からは何も得られない
YがXの1次関数になっているという仮説があるときに、データがど
れだけ1次関数になっているのかを示すのが相関係数
• 因果関係を説明するわけではない
XとYに強い相関があっても、XがYの原因であるとは言えない
(v.v.)
統計の活用事例(2.2)
▋仕入れ計画3:気温による販売個数の予測
– 回帰直線
• 「Y=aX+b」
例えば、Xは気温、Yは梅の販売個数
データと直線の距離が最も小さくなるようにaとbを定めたもの(最
小二乗法)
統計の活用事例(2.2)
▋仕入れ計画3:気温による販売個数の予測
– 回帰直線:気温と梅の売上個数
y = 0.6017x + 20.47
0
5
10
15
20
25
30
35
40
45
50
0.0 5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0
売上個数
気温
統計の活用事例(2.2)
▋仕入れ計画3:練習
– 気温と明太子、気温とツナマヨについても散布図を描き、回帰直線を表示せよ
統計の活用事例(2.2)
▋仕入れ計画3:気温による販売個数の予測
– 回帰直線
• Y = 0.6017 X + 20.47
X:気温、Y:梅の販売個数
• 分析!C22:= 0.6017*B22 + 20.47
→ C23:C28にオートフィル
統計の活用事例(2.2)
▋仕入れ計画3:気温による販売個数の予測
– 回帰直線
• 梅: Y = 0.6017 X + 20.47
• 明太子: Y = 0.4525 X + 21.349
• ツナマヨ: Y = -0.4636 X + 37.731