31
統計学 - 社会統計の基礎 - 第5回 仕入れ計画体験 ~相関係数と回帰直線 担当: 岸 康人 資料ページ: https://goo.gl/qw1DJw

社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計学- 社会統計の基礎 -

第5回

仕入れ計画体験

~相関係数と回帰直線

担当: 岸 康人

資料ページ: https://goo.gl/qw1DJw

Page 2: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

前回の演習

(3+10+5+2)/4 = 5

解答

{3, 10, 5, 2}の平均値は?

{3, 10, 5, 2}の中央値は?

小さい方から並べると、{2, 3, 5, 10}だから、(3+5)/2 = 4

解答

Page 3: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

前回の演習

{3, 10, 5, -100}の中央値は?

小さい方から並べると、{-100, 3, 5, 10}だから、(3+5)/2 = 4

解答

この2つ以外の値は中央値に影響しない

Page 4: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

前回の演習

(3+10100+5-100)/4 = 2502

解答

{3, 10100, 5, -100}の平均値は?

{3, 10100, 5, -100}の中央値は?

小さい方から並べると、{-100, 3, 5, 10100}だから、(3+5)/2 = 4

解答

Page 5: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

前回の演習

{3, 10100, 5, -100, -91812, 7136113}の中央値は?

小さい方から並べると、

{-91812, -100, 3, 5, 10100, 7136113}だから、

(3+5)/2 = 4

解答

Page 6: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

前回の演習

正しい

平均値:全てのデータの値の和/データの個数

中央値:データを小さい順に並べたときに中央に位置する値

解答

中央値と平均値の違いについて、正しいものを選べ

ー違いはデータの値に着目するか、順序に着目するか、である

Page 7: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

前回の演習

間違い

データの和(足し算)に順序は関係ない

解答

中央値と平均値の違いについて、正しいものを選べ

ー平均値は全てのデータの順序が重要である

Page 8: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

前回の演習

間違い

{10,20,30}と{-100,20,100}で、最大値・最小値は異なるが

中央値には影響していない

解答

中央値と平均値の違いについて、正しいものを選べ

ー中央値は、サンプルサイズが3以上で、最大値と最小値の

影響を受ける

Page 9: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

前回の演習

間違い

中央に位置する1つ、または、それに近い2つの値以外の値は

いくら大きくても、いくら小さくても中央値には無関係

解答

中央値と平均値の違いについて、正しいものを選べ

ー中央値は、データの中で一番大きい値が大きくなるほど、大

きくなる

Page 10: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

前回の演習

標準偏差

解答

ばらつきを表す指標は、次の中のどれか

ばらつき小

Page 11: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

前回の演習

標準偏差

解答

ばらつきを表す指標は、次の中のどれか

ばらつき大

Page 12: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計学

▋教科書

– 「活用事例でわかる! 統計リテラシー ~数学が苦手でも大丈夫! ~」

– noa出版

Page 13: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計の活用事例(2.2)

▋仕入れ計画0

– 対象:あるコンビニ店舗でのおにぎりの売上

• 具:梅、明太子、ツナマヨ

– 仕入れの個数調整がうまくいっていない

• 廃棄ロスが大きな課題

• 具材ごとの販売数予測が必要

– 仕入れ分析のためのデータを収集

• (最高)気温、それぞれの具の売上個数

売上予測をして効率的な仕入れをしたい

→仕入れ計画(Excel)

Page 14: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計の活用事例(2.2)

▋仕入れ計画0:ファイルの確認

– シート

• 販売戸数データ:日付、月、最高気温、梅、明太子、ツナマヨ

• 分析

Page 15: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計の活用事例(2.2)

▋仕入れ計画0:練習

– シート「販売個数データ」のB列に月の数値だけを表示する数式を入力せよ

• 後で月別の集計をしやすくするため

=MONTH(A3)

日付(シリアル値)から月の数値だけを取り出す関数

– シート「販売個数データ」のG列に梅、明太子、ツナマヨの売上個数の合計を求めよ

Page 16: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計の活用事例(2.2)

▋仕入れ計画1:練習

– シート「分析」のB3:B14に、最高気温の月別平均を求めよ

• ヒント:AVERAGEIF()

– シート「分析」のC3:E14に、梅、明太子、ツナマヨ、合計それぞれについて、月毎に1日の販売個数平均を求めよ

– 月毎の販売数と気温のグラフを観察せよ

• 1つのグラフ内にプロット(複合グラフ)

• 販売数は折れ線、気温は棒グラフ

Page 17: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計の活用事例(2.2)

▋仕入れ計画1:練習

0.0

5.0

10.0

15.0

20.0

25.0

30.0

35.0

40.0

0

200

400

600

800

1,000

1,200

1,400

1 2 3 4 5 6 7 8 9 10 11 12

(℃)

月別販売数と気温

最高気温の平均 梅 明太子 ツナマヨ

Page 18: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計の活用事例(2.2)

▋仕入れ計画2

– 気温と販売個数は関係ある?

– 相関係数 Correlation Coefficient

• CORREL( データ1 , データ2 )

データ1とデータ2は同じ個数の対応したものでないといけない

• 気温と梅おにぎりの販売個数の相関係数

分析!A18:= CORREL( 気温のセル範囲 , 梅おにぎりの~ )

• Y=aX+bの関係があるかどうかの指標

例えば、Xは気温、Yは梅の販売個数

a>0ならば相関係数は1、a<0ならば-1

Page 19: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計の活用事例(2.2)

▋仕入れ計画2

– 相関係数

• 相関の正負

1に近い場合「正の相関がある」

» Xが大きくなれば、Yも大きくなる

-1に近い場合「負の相関がある」

» Xが大きくなれば、Yは小さくなる

• 相関の強弱

(絶対値が)1~0.7:強い相関

(絶対値が)0.4前後:弱い相関

XとYは独立→相関は0

Page 20: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

相関係数

▋相関係数(Correlation Coefficient)

– 共分散: Cov[X, Y]=E[ (X-E[X]) (Y-E[Y]) ]

• XとYのそれぞれの平均からのずれの積についての平均

• Y=Xとすると分散となる

Page 21: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

相関係数

▋相関係数(Correlation Coefficient)

– 散布図と相関係数

http://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0

Page 22: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

相関係数

▋相関係数(Correlation Coefficient)

– 散布図と相関係数

http://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0

Page 23: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

相関係数

▋相関係数(Correlation Coefficient)

– 散布図と相関係数

• 相関係数が0だからといって独立とは限らない

http://ja.wikipedia.org/wiki/%E7%9B%B8%E9%96%A2%E4%BF%82%E6%95%B0

Page 24: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

相関係数

▋相関係数(Correlation Coefficient)

– 使いドコロ

• 2つのサンプルパスに関連がありそうな/あってほしいときに論拠のひ

とつとなる

2つのサンプルパスは、観測値等、ランダム性を含むデータでないと

意味がない

論理的に関連があることが明らかな場合は意味がない

北京の蝶とニューヨークの嵐のような解釈の難しいケースに使用し

てもあまり意味がない

Page 25: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

相関係数

▋相関係数(Correlation Coefficient)

– 使いドコロ

• Y=aX+bにどれだけ近いか、という指標であって、他の関係について

は何も言えない

Y=sin(X)という関係が成り立っている場合、YとXは従属関係だが、

相関係数からは何も得られない

YがXの1次関数になっているという仮説があるときに、データがど

れだけ1次関数になっているのかを示すのが相関係数

• 因果関係を説明するわけではない

XとYに強い相関があっても、XがYの原因であるとは言えない

(v.v.)

Page 26: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計の活用事例(2.2)

▋仕入れ計画3:気温による販売個数の予測

– 回帰直線

• 「Y=aX+b」

例えば、Xは気温、Yは梅の販売個数

データと直線の距離が最も小さくなるようにaとbを定めたもの(最

小二乗法)

Page 27: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計の活用事例(2.2)

▋仕入れ計画3:気温による販売個数の予測

– 回帰直線:気温と梅の売上個数

y = 0.6017x + 20.47

0

5

10

15

20

25

30

35

40

45

50

0.0 5.0 10.0 15.0 20.0 25.0 30.0 35.0 40.0

売上個数

気温

Page 28: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計の活用事例(2.2)

▋仕入れ計画3:練習

– 気温と明太子、気温とツナマヨについても散布図を描き、回帰直線を表示せよ

Page 29: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計の活用事例(2.2)

▋仕入れ計画3:気温による販売個数の予測

– 回帰直線

• Y = 0.6017 X + 20.47

X:気温、Y:梅の販売個数

• 分析!C22:= 0.6017*B22 + 20.47

→ C23:C28にオートフィル

Page 30: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

統計の活用事例(2.2)

▋仕入れ計画3:気温による販売個数の予測

– 回帰直線

• 梅: Y = 0.6017 X + 20.47

• 明太子: Y = 0.4525 X + 21.349

• ツナマヨ: Y = -0.4636 X + 37.731

Page 31: 社会統計の基礎 - mar.lar.jpmar.lar.jp/ku/sta_im/sta_im_5.pdf · 相関係数からは何も得られない YがXの1次関数になっているという仮説があるときに、データがど

今日の演習

資料ページに戻る