33
アアアアアアアアアア アアアアアア Excel アア アアアア アアアアアアアアアアアアアアアアアアアア http://www.qmss.jp/databank/

アンケートデータ集計・分析のためのExcel

Embed Size (px)

Citation preview

Page 1: アンケートデータ集計・分析のためのExcel

アンケートデータ集計・分析のための Excel 入門

小山友介サンプルデータは下のサイトから借りましたhttp://www.qmss.jp/databank/

Page 2: アンケートデータ集計・分析のためのExcel

はじめに:分析ツールインストール ファイル→オプション

→アドイン

左下の管理( A ) Excel アドインを選んで

設定をクリック 分析ツールをチェックし

て OK をクリック

Page 3: アンケートデータ集計・分析のためのExcel

分析ツールで出来ること(一部) 相関・共分散の計算 回帰分析

ヒストグラム作成

統計的検定 平均の差の検定: t 検定,z検定 分散分析:一元配置、二元配置 F 検定

Page 4: アンケートデータ集計・分析のためのExcel

分析ツールの使い方 データ→データ分析

をクリック

ヒストグラムを選択 他の分析も同じ方法で選

Page 5: アンケートデータ集計・分析のためのExcel

ヒストグラムとは( wikipedia より) 定義

縦軸に度数、横軸に階級をとった統計グラフの一種

Page 6: アンケートデータ集計・分析のためのExcel

ヒストグラムの作り方(1) データの入ったエクセ

ルファイルの空いた箇所にグラフでの目盛りにあたるものをつくっておく

右図: 5 ~ 45 が目盛り

Page 7: アンケートデータ集計・分析のためのExcel

ヒストグラムの作り方(2) データ→データ分析

→分析ツール→ヒストグラム

入力するもの 入力範囲:グラフにする

データ データ区間:目盛り

出力先: 1 セルだけ指定すると、そこから結果が出力される

Page 8: アンケートデータ集計・分析のためのExcel

ヒストグラムの作り方(3) 右のような結果が出る

これをグラフ化すればOK

データ区間 頻度5 0

10 315 420 525 330 535 440 345 2

次の級 0

Page 9: アンケートデータ集計・分析のためのExcel

おまけ:棒の要素の重なりを 0 %にする

Page 10: アンケートデータ集計・分析のためのExcel

回帰分析• ある変数 Y のばらつき

を,他の変数によって説明・予測するための統計的方法

• Y=a+bX+e  • Y :従属変数(被説明変数)

• X の影響を受けるから従属変数

• X :独立変数(説明変数)• e :誤差項

• 分布に標準正規分布の仮定を置くことが多い

Page 11: アンケートデータ集計・分析のためのExcel

重回帰分析 複数の要素による関数で

回帰させる Y=a+b1X1+b2X2+…+Xn+e 考え方

基本的に 1 変数の回帰と同じ

影響する変数が複数になっただけ

多重共線性に注意 よく似た変数を複数入れて

はいけない

理由 1

理由 2

理由 3

理由 4

理由 5

結果

Page 12: アンケートデータ集計・分析のためのExcel

回帰分析の例 右表:冷戦期の米ソ軍事費 いくつかの傾向を検討

年々のトレンドで増えている 相手国の軍事費の増額に反応

年 US USSR1954 40336 290001955 35533 324001956 35791 296001957 38439 279001958 39062 270001959 43573 278001960 41215 270001961 43227 358001962 46815 387001963 49973 402001964 49760 384001965 45973 370001966 54178 387001967 67547 419001968 77373 482001969 77872 511001970 77150 539001971 75546 550001972 75084 56500

1954

1955

1956

1957

1958

1959

1960

1961

1962

1963

1964

1965

1966

1967

1968

1969

1970

1971

1972

0

10000

20000

30000

40000

50000

60000

70000

80000

90000

US USSR

Page 13: アンケートデータ集計・分析のためのExcel

回帰分析のやり方(1)年で回帰 そのままの年で回帰しない

最初の年= 1 とするタイムトレンドを変数として定義( TREND )

※ 実際は切片が平行移動しているだけだが、わかりやすさ重視

US , USSR を TREND と回帰分析

Page 14: アンケートデータ集計・分析のためのExcel

回帰分析のやり方(2)分析ツール上 入力元

Y 範囲:軍事費 USA , USSR

X 範囲: TREND

※ ラベルをチェックすると,1 文字目は見出し扱い

出力:どこでも OK 残差:必要に応じて

Page 15: アンケートデータ集計・分析のためのExcel

結果( US と TREND )

概要

回帰統計重相関 R 0.922427重決定 R2 0.850872補正 R2 0.8421標準誤差 6352.665観測数 19

分散分析表

  自由度 変動 分散観測された分散

比有意 F

回帰 1 3.91E+09 3.91E+09 96.99604 1.94E-08残差 17 6.86E+08 40356347合計 18 4.6E+09     

  係数 標準誤差 t P- 値 下限 95%上限 95%下限 95.0%上限 95.0%切片 27186.26 3033.823 8.961059 7.54E-08 20785.46 33587.07 20785.46 33587.07TREND 2620.568 266.0838 9.848657 1.94E-08 2059.181 3181.956 2059.181 3181.956

Page 16: アンケートデータ集計・分析のためのExcel

結果の見方:単回帰概要

回帰統計重相関 R 0.922427重決定 R2 0.850872補正 R2 0.8421標準誤差 6352.665観測数 19

分散分析表

  自由度 変動 分散観測された分散

比有意 F

回帰 1 3.91E+09 3.91E+09 96.99604 1.94E-08残差 17 6.86E+08 40356347合計 18 4.6E+09     

  係数 標準誤差 t P- 値 下限 95%上限 95%下限 95.0%上限 95.0%切片 27186.26 3033.823 8.961059 7.54E-08 20785.46 33587.07 20785.46 33587.07TREND 2620.568 266.0838 9.848657 1.94E-08 2059.181 3181.956 2059.181 3181.956

回帰モデルの説明力R-Squared,R2 とも言う下は自由度調整済み R2

F 検定の結果(ココでは有意)回帰モデルそのものの検定ほとんどの場合で有意

係数の値 =0 の t 検定の結果(ココでは有意)目安: P 値が 0.05 より小さい( 5 %有意)※個別の変数の有意性の検定

Page 17: アンケートデータ集計・分析のためのExcel

結果の見方:重回帰概要

回帰統計重相関 R 0.949254重決定 R2

0.901084

補正 R2 0.888719標準誤差 3342.582観測数 19

分散分析表

  自由度 変動 分散 観測された分散比 有意 F

回帰 2 1.63E+09 8.14E+08 72.87667 9.17E-09残差 16 1.79E+08 11172853合計 18 1.81E+09     

係数 標準誤差 t P- 値 下限 95% 上限 95%下限 95.0%上限 95.0%

切片 12589.56 3818.999 3.296559 0.004552 4493.64 20685.47 4493.64 20685.47TREND 708.1907 362.5476 1.953373 0.068491 -60.3759 1476.757 -60.3759 1476.757US 0.357182 0.127615 2.798903 0.01287 0.08665 0.627714 0.08665 0.627714

さっきのモデルとの比較では補正 R2 を見る。今回は増えてるのでこちらの方が説明力は高いが・・・

USSR を TREND と US で回帰したケース

TREND が 5 %水準でも有意ではないそのため、このモデルはそのままではあまりよろしくない

Page 18: アンケートデータ集計・分析のためのExcel

結果の書き方(単回帰/重回帰共通) 回帰分析の結果を論文に書くときの例

US=27186.3+2620.6TREND (8.97**) (9.85**)

F=0.00** ,修正 R2=0.84* は 5 %水準, ** は 1%水準で有意

小数第 2位か 3位で四捨五入 必要な項目

切片と各変数の係数の推計値 上に対応する各推計値の t 値&それぞれが有意かどう

か F 値&有意かどうか,修正 R2 の値

Page 19: アンケートデータ集計・分析のためのExcel

参考:多重共線性 Multicollinearity (通称マルチコ) 変数の変動パターンがほぼ同じ(相関が強い) 2組以上の変数が回帰式にある状態.これがあると,結果は信用できない. VIF ( Variance Inflation Factor )など,判定基準があ

る 要するに・・・

Y=a+b1X1+b2X2+…+Xn+e  で X1 と X2 が完全に同じなら, b1 と b2 の値は全く信用できない 同じでなくても,相関が高いとまずいことはわかりますよね?

実際の調査でやりそうな例だと・・・ 勤続年数と年齢,勤続年数と収入

Page 20: アンケートデータ集計・分析のためのExcel

参考:統計的検定について

Page 21: アンケートデータ集計・分析のためのExcel

統計的検定の考え方(その1) 例:変数 X の標本平均が 3 となった

→これが単なる偶然でなく, 0 より大きいことを統計的に示したい

帰無仮説:「こうあってほしくない」仮説 論破するために立てる仮説 例の事例だと:「変数 X の真の平均値は 0 である」

棄却域:帰無仮説が正しくない、とする確率の範囲

Page 22: アンケートデータ集計・分析のためのExcel

統計的検定の考え方(その2) 有意水準

帰無仮説の状況が正しい(真)のとき,現在の状況が出る確率

「変数 X の真の平均値が 0 なら、X の標本平均が 3以上になる確率は5%以下である」

よく用いられる有意水準: 1%と 5% データ数が少ないとき,心理デー

タのような離散データの時には10% を用いることもある 30

Page 23: アンケートデータ集計・分析のためのExcel

回帰式の結果の見方1. F 検定の結果を見る

これが有意でないと、回帰式自体の意味がない

2. 各回帰変数のt検定の結果を見る 変数の係数( β )の真の値がゼロである,の検定で

す t 値の大きさで判定:経験上は 3以上 t 検定に通っていない変数は,説明力がない,とみな

3. 決定係数 (R-Squared , R2) を見る 定義:(モデルで説明できた変動) ÷ (全変動)

値が大きいほど,データの変動を説明できた度合いが大きい

自由度修正済み決定係数側を見ることが多い 経済系: 0.9ぐらい普通,心理系: 0.3程度はほしい

Page 24: アンケートデータ集計・分析のためのExcel

回帰分析・重回帰分析でわかること• ある変数が別の変数に影響を与えているかを知る

ことが出来る• 「 X が~増えたら、 Y が・・・増える」と言っ

た、予想に用いることが出来る• 複数の変数があるとき、どの変数の影響が大きい

かを知ることが出来る

Page 25: アンケートデータ集計・分析のためのExcel

アンケートデータの集計

Page 26: アンケートデータ集計・分析のためのExcel

フェイスと単純集計 フェイスシート

回答者の個人的な属性を聞いている部分 性別,年齢,家族構成,収入,社会的地位... 心理的・社会的傾向でない質問部分

回答傾向に影響が与えることが多いため,クロス集計で用いる

単純集計 質問項目をそのまま集計したもの

0% 20% 40% 60% 80% 100%

男性ラノベ

女性ラノベ

一般小説

ラノベ雑誌

文芸誌

ケータイ小説

全くない 年に数回 月に1回 週に1回 週に複数

Page 27: アンケートデータ集計・分析のためのExcel

単純集計で使う関数: COUNTIF 関数 範囲内で条件を満たす

セルの個数を返す関数 書式

COUNTIF( 範囲,条件) 条件を満たすセルの個数が返される 条件が等式:値そのまま 不等式:条件を” ”で囲む

COUNTIF(A1:A10,”>20”)

右:フェイスデータ(一部) F1-1 (年齢)に, 18 と回答した人数を計算し

ている

27

Page 28: アンケートデータ集計・分析のためのExcel

クロス集計 調査の集計で,複数(二問以上)の結果を組み合わ

せ毎に集計したもの ある質問の回答パターンを男女別や年齢層別に見る 例: 1995 年SSM調査より「父親学歴」 ×「母親学歴」

母親学歴合計

初等 中等 高等

父親学歴

初等 1069

153 5122

7中等 161 335 10 506

高等 29 202 81 312

合計 1259

690 96204

5

Page 29: アンケートデータ集計・分析のためのExcel

クロス集計で使う関数:COUNTIFS 関数 範囲内で条件を満たすセルの個数を返す関数

Countif 関数と混同しないように 書式

COUNTIFS( 範囲,条件 , 範囲,条件 , … ) 範囲・条件のペア数:クロスさせる項目の数と同じ

条件を満たすセルの個数が返される 条件が等式:値そのまま(文字の場合は“”で囲む) 不等式:条件を” ”で囲む

性別・学科別人数の計算例 COUNTIFS($C$3:$C$83,1,$E$3:$E$83,1)

赤文字部分: 1 つめの範囲と条件 青文字部分: 2 つめの範囲と条件

COUNTIFS 関数 1 つで 1 つの項目 クロス集計の項目数と同じ数だけ,条件の値を変えて繰り返す

データに例があるので,詳細はそちらを参照すること

Page 30: アンケートデータ集計・分析のためのExcel

相関とは 定義

他の条件を同じにして,ある変数(属性)だけを変化させる

別のある変数の(集計)結果が変化するとき,これを相関が存在するという

相関関係=因果関係とは限らない 相関は因果の必要条件だが,十分条件ではない

クロス集計の例だと・・・ 父親学歴と母親学歴に高い相関

厳密には,結婚時期や年齢などもコントロールすべき

Page 31: アンケートデータ集計・分析のためのExcel

変数間の関係を表す統計量

共分散と相関係数

共分散

xyi

iin

iiin

syx

YYXXYXCov

1

1 ))((),(

相関係数

yx

xy

ss

s

YVarXVar

YXCovr

)()(

),(

Page 32: アンケートデータ集計・分析のためのExcel

相関関係と因果関係(1) ある変数 A と別の変数 B の間に相関が見られた

とき,以下のような可能性がある1. 調査法に問題がある(サンプルが偏っている)2. A が B の直接的な原因: A→B

3. B が A の直接的な原因: B→A

4. A と B が相互に影響を与えている: A⇔B

5. A が B の間接原因である A→未知変数 C→B A と相関関係にある未知変数 C→B A→未知変数 C , C と相関関係にある未知変数 D→B

出典:谷岡( 2007 )

Page 33: アンケートデータ集計・分析のためのExcel

相関関係と因果関係(2) ある変数 A と別の変数 B の間に相関が見られた

とき,以下のような可能性がある(続)6. A も B も第 3 の未知変数 C の結果

C→A および C→B という結果があったため, A と Bに相関関係が見られた

7. 上記の要因が複合的に関連したもの8. 単なる偶然

時間的なトレンドを持つデータ同士の相関は簡単に出る

出典:谷岡( 2007 )