Upload
emory
View
45
Download
0
Embed Size (px)
DESCRIPTION
2011/9/1 木 岡山県看護協会一般研修 資料. 楽しく学べるデータ分析 午前:総論編+午後:ノンパラ検定編. 岡山商科大学経営学部商学科 教授 田中 潔 (教学部長). スケジュール予定など. 午前 データ分析 総論編 9:30-10:20 頃 統計的データ分析とは 10:30-11:20 頃 統計分析のポイント 11:30-12:30 仮説検定の基礎 昼食 午後 データ分析 検定編 13:30-14:20 頃 仮説検定の実際 14:30-16:00 ノンパラ検定法. あなたはなぜデータ分析を迫られるのか?. - PowerPoint PPT Presentation
Citation preview
楽しく学べるデータ分析午前:総論編+午後:ノンパラ検定編
岡山商科大学経営学部商学科教授 田中 潔(教学部長)
2011/9/1木 岡山県看護協会一般研修 資料
スケジュール予定など•午前 データ分析 総論編• 9:30-10:20頃 統計的データ分析とは• 10:30-11:20頃 統計分析のポイント• 11:30-12:30 仮説検定の基礎• 昼食•午後 データ分析 検定編• 13:30-14:20頃 仮説検定の実際• 14:30-16:00 ノンパラ検定法
あなたはなぜデータ分析を迫られるのか?
• 素直なあなたはスタッフから相談を受けます– アンケートの集計を手伝って→手伝いが中心に– あなたはエクセルが分かるから分析ね!– PCができることと統計が分かることを混乱した上司に恵まれた
• 院内研究が回ってきた– 予算はあまりない、スタッフの協力にたよる
• 学外・論文投稿が迫ってきた– 国内や世界標準での点検・確認
その結果• 断ることは許されない• 自分は統計を知らない→習っていないものがわかるものか
• 私は理屈っぽく考えるのがイヤ!• 私は数学がいやで看護へ来たのに• 看護に統計はいらない• 調査では患者ひとり一人は援助できない• 統計ギライがこの世にまたひとり
データ分析の背景• 国勢調査や行政調査
– 国・県などの公的調査– 国勢調査は統計法に基づく (2010年は調査年) http://www.stat.go.jp/index/seido/houbun2n.htm
– 政府統計ポータルサイト(政府統計の窓口)– http://www.e-stat.go.jp/SG1/estat/eStatTopPortal.do
• マーケティング(市場調査)・世論調査– ある目的のため市場を調査する– アンケート調査
• 実験や臨床研究、業務改善– 比較的小規模、実験データ
量か質か• 量的研究(学部卒レベル)
– 通常のアンケート調査、多くの場合対象者全員からの回答は無理→標本調査
– 量的研究の主目的は、市場の現況を把握すること• 質的研究(院レベル)
– 通常のインタビュー調査、症例研究、観察など– 未知なる問題の場合、仮説を発見するために比較的小規模にて行う
– http://www.geocities.co.jp/Technopolis-Mars/4688/ 南小樽病院 瀬畠さん
母集団と標本• 母集団:未知、 標本:既知• 仮説の下で考える理想的な集団。標本はこの母集団から無作為に取り出された部分集団
母集団:未知 標本・サンプル
未知または既知
既知:データ分析の対象 標本は分析できる
無作為抽出
悉皆(しっかい)調査• 母集団の全員が標本として測定されたこと
• 母集団サイズ=標本サイズ• 標本での分析結果がすべて母集団結果• 標本を捉えることの意義
–標本の示す傾向=母集団の中心的な傾向+個々の誤差
統計解析法の目的• 記述統計: 平均、標準偏差、分散、グラフ• 推定・推測: 標本から母集団値を求める
– 一般には標本値 ±誤差を決める• 予測: 時系列データから将来を推測
– 方程式を作成する• 記述統計: 標本を示す値やグラフで視覚化• 検定・テスト: 比較し判定する、○ ×効果• 多変量分析群
– 3つ以上の項目からなるデータを分析する
統計の中の個人・ひとり• 個人(表層へ出現)= • 中心的な傾向(未知)+誤差(未知)• この中心的傾向または誤差を把握する。• 私は 60kg=標準体重+誤差• 標準体重:仮に 50kg• 誤差: 60-50= 10kg• 実は、中心的傾向とは平均値のこと
多変量解析の目的• ① いろいろな要因によってある項目を予測したい
• ② 観測された複数の項目から総合的指標を作りたい
• ③ ものや項目の関係を視覚化したい• ④ ものや項目を分類したい• ⑤ 項目間の関係や構造を知りたい
主な多変量解析手法• 予 測:
– 回帰分析、数量化1・2類、判別分析• 指 標:
– 回帰分析、数量化1~3類、主成分分析、因子分析• 視覚化:
– グラフ解析、数量化3・4類、主成分分析• 分類:
– クラスター分析• 潜在構造:
– 因子分析、共分散構造分析
データの値: 4つの測定尺度• 名義尺度 情報量小– 名前を区別するため 演算は出来ない– 1.男性 2.女性 度数表やクロス表は可
• 順序尺度– ゆるい順序性のみ許す 演算は本来△– 1.はい 2.どちらでもない 3.いいえ
• 間隔尺度– 絶対ゼロを定めない量 演算は加減のみ– ℃(摂氏)、カレンダー月
• 比率尺度– 絶対ゼロを基準とした計測値 加減乗除可能– 実験データ全て 情報量大
行側(ギョウソク)と列(レツソク)側• →列側(項目、変数、変量)
• 行側↓• (ケース)
ケースと項目• ケースとは1件の標本を示す• ケースは個体を示す• 時系列の場合時間変化• 項目は列単位→1つの変数• 1変数の集計や分析
– 1列ごとに処理するデータ• 2変数の集計
– 2列ごとに処理• 多変数の処理
– 3列以上をまとめて処理
入力したデータ
有効数字について• 計算結果を小数点何桁まで取るべきか?• 答え• 測定値で影響されます。
– 身長 160cmは「センチ単位」で測定されました。– 160.1かも 160.4かも知れません。– 有効数字 小数点以下 0桁 でした。
• そこで平均値など計算結果の表示は、ひと桁多くし小数点以下1桁(2桁目を四捨五入して)で表示しましょう
• 教訓• 計算結果の有効数字は測定値よりも1桁多く
欠測値について• 計測されなかった、計測できなかった値
–欠測値という• 表ソフトで欠測値には 0ゼロを入力しない
–エクセルの場合何も入力しない–セル値の削除は deleteキーで– 0は計測値として計算してしまいます
• 99や 0など特定値を入れることは–一部の統計ソフトでは除外可能だが、エクセルとの互換性を考えると入力しない方が無難でしょう
最初のデータ分析• 記述統計量とは
– 平均値– 標準偏差– 最大、最小値– 中央値– 度数集計表
素データ~統計量概念図
ちらばり(分散や標準偏差)
ボール&スティックモデル
×代表値(平均値や中央値)
エクセルによる基礎統計量• 関数で求める
–平均 =AVERAGE(範囲指定)–標準偏差 =STDEV(範囲指定)–中央値 =MEDIAN(範囲指定)
–最大値 =MAX(範囲指定)–最小値 =MIN(範囲指定)
2つの項目の基礎集計
投げ1のヒストグラム
投げ1と投げ2を書き分ける
散布図は2項目の関係図
10
20
30
40
10 20 30 40投げ1
投げ2
グラフ点を右クリック→近似曲線の追加メニュー
散布図→単回帰分析• 回帰直線y=x 相関係数r= 0.43
y = xR2 = 0.1859
10
20
30
40
10 20 30 40投げ1
投げ2
算術平均の示すもの• ここに5つのデータ• 2、 10、 1、 2、1がある
• 1 1• 2 2• 10
• 2+ 10+ 1+ 2+1=16
• 算術平均= 16÷5= 3.2• 3.2は 5つのデータを表現する代表値の一種
もう1つの代表値 中央値• 2、 10、 1、 2、1• これを
• 小さい(大きい)順に並び替える
• 1、1、 2、 2、10
• この真ん中番目を中央値(メジアン)と呼ぶ
• この場合中央値=2• これも代表値の1つ• 【性質】• 中央値は• 算術平均よりも極端な値(極値)に左右されにくい
• →頑健(ロバスト)な代表値
• 算術平均 3.2 中央値2
2グループの代表値を比べる• グループA 1,1,2,2 ,10
• グループB 1,1,2,2 ,20
• 平均値• A: 3.2 B: 5.2• この2つに有意な差があるか?→t検定
2つの平均値を比べる2群の平均値差の検定(t検定)
• 群 平均 SD N• A 3.2 3.8 5• B 5.2 8.2 5
• 等分散性の検定• 有意確率 2.3%(有意) • 2群のばらつきは等しくない
• 平均値差のt検定• 等分散仮定する 6.4%• 等分散仮定せず 6.4%• いずれも平均値差は有意でない
• この 2群で平均値 3.2と 5.2は同程度と見るか?否か?
• 2群のばらつきは– 等しくないと判定
• ばらつき等しくない仮定の下で、– 2つの平均値が等しいことを否定せず(つまり同程度)
マン-ホイットニ検定による2群の比較
• 中央値 A:2 B:2の比較
• 有意水準 91.1%(有意差なし)→両群は同じ
検定統計量 b
12.00027.000
-.111.911
1.000
Mann-Whitney UのWilcoxon WのZ
( )漸近有意確率 両側 [2x(正確有意確率 片
)]側有意確率
Variable
同順位に修正されていません。a.
データ分析のポイント• □ 調査の種類、母集団と標本のちがい• □ 統計手法は目的に応じてたくさんある• □ 行と列→ケースと項目、測定尺度• □ 表ソフトへのデータ入力様式• □ 基礎統計のエクセル関数• □ グラフ→2項目 散布図と回帰式• □ 検定の一例t検定• → 次は検定をマスターしよう
統計的検定法(群)• 統計手法の中で「検定(Test)」は医療統計でよく使われます。
• 薬効評価、効果判定のために用いられます
• 以前は、平均値を比較するパラメトリック手法が用いられましたが、最近ではノンパラメトリック検定が多く用いられています。
統計的検定はどんなもの• ある仮説(○=△)を判定する
–例: この実験結果= 160.0–例: 群1の平均=群2の平均
• 判定結果は採択、または棄却の2分法• 採択とは「この仮説を積極的に否定しない」
–(厳密には仮説を認めたくないがやむを得ない)• 棄却とは「この仮説を積極的に否定する」
看護に代表的な検定• t検定• ある測定データの平均値がある値かどうか
–仮説: 測定データの平均値= 46.7
• 2群の平均は等しいとみなせるか–仮説: 群1の平均=群2の平均
• カイ2乗検定• クロス表に傾向や関連性があるか
–仮説: このクロス表の度数は同じか
(統計的)仮説検定の流れ• ある検定手法を選択する(パラでもノンパラでも)• 帰無仮説H0:とは
– 否定する(だろう)ための仮説– 帰無=無に帰する=否定を期待する
• 対立仮説H1:とは– 帰無仮説以外の結果– H0を否定するだけなので積極的な採択はしない
• H0:とH1:を対にして用意する• 分析データを統計ソフトにかける→有意水準を求める• 有意水準の値に応じてH0かH1かを判定する• 目的に応じて手法はたくさん存在する
仮説の立て方• 1.自分の持っている仮説(作業仮説ともいう)を対立仮説H1とする
• 2.H1の否定(逆)をH0とする• 3.H0は○=△のように等号で作成するのがよい
• 4.H0:○=△とした時、3種類のH1が考えられる
• H1その1: ○>△ 片側検定• H1その2: ○<△ 片側検定• H1その3: ○≠△ 両側検定
仮説の事例• 新薬Bは薬Aより効果あることを証明したい• H0は等号関係で作成すると良い
–H0: 新薬B=薬A(同じ、効果なし) で決まり!• H1には3つの作り方あり• ① H1: 新薬B>薬A 優れる 片側• ② H1: 新薬B<薬A 劣る 片側• ③ H1: 新薬B≠薬A 同じでない 両側• 「効果ある」なので通常③を採用
仮説H1に方向性があるならば両側検定
• 関係があるかないか• ない= ある≠ 両側検定• 正(負)や大小の関係があるかないか• ない= ある> 片側検定• 優れている(劣っている)• 同じ= <や> 片側検定• 同じか否か• 同じ= 同じでない≠ 両側検定
H0とH1の例–H0: 日本人の平均160センチ 平均=
160–H1: 160センチではない(何センチかは
不明)• H0はハッキリと1点で指定するのが普通(点指定)
• H1は指定された1点以外のすべて(だからはっきりと値が判定できない)
• ○H0 残り全てがH0
棄却と採択• H0が明らかに成立しないならば棄却
–つまりH1を採用• H0は帰無したいがどうしても棄却できない状態のことを採択(=積極的には帰無・棄却しない)という–つまりH0を採用する
検定に見る計算と判定• 計算: 統計ソフトなどを使用する• 判定: 出てくる結果の有意確率か有意水準の値により判定
• 有意水準> 0.05 有意水準 5%以上で採択• 5%以下ならば棄却(有意、 SIG.)←差あり
• 0.05~ 0.01 5%有意 * 星1つ• 0.01~ 0.005 1%有意 ** 星2つ• 0.005より小 0.5%有意 *** 星3つ
まとめましょう• 正規分布を仮定できそうな時
–平均値に関するt検定• 正規分布を仮定できそうでない時
–ノンパラメトリックな検定法• 仮説は次に固定すると理解し易い
–H0: A=B H1:A≠B(両側検定)• 計算は統計ソフトやWebサイトで行う• 有意かどうかの判定は有意水準で行う
検定の実際に慣れる
統計ソフトについて• 記述統計、グラフなどはエクセルで十分• 検定、多変量分析となると専用ソフトが望ましい• http://aoki2.si.gunma-u.ac.jp/ 群馬大青木先生のサイトで間に合うことも多い。いつまで続くかは不明
• 市販ソフトとしては• PASW( 旧SPSS) 高い、施設向き、論文投稿には
望ましい。世界的権威ソフト 新規 18 万円– ライバル会社に SASがある。安価版として JUMPも有名
• エクセル統計 4 万円、エクセルのアドイン、おおむね使えるが細かな使い勝手はあまり良くない
• フリーソフト(無料) R 良くできているが上級者でなければ使いにくい!研究者向け
青木サイト使用の留意点• 検索エンジン 群馬 青木 → おしゃべりな部屋
• 青木サイトの統計処理の多くには「 Java 技術」が使われている
• Javaはサイトで計算処理を行うための仕組みであり購入後各自で導入するもの
• 施設の PCではセキュリティ保護の観点からJavaを導入していないものもあるので、青木サイトが利用できない場合がある
• 施設 PCで利用できない場合、他の統計パッケージや Java 導入した個人 PCを利用する
もしも PCでこんなエラーが出たら
あなたの PCの JAVAという仕組みが古いなどの原因で、警告が出たものです。「いいえ」を選んでうまく
動作すればいいですね。
医療統計向けソフト比較http://www.kenkyuu.net/comp-soft-01.htmlより引用
SPSS 社は IBMに吸収のため、 2009現在 PASWに名称変更
2グループの平均値差検定(通称t検定)
• 仮説は以下のとおりに立てる• H0: 平均1=平均2(2つの平均は同じ)• H1: 平均1≠平均2(同じでない)→両側• 注意
–H0: 平均1≠平均2(同じでない)–H1: 平均1=平均2(2つの平均は同じ)のように逆には立てません。帰無仮説H0は等号関係で作ります!
パラメトリック検定• 集めたデータが正規分布しそうな場合に適
• 検定力は強い• 平均値と標準偏差に関する検定がおも
• 2群(実験群と対照群)の平均値差検定• =通称:t検定が有名
サイトで行う2群平均値差の検定(t検定)
• 次の2群の平均値は同じといえるか• 平均 ケース数 標準• 偏差
• A群 10.0 10 5• B群 10.5 20 15
• 等分散性 p=0.002 棄却• 2群は同じ分散ではない• 平均値差 p=0.894 採択平均値差等しい仮説 H0を採択(棄却できない)
→2群の平均値は差があると言えない→2群差があることを否定しない→平均値は等しい
使用サイトhttp://aoki2.si.gunma-u.ac.jp/Java/
StatCalc/bin/StatCalc.html2
ノンパラメトリック検定群• 正規分布を仮定しない• 検定力はパラメトリック検定にやや劣る• 頑健な検定法• 多いのは、平均値など代表値差の検定が多い
• クロス表のカイ2乗検定もノンパラ検定法の1つ
パラメトリックvsノンパラ比較表
• http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/nonpara.htmlより引用
クロス表の独立性の検定通称カイ2乗検定
• 実はノンパラメトリックな検定手法の1つです• 2 ×2クロス表の精密なカイ2乗検定
– http://aoki2.si.gunma-u.ac.jp/JavaScript/FisherExactTest.html
• R ×C表 クロス表入力 通常版– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross.html
• R ×C表 クロス表入力 正確計算版– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross2.html– (計算量が多いため通常版で十分)
• R ×C表 素データで入力する版– http://aoki2.si.gunma-u.ac.jp/JavaScript/cross3.html
主な統計的検定法の体系図
代表的なノンパラメトリック検定法
• 対応のない2標本(群)の代表値差–マンーホイットニのU検定–2標本コルモゴロフースミロノフ検定–ファンデル・ワーデン検定–中央値検定
• 対応のある2標本(群)の代表値差– ウイルコクソン符号検定– ウイルコクソン符号付順位和検定
対応のあるデータ、ないデータ• 対応ありと考えられる場合• 同じ人やグループを追跡して測定• 1回 2回 3回・・・• Aさん 1.0 1.5 2.0・・・• Bさん 1.2 1.7 2.2・・・
• 対応ないと考えられる場合• 毎回グループの構成者を取り替えて測定• 岡山 東京 大阪 福岡・・・• 人口• 生産額• 学生数
• 対応のないk標本(群)の代表値差–クラスカル・ウォリス検定–中央値検定
• 対応のあるk標本(群)の代表値差–フリードマン検定
マンーホイットニの U検定(Willcoxson順位和検定に同じもの)
2群、対応なし• 9個の部品について4個は処置群、残り処置なし群とした。この2つの群の母代表値に差があるかどうか検定しなさい。– 処置群の観察値
1.2 , 1.5 , 1.8 , 2.6 – 処置なし群の観察値
1.3 , 1.9 , 2.9 , 3.1, 3.9
• 有意確率= 0.142または 0.190• 有意確率> 0.05なので有意差なし・採択
• つまり両群に差は認められない• http://aoki2.si.gunma-u.ac.jp/Java/TwoSamples/bin/
TwoSamples.html
ウイルコクソン符号検定(Wilcoxonの順位和= 検定と区マンホイットニ
別) 2群、対応あり• 10 人の被検者について,五段階評価をした。同じ被検者に対して, 1 年後にもう一度評価した。その結果を表 に示す。 1 年間で母代表値に差があったかどうか検定しなさい
• 1 2 3 4 5 6 7 8 9 10
• 最 初 A A C B D A C B D B
• 1年後 C A E D B B D A E D
Wilcoxson符号検定の結果
• 正確有意確率= 0.180 > 0.05 → 採択• 最初と1年後では有意差ない
• もしも計量値としてWilcoxsonの符号付順位和検定(2群対応なし)を行ったならば、
• 漸近有意確率= 0.114 > 0.05 採択• やはり• 最初と1年後では差はない• http://aoki2.si.gunma-u.ac.jp/Java/
RelatedTwoSamples/bin/RelatedTwoSamples.html
検定統計量 b
.180a ( )正確有意確率 両側
VAR00004 -VAR00003
2使用された 項分布a. 符号検定b.
クラスカルーウォリス検定3群以上、対応なし
• 12 匹のラットに 3 種類の餌を与えたときの肝臓の重量は表 1 のようであった。餌の種類により肝臓の重量の平均値に差があるといえるか
• SPSS入力
表 1.餌の種類による肝臓の重量 A餌 3.42 3.84 3.96 3.76
B餌 3.17 3.63 3.47 3.44 3.39
C餌 3.64 3.72 3.91
• H0: 平均1=平均2=平均3• H1: 3群の平均は同じでない
• 漸近有意水準 0.062 > 0.05 採択• 結論: 3群の平均は同じ程度とみなす(帰無できない)• ただ、有意水準 6.2%と 5%に近いことにも留意する
• 参考• http://aoki2.si.gunma-u.ac.jp/JavaScript/kw-test.html
フリードマン検定3群以上、対応あり
• 表 1 のようなデータがある。 4 種の肥料間で収量に差があるか
• 参考: 行列を入れ替えれば3品種間に差があるかを検定できる
表 1.フリードマン検定が対象とするデータ
肥料
品種
B1
B2
B3
B4
A1 9 17 12 16 A2 1 21 16 11 A3 7 19 6 9
エクセル版http://aoki2.si.gunma-u.ac.jp/lecture/stats-by-excel/vba/html/friedman2.html
– H0: 4群の平均は等しい– H1: 4群の平均は等しくない
• 漸近有意確率 0.001 < 0.005 ***• 0.5%有意 肥料4種の平均は等しくない• 行列を入れ替えると
– H0: 3品種の平均は等しい– H1: 等しくない
• 漸近有意確率 0.004 < 0.005• ***0.5%有意→3品種の平均は異なる• 総合的には、肥料、品種いずれも差あり
• 表はクロス表に似ている。しかしクロス表は対応なし、フリードマンは対応ありが大きく異なる。
• クロス表では行か列はそれぞれ要因。フリードマンでは行か列は標本(ケース)である。
肥料
品種
B1
B2
B3
B4
A1 9 17
12
16
A2 1 21
16
11
A3 7 19 6 9
表の形式は似ていても…
統計計算シートankstat(アンクスタット) 時間があれば
紹介• 田中研究室で開発されたエクセル(バージョンは問わず)専用のシート
• 動機; 初級者は集計で困る(卒論生約 150人)• 主に基礎集計や集計を行う。統計解析(例えば検定)は実施しない。
• http://www.osu.ac.jp/~tanaka/ankstat/• 検索エンジンにて「ankstat」で検索する 。
2011/9/1最新は 5.03 版。• 最大 500ケース ×200項目を集計可能
まとめ・チェックリスト• □ 統計的検定法の概念• □ 採択と棄却がわかる• □ 帰無仮説と対立仮説 H0と H1
• □ 計算は統計ソフトで、統計ソフトは色々
• □ 時代はパラメトリックからノンパラへ• □ ノンパラ検定にはたくさんの手法• □ 代表的ノンパラ検定の用法・読み方
研修講師のメモ• 田中 潔(たなかきよし)
– 略歴: 岡山大、九州大修了後商大へ勤務。助手、講師、助教授を経て現在教授。管理職:商学科長、現在教学部長。
– 主な科目:情報システム論、情報ネットワーク論、社会調査実践他
– 専門分野:計算機統計学、マーケティング– 連絡先 岡山商科大学 〒 700-8601(専用番号で届く)– [email protected] (eメール)– http://www.nahaha.org (Web)– 検索エンジン 「岡山商科大学 田中潔」で検索– 大学電話 086-252-0642– 大学 FAX 086-255-6947
研修後に相談があれば• アポイントは eメール [email protected]が最適。大学でも良いが、その他電話FAXは 086-284-7726(自宅)。でも捕まらないならごめんなさい
• データ分析相談は随時応ずるが、エクセルに素データを入力しておくのが望ましい
• また希望する仮説も事前に固まっている方がスムーズに進む。
• 遠方の場合メールだけで指導する場合もある