Tokyor24 doradora09

[入門セッション]Rによるやさしい統計学

第2,3章

doradora09

● セキココ– http://sekico.co/zaseki/35

Outline

● 自己紹介● お知らせ + ご提案● テキスト紹介と振り返り● 第２章 – 1つの変数の記述統計 −● 第３章 − 2つの変数の記述統計 −

自己紹介

● 大城信晃 (Twitter:doradora09)● DB寄りWebエンジニア

– Rは業務では触っていませんが– いつかレコメンドをやってみたい

● 趣味：お酒、ホルン● マイブーム

– ネイバーまとめ

Outline

● 自己紹介● お知らせ + ご提案● テキスト紹介 + 前回振り返り● 第２章 – 1つの変数の記述統計 −● 第３章 − 2つの変数の記述統計 −

お知らせ(1/3)　セキココ● セキココという勉強会の座席共有サービスがあるので、もしよ

ければ使ってみてください● 席に座っている人のTwitterアカウントが分かるので便利です● http://sekico.co/

お知らせ(2/3)　懇親会● TokyoRではセッション終了後に懇親会を実施して

います● 発表後の参加も可能ですので、プレゼンを聞いて興

味を持たれた方は是非ご参加下さい● 一般1500円、学生は無料です！

※画面はイメージです

お知らせ(3/3)　本日のウィスキー● 出張BAR企画

– 今日はシーバスリーガル18年を持ってきました– リクエストも募集中！（おひねりも大歓迎）

ご提案● 入門セッションの後に再度入場の時間を作っては

どうでしょうか？

● 現在– 14:30 入場– 15:00 開始

● 入門セッション● 本編● LT

– 19:00 懇親会– 21:00 解散

● 提案の流れ– 14:30 入場1回目– 15:00 開始

● 入門セッション– 16:00 入場2回目+休憩– 16:30 再開

● 本編● LT

– 19:00 懇親会– 21:00 解散

そろそろ本題へ

テキスト紹介● Rによるやさしい統計学● オーム社 (2008/1/25)

– 第２章：１つの変数の記述統計

– 第３章：２つの変数の記述統計

http://amazon.jp/dp/4274067106/creazynet-22/ref=nosim/

前回振り返り：Rの導入● Windows, Mac, Linux版がある● いずれも無料

– Windows● http://cran.md.tsukuba.ac.jp/bin/windows/base/

– Mac, Linux● http://cran.md.tsukuba.ac.jp/

● 又は「rjpwiki」で検索● まだ導入していない方はこの機会にどうぞ

http://cran.md.tsukuba.ac.jp/bin/windows/base/

http://cran.md.tsukuba.ac.jp/

紹介：各Rコミュニティの過去発表資料一覧

● ATNDの下のリンクからどうぞhttp://atnd.org/events/29541

● 「勉強会発表内容一覧 – Japan.R WIki」

第２章 - １つの変数の記述統計 -

１つの変数の要約● 数値要約

– データの持つ特徴を１つの数値にまとめること– 平均、中央値、最頻値など

● 数値要約をすることで、例えば1クラス20人のテストの平均が何点である、というようにクラスの特徴を一言で表すことができる

● ここでは10人のクラスで心理学と統計のテストを受けたデータをサンプルとして数値要約を進めていきます

サンプルデータ> data <- read.csv('http://doradora09.sakura.ne.jp/tokyor/p38.csv');> #またはこちらで># read.csv('http://doradora09.sakura.ne.jp/tokyor/p38_sjis.csv');> data ID 名前性別数学統計心理学テスト統計テスト１統計テスト２指導法1 1 大木男嫌い好き 13 6 10 C2 2 本多男嫌い好き 14 10 13 B3 3 川崎男好き好き 7 6 8 B4 4 多村男好き好き 12 10 15 A5 5 松中男嫌い嫌い 10 5 8 B6 6 小久保男嫌い嫌い 6 3 6 C7 7 柴原男嫌い嫌い 8 5 9 A8 8 井手男嫌い嫌い 15 9 10 D9 9 田上男嫌い嫌い 4 3 7 D10 10 松田男嫌い嫌い 14 3 3 D

> attach(data) #データフレームを変数に展開してくれる

http://doradora09.sakura.ne.jp/tokyor/p38.csv

変数の種類● 量的変数

– 大小に関する変数– 心理学テストの点数など数値化できるもの

● 質的変数– 構成する要素を分類するもの– 数学が好きか、嫌いかなど

● 変数の種類によって適用できる統計解析が変わるため、区別が重要

データの視覚的表現> data['指導法'] #指導法のデータだけ取り出す> 指導法 [1] C B B A B C A D D DLevels: A B C D

> table(指導法)指導法A B C D 2 3 2 3

● データをカテゴリ別に分類– 度数

● 同じカテゴリに含まれるデータの個数

● ここでは指導法の値、例えばAの指導法の度数は2

ヒストグラム (度数の図示)> data[,'心理学テスト']

[1] 13 14 7 12 10 6 8 15 4 14

> hist(data[,'心理学テスト'])

代表値● 代表値

– 分布の中心部の位置を示す、そのデータを代表する値– 平均値：よく利用される代表値

● 平均 =

(１番目のデータ + ２番目のデータ + ... + n番目のデータ) / n

> mean(data['心理学テスト']) #平均値心理学テスト 10.3

平均以外の代表値● 中央値

– データの大きさの順に並べた際にちょうど真ん中に来る値

● 10個のデータの場合は真ん中の２つの値の平均値– 以下の例だと(10+12)/2 = 11

● データにはずれ値がある場合に用いられることがある

> sort(data[,'心理学テスト']) #小さい順に並べる [1] 4 6 7 8 10 12 13 14 14 15

> median(data[,'心理学テスト']) #中央値(10と12の平均)[1] 11

平均以外の代表値● 最頻値

– 最も頻繁に観測される値– 主に質的変数の代表値として用いられる

● 最頻値が２つあるような分布の場合はあまり用いない方が良い(数値要約になってない)

> table(data[,'心理学テスト']) #最頻値(ここでは14)

4 6 7 8 10 12 13 14 15 1 1 1 1 1 1 1 2 1

散布度

● 散布度– ここまではデータの中心に関する話(代表値)– 今度はデータがどれくらいの散らばりがあるかを見る(散布度)

● 偏差、分散、標準偏差、平均偏差、レンジ

(平均からの)偏差● 偏差

– 平均と変数の差> 統計テスト２ [1] 10 13 8 15 8 6 9 10 7 3> mean(統計テスト２)[1] 8.9> 統計テスト２ - mean(統計テスト２) [1] 1.1 4.1 -0.9 6.1 -0.9 -2.9 0.1 1.1 -1.9 -5.9

分散、標準偏差

● 分散、標準偏差の値が大きいほどデータの散らばりが大きいことを意味する

(標本)分散=

(data[1-n] : 変数の値, mean : 変数の平均, n : データの個数)

標準偏差 = √分散

分散、標準偏差

> テストa <- 統計テスト２> テストa [1] 10 13 8 15 8 6 9 10 7 3

> var(テストa) #(標本)分散を求める[1] 11.65556

> sd(テストa) #標準偏差を求める[1] 3.414023

補足：不偏分散と標本分散● 標本分散

– 今回扱う分散– 手元にすべてのデータがあり、そのデータ自体が

どの程度散らばっているのかを記述する際に用いる

● 不偏分散– 手元データが母集団の一部である場合に用いる– n-1で割る

不偏分散= (data[1-n] : 変数の値, mean : 変数の平均, n : データの個数)

分散、標準偏差以外の散布度平均偏差

= (平均からの)偏差の絶対値の平均

> 統計テスト２ [1] 10 13 8 15 8 6 9 10 7 3

> mean(統計テスト２)[1] 8.9> 統計テスト２ – mean(統計テスト２) #偏差をもとめる [1] 1.1 4.1 -0.9 6.1 -0.9 -2.9 0.1 1.1 -1.9 -5.9

> abs(統計テスト２ – mean(統計テスト２)) #絶対値をもとめる [1] 1.1 4.1 0.9 6.1 0.9 2.9 0.1 1.1 1.9 5.9

> mean(abs(統計テスト２ – mean(統計テスト２))) #平均偏差[1] 2.5

分散、標準偏差以外の散布度

#レンジを求める> max(統計テスト２)[1] 15> min(統計テスト２)[1] 3 > max(統計テスト２) - min(統計テスト２)[1] 12

範囲(レンジ)

= 最大値 - 最小値

標準化● 標準化

– 平均と標準偏差がある特定の値になるように、すべてのデータの値を同じ式を使って変換すること

● 標準得点– 変換された得点のこと

● z得点– 平均0, 標準偏差(SD)1の標準得点– (変数 – 平均値) / 標準偏差で求める

z得点を求める> 心理学テスト [1] 13 14 7 12 10 6 8 15 4 14

> 心理学平均 <- mean(data['心理学テスト'])

> 心理学平均心理学テスト 10.3 > > 心理学標準偏差 <- sqrt(mean((data['心理学テスト'] - 心理学平均)^2))

> 心理学標準偏差 [1] 3.661967

> 心理学z得点 <- (data['心理学テスト']-心理学平均)/心理学標準偏差

> 心理学z得点心理学テスト1 0.737308732 1.010386043 -0.901155114 0.464231425 -0.081923196 -1.174232427 -0.628077818 1.283463349 -1.7203870310 1.01038604

z得点の検算> 心理学z得点平均 <- mean(心理学z得点)> 心理学z得点平均 #e-16は10のマイナス18乗のこと。ほぼ0心理学テスト -1.94289e-16 > 心理学z得点標準偏差 <- sqrt(mean((心理学z得点-心理学z得点平均)^2))

> 心理学z得点標準偏差 #1になっている[1] 1

– 平均0, 標準偏差(SD)1になっている

偏差値● 偏差値

– 平均50,標準偏差10になるように標準かした標準得点

– 偏差値 = z得点 × 10 + 50● 偏差値の利用価値が高いのは、母集団の数値の分布が正規分布に近い状態の時

– 偏差値60以上（あるいは40以下）は、全体の15.866％。– 偏差値70以上（あるいは30以下）は、全体の2.275％。– 偏差値80以上（あるいは20以下）は、全体の0.13499％。– 偏差値90以上（あるいは10以下）は、全体の0.00315％。– 偏差値100以上（あるいは0以下）は、全体の0.00002％

偏差値と検算> 心理学偏差値 <- 10*心理学z得点 + 50

> 心理学偏差値心理学テスト1 57.373092 60.103863 40.988454 54.642315 49.180776 38.257687 43.719228 62.834639 32.7961310 60.10386

> 心理学偏差値平均 <- mean(心理学偏差値)

> 心理学偏差値平均心理学テスト 50 > > 心理学偏差値標準偏差 <- sqrt(mean((心理学偏差値 - 心理学偏差値平均)^2))

> 心理学偏差値標準偏差[1] 10

参考：正規分布の場合の対応表

第２章まとめ 1つの変数の記述統計– 変数の種類

● 量的変数、質的変数– 代表値

● 平均、中央値、最頻値– 散布度

● 偏差、分散、標準偏差– 標準化

● z得点、偏差値

第３章 - 2つの変数の記述統計 -

(スライド10枚)

２つの変数の関係 - 相関と連関 -

● 相関– 量的変数どうしの関係

● 「国語の得点が高い人ほど英語の得点が高い」など● 連関

– 質的変数どうしの関係● 洋食派か和食派か尋ね、洋食派には甘党が多く、和食派には辛党が多かった場合、など

散布図> t_test1 <- data[,'統計テスト１']> t_test2 <- data[,'統計テスト２']> plot(t_test1, t_test2)

● X軸, Y軸のデータが– 右上がりの傾向(正の相関)

– 右下がりの傾向(負の相関)

– バラバラ(無相関)● 統計テスト１と統計テスト２

には正の相関がありそう

共分散● 共分散

– 相関の強さを数値で表す際に用いる– 分散は１変数で自乗していたが、共分散はx, y ２変数の偏差をそれぞれを掛け合わせる

Sxy: 共分散 xの平均 yの平均

共分散> cov(data['統計テスト１'],data['統計テスト２']) #不偏共分散

統計テスト２統計テスト１ 8.555556

共分散と単位の影響● 共分散は単位により値が変動してしまう

– 例えば身長だとmで計算するか、cmで計算するかで値が100倍変わるため

● 相関係数を用いることで単位の影響を受けなくすることが可能

相関係数● 相関係数は単位に左右されない

> cor(data['統計テスト１'], data['統計テスト２']) 統計テスト２統計テスト１ 0.8985742

rxy:相関係数, Sxy:共分散Sx: xの標準偏差, Sy: yの標準偏差

相関係数の大きさの評価● 相関係数

-0.2 ≦ r ≦ 0.2 : ほとんど相関無し-0.4 ≦ r ＜ -0.2, 0.2 ＜ r ≦ 0.4 : 弱い相関あり

-0.7 ≦ r ＜ -0.4, 0.4 ＜ r ≦ 0.7 : 中程度の相関あり

-1.0 ≦ r ＜ -0.7, 0.7 ＜ r ≦ 1.0 : 強い相関あり

統計テスト1と2 相関係数 = 0.8985742(強い相関あり)

クロス集計表● 質的変数の関係を表す表

● 数学も統計も嫌い、という人は6人いるという読み方

> table(data[,'数学'],data[,'統計'])

嫌い好き嫌い 6 2 好き 0 2

数学

統計

ファイ係数● クロス集計で利用した好き、嫌いという区別を1,0

で置き換え● 数値化して相関係数を求める

– 質的変数を量的変数と見なして計算ができる> 数学イチゼロ <- ifelse(data['数学'] == "好き", 1, 0)> 統計イチゼロ <- ifelse(data['統計'] == "好き", 1, 0)

> 数学イチゼロ[,1] [1] 0 0 1 1 0 0 0 0 0 0> 統計イチゼロ[,1] [1] 1 1 1 1 0 0 0 0 0 0

> cor(数学イチゼロ, 統計イチゼロ) 統計数学 0.6123724>#中程度の相関あり

第３章まとめ２変数の関係性を調べる方法

● 散布図：plot()● 共分散：cov()● 相関係数: 単位に影響されない. cor()● クロス集計表: table()● ファイ係数 : 質的変数をifelse等で0,1化してcor()

ご清聴ありがとうございました！

Documents

Tokyor24 doradora09