Upload
nobuaki-oshiro
View
1.610
Download
3
Embed Size (px)
Citation preview
[入門セッション]Rによるやさしい統計学
第2,3章
doradora09
● セキココ– http://sekico.co/zaseki/35
Outline
● 自己紹介● お知らせ + ご提案● テキスト紹介と振り返り● 第2章 – 1つの変数の記述統計 −● 第3章 − 2つの変数の記述統計 −
自己紹介
● 大城信晃 (Twitter:doradora09)● DB寄りWebエンジニア
– Rは業務では触っていませんが– いつかレコメンドをやってみたい
● 趣味:お酒、ホルン● マイブーム
– ネイバーまとめ
Outline
● 自己紹介● お知らせ + ご提案● テキスト紹介 + 前回振り返り● 第2章 – 1つの変数の記述統計 −● 第3章 − 2つの変数の記述統計 −
お知らせ(1/3) セキココ● セキココという勉強会の座席共有サービスがあるので、もしよ
ければ使ってみてください● 席に座っている人のTwitterアカウントが分かるので便利です● http://sekico.co/
お知らせ(2/3) 懇親会● TokyoRではセッション終了後に懇親会を実施して
います● 発表後の参加も可能ですので、プレゼンを聞いて興
味を持たれた方は是非ご参加下さい● 一般1500円、学生は無料です!
※画面はイメージです
お知らせ(3/3) 本日のウィスキー● 出張BAR企画
– 今日はシーバスリーガル18年を持ってきました– リクエストも募集中!(おひねりも大歓迎)
ご提案● 入門セッションの後に再度入場の時間を作っては
どうでしょうか?
● 現在– 14:30 入場– 15:00 開始
● 入門セッション● 本編● LT
– 19:00 懇親会– 21:00 解散
● 提案の流れ– 14:30 入場1回目– 15:00 開始
● 入門セッション– 16:00 入場2回目+休憩– 16:30 再開
● 本編● LT
– 19:00 懇親会– 21:00 解散
そろそろ本題へ
テキスト紹介● Rによるやさしい統計学● オーム社 (2008/1/25)
– 第2章:1つの変数の記述統計
– 第3章:2つの変数の記述統計
http://amazon.jp/dp/4274067106/creazynet-22/ref=nosim/
前回振り返り:Rの導入● Windows, Mac, Linux版がある● いずれも無料
– Windows● http://cran.md.tsukuba.ac.jp/bin/windows/base/
– Mac, Linux● http://cran.md.tsukuba.ac.jp/
● 又は「rjpwiki」で検索● まだ導入していない方はこの機会にどうぞ
紹介:各Rコミュニティの過去発表資料一覧
● ATNDの下のリンクからどうぞhttp://atnd.org/events/29541
● 「勉強会発表内容一覧 – Japan.R WIki」
第2章 - 1つの変数の記述統計 -
1つの変数の要約● 数値要約
– データの持つ特徴を1つの数値にまとめること– 平均、中央値、最頻値など
● 数値要約をすることで、例えば1クラス20人のテストの平均が何点である、というようにクラスの特徴を一言で表すことができる
● ここでは10人のクラスで心理学と統計のテストを受けたデータをサンプルとして数値要約を進めていきます
サンプルデータ> data <- read.csv('http://doradora09.sakura.ne.jp/tokyor/p38.csv');> #またはこちらで># read.csv('http://doradora09.sakura.ne.jp/tokyor/p38_sjis.csv');> data ID 名前 性別 数学 統計 心理学テスト 統計テスト1 統計テスト2 指導法1 1 大木 男 嫌い 好き 13 6 10 C2 2 本多 男 嫌い 好き 14 10 13 B3 3 川崎 男 好き 好き 7 6 8 B4 4 多村 男 好き 好き 12 10 15 A5 5 松中 男 嫌い 嫌い 10 5 8 B6 6 小久保 男 嫌い 嫌い 6 3 6 C7 7 柴原 男 嫌い 嫌い 8 5 9 A8 8 井手 男 嫌い 嫌い 15 9 10 D9 9 田上 男 嫌い 嫌い 4 3 7 D10 10 松田 男 嫌い 嫌い 14 3 3 D
> attach(data) #データフレームを変数に展開してくれる
変数の種類● 量的変数
– 大小に関する変数– 心理学テストの点数など数値化できるもの
● 質的変数– 構成する要素を分類するもの– 数学が好きか、嫌いかなど
● 変数の種類によって適用できる統計解析が変わるため、区別が重要
データの視覚的表現> data['指導法'] #指導法のデータだけ取り出す> 指導法 [1] C B B A B C A D D DLevels: A B C D
> table(指導法)指導法A B C D 2 3 2 3
● データをカテゴリ別に分類– 度数
● 同じカテゴリに含まれるデータの個数
● ここでは指導法の値、例えばAの指導法の度数は2
ヒストグラム (度数の図示)> data[,'心理学テスト']
[1] 13 14 7 12 10 6 8 15 4 14
> hist(data[,'心理学テスト'])
代表値● 代表値
– 分布の中心部の位置を示す、そのデータを代表する値– 平均値:よく利用される代表値
● 平均 =
(1番目のデータ + 2番目のデータ + ... + n番目のデータ) / n
> mean(data['心理学テスト']) #平均値心理学テスト 10.3
平均以外の代表値● 中央値
– データの大きさの順に並べた際にちょうど真ん中に来る値
● 10個のデータの場合は真ん中の2つの値の平均値– 以下の例だと(10+12)/2 = 11
● データにはずれ値がある場合に用いられることがある
> sort(data[,'心理学テスト']) #小さい順に並べる [1] 4 6 7 8 10 12 13 14 14 15
> median(data[,'心理学テスト']) #中央値(10と12の平均)[1] 11
平均以外の代表値● 最頻値
– 最も頻繁に観測される値– 主に質的変数の代表値として用いられる
● 最頻値が2つあるような分布の場合はあまり用いない方が良い(数値要約になってない)
> table(data[,'心理学テスト']) #最頻値(ここでは14)
4 6 7 8 10 12 13 14 15 1 1 1 1 1 1 1 2 1
散布度
● 散布度– ここまではデータの中心に関する話(代表値)– 今度はデータがどれくらいの散らばりがあるかを見る(散布度)
● 偏差、分散、標準偏差、平均偏差、レンジ
(平均からの)偏差● 偏差
– 平均と変数の差> 統計テスト2 [1] 10 13 8 15 8 6 9 10 7 3> mean(統計テスト2)[1] 8.9> 統計テスト2 - mean(統計テスト2) [1] 1.1 4.1 -0.9 6.1 -0.9 -2.9 0.1 1.1 -1.9 -5.9
分散、標準偏差
● 分散、標準偏差の値が大きいほどデータの散らばりが大きいことを意味する
(標本)分散=
(data[1-n] : 変数の値, mean : 変数の平均, n : データの個数)
標準偏差 = √分散
分散、標準偏差
> テストa <- 統計テスト2> テストa [1] 10 13 8 15 8 6 9 10 7 3
> var(テストa) #(標本)分散を求める[1] 11.65556
> sd(テストa) #標準偏差を求める[1] 3.414023
補足:不偏分散と標本分散● 標本分散
– 今回扱う分散– 手元にすべてのデータがあり、そのデータ自体が
どの程度散らばっているのかを記述する際に用いる
● 不偏分散– 手元データが母集団の一部である場合に用いる– n-1で割る
不偏分散= (data[1-n] : 変数の値, mean : 変数の平均, n : データの個数)
分散、標準偏差以外の散布度平均偏差
= (平均からの)偏差の絶対値の平均
> 統計テスト2 [1] 10 13 8 15 8 6 9 10 7 3
> mean(統計テスト2)[1] 8.9> 統計テスト2 – mean(統計テスト2) #偏差をもとめる [1] 1.1 4.1 -0.9 6.1 -0.9 -2.9 0.1 1.1 -1.9 -5.9
> abs(統計テスト2 – mean(統計テスト2)) #絶対値をもとめる [1] 1.1 4.1 0.9 6.1 0.9 2.9 0.1 1.1 1.9 5.9
> mean(abs(統計テスト2 – mean(統計テスト2))) #平均偏差[1] 2.5
分散、標準偏差以外の散布度
#レンジを求める> max(統計テスト2)[1] 15> min(統計テスト2)[1] 3 > max(統計テスト2) - min(統計テスト2)[1] 12
範囲(レンジ)
= 最大値 - 最小値
標準化● 標準化
– 平均と標準偏差がある特定の値になるように、すべてのデータの値を同じ式を使って変換すること
● 標準得点– 変換された得点のこと
● z得点– 平均0, 標準偏差(SD)1の標準得点– (変数 – 平均値) / 標準偏差 で求める
z得点を求める> 心理学テスト [1] 13 14 7 12 10 6 8 15 4 14
> 心理学平均 <- mean(data['心理学テスト'])
> 心理学平均心理学テスト 10.3 > > 心理学標準偏差 <- sqrt(mean((data['心理学テスト'] - 心理学平均)^2))
> 心理学標準偏差 [1] 3.661967
> 心理学z得点 <- (data['心理学テスト']-心理学平均)/心理学標準偏差
> 心理学z得点 心理学テスト1 0.737308732 1.010386043 -0.901155114 0.464231425 -0.081923196 -1.174232427 -0.628077818 1.283463349 -1.7203870310 1.01038604
z得点の検算> 心理学z得点平均 <- mean(心理学z得点)> 心理学z得点平均 #e-16は10のマイナス18乗のこと。ほぼ0心理学テスト -1.94289e-16 > 心理学z得点標準偏差 <- sqrt(mean((心理学z得点-心理学z得点平均)^2))
> 心理学z得点標準偏差 #1になっている[1] 1
– 平均0, 標準偏差(SD)1になっている
偏差値● 偏差値
– 平均50,標準偏差10になるように標準かした標準得点
– 偏差値 = z得点 × 10 + 50● 偏差値の利用価値が高いのは、母集団の数値の分布が正規分布に近い状態の時
– 偏差値60以上(あるいは40以下)は、全体の15.866%。– 偏差値70以上(あるいは30以下)は、全体の2.275%。– 偏差値80以上(あるいは20以下)は、全体の0.13499%。– 偏差値90以上(あるいは10以下)は、全体の0.00315%。– 偏差値100以上(あるいは0以下)は、全体の0.00002%
偏差値と検算> 心理学偏差値 <- 10*心理学z得点 + 50
> 心理学偏差値 心理学テスト1 57.373092 60.103863 40.988454 54.642315 49.180776 38.257687 43.719228 62.834639 32.7961310 60.10386
> 心理学偏差値平均 <- mean(心理学偏差値)
> 心理学偏差値平均心理学テスト 50 > > 心理学偏差値標準偏差 <- sqrt(mean((心理学偏差値 - 心理学偏差値平均)^2))
> 心理学偏差値標準偏差[1] 10
参考:正規分布の場合の対応表
第2章まとめ 1つの変数の記述統計– 変数の種類
● 量的変数、質的変数– 代表値
● 平均、中央値、最頻値– 散布度
● 偏差、分散、標準偏差– 標準化
● z得点、偏差値
第3章 - 2つの変数の記述統計 -
(スライド10枚)
2つの変数の関係 - 相関と連関 -
● 相関– 量的変数どうしの関係
● 「国語の得点が高い人ほど英語の得点が高い」など● 連関
– 質的変数どうしの関係● 洋食派か和食派か尋ね、洋食派には甘党が多く、和食派には辛党が多かった場合、など
散布図> t_test1 <- data[,'統計テスト1']> t_test2 <- data[,'統計テスト2']> plot(t_test1, t_test2)
● X軸, Y軸のデータが– 右上がりの傾向(正の相関)
– 右下がりの傾向(負の相関)
– バラバラ(無相関)● 統計テスト1と統計テスト2
には正の相関がありそう
共分散● 共分散
– 相関の強さを数値で表す際に用いる– 分散は1変数で自乗していたが、共分散はx, y 2変数の偏差をそれぞれを掛け合わせる
Sxy: 共分散 xの平均 yの平均
共分散> cov(data['統計テスト1'],data['統計テスト2']) #不偏共分散
統計テスト2統計テスト1 8.555556
共分散と単位の影響● 共分散は単位により値が変動してしまう
– 例えば身長だとmで計算するか、cmで計算するかで値が100倍変わるため
● 相関係数を用いることで単位の影響を受けなくすることが可能
相関係数● 相関係数は単位に左右されない
> cor(data['統計テスト1'], data['統計テスト2']) 統計テスト2統計テスト1 0.8985742
rxy:相関係数, Sxy:共分散Sx: xの標準偏差, Sy: yの標準偏差
相関係数の大きさの評価● 相関係数
-0.2 ≦ r ≦ 0.2 : ほとんど相関無し-0.4 ≦ r < -0.2, 0.2 < r ≦ 0.4 : 弱い相関あり
-0.7 ≦ r < -0.4, 0.4 < r ≦ 0.7 : 中程度の相関あり
-1.0 ≦ r < -0.7, 0.7 < r ≦ 1.0 : 強い相関あり
統計テスト1と2 相関係数 = 0.8985742(強い相関あり)
クロス集計表● 質的変数の関係を表す表
● 数学も統計も嫌い、という人は6人いるという読み方
> table(data[,'数学'],data[,'統計'])
嫌い 好き 嫌い 6 2 好き 0 2
数学
統計
ファイ係数● クロス集計で利用した好き、嫌いという区別を1,0
で置き換え● 数値化して相関係数を求める
– 質的変数を量的変数と見なして計算ができる> 数学イチゼロ <- ifelse(data['数学'] == "好き", 1, 0)> 統計イチゼロ <- ifelse(data['統計'] == "好き", 1, 0)
> 数学イチゼロ[,1] [1] 0 0 1 1 0 0 0 0 0 0> 統計イチゼロ[,1] [1] 1 1 1 1 0 0 0 0 0 0
> cor(数学イチゼロ, 統計イチゼロ) 統計数学 0.6123724>#中程度の相関あり
第3章まとめ2変数の関係性を調べる方法
● 散布図:plot()● 共分散:cov()● 相関係数: 単位に影響されない. cor()● クロス集計表: table()● ファイ係数 : 質的変数をifelse等で0,1化してcor()
ご清聴ありがとうございました!