58
有益 データ ててしまわない 有益 データ ててしまわない データ可視化 1

「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

Embed Size (px)

DESCRIPTION

外国語教育メディア学会中部支部外国語教育基礎研究部会第一回(2013年度)年次例会@名古屋大学におけるワークショップ 「有益な情報を捨ててしまわないデータの可視化」 講師:草薙邦広(名古屋大学大学院) https://sites.google.com/site/kusanagikuni/home/cv

Citation preview

Page 1: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

有益なデータを捨ててしまわない有益なデータを捨ててしまわない

データの可視化1

Page 2: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

アウトライン• なぜ今可視化か• きれいなグラフを描こう• きれいなグラフを描こう• 様々なグラフ

– エラーバー– 箱ひげ図– 蜂群図– ヒストグラム– 確率密度プロット– 確率密度プロット– 散布図(⾏列)– おまけ

• まとめ

2

Page 3: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

なぜ今可視化か3

Page 4: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

なぜ今可視化か• 外国語教育研究の成熟

– データの再現性の問題– データの再現性の問題– 分析の正確さの問題– 知⾒の移り変わりのスピード– 電子化による浸透の早さ– 簡便なツールの普及– 簡便なツールの普及– 必要な情報量の変化

• 一方で決して満足いくものではない

4

Page 5: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

なぜ今可視化か• 現状

– ツールは沢山あるけど…– ツールは沢山あるけど…– 学習機会の少なさ– テキストやウェブサイト,WSは増えている

けど…– 初学者に厳しい側面も…初学者に厳しい側面も…

5

Page 6: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

なぜ今可視化か• Loewen et al (2013)

– “Statistical literacy among applied – “Statistical literacy among applied linguists and second language acquisition researchers” in TESOLQ

– 世界各国から331の研究者に質問紙– 基本的な統計についての知識を調査

6

Page 7: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

なぜ今可視化か• Loewen et al (2013, p.13)

– 統計処理に使うソフトウェア(重複回答)– 統計処理に使うソフトウェア(重複回答)• SPSS 69%• Excel 56%• By hand 17%• R 15%• SAS 8%• SAS 8%• AMOS 6%

7

Page 8: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

なぜ今可視化か• Loewen et al (2013, p.13)

– 統計処理に使うソフトウェア(重複回答)– 統計処理に使うソフトウェア(重複回答)• SPSS 69%• Excel 56%• By hand 17%• R 15%• SAS 8%• SAS 8%• AMOS 6%

8

Page 9: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

なぜ今可視化か• Loewen et al (2013, p.12)

– 統計の知識についての補助(上から)– 統計の知識についての補助(上から)1. インターネット2. 同僚3. 統計のテキスト4. プロフェッショナルな相談員5. 大学の統計補助センター5. 大学の統計補助センター6. ワークショップ7. セミナー

9

Page 10: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

なぜ今可視化か• Loewen et al (2013)から

– ツールは自体は普及している– ツールは自体は普及している– でも使い方を学ぶ機会が少ない– 必然的にSPSSやExcelといったツールのデ

フォルト仕様に左右されやすい

10

Page 11: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

きれいなグラフを描こう11

Page 12: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

きれいなグラフを描こう• 系列機関誌(2012年度)のある論⽂風

12

Page 13: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

きれいなグラフを描こう• エクセルのデフォルトがこうであるから

という以外特に意味はないという以外特に意味はない• これだけ紙面を取って9つの平均値のみ可

視化している• もったいない

13

Page 14: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

Excel 2007デフォルト

某論⽂風某論⽂風

14

Page 15: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

きれいなグラフを描こう• 視認性も低い(色など)• 第一,APAなどの基準を満たしていない• 第一,APAなどの基準を満たしていない

15

Page 16: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

きれいなグラフを描こう• ⽇本⼼理学会(2005)「執筆・投稿の手引き」

– 外国語教育の分野ではあまり明確なガイドラインは示されてい– 外国語教育の分野ではあまり明確なガイドラインは示されていない(APA準拠)

p. 31より16

Page 17: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

きれいなグラフを描こう• 実際に細かいところを⾒てみましょう

– エクセル(2007)のデフォルトから望ましい– エクセル(2007)のデフォルトから望ましいグラフまで」

17

Page 18: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

きれいなグラフを描こう1. 3Dである意味が

ないない2. 配色に気をつける3. 枠線はいらない4. 補助線はいらない5. 凡例のスペースが

もったいない6. 縦軸の幅がおかし

もったいない6. 縦軸の幅がおかし

い7. 軸のラベルがない

18

Page 19: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

きれいなグラフを描こう8. 解像度が低い(拡張メ

タファイルまたはオフィスサブジェクトで)タファイルまたはオフィスサブジェクトで)

9. ⽂字の大きさ10.線の太さ統一11.フォント(ゴチ)12.軸の色を⿊にする13.目盛は「内側」13.目盛は「内側」14.情報量が足りない

19

Page 20: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

きれいなグラフを描こう

70

20

30

40

50

60

70

成績

じゃん!!

0

10

A test B testテストの種類

20

Page 21: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

きれいなグラフを描こう• でも情報量が足りない

– テストA: M = 50, テストB: M = 60という– テストA: M = 50, テストB: M = 60ということしか分からない

– それだけの価値がこの紙面にあるか?• もっとたくさん議論したほうがまし?

– 様々な可視化の方法によって情報量の多い可視化を!視化を!

21

Page 22: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ22

Page 23: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• エラーバー

– 棒グラフ,折れ線グラフに対してつけるあるデータの範囲

– 棒グラフ,折れ線グラフに対してつけるあるデータの範囲

• 「標本の」散布度についての範囲– 第一・第三四分位点– 標準偏差(SD)– 予測区間

» 95%» 99%

• 「⺟平均推定値の」誤差の範囲• 「⺟平均推定値の」誤差の範囲– 標準誤差(SE)– 信頼区間

» 95%» 99%

– データが正規分布に従う場合,全てn(N), M, SDの報告があれば分かる 23

Page 24: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• エラーバーあれこれ

– どんな範囲か明示する– どんな範囲か明示する– どの範囲をつけるかは目的による

• 標本のばらつきか• ⺟平均の確からしさか

– 信頼区間の報告が推奨される(APA)

50

60

70

80

信頼区間の報告が推奨される(APA)

0

10

20

30

40

50

A test B test

成績

テストの種類24

Page 25: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 折れ線にもエラーバー

– 折れ線グラフでも同様にエラーバーをつけられる折れ線グラフでも同様にエラーバーをつけられる

– 積極的に⽂字を入れて情報を補ってもよい

80

100

120

A B

t(59) = 0.61t(59) = 0.61

t(59) = 4.81

p < . 01

d = 1.42

0

20

40

60

80

Pre Post Delayed

Sco

re

t(59) = 0.61

p = .67

d = 0.11

t(59) = 5.61

p < . 01

d = 1.76

t(59) = 0.61

p = .67

d = 0.11

t(59) = 5.61

p < . 01

d = 1.76

25

Page 26: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 情報量が多くなった!

– 同じ紙面で情報量が多い– 同じ紙面で情報量が多い– 使わない積極的な理由は少ない

普通の棒グラフ/折れ線グラフ エラーバー

表せる値の数 1 2, 3

代表値 ○ ○

標本のばらつき ☓ △

⺟数の推定区間 ☓ ○

26

Page 27: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• Don’ts

– あまり変数が多いと…あまり変数が多いと…– ダイナマイトプロット

30

35

40

45

50

50

60

70

80

0

5

10

15

20

25

30

1 2 3 4 5 6

A

B

C

0

10

20

30

40

A test B test

成績

テストの種類 27

Page 28: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 箱ひげ図(boxplot)

– 標本のばらつきを表せる– 標本のばらつきを表せる• 最大値• 第一四分位点• 中央値• 第三四分位点• 最小値• 最小値

0 10 20 30 40 50 60 70

Score

Rea

ding

Tes

t

28

Page 29: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 箱ひげ図あれこれ

– 描き方が沢山あるので注意すること– 描き方が沢山あるので注意すること• 5%-95%分位点を髭の端とし外れ値を個別にプ

ロットする• 2SDを髭の端とする• 紹介したのは「チューキーの方法」

– 多変数の場合,横の方が⾒やすく紙面を取ら– 多変数の場合,横の方が⾒やすく紙面を取らない

0 20 40 60 80 100

Score

Rea

ding

Tes

t

29

Page 30: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 実はエクセルでもできる

– 「エクセルで箱ひげ図作図シート」– 「エクセルで箱ひげ図作図シート」• 草薙が作成• 無料でダウンロード可• エクセルのシート(.xls)

30

Page 31: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ1. データをそのまま貼り付けて必要な値(最大値・四分

位点・中央値・最小値)を得る位点・中央値・最小値)を得る2. 必要な値を貼り付ける

31

Page 32: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ1. 変数の名前,ラベルなどを書く2. コピーしてwordファイルなどに貼り付け2. コピーしてwordファイルなどに貼り付け3. 完成!

60

80

100

120

140

Axis

Tit

le

0

20

40

60

data 1 data 2Axis Title

32

Page 33: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 箱ひげ図の目的

– 基本は「標本の分布」について可視化すると– 基本は「標本の分布」について可視化すると– この図を解釈することによってその性質をそ

のまま⺟集団に当てはめるのはおかしい• ⺟平均の差の検定を⾏ったときに⼆変数の箱ひげ

図を出すと整合性がなくなる場合もある• その場合は,⺟平均値推定値や,(不偏)標準偏• その場合は,⺟平均値推定値や,(不偏)標準偏

差推定値,または標準誤差や信頼区間も重ねて描くとよいかもしれない

33

Page 34: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 箱ひげ図の実際

– 現状で最も便利なツール「langtest.jp」– 現状で最も便利なツール「langtest.jp」(水本篤先生作成)

• Comparing Paired Samples(http://langtest.jp:3838/paired/)

34

Page 35: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 情報量がまた多くなった!

普通の棒グラフ折れ線グラフ エラーバー 箱ひげ図

表せる値の数 1 2, 3 5-

代表値 ○ ○ ○

標本のばらつき ☓ △ ○標本のばらつき ☓ △ ○

⺟数の推定区間 ☓ ○ △

標本の偏り ☓ ☓ ○

35

Page 36: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 蜂群図

– 個別の標本の値を全てプロット– 個別の標本の値を全てプロット– データの損失がない→要約していない

5060

7030

40

テテテ1 テテテ2

36

Page 37: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 蜂群図のあれこれ

– でも箱ひげ図などを重ね描きできる– でも箱ひげ図などを重ね描きできる

6070

5060

7050

6070

3040

50

テテテ1 テテテ2

3040

50

テテテ1 テテテ2テテテ1 テテテ2

3040

50

37

Page 38: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 蜂群図の目的

– 「標本における」ひとつひとつの値を⾒るた– 「標本における」ひとつひとつの値を⾒るため

– 箱ひげ図などと並列できる– 要約+個別のデータがベター

38

Page 39: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 情報量がまた多くなった!

棒/折れ線 エラーバー 箱ひげ図 蜂群図

表せる値の数 1 2, 3 5- ∞

代表値 ○ ○ ○ △

標本のばらつき ☓ △ ○ △

⺟数の推定区間 ☓ ○ △ △

標本の偏り ☓ ☓ ○ △

外れ値 ☓ ☓ △ △

個別のデータ ☓ ☓ ☓ ○39

Page 40: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• ヒストグラム

– 度数分布– 度数分布– 特定の範囲にいくつかのデータがあるか計算

して棒グラフにしたもの– 分布の形状が分かる

Fre

quen

cy

100

150

Fre

quen

cy

-3 -2 -1 0 1 2 30

5010

040

Page 41: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• ヒストグラムあれこれ

– 各棒は近接していなければならない– 各棒は近接していなければならない– 階級数の決め方にも複数ある。根拠を持つこ

と• Rのhist関数におけるデフォルトは「スタージェスの公式」• エクセル分析ツールのヒストグラムは「平方根選択」

41

Page 42: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 分布の形状を⾒る

– 正規性が満たされない場合もある– 正規性が満たされない場合もある– 外れ値を⾒つける– 混合分布かもしれない

1500

2000

3000

Fre

quen

cy

30

Fre

quen

cy

0 5 10 15

050

010

0015

00

Fre

quen

cy

0 50 100

010

0020

00

Fre

quen

cy

80 100 120 140 160 180

05

1020

42

Page 43: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 二変数(標本)以上を比べる

– ⼆つ並べて出す– ⼆つ並べて出す– 通過色で重ね合わせる

Pre

Fre

quen

cy

100

150

Post

Fre

quen

cy

100

150

Score

Fre

quen

cy

0 10 20 30

050

100

Score

Fre

quen

cy

0 10 20 30

050

100

43

Page 44: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• ヒストグラムの実際

– langtest.jpだと重ねあわせヒストグラムもで– langtest.jpだと重ねあわせヒストグラムもできる!

44

Page 45: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ棒/

折れ線 エラーバー 箱ひげ図 蜂群図 ヒストグラム

表せる値の数 1 2, 3 5- N N表せる値の数 1 2, 3 5- N N

代表値 ○ ○ ○ △ △

標本のばらつき ☓ △ ○ △ ○

⺟数の推定区間 ☓ ○ △ △ ☓

標本の偏り ☓ ☓ ○ △ ○

外れ値 ☓ ☓ △ △ ○

個別のデータ ☓ ☓ ☓ ○ ☓

分布の形状 ☓ ☓ △ △ ○

45

Page 46: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 応用

– 確率密度による様々なプロット– 確率密度による様々なプロット– 確率密度プロット(曲線)– そら豆図Beanplot– ヴァイオリンプロットViolinplot

46

Page 47: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 確率密度プロット

0.00

40.

006

0.00

80.

010

Region A-1

Den

sity

0.00

40.

006

0.00

80.

010

Region AD

ensi

ty

0.00

40.

006

0.00

80.

010

Region B

Den

sity

0.00

40.

006

0.00

80.

010

Region B+1

Den

sity

0.00

40.

006

0.00

80.

010

Region B+2

Den

sity

200 400 600 800

0.00

00.

002

Reading time

200 400 600 800

0.00

00.

002

Reading time

200 400 600 800

0.00

00.

002

Reading time

200 400 600 800

0.00

00.

002

Reading time

200 400 600 800

0.00

00.

002

Reading time

47

Page 48: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 累積でも!

– 効果量のブートストラップ信頼区間– 効果量のブートストラップ信頼区間

0.0

0.5

1.0

Effe

ct s

ize

95% CI 95% CIPoint estimate

0 20 40 60 80 100

-0.5

0.0

Probability (%)

Effe

ct s

ize

48

Page 49: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• そら豆図とヴァイオリンプロット

6080

100

Test1

6080

100

Test2

01

2

020

4060

020

4060

-2-1

49

Page 50: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 散布図

– 複数の対応のあるデータの場合– 複数の対応のあるデータの場合

30

40

50 テスト2

M = 29.56

10

20

10 20 30 40 50

テスト

テスト1

M = 30.10

50

Page 51: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 散布図あれこれ

– 対角線や平均値補助線を入れるとよい– 対角線や平均値補助線を入れるとよい– 回帰直線などをいれてもよい

y = 0.14x + 25.50R² = 0.03

40

50

テスト2

M = 29.56

10

20

30

10 20 30 40 50

テスト

テスト1

M = 29.56

M = 30.10

51

Page 52: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 散布図⾏列

– 3以上の変数の散布図– 3以上の変数の散布図

テテテ1

30 50 70 30 50 70

4060

3050

70

テテテ2

テテテ3 50

テテテ3

30

3050

70

テテテ4

40 60 30 50 30 50 70

3050

70

テテテ5

52

Page 53: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• 様々な散布図⾏列の仲間

30 50 70 30 50 70

テテテ1

30 50 70

0.13 -0.17

30 50 70

-0.30

40600.10

3050

70

テテテ20.03 -0.04 0.16

テテテ3-0.07

3050-0.32

3050

70 テテテ4-0.21

40 60 30 50 30 50 70

3050

70

テテテ5

53

Page 54: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

様々なグラフ• さまざまなグラフの組み合わせ

54

Page 55: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

まとめ55

Page 56: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

まとめ• 重要なのは合目的性の明確化

– 何のための図示か– 何のための図示か• 標本の分布か• ⺟平均についての仮説の検証か

– 読み⼿と共有すべき情報の意識• 要約または捨象すべきか,そうでないか

– 仮説や議論と一貫しているか– 仮説や議論と一貫しているか• 標本の話か⺟集団の話か• 一般化の範囲• 常に測定誤差に配慮を

56

Page 57: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

まとめ• ツールにとらわれないこと

– APAなどが規範– APAなどが規範– 特定のツールの「デフォルト」に拘泥しては

いけない– ツール自体はめまぐるしく変化する– 大事なことはツールの使い方を覚えることで

はなくて,一般化したレベルでの理解はなくて,一般化したレベルでの理解– 研究者における統計リテラシーの世代間

ギャップ

57

Page 58: 「有益な情報を捨ててしまわないデータの可視化」 キソケン2013 ws草薙

アウトライン• なぜ今可視化か• きれいなグラフを描こう• きれいなグラフを描こう• 様々なグラフ

– エラーバー– 箱ひげ図– 蜂群図– ヒストグラム– 確率密度プロット– 確率密度プロット– 散布図(⾏列)– おまけ

• まとめ

58