28
Bagplot: 二変数の箱ひげ図 Kashiwa.R#9 東京大学大学院 新領域創成科学研究科 蔦谷匠 2013-10-11 1 第9回 Kashiwa.R 駒場キャンパス http://www14.atwiki.jp/kashiwar/pages/23.html

Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Embed Size (px)

DESCRIPTION

Kashiwa.R#9 (2013年10月11日・東京大学駒場キャンパス) にてtsutatsutaの発表したスライドです.Bagplotという2変数の箱ひげ図のようなものの解説です.

Citation preview

Page 1: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplot: 二変数の箱ひげ図

Kashiwa.R#9

東京大学大学院新領域創成科学研究科

蔦谷匠2013-10-11

1第9回 Kashiwa.R 駒場キャンパスhttp://www14.atwiki.jp/kashiwar/pages/23.html

Page 2: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Kashiwa.RとはRの勉強会のひとつ

2011年11月より千葉県柏市周辺で活動 (今回で9回目)情報生命・生命科学系のユーザが多い

参加者・発表者募集中です!!開催情報はML (メーリングリスト) にて配信しています

2

http://www14.atwiki.jp/kashiwar/

#KashiwaR

質問など

Page 3: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

自己紹介 3

蔦谷 匠 (つたや たくみ)東京大学・新領域・先端生命・D2生物学 → 会社員 → 人類学同位体分析, 子供, 古人骨

連絡先:– @tsutatsuta– tsutayatakumi[at]gmail.com

http://tsutatsuta.net/

Page 4: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

内容 4

● 二変数のデータを図示する– 正規分布してる?

◯ Bagplotの原理– 二変数への「順位」の拡張

◯ RでBagplot– aplpackパッケージを利用

こんなときにBagplot・正規分布を仮定できない・変数のあいだに関連性がある

Page 5: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

二変数のデータを図示する 5

まずはじめに一変数データの図示正規分布にしたがう場合は平均±1SDが一般的正規分布にしたがわなければ箱ひげ図

正規分布rnorm(1000)

対数分布rexp(1000) - 1

平均±1SD

箱ひげ

ヒストグラム

0.0 ± 1.00.0 ± 1.0

Page 6: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

二変数のデータを図示する 6

二変数データの場合は…?

平均±1SD

x

y

平均±1SD

Page 7: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

二変数のデータを図示する 7

正規分布が仮定できない場合「平均±1SD」は正しくない分布の形状・変数間の関連性がわからなくなってしまう

x

y

分布に偏り!?

相関がある!?

Page 8: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

内容 8

◯ 二変数のデータを図示する– 正規分布してる?

● Bagplotの原理– 二変数への「順位」の拡張

◯ RでBagplot– aplpackパッケージを利用

こんなときにBagplot・正規分布を仮定できない・変数のあいだに関連性がある

Page 9: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理 9

二変数への「順位」の拡張同じ順位に属する点から形成される層をつくっていく最も浅い層 (≒ 最大・最小) → 最も深い層 (≒ 中央値)

二変数データセットZ = {z1, z2, z3, ..., zn}

Page 10: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 層の形成 10

ldepth(θ, Z)θを通る直線上および“左”にある点の最小個数等しいldepthの直線は閉じられたポリゴンを形成する

ldepth = 1に対応する直線

= 2 = 5

θZ中の任意の点θ

Page 11: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 層の形成 11

ldepth(θ, Z) = 1θを通る直線上および“左”にある点の最小個数が1であるような点

ldepth = 1の層

Page 12: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 層の形成 12

ldepth(θ, Z) = 2θを通る直線上および“左”にある点の最小個数が2であるような点

Page 13: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 層の形成 13

ldepth(θ, Z) = 2θを通る直線上および“左”にある点の最小個数が2であるような点

ldepth = 2の層

Page 14: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 層の形成 14

ldepth(θ, Z) = 3θを通る直線上および“左”にある点の最小個数が3であるような点

Page 15: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 層の形成 15

ldepth(θ, Z) = 3θを通る直線上および“左”にある点の最小個数が3であるような点

ldepth = 3の層

Page 16: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 層の形成 16

ldepth(θ, Z) = 4θを通る直線上および“左”にある点の最小個数が4であるような点

Page 17: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 層の形成 17

ldepth(θ, Z) = 4θを通る直線上および“左”にある点の最小個数が4であるような点すべての点がいずれかの層に分類されたので終了

ldepth = 4の層

Page 18: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 中央値“median”の設定 18

ldepth(θ, Z)が最大の最も深い層最大ldepthをもつθが一点に定まればその点が中央値そうでなければ最深層の重心が中央値

ldepth = 1

2

3

4

中央値

Page 19: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 四分位範囲“bag”の設定 19

深度kの領域Dkに含まれる点の数#Dk#Dk ≦ [n/2] < #Dk-1 にあたる層が四分位範囲ちなみに, Dk-1 は Dk に含まれる

#Dk = 14

9

5

2

n/2 = 7

Page 20: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 四分位範囲“bag”の設定 20

深度kの領域Dkに含まれる点の数#DkDkとDk-1を点の数に応じた比率で分ける範囲

#D2 = 9

#D3 = 5

(7 - 5) : (9 - 7) の点

Page 21: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 四分位範囲“bag”の設定 21

深度kの領域Dkに含まれる点の数#DkDkとDk-1を点の数に応じた比率で分ける範囲

四分位範囲“Bag”

Page 22: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 最大小値“fence”の設定 22

最大・最小値: 四分位範囲の3倍まで

四分位範囲“Bag”

中央値“Median”

その領域の外は外れ値“Outlier”

Page 23: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

Bagplotの原理: 最大小値“fence”の設定 23

最大・最小値: 四分位範囲の3倍まで

四分位範囲“Bag”

中央値“Median”

四分位範囲の3倍

最大最小範囲“Fence”

外れ値以外の点をつないだ領域が新たなFenceになる

Page 24: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

内容 24

◯ 二変数のデータを図示する– 正規分布してる?

◯ Bagplotの原理– 二変数への「順位」の拡張

● RでBagplot– aplpackパッケージを利用

こんなときにBagplot・正規分布を仮定できない・変数のあいだに関連性がある

Page 25: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

RでBagplot 25

aplpackパッケージを使いましょう詳細は ?bagplot を見てくださいね〜

x

y

Page 26: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

RでBagplot 26

分布の形状や変数の関連性がある程度わかる図の表し方も自由にできる (領域に色をつける, 点の形を変える, ...)

x

y

四分位範囲“Bag”

中央値“Median”

最大最小範囲“Fence”外れ値“Outlier”

Page 27: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

RでBagplot 27

使いどころは…?生データだとごちゃごちゃするし平均±1SDも正しくない…など

未発表データ

Page 28: Bagplot: 二変数の箱ひげ図 (Kashiwar#9)

参考文献 28

Rousseeuw PJ, Ruts I, and Tukey JW. 1999. The bagplot: a bivariate boxplot. Am. Stat. 53:37–41.

→ S-PlusとMATLABでBagplotのコードを作った

Tukey JW. 1975. Mathematics and the picturing of data. Proc Int Congr Math 2:523–532.

→ Bagplotの原理を考えた

こんなときにBagplot・正規分布を仮定できない・変数のあいだに関連性がある