25
数理統計 : モデルを選ぶ ****専攻 **** **** 1 **********************

20141130 for upload

  • Upload
    ak-ok

  • View
    70

  • Download
    1

Embed Size (px)

Citation preview

Page 1: 20141130 for upload

数理統計 : モデルを選ぶ

****専攻 **** ****

1

**********************

Page 2: 20141130 for upload

研究室のMy本棚

情報幾何 漸近論 数理統計 その他 印刷した論文

2

Page 3: 20141130 for upload

線形回帰 ≹ ∽ ≡ ∰ ∫ ≡ ∱ ≸

0.0 0.2 0.4 0.6 0.8 1.0

1.0

1.2

1.4

1.6

1.8

2.0

x

y

3

Page 4: 20141130 for upload

0.0 0.2 0.4 0.6 0.8 1.0

1.0

1.2

1.4

1.6

1.8

2.0

x

y

線形回帰 ≹ ∽ ≡ ∰ ∫ ≡ ∱ ≸ 4

Page 5: 20141130 for upload

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.1

0.2

0.3

x

y

データが変わるとモデルも変える

5

Page 6: 20141130 for upload

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.1

0.2

0.3

x

y

直線では上手くフィットしない

6

Page 7: 20141130 for upload

0.0 0.2 0.4 0.6 0.8 1.0

-0.1

0.0

0.1

0.2

0.3

x

y

0.0 0.2 0.4 0.6 0.8 1.0

-0.1

0.0

0.1

0.2

0.3

x

cb

(x)

2次曲線のほうが当てはまりが良い

7

Page 8: 20141130 for upload

データを予測するモデル

≹ ∽ ≡ ∰ ∫ ≡ ∱ ≸ ≹ ∽ ≡ ∰ ∫ ≡ ∱ ≸ ∫ ≡ ∲ ≸ ∲ ∮ ∮ ∮ ≹ ∽ ≡ ∰ ∫ ≡ ∱ ≸ ∫ ⊢ ⊢ ⊢ ∫ ≡ ≮ ≸ ≮

どれを選ぶ?

8

Page 9: 20141130 for upload

高次のモデルは低次のモデルを含む

≦ ≡ ∰ ∫ ≡ ∱ ≸ ≧ ⊽ ≦ ≡ ∰ ∫ ≡ ∱ ≸ ∫ ≡ ∲ ≸ ∲ ≧ ≡ ∰ ∻ ≡ ∱ ∻ ≡ ∲ ∲ ≒ について

高次のモデルほど(データの)表現力が豊か (i.e. 2次のモデルは1次のモデルを含む)

⇒ 高次のモデルを使えばよい?

9

Page 10: 20141130 for upload

4次のモデルでやってみた

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.1

0.2

0.3

x

y

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.1

0.2

0.3

x

cb

(x)

2次のモデルとほとんど変わらないような・・・

10

Page 11: 20141130 for upload

余計な次元は使わない

同様のデータを説明する仮説が二つある場合、 より単純な方の仮説を選択せよ

[オッカムの剃刀]

(同等の性能なら)

シンプルなモデルのほうが良いよ

11

Page 12: 20141130 for upload

• Akaike Information Criterion 最小化:

出来るだけ次元を削減する

: モデルがデータに当てはまる度合い. ≠ ∨ ≞ ⊵ ∩

が同じなら, 次数が小さいほうが選択される ≠ ∨ ≞ ⊵ ∩

≁ ≉ ≃ ∺ ∽ ⊡ ∲ ≠ ∨ ≞ ⊵ ∩ ∫ ∲ ≰

: モデルの次数 ≰

12

Page 13: 20141130 for upload

他の基準もある

≁ ≉ ≃ ∺ ∽ ⊡ ∲ ≠ ∨ ≞ ⊵ ∩ ∫ ∲ ≰ ≂ ≉ ≃ ∺ ∽ ⊡ ∲ ≠ ∨ ≞ ⊵ ∩ ∫ ≰ ≬ ≯ ≧ ≮ ≍ ≄ ≌ ∺ ∽ ≂ ≉ ≃ ∽ ∲ ≇ ≉ ≃ ∺ ∽ ⊡ ∲ ≠ ∨ ≞ ⊵ ∩ ∫ ∲ ≴ ≲ ≇ ≈ ⊡ ∱

∮ ∮ ∮

どれが良いかは宗教論争

13

Page 14: 20141130 for upload

• 新しい情報量基準を計算:

自分の卒論の宣伝

外れ値を自動的に無視.

≉ ≃ ≂ ∺ ∽ ≮ ⊢ ≤ ≂ ∨ ≞ ≱ ∻ ≞ ≰ ⊯ ∩ ∫ ≴ ≲ ≞ ≇ ⊯ ∻ ≂ ≞ ≈ ⊡ ∱ ⊯

14

Page 15: 20141130 for upload

ところで最近よく言われること

ビッグデータ?

(統計やってます)

わたし

はじめてあう人

15

Page 16: 20141130 for upload

ビッグデータは統計ではない(?)

• 「少ないデータからいかに推測するか」が統計

• 数が多けりゃだいたいどうにかなる

• 「処理できるかどうか」という計算機の問題

いや・・・高級な処理は負荷かかるし・・・ どうせ簡単な統計処理しかできないし・・・

16

Page 17: 20141130 for upload

• ビッグデータ… ではなく

高次元データ

高次元データが注目されている(らしい)

ビッグデータ = データの数が多い

高次元 = データの種類が多い

17

Page 18: 20141130 for upload

• 色んな種類のデータがある(=高次元)けど

意味のあるデータは一部しかない

世の中のデータの大半は無意味

意味のあるデータを「選ぶ」

18

Page 19: 20141130 for upload

• 各個体は多様な遺伝子を持っている:

たとえば遺伝子

遺伝子 a b c d e f g h …

個体1 1 0 0 1 1 1 0 1 …

個体2 0 1 1 1 1 1 0 1 …

個体3 1 1 1 0 1 1 0 1 …

個体4 0 0 0 1 1 0 1 0 …

個体100 1 1 1 0 1 0 1 1 …

データの種類(多い) ※データの数=100 (少ない)

19

Page 20: 20141130 for upload

• 色々なモデルを考える:

どの遺伝子が病気に影響するか?

遺伝子aのみが影響すると仮定したモデル

遺伝子bのみが影響すると仮定したモデル

遺伝子a,bが影響すると仮定したモデル

遺伝子a,b,d,e,…が影響すると仮定したモデル

全ての遺伝子が影響すると仮定したモデル …

モデルを選ぶ

20

Page 21: 20141130 for upload

あるモデルが選ばれた

遺伝子a,d,e,hが影響すると仮定したモデル

が選ばれたとする.

遺伝子a,d,e,hが病気に影響していると考えられる. ※ホントはこの表現はよくない

その他の遺伝子は無関係.

21

Page 22: 20141130 for upload

• (とりあえず)色んな種類のデータを用意する.

• 有用なデータを「選ぶ」.

どのデータが有用かは分からない

学生のテストの点数を予測したい

•身長 •体重 •視力 •塾に通った年数、…etc

有用なデータを

「選ぶ」

22

Page 23: 20141130 for upload

• 不要なデータを自動的に無視: スパース推定

実はモデルを選ぶまでもない

Least Absolute Shrinkage and Selection Operator

≌ ≁ ≓ ≓ ≏ ∺ ∽ ≡ ≲ ≧ ≭ ≩ ≮ ⊯

⊩ ≫ ≹ ⊡ ≘ ⊯ ≫ ∲ ∲ ∫ ⊸ ≫ ⊯ ≫ ∱ ⊪

23

Page 24: 20141130 for upload

ディスカッションの時間があるらしい…

24

Page 25: 20141130 for upload

• 数理的なテクニックのイメージを掴むこと

• 証明には(あんまり)興味が無い

• プログラムは書か(け)ないが アルゴリズムを考えるのは好き

• 工学系の話の数理的な裏付けとか大好き

自分の興味対象:

おわり.

25