20131123 tokyowebmining kenny

新人データサイエンティストの成長途中日記

2013/11/23

Tokyowebmining #31

KennyISHIMURA

1

目次

� 発表者自己紹介

� 今回の主人公Ｗさん

� 本発表の概要

� 成長日記Ⅰ ○月×日Ｗさん、分析プロジェクトに参加！

� 成長日記ディスカッションⅠ 統計解析についての基礎知識

� 成長日記Ⅱ □月△日 Wさん統計学入門書をしばらく読む

� 成長日記ディスカッションⅡ 仮説検定についての理解

� 成長日記Ⅲ ◇月▽日 W氏、検定による分析ができるようになる

� 成長日記ディスカッションⅢ 仮説検定パターンについての理解

� 今回の主人公Ｗさんの成長っぷり

� 参考資料

2

発表者自己紹介

� 某通信系グループ会社のSE

� 専門は通信サービスの検証・障害解析・管理手法の検討等

� 検証や障害解析では、確率統計や機械学習理論を使うのではなく専門知識(通信規格・RFC・ソフト/ハードウェア特性)によるものが殆ど

� CCIE Routing and Switching No.25050

� 趣味はトライアスロン、ゴルフ等

� 学生時代は物理学科でしたが、

体育会系クラブに精を出し、

学業はぶっつりしておらず。。。

3

今回の主人公Ｗさん

� 今回の成長日記の主人公は、私ではなく同僚のＷさん

� 私と同じく通信サービスの検証・障害解析等が専門

� 土木系学部卒業

� プログラミングはスクリプトやツール作成は一通り可能(C,VBA,スクリプト言語,SQL…)

� 中学生のとき、個人電算クラブという名のパソコンクラブを友人とやっていた

� 一緒にトライアスロン大会にリレーで参加(バイク担当)

� 写真：石垣島トライアスロン

� 身長165cm体重90kg(ややメ○ボ)

4

本発表の概要

� Ｗ氏はふとしたことから現在私の行っているデータ分析のプロジェクトに配属された。（具体的な内容は、今回は個人としての発表という立場からお話できません）

� Ｗ氏はデータ分析が専門でもなく、リーダーも経験不足である中、手探りでどのように成長していったのかを赤裸々に発表！(他人事…)

� 既に完全成長されているTokyowebmining参加者の皆様とは、初学者がデータサイエンティストとして順調に成長する為に何が参考になるかを、ご自身の体験を思いだしながらディスカッションして有意義な情報共有をしたい。

5

成長日記Ⅰ○月×日Ｗさん、分析プロジェクトに参加！

(ちょっとトライアスロンをしてみよう)

分析プロジェクト概要を説明され、統計解析や機械学習の技術を分析プロジェクト概要を説明され、統計解析や機械学習の技術を分析プロジェクト概要を説明され、統計解析や機械学習の技術を分析プロジェクト概要を説明され、統計解析や機械学習の技術を使用するので勉強する必要があると知る！使用するので勉強する必要があると知る！使用するので勉強する必要があると知る！使用するので勉強する必要があると知る！

� データ分析と聞いた時のＷ氏の反応

①そういえば大学のときにちょっと授業でやりました。

②研究室でSPSSを使って数量化理論をやる人がいました

⇒なんとなくいろいろなツールがあって、「数量化理論」なる解析方法があるらしい。でも要するに大学の授業内容はもう忘れました。

○社会人になってその後実務で使わなければ○社会人になってその後実務で使わなければ○社会人になってその後実務で使わなければ○社会人になってその後実務で使わなければ、工学系、工学系、工学系、工学系出身でも出身でも出身でも出身でも統計解析の知識は忘れていたりする。統計解析の知識は忘れていたりする。統計解析の知識は忘れていたりする。統計解析の知識は忘れていたりする。

○統計解析といってもどんなことをするのか全体像が○統計解析といってもどんなことをするのか全体像が○統計解析といってもどんなことをするのか全体像が○統計解析といってもどんなことをするのか全体像が分からない。分からない。分からない。分からない。

⇒大学の統計学の基礎単位用の教科書※を読んでもらいました！※「統計学入門」東京大学教養学部統計学教室編 http://www.utp.or.jp/bd/978-4-13-042065-5.html

内容「度数分布/確率変数/各種確率分布/標本/推定/検定/回帰分析」という統計学の基礎を数式つきでしっかり解説。

6

成長日記ディスカッションⅠ統計解析についての基礎知識

� 統計解析/データマイニングの最も重要なベースイメージは？

⇒とにかく対象とする値を確率変数とした確率密度関数(ヒストグラム)を考える事が最も重要なベースイメージではないかと思いました。(当たり前？)

確率密度関数(ヒストグラム)

によるベースイメージ

⇒結局、その対象とする値はどのような確率分布かを考えるという一般形に落とせる。

対象とする値対象とする値対象とする値対象とする値・基本統計量・基本統計量・基本統計量・基本統計量・検定統計量・検定統計量・検定統計量・検定統計量・作った変数・作った変数・作った変数・作った変数・母集団パラメータ・母集団パラメータ・母集団パラメータ・母集団パラメータ・時系列・時系列・時系列・時系列

⇒その後に何が独立事象で何が特徴的な変数かを考える。

①数式による定義(教科書的)

⇒厳密だが、数式からイメー

ジを起こしにくい

②とにかくグラフ化

⇒視覚化できて良いが、

何も考えずグラフを作ると

整理されず混乱する

この両方を意識

7

(トライアスロンのトレーニングの基本はLSD)


確率密度分布(ヒストグラム)をベースイメージとした解釈

� 仮説検定も要するに統計検定量を変数とした確率密度分布

� 時系列データも、確率密度分布か時系列に並べただけかを区別して解釈

8

0

2

4

6

8

10

19:12 00:00 04:48 09:36 14:24 19:12 00:00

0

1

2

3

4

5

0 2 4 6 8 10 12 14 16 18 20 22

0

2

4

6

8

10

12

0 1 2 4

時系列に並べただけの散布図

⇒整理されず混乱する可能性

時系列の発生数

⇒サンプル数同じで単位時間あたり発生率が一定なら均等分布

単位期間別発生数

⇒サンプル数同じで単位時間あたり発生率が一定ならポアソン分布

難解な用語に騙されないで、要は確率密度分布

検定統計量


確率密度分布(ヒストグラム)をベースイメージとした解釈

� ベイズ統計も要するに母集団のパラメータ自体が確率密度分布を取るという考え方？

9

直接対象とする変数が確率密度分布を取り、

例：変数xは、正規分布N(μ,σ2)

その確率密度分布のパラメータ自体がまた確率密度分布を取る

例：仮定した正規分布のパラメータμは、正規分布N(μ’,σ’2)

x

μ

μ


� データ解析の仕事に最初に就いた時に知っていた統計解析・データマイニングに関する知識は？

� 高校レベル知識� (場合の数・確率・二項/正規分布・相関・検定・推定･･･)

� 大学レベル以上の知識� (各種確率分布・Γ/Β関数・行列計算・最尤・多変量解析・分散共分散・ベイズ統計・各種分析モデル・機械学習・・・)

� 実装知識� (R,Ruby,Python,Perl,Excel関数,VBA,SAS,SPSS,RDBMS,NoSQL,各種クラウドサービス,OSS･･･)

� 皆様、一番最初にデータ解析の仕事に就いたときに、学習は何から始めましたか？

� 一番最初の基礎知識としてどのようなことが、どのように役立ちましたか？

10

成長日記Ⅱ□月△日 Wさん、統計学入門書をしばらく読む

(LSDを始める)

W氏はまずは統計学の入門書氏はまずは統計学の入門書氏はまずは統計学の入門書氏はまずは統計学の入門書(大学の教科書大学の教科書大学の教科書大学の教科書)を一通り読みました。を一通り読みました。を一通り読みました。を一通り読みました。

� W氏コメント

①一通り読んで中身については大体分かりました。

⇒検定については、ブラックボックス的理解に近い。

○仮説検定○仮説検定○仮説検定○仮説検定はははは、重要、重要、重要、重要概念なのでブラックボックス的理概念なのでブラックボックス的理概念なのでブラックボックス的理概念なのでブラックボックス的理解だけではない方が良い解だけではない方が良い解だけではない方が良い解だけではない方が良い。。。。

⇒検定については、個別に作成したパワポで説明しました。

11

成長日記ディスカッションⅡ仮説検定についての理解

� 「有意水準5％にて帰無仮説H0を棄却することはできない」等と、あまりに堅苦しく難しそうなのが仮説検定。初心者として初めて学習する時にどのように理解するのが良いのか。できればブラックボックス的理解は避けたいが。

⇒統計検定量の確率密度分布グラフと共に、事実と検定結果のクロス表を理解するのが良いのでは？

12

事実と検定結果のクロス表⇒検定の主テーマは、判断。

堅苦しい言い回しは置いておいて、判断(検定)結果に関して第一に理解する。

12

事実事実事実事実

H0 μ=1 H1 μ≠1

検定結果確率

H0 正しい1-α

第二種誤りβ

H1 第一種誤りα (有意水準)

正しい1-β (検出力)


事実と検定結果のクロス表を少しカスタマイズして考える。事実H1はいくつもの場合があると考える。

⇒有意水準はあくまで事実がH0である時の検定結果が外れる率に関して言っており、大事なのは事実がH1である時の検出力。

検出力は、あくまで事実がどのようかによって左右される。

⇒検出力をコントロールできるのはサンプルサイズだが、キチンと理解して計算するのはちゃんと分かっていないと。

13

13

事実事実事実事実

H0 μ=1 H11 μ=1.1 H12 μ=1.2 H13 μ=1.3

検定結果確率

H0 正しい1-α

第二種誤りβ1

第二種誤りβ2

第二種誤りβ3

H1 第一種誤りα (有意水準)

正しい1-β1 (検出力1)

正しい1-β2(検出力2)

正しい1-β3(検出力3)

･･･


� 仮説検定について初心者が学習する時に気をつけたいポイントは？

� 皆様、仮説検定について何の理解が一番手こずりましたか？

� 仮説検定について、どのようなことがどのように役立ちましたか？

14

成長日記Ⅲ◇月▽日 W氏、検定による分析ができるようになる

(毎日3KMスイムを始める)

Wさんはさんはさんはさんは統計的検定について理解し、実データ統計的検定について理解し、実データ統計的検定について理解し、実データ統計的検定について理解し、実データ分析分析分析分析にににについて検定を使えるようになりました。ついて検定を使えるようになりました。ついて検定を使えるようになりました。ついて検定を使えるようになりました。

� Wさんコメント

①理屈は分かったけど、結局どういうときにどういう検定をすればよいかはあまり良く分からない。

⇒そりゃそうですね、式の変形による証明などは退屈。

○検定対象は様々で、どんな時に何を使えばいいか、○検定対象は様々で、どんな時に何を使えばいいか、○検定対象は様々で、どんな時に何を使えばいいか、○検定対象は様々で、どんな時に何を使えばいいか、分からない分からない分からない分からない。。。。

15

成長日記ディスカッションⅢ仮説検定パターンについての理解

� 「パラメトリック検定」「ノンパラメトリック検定」「χ二乗検定」「コルモゴロフ・スミルノフ検定」等といっぱい検定手法があるらしい。どんな時に何の検定をやったらいいか混乱して分からない。

⇒ずばり、「どんな時に何の検定をやったらいいか表」※を用意しました。

※「44の例題で学ぶ統計的検定と推定の解き方」

内容「検定対象とする変数の統計量種類やサンプル数と検定する内容により、何という検定を行えばよいかを表で整理して例つきで解説。 16

あらゆるパターンでどんな時に何の検定をやったら良いかわかる人は天才と割り切る

⇒各検定方法は、それぞれそれなりの工夫がある別物であり、ゼロから導くことが普通の人にできるわけない。

実務で使いながら理屈を理解して応用できるようにしていくアプローチとする。

16

成長日記ディスカッションⅢ仮説検定パターンについての理解

� どんな時に何の検定をやったらいいか大体分かる方、どのように理解していますか？

� 自由度の概念は結構大事だと思うのですが、どのように理解されていますか？

17

今回の主人公Ｗさんの成長っぷり

� 統計解析の基本をマスターし、さらにR等を使用した機械学習による分析もマスターしつつデータサイエンティストとして成長中！

� 写真：佐渡島トライアスロン

スイムは全体6位！

� 身長165cm体重55kg(体脂肪率一桁)

� ロングディスタンス(S:3.8km,B:180km,R:42km)年代別トライアスロン日本代表として、北京での大会に出場予定！

18

前後

参考資料

� １「統計学入門」http://www.utp.or.jp/bd/978-4-13-042065-5.html

� ２「統計学のための数学入門30講」http://www.asakura.co.jp/books/isbn/978-4-254-11633-5/

� ３「44の例題で学ぶ統計的検定と推定の解き方」http://ssl.ohmsha.co.jp/cgi-bin/menu.cgi?ISBN=978-4-274-06760-0

19

Documents

20131123 tokyowebmining kenny