Click here to load reader

 · Web view検定の流れを右図に纏めたので、参考にしてください。簡単に説明すると、以下の4段階になります。平均値の差があることを統計的に説明したいときには、まず、「平均値の差がある」という仮説を立てます。次に、その逆の「平均値は

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

生物統計学・解説編 2017年度版大阪府立大学生命環境科学域  尾形 善之平成30年1月22日

目次

はじめに 3

第1回:木を見て森を見てまた木を見る 4

第2回:注目要素を決める11

第3回:全体を眺める(1) クラスタリング、ヒートマップ17

第4回:全体を眺める(2) 平均、分散、標準偏差、ヒストグラム22

第5回:違いを調べる(1) t検定32

第6回:違いを調べる(2) U検定41

第7回:エラーを調べる 分割表、エラー、外れ値44

第8回:違いを調べる(3) p値とFDR46

第9回:類似性を調べる 相関係数50

第10回:全体を眺める(3) 主成分分析‐1

第11回:全体を眺める(4) 主成分分析‐2

第12回:全体を眺める(5) 主成分分析‐3

第13回:全体を眺める(6) ネットワーク解析

第14回:その他の解析・検定 カイ二乗検定、回帰分析

第15回:期末レポートの説明

付録1:使用するデータの説明

付録2:略号の説明

付録3:各作業におけるさまざまなオプション

はじめに

 「生物統計学」の授業を始めて6年経ちました。初めは講義のスタイルでしたが、授業の性質上、講義と実習を併用するようにしたため、90分の時間内ではなかなか両立できない、という悩みを抱えるようになりました。そこで、本科目の教科書に相当するテキストを提供し、テキストを予習して授業に臨んでもらうことを考えました。

 これまでは毎回の授業のたびに、スライドの内容と実習の手順書をダウンロードしてもらっていましたが、授業の内容を本テキスト「生物統計学・解説編 2017年度」に纏め、実習の手順書「生物統計学・手順書 2017年度」も一冊に纏めることにしました。実習の手順書を作るためには、エクセルVBAとPerl言語を活用しました。本科目ではなかなかそのプログラミング言語の活用方法までは説明できないので、本科目の資料作りに活用したプログラミングについても、「生物統計学・開発編 2017年度」に纏めました。

 「生物統計学」という学問は、単に生物・生命情報に対して統計解析する、というものではなく、生物・生命情報に対して統計解析することを通して、生命現象の解明に繋げる、ということを意識する分野である、と考えています。第1回の講義で、「木を見て森を見てまた木を見る」という造語を説明します。「木を見て森を見ず」や「森を見て木を見ず」ということわざがありますが、生物統計学では「木を見て森を見る」までが大事なのではなく、その後で「また木を見る」ことが重要であることを解説します。すなわち、生命情報に対して統計解析をして出た結果をそのまま鵜呑みにするのではなく、その結果が妥当であるか、その結果がどういう生命現象の解明に繋がるのか、という考察に繋げることが大事であると考えています。

 本書は大阪府立大学生命環境科学域の2年次に配当されている「生物統計学」の授業用の資料ではありますが、他の大学の学生や一般の方にも十分に読むことができるように工夫しているつもりです。もし本書の内容に対して疑問点や間違いの指摘などがありましたら、筆者までお知らせ頂けると幸いです。

第1回:木を見て森を見てまた木を見るこの回の目標

生物統計学で目指す統計解析について、「木を見て森を見てまた木を見る」という言葉の示す意味を理解する。

生物統計学の実習で使うエクセルとRについての動作確認をして動作に慣れる。

実習資料の入手先

「尾形ラボ」で検索し、以下のウェブサイトからダウンロードできます。

「尾形ラボ|生命環境科学研究科」

「授業」タブをクリックして生物統計学に進みます。

「統計解析」とは

 生物統計学を説明するためには、「生物」はともかく、「統計学」や「統計解析」について説明する必要があります。受講生によっては「統計学基礎」などの科目を受講してきたかと思いますが、この授業での「統計解析」の解釈について、三つに分けて説明します。

 まず一つ目ですが、「統計」という文字を分けると、「統」と「計」になります。「統」は「すべて(統べて)」を表し、「計」は「はかる(計る)」を表します。つまり、「すべてをはかる」という意味です。データ全体を「森」に喩えると、注目するデータ(要素)は「木」に喩えられますが、その「木」を解釈するのに、「森」を踏まえて考えよう、というのが統計学だと考えます。

 次に二つ目ですが、統計解析の目的は、「誰でも納得」させることだと考えます(客観性)。データは見る人の見方によって、同じデータでも違う解釈ができる場合が多いです。そこで誰でも納得させるために、統計的な解釈を加えます。つまり、「統計的に有意」を導くのです。データ全体を眺めて意味があることになれば、誰もが納得できると考えます。「木を見て森を見る」を実践するわけです。

 三つ目に、統計解析では「妥当な」結論を導くことが重要です。「木を見て森を見る」ことで誰もが納得することは分かりましたが、そのことが何を意味するのか、を考えます。せっかく統計的に有意になっても、そのことが意味する内容が理解できなければ、または意味を取り違えてしまったら、この解析内容自体の意味がなくなります。「木を見て森を見る」だけではなく、その上でさらに「また木を見る」ことが重要であると考えます。

「生物統計学」における解釈

 ここまでの説明を生物統計学に当てはめてみましょう。「まず木を見る」の部分ですが、データ全体の中から注目する要素(木)を決めます。この授業ではデータとして遺伝子の発現データを扱います。この場合の要素は遺伝子になります。「次に森を見る」の部分ですが、注目要素(木)を含む要素全体(森)を眺めることを表します。遺伝子発現データ全体を眺めることに相当します。最後に、「また木を見る」の部分ですが、データ全体(森)を統計解析した結果を踏まえて、注目する要素(木)について妥当な解釈を加えることを表します。ここまでを纏めると、生物統計学とは、「生物情報」を「統計解析」して「生物学的理解」に繋げる、と理解できます。

「生物情報」とは

 前項の最後で「生物情報」という用語が出てきました。まずは生物情報について説明します。生物情報とは、生物から得られる各種の情報、を表します。例えば、遺伝に関する生物情報であれば、遺伝子の情報であったり、交配の情報であったり、進化の情報などが挙げられます。この授業では生物情報として、「遺伝子の発現情報」を例として使っていきます。生物情報が決まったら、まずすることは、注目する要素(木)を決めることです。遺伝子発現情報の場合は遺伝子を決めることになります。ここでは注目する遺伝子として「AT1G56650」という遺伝子を選ぶことにします。この記号はモデル植物であるシロイヌナズナの遺伝子の遺伝子座を表しています。詳しい説明は省きますが、「AT」はシロイヌナズナの学名のArabidopsis thalianaの頭文字を表し、「1」は第1染色体の遺伝子であることを表し、「56650」はその染色体の中での相対的な位置を表します。番号が若いほど染色体の初めの方にあることを表しています。因みに、この遺伝子の名前は「MYB75」といって、遺伝子の転写に関わる転写因子のひとつです。次回の実習で皆さんも自分が注目する遺伝子を選んでください。

統計解析に入る前に

 これから遺伝子の発現情報を使って統計解析を進めていきますが、統計解析に入る前にいくつか確認することを説明しておきます。

 まず扱う生物情報のデータが妥当であるかどうかを確かめます。今回使う遺伝子の発現情報は既に学術論文に掲載されているものであり、当然妥当なデータですが、自分で用意したデータの場合は、まずこの確認が必要になります。気を付けることは以下のふたつです。

1. データにエラーが含まれていないかどうかを確かめましょう。もしエラーが含まれているデータの場合、解析結果が目的のものと変わってしまう場合があります。

2. 数値データは恣意的にいじりやすいので、気を付けましょう。データを勝手に省いても駄目ですし、もちろん勝手に加えても駄目です。もしデータの中に省くべきデータがある場合も、統計的に省けるかどうかを評価してからにしましょう。

 次に扱う生物情報データが「標準化」できるかどうかを確かめます。統計解析ではデータを他のデータと比べることで、全体を眺めることができるようになります。そのために、データを比べることができるかを調べる必要があります。データを比べるために必要なのは、データの標準化です。詳しい方法は第4回で説明しますが、データを標準化する方法として、Z化や単位ベクトル化があります。Z化はピアソンの相関係数やt検定に繋がり、単位ベクトル化はコサイン相関係数に繋がります。

統計解析の補足

 統計解析を始めるにあたって、いくつか補足をしておきます。統計解析とはデータ全体を眺めることだと書いてきました。実際に、どのようにデータ全体を眺める方法があるのでしょうか。まずは統計的な指標を計算する方法が一般的です。例えば、データ全体を代表する値(代表値)を決める方法として、平均値があります。平均値にも色々と種類がありますが、ここでは「算術平均」を扱います。つまり、一般的に言う平均値です。データの平均値を計算することで、そのデータの大きさを評価することができます。例えば、小学校の各学年の身長の平均値を計算することで、小学生の身長の伸びを把握することができます。

 代表値を決める以外に、データ全体を表すグラフを描く方法があります。さまざまな種類のグラフがありますが、データの特徴や目的に合わせてグラフの種類を選びます。例えば、データの変動を見たい場合は折れ線グラフが分かりやすいですし、量の違いを見たい場合は棒グラフが分かりやすいです。データ全体の中での割合を見たい場合は円グラフが向いています。

 データ全体を眺める場合に、注意してほしい点があります。そのデータで読み取れる内容が、それ以外のすべてに対して当てはまるとは限らない、という点です。前のページのグラフは大阪の過去130年ほどの年平均気温の折れ線グラフです。だんだん気温が上がってきている様子が見られます。それでは、このグラフからの判断として、地球温暖化が進んでいる、と考えられるでしょうか。右下のグラフは、大阪と稚内の過去70年ほどの年平均気温の折れ線グラフです。このグラフを見ても、確かにどちらの都市でも気温が上昇していることが読み取れます。ただし、大阪と稚内で気温の上昇量を比べると、大阪ではこの期間で2度ほど上がったのに対し、稚内では1度くらい上がっています。大阪の気温を見て、地球規模で2度上がっている、と考えるのは少し過大評価のように思います。このグラフから考えると、都市部とそれ以外の地域とでの気温の上昇量に違いがあるかもしれない、と読み取れると思います。それでは地球規模での気温の変化を見てみましょう。右下のグラフは地球全体での気温変化を折れ線グラフで表したものです。左図は世界の過去130年分の年平均気温を表しています。確かに地球規模で気温が上昇していることが読み取れます。グラフを見ると、100年あたり0.7度ほど上がっています。一方で、右図を見てください。横軸の単位が1000年になっていることに注意すると、南極の過去40万年分の気温変化を青い折れ線グラフで表していることが分かります。少し分かりづらいのですが、グラフの左端が現在で、右に進むに従って過去に遡っているというグラフになっています。つまり、左図と比べると、右図は左右が逆転しています。このグラフからは、南極では、およそ10万年程度の周期で約10度ほどの気温の変動があることが読み取れます。もちろん南極の気温の変化が地球全体を表しているとは言い切れませんが、温度変化の幅はともかく、少なくともこのような周期で気温変動があったのではないかと想像できます。この折れ線グラフを見ると、現在はこれから気温が下がってくる時期に差し掛かっているようです。もちろん短い年数の幅で見ると温度が上下しているように読み取れますので、現在の世界的な気温上昇が長期的な気温変動と逆らっているとは言い切れません。しかし、このまま気温が上昇を続けて過去40万年の南極の気温の最高値をはるかに超えていくようなことがあれば、明らかに地球規模での温暖化を表していることになるかもしれません。

 ここで議論したかったことは地球の温暖化自体ではなく、地球の温暖化を議論するためには、大阪の最近の温度変化だけではなく、地球温暖化に関わる様々なグラフを含めて判断していくことが重要である、と考えてほしいと思っています。つまり、「地球温暖化」という木を調べるために、さまざまなグラフという森を調べて、その上で改めて「木」について考えるようにしてほしいと思います。

 統計解析の補足の続きですが、「みんなを納得させる」ことについて補足します。統計解析では「みんなを納得させる」ために、「検定」という手法を用いることが多いです。t検定やU検定などが代表的です。こうした検定では、説明したいことに対して統計的に有意であることを示すために、逆説的な方法を使います。つまり、説明したいことの逆のことの確率を考えて、その確率がすごく低いことを示せば、裏を返して説明したいことの確率がすごく高いことを示すことができます。少し分かりづらいと思いますが、検定については、第5回(t検定)と第6回(U検定)で説明します。

 最後の補足ですが、統計解析の結果から何が言えるか、までをしっかりと考えます。つまり、「木を見て森を見る」の後で、「もう一度木を見る」のが大切です。生物統計学について言えば、注目する遺伝子について、統計解析の結果から、統計的に有意である内容が見つかったとき、その内容から考えると、「注目する遺伝子について、生物学的な特徴は……であると考えられる」とまで説明することが大切だということです。

それでは最後にチェックポイントに取り組んでください。

チェックポイント

· 「木」と「森」という言葉を使って、生物統計学の解釈方法について説明しなさい。

· 全体を眺めるための統計学的手法について説明しなさい。

· みんなを納得させる統計学的手法について説明しなさい。

以上

第2回:注目要素を決めるこの回の目標

発現傾向や機能などから判断して、注目する遺伝子を決める。

バイオデータベースやウェブツールを使えるようにする。

シロイヌナズナとは

 2000年頃に、ヒトのゲノムが解読されました。それとほぼ同時期に、アブラナ科の植物のシロイヌナズナのゲノムが解読されたという報告もありました。シロイヌナズナは植物で初めてゲノムが解読され、モデル植物と呼ばれます。つまり、植物研究のモデルとなる植物である、という意味です。なぜシロイヌナズナがゲノム解読に選ばれたかというと、小さい植物でありながら一般的な植物の機能をおよそ持っていること、一世代が短く実験がしやすいこと、染色体の本数が少ないこと、などの複数の条件が良かったからと考えられます。

遺伝子発現とは

 遺伝子の発現とは、ゲノムDNA上にある遺伝子が転写されてRNAとなり、生体内で機能を発揮することをいいます。生体内で機能を発揮することを確認するのは難しいのですが、RNAの量を測ることはできます。1990年代にはノーザンブロット法が開発され、数個の遺伝子のRNA量が測れるようになりました。シロイヌナズナのゲノム解読後の2000年代になると、マイクロアレイ法が開発され、ゲノム上にあるすべての遺伝子のRNA量を同時に測ることができるようになりました。シロイヌナズナでは2万以上の遺伝子が見つかりましたので、2万以上の遺伝子の発現量を同時に知ることができるようになったわけです。この実習では、このマイクロアレイのデータを扱います。その後、2010年代に入り、マイクロアレイ法に代わって次世代シーケンシング法が遺伝子発現量の解析に使われるようになりました。RNA-Seq法と呼ばれます。マイクロアレイ法は予め遺伝子の塩基配列をデザインして調べる方法だったのに対し、RNA-Seq法では遺伝子のデザインが必要ないため、まだゲノムが解読されていない生物についても調べることができ、またこれまで遺伝子と考えられていなかったRNAを見つけることもできます。遺伝子の発現量を調べる方法としては、現在主流の方法です。

遺伝子の塩基配列の話

 次の節でマイクロアレイ法について、もう少し詳しく説明しますが、マイクロアレイをより深く理解するために、遺伝子とゲノムの話を少ししておきます。ゲノムは塩基が二重らせんの形で長く繋がったもので構成されています。2本のらせん状の塩基配列が、特定の塩基同士が結合するハイブリダイゼーションによって繋がっています。ゲノムの長さは、生物によっては数十億を超えることがありますが、ゲノムを構成する塩基の数はわずか4種類だけです。アデニンとシトシンとグアニンとチミンです。これらの塩基はAとCとGとTと略されます。これらの塩基のうちで、ハイブリダイゼーションによって互いに結合できる組み合わせは、AとTの組み合わせとCとGの組み合わせだけです。この組み合わせの塩基のペアのことを相補的な塩基対と呼びます。2本の塩基配列の中に相補的な塩基が並んでいると、互いにハイブリダイゼーションする性質があります。

マイクロアレイ法とは

 それではマイクロアレイについて説明していきます。マイクロアレイというのは、顕微鏡などで使うスライドガラスくらいの大きさのもので、その上に遺伝子の数の「プローブ」と呼ばれる部分が用意してあります。遺伝子はゲノムの片一方のらせん上の塩基が並んだ配列です。マイクロアレイのそれぞれのプローブには、それぞれの遺伝子の塩基配列の一部分の相補的な配列が、その片方を固定されて繋がれています。

一方で、遺伝子の発現量を調べる試料からRNAを抽出して、その相補的な配列をしているDNAを合成します。このDNAをcDNA(相補的DNA)と呼びます。プローブの塩基配列が元の遺伝子の相補的なもの、cDNAは元の遺伝子から転写されたRNA(相補的な塩基配列に相当)の相補的なものなので、少しややこしいですが互いが相補的になります。つまり、プローブの塩基配列とcDNAはハイブリダイゼーションによって結合します。遺伝子に対応する特定のプローブでハイブリダイゼーションが起こったことを可視化するために、cDNAを合成するときにcDNAに蛍光を示す標識を付けておきます。そうすると、このハイブリダイゼーションが起こった位置が蛍光で光ります。つまり、試料のRNAの量に基づいて、マイクロアレイの上で光るプローブと光らないプローブがあるわけです。このプローブの光をスキャナで読み取って、どの遺伝子のRNAが見つかったかをデータにします。RNAの量が多いほど強く光るので、光の強さで遺伝子の発現量を示すことができます。

シロイヌナズナの遺伝子発現データ

 今回実習に使うデータの説明をします。シロイヌナズナのマイクロアレイデータを使います。遺伝子発現データはNational Center for Biotechnology Information、略してNCBIという公共データバンクの中にある、Gene Expression Omnibusというデータベースで手に入ります。このデータベースは略してGEOと呼ばれます。シロイヌナズナのマイクロアレイデータについては、7月現在で13,641実験分が公開されています。つまり、13,000種類を超える実験データがあるわけです。今回実習に使うのは、その中のわずか237実験です。僅かと言いましたが、この237実験のそれぞれに2万を超える遺伝子のデータが入っています。データの数としては、237×2万=474万データです。十分にビッグデータと考えられます。今回選んだ237実験は、シロイヌナズナの79か所の組織や発達段階ごとに行った実験です。それぞれの実験で3反復しているため、79×3=237実験、というわけです。

なぜ3反復するのか?

  上記のデータは、なぜ3反復したのでしょうか。もし反復しなければ、237か所の組織のデータを取ることができたわけです。この理由は、統計学にあります。もし237か所の組織のデータが取れたとしても、わずか1回のデータだけでは、その組織で本当に発現していたか分かりません。2回目に取ったデータは違う結果になるかもしれません。というよりも、2回目には、ほとんど必ず、異なったデータが得られます。生命科学のデータはばらつきが大きいので、異なったデータになる場合がほとんどです。それでは2回でいいのかと言うと、2回の場合には、平均値を計算することはできますが、そのどちらの場合がより正しいのか分かりません。そこで3回調べると、その平均値だけでなく、データのばらつきを評価することができるようになります。そのため、同じ条件で少なくとも3回分のデータを取るようにします。

いろいろなグラフ

 話は少し変わりますが、ここからいろいろなグラフの話をします。今回の目標は、上に書いたシロイヌナズナの遺伝子発現データの中から、注目する遺伝子を選ぶことです。効率的に選ぶためには、発現データをグラフにしてみることが分かりやすいと思います。ここでは一般的なグラフの話と、遺伝子発現データでよく使われるグラフの話をします。

 グラフの代表と言えば、円グラフ、折れ線グラフ、棒グラフです。下図に載せているのは、世界最古と考えられている円グラフです。円グラフといえども、最初は発明した人がいるわけです。円グラフの目的は、全体の中での割合を見ることです。全体を100%として、注目している内容が何%あるかを知りたい場合に効果的です。折れ線グラフは、データの変化を見ることが目的です。そのため、線で繋いだ部分の傾きが大きな意味を持っています。隣り合うデータが一定の間隔である必要があります。右図では、月ごとの気温の変化を表しています。横軸の並びは時間を表しているので、折れ線グラフが使えます。月と月との間の線の傾きは、温度変化がだんだん高くなっていったり低くなっていったりしていることを表しています。棒グラフは、量を比べるときに使います。右図では、月ごとの降水量を表しています。気温は季節ごとに徐々に変化していくものですが、降水量は毎月0から始まります。そのような量を表す場合には、折れ線グラフよりも棒グラフが適しています。

遺伝子発現によく使われるグラフ

 それでは、遺伝子発現データを見る場合に、どのようなグラフが使われるのでしょうか。右の図を見てください。横軸が79個の組織を表し、縦軸が遺伝子の発現量を表します。横軸の並びには時間の変化のような特徴がありませんので、折れ線グラフは使えません。でも、遺伝子の発現量が折れ線で表されています。これでいいのでしょうか。このグラフの場合、折れ線の傾きには意味がありません。本来は棒グラブで書くべきですし、実験数が少ない場合は、当然棒グラブで書かれます。ただし、この79実験のグラフの場合、次のページのグラフのような目的で、折れ線グラフで書かれることが多いです。このグラフは79組織のデータを通じて発現の傾向が似ている遺伝子7個の折れ線グラフです。それぞれの遺伝子のグラフは色分けされています。確かに似たような実験で発現量が高くなっていることが分かります。このグラフであっても、横軸の並びには関係がありませんから棒グラフで書くべきではありますが、すべてを棒グラフにしてしまうと棒が細すぎて、どのデータがどの遺伝子のものかが分からなくなってしまいます。この図のように、遺伝子発現データのグラフでは、原則的には棒グラフにすべきデータでも、見やすさを優先して折れ線グラフにする場合があることを覚えておいてください。

 もうひとつ、遺伝子発現データに特有のグラフがあります。右図を見てください。先ほどから出ていた79組織をデザインした模式図です。実はこの模式図は発現量を表すグラフになっています。ある遺伝子がよく発現している組織を赤色、そこそこ発現している組織を橙色、そうでない組織を黄色で表現しています。上図の折れ線グラフの場合と比べて、どの組織で発現しているかをイメージしやすくなっているのが分かると思います。今日は、このグラフを使って、皆さんが注目する遺伝子を選んでみようと思います。

それでは最後にチェックポイントに取り組んでください。

チェックポイント

シロイヌナズナとはどんな植物ですか?

マイクロアレイは何を調べる道具ですか?

生物データセットではなぜ反復実験をするのですか?

円グラフ、折れ線グラフ、棒グラフの使い分けは?

シロイヌナズナの遺伝子の組織別の発現データ全体を眺める方法は?

以上

第3回:全体を眺める(1) クラスタリング、ヒートマップこの回の目標

Rを使って、クラスター分析やヒートマップを使えるようにする。

注目遺伝子と他の遺伝子との発現傾向の違いを全体的に眺める。

クラスタリングとは

 データがたくさんあるとき、データをうまく分けられると、データ全体が見やすくなります。そのようにデータを分けることを「クラスタリング」、または「クラスター分析」といいます。一般的には、「グループ化」とも呼ばれます。クラスタリングの方法はたくさんあります。代表的なものは、「主成分分析」と「階層(的)クラスタリング」です。主成分分析については、第10回からしっかり取り組みます。今回は階層クラスタリングを中心に話を進めていきます。

階層クラスタリング

 階層クラスタリングの形は、スポーツなどのトーナメント戦のときに書かれるやぐらの形に似ています。最も似ているものを線で繋いでいき、最終的にはすべてを線で繋ぎます。右の図の例では、遺伝子発現データの79実験をクラスタリングしました。この図の見方としては、横に実験が並んでいて、縦は実験同士がどのくらい似ているかを表していて、縦線が短いほど似ていることを表しています。つまり、縦線が長いところで切れば、よく似ているグループを見つけられます。

階層クラスタリングの利点としては、似ている部分を直感的に見つけやすい点と、大規模なクラスタリングができる点が挙げられます。逆に欠点としては、実験と遺伝子の両方を見ることができない点、実際にどこで切ればよいのか判断が難しい場合がある点、また階段状になっているところに注意が必要な点が挙げられます。最後の階段状の話をしておきます。階層クラスタリングは似ていても似ていなくても最終的にはすべてを繋げる方法です。そのため、似ていないものがある場合にも何とか繋げてしまいます。似ていないものがいくつかあるとき、それでも順番に繋げていってしまうので、階段状に繋がっていきます。逆にお互いによく似ていてどの順番に繋げてよいか迷うときがあります。階層クラスタリングでは、それでも順番に繋げるので、よく似ている場合も階段状になります。階段状の場合は、似ている場合と似ていない場合があることを注意しておいてください。

ヒートマップ

階層クラスタリングは、よくヒートマップと組み合わされて使われます。ヒートマップというのは、データの大きさを色に置き換えてみたグラフのことです。例えば、右の図は遺伝子発現データを表していますが、横(列)に遺伝子のデータが並び、縦(行)に実験のデータが並んでいます。つまり、ある遺伝子の発現データは縦に並んでいると考えてください。この図の場合、遺伝子の発現量が大きい場合を赤色、小さい場合を黄色にして、その中間の発現量を赤と黄色の中間色で表しています。このヒートマップを描くときに、遺伝子で階層クラスタリングをして、さらに実験で階層クラスタリングをしています。そうすることで、同じような実験で発現量が大きい遺伝子が纏まっていて見やすくなります。図の上についているやぐらが遺伝子の階層クラスタリングの結果を表していて、図の左についているやぐらが実験の階層クラスタリングの結果を表しています。この図では、遺伝子の実験の両方の階層クラスタリングを見ることができるので、遺伝子と実験との全体的な関係を視覚的に捉えることができます。ただし、全体的に眺めているだけなので、色の違いがよく分からないところについては、区別するのが難しいです。

特殊なヒートマップ

 ヒートマップといっても、いつも縦横の形をしているとは限りません。右の図は、ある遺伝子のさまざまな実験での発現量を表しているヒートマップです。縦横のヒートマップと比べると、ひとつの遺伝子のデータしか見ることができません。ですが、79個の実験を絵で表すことで、この遺伝子が植物のどこでよく働いているかをひと目で捉えることができます。大変便利なヒートマップです。もちろんこのヒートマップは限られた実験のデータにしか使えませんが、このように実験の特徴を見やすくすることで、その遺伝子の特徴を理解しやすくする工夫が施されています。

主成分分析

 主成分分析もクラスタリングの目的で使うことができます。多くのデータを扱う多変量解析において、遺伝子と実験の関係も纏めて捉えることができるので、もっともよく使われる方法です。ただし、図やデータの解釈ができるようになるのに少し訓練が必要です。この授業でも、第10回から3回にわたって主成分分析に取り組みますので、ここでは簡単に紹介しておきます。

 遺伝子発現データを使って遺伝子の特徴を見つけたい場合に、遺伝子と実験との関係を見つけよう、というのが主成分分析の目的です。どうやってその関係を見つけるのかというと、まずはそれぞれの実験の発現量の特徴を使って、実験をいくつかのグループに分ける、と考えてみてください。その分けられたあるグループの実験について考えると、そのグループの実験でよく発現している遺伝子を見つけることができます。つまりこのとき、実験と遺伝子が結びつくことになります。例えば、葉っぱの実験のグループを考えたとき、葉っぱでよく発現している遺伝子を見つけることができる、というわけです。主成分分析では、実験のグループ化をしてできたグループを「主成分」と呼んでいます。ただし、実際には、実験を完全に分けているのではない点に注意してください。この点については、第10回で説明します。こうしてできた主成分と遺伝子の関係を見つけ、さらに主成分と実験の関係を見つけます。そうすると、遺伝子→主成分→実験という関係が成り立って、結果として遺伝子と実験との関係を見つけることができます。遺伝子と主成分との関係のグラフを書いた場合、同じような特徴を持つ遺伝子はそのグラフでも近いところに集まるので、クラスタリングの目的に使うこともできるわけです。

その他のクラスタリング

 たくさんの遺伝子をクラスタリングする方法は他にもいろいろとあります。ここでは、そのうちのいくつかを紹介します。

 まずは「自己組織化マップ」と呼ばれる方法です。この方法は実験と遺伝子とそれぞれでクラスタリングを行って、特徴が似ているものを近くに配置する、という方法です。似ているものが近くにある点では階層クラスタリングと似ていますが、すでにグループに分けているという点で異なります。つまり、階層クラスタリングよりもグループ化には適しているといえます。この方法の欠点としては、分けるグループの数を自分で決めないといけないので、データの数が多い場合には、なかなか大変です。

 次に「ネットワーク解析」を紹介します。この方法は私もよく利用している方法です。遺伝子発現データを使って遺伝子のクラスタリングをする場合、ふたつの遺伝子がさまざまな実験で発現の仕方が似ているとすると、その遺伝子同士を線で繋いでいきます。線で繋ぐところは階層クラスタリングと似ていますが、ある遺伝子から出る線の数が階層クラスタリングでは一本に限られているのに対して、ネットワーク解析では似ているものすべてを繋ぐことができます。そのため、似ている遺伝子のグループは互いに繋がり合ったネットワークになります。もうひとつ階層クラスタリングとの違いがあります。それは、似ていないものは繋がない、という点です。階層クラスタリングではどの遺伝子も必ず一本で繋げないといけません。しかし、ネットワーク解析では、似ていないものは無理に繋げません。そのため、互いによく繋がり合ったグループが他と繋がっていなければ、そのグループ内ではとてもよく似ていることになります。グループ分けの方法としては優れた方法だと考えられます。欠点としては、遺伝子と実験を同時に見ることができない点が挙げられます。

クラスタリングの使い分け

 いろいろなクラスタリングの方法を紹介してきましたが、これだけ方法があると、どの方法を使ったらよいのか分かりにくいと思います。絶対にこの方法が良い、というものはありませんが、目的に応じて使い分けるのが効果的だと思います。

クラスタリングがしたいのであれば、まずは主成分分析を試すのが良いでしょう。遺伝子と実験との関係も捉えられるので有効です。遺伝子発現データで遺伝子と実験の両方を眺めたいときには、階層クラスタリングとヒートマップの組み合わせが良いと思います。グループの数が決められている場合にグループ分けしたいときには、自己組織化マップが適していると思います。データ数が多いときに、全体的にしっかりと分けたいときには、ネットワーク解析が有利だと思います。解析ツールなども充実してきました。

それでは最後にチェックポイントに取り組んでください。

チェックポイント

クラスター解析の特徴と使い分けは?

以上

第4回:全体を眺める(2) 平均、分散、標準偏差、ヒストグラムこの回の目標

エクセルで基本的な統計指標を計算し、ヒストグラムを作れるようにする。

注目遺伝子の発現量の傾向を全体的に眺める。

データの代表値

 前回は、データがたくさんあるときにうまくグループ化する方法について学びました。今回は、たくさんのデータに対して「代表値」を求める方法について学びます。データの代表値には主に、平均値、中央値、最頻値があります。それぞれについて見ていきましょう。

平均値

 平均値、といえば、もちろん皆さん知っているわけですが、実は平均値にもいろいろな平均値があります。ここでは、「算術平均」と「調和平均」の話をします。

 算術平均とは、いわゆる平均値のことです。「相加平均」とも呼ばれます。データの数値を足していき、データの個数で割ったものです。一般に、平均と呼ぶときには、この算術平均を表しています。

 調和平均というのは、分数の平均を求めるときなどに利用できます。もちろん分数の平均でも算術平均を使うことはできますが、調和平均も使い道があります。右図の例で説明すると、分子が同じ分数の調和平均を求めるときに、分子同士と分母同士を足して求めることができます。小学生の時に、分数の足し算で、こんな間違いをしたことがある人もいるかもしれません。でも、こんな計算でも、確かにふたつの分数の間の値になっています。調和平均は速度の計算や情報検索の場面で使われることがありますが、やはり一般的には算術平均が使われます。

中央値と最頻値

 中央値というのは、字の通り、データの中央に位置する値のことです。つまり、データを大きい順に並べたときに、ちょうど真ん中になる値です。データが平均値を中心に左右対称に分布しているときは、平均値と中央値はほぼ同じ値になりますが、データのばらつきが右や左に偏っているときは、平均値と中央値で異なった値となります。使い道としては、データの中で飛びぬけて大きな値があるような場合に、平均値ではその値に引っ張られてしまいますが、中央値はあくまで順番が真ん中の値なので、そういう飛びぬけた値の影響を受けにくいと考えらます。

 最頻値というのは、データの中でもっともよく出てくる値のことです。最頻値が最も活躍するのはデータが数値ではない場合です。例えば、AからEまでの5段階評価や、オリンピックのメダルの色などにも使えます。データの平均を取ることができない場面で役に立ちます。

データのばらつき

 先ほど中央値の説明のところで、データのばらつきの話をしました。データのばらつきとはどういうものでしょうか。右の図で説明します。左のグラフと右のグラフは遺伝子の発現量の大きさを表していて、横軸が発現量、縦軸がその発現量を示す実験の数を表します。このようなデータのばらつきを見るグラフのことを「ヒストグラム」と呼びます。このふたつのヒストグラムを見比べると、平均値は134と137となっていてそれほど大きな違いがありません。ただし、グラフの形はずいぶん違っています。左のグラフは確かに平均値のあたりにデータが集まっているように見えますが、右のグラフは平均値のあたりにはむしろデータがありません。もし右のグラフの代表値を考える場合には、中央値や最頻値が適しているかもしれません。

 データのばらつきと代表値との関係をもう少し見ておきます。右の図の上のグラフはデータが平均値の周りに集まっていて、綺麗な山型をしています。このようにデータの分布が連続して曲線のようになっている場合、特に左右対称の山型になっている場合に、このデータは「パラメトリック」であると呼びます。一方で、下のグラフのように、データの分布が滑らかでない場合を「ノンパラメトリック」と呼びます。正式な呼び名ではありませんが、略して「ノンパラ」と呼ばれることもあります。

 グラフのばらつきを調べるためにヒストグラムが役に立つことは分かったと思いますが、毎回このグラフを書くのは大変です。今回使っている遺伝子発現のデータでは、遺伝子の数は2万を超えています。そのすべてのグラフを書くのはとても無理です。そこで、データが平均値の周りに集まっているかどうか、別の言い方をすればデータがばらついているかどうかを調べるために、ばらつきを表す指標が考え出されました。その代表が「分散」と「標準偏差」と「標準誤差」です。

分散

 ばらつきを表す指標の代表が分散です。分散はどのように計算されるかというと、まず、データの平均値を計算しておきます。次に、それぞれのデータを平均値で引き、二乗します。二乗されたデータを足し合わせてから、データの個数または個数から一つ引いた値で割ります。この計算から分かることは、データが平均値から離れているものが多いほど、分散の値は大きくなります。つまり、データがばらついていることを表すことができるわけです。

 分散を計算するときに、データの個数または個数から一つ引いた値で割る、と書きました。データの個数で割るのは分かると思いますが、なぜ一つ引いた値で割ることがあるのでしょうか。その理由を説明してみます。これは全数調査と標本調査の違いで説明できます。全数調査というのは、データ全部を使ってばらつきを計算する場合です。この場合は、データ全体のばらつきを表すために、データの個数で割って問題ありません。

しかし、データ全体を使ってばらつきを計算するのが大変な場面というのは多いものです。例えば、ある遺伝子の発現量のばらつきを考える、という時に、その遺伝子が79実験でどのようにばらつくか、というのであれば全数調査で考えることができますが、すべての実験条件でどのようにばらつく遺伝子であるか、を評価したい場合には、とてもすべての実験条件で実験することはできません。そのように、すべての実験条件でのばらつきを評価するために、そのうちの一部の実験条件を使ってばらつきを計算する、という方法を使います。これが標本調査です。標本調査ではすべての実験条件の一部で評価するために、実験数が少なく、ばらつきが過小評価されてしまう、と考えられます。そこで、分散の計算の時に、データの個数から一つ引いた値で割ることで、分散の値を少し大きく計算しています。ただし、実験条件の一部といっても半分の場合もあれば100分の一の場合もあります。そのどちらの場合でも割る数はデータの個数から一つ引いた値になります。

 全数調査と標本調査をもう少し説明してみましょう。選挙に喩えると分かりやすいと思います。ある地域での選挙を考えてみると、最終的な選挙結果は、もちろん全数調査で出されます。しかし、選挙の日にテレビの速報を見ていると、まだ選挙結果が1%も出ていないのに、当選確実が出たりします。なぜなのでしょうか。実はこのとき、標本調査が行われているのです。選挙をしたことがある人は経験したかもしれませんが、投票所の出口のところに、テレビ局の人がいて、アンケートを取っていることがあります。このテレビ局の人は、投票を済ませた人がどの人に投票したのかを尋ねています。これが出口調査と呼ばれるもので、標本調査のひとつです。もちろん、投票締め切りまで出口調査をすれば、それはほぼ全数調査になるわけですが、選挙が接戦にならない場合には、まだ出口調査の早い段階で大勢が決まってしまうことがあります。そうすると、テレビ局の人は帰ってしまいます。こうした出口調査によって、まだ開票が始まってまもなくのときに、当選確実の速報が流れるという仕組みになっています。

標準偏差と標準誤差

 ばらつきを表す指標として、標準偏差と標準誤差もよく使われます。学術論文に使う場合は、むしろこちらを使うことが多いです。その理由を説明していきましょう。まずこの段階で覚えておいてほしいのは、標準偏差は「ばらつく」ことを表すときに使い、標準誤差は「ばらつかない」ことを表すときに使う、ということです。

 標準偏差は英語でstandard deviationと書き、略してSDとも呼ばれます。もっともよく使われるのは、データが平均値からどのくらい離れているかを表すときです。右の図の左の2枚のヒストグラムに注目すると、左のヒストグラムに比べて右のヒストグラムはデータが平均値に対してばらついているのが分かります。つまり、データが平均値の近くに集まっているときに標準偏差は小さく、データが平均値から離れているときに標準偏差は大きくなります。このあと話しますが、標準偏差は平均値との相性が分散に比べてよいので、平均値とともに使われることが多いです。平均値と標準偏差を使ってデータを標準化することができることから、他のデータと比べる場合に使われます。よく知られているところでは、テストの点数を比べるための偏差値に利用されています。テストごとに平均点や標準偏差は変わりますが、このふたつを揃えることで、別のテストの成績を比べることができるようになります。

 標準誤差は英語でstandard errorと書き、略してSEと呼ばれます。もっともよく使われるのは、データの平均値がどのくらい信頼できるかを表すときです。標準誤差は、データの数が多いと考えられるときは、標準偏差をデータの数の平方根で割ったものとして計算できます。つまり、同じ標準偏差のデータでも、データ数が多ければ、標準誤差は小さくなります。つまり、データが多くなればなるほど、平均値の信頼が高くなっていく、と考えられます。平均値の信頼度を評価している指標なので、検定に用いることができます。t検定がその代表です。

分散、標準偏差、標準誤差の計算

 ばらつきを表す指標の計算について説明します。前に書いたように、分散はデータの平均値との差の二乗を足していったものを、データの個数で割ったものです。全数調査と標本調査で割る数が異なりました。標準偏差は分散の平方根です。ただそれだけの計算ですが、この平方根を取るということがあとで効いてきます。標準誤差は先ほど書いたように、標準偏差をデータの個数の平方根で割ったものです。データが増えるほど小さくなる傾向があります。これらの指標を79実験の遺伝子発現のデータで実際に計算してみます。前ページの最後の図ですが、右下のヒストグラムの遺伝子発現データに対する指標を計算したものです。平均値が3桁なのに対して、分散は6桁の数字になり、かなり大きいです。それに対して、標準偏差は3桁で、平均値と同程度です。実は分散は計算の時にデータを2乗したものを使っているため、桁数も2倍になってしまいます。標準偏差では、その数値の平方根を取るので、平均値と同じ桁数になっています。つまり、平均値と標準偏差は一緒に使うといろいろと便利になります。

平均値と標準偏差の関係

 これまで説明したように、平均値と標準偏差は組み合わせて使うと便利です。もう少し具体的に話していきましょう。偏差値に標準偏差が使われているという話をしましたが、実際には右図のような式になります。偏差値の計算としては、得点から平均点を引き、標準偏差で割った値を10倍してから、50を足します。このように計算すると、だいたいテストの点のような値になるので、他のテストと比べるときに便利です。

 ところで、平均点と標準偏差を組み合わせると便利というのは、偏差値を計算できるだけではありません。得点のヒストグラムの中で、どのくらいの生徒がどの範囲に含まれているかを簡単に見ることができます。上図のヒストグラムを見てもらうと、平均点が60点、標準偏差が10点という設定です。この場合、平均点±標準偏差の範囲、つまり50点から70点の範囲に、66.3%、つまり約3分の2の生徒が入っています。この割合は、ヒストグラムが同じ形をしている限り変わりません。もしA君が70点以上であれば、A君はヒストグラムの赤い斜線で表した範囲の右側にいることになり、トップから6分の1に含まれていることになります。標準偏差をギリシャ文字のσ(シグマ)で表すことがありますが、平均点±1σの範囲に、3分の2が入ると言えます。

 今度は2σの話をしましょう。平均点±2σの範囲です。この範囲には全体の95.4%が含まれることが分かっています。もし右図のヒストグラムのように平均点60点、標準偏差10点とすると、40点から80点の範囲に当たります。もしBさんが80点以上であれば、このヒストグラムの緑の斜線の右側に入るので、トップから2.5%に入っていることになります。全体の40分の1です。統計学ではよく「統計的に有意」という表現を使います。これは統計学に基づいて意味がある、ということです。統計学に基づくというのは、中には当てはまらないものもあるが、全体的に見て意味があるということです。そのために、当てはまらない確率を考えます。それが統計学でいう「危険率」です。今回のBさんが緑の斜線に入らない、というのも5%の危険率で有意と考えられます。

 最後に3σの話もしましょう。平均点±3σの範囲です。右図のヒストグラムでは青い斜線を引いています。この範囲に、実に99.7%が含まれます。そうすると、平均点60点、標準偏差10点のテストでC君が90点以上を取ったとすると、C君はトップから0.25%、つまり全体の400分の1です。400人の生徒がいるとすれば、ほぼトップになります。危険率でいえば、0.5%の危険率で有意、ということになります。

 ここまで見てきたように、平均値と標準偏差の相性が良いので、このふたつの指標を組み合わせることで、データのいろいろな特徴を捉えることができるようになります。

標準化

 最後に、標準化の話をします。標準偏差のところで少し話しましたが、データを他のデータと比べるときに、データを標準化して比べます。テストの点を比べる偏差値は標準化したデータの一例です。データを標準化する理由はこれまで書いてきたように、他のデータと比べるためです。テストを例にすると、あるときのテストは簡単でたくさんの生徒がいい点を取ったが、別の時のテストは難しくてみんなの点が悪かった、ということを考えてみます。簡単なテストで60点を取るのと、難しいテストで60点を取るのとでは、同じ100点満点のテストでも違いがありそうです。この違いを考慮して点数を補正して比べます。そうすると、テストの難しさの違いによらず、自分の実力に近い点数でテストの結果を比べる考えることができます。

 標準化の方法はいくつかありますが、ここではふたつの方法を紹介します。まずは最も代表的な標準化の「Z化」を説明します。Z化というのはZ値を計算する、という標準化です。Z値の計算は右図の通りです。つまり、データの数値から平均値を引き、標準偏差で割ります。これだけ見ると、偏差値の計算に似ていることが分かると思います。偏差値の計算の時の50や10を除くと、Z値そのものになっています。言い換えると、偏差値はZ値を10倍して50を足したもの、といえます。Z化には標準偏差が使われているので、データ全体が連続的なパラメトリックのときにより正確になります。逆に言えば、連続的でないノンパラメトリックなデータの場合には、やや不正確になるということです。この標準化の先には、ふたつのデータセットを比べるための指標として「ピアソン相関係数」があります。第9回で詳しく説明します。

 もうひとつの標準化が、データを順位に変える方法です。せっかく数値で得られたデータでも、順位に変えた方が妥当な解析ができるときがあります。データがノンパラメトリックなときには、特に役に立ちます。この標準化は第9回で説明する「スピアマン相関係数」に繋がります。

それでは最後に、少し多めですが、チェックポイントに取り組んでください。

チェックポイント

以下の用語について説明しなさい。

算術平均

調和平均

中央値

最頻値

分散

標準偏差

標準誤差

標準化

平均値と標準偏差との関係について説明しなさい。

以上

第5回:違いを調べる(1) t検定この回の目標

エクセルでt検定を実行できるようにする。

注目遺伝子と他の遺伝子との発現傾向の違いについて考察する。

検定とは

 今回と次回で、検定の話をします。検定というのは、みんなを納得させるのが目的です。例えば右の図のふたつのグラフはふたつの遺伝子の発現グラフを表していますが、これらのグラフは違うと言えるでしょうか。違うように見えますが、似たような部分もあります。このふたつのグラフが違うかどうかを統計的に説明するのが検定です。

検定の種類

 代表的な検定の方法は、t検定とU検定です。今回はt検定の話をして、次回にU検定の話をします。これらの検定でもっともよく使われるのは、平均値に差があるかどうかを調べるときです。上のふたつのグラフは形が違うものの、平均値だと似ているかもしれません。今回は、このふたつのグラフを例にして、t検定を説明していきます。

t検定とは

 今回説明するt検定とは、t分布を使って検定する方法です。t分布ってなんだろう、と思うかもしれませんが、ここでは詳しく説明しません。ここで理解してもらうのは、t検定というのは、t分布という曲線を使って、t値を計算して、t値に基づいてp値(確率)を計算する、ということだけにしておきましょう。t検定は前回話したように、標準誤差に基づいて行うものですが、t分布が標準誤差と関係していることを利用した検定、ということになります。そのために、データがパラメトリックな場合に正確な検定ができるとされています。検定の代表的な目的としては、先ほども書いたように、ふたつのデータの平均値に差があるかどうか、です。

t検定の種類

 実はt検定といっても、その中にいくつかの種類があります。ここでは主な3つの種類を紹介します。まずはデータセットに対応があるかどうかでふたつに分かれます。そこで、データセットの対応について説明します。右の「データセットの対応」の図を見てください。ふたつの表は、ふたつの遺伝子の発現量のデータです。まず、対応ありの方ですが、ふたつの遺伝子の79個の実験の発現量を表しています。79個の実験は、79か所のさまざまな組織での発現量を調べたものです。例えば実験1が葉の実験だとすると、どちらの遺伝子も葉の実験でよく発現している、と読み取れます。このデータの場合、ふたつの遺伝子のデータの並び方を勝手に大きい順などにしてしまうことはできません。

一方で、データセットの対応なしの方ですが、こちらもふたつの遺伝子の発現量のデータですが、ある組織に対して3回の繰り返し実験をしたときの発現量を表しています。この場合、3回の繰り返し実験は、それぞれの遺伝子に対して3回取ったもので、遺伝子の間では対応がありません。つまり、データを大きい順などで並び替えてもよいデータです。

対応のないデータセットの場合、さらにふたつに分かれます。ふたつのデータセットの分散が等しい場合と等しくない場合です。分散が等しい場合というのは、データを標準化した場合に当たります。分散が等しくない場合は、標準化していないデータの場合です。対応のあるデータセットの場合はなぜここで分かれないかというと、データセットに対応があるため、対応に基づいてふたつのデータセットを合わせたデータセットを作るためです。

t検定の実際の計算

それでは、実際にデータセットに対応がある場合のt検定を説明します。右図のふたつの遺伝子の79実験での発現データを使います。ふたつの遺伝子の平均発現量は137と25です。t検定では平均値の差があるかどうかを検定しますので、このふたつの遺伝子の場合は検定の結果として統計的に有意に平均値が違う、となることを期待します。

最初に計算するのが、79実験のそれぞれで、ふたつの遺伝子の発現量の差を計算します。右図の表の一番右の列のデータです。これが79実験での差のデータとなり、このデータを使って検定します。次にt値を計算します。t値は差の平均値を差の標準誤差で割って求めます。平均値と標準誤差の計算方法については前回を参照してください。このデータセットの場合、差の平均値は112.3、差の標準誤差は36.1と計算されますので、t値は3.115と求められます。このt値をp値という確率に変えるときにt分布を使います。t分布の計算は難しいので、予めt値をp値に変換するt分布表というものが計算されています。t分布表を見ると、右図のようになっています。ここで「自由度」というものが出てきました。自由度の説明はここではやや難しいので、今は、実験数から1を引いたものが自由度である、と考えておいてください。そうするとここでの自由度は78です。t分布表にはその自由度の欄がないので、その自由度を挟むふたつの自由度の値を参照します。ここでは、自由度60と120を使います。先ほど求めたt値をこの分布表と比べると、どちらの自由度の場合もpが1%のときよりも大きく、pが0.1%のときよりも小さくなっています。t分布表では、求めたt値を超えない範囲で読み取るので、ここでのp値は1% (0.01)となります。ここで求められたp値は、何を表しているのでしょうか。t検定の説明の最初に、ふたつのデータの平均値に差があるかどうかを検定すると書きました。実は、t検定で求められたp値は、「差がない」場合の確率になります。なんだかややこしいですが、差がない確率が1%ならば、99%の確率で「差がある」と言えることになります。つまり、もともと検定したかったふたつのデータの平均値の差を説明できたことになります。ただし、1%の危険がある、と考えます。そこで、統計学としては、次のような表現になります。つまり、「ふたつのデータの平均値は、1%の危険率で、統計的に差があると言える」となります。t検定の流れを右図に纏めたので、参考にしてください。簡単に説明すると、以下の4段階になります。

1. 平均値の差があることを統計的に説明したいときには、まず、「平均値の差がある」という仮説を立てます。次に、その逆の「平均値は違わない」ということを仮定します。このように元の仮説の逆の仮定は「帰無仮説」と呼ばれ、あとで否定される仮説なので「なくなる(帰無)」仮説と呼ばれています。

2. 次に、t検定を行いますが、その前に、帰無仮説の確率を表すp値がどのくらいの確率であればよいかを決めておきます。このように予め決めておく確率のことを「有意水準」と呼びます。生物学のデータであれば、一般には5% (0.05)が使われることが多いです。もう少し厳しい有意水準としては、1%や0.1%などが使われます。t検定で得られたp値が、この有意水準よりも小さければ、帰無仮説を捨てます。

3. 帰無仮説が捨てられると、元の仮説を採用することになります。つまり、「平均値に差がある」ということを統計的に説明できたことになります。統計学ではここまでで十分ですが、生物統計学ではここで終わりません。

4. 生物統計学では、この最後の段階がもっとも重要です。つまり、「ふたつの遺伝子の発現量に差があった」と言えたことによって、生物学的にどのような意味を持つのか、について考察することになります。この部分を言いたいために、こんなややこしい手順を辿るわけです。

纏めると、t検定は逆説的に平均値が違うことを説明していることになります。上に書いたように、生物統計学でt検定をする場合は、統計的に有意が出たところで満足しないでください。右図の手順の最後に書きましたが、必ず、生物学的にどういう意味になるのか、を考えてください。せっかく有意が出たのに解釈で間違うことがたびたびありますので、気を付けましょう。

エクセルを使ったt検定の計算

 上で書いたように、t検定で使うt値は、自分で計算することができます。しかし、いつもこんなややこしい計算をするわけにはいきません。そこで、この授業では、エクセルを使った方法を使っていきます。上の説明は、あくまでt検定の原理を理解してもらうためです。エクセルの分析ツールを使うと、検定したいデータを選ぶだけで、t値の計算もp値の計算も自由度の計算もしてくれます。右図は先ほど説明したふたつの遺伝子の発現データに対して分析ツールのt検定をおこなった結果ですが、先ほど計算したt値と同じ値が出ていることが分かります。また、p値もt分布表を使うのではなく直接計算されるので、正確なp値が得られます。右図を見ると、p値は0.0026となっています。統計的に有意、というときによく使われる危険率が、5%、1%、0.1%です。計算されたp値をこの危険率と比べると、やはり1% (0.01)よりも小さく、0.1% (0.001)よりも大きいことになり、今回の結果は、危険率1%で有意、ということになります。とても便利なツールです。

 エクセルの場合、実はもっと簡単にp値を求めることができます。分析ツールもとても便利なのですが、やはりひとつずつ検定していかないといけません。ところが、エクセルのワークシートを使うと、もっと簡単にt検定のp値だけを計算できます。しかもいろいろな遺伝子についていっぺんに計算できます。右図に書いたttestというワークシート関数を使います。書き方は少し難しいですが、この式はワークシート上でコピーできるので、すべての遺伝子についてのt検定をいっぺんに計算できます。右図を見ると、括弧の中はコンマで区切られていて、4つの情報を入れます。つまり、ひとつめのデータセットの範囲、ふたつ目のデータセットの範囲、片側検定か両側検定か、対応があるかどうか、です。

t検定で覚えてもらいたいこと

 t検定で覚えてもらいたいことをいくつか説明します。まず一つ目は、データセットがパラメトリックであるかどうか、です。パラメトリックについては前に説明しましたが、t検定では標準誤差を使っていて、標準誤差はデータセットがパラメトリックのときに正しく計算できます。そのため、t検定でも、データセットがパラメトリックのときに正確な検定ができます。パラメトリックかどうかを考えるときに、多くの場合は、データの分布を眺めて滑らかであれば使う、という程度でいいと思います。ただし、正確に説明しないといけない場合には、「正規性の検定」を行います。ここでは説明は省略しますので、インターネットなどで検索して調べてみましょう。

 次に二つ目ですが、実際の検定結果の見方に注意しましょう。前ページの図はエクセルの分析ツールで出したt検定の結果ですが、注目するのはt値とp値です。p値については、原則的に両側で見るようにしましょう。両側で有意が出ていれば、片側でも当然有意になります。p値は帰無仮説の確率ですので、有意水準(ここでは0.05)よりも小さければ、帰無仮説を捨てることができ、元の仮説、つまり「平均値に差がある」ことを統計的に説明できます。

 次に三つ目ですが、データセットがパラメトリックかどうか、対応があるかどうかで、検定の方法が異なる、という話をしました。それぞれの場合で使う検定方法を右図に纏めました。簡単に説明すると、パラメトリックのときは今回のt検定、パラメトリックでないとき、つまりノンパラメトリックのときは次回のU検定を使います。ただし、注意してほしいのは、ノンパラメトリックのときにt検定を使うことは向いていないが、パラメトリックのときにU検定は使ってもよい、ということです。あくまでここでのお薦めとして、パラメトリックのときはt検定を薦めます、ということです。次に対応があるかどうかですが、パラメトリックで対応があれば、対応のあるt検定、対応がない場合は、対応のないt検定です。一方で、ノンパラメトリックで対応があるときはウィルコクスンの検定、対応がないときはマン・ホイットニーの検定を使います。ウィルコクスンの検定は、正確には「ウィルコクスンの符号付順位和検定」といいますが、長いので、この授業では、「ウィルコクスンの検定」と呼びます。U検定については、次回説明します。

 最後にt検定の結果の解釈についてですが、検定の結果、帰無仮説が否定され、元の仮説が採用された時には「平均値に差がある」といえるわけです。逆に、帰無仮説が否定できない場合に、「平均値に差がない」といえるでしょうか。残念ながら、統計的には「平均値に差がない」とはいえません。「平均値に差があるとは言えない」という言い方になります。なんだか歯切れが悪い言い方です。ただし、最近は、「差がない」ことを言いたいときに使われるケースも増えてきています。あくまで、「差がない」ための必要条件、状況証拠だと思ってください。

いろいろなケースでのt検定

 t検定の内容についてだいぶ理解してきたと思うので、ここで3つの遺伝子の発現データに対するt検定の例について説明しようと思います。右図の左の赤いヒストグラムに対して、3つの緑のヒストグラムの平均値について検定します。3つのヒストグラムのうち、一番上のヒストグラムは赤いヒストグラムよりも平均発現量が小さいもの、真ん中のヒストグラムは平均発現量では赤いヒストグラムに近いが山の位置は大きいもの、下のヒスグラムは平均発現量では小さいが山の位置は近いもの、となっています。これらの3つのヒストグラムに対してt検定を行った結果、真ん中のヒストグラム以外は「差がある」という結果になりました。平均値の差を検定しているので、山の位置よりも平均値自体が検定の結果に影響していることが分かります。ただし、この結果が絶対に正しいでしょうか。必ずしも正しいとは言えません。なぜなら、緑の3つのヒストグラムは大体パラメトリックですが、赤いヒストグラムは発現量の大きいデータがいくらか出ていて、ノンパラメトリックと考えられます。そのため、山の位置と検定の結果がずれてしまったと考えられます。

検定の解答例

 最後に、検定をした場合の書き方の例について纏めてみます。まず最初に、説明したい仮説を立てます。この仮説は対立仮説と呼ばれますが、この授業では、単に「仮説」と呼びます。

次に、検定では帰無仮説を立てますが、帰無仮説については、必ずしも書く必要はありません。もし書くとすると、帰無仮説は「両遺伝子の発現量に差がない」となります。

 続いて、検定統計量と呼ばれる値、t検定の場合のt値、を求めますが、この授業ではt値は不要です。もし書くとすると、「t値は000です」のように書いてください。

帰無仮説の確率であるp値は必ず書いてください。p値は危険率とも呼ばれます。因みに、「p」は大文字でも小文字でも構いません。どちらも確率(probability)です。

p値を求めたら、次にp値を有意水準と比べます。有意水準をいくつにしたのかを必ず書いて、以下のように書いてください。つまり、「p値は有意水準1%よりも小さいことから、危険率1%で仮説は有意である。」のような書き方です。

最後に、最も重要な部分ですが、検定の結果の解釈を書きます。検定の結果が有意となった場合、「危険率1%で両遺伝子の発現量に差がある、といえる」と書きます。さらに、差があったことの理由について考察します。発現量や山の位置や遺伝子の機能などを材料にします。もし有意が出なかった場合、「両遺伝子の発現量に差があるとは言えない」と書き、どのくらい発現量が似ているか、またはなぜ差が出なかったかについて、考察します。それでは最後にチェックポイントです。

チェックポイント

以下の用語について説明しなさい。

検定

t検定の種類と使い分け

t検定の手順

以上

第6回:違いを調べる(2) U検定この回の目標

RでU検定を実行できるようにする。

t検定とU検定との結果の違いについて考察する。

U検定とは

 前回は、パラメトリックなデータに対して有効なt検定の話でした。今回は、パラメトリックでないデータに対して有効なU検定の話です。パラメトリックについて、データセットの対応について、およびt検定とU検定の使い分けについては、前回の説明を参考にしてください。まずは、対応のないデータに対して有効なU検定である「マン・ホイットニーの検定」について説明していきます。

マン・ホイットニーの検定

 マン・ホイットニーの検定は、データセットがノンパラメトリックであり、対応がない場合に有効です。といっても、ほかの場合に使えないわけではなくて、すべての場合に使えます。ほかの場合には、この検定以外の方法の方がより正確になる、という意味です。

 いつものように、ふたつの遺伝子の発現量のデータで説明していきます。注目する遺伝子(注目遺伝子)ともうひとつの遺伝子(対照遺伝子)について見ていきます。まず、注目する遺伝子のひとつの発現量の数値に注目します。右図の表を例にすると、注目遺伝子の一番上の発現量の309に注目します。この309を対照遺伝子の発現量のすべてと比べて、大きい場合と小さい場合の数を出します。この309の場合は、対照遺伝子のすべての発現量よりも大きいので、大きい場合の数が10個、小さい場合の数が0個となります。この場合の数を、注目遺伝子のすべての発現量で計算して合計します。大きい場合の数と小さい場合の数とで、小さい方を採用します。この採用された数が、マン・ホイットニー検定での検定統計量、つまりt検定のときのt値に当たるものとなります。この検定統計量を、検定表を使って危険率5%で調べて、有意かどうかを確かめます。もし、ふたつの遺伝子の発現量の平均値がかなり異なる場合、大きい場合の数と小さい場合の数のどちらかが0に近い値となり、0に近いほど有意になります。

ウィルコクスンの検定

 マン・ホイットニーは対応のないデータセットに対して行うU検定でした。今度は、対応のあるデータセットに対して行うU検定です。ウィルコクスンの検定、正確には「ウィルコクスンの符号付順位和検定」といいます。この検定がなぜ対応のあるデータセットに使えるかというと、対応する実験でのふたつの遺伝子の発現量の差を取って検定するからです。それぞれの実験で発現量の差を取ったデータを作り、その差のデータに対して絶対値の大きい順に順位を付けます。このように、数値自体ではなく、その大小や順位に変換して検定するのが、U検定の特徴です。差が正のときの順位の合計を計算し、また差が負のときの順位の合計を計算します。正と負の合計値の小さい方を検定統計量として使います。得られた検定統計量に対して、検定表を使ってp値を調べます。

それでは、マン・ホイットニーの検定のときと同じ発現量のデータで計算してみます。上図の表では10個の実験があり、それぞれの実験でふたつの遺伝子の発現量の差を計算していくと、138、-52、……、となっています。次にこの差のデータに対して絶対値の大きい順に順位を書いていくと、上から、1、6、4、……、となっています。差が正のときの順位の合計を計算すると10、差が負のときの順位を合計すると45となっています。小さい方を採用するので、検定統計量は10となります。ふたつのデータの平均値の差が大きい場合、差のデータの符号が正か負のどちらかに偏るため、少ない方の符号を示す差の絶対値の順位を合計すると、0に近い値になります。0に近い値になるほど、有意になります。

実際のU検定

 実際にU検定する場合には、Rを使う方法がお薦めです。エクセルでも上に書いたような方法で可能ですが、少々手間がかかります。そこで、実習でもRを使う方法を紹介します。それでは、チェックポイントに取り組んでください。

チェックポイント

マン・ホイットニーの検定の手順ついて説明しなさい。

ウィルコクスンの検定の手順について説明しなさい。

U検定の使い分けについて説明しなさい。

第7回:エラーを調べる 分割表、エラー、外れ値この回の目標

分割表を作り、2種類のエラーについて学ぶ。

遺伝子発現データに対して、各種のエラーを計算する。

統計学におけるエラーとは

 エラーという用語はさまざまな分野で使われています。統計学においても、エラーが使われます。どのような場面で使われるのか、見ていきましょう。

2種類のエラー

 統計学では、2種類のエラーが登場します。第一種の過誤と第二種の過誤です。それぞれについて説明していきます。

 第一種の過誤は偽陽性とも呼ばれます。「あわてんぼうのエラー」と言うこともできます。どのようなことかを説明するために、病気の検査を例にして説明します。病気の検査では、簡易検査と精密検査があります。まず簡易検査で陽性が出た人に対して、精密検査をします。簡易検査で陰性の人には精密検査をしません。そのために、簡易検査はやや敏感に病気を感知するようになっています。こうした病気の検査の場合、精密検査で正確に病気が分かるとすると、簡易検査で陽性、つまり病気と判定されたが精密検査で陰性、つまり病気でないと判定された場合、簡易検査が偽陽性であった、と考えます。つまり、この場合が第一種の過誤となります。慌てて簡易検査で陽性を出してしまった、と考えると分かりやすいと思います。

 次に、第二種の過誤ですが、偽陰性とも呼ばれます。「うっかりもののエラー」と言うこともできます。病気の検査で言えば、簡易検査で陰性だったが、本当は病気だった、という場合です。この場合、簡易検査の結果が偽陰性だった、ということになります。病気の検査の場合、偽陽性はそれほど困りませんが、偽陰性は大変困ります。うっかり陽性を出し損ねてしまった、と考えると分かりやすいと思います。このように、目的によって偽陽性と偽陰性のどちらを重視するかが決まってきます。

2×2分割表

これらのエラーの関係は、2×2分割表というものを書くと分かりやすくなります。右図は病気の検査と2種類のエラーとの関係を表に表わしたものです。横に検査で陽性の場合と陰性の場合で2通り、縦に実際に陽性の場合と陰性の場合で2通り、となっています。このように、縦と横に2通りの場合を書いた表のことを「2×2分割表」と呼びます。病気の簡易検査と実際の病気との関係のように、ふたつの関係を表すときに使われます。右図の中に、TP、FP、FN、TNと書かれています。TPはtrue positive、つまり真の陽性を表し、簡易検査でも実際にも陽性の場合を表します。FPはfalse positive、つまり偽陽性を表し、簡易検査で陽性だが実際には陰性の場合を表します。FNはfalse negative、つまり偽陰性を表し、簡易検査で陰性だが実際には陽性の場合を表します。TNはtrue negative、つまり真の陰性を表し、簡易検査でも実際にも陰性の場合です。

Precisionとrecall

上図の例では、100人の被験者に対して、ある病気の簡易検査をしたところ、陽性が出たのは20人、陰性が出たのは80人となっています。陽性が出た人のうち、精密検査をして実際に陽性だった人は8人、陰性だったのは12人となりました。簡易検査で陰性だった人の中で実際に陽性だった人はいませんでした。これらの病気の信頼度を求める方法はいろいろありますが、ここではprecisionとrecallという値について説明します。

precisionとrecallという値は、情報検索の分野でよく使われます。上図の例で説明すると、precisionは、検査で陽性だった人のうち実際に陽性(病気)だった人がどれだけいるかを表した値です�