42
アミノ酸の特性と周期性を用いた プロテオームレベルでの新規 RNA/DNA 結合蛋白質 の抽出と構造パターン予測 環境情報学部 藤島 皓介

アミノ酸の特性と周期性を用いた プロテオームレベルでの新 …web.sfc.keio.ac.jp/~fujishi/graduate/Kosuke_Fujishima...ア ミノ酸 の特 性 と周期を用いたプロテオ

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • アミノ酸の特性と周期性を用いた

    プロテオームレベルでの新規 RNA/DNA結合蛋白質

    の抽出と構造パターン予測

    環境情報学部 藤島 皓介

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 2

    2

    Contents

    1章 要旨 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    2章 序論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    2.1 背景

    2.2 新規機能推定法

    2.3 超好熱性古細菌 Pyrococcus furiosus

    2.4 RNAと RNA結合蛋白質

    3章 疎水度分布解析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    3.1 目的

    3.2  疎水度と分子量を用いた機能分類

    3.3 結果

    3.4 考察

    4章 使用頻度解析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    4.1 目的

    4.2 アミノ酸使用頻度の算出

    4.3 クラスタリング手法

    4.4 結果

    4.5 考察

    5章 SVMを用いた解析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    5.1 目的

    5.2 Gene Ontologyによるデータセットの構築

    5.3 アミノ酸特性

    5.4 RNA結合蛋白質の線形分離

    5.5 SVMを用いた RNA結合蛋白質の網羅的予測

    5.5.1 SVM software: Gist

    5.5.2 手法

    5.6 結果/考察

    6章 アミノ酸周期性解析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    6.1 目的

    6.2 データセット

    6.3 手法

    6.3.1 蛋白質機能アノテーション

    6.3.2 アミノ酸周期の定義

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 3

    3

    6.3.3 Effective Sizeと Stepwize重回帰分析による最適周期探索

    6.3.4 PD scoreを用いた RNA/DNA結合蛋白質分類

    6.3.5 機能未知蛋白質群からの新規 RNA/DNA結合蛋白質の予測

    6.4 結果

    6.4.1 PD scoreによる核酸結合蛋白質の分類効率と手法の妥当性

    6.4.2 新規 RNA/DNA結合蛋白質の網羅的予測

    6.5 考察

    7章 実験的検証 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

    7.1 検証に用いる候補蛋白質

    7.2 手法

    7.2.1 PCRによる候補遺伝子の増幅

    7.2.2 サブクローニング

    7.2.3 組換え体蛋白質の精製

    7.2.4 核酸結合性の検証

    7.2.5 配列解析による機能推定

    7.3 結果

    7.3.1 候補遺伝子のクローニング

    7.3.2 組換え体蛋白質の精製

    7.3.3 核酸結合性の検証

    7.3.4 配列相同性解析による機能推定

    7.4 考察

    7.4.1 組換え体蛋白質精製の実験系

    7.4.2 アミノ酸周期性解析の実用性

    8章 ウェーブレット変換を用いた新規機能推定法. . . . . . . . . . . . . . . . . . . . 34

    8.1  概論

    8.2  アミノ酸機能予測への応用

    8.2.1 生物学的アプローチ

    8.2.2 先行研究と問題点

    8.3  目的

    8.4  解析手法

    8.5  結果

    9章 結論. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 4

    4

    1章 要旨

    生命情報工学(バイオインフォマティクス)を用いた新たな蛋白質機能推定法に関

    して報告したい. ここで, 実験生物学での実証を鑑み, ゲノム情報が既知であり, かつ

    生化学的な実験に適した超好熱性古細菌 Pyrococcus furiosusをモデル生物に選んだ. ま

    た, 機能性蛋白質として新規の RNA/DNA 結合蛋白質を推定することを目的にした.

    我々はまず, プロテオームを構成するアミノ酸の特性の中でも特に使用頻度, 分子量お

    よび疎水度に注目し、それぞれの特性に関して解析を行った. そしてこれらの指標を

    用いることで, いくつかの機能蛋白質群に関して(特に膜蛋白質, リボソーム蛋白質,

    核酸結合蛋白質など)分画可能なことを示した. また, Support Vector Machine (SVM)

    という学習アルゴリズムの一つを用いて, アミノ酸の複数の特性を同時に使用した機

    能分類を行った. さらに我々は, RNA 結合蛋白質の一次配列に存在するアミノ酸の周

    期性に着目し, PD scoreという数値を新たに定義することにより, プロテオームレベル

    での RNA/DNA 結合蛋白質の分類を可能にした. さらに, 既知機能蛋白質の分類だけ

    ではなく P. furiosus の 976 種の機能未知蛋白質から新規 RNA/DNA 結合蛋白質候補を

    202種挙げることができた. さらに PD scoreが異なる 17種の蛋白質(うち 4つは非候

    補)を無作為に選択し, 機能解析のために遺伝子工学を用いた実験を行った. その結果,

    いくつかの候補に関して RNA結合性を確認するに至った.

    次に我々は周期性に対する別角度の試みとして, スペクトル解析の一種であるウェ

    ーブレット変換という数学的手法を用いて蛋白質を構成するアミノ酸が有する電荷の

    周期性を解析した. まず蛋白質の一次配列上の静電ポテンシャルを計算し電荷のパタ

    ーンを得た. 次に得た周期的なピークに対してウェーブレット変換を用いることで, 無

    駄なノイズを除去し, 電荷情報の再構築を行った. この結果, 大腸菌 Escherichia coliと

    P. furiosusに共通に保存されている RNA分解酵素 RNase HIIにおいて, アミノ酸配列

    の相同性が約 30%程度しかないにもかかわらず, 再構築した波形が酷似した. 以上か

    ら, 本稿で提唱した手法は新規の蛋白質機能推定法として極めて有用であることを示

    唆している.

    キーワード: バイオインフォマティクス, プロテオーム, 蛋白質機能予測, 周期性,

    RNA結合蛋白質, 超好熱性古細菌

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 5

    5

    2章 序論

    2.1 背景

    20 世紀の終わりから今世紀にかけて, 大腸菌から酵母, 線虫, マウス, ヒトに至るまで多

    種多様な生物の全ゲノム配列が相次いで決定された. 時代は今, ポストゲノムの幕開けを

    迎えている. 現在までに微生物と高等生物併せて 217 種, ウィルスゲノムでは約 1000 種に

    も及ぶ生物種の全ゲノムがデータベースとして存在している(1/31/2005 updated NCBI

    database). また, この状況に伴いゲノム情報が規定している蛋白質の機能予測も重要視さ

    れてきた. 従来の代表的な機能予測法は 1990 年に考案された BLAST [1]を用いて, 機能既

    知蛋白質とのアミノ酸配列の相同性(ホモロジー)を比較し, 機能を推定する方法である.

    また, DNA ポリメラ-ゼサブユニットやリボソーム蛋白質群のように複数の蛋白質が協調

    的に作用するもの同士が似た機能を持つことを利用した蛋白質間相互作用 PPI(Protein-

    Protein Interaction) [2]や , 遺伝子の機能間の保存性 ,や関係性をネットワーク化した

    Functional gene network (機能遺伝子ネットワーク)[3]による機能推定も最近行われている.

    進化的関連性がある遺伝子は Ortholog (オーソログ)といい, Clusters of Orthologous Groups of

    proteins (COGs) というデータベースに蓄積されつつある[4]. 同じオーソログ遺伝子群の中

    には相同性が低いもの含まれているため, プロテオーム機能分類の指標として近年用いら

    れている. さらには近年の蛋白質立体構造データベース(PDB)の充実に伴い, 高次構造の類

    似性から機能類推を行うという研究事例も報告されている[5]. 上記の手法によってプロテ

    オームレベルでの新たな知見が得られてきたのは確かである. しかし, 原核生物, 真核生物,

    古細菌にかかわらず, ゲノム上に存在する約 40~50%の遺伝子(蛋白質)はいまだに機能

    が同定されておらず, 機能未知蛋白質として放置されている. 蛋白質機能推定法の大半は

    一次配列の相同性解析や高次構造の比較に依存しているのが現状であり機能未知蛋白質の

    機能をまとめて同定する手法は現存しない. そこで我々はアミノ酸の一次配列情報だけを

    用いた新たな機能推定法を提唱し, いくつかの機能に関してはプロテオームレベルで予測

    することが可能となった.

    2.2 新規機能推定法

    配列の相同性に依存せず, 且つプロテオームレベルで機能分類を行える指標として我々

    がたどり着いたのが個々のアミノ酸特性である. 蛋白質は高次構造を形成した状態で機能

    的に振舞うが, 高次構造データは莫大でありプロテオームレベルでの解析には不向きであ

    る. そこで蛋白質が有するアミノ酸に特化し, それぞれの蛋白質を様々なアミノ酸特性の

    指標でもって解析し, 機能に密接に関わる指標を探索した. またその指標を機能未知蛋白

    質に応用することで大量の新規機能蛋白質を類推することを可能にした. 我々は特にアミ

    ノ酸の疎水度と分子量を用いた解析, 使用頻度を用いた解析, 複数の要素を同時に扱う

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 6

    6

    SVM を用いた解析, さらには周期性解析と, 4 つの手法でもって機能分類を試みた. それぞ

    れの解析はある程度の基準をもうけてやれば, 機能推定に有効であることが示唆されてい

    る. 特に周期性解析に関しては高い精度で核酸結合蛋白質を分類することができ, 実験に

    よって新たに予測した蛋白質の機能解析も同時に行った. 本稿ではそれぞれの解析につい

    て詳しく述べるとともに, 特に周期性を用いて新規の RNA/DNA 結合蛋白質を高い精度で

    予測した結果についてまとめた. また周期性解析の別の切り口としてウェーブレット変換

    を用いた構造パターン予測についても報告したい. この手法はアミノ酸の一次配列上に分

    布する電荷の増減に対してスペクトル解析の一種であるウェーブレット変換を用いて, ノ

    イズを除去し, 高次構造上の特徴を浮き彫りにするという方法である.試験的ではあるが,

    構造が類似している 2つの蛋白質に関して類似したパターンを確認することができた.

    2.3 超好熱性古細菌 Pyrococcus furiosus

    本研究に用いた生物種は超好熱性古細菌 Pyrococcus furiosus であり, 2001 年に全ゲノム

    シーケンスが公開された深海に生息する菌である[6]. ゲノムサイズも 2Mbp と小さく(大

    腸菌の約半分)で, 推定される遺伝子は 2065 個である. また遺伝子産物の多くが耐熱性を

    獲得していると考えられており, 生化学的に非常に扱いやすいことが挙げられる[7]. 本研

    究ではすべて P. furiosus をモデル微生物として解析を行った. P. furiosus のゲノム配列及び

    アミノ酸配列は, Genbank, EMBL, Swiss-Protをはじめとする様々なデータベース上で公開さ

    れており自由に取得することができる.

    2.4 RNAと RNA結合蛋白質

    RNA は DNA から転写される核酸物質で生命現象と深い結びつきがある. RNA は遺伝子

    発現の段階では mRNA として DNA の転写に携わり, 翻訳段階では rRNA や tRNA などが

    蛋白質との複合体を形成し, アミノ酸をつなげて蛋白質を合成する. 近年 RNA 干渉といい

    miRNA や siRNA などの小さい RNA 断片が複数の mRNA に部分結合することで翻訳レベ

    ルでの遺伝子を制御する現象も発見された[8]. このように RNA を中心とした生命現象は

    今後さらに発展していく兆しをみせている. 同様に RNA 結合蛋白質も生体内で重要な役割

    を果たしていることがわかっている. 例えば RNA ポリメラーゼがなければ RNA は伸長す

    ることができず, RNA 分解酵素がなければ RNA が細胞内に溢れてしまう. したがって我々

    は RNA 結合蛋白質を網羅的に予測するという方向性から, RNA を中心としたダイナミック

    な系の解明, しいては生命の起源の謎を解き明かそうと考える. そこで本稿では超好熱性

    古細菌 P. furiosus のゲノム情報を用いて, 新規の RNA 結合蛋白質推定法を確立することを

    具体的な目標にすえた.

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 7

    7

    3章 疎水度分布解析

    3.1 目的

    疎水度(hydropathy)とはアミノ酸の持つ性質の一つで, 1982 年に Kyte と Doolittle によって数

    値化されたことにより定量的な扱いが可能となった[9]. また, この数値は主に蛋白質折り

    たたみ時のトポロジー計算などに使われており[10], 重要な指標の一つである. 例えば膜貫

    通蛋白質を網羅的に予測するようなソフトウェア SOSUI では蛋白質一次配列上の疎水度の

    変化を予測の基にしている[11]. 蛋白質を構成しているアミノ酸は特別なものを除いて 20

    種類あり, そのうちの 9 種が疎水性アミノ酸として定義されている. 表 1 に 20 種類のアミ

    ノ酸の性質, 分子量, 等電点, 疎水度を示す.  

    表 1. 各アミノ酸についてのパラメータ詳細

    慶應義塾大学先端生命科学研究所の鈴木治夫氏はアミノ酸の変動の第一要因が疎水度だと

    いうことを主成分分析によって導きだした[12]. そこで我々は蛋白質の機能が疎水度の変動

    に一部依存しているのではないかという仮説を立て, 疎水度と分子量の相関図に機能既知

    蛋白質をプロットすることで機能ごとに分類される領域があるか調べた.

    3.2 疎水度と分子量を用いた機能分類

     まず NCBI で公開されている超好熱性古細菌 Pyrococcus furiosus (NC_003413) の genbank

    file から全 2065 個の蛋白質のアミノ酸配列を抽出した. それぞれの蛋白質について genbank

    file 内ですでに機能注釈付けされている分類表(Function code)によって分類された機能群

    のうち, 機能未知蛋白質を除外した 1031 個の機能既知蛋白質を用いた. 1031 個の蛋白質そ

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 8

    8

    れぞれについて, 蛋白質中のアミノ酸に対応する疎水度(Hydropathy)と分子量を積算し

    た.

    次に, 疎水度を縦軸に, 分子量を横軸に用いた 2 変量の相関グラフを作成し, 1031 個の機

    能蛋白質をすべてグラフ上にプロットした. さらに, 多種間で分布を比較するために, 古草

    菌(Bacillus subtilis), マイコプラズマ菌(Mycoplasma Pneumoniae), 大腸菌(Escherichia coli) の

    3種の原核生物についても同様の解析を行った. それと同時に, 蛋白質を機能群ごとにプ

    ロットすることで, 機能と疎水度の間に相関関係があるかどうかを調べた.

    3.3 結果

    図 1.a はマイコプラズマ菌, 枯草菌, 大腸菌, P. furiosusの 4 種において全蛋白質の疎水度

    と分子量の対応関係をグラフ化したものである. いずれの種でも蛋白質がやじりの形に分

    布する特徴的なパターンが, 種を超えて保存されていた. 図中の青い丸は一つ一つの蛋白

    質に対応している.

    図 1.a. 疎水度/分子量プロット(多種間比較)

    図 1.a. 生物種 4 種に対して疎水度/分子量プロットを描いた. . 縦軸に疎水度, 横軸に分子量をとった結果, すべての

    Mycoplasma pneumonia

    -1600

    -1400

    -1200

    -1000

    -800

    -600

    -400

    -200

    0

    200

    400

    0 50000 100000 150000 200000 250000

    Pyococcus furiosus

    -1600-1400-1200-1000-800-600-400-2000200400

    0 50000 100000 150000 200000 250000

    Bacillus halodurans

    -1600-1400-1200-1000-800-600-400-2000

    200400

    0 50000 100000 150000 200000 250000

    Escherichia coli

    -1600-1400-1200-1000-800-600-400-2000200400

    0 50000 100000 150000 200000 250000

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 9

    9

    種において蛋白質がやじり型の分布を示した.

    さらに, P. furiosus の解析結果をのみを用いて機能ごとの蛋白質群について分布領域を調べ

    た結果, 数種の機能群に関してはグラフ上の特定の領域に集合する傾向があることを見出

    した. 機能間で一部重なる蛋白質が存在するものの, 膜蛋白質, RNA 結合蛋白質, リボソー

    ム蛋白質の 3 種類の機能蛋白質群は分布域に特徴的な差が見受けられた(図 1.b). また, 他

    にも分布傾向が顕著だった蛋白質群 4 種類を図 1.c に示す. なお, 今回比較解析した生物種

    4 種すべてに関して, やじり形から図 1.c のような分布に蛋白質を機能分離することが可能

    である.

    図 1. b.  疎水度/分子量プロット(機能群3種)

    図 1. b. P. furiosus における膜蛋白質群 (青), リボソーム蛋白質群 (水色), RNA 結合蛋白質群 (赤) の分布. それぞれ

    の蛋白質群は一部重なっている領域はあるものの, 分布域に特徴が見られた.

    Pyrococcus furiosus

    -900-800-700-600-500-400-300

    -200-1000

    100200300

    0 20000 40000 60000 80000100000120000140000

    分子量

    疎水度

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 10

    10

    図 1. c.  疎水度/分子量プロット(機能群 4種)

    図 1. c. P. furiosusにおいて特定の領域に分布した蛋白質群 4種 *ATP結合蛋白質群は 2つのクラスタに分かれた.

    3.4 考察

    これらの結果から機能既知蛋白質を疎水度/分子量で表した分布図が種を超えて保存され

    ていることが確認された. また, P. furiosus において蛋白質を機能群ごとに分類した結果, あ

    る種の蛋白質群(膜蛋白質, リボソーム蛋白質, RNA 結合蛋白質等)に関しては特定の領

    域に集合した. このことは蛋白質の有する疎水度はその生物が生育する環境や種に依存せ

    ずに, 機能分類のための指標となることを示唆している. さらに, tRNA-synthetase や 2-

    ketoacid ferredoxin oxidoreductase のように機能蛋白質群の中には疎水度/分子量グラフ上で

    異なる傾きで直線的な分布を示すものがいくつも見受けられた. このことは同機能の蛋白

    質が平均疎水度, しいては疎水性アミノ酸の使用頻度を保つようなバイアスがかかってい

    ることを示唆する. また, 単一種において違う機能群が重なっているような領域は機能間

    の敷居が低くなっており,機能間で相互作用している蛋白質である可能性も示唆される.

    transposase

    -900

    -800

    -700

    -600

    -500

    -400

    -300

    -200

    -100

    0

    100

    200

    300

    0 20000 40000 60000 80000 100000120000140000

    ATP-binding proteins

    -900

    -800

    -700-600

    -500

    -400

    -300

    -200

    -1000

    100

    200

    300

    0 20000400006000080000100000120000140000

    2-ketoacid ferrodoxinoxidoreductases

    -900

    -800

    -700

    -600

    -500

    -400

    -300

    -200

    -100

    0

    100

    200

    300

    0 20000 40000 60000 80000100000120000140000

    DNA-binding proteins

    -900

    -800-700

    -600

    -500-400

    -300

    -200-100

    0

    100200

    300

    0 20000 40000 60000 80000 100000 120000 140000

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 11

    11

    4章 アミノ酸頻度解析

    4.1 目的

    アミノ酸頻度解析の歴史は深く, 1983 年に 300 個あまりの蛋白質をアミノ酸使用頻度に

    よって分類することが行われていた. しかし当時は機能が既知なサンプルが非常に少なく,

    大まかに 4 つの機能群に分類するのが精一杯であった[13]. また近年になり多くの種でゲノ

    ム情報が公開されるようになり, 多種間でのアミノ酸頻度比較を行う例も報告されている

    [14]. そこで我々は単一種における蛋白質機能群とアミノ酸使用頻度の関係を調べるため

    に, アミノ酸 20 種類の使用頻度を用いて P. furiosus における全蛋白質クラスタリングを行

    った. またアミノ酸使用頻度によって機能分類される蛋白質を探索した.

    4.2 アミノ酸使用頻度の算出

    本解析には 3 章の疎水度分布解析で用いた P. furiosus の 1031 個の蛋白質を使用した. 20

    種類のアミノ酸それぞれについて 1 つの蛋白質に含まれる割合を算出した. ここで, 蛋白

    質を構成する 20 種類のアミノ酸は必ずしも均等に使われているわけではない. そこで各々

    のアミノ酸の使用頻度と P. furiosus 全蛋白質における使用頻度の平均との差をアミノ酸使

    用頻度と定義することで個々のアミノ酸の使用頻度を標準化した. これにより, 平均より

    使用頻度が高いアミノ酸と平均よりも低いアミノ酸を赤と緑という別々の色で区別するこ

    とが可能となった.

    4.3 クラスタリング手法

    本解析では米 Stanford 大学の Eisen 研究室が開発したクラスタリングソフトウェア

    Cluster と, 解析結果を視覚化するソフトウェア Treeview を用いた[15]. これにより 1031 種

    の蛋白質をアミノ酸使用頻度によって階層的にクラスタリングすることができた. 用いた

    手法は群平均法といい, クラスタ間の非類似度を, それらに含まれる対象間の類似度の平

    均的な値で定義する手法である. 群平均法のメリットとしてリボソームや膜蛋白質のよう

    にあるアミノ酸を多量に持つ“はずれ値”的な蛋白質がクラスタに含まれてようと, それ

    ら少数の“はずれ値”によってクラスタの性質そのものが引きずられる事はない. 逆に最短

    距離法や最長距離法はクラスタ内の対象間の類似度の最も高い値, 低い値を用いる特徴が

    ある. 極端な値を持った蛋白質が存在する場合, クラスタがうまく構成されない可能性も

    あるため, 本解析では用いなかった.

    4.4 結果

    1031個の蛋白質による階層的クラスタリングの結果, tRNA-synthetase, リボソーム蛋白質,

    transposase, DEXX-box ATPase は一群にまとまって分類されることが明らかとなった. その

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 12

    12

    うち tRNA-synthetase とリボソーム蛋白質の 2 群について図 2. a に示す. 一方で ATP 結合蛋

    白質や RNA結合蛋白質などは複数箇所で小クラスタを形成した.

    機能ごとの特徴を次に挙げる. まず膜蛋白質に関しては電荷を持ったアミノ酸 D, E, R, K

    の使用頻度が極端に低く, 中でもグルタミン酸(E), リジン(K)が特に顕著であった(図 2.

    bのレーン 1参照). リボソーム蛋白質は塩基性アミノ酸であるアルギニン(R), リジン(K)

    を極端に多く使用している半面, 疎水性アミノ酸のロイシン(L), イソロイシン(I)の使

    用頻度は極端に低かった(図 2.b のレーン 2 参照). RNA に結合する蛋白質は総じて電荷を

    持つアミノ酸を多く持つ傾向にあった. 特にリジン(K)の割合が高いことが確認された. 一

    方で, 同じ正電荷アミノ酸であるアルギニン(R)は全蛋白質平均と同程度の使用頻度だった

    (図 2.bのレーン 3から 6参照).

    図 2.a. 機能別アミノ酸頻度クラスタリング(機能群 2種)

    図 2.a. 図の上半分は tRNA-synthetase 群を, 下半分はリボソーム蛋白質群がクラスタを形成していることを表してい

    る.

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 13

    13

         

    図 2.b. 機能別アミノ酸頻度クラスタリング

    図 2.b. 20 種類のアミノ酸を横軸にとり, それぞれの使用頻度を色で示した. 赤いマスは該当するアミノ酸が全体平均

    よりも高い頻度で使われていることを示し, 緑のマスは逆に使用頻度が低いことを示している. 1 は代表的な膜蛋白質を

    表し, 2から 6はすべて核酸結合蛋白質である. 核酸結合蛋白質は総じてリシン(K)を高い頻度で使用している.

    1: Membrane Protein, 2: Ribosomal Protein, 3: RNase HII,  4: mRNA end-processing factor,  

    5: DNAdirected RNA-polymerase subunit I,  6: tRNA nucleotidyl transferase

    4.5 考察

    アミノ酸使用頻度の偏りを 1 つの指標として捉えることで, いくつかの蛋白質群に関し

    ては機能分類が可能となった. ここでリボソーム蛋白質を生化学的な分野からみると負電

    荷をもつ RNA に効率よく結合するために正電荷を豊富に含んでいると理解することがで

    きる. 一方で, 同じ RNA 結合特性を持つ蛋白質でも, DNA 依存で RNA を伸張させるもの,

    RNA を分解するもの, 複数の RNA をつなげるものなど細胞内での用途の違いは微妙に異

    なる. その機能における多様性がゲノム上の塩基配列, しいてはアミノ酸の頻度の差を生

    み, 小クラスタが複数できたと考えられる. しかし一方でリジン(K)のような正電荷アミ

    ノ酸が RNA 結合蛋白質全般にわたって強く保存されていることも確認することができた.

    これらのアミノ酸が一次配列上でどのように配置されているかを調べることも重要である

    と考える.

    123456

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 14

    14

    5章 SVMを用いた解析

    5.1 目的

    ポストゲノムの幕開けを迎えた今, 膨れ上がるゲノム情報を我々は持て余しているのが

    現状である. 現在どの種においても全遺伝子の約半数はいまだに機能アノテーションが付

    けられていない. その原因は 2 つある. 1 つは BLAST による相同性解析で抽出することが

    困難な相同性の低い Orphan gene の存在, もう 1 つはプロテオームレベルでの汎用性が高く

    精度が良い予測手法が確立されていないという点である. しかしここ数年バイオインフォ

    マティクスの分野では, SVM を用いた機能予測方法が注目を浴びている. SVM が持つ未知

    データに対する高い汎化能力と汎用性の高さで従来では予測できなかった事象を予測可能

    にしている[16, 17, 18]. 本プロジェクトでは Gene Ontology を用いてより正確なデータセ

    ットを用意し, SVM ソフトウェアの一つである Gist (http://svm. sdsc. edu) を用いて核酸結

    合蛋白質からの RNA結合蛋白質の分離を試みた.

    5.2 Gene Ontologyによるデータセットの構築

    先行研究論文[16,17]では蛋白質データベース Swiss-Prot に登録されている蛋白質のうち

    機能名に核酸結合性があるものをサンプルデータとして用いていたが, たとえば RNA

    polymerase subunit のすべてが RNA 結合性を有するわけではない. そこでより厳密に機能ア

    ノテーションを行うために, 我々は G-language GAE v.2.0 [19]を用いて P. furiosus の遺伝子

    に Gene OntologyAnnotation (GOA)でアノテーションをつけた. GOA とは EBI (European

    Bioinformatics Institute) が運営しているプロジェクトの総称で, 種を問わず明らかとなって

    いる遺伝子に関して様々な階層での機能アノテーションを行っている. 現存する蛋白質デ

    ータはすべて UniProt というデータベースに統合されつつあり, プロテオーム機能分類にお

    いて有用な情報が揃っている. GO によるアノテーションは大きく分けて下記の 3 つに大別

    される.

    Molecular function: 結合をはじめとする分子間のリアクションの総称 . RNA-binding,

    transporter activityなど

    Cellular Process: 細胞内での一連の分子相互作用の総称. Glycolysis, cell growthなど

    Cellular component: 細胞内局在か大ユニットを形成するもの.   Nucleus, ribosomeなど

    本解析では直接的な分子間相互作用の Molecular function に着目し, RNA との直接的な結合

    性を有する蛋白質 38種, DNA結合蛋白質 70種そしてそれ以外の蛋白質 512種を P. furiosus

    から下記の3つの機能群に大別した.

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 15

    15

    5.3 アミノ酸特性

    SVMで学習に用いるアミノ酸特性は全部で 76種類ある. 以下がその内訳である.

    20 種類のアミノ酸頻度, 7 種類の同属性アミノ酸頻度, 等電点, 疎水度 1, 疎水度 2, I/O 値,

    R:I/O 値, logP 値, アミノ酸の立体構造における表面露出度, 周期性(正電荷及び負電荷ア

    ミノ酸・2-20周期)特にアミノ酸の周期性に関しては, 6章で詳しく述べることにする.

    5.4 RNA結合蛋白質の線形分離

    GO でアノテーションをつけた 38 種の RNA 結合蛋白質と 70 種の DNA 結合蛋白質を分

    離するような最適なパラメータセットを 76 種類のアミノ酸特性から選別する作業を行っ

    た.

    重回帰分析時の変数編入基準及び除去基準はそれぞれ 0.05 とし, 重相関係数が最大となる

    パラメータセットを最適とした. その結果, 芳香族アミノ酸, アラニン(A), グルタミン(Q),

    ロイシン(L), スレオニン(T), リシン(K), 酸性アミノ酸周期 7, 9, 14, 18及び, 塩基性アミノ

    酸周期 16 の計 11 種類のアミノ酸特性を特徴ベクトルとして用いた際に重相関係数が 0.77

    と最大となり, 分類に関して最大効率となった. 全 76 要素を用いる SVM 解析と比較する

    ために, この 11要素を SVM解析に用いる.

    5.5 SVMを用いた RNA結合蛋白質の網羅的予測

    5.5.1 SVM software: Gist

    Gist は 2004 年 4 月に発表された最新の SVM ソフトウェアであり, Windows, Macintosh,

    Linux など複数の OS 環境で使用できる汎用性を持つ[20]. またオプションも多岐にわたり,

    多項式カーネル, RBF カーネル, シグモイドカーネルなどのカーネル関数を選択すると同時

    にそれぞれのカーネルの重み付けもユーザーが自由に決定することが可能である. また,

    ユーザーが定義した新規のカーネル関数も組み込むことが可能である. 今回の RNA/DNA

    結合蛋白質の分類には先行研究で RNA 結合蛋白質の予測に用いられていた RBF カーネル

    を用いた. ただし重み付けは radial 0.5 ~ 3.0 の間で可変とし, 精度の差異を検証することに

    した.

    5.5.2 手法

    特徴ベクトルにはアミノ酸の性質を反映したパラメータ及び周期性のスコアを与え, 分

    離性能評価は Self-consistency と Cross-validation の両方でテストした. また, RNA 結合蛋

    白質と DNA 結合蛋白質の分離に用いる特徴ベクトルは, 76 種類のアミノ酸特性と Stepwise

    重回帰分析によって 10種に絞り込んだ 2パターンで SVMを行い, 性能の比較を行った. 下

    記に具体的な手法を示す.

    1. まずGene Ontologyでアノテーションのついた38種のRNA結合蛋白質をpositive data, 70

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 16

    16

    種の DNA結合蛋白質を negative dataとする計 108種を training datasetとして用意した.

    2. SVM 学習用の特徴ベクトルはアミノ酸特性 76 種全てと stepwise 重回帰分析で絞り込

    んだ 11 種のアミノ酸特性の 2 パターンを用いて Gist を用いた学習を行った. カーネル

    は RBFカーネルを用いた.

    3. 与える sample dataとして trainingに用いた 108種全てを用いて Self-consistency testにお

    ける予測精度, sensitivity, specificityを計算した.

    4. 次に training data を全体の 75%残りの 25%を sample data とした Cross-validationを行い,

    同様に予測精度, sensitivity, specificityを計算した.

    5. 2. 及び 3. の解析において重みを変化させた時に予測精度がどう変化するか検証した.

    5.6 結果/考察

    下記の表は 76 種全て特徴ベクトルを用いた場合を(all parameter), stepwise 重回帰分析を

    用いた場合を(stepwise 重回帰)とし, この 2 パターンについて比較を行い, RBF カーネルの

    重み付けの radialを 0. 5 ~ 1. 5の間で変化させた結果である(表 1).

    表 2. 様々なパラメータでの SVM精度検証

    表 2 より, RNA 結合蛋白質と DNA 結合蛋白質を分類する際には, 76種類すべてのアミノ酸

    特性を用いるよりも stepwise 重回帰分析によって絞り込まれた 11 種類を特徴ベクトルに用

    いる方が, 予測精度, sensitivity, specificity すべてにおいて高い値となることが確認された.

    特に 11 種類の特徴ベクトル, RBF カーネル, width 1.5 で学習させて時に 75%の cross-

    validation testにおける予測精度は 63.3%, sensitivityは 71.05%, specificityは 77.05%であった.

    これは RNA と DNA 結合蛋白質はある程度線形で分離できることを示唆する. また, 本解

    all parameter PREDICTION SENSITIVITY SPECIFICITYRBF width 1 self-consistency 80.95 100 77.78

    cross validation 75% 57.8 65.94 45

    RBF width 0.5self-consistency 95 100 94cross validation 75% 52.7 69.51 30

    stepwise重回帰 PREDICTION SENSITIVITY SPECIFICITYRBF width 1 self-consistency 90.48 100 94.29

    cross validation 75% 63.1 68.29 76.63

    RBF width 0.5self-consistency 100 100 100cross validation 75% 56.2 31.22 86.7

    RBF width 1.5self-consistency 100 100 100cross validation 75% 63.3 71.05 77.05

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 17

    17

    析では重み(RBF width)を変えることで RNA 結合蛋白質の予測精度が最大 7%, sensitivity に

    関しては 35%向上した. すなわち, SVMは未知のデータに対して高い汎化能力があるが, パ

    ラメータに大きく依存する傾向があることが確認された.

    今回は用いた training dataの絶対数が少なかった事, positive dataと negative dataの個数が

    2:1 とアンバランスだったことから, データセットを増やす, もしくは同様の解析を E.coli

    をはじめとしたサンプルデータの多い種に対して行うことが先決であると考える. 一方で,

    今回用いた種が古細菌の P. furiosus であったこと, さらに Gene Ontology のサブカテゴリ

    (Molecular function)のみを用いたことから, トレーニング用の positive dataが negative data

    数を大きく下回るノンパラメトリックな SVM 学習になってしまったと考える. 今後は信頼

    度の高い training data を増やすと同時に, 複数の cross-validation test で精度検証を行い, 本

    手法を機能未知蛋白質からの新規 RNA 結合蛋白質抽出法の一部として加えていきたいと

    考える.

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 18

    18

    6章 アミノ酸周期性解析

    6.1 目的

    プロテオームレベルで蛋白質の機能分類を行う手法の一つに実験生化学的な手法がある.

    それはゲノムワイドに蛋白質を発現させ, RNA プローブを用いてスクリーニングを行うこ

    とで, RNA 結合性という機能で以って新規の蛋白質を抽出するという方法である. この手

    法により, 慶應義塾大学先端生命科学研究所の金井昭夫氏らは新規 RNA 結合蛋白質の抽出

    に成功し, さらにはその一次配列上に電荷を有したアミノ酸残基が周期的に出現すること

    に気がついた[21]. そこで我々はこの知見に対してバイオインフォマティクスを用いたアプ

    ローチを試みた. そして電荷を有したアミノ酸の周期性をプロテオームレベルで解析すれ

    ば新規の RNA 結合蛋白質候補を見出せると考えた. 本研究の目的は周期を抽出するような

    独自の解析プログラムを作成し, その周期を指標とした RNA/DNA 結合蛋白質群の効率的

    な分類, 及び新規の RNA/DNA結合蛋白質を機能未知蛋白質群から予測することである. 解

    析に用いたモデル微生物は他の章と同じ P. furiosusである.

    6.2 アミノ酸周期性探索プログラム

    本解析を行うにあたりアミノ酸周期性探索プログラムを作成した. この周期探索プログ

    ラムは蛋白質一次配列中から特定のアミノ酸が周期的に出現している領域を同定すること

    ができる. アミノ酸は複数指定しても良い. また, 必ずしも特定のアミノ酸が正確な周期で

    存在しているわけではないので誤差を±1 とした. なお, この手法は汎用スクリプトとして

    まとめてあり, 誰でも使用可能である. 例として本プログラムを RNA 結合蛋白質 FAU-

    1(RNase like protein)[21]に対して行った結果を図 3 に示す. ここでは 7 周期で解析した結果

    について示した. 図中の酸性アミノ酸と塩基性アミノ酸のクラスタ領域が*印によって可

    視化されている.

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 19

    19

    図 3. RNA結合蛋白質 FAU-1のアミノ酸配列と周期 7で探索した結果

    図 3. 金井氏らによって新規に発見された RNA 結合蛋白質 FAU-1 における周期探索プログラムの実行結果. 出力結果

    は上から順に名前, 遺伝子番号, 長さ, 周期, アミノ酸, 配列上に占める割合, 周期が存在する箇所の数, そして一次配

    列上でのポジションである. 周期 7の酸性と塩基性の領域が交互に存在していることが確認できる.

    6.3 手法

    6.3.1 蛋白質機能アノテーションの統合

    本手法を P. furiosus の 2065 個の蛋白質に用いる際に, なるべく精度の高い機能アノテー

    ションを蛋白質に付加することで, 分類する際の精度も高まると考えた. 今回 EMBL[22],

    GOA[23], そして Swiss-Prot[24]という3種類のデータベースを統合することで P. furiosus

    の蛋白質に対して現時点で最も精度の高い機能註釈(アノテーション)を付けることが可

    能となった. GOA に関しては G-langage GAE v2.0 を用いて EMBL と関連付けた. この統合

    アノテーションに RNA, DNA, RNP, Ribosomal, Nucleic acid-binding のいずれかが含

    まれている蛋白質はすべて RNA/DNA 結合蛋白質とした. これにより通常 EMBL file 上で

    Transcription/Translation regulation factor(転写翻訳制御因子)とアノテーションされている

    蛋白質でも GOA や Swiss-Prot など他のデータベースで DNA/RNA-binding と更なるアノテ

    ーション付けがなされているものに関しては RNA/DNA結合蛋白質に含めることにした.

    6.3.2 アミノ酸周期の定義

    本解析に用いた周期は「特定のアミノ酸が定期的に3回以上出現した領域. ただし周期

    ±1 の誤差は認める」と定義した. 例えば配列 1(XXAXXAXX)は A が 2 回しか出現して

    いないため周期的な配列ではない. 配列 2(XBXXXBXXXBXXBX)は最後のBだけ 1 アミ

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 20

    20

    ノ酸分短いが±1 の誤差範囲内であるため, 周期 4 の周期的領域であるといえる. この定義

    に従って, 周期探索プログラムを用いて特定のアミノ酸が周期的に存在している箇所の全

    体に占める割合:Ratio (プログラムの出力では possession で表されている)を求めた. 割合は

    下記の式で表すことができる.

    NP

    Ratio =

    N: 蛋白質におけるアミノ酸の全長  P: 周期的領域のアミノ酸長

    また, アミノ酸はその化学的な性質や特性によってそれぞれ違う属性グループに分類する

    ことが可能である[25]. 本解析においては, 電荷や疎水度をはじめとする 8 種類の分類法を

    用いて, それぞれのアミノ酸群に対して 2 周期から 20 周期それぞれが配列中に出現する割

    合を算出した.

    6.3.3 Effective Sizeと Stepwise重回帰分析による最適周期探索

    次に Effective Size(ES)という尺度を用いてアミノ酸周期の中から RNA/DNA 結合蛋白

    質を効率よく分類する周期を探索した. ES は二つの母集団の間に有意な差があるかどうか

    を数値で示す. 一般的に ES > 0. 5で顕著な差があるといわれている[26]. そこで我々は核酸

    結合蛋白質群とその他の蛋白質群の 2 つの母集団を用意し, 二つの母集団を分かつような

    強い正負の相関を持つ周期を ES > | 0. 5 | という閾値で以って抽出した.

    次にそれらの周期を複数組み合わせることで核酸結合蛋白質を分離する上で最適なアミ

    ノ酸周期の組み合わせを決定した. 最適な周期を抽出するために Stepwise 重回帰分析とい

    う手法を用いた. 本解析では従属変数として RNA/DNA 結合蛋白質を 1, その他の機能既知

    蛋白質を 0 とし, 複数の独立変数(周期)に対して線形回帰を行うことで重相関係数が高

    くなるような(分類効率が高い)アミノ酸周期を抽出することが可能となった.

    6.3.4 PD scoreを用いた RNA/DNA結合蛋白質分類

    まず,個々のアミノ酸周期に対して Z-score (平均からの差 / 標準偏差) を求めることで,

    それぞれ違う周期の割合を正規化し, 一つの指標として扱えるようにした. 我々はこの正

    規化した値を Periodicity (PD) score として定義し, 核酸結合蛋白質の分類のための新たな

    指標として用いた. ここで, Stepwise 重回帰分析によって得られた複数の最適周期の PD

    scoreは Z-scoreの積算によって求めることが可能である.

    次に我々は P. furiosus の機能機知蛋白質 1089 種すべてに対して PD score を計算し, 蛋白

    質をスコアの高い順に並べることで, PD score によって RNA/DNA 結合蛋白質が効率良く分

    類されていることを確認した. また, 最適周期と単独周期の分類効率 (TP / (TP+FN)) の変

    動を比較することにより最適周期の有意性を裏付ける結果を得た.

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 21

    21

    6.3.5 機能未知蛋白質群からの新規 RNA/DNA結合蛋白質の予測

    機能未知蛋白質からの新規 RNA/DNA 結合蛋白質の抽出を睨み, 我々はまず最適周期か

    ら導出した PD score によって機能既知の RNA/DNA 結合蛋白質群と, その他の蛋白質との

    間に有意なスコア分布の差が存在するかどうかを調べた. そして機能既知蛋白質で有意な

    差が確認された場合, ほぼ同じ個数存在する機能未知蛋白質群に対しても PD score を用い

    た同様の分類が適応できるとし, 新規の核酸結合蛋白質を多数予測できると考えた.

    ここで, 機能未知蛋白質から候補蛋白質を抽出する際に, 閾値をどこに設けるかが重要

    となる. 本稿では四分位相関係数(MCC)を用いることで, その値が最大となった箇所の PD

    score を閾値として定めた. 四分位相関係数は Sensitivity と Specificity を考慮した手法とし

    て精度検証に良く用いられている. 式を下に示す.

    ))()()((

    )*()*(

    FNTNFPTNFNTPFPTP

    FNFPTNTPMCC

    ++++

    −=

    TP:真陽性  TN:真陰性  FP:擬陽性  FN:擬陰性

    最終的に MCC が最大となった箇所の PD score を閾値として, 機能未知蛋白質群から抽出

    した新規 RNA/DNA結合蛋白質候補をリストアップした.

    6.4 結果

    6.4.1 PD scoreによる核酸結合蛋白質の分類効率と手法の妥当性

    EMBL, GOA, Swiss-Prot の 3 種類のデータベースを統合したアノテーションにより, P.

    furiosus の全蛋白質を 1089 個の機能既知蛋白質と 976 種の機能未知蛋白質に分類されるこ

    とが確認された. さらに機能既知蛋白質は 302 種の RNA/DNA 結合蛋白質群と 787 種のそ

    の他の蛋白質群に分類された. 次に, 2つの母集団;RNA/DNA 結合蛋白質群とその他の蛋

    白質群を効率よく分離する周期を Effective Size (ES) を用いて探索し, その結果を下記の表

    にまとめた. クラスとは周期を計算したアミノ酸グループ名のことである.

    表 3. 正負で ESが高かった周期 TOP10と stepwise重回帰分析によって得られた最適周期

    ランク クラス 正の要因 ES クラス 負の要因 ES 最適周期1 正電荷2 RKH-3 0.913 Stanfel* ACGILMPSTV-2 -0.822 RKH-32 正電荷2 RKH-5 0.909 Stanfel* ACGILMPSTV-3 -0.818 RK-53 正電荷1 RK-3 0.908 Stanfel* ACGILMPSTV-5 -0.735 RKH-124 正電荷1 RK-5 0.907 Stanfel* ACGILMPSTV4 -0.729 AGP-165 構造 RNDQEHK-2 0.894 Stanfel* ACGILMPSTV2 -0.822 RKH-186 正電荷1 RK-4 0.893 疎水度1 GAVLIP2 -0.7 RK-147 正電荷2 RKH-4 0.889 疎水度1 GAVLIP3 -0.685 AFILMPW-118 正電荷2 RKH-2 0.877 Dayhoff* AGPST3 -0.676 AGP-109 荷電 DERKH-2 0.869 Dayhoff* AGPST2 -0.675 AFILMPW-1810 正電荷1 RK-6 0.836 疎水度2 AFILMPVW2 -0.666 ACGPSTWY-12

    *Dayhoff と Stanfelが考案した分類法におけるアミノ酸グループ RK-17GAVLIP-6

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 22

    22

    表 3より正電荷アミノ酸(R:アルギニン, K:リシン, H:ヒスチジン)の周期 3 (ES: 0.913) が

    最も高かった. また, スコア上位は電荷を持ったアミノ酸(D, E, R, K, H)の 3-9 周期が大

    半を占め, その中でも正電荷アミノ酸の周期が多く見受けられた. また ES > | 0.5 | で見た

    場合, 負の要因である疎水性アミノ酸の周期も上位に含まれたことから, 核酸結合蛋白質

    の全体的な傾向として配列上の電荷と疎水度の周期性が重要であると示唆された. また, ES

    > | 0.5 | のアミノ酸周期に対して Stepwise 重回帰分析を用いて最適な組み合わせを模索し

    たところ, RKH3, RK5, RKH12 の正電荷アミノ酸グループをはじめとする 12 種類の最適周

    期を得ることができた(表 3). さらに, 最適な周期の組み合わせと単独の周期を用いた場合

    図 4. 最適周期と単独周期の RNA/DNA結合蛋白質の分類効率比較

    図 4-(A). 最適周期(茶色)とそれを構成している周期, RKH-3(青), RK-5(橙), RKH-12(緑)を単独で用いた場

    合の RNA/DNA結合蛋白質の分類効率を示す. 例えば PD score > 5. 7の蛋白質は最適周期を用いた時は 75%の精度だが

    周期 RKH-3のみで分類すると 65%程度である.

    図 4-(B). P. furiosusの 1089種の機能既知蛋白質における RNA/DNA結合蛋白質の偏りを PD scoreを軸に見た図. 黒棒

    が RNA/DNA 結合蛋白質を表す. PD score が高いほど密集度が高いことが確認できる. 矢印の箇所は表3と対応してお

    り, それぞれ PD scoreが違う領域の蛋白質群の詳細が見ることができる.

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 23

    23

    との RNA/DNA 結合蛋白質の分類効率の比較を行った結果が図 4-(A)である. 縦軸に分類効

    率(TP / (TP + FN)), 横軸に閾値となる PD scoreをとっている. ESが最も高かった RKH-3を

    単独で用いた場合と比較しても, 最適周期による核酸結合蛋白質の分類効率は総じて高い

    ことが確認できる. 図 4-(B)の黒棒は RNA/DNA 結合蛋白質の分布を表している. PD score

    が高い領域に RNA/DNA結合蛋白質が集中していることがこの図から確認できる. また, 図

    4-(B)における分布図の矢印に対応する箇所の蛋白質の詳細を下に示す(表 4). 特に PD score

    が最も高い領域はリボソームで占められていることがわかる.

    表 4. PD score別に見た蛋白質の詳細一覧

    Ranking Class Gene Number PD score AA Functional Annotation of EMBL DatabankHighest score

    1 + PF1018 33.44 37 LSU ribosomal protein L41E2 + PF0217 31.03 96 LSU ribosomal protein L44E3 + PF1806 28.1 154 LSU ribosomal protein L19E4 + PF0376 25.7 79 LSU ribosomal protein LXA5 + PF0379 24.29 53 LSU ribosomal protein L39E6 + PF1475 20.91 53 LSU ribosomal protein L40E7 + PF1035 20.67 99 LSU ribosomal protein L21E8 + PF0821 20.27 91 LSU ribosomal protein L349 + PF1807 19.93 134 LSU ribosomal protein L32E

    10 + PF1541 19.59 64 LSU ribosomal protein L37E11 + PF1559 18.62 151 SSU ribosomal protein S12P12 + PF1818 18.53 74 LSU ribosomal protein L29P

    High score181 + PF1790 6.07 208 transcriptional regulatory protein arsR family182 - PF0039 6.06 157 xanthine-guanine phosphoribosyltransferase183 + PF0890 6.06 999 leucyl-tRNA synthetase184 + PF0230 6.02 198 transcriptional regulatory protein, arsR family185 + PF0026 6.01 467 tRNA nucleotidyltransferase (cca)186 - PF1630 5.99 392 UDP-n-acetylglucosamine 2-epimerase187 + PF0636 5.94 470 DEXX-box atpase188 + PF1855 5.92 438 putative transcription-associated protein TFIIS (S-II)189 + PF0022 5.91 485 putative RNase E (FAU-1)190 - PF1441 5.9 214 NADH dehydrogenase subunit191 + PF0572 5.88 677 dna2-nam7 helicase family protein192 + PF1543 5.85 155 transcriptional regulatory protein, asnC family

    Low score

    751 - PF0905 0.23 262 putative ABC transporter (ATP-binding protein)752 - PF1729 0.23 242 phospho-sugar mutase753 - PF1839 0.23 563 CTP synthase754 - PF1689 0.22 317 transketolase C-terminal section755 - PF0172 0.21 334 o-sialoglycoprotein endopeptidase756 - PF1774 0.21 375 iron (III) ABC transporter, ATP-binding protein757 - PF0097 0.2 405 bacteriochlorophyll synthase, 43 kDa subunit758 - PF0742 0.19 180 putative ferritin homolog759 - PF0765 0.18 443 NDP-sugar dehydrogenase760 - PF1789 0.18 224 hydrolase related to 2-haloalkanoic acid761 - PF1865 0.15 267 putative regulatory protein762 - PF0295 0.13 239 n-type ATP pyrophosphatase superfamily

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 24

    24

    6.4.2 新規 RNA/DNA結合蛋白質の網羅的予測

    本解析の最終目標である新規の RNA/DNA 結合蛋白質の網羅的予測は機能既知蛋白質に

    対する最適周期がそのまま機能未知蛋白質群に適応される. そこで我々はまず PD score に

    よる機能別のヒストグラムを描くことで, 302 種の RNA/DNA 結合蛋白質群と 787 種のその

    他の蛋白質間で, 有意な PD scoreの差があるかどうかを確認した.

    図 5.  RNA/DNA結合蛋白質群の PD scoreヒストグラム

    図 5-(A). 黒棒が RNA/DNA 結合蛋白質群を, 白棒がその他の機能既知蛋白質群を表す. 横軸が最適周期スコア(PD

    score)で 2 つの蛋白質群の分布を示している. RNA/DNA 結合蛋白質は全体的にスコアが高く, PD score が 8 以上の蛋白

    質の 87%を RNA/DNA結合蛋白質が占めている.

    図 5-(B). 機能既知蛋白質群におけるリボソーム蛋白質群の分布. リボソーム蛋白質はスコアが高い領域ほど占める割

    合が多く, 特に PD scoreが 16以上の蛋白質はすべてリボソーム蛋白質である.

    0

    50

    100

    150

    200

    250

    -8 0 8 16 24 32NO

    . of

    prot

    eins

    0

    30

    60

    -8 0 8 16 24 32PD score

    (A)

    (B)

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 25

    25

    その結果, RNA/DNA結合蛋白質群は総じて高いPD scoreを有することが確認された図5-(A).

    RNA/DNA 結合蛋白質の分布域は-3.55 から 33.44 で平均は 6.42 だった. 一方, その他の蛋

    白質群の分布域は-6.39 から 13.78 で平均は 0.94 と低かった. また PD score が総じて高いと

    されたリボソーム蛋白質は比較的, 広範囲に分布しているものの, PD score > 16の領域はす

    べてにリボソーム蛋白質で占められていることが新たに確認された(図 5-(B)).

    以上の結果から核酸結合蛋白質の PD score による分類が可能だと判断し, 機能未知蛋白

    質群への適用を行った. その際, 四分位相関係数(MCC)が最大値 0.51をとる箇所の PD score

    5.6 を閾値とした. 最終的に PD score > 5.6 の 202 種の新規 RNA/DNA 結合蛋白質候補を機

    能未知蛋白質 976 種から予測, 選別することに成功した. これらの候補蛋白質のいくつか

    に対しては実際に RNA結合性の実験的検証を行った.詳しくは 7章で述べることにする.

    6.4 考察

    本章では, 周期性を用いた新規 RNA/DNA 結合蛋白質の予測法を考案した. これまでに

    もバイオインフォマティクスを用いて核酸結合蛋白質を予測する手法が複数考案されてき

    た. 代表的なもので相同性解析を用いて RNA 結合モチーフを網羅的探索する手法[]や 5 章

    でも述べたが SVM を用いて様々な要素から RNA や DNA に結合する蛋白質を判別する手

    法[]が存在する. これらの手法と比較した際に周期性解析の特徴としてはまず, アミノ酸配

    列の周期性という指標のみから効率よく既知の核酸結合蛋白質を分類できるという点. さ

    らには, 従来の相同性解析では発見することのできなかった新規の核酸結合蛋白質を周期

    性という指標でもって単一種から網羅的に予測可能にしたという点である. 本解析は我々

    が知りえない未知の核酸結合蛋白質が未だに数多く存在し, 複雑な核酸制御機構に関わっ

    ている可能性を示唆している. 分子生物学における代表的なリボソーム蛋白質群を一つ例

    に挙げても, 我々の結果は新規のリボソーム蛋白質の存在の有意性を明らかにしている.

    もう一つこの手法の利点としていえるのは, 実験科学者への寄与である. 本手法による解

    析結果を有効活用してもらうことで, 生命科学における新たな知見や核酸-蛋白質間のネ

    ットワークも視野にいれることが可能である.

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 26

    26

    7章 実験的検証

    7.1 検証に用いる候補蛋白質

    我々は 6 章のアミノ酸周期性解析でリストアップした 202 種の新規 RNA/DNA 結合

    蛋白質候補群の中からランダムに選んだ 17 個を Positive control として, また候補に含

    まれなかった 4 種の蛋白質は Negative control として分子生物学的な検証を行った. 実

    験的検証に用いた 17 種の蛋白質の詳細一覧を表 5 に示す. Rankingとは 6 章の周期性解

    析で用いた PD score の機能未知蛋白質群におけるランキングである. ランキングが 202

    位以下の蛋白質は negative な候補として扱った. リストの候補蛋白質群はすべて機能未

    知蛋白質なため, アノテーションは付いていないが, Interpro[27]のドメイン検索によっ

    て付加されたドメインを記述している. ドメインはあくまでその蛋白質全体としての

    機能を表すわけではないが, 機能を類推する上で参考となる. 候補のいくつかは核酸結

    合性ドメインを有するものも確認できた. 本検証の大部分は環境情報学部の小正瑞季

    氏によって行われた. また慶應義塾大学先端生命科学研究所助教授の金井昭夫氏及び,

    同技術員の曽我朝子女氏には実験のトータルサポート及び指導をして戴いた.

    表 5: 実験で検証した RNA/DNA結合蛋白質の候補一覧

    7.2 手法

    7.2.1 PCRによる候補遺伝子の増幅

    本実験で検証する候補蛋白質の遺伝子はすべて GNOME kit (BIO101, La Jolla, CA,

    USA)によって調製された P. furiosus DSM3638 のゲノムを用いた. 超好熱性古細菌由来のゲ

    Gene Number Ranking Score AA Mol Weight DomainPF2062 5 16.96 96 11219.45PF1986 9 15.5 300 35744.11 Putative transposase DNA-binding domainPF1139 19 13.36 400 46155.13 THUMP domain PF0070 23 12.77 310 38087.3PF0774 27 12.28 104 12353.49 Protein of unknown function (DUF217)PF2010 38 10.78 231 27047.36 Brix domain PF1577 45 10.34 429 49939.77 Protein of unknown function (DUF530)PF0678 54 9.78 394 45902.75 tRNA m(1)G methyltransferasePF1580 58 9.55 227 26224.4 KH domain (can bind RNA in vitro)PF1488 73 8.9 230 27513.43 Uncharacterised protein family (UPF0128) PF1981 109 7.76 240 28444.34 Nucleotidyltransferase domainPF0493 161 6.57 681 78961.27 Protein of unknown function (DUF460) PF0775 168 6.38 111 12906.34PF1913 246 5.02 161 18941.08 Protein of unknown function (DUF54)PF0840 314 4.06 79 9090.24PF1267 696 0.14 348 39091.5PF1142 743 -0.29 288 32439.16 Protein of unknown function(DUF75)

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 27

    27

    ノム DNA はその耐熱性の構造により, 一本鎖に変性させることが難しいため, PCR 反応の

    鋳型として適さない. そこで制限酵素 Sau3AIによる部分消化を行い, 6. 6~9. 5Kbpと 9. 5

    ~23Kbp の 2 種類のサイズの DNA 断片を精製し, いずれかを鋳型とした. プライマーはサ

    ブクローニングに用いる制限酵素 NdeⅠと XhoⅠ(候補遺伝子内部に XhoⅠ認識部位があるものは

    HindⅢ)の認識部位をタグとし, 候補遺伝子の 3’もしくは 5’末端から 25 塩基の配列を含むよう設

    計した. また, 制限酵素は最端に認識部位が存在すると認識することができないため, ゲノム

    DNAと相補的な 3塩基を 3’もしくは 5’末端に付加した(図 6).

    図 6. プライマーの設計図

    図 6. ここではスタートコドン側に制限酵素 NdeI の認識部位を, 終止コドン側には XhoI の認識部位をタグとして表し

    ている.

    7.2.2 サブクローニング

    増幅した候補遺伝子を制限酵素 Nde_と Xho_もしくは Hind_で消化し, それらを同じく制限酵

    素処理した発現プラスミドベクターpET-23b にサブクローニングした. このベクターには発現誘

    導用のバクテリオファージ由来 T7 プロモーターと組換え体蛋白質精製用の His-tag 配列が組み

    込まれており IPTG により目的の蛋白質を誘導できるという特徴がある. lacZ に IPTG が結合

    することにより lacZ のリプレッサー活性が失われ, プロモーターである lac-uv5 が活性化

    する. 続いて lac-uv5 により T7RNA ポリメラーゼが転写・翻訳されて pET-23b の T7 プロ

    モーターを活性化する. 最終的にこの T7 プロモーターによって pET-23b のインサート部分

    が発現する. また, 構築したプラスミド DNA のインサート部分の塩基配列は, ジデオキシ法に

    より決定し, 確認した.

    7.2.3 組換え体蛋白質の精製

     塩基配列決定によりサブクローニングの成功を確認したプラスミド DNAを Heat Shock法によ

    り大腸菌 BL21(DE3)株に形質転換し, 培養した. 十分に大腸菌が増殖した時点で培養液に最終濃

    度 0.4mM となるよう IPTG を添加し, 候補遺伝子の発現を誘導した. この IPTG による発現誘導

    は, 大腸菌のラクトースオペロンとバクテリオファージ T7 由来の RNA ポリメラーゼを利用す

    る一般的な手法である. 次に発現誘導を行った大腸菌を超音波砕破し, その細胞抽出液から候補

    遺伝子がコードする蛋白質を精製した. 精製には His-tag 付き組換え体蛋白質精製用のニッケル

    5’3’ 5’

    3’

    ATGCAT

    GAG CTC

    + 25base

    + 25base

    NdeⅠ

    XhoⅠ

    ATG TGA

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 28

    28

    カラムと緩衝液の添加をコンピューター制御できる FPLC(ファルマシア社)を用いた. 次いで精

    製された蛋白質を脱塩, 濃縮するために, Tris/HCl (pH 7. 5) 50 mM, EDTA 1 mM, Tween 20 0. 2%, 2-

    mercaptoethanol 7 mM, glycerol 10%の組成の緩衝液中で透析処理を行った. 目的の蛋白質が得ら

    れていることは SDS 存在下のポリアクリルアミドゲル電気泳動(SDS-PAGE)後, CBB 染色で確認

    した.

    7.2.4 核酸結合性の検証

     候補遺伝子がコードする蛋白質の核酸結合性の検証にはゲルシフト法を用いた. ゲルシフト法

    とは, プローブである核酸が蛋白質などの分子との結合により電気泳動の移動度が遅くなること

    を利用した手法である. プローブは蛍光標識しているので, 蛍光イルミネーターを利用してその

    存在を確認することができる. 本研究ではプローブとして, RNA の取りうる 4 つの二次構造, す

    なわち, ステム, バルジ, ループ, シングルストランドを含む27塩基からなるMulti-Structure Oligo

    RNA(MPOR-27)を採用した(図 7). これは, 蛋白質の多くが, RNA に結合する際その二次構造

    を認識して結合するという知見に基づく . また , このプローブの 5’末端は

    FAM(Carboxyfluorescein)で蛍光標識されている. プローブの蛍光標識によるバンドパターンはコ

    ンピューター制御の画像解析装置 FX Pro (Bio-Rad Laboratories, Hercules, CA, USA)を用いて

    検出した. 反応溶液の組成は, Tris/HCl (pH7. 5) 10 mM, NaCl 50 mM, EDTA 0. 5 mM, MgCl2 2. 5 mM,

    glycerol 5%, dithiotheitol 1 mMとし, プローブは0. 5_M, 蛋白質の濃度は20_lの溶液中に0_g, 0. 1_g,

    0. 5_gとした.

    図 7. Multi-Structure Ollgo RNA (MPOR-27)

    図 7. このプローブは RNA の取りうる 4 つの構造, すなわち, ステム, バルジ, ループ, シングルストランドを含む 27

    塩基からなる. 5’末端は FAM(Carboxyfluorescein)で蛍光標識されている.

    G

    UA

    GU

    A

    A

    A A A A

    U U U

    C

    C C C

    G

    G G G

    A

    A

    FAM

    GUG

    Single Strand

    Stem

    Bulge

    Loop

    3’

    5’

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 29

    29

    7.2.5 配列解析による機能推定

     本研究の目的はアミノ酸一次配列の相同性に拠らない周期性解析から選出された遺伝子がコ

    ードする蛋白質の核酸結合性を検証することである. しかし, 周期性解析から選出された機能未

    知の候補に関して, ドメインサーチによる機能推定や Blast による進化的保存性を確認した結果

    も周期性解析の実用性の検証に必要なアプローチであると考え, 本章の冒頭の表 5 では Interpro

    による機能ドメインを記した. 我々は特にゲルシフト法で核酸結合性が見られた候補に関して

    NCBI の Blastp を用いて配列の相同性から進化的保存性及び, 機能の推定を行った. 元々周期性

    解析によって予測された候補蛋白質は機能アノテーションがついておらず, 保存性が低い可能性

    が示唆されるものの, 近縁種で相同蛋白質が保存されている可能性も大いにあることから,

    なんらかの知見が得られると考えた.

    7.3 結果

    7.3.1 候補遺伝子のクローニング

    P. furiosus DSM3638株から調整したDNAより, PCR反応を用いて 17個の候補遺伝子を増幅し

    た(図 8). 結果, 15個の候補に関して, 目的の長さのDNAが十分に増幅した. PF0070と PF0493

    に関してはいくつか条件検討をしたものの増幅を確認することはできなかった.

    図 8. PCR産物の 1. 2%アガロースゲル電気泳動写真

    図 8. ここでは PCR 反応で増幅したいくつかの候補遺伝子を例として挙げる.  PF0678 と PF1142 において非特異的バ

    ンドが見受けられるが, これらはすべて精製段階で除去することができた.

    PCR で増幅が確認された 15 個の候補に関して発現ベクターpET-23b にサブクローニングし, ひ

    とつの候補につき 4つのコロニーを培養することで, 4種類のプラスミドDNAをクローニングし

    た. 次いで大腸菌内からプラスミド DNA を抽出し, これを鋳型として先のプライマーを用いて

    13531078872603

    310

    [bp] Marker

    PF0678

    PF1142

    PF1267

    PF1488

    PF1986

    PF2010

    PF2062

    13531078872603

    310

    [bp] Marker

    PF0678

    PF1142

    PF1267

    PF1488

    PF1986

    PF2010

    PF2062

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 30

    30

    PCR を行った. ここで 15 個の候補遺伝子のうち 14 個について, 少なくともひとつのコロニー由

    来のプラスミド DNA から, 目的の長さの DNA が十分に増幅した. つまりインサートの存在を確

    認することができた. PF1577 に関しては PCR による増幅を確認することはできなかった. 次に,

    これら 14個の候補のプラスミド DNAに対して, インサート部分の塩基配列に変異がないことを

    確認するために, ジデオキシ法による塩基配列決定を行った. その結果, 14 個の候補それぞれの

    プラスミド DNA において, 変異のないインサートがサブクローニングされていることを確認す

    ることができた.

    7.3.2 組換え体蛋白質の精製

    精製した組換え体蛋白質の各フラクションの蛋白定量を行い, 溶出フラクションのピークを透

    析した. 次いで, それら精製, 透析したものに対し, SDS-PAGE を行った. その結果, PF0678,

    PF0840, PF1139, PF1142, PF1488, PF1913, PF2062の 8個の候補について, 精製, 透析した溶液の

    中に目的の分子量の蛋白質を確認することができた(図 9). PF1580 と PF2010 については目的

    の分子量よりもやや大きい分子量の位置にバンドが現われた. しかしこれは分子の表面が極端に

    塩基性に偏っている蛋白質によく見られる現象であり, His-tag を介したカラムクロマトグラフィ

    ーで精製されたことより, これらも目的の蛋白質が得られたとした. PF0774, PF775, PF1267,

    PF1986については目的の分子量の位置にバンドが見られなかった. PF1981に関しては, 精製後は

    目的の位置にバンドが見られたが, 透析後にはほとんど失われてしまった.

    図 9. SDS-PAGEのバンドパターン

    図 9. 左が 10-20%, 右が 15-25%のアクリルアミドゲル, 黒い点で示したバンドが各候補遺伝子由来の蛋白質である.

    250150100

    75

    50

    37

    25

    [kDa]

    20

    15

    10

    25015010075

    50

    37

    25

    [kDa]

    20

    15

    10

    Marker

    PF0678

    PF1139

    PF1142

    PF1488

    PF1580

    PF1913

    PF2010

    PF0840

    PF2062

    Marker

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 31

    31

    左列の数字はマーカー蛋白質のバンドが表す大きさである(kDa).

    7.3.3 核酸結合性の検証

     精製, 透析後に目的の蛋白質が存在していると結論した 9 個の候補について, ゲルシフト法に

    より核酸結合性の検証を行った. その結果, PF1139, PF1580, PF2062の 3つの候補について, シフ

    トした位置に蛍光プローブの存在が見られた(図 10).

    図 10. Gel Shift法による RNA結合性の確認

    図 10. 下に黒く溜まって見えている部分が何も結合していないプローブを示し, その上でスメア(灰色の領域)にな

    っている部分はプローブの状態によるものである. ここで PF1139, PF1580, PF2062 に関しては, それらより明らかに上

    にシフトしているのがわかる.

    また PF0678 については, ウェルに蛍光プローブが溜まる, という蛋白質の結合によってシフト

    しているだろうと考えられる候補に共通する現象がみられたが, 一方で蛋白質の結合によるシフ

    トも見うけられなかった. 従って, PF1139, PF1580, PF2062については RNA結合性を持つ可能性

    が高いとし, PF0678についてはRNA結合性を持つ可能性があるとした.

    7.3.4 配列相同性解析による機能推定

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 32

    32

     ゲルシフト法により結合性が確かめられた PF1139, PF1580, PF2062 に対して, NCBI の Blastp

    を用いて相同性解析を行った. その結果, 進化的に保存されている COG データベースのドメイ

    ンが共通して保存されていることが確認された. まず, PF1139 に関しては Methanocaldococcus

    jannaschiiや Pyrococcus abyssi GE5, Pyrococcus horikoshii などの近縁種の古細菌における機能未知

    蛋白質が有する COG1258ドメインと E-value 6e-119という高い相関が見られた. COG1258ドメ

    インはプソイドウリジレイト合成酵素の一部で翻訳やリボソームの構造や生合成に関わると予

    測されている. PF1580についてはMethanocaldococcus kandleri AV19, P. horikoshii OT3などにおけ

    る機能未知蛋白質や, P. abyssi GE5のRNA結合性蛋白質が持つCOG1094ドメインとE-value 1e-39

    という高い相関が見られた. COG1094ドメインは RNA結合性のある KH ドメインを含むドメイ

    ンで, Interpro においても同様の予測がされている. PF2062 に関しては P. abyssi, P. horikoshii, P.

    horikoshii OT3 などの機能未知蛋白質が持つ COG2512 ドメインと E-value 2e-07 という相関が見

    られた. COG2512ドメインは細胞膜に関連するドメインでその機能は未知である.

    7.4 考察7.4.1 組換え体蛋白質精製の実験系

    蛋白質が精製されなかった PF0774, PF775, PF1267, PF1986 については, 様々な要因が考

    えられる. まず候補遺伝子がコードする蛋白質が大腸菌の生育や生存にとって負の要因に

    なっている可能性がある. 特に PF774 と PF775 は, 発現誘導した大腸菌を遠心分離機でペ

    レットにする際, ほかの候補では見られなかった, 沈殿しない不溶物質が大量に存在した.

    同じ重力加速度で沈殿しない物質は, 分子量が小さい物質であることを意味する. この分

    子量の小さい物質が生じた要因として, この 2 つの候補がコードする蛋白質が大腸菌の細

    胞内で強い負の影響を与え, 蛋白質を大量に発現できずに大腸菌が死滅, 分解されてしま

    ったことが考えられる. PF1986 に関しても, プラスミド DNA を形質転換したのち, 寒天培

    地上で培養させたが, コロニーの生育が他の候補に比べて明らかに遅かった. このことか

    ら, PF1986 が, コードする蛋白質が大腸菌内で生育を遅らせる要因になっている可能性が

    ある. また, 好熱性細菌が持つ蛋白質には, 大腸菌の至適生育温度である 37℃では温度が

    低すぎて蛋白質が正しく立体構造を形成できず, 不溶化してしまうものもある. ほかにも,

    候補がコードしていた蛋白質が膜蛋白であれば, 大量に発現されていても精製することは

    難しい. また, 透析後にほとんどの蛋白質が失われた PF1981 は, おそらく透析による塩濃

    度の低下により不溶化してしまったのであろう.

    7.4.2 アミノ酸周期性解析の実用性

     本研究ではゲルシフト法を用いて核酸結合性を検証した. プローブには RNA の取りうる 4 つ

    の二次構造, すなわち, ステム, バルジ, ループ, シングルストランドを含む 27 塩基からなる

    Multi-Structure Oligo RNA(MPOR-27)を採用した. この実験系から, PDランクの上位 6個の候補が

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 33

    33

    コードする蛋白質のうち, 3つ, もしくは 4つが今回の条件ではMPOR-27と結合性を持つという

    結果が得られた. また, 一方で PD スコア下位の 3 つの候補に関しては, 今回の実験条件からは,

    MPOR-27 とは結合性を持たないという結果であった. また, 周期性解析の結果を相同性解析と照

    らしあわせることで, PD scoreが上位のものに核酸結合性を持つものが多い(図 11). という結果を

    裏付けることができた.

    図 11. 候補遺伝子の RNA結合性分布図

    図 11. 横軸がスコアの順位, 黒色棒が今回の実験条件において MPOR-27 に対する結合性を有する蛋白質をコードする

    遺伝子, 灰色棒が結合性を持つ可能性があるもの, 白色棒が核酸結合性を持たないものである.

    この結果は周期性解析の実用性を後押しするものである. また PD scoreが高い候補蛋白質の中で

    結合性が確認されなかった PF2010 は Brix Domain というリボソーム合成に関わるドメインを有

    しており, 更なる機能解析によって核酸結合性が確認できる可能性は大いにあると考える. こ

    れらの結果を踏まえ, 今後の展望として DNA プローブの検討や, 実験の反応系の条件, たとえば

    溶液の組成や反応温度を変えるなどの条件検討を積み重ねていきたい. また, 結合性を持つ候補

    に関しては, 結合定数の算出及び, 特異性を探っていきたいと考えている.

    1 202 750

    PF2062

    PF1139

    PF2010PF0678

    PF1580

    PF1488 PF1913 PF0840 PF1142

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 34

    34

    8章 ウェーブレット変換を用いた新規機能推定法

    8.1 概論

    これまでの章ではアミノ酸の疎水度, 頻度そして周期性と機能の関連性について述べて

    きた. ここでは周期性に特化し, 配列上に存在する様々な周期を, 数学的手法を用いて解く

    方法について述べる. フーリエはすべての周期的な信号はフーリエ級数というサイン及び

    コサインの和に分解して表現することが可能であることを 19 世紀に証明した. また分解し

    た成分から元の信号を再構築することも可能である. 従ってフーリエ変換により, 周期的

    な時系列データを振動で表現することが可能となった. フーリエ変換は波長をすべて正弦

    波に分解するため, 定常的な信号ほど分解しやすく, 高い効果を発揮する. 一方で短い信号,

    特にノイズが混じった非定常的な信号を正弦波で表示するには限界があり効果が薄い. こ

    の問題を解決するためにウェーブレット変換を用いることが可能である. ウェーブレット

    変換の強みはサイン, コサインの代わりに独自の分析関数を定めるところにある. つまり

    一つの波形が与えられた時にそれを表現することができる分析関数(基底ウェーブレッ

    ト)を定め, それを用いて波形を表現することができる. ウェーブレット変換には 10 種類

    以上の基底ウェーブレットが用意されており, 分析したい波形にあわせて選択することが

    できる利点がある. さらに基底ウェーブレットを伸ばしたり縮めたりすることで低周波か

    ら高周波まで幅広い域(スケール)において詳細な分析が可能である[28]. 従って周期性解

    析(4. 3)を本方法で解析することで, よりノイズの少ない周期的特徴を抽出することができ

    ると考える.

    8.2 アミノ酸機能予測への応用

    8.2.1 生物学的アプローチ

    ここで蛋白質のアミノ酸一次配列において特定のアミノ酸が周期的に存在する場合, そ

    れは配列が周期的信号を保有しているとみなすことができる. したがって, アミノ酸配列

    における空間振動数をフーリエ変換で導出することができるということになる. 実際にフ

    ーリエ変換は DNA レベルでクロマチン構造のようなフラクタル性の解析[29]やリピート配

    列の検出に用いられている[30]. またプロテオームレベルでも膜蛋白質の膜貫通領域の両親

    媒性アルファ-へリックスの予測などに用いられている[31][32]. ここ数年, 数多くの蛋白質

    の立体構造が同定されるにつれ, 一次配列の相同性ではなく構造上の類似性によって機能

    を推定する手法も考案された[33]. これからは一次配列データからより多くの情報を抽出す

    る方法の開発が望まれる. しかし蛋白質の立体構造をアミノ酸の一次配列から予測するこ

    とは困難であるといわれている, それは蛋白質の取り得るコンフォメーション空間が膨大

    であるからである(Levinthal's paradox). そこで本稿では立体構造を正確に予測するのではな

    く, 電荷の増減で表現される構造特性の類似性から機能予測をおこなった.

  •         アミノ酸の特性と周期性を用いたプロテオームレベルでの機能分類と構造パターン予測 35

    35

    8.2.2 先行研究と問題点

    アミノ酸の一次配列から蛋白質の高次構造を予測する手法としては, これまでにアミノ

    酸配列に相同性を有する蛋白質同士を多種間で比較することにより種を超えて保存されて

    いる部位を特定し, 機能に関連する構造を予測するという研究が報告されている[34]. 同論

    文中ではマルチプルアライメントを用いることで複数のアミノ酸配列の相同性を有する部

    位が最大限マッチするように列挙し, 次に情報の複雑度を表現するシャノン・エントロピ

    ーを用いてポジションごとのアミノ酸残基の多様性を数値化する. 最終的に離散フーリエ

    変換を用いて数値の増減から構造パターンを抽出するという手法である. しかし問題点と

    して P. furiosus をはじめとする好熱性古細菌のアミノ酸配列は原核生物や真核生物に比べ

    特徴的なアミノ酸の使い方をしていることが確認されており[35], 大量の類似配列を用いる

    ような多種間比較は困難である. 従って単一のアミノ酸配列から構造にかかわる情報だけ

    を抽出する新規の手法が求められている.

    8.3 目的

    本研究では単独のアミノ酸の一次配列から構造パターンを予測するため, ウェーブレッ

    ト変換を解析に用いた独自の手法を考案した. 解析対象として先の周期性解析(4. 3)では有

    意にクラスタリングされなかった RNA 結合蛋白質 RNaseHII に対して構造に関わる特徴の

    抽出を試みた. P. furiosus の RNaseHII は実験的に機能が特定されており[36], 将来的に構造

    と機能の関係を調べる上で非常に有効だと考えた. また, 抽出した構造特徴が一次配列の

    相同性に依存しないことを証明するために, E. coli の RNaseHII に対しても同様の解析を行

    なった. E. coli と P. furiosus の配列はアライメント結果で 30%程度の類似性しかないことが

    知られている. 本解析には解析ソ