Upload
others
View
1
Download
0
Embed Size (px)
Citation preview
ゲノムとパスウェイのデータベース
京都大学化学研究所バイオインフォマティクスセンター 五斗 進
http://goto.kuicr.kyoto-u.ac.jp/
東大新領域メディカルゲノム専攻講義 医科学のための情報生命学II 2013/4/18 1
ゲノムとパスウェイのデータベース
2
• ゲノムデータベース
• パスウェイデータベース
• ゲノムからのパスウェイ再構築
ゲノムデータとは
3
• 全ゲノム配列とそのアノテーション情報
• 次世代シーケンサーによる大量のショートリード
• GWAS (Genome Wide Association Study) による SNP (Single Nucleotide Polymorphism) などのバリエーション
ゲノムに関する情報の歴史(1)
1980年代
1990年
1992年
1995年
1996年
ヒトゲノム計画の提案(ダルベッコら, 1986) 半自動シーケンサー(フッドら, 1986頃、ABI, 1987) PCR(ポリメラーゼ連鎖反応)法の開発(マリス, 1987) 酵母ツーハイブリッド法(フィールズら, 1989)
ヒトゲノム計画がスタート
次(第2)世代シーケンサーの基礎技術(ブレンナーら)
ヘモフィルス菌ゲノムの解読(約200万塩基、2000遺伝子) (独立生活する生物のゲノム) プロテオーム(ウィルキンスら) DNAマイクロアレイ(ブラウンら)
出芽酵母ゲノムの解読(約1200万塩基、6000遺伝子) (真核生物のゲノム)
4
ゲノムに関する情報の歴史(2)
1997年
1998年
1999年
2000年
2001年
枯草菌ゲノムの解読(約400万塩基、4000遺伝子) (日本を中心としたグループによる解読) トランスクリプトーム(ヴォーゲルスタインら)
線虫ゲノムの解読(約9700万塩基、20000遺伝子) (多細胞生物のゲノム) メタゲノム(土壌細菌) メタボローム
ヒト22番染色体ゲノムの解読 インタラクトーム(FlyNetグループ)
ショウジョウバエ、シロイヌナズナゲノムの解読
ヒトゲノムの概要配列発表(約30億塩基) 酵母インタラクトーム(伊藤ら、ユーツら)
5
ゲノムに関する情報の歴史(3)
2002年
2003年
2007年
2008年
海洋ウイルスのメタゲノム
ENCODE (Encyclopedia of DNA Elements) プロジェクト
腸内細菌メタゲノム(黒川ら)
1000人ゲノムプロジェクト
以降、次世代シーケンサー全盛時代~第3世代へ
6
KEGG に登録されたゲノムの数
KEGG: Kyoto Encyclopedia of Genes and Genomes
0
500
1000
1500
2000
2500
ゲノム
7
ゲノムデータベースとは
8
• 配列とそのアノテーション情報の検索
• ゲノムブラウザによる検索結果の表示や新規配列のマッピング
• 比較ゲノム解析
ゲノムデータベース
9
• 生物種毎のデータベース • SGD(酵母)、WormBase(線虫)、FlyBase(ハエ)、RGD(ラット)
• ヒト:例えば HinvDB
• 生物種データベースのポータル • EuPathDB:病原微生物ゲノムデータベース • cf. Full-length cDNA Database
• 次世代シーケンサーデータのレポジトリ
• ヒト疾患に関するデータベース • IEDB, OMIM, CTD など
SGD: Saccharomyces Genome Database
http://www.yeastgenome.org/ 10
SGD: Saccharomyces Genome Database
Gbrowse による遺伝子の詳細表示(ACT1 遺伝子) 11
From SGD to YeastCyc
YeastCyc: 酵母のパスウェイDB
12
From SGD to YeastCyc
YeastCyc: 酵母のパスウェイDB
13
Eukaryote Pathogen Database Resources
http://eupathdb.org/eupathdb/ 14
Eukaryote Pathogen Database Resources
検索条件を組み合わせるためのインタフェース 15
ゲノムブラウザ
16
• ローカルにインストールするタイプ • IGV (Integrative Genomic Viewer) by Broad Institute
• 1000genomes, dbSNP • Tablet, IGB, Savant
• ウェブブラウザタイプ • GBrowse
• WormBase などのゲノムプロジェクト、HapMap、DGV (Database of Genomics Variants)
• UCSC genome browser, Ensembl genome browser • ENCODE, dbSNP データ組み込み • Variant Effect Predictor by Ensemble genome browser
• Artemis genome browser
WormBase for nematodes
http://www.wormbase.org/ 17
WormBase on GBrowse
18
ENCODE project
http://genome.ucsc.edu/encode/ 19
ENCODE on the UCSC Genome Browser
20
Ensembl Genome Browser
http://www.ensembl.org/ 21
Artemis Genome Browser for GeneDB
http://www.genedb.org/ 22
ゲノムとパスウェイのデータベース
23
• ゲノムデータベース
• パスウェイデータベース
• ゲノムからのパスウェイ再構築
パスウェイ
24
• 既存の知識の統合化
• ダイアグラムによるマップ表現 ‒ 代謝系と制御系
• リファレンスとしてのマップと生物種ごとのマップ
代謝パスウェイ
Roche 社製の代謝マップ
http://web.expasy.org/cgi-bin/pathways/show_thumbnails.pl 25
代謝パスウェイ
Roche 社製の代謝マップ
• 生体内における化合物の変換の流れ
• 変換反応が進むには、通常、酵素による触媒が必要
• 酵素は遺伝子によってコードされているタンパク質である(ことが多い)
http://web.expasy.org/cgi-bin/pathways/show_thumbnails.pl 26
KEGG の代謝パスウェイマップ
http://www.genome.jp/kegg/pathway/map/map00020.png 27
シグナル伝達パスウェイ (KEGG の細胞周期マップの例)
http://www.genome.jp/kegg/pathway/hsa/hsa04110.png 28
データベース URL タイプ マップ 経路探索 ゲノム情報
BioCyc http://www.biocyc.org
代謝系・ シグナル伝達系
有 有 有
KEGG http://www.kegg.jp/ 有 有 有
Reactome http://www.reactome.org/ 有 有 有
SEED http://www.theseed.org/ 代謝系
有 無 有
UM-BBD http://umbbd.ethz.ch/ 有 有 無
STKE http://stke.sciencemag.org/cm/ シグナル伝達系
有 無 無
AfCS http://www.signaling-gateway.org/molecule/maps 有 無 無
DIP http://dip.doe-mbi.ucla.edu/ タンパク質間 相互作用
無 無 無
BIND http://bind.ca/ 無 無 無
BioPAX http://www.biopax.org/ データベース変換フォーマット
パスウェイデータベースの例
BioPAX などのパスウェイデータを扱うツールとして Cytoscape や VizANT などがある。
29
Reactome
http://www.reactome.org/ 30
YeastCyc by BioCyc
YeastCyc: 酵母のパスウェイDB
31
VisANT での表示
http://visant.bu.edu
• ネットワーク特徴量の計算 ‒ 次数分布など ‒ パス計算、モチーフ抽出
32
KEGG PATHWAY 生体内(外)の分子間ネットワーク図
• 代謝系 ‒ 13カテゴリ ‒ 中間代謝、二次代謝、薬の代謝、全体像
• 制御系 ‒ 20カテゴリ ‒ 遺伝制御、環境シグナル、細胞プロセス、生体システム他
• 疾患 ‒ がん、免疫・神経変性・循環器・代謝疾患、感染症
• 薬の開発 ‒ 開発の歴史、標的ベース、構造ベース
http://www.genome.jp/kegg/pathway.html
Carbohydrate -> Glycolysis / Gluconeogensis
33
KEGG PATHWAY マップの例:解糖系
• 酵素/遺伝子と化合物のネットワーク
• Pathway menu ‒ BRITE 形式の階層分類
• Organism menu ‒ 生物種の階層分類
• Pathway entry ‒ パスウェイデータベースのテキストバージョン
• Show description ‒ マップの説明
• User data mapping ‒ マップ中のオブジェクトへの色付け
http://www.genome.jp/kegg/pathway/map/map00010.html 34
KEGG PATHWAY テキストエントリー • Pathway entry ‒ Entry
• マップ番号(map|ko|ec|rn|生物種コード+番号)
‒ Name, Description • パスウェイの説明とモジュールと
の関係 ‒ Class
• 階層分類情報 ‒ Pathway map
• マップとオーソログテーブルへのリンク
‒ Disease ‒ Reference
• モジュール ‒ 生物種間での保存、複合体、オペロンを考慮した機能単位
http://www.genome.jp/dbget-bin/www_bget?pathway+map00010 35
KEGG PATHWAY マップの例:解糖系
• Reference pathway ‒ KO, EC, Reaction へのリ
ンク ‒ (KO) オーソログエントリー
へのリンク ‒ (EC) 酵素エントリーへのリ
ンク ‒ (Reaction) 反応エントリー
へのリンク
• 生物種名 ‒ 各生物種の遺伝子エント
リーへのリンク
• Set personalized menu ‒ 生物種の選択
• Sort below by ‒ 生物種名のソート
http://www.genome.jp/kegg/pathway/map/map00010.html 36
KEGG PATHWAY マップの例:解糖系 (EC)
• Reference pathway (EC) ‒ 従来のリファレンスに対応 ‒ 対応する酵素エントリーの
ある箱に色づけ
• Reference pathway (KO) ‒ 対応するオーソログエント
リーのある箱に色づけ ‒ KEGG GENES に登録され
ている生物種が持つ遺伝子に関して配列の類似度を元に定義されているオーソログ情報
‒ 酵素によってはオーソログが定義できないものもある
http://www.genome.jp/kegg/pathway/ko/ko00010.html 37
KEGG PATHWAY 生物種の選択
• リストの生物種を限定する ‒ カテゴリーは KEGG 生物種
一覧のものが指定可能 • Mammals, Protists,
Actinobacteria など
‒ 生物種コードも KEGG 生物種一覧のものが指定可能 • hsa(ヒト), mmu(マウス),
eco(大腸菌)など
http://www.genome.jp/kegg/catalog/org_list.html 38
• 代謝系 ‒ 12カテゴリ ‒ 中間代謝、二次代謝、薬の代謝、全体像
• 制御系 ‒ 19カテゴリ ‒ 遺伝制御、環境シグナル、細胞プロセス
• 疾患 ‒ がん、免疫・神経変性・循環器・代謝疾患、感染症
• 薬の開発 ‒ 開発の歴史、標的ベース、構造ベース
KEGG PATHWAY
http://www.genome.jp/kegg/pathway.html
疾患パスウェイ
39
• 癌に関与する遺伝子の分子間ネットワーク図
• 病原因子となっている遺伝子に赤でマーク
KEGG PATHWAY 疾患パスウェイ
• Disease/drug mapping • 疾患遺伝子とドラッグターゲットのマッピング
40
KEGG PATHWAY 薬の開発パスウェイ
• 代謝系 ‒ 12カテゴリ ‒ 中間代謝、二次代謝、薬の代謝、全体像
• 制御系 ‒ 19カテゴリ ‒ 遺伝制御、環境シグナル、細胞プロセス他
• 疾患 ‒ がん、免疫・神経変性・循環器・代謝疾患、感染症
• 薬の開発 ‒ 開発の歴史、標的ベース、構造ベース
http://www.genome.jp/kegg/pathway.html 41
KEGG PATHWAY 薬の開発パスウェイ
42
KEGG GENOME
• KEGG 生物種ごとの入り口 ‒ GENES/DGENES:ゲノムが決定された生物種
‒ EGENES:ESTで作成された遺伝子セット
‒ MGENES:メタゲノムデータ ‒ Pangenomes:近縁生物種をまとめたもの
‒ Viruses ‒ 生物種の組み合わせ
http://www.genome.jp/kegg/genome.html
43
複数生物種の情報を PATHWAY にマッピング • 共生関係 • 寄生関係 • ヒトと腸内細菌叢など
• アブラムシ ‒ 昆虫
• ブフネラ ‒ アブラムシの共生細菌
44
複数生物種の情報を PATHWAY にマッピング
アブラムシ ブフネラ 共通 45
ゲノムとパスウェイのデータベース
46
• ゲノムデータベース
• パスウェイデータベース
• ゲノムからのパスウェイ再構築
ゲノムの機能解析・予測
47
" 遺伝子産物としてのタンパク質間相互作用・転写ネットワーク
" 化合物ネットワークとしての代謝系
ゲノム
化合物、糖鎖、脂質
生命システム理解のための ゲノムの機能解析
48
遺伝子配列情報
配列DB
モチーフDB
立体構造DB
遺伝子の機能
相同性検索 立体構造予測
(A) 遺伝子の機能予測 (B) ゲノムの機能予測
ゲノム情報 (遺伝子の集合)
生物の機能
パスウェイ DB
相互作用DB
発現DB
ネットワーク解析 ↑
配列・構造解析
遺伝子の機能予測とゲノムの機能予測
49
リジン分解系のリファレンスパスウェイ
リファレンスを用いたパスウェイ再構築
50
リファレンスを用いたパスウェイ再構築
ゲノム情報から再構築された緑膿菌のリジン分解系
51
パスウェイ再構築システム
" ゲノム中の全遺伝子リストの作成 " ゲノム、メタゲノムのアセンブリ " 遺伝子領域の予測 " アミノ酸・塩基配列:マルチFASTA形式
" ゲノム中の全遺伝子の機能アノテーション " 複数配列をクエリにして、ゲノムが決定された生物種の配列セットなどに対してホモロジー検索
" 各クエリ配列に対して、双方向ベストヒット情報などを用いてオーソログを割り当て
" オーソログ情報を元にしたパスウェイ再構築
52
パスウェイ再構築システムの例
" MEGAN: MEta Genome ANalyzer " もともとはメタゲノムの生物種マッピング用のツール
" MEGAN4からKEGGやSEEDを用いた機能予測とパスウェイ再構築の機能が拡張された
" RAST: Rapid Annotations using Subsystems Technology " ERGOを開発していたグループがパスウェイに相当するサブシステム(SEED)をベースに再構築
" メタゲノム用の MG-RAST もある
" KAAS: KEGG Automatic Annotation Server
KAASによるアノテーションとパスウェイ再構築
KAAS: KEGG Automatic Annotation Server http://www.genome.jp/tools/kaas/
DGENES from draft genomes EGENES from EST assembly MGENES from metagenome ・FASTA形式の塩基配列または アミノ酸配列
KEGG GENES に対する BLASTX と逆向きの TBLASTN または両方向 の BLASTP
(Bidirectional) Best Hits に基づく自動アノテーション
・遺伝子と機能との対応表 (KEGG ORTHOLOGY) ・遺伝子機能の階層分類情報 (KEGG BRITE) ・パスウェイへのマッピング (KEGG PATHWAY)
53
KAASでの機能アノテーション
1. Query gene
2. Homologs
3. Ortholog candidates
4. KO (KEGG ORTHOLOGY) groups
5. Ranking of KO
BLASTX to GENES TBLASTN from GENES
Cut off by bi-directional best hit rate
Grouping by KO
Scoring by probability and heuristics
Bi-directional best hit rate
BHRab = Rf × Rr
Genome A Genome B
Gene a
Gene a’ Gene b’
Gene b S
S’: best hit
Rf = S / S’
Moriya, Y. et al. Nucl. Acids Res. 2007 35:W182-W185 54
KAASでのKOに基づくマッピング
Moriya, Y. et al. Nucl. Acids Res. 2007 35:W182-W185 55
パスウェイ再構築で分かること • 生物種にない酵素:Missing enzymes • 酵素がない理由の可能性
‒ そもそも、その生物種はその反応がなくても生きていける ‒ アノテーションの仕方が不十分
• 再度、ホモロジー検索やモチーフ検索の結果を見直す ‒ パスウェイマップには書かれていない代替経路が存在する
• 酵素のリストから可能な反応経路を計算する • 反応のタイプから新規反応経路を探索する
56
ゲノム情報から再構築された緑膿菌のリジン分解系
リジン
グルタリルCoA
?
クエン酸回路
機能予測の抜けの例
57
生化学的な知識による緑膿菌のリジン分解系
未知の酵素遺伝子 (missing enzyme)
リジン
グルタリルCoA
クエン酸回路
機能予測の抜けの例
58
マイクロアレイ 遺伝子発現
酵母2 ハイブリッド
細胞内 局在情報
系統 プロファイル
機能関連 ネットワーク
類似度行列 (カーネル)
複数のデータからの機能推定
59
複数のゲノムデータからの機能予測
• 複数のデータを統合して解析することにより遺伝子の機能予測が効果的にできる ‒ カーネルを使った例
• Yamanishi, Y., et al. Bioinformatics, 20, i363-i370 (2004) • Yamanishi, Y., et al. FEBS Journal, 274:2262-2273 (2007)
‒ パスウェイが教師データとして使える場合には有効
60
教師付き学習
Unknown pathway
タンパク質ネットワーク 発現データの類似度行列
61
Unknown pathway
トレーニング トレーニング
教師付き学習
発現データの類似度行列 タンパク質ネットワーク
62
教師付き学習
Unknown pathway
トレーニング トレーニング テスト テスト
発現データの類似度行列 タンパク質ネットワーク
63
緑膿菌のリジン分解系
Missing enzymes
64
1. Predicting network of 4225 protein genes in Pseudomonas, and extract lysine degradation pathway
2. Candidate genes are extracted from the genes located between known genes
NH2O
HONH2
NH2O
H2NNH2
O
HO H
O
HO
O
OH
O
HO
O
CoA
O
HO
O
TCA cycle
Known
? ?
?
?
Known
?
Application
65
Function to be predicted Lysine degradation of Pseudomonas aeruginosa
NH2O
HONH2
NH2O
H2NNH2
O
HO H
O
HO
O
OH
O
HO
O
CoA
O
HO
O
Citrate cycle
Glutaryl-CoA!
CoA
O
CoA
O
HO
O
FAD" FADH2" CO2"+" +" +"
Crotonoyl-CoA
Glutaryl-CoA dehydrogenase"
MVGKASFNWIDPLLLDQQLTEEERMVRDSAYQFAQDKLAPRVLEAFRHEQTDPAIFREMG! EVGLLGATIPEQYGGSGLNYVCYGLIAREVERIDSGYRSMMSVQSSLVMVPINEFGTEAQ! KQKYLPKLASGEWIGCFGLTEPNHGSDPGSMITRARKVDGGYRLTGSKMWITNSPIADVF! VVWAKDDAGDIRGFVLEKGWQGLSAPAIHGKVGLRASITGEIVMDNVFVPEENIFPDVRG! LKGPFTCLNSARYGISWGALGAAEACWHTARQYTLDRQQFGRPLAANQLIQKKLADMQTE! ITLALQGCLRLGRMKDEGTAAVEITSIMKRNSCGKALDIARMARDMLGGNGISDEFGVAR! HLVNLEVVNTYEGTHDVHALILGRAQTGIQAFY!
GcdH
66
Citrate cycle
Functions to genes Lysine degradation of Pseudomonas aeruginosa
NH2O
HONH2
NH2O
H2NNH2
O
HO H
O
HO
O
OH
O
HO
O
CoA
O
HO
O
O2" H2O"CO2"+" +"+"
Lysine monooxygenase"
L-lysine!
NH2O
HONH2
NH2O
H2N
5-aminopentanamide!
Gene: Unknown
67
Functions to genes Lysine degradation Pseudomonas aeruginosa
NH2O
HONH2
NH2O
H2NNH2
O
HO H
O
HO
O
OH
O
HO
O
CoA
O
HO
O
No sequence data for any other species
Gene: Unknown
? ? ?
?
?
Citrate cycle
68
バクテリアゲノムの特徴
• 機能的に関連のあるタンパク質の遺伝子は、ゲノム上で近い位置にある傾向 (Bork, P. et al. , 1998)
• 機能的に関連のあるタンパク質は、同じような進化パターンを持つ傾向 (Pazos, F., 2001; Pellegrini, M. et al, 1999)
69
系統プロファイル
• Pellegrini et al. – Proc. Natl. Acad. Sci. USA, 96:4285 (1999)
• オーソログ遺伝子のパターンを分類
E.coli S.cerevisiae B.subtilis H.influenzae
遺伝子1 1 0 1
遺伝子2 1 1 0
遺伝子3 0 1 1
遺伝子4 1 0 0
遺伝子5 0 1 1
遺伝子6 1 1 0
同じパターンを持つ遺伝子は 進化的・機能的に関連がある�
70
カーネル(類似度の表現)
• ゲノム上での位置
• 系統プロファイル
• 統合
間の塩基数と:遺伝子ここで、 xx
xxʹ′
−=ʹ′
d
hdKgen )/exp(),(
:系統プロファイルここで、x
xxxx ʹ′⋅=ʹ′),(phyK
phygen KKK +=int
71
PA0262,260 (hypothetical)
PA0265 (dehydrogenase) PA0266 (amino-transferase)
Prediction result
72
複数のゲノムデータからの機能予測
• 複数のデータを統合して解析することにより遺伝子の機能予測が効果的にできる ‒ カーネルを使った例
• Yamanishi, Y., et al. Bioinformatics, 20, i363-i370 (2004) • Yamanishi, Y., et al. FEBS Journal, 274:2262-2273 (2007)
‒ パスウェイが教師データとして使える場合には有効 • ウェブによる検索インタフェース: GENIES
‒ http://www.genome.jp/tools/genies/ • パスウェイが分からないときは、新規のパスも予測する必要がある
73
パスウェイの経路探索 • ある基質化合物から生成物への反応経路があるかどうかを反応データベースから探索する ‒ グラフの探索問題
• 最短経路探索 • 幅優先探索
‒ 反応の表現 ‒ ゲノムとの対応づけ
74
反応とパスウェイのグラフ表現
• グラフ探索アルゴリズムが応用できる ‒ 最短経路を求めるアルゴリズム ‒ 幅優先探索のアルゴリズム
E1 A B
E2 C
E3 D
E6 F G
E4
E5
グラフ:G = (V, E) V = ノード(化合物)の集合: {A, B, C, D, F, G} E = エッジ(反応)の集合: {(A,B), (B,C), (C,D), (B,F), (C,F), (F,G)}
E1, E2, E3, E4, E5, E6
75
反応経路計算のためのシステム • PathComp: Pathway Computation Server
‒ http://www.genome.jp/tools/pathcomp/ ‒ 始点(と終点)の化合物を入力 ‒ データベース中の反応データから基質と生成物をつないで既存の反応
からなるネットワークを計算 ‒ 幅優先で短いものから順に出力する
• PathPred: Pathway Prediction Server ‒ http://www.genome.jp/tools/pathpred/ ‒ 始点(と終点)の化合物を入力 ‒ データベース中の反応パターンデータから基質と生成物をつないで新
規反応も含んだネットワークを計算 ‒ 微生物の環境物質分解系や植物の二次代謝産物の合成系に特徴的な反
応を使うことができる
76
新規反応経路の予測
Moriya, Y., et al. Nucleic Acids Res, 38:W138 (2010) 77
新規反応経路の予測
Moriya, Y., et al. Nucleic Acids Res, 38:W138 (2010) 78
ゲノムとパスウェイデータベースの応用として考えられること
• 創薬 ‒ 二次代謝経路の発見と薬物合成経路の同定 ‒ 薬物代謝の可能性探索 ‒ パスウェイの種間比較によるドラッグターゲットの探索
• 産業 ‒ 有用代謝産物の合成経路の同定と効率化
• 進化的解析 ‒ パスウェイの種間比較によるパスウェイ進化の解明 ‒ 寄生生物とその宿主との関係
79