79
ゲノムとパスウェイのデータベース 京都大学化学研究所バイオインフォマティクスセンター 五斗 進 http://goto.kuicr.kyoto-u.ac.jp/ 東大新領域メディカルゲノム専攻講義 医科学のための情報生命学II 2013/4/18 1

genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノムとパスウェイのデータベース

京都大学化学研究所バイオインフォマティクスセンター 五斗 進

http://goto.kuicr.kyoto-u.ac.jp/

東大新領域メディカルゲノム専攻講義 医科学のための情報生命学II 2013/4/18 1

Page 2: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノムとパスウェイのデータベース

2

•  ゲノムデータベース

•  パスウェイデータベース

•  ゲノムからのパスウェイ再構築

Page 3: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノムデータとは

3

•  全ゲノム配列とそのアノテーション情報

•  次世代シーケンサーによる大量のショートリード

•  GWAS (Genome Wide Association Study) による SNP (Single Nucleotide Polymorphism) などのバリエーション

Page 4: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノムに関する情報の歴史(1)

1980年代

1990年

1992年

1995年

1996年

ヒトゲノム計画の提案(ダルベッコら, 1986) 半自動シーケンサー(フッドら, 1986頃、ABI, 1987) PCR(ポリメラーゼ連鎖反応)法の開発(マリス, 1987) 酵母ツーハイブリッド法(フィールズら, 1989)

ヒトゲノム計画がスタート

次(第2)世代シーケンサーの基礎技術(ブレンナーら)

ヘモフィルス菌ゲノムの解読(約200万塩基、2000遺伝子) (独立生活する生物のゲノム) プロテオーム(ウィルキンスら) DNAマイクロアレイ(ブラウンら)

出芽酵母ゲノムの解読(約1200万塩基、6000遺伝子) (真核生物のゲノム)

4

Page 5: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノムに関する情報の歴史(2)

1997年

1998年

1999年

2000年

2001年

枯草菌ゲノムの解読(約400万塩基、4000遺伝子) (日本を中心としたグループによる解読) トランスクリプトーム(ヴォーゲルスタインら)

線虫ゲノムの解読(約9700万塩基、20000遺伝子) (多細胞生物のゲノム) メタゲノム(土壌細菌) メタボローム

ヒト22番染色体ゲノムの解読 インタラクトーム(FlyNetグループ)

ショウジョウバエ、シロイヌナズナゲノムの解読

ヒトゲノムの概要配列発表(約30億塩基) 酵母インタラクトーム(伊藤ら、ユーツら)

5

Page 6: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノムに関する情報の歴史(3)

2002年

2003年

2007年

2008年

海洋ウイルスのメタゲノム

ENCODE (Encyclopedia of DNA Elements) プロジェクト

腸内細菌メタゲノム(黒川ら)

1000人ゲノムプロジェクト

以降、次世代シーケンサー全盛時代~第3世代へ

6

Page 7: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KEGG に登録されたゲノムの数

KEGG: Kyoto Encyclopedia of Genes and Genomes

0

500

1000

1500

2000

2500

ゲノム

7

Page 8: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノムデータベースとは

8

•  配列とそのアノテーション情報の検索

•  ゲノムブラウザによる検索結果の表示や新規配列のマッピング

•  比較ゲノム解析

Page 9: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノムデータベース

9

•  生物種毎のデータベース •  SGD(酵母)、WormBase(線虫)、FlyBase(ハエ)、RGD(ラット)

•  ヒト:例えば HinvDB

•  生物種データベースのポータル •  EuPathDB:病原微生物ゲノムデータベース •  cf. Full-length cDNA Database

•  次世代シーケンサーデータのレポジトリ

•  ヒト疾患に関するデータベース •  IEDB, OMIM, CTD など

Page 10: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

SGD: Saccharomyces Genome Database

http://www.yeastgenome.org/ 10

Page 11: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

SGD: Saccharomyces Genome Database

Gbrowse による遺伝子の詳細表示(ACT1 遺伝子) 11

Page 12: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

From SGD to YeastCyc

YeastCyc: 酵母のパスウェイDB

12

Page 13: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

From SGD to YeastCyc

YeastCyc: 酵母のパスウェイDB

13

Page 14: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

Eukaryote Pathogen Database Resources

http://eupathdb.org/eupathdb/ 14

Page 15: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

Eukaryote Pathogen Database Resources

検索条件を組み合わせるためのインタフェース 15

Page 16: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノムブラウザ

16

•  ローカルにインストールするタイプ •  IGV (Integrative Genomic Viewer) by Broad Institute

•  1000genomes, dbSNP •  Tablet, IGB, Savant

•  ウェブブラウザタイプ •  GBrowse

•  WormBase などのゲノムプロジェクト、HapMap、DGV (Database of Genomics Variants)

•  UCSC genome browser, Ensembl genome browser •  ENCODE, dbSNP データ組み込み •  Variant Effect Predictor by Ensemble genome browser

•  Artemis genome browser

Page 17: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

WormBase for nematodes

http://www.wormbase.org/ 17

Page 18: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

WormBase on GBrowse

18

Page 19: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ENCODE project

http://genome.ucsc.edu/encode/ 19

Page 20: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ENCODE on the UCSC Genome Browser

20

Page 21: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

Ensembl Genome Browser

http://www.ensembl.org/ 21

Page 22: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

Artemis Genome Browser for GeneDB

http://www.genedb.org/ 22

Page 23: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノムとパスウェイのデータベース

23

•  ゲノムデータベース

•  パスウェイデータベース

•  ゲノムからのパスウェイ再構築

Page 24: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

パスウェイ

24

•  既存の知識の統合化

•  ダイアグラムによるマップ表現 ‒ 代謝系と制御系

•  リファレンスとしてのマップと生物種ごとのマップ

Page 25: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

代謝パスウェイ

Roche 社製の代謝マップ

http://web.expasy.org/cgi-bin/pathways/show_thumbnails.pl 25

Page 26: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

代謝パスウェイ

Roche 社製の代謝マップ

• 生体内における化合物の変換の流れ

• 変換反応が進むには、通常、酵素による触媒が必要

• 酵素は遺伝子によってコードされているタンパク質である(ことが多い)

http://web.expasy.org/cgi-bin/pathways/show_thumbnails.pl 26

Page 27: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KEGG の代謝パスウェイマップ

http://www.genome.jp/kegg/pathway/map/map00020.png 27

Page 28: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

シグナル伝達パスウェイ (KEGG の細胞周期マップの例)

http://www.genome.jp/kegg/pathway/hsa/hsa04110.png 28

Page 29: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

データベース URL タイプ マップ 経路探索 ゲノム情報

BioCyc http://www.biocyc.org

代謝系・ シグナル伝達系

有 有 有

KEGG http://www.kegg.jp/ 有 有 有

Reactome http://www.reactome.org/ 有 有 有

SEED http://www.theseed.org/ 代謝系

有 無 有

UM-BBD http://umbbd.ethz.ch/ 有 有 無

STKE http://stke.sciencemag.org/cm/ シグナル伝達系

有 無 無

AfCS http://www.signaling-gateway.org/molecule/maps 有 無 無

DIP http://dip.doe-mbi.ucla.edu/ タンパク質間 相互作用

無 無 無

BIND http://bind.ca/ 無 無 無

BioPAX http://www.biopax.org/ データベース変換フォーマット

パスウェイデータベースの例

BioPAX などのパスウェイデータを扱うツールとして Cytoscape や VizANT などがある。

29

Page 30: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

Reactome

http://www.reactome.org/ 30

Page 31: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

YeastCyc by BioCyc

YeastCyc: 酵母のパスウェイDB

31

Page 32: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

VisANT での表示

http://visant.bu.edu

• ネットワーク特徴量の計算 ‒  次数分布など ‒  パス計算、モチーフ抽出

32

Page 33: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KEGG PATHWAY 生体内(外)の分子間ネットワーク図

• 代謝系 ‒  13カテゴリ ‒  中間代謝、二次代謝、薬の代謝、全体像

• 制御系 ‒  20カテゴリ ‒  遺伝制御、環境シグナル、細胞プロセス、生体システム他

• 疾患 ‒  がん、免疫・神経変性・循環器・代謝疾患、感染症

• 薬の開発 ‒  開発の歴史、標的ベース、構造ベース

http://www.genome.jp/kegg/pathway.html

Carbohydrate -> Glycolysis / Gluconeogensis

33

Page 34: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KEGG PATHWAY マップの例:解糖系

• 酵素/遺伝子と化合物のネットワーク

• Pathway menu ‒  BRITE 形式の階層分類

• Organism menu ‒  生物種の階層分類

• Pathway entry ‒  パスウェイデータベースのテキストバージョン

• Show description ‒  マップの説明

• User data mapping ‒  マップ中のオブジェクトへの色付け

http://www.genome.jp/kegg/pathway/map/map00010.html 34

Page 35: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KEGG PATHWAY テキストエントリー • Pathway entry ‒  Entry

•  マップ番号(map|ko|ec|rn|生物種コード+番号)

‒  Name, Description •  パスウェイの説明とモジュールと

の関係 ‒  Class

•  階層分類情報 ‒  Pathway map

•  マップとオーソログテーブルへのリンク

‒  Disease ‒  Reference

• モジュール ‒  生物種間での保存、複合体、オペロンを考慮した機能単位

http://www.genome.jp/dbget-bin/www_bget?pathway+map00010 35

Page 36: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KEGG PATHWAY マップの例:解糖系

• Reference pathway ‒  KO, EC, Reaction へのリ

ンク ‒  (KO) オーソログエントリー

へのリンク ‒  (EC) 酵素エントリーへのリ

ンク ‒  (Reaction) 反応エントリー

へのリンク

• 生物種名 ‒  各生物種の遺伝子エント

リーへのリンク

• Set personalized menu ‒  生物種の選択

• Sort below by ‒  生物種名のソート

http://www.genome.jp/kegg/pathway/map/map00010.html 36

Page 37: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KEGG PATHWAY マップの例:解糖系 (EC)

• Reference pathway (EC) ‒  従来のリファレンスに対応 ‒  対応する酵素エントリーの

ある箱に色づけ

• Reference pathway (KO) ‒  対応するオーソログエント

リーのある箱に色づけ ‒  KEGG GENES に登録され

ている生物種が持つ遺伝子に関して配列の類似度を元に定義されているオーソログ情報

‒  酵素によってはオーソログが定義できないものもある

http://www.genome.jp/kegg/pathway/ko/ko00010.html 37

Page 38: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KEGG PATHWAY 生物種の選択

• リストの生物種を限定する ‒  カテゴリーは KEGG 生物種

一覧のものが指定可能 •  Mammals, Protists,

Actinobacteria など

‒  生物種コードも KEGG 生物種一覧のものが指定可能 •  hsa(ヒト), mmu(マウス),

eco(大腸菌)など

http://www.genome.jp/kegg/catalog/org_list.html 38

Page 39: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

• 代謝系 ‒  12カテゴリ ‒  中間代謝、二次代謝、薬の代謝、全体像

• 制御系 ‒  19カテゴリ ‒  遺伝制御、環境シグナル、細胞プロセス

• 疾患 ‒  がん、免疫・神経変性・循環器・代謝疾患、感染症

• 薬の開発 ‒  開発の歴史、標的ベース、構造ベース

KEGG PATHWAY

http://www.genome.jp/kegg/pathway.html

疾患パスウェイ

39

Page 40: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

• 癌に関与する遺伝子の分子間ネットワーク図

• 病原因子となっている遺伝子に赤でマーク

KEGG PATHWAY 疾患パスウェイ

• Disease/drug mapping • 疾患遺伝子とドラッグターゲットのマッピング

40

Page 41: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KEGG PATHWAY 薬の開発パスウェイ

• 代謝系 ‒  12カテゴリ ‒  中間代謝、二次代謝、薬の代謝、全体像

• 制御系 ‒  19カテゴリ ‒  遺伝制御、環境シグナル、細胞プロセス他

• 疾患 ‒  がん、免疫・神経変性・循環器・代謝疾患、感染症

• 薬の開発 ‒  開発の歴史、標的ベース、構造ベース

http://www.genome.jp/kegg/pathway.html 41

Page 42: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KEGG PATHWAY 薬の開発パスウェイ

42

Page 43: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KEGG GENOME

• KEGG 生物種ごとの入り口 ‒  GENES/DGENES:ゲノムが決定された生物種

‒  EGENES:ESTで作成された遺伝子セット

‒ MGENES:メタゲノムデータ ‒  Pangenomes:近縁生物種をまとめたもの

‒  Viruses ‒  生物種の組み合わせ

http://www.genome.jp/kegg/genome.html

43

Page 44: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

複数生物種の情報を PATHWAY にマッピング • 共生関係 • 寄生関係 • ヒトと腸内細菌叢など

• アブラムシ ‒ 昆虫

• ブフネラ ‒ アブラムシの共生細菌

44

Page 45: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

複数生物種の情報を PATHWAY にマッピング

アブラムシ ブフネラ 共通 45

Page 46: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノムとパスウェイのデータベース

46

•  ゲノムデータベース

•  パスウェイデータベース

•  ゲノムからのパスウェイ再構築

Page 47: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノムの機能解析・予測

47

"  遺伝子産物としてのタンパク質間相互作用・転写ネットワーク

"  化合物ネットワークとしての代謝系

ゲノム

化合物、糖鎖、脂質

生命システム理解のための ゲノムの機能解析

Page 48: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

48

遺伝子配列情報

配列DB

モチーフDB

立体構造DB

遺伝子の機能

相同性検索 立体構造予測

(A) 遺伝子の機能予測 (B) ゲノムの機能予測

ゲノム情報 (遺伝子の集合)

生物の機能

パスウェイ DB

相互作用DB

発現DB

ネットワーク解析 ↑

配列・構造解析

遺伝子の機能予測とゲノムの機能予測

Page 49: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

49

リジン分解系のリファレンスパスウェイ

リファレンスを用いたパスウェイ再構築

Page 50: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

50

リファレンスを用いたパスウェイ再構築

ゲノム情報から再構築された緑膿菌のリジン分解系

Page 51: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

51

パスウェイ再構築システム

"  ゲノム中の全遺伝子リストの作成 "  ゲノム、メタゲノムのアセンブリ "  遺伝子領域の予測 "  アミノ酸・塩基配列:マルチFASTA形式

"  ゲノム中の全遺伝子の機能アノテーション "  複数配列をクエリにして、ゲノムが決定された生物種の配列セットなどに対してホモロジー検索

"  各クエリ配列に対して、双方向ベストヒット情報などを用いてオーソログを割り当て

"  オーソログ情報を元にしたパスウェイ再構築

Page 52: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

52

パスウェイ再構築システムの例

"  MEGAN: MEta Genome ANalyzer "  もともとはメタゲノムの生物種マッピング用のツール

"  MEGAN4からKEGGやSEEDを用いた機能予測とパスウェイ再構築の機能が拡張された

"   RAST: Rapid Annotations using Subsystems Technology "   ERGOを開発していたグループがパスウェイに相当するサブシステム(SEED)をベースに再構築

"  メタゲノム用の MG-RAST もある

"   KAAS: KEGG Automatic Annotation Server

Page 53: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KAASによるアノテーションとパスウェイ再構築

KAAS: KEGG Automatic Annotation Server   http://www.genome.jp/tools/kaas/

 DGENES from draft genomes  EGENES from EST assembly  MGENES from metagenome  ・FASTA形式の塩基配列または   アミノ酸配列

 KEGG GENES に対する BLASTX と逆向きの TBLASTN または両方向  の BLASTP

 (Bidirectional) Best Hits に基づく自動アノテーション             

・遺伝子と機能との対応表  (KEGG ORTHOLOGY) ・遺伝子機能の階層分類情報  (KEGG BRITE) ・パスウェイへのマッピング  (KEGG PATHWAY)

53

Page 54: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KAASでの機能アノテーション

1.  Query gene

2.  Homologs

3.  Ortholog candidates

4.  KO (KEGG ORTHOLOGY) groups

5.  Ranking of KO

BLASTX to GENES TBLASTN from GENES

Cut off by bi-directional best hit rate

Grouping by KO

Scoring by probability and heuristics

Bi-directional best hit rate

BHRab = Rf × Rr

Genome A Genome B

Gene a

Gene a’ Gene b’

Gene b S

S’: best hit

Rf = S / S’

Moriya, Y. et al. Nucl. Acids Res. 2007 35:W182-W185 54

Page 55: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

KAASでのKOに基づくマッピング

Moriya, Y. et al. Nucl. Acids Res. 2007 35:W182-W185 55

Page 56: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

パスウェイ再構築で分かること •  生物種にない酵素:Missing enzymes •  酵素がない理由の可能性

‒  そもそも、その生物種はその反応がなくても生きていける ‒  アノテーションの仕方が不十分

• 再度、ホモロジー検索やモチーフ検索の結果を見直す ‒  パスウェイマップには書かれていない代替経路が存在する

• 酵素のリストから可能な反応経路を計算する • 反応のタイプから新規反応経路を探索する

56

Page 57: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノム情報から再構築された緑膿菌のリジン分解系

リジン

グルタリルCoA

?

クエン酸回路

機能予測の抜けの例

57

Page 58: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

生化学的な知識による緑膿菌のリジン分解系

未知の酵素遺伝子 (missing enzyme)

リジン

グルタリルCoA

クエン酸回路

機能予測の抜けの例

58

Page 59: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

マイクロアレイ 遺伝子発現

酵母2 ハイブリッド

細胞内 局在情報

系統 プロファイル

機能関連 ネットワーク

類似度行列 (カーネル)

複数のデータからの機能推定

59

Page 60: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

複数のゲノムデータからの機能予測

•  複数のデータを統合して解析することにより遺伝子の機能予測が効果的にできる ‒  カーネルを使った例

•  Yamanishi, Y., et al. Bioinformatics, 20, i363-i370 (2004) •  Yamanishi, Y., et al. FEBS Journal, 274:2262-2273 (2007)

‒  パスウェイが教師データとして使える場合には有効

60

Page 61: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

教師付き学習

Unknown pathway

タンパク質ネットワーク 発現データの類似度行列

61

Page 62: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

Unknown pathway

トレーニング トレーニング

教師付き学習

発現データの類似度行列 タンパク質ネットワーク

62

Page 63: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

教師付き学習

Unknown pathway

トレーニング トレーニング テスト テスト

発現データの類似度行列 タンパク質ネットワーク

63

Page 64: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

緑膿菌のリジン分解系

Missing enzymes

64

Page 65: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

1. Predicting network of 4225 protein genes in Pseudomonas, and extract lysine degradation pathway

2. Candidate genes are extracted from the genes located between known genes

NH2O

HONH2

NH2O

H2NNH2

O

HO H

O

HO

O

OH

O

HO

O

CoA

O

HO

O

TCA cycle

Known

? ?

?

?

Known

?

Application

65

Page 66: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

Function to be predicted Lysine degradation of Pseudomonas aeruginosa

NH2O

HONH2

NH2O

H2NNH2

O

HO H

O

HO

O

OH

O

HO

O

CoA

O

HO

O

Citrate cycle

Glutaryl-CoA!

CoA

O

CoA

O

HO

O

FAD" FADH2" CO2"+" +" +"

Crotonoyl-CoA

Glutaryl-CoA dehydrogenase"

MVGKASFNWIDPLLLDQQLTEEERMVRDSAYQFAQDKLAPRVLEAFRHEQTDPAIFREMG! EVGLLGATIPEQYGGSGLNYVCYGLIAREVERIDSGYRSMMSVQSSLVMVPINEFGTEAQ! KQKYLPKLASGEWIGCFGLTEPNHGSDPGSMITRARKVDGGYRLTGSKMWITNSPIADVF! VVWAKDDAGDIRGFVLEKGWQGLSAPAIHGKVGLRASITGEIVMDNVFVPEENIFPDVRG! LKGPFTCLNSARYGISWGALGAAEACWHTARQYTLDRQQFGRPLAANQLIQKKLADMQTE! ITLALQGCLRLGRMKDEGTAAVEITSIMKRNSCGKALDIARMARDMLGGNGISDEFGVAR! HLVNLEVVNTYEGTHDVHALILGRAQTGIQAFY!

GcdH

66

Page 67: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

Citrate cycle

Functions to genes Lysine degradation of Pseudomonas aeruginosa

NH2O

HONH2

NH2O

H2NNH2

O

HO H

O

HO

O

OH

O

HO

O

CoA

O

HO

O

O2" H2O"CO2"+" +"+"

Lysine monooxygenase"

L-lysine!

NH2O

HONH2

NH2O

H2N

5-aminopentanamide!

Gene: Unknown

67

Page 68: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

Functions to genes Lysine degradation Pseudomonas aeruginosa

NH2O

HONH2

NH2O

H2NNH2

O

HO H

O

HO

O

OH

O

HO

O

CoA

O

HO

O

No sequence data for any other species

Gene: Unknown

? ? ?

?

?

Citrate cycle

68

Page 69: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

バクテリアゲノムの特徴

•  機能的に関連のあるタンパク質の遺伝子は、ゲノム上で近い位置にある傾向 (Bork, P. et al. , 1998) 

•  機能的に関連のあるタンパク質は、同じような進化パターンを持つ傾向 (Pazos, F., 2001; Pellegrini, M. et al, 1999)

69

Page 70: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

系統プロファイル

•  Pellegrini et al. –  Proc. Natl. Acad. Sci. USA, 96:4285 (1999)

•  オーソログ遺伝子のパターンを分類

E.coli S.cerevisiae B.subtilis H.influenzae

遺伝子1 1 0 1

遺伝子2 1 1 0

遺伝子3 0 1 1

遺伝子4 1 0 0

遺伝子5 0 1 1

遺伝子6 1 1 0

同じパターンを持つ遺伝子は 進化的・機能的に関連がある�

70

Page 71: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

カーネル(類似度の表現)

•  ゲノム上での位置

•  系統プロファイル

•  統合

間の塩基数と:遺伝子ここで、 xx

xxʹ′

−=ʹ′

d

hdKgen )/exp(),(

:系統プロファイルここで、x

xxxx ʹ′⋅=ʹ′),(phyK

phygen KKK +=int

71

Page 72: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

PA0262,260 (hypothetical)

PA0265 (dehydrogenase) PA0266 (amino-transferase)

Prediction result

72

Page 73: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

複数のゲノムデータからの機能予測

•  複数のデータを統合して解析することにより遺伝子の機能予測が効果的にできる ‒  カーネルを使った例

•  Yamanishi, Y., et al. Bioinformatics, 20, i363-i370 (2004) •  Yamanishi, Y., et al. FEBS Journal, 274:2262-2273 (2007)

‒  パスウェイが教師データとして使える場合には有効 •  ウェブによる検索インタフェース: GENIES

‒  http://www.genome.jp/tools/genies/ •  パスウェイが分からないときは、新規のパスも予測する必要がある

73

Page 74: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

パスウェイの経路探索 •  ある基質化合物から生成物への反応経路があるかどうかを反応データベースから探索する ‒ グラフの探索問題

• 最短経路探索 • 幅優先探索

‒ 反応の表現 ‒ ゲノムとの対応づけ

74

Page 75: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

反応とパスウェイのグラフ表現

•  グラフ探索アルゴリズムが応用できる ‒  最短経路を求めるアルゴリズム ‒  幅優先探索のアルゴリズム

E1 A B

E2 C

E3 D

E6 F G

E4

E5

グラフ:G = (V, E)  V = ノード(化合物)の集合: {A, B, C, D, F, G}  E = エッジ(反応)の集合: {(A,B), (B,C), (C,D), (B,F), (C,F), (F,G)}

E1, E2, E3,  E4,  E5, E6

75

Page 76: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

反応経路計算のためのシステム •  PathComp: Pathway Computation Server

‒  http://www.genome.jp/tools/pathcomp/ ‒  始点(と終点)の化合物を入力 ‒  データベース中の反応データから基質と生成物をつないで既存の反応

からなるネットワークを計算 ‒  幅優先で短いものから順に出力する

•  PathPred: Pathway Prediction Server ‒  http://www.genome.jp/tools/pathpred/ ‒  始点(と終点)の化合物を入力 ‒  データベース中の反応パターンデータから基質と生成物をつないで新

規反応も含んだネットワークを計算 ‒  微生物の環境物質分解系や植物の二次代謝産物の合成系に特徴的な反

応を使うことができる

76

Page 77: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

新規反応経路の予測

Moriya, Y., et al. Nucleic Acids Res, 38:W138 (2010) 77

Page 78: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

新規反応経路の予測

Moriya, Y., et al. Nucleic Acids Res, 38:W138 (2010) 78

Page 79: genome pathway db - 京都大学goto.kuicr.kyoto-u.ac.jp/lecture/genome_pathway_db.pdfゲノムに関する情報の歴史(1) 1980年代 1990年 1992年 1995年 1996年 ヒトゲノム計画の提案(ダルベッコら,

ゲノムとパスウェイデータベースの応用として考えられること

•  創薬 ‒ 二次代謝経路の発見と薬物合成経路の同定 ‒ 薬物代謝の可能性探索 ‒ パスウェイの種間比較によるドラッグターゲットの探索

•  産業 ‒ 有用代謝産物の合成経路の同定と効率化

•  進化的解析 ‒ パスウェイの種間比較によるパスウェイ進化の解明 ‒ 寄生生物とその宿主との関係

79