有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23...

Preview:

Citation preview

有用データベースとWebサーバー

東京大学医科学研究所

フロンティア研究拠点

ヒトゲノム解析センター 機能解析インシリコ分野

山下理宇ryamasi@hgc.jp

本日の講義に当たって

• 質問がありましたら、いつでも途中で止めてください。

• メディカルゲノムの学生の方へ–講義の最後にアンケートに記入して下さい。 → 出席とみなします。

本日の流れ

1配列の解析

・BLASTからのリンク

・Genome browser

・InterProScan

・PSORT

転写制御解析

・DBTSS

・Seqlogo

・JASPAR

・Melina II

大量データ解析

・大量データの照会

・Panther

・Babelomics

・+@

introduction

スタート:cDNA配列を得た

>cDNA_testCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGCATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGTGGTGGTGCCCTATGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAACAGTTCCTGCATGGGCGGCATGAACCGGAGGCCCATCCTCACCATCATCACACTGGAAGACTCCAGTGGTAATCTACTGGGACGGAACAGCTTTGAGGTGCGTGTTTGTGCCTGTCCTGGGAGAGACCGGCGCACAGAGGAAGAGAATCTCCGCAAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAGCGAGCACTGCCCAACAACACCAGCTCCTCTCCCCAGCCAAAGAAGAAACCACTGGATGGAGAATATTTCACCCTTCAGATCCGTGGGCGTGAGC

クローニング

シークエンス

実験データから

NCBIでBLASTをかける• NCBI(http://www.ncbi.nlm.nih.gov/)

BLASTsearch

BLASTresult

各データベースへのリンク*UniGene

 ESTを含めたcDNAを機械的にクラスタリングした物

*GEO

 マイクロアレイによる発現データ (大林先生)

*Gene

 Entrez Geneによる遺伝子のアノテーション

*Structure

 立体構造(木下先生)

*Map viewer

 ゲノム上での位置

EntrezGene

EntrezGene詳細1

EntrezGene:GO

遺伝子の機能を大まかに見積もることができる

遺伝子機能のデジタルな分類が可能

GeneOntology(GO)とはhttp://www.geneontology.org/

生物学用語の階層構造を表記

遺伝子のアノテーションとして使われる

GeneOntologyの例

似ている配列が発見できない・・・

• 1.その前に– その配列は、ゴミではありませんか?

• AAAAAAAA・・・・・等、クオリティに問題はありませんか?– 大腸菌の一部ではないですか?

• 大腸菌・ベクターをクローニングしてしまった・・・。

– 他の生物種は試してみましたか?• (トマトではないですか?)

• 2.ゲノムに当ててみよう。

GenomeBrowser

• NCBI– http://www.ncbi.nlm.nih.gov/Genomes/

• Ensembl– http://www.ensembl.org/index.html

• UCSC Genome browser– http://genome.ucsc.edu/

UCSCGenomebrowserhttp://genome.ucsc.edu/ ゲノムの総合的なデータベース

BLAT:ゲノムへのマッピング

Browser

detail

Genome browserの内側:download

自前のデータの追加

ゲノム配列

refGene.txt

26250行

ゲノムにマッピングの結果・・・

• 1.ゲノムにマッピングできた。– 報告されているESTはありますか?– その領域の保存はどうですか?

• 2.ゲノムにマッピングできない– 意味のある配列だと思いますか?

アミノ酸に翻訳して考えてみましょう

InterProScanによる機能推定http://www.ebi.ac.uk/Tools/InterProScan/タンパク質の機能モチーフ・ドメイン等の統合検索システム

InterProScan結果

InterProScan詳細

タンパク質の局在予測(PSORT)

http://psort.ims.u-tokyo.ac.jp/

WoLFPSORT

Paul Horton先生

WoLF PSORT結果

特徴の似ているタンパク質の局在を元に多数決を取る

本日の流れ

1配列の解析

・BLASTからのリンク

・Genome browser

・InterProScan

・PSORT

転写制御解析

・DBTSS

・Seqlogo

・JASPAR

・Melina II

大量データ解析

・大量データの照会

・Panther

・Babelomics

・+@

さて・・・

それで満足ですか?

転写制御(プロモータ)を調べてみよう

目的のcDNAの同定・あるいは類似配列がわかった。CDSのアノテーションはできた。ゲノム上のどこにあるか分かった

genome

mRNA(full) AAAA

転写開始領域の解析には5’端が保証された配列が不可欠

TTTTTTTTGenbankTTTT

Refseq cDNA TTTT

転写開始点はどこ?

5’端配列

プロモータ同定に必要な配列転写

TTTT完全長cDNA5’端が保証

転写開始点データベースDBTSS

http://dbtss.hgc.jp

• 5’端の保証された多量のcDNA配列– Oligo-capping法(東大医科研、かずさDNA研)– CAP-Trapper法(理研)

ゲノム

5’端配列

転写開始点 転写開始点

DBTSS:DataBaseofTranscritptionStartSites

!"#$ %#$!&# '()!$#* '&+""#, '-. '/!(0*/1$2 %#$!&# '()!$#* '&+""#, '-. '/!(0*/1$2

3#456 78869#"5 :%; 76;<87 666=>7 ;>>? @ @ @ @ @ @

3#457 7887.+45 :%66 <8877A 6>=><A ?==B @ &&6 ==<>7 6<B8B 7;>? @

3#45= 788=.+C5 :%6= <8877A 6?8?B< 667=< ?<;8 &&7 A>878? 6?A<<B ;A7< B>;A

3#45< 788<-!3 :%6B <8877A 7;;;?< 6AA=B 67;>8 &&= A>878? 7?8;6< 6666B 68?==

3#45A 788A9#" :%6; 6;>87?A 6=A?888 6?;A= 6A7B7 &&A A>878? =B<<>; 6<;<B 6<6B7

:0&+$ &!0*#

DBTSSデータ数

DBTSS登録遺伝子数

ヒト・マウス遺伝子の9割近い遺伝子について転写開始点情報がある

Ver. 5では

ヒト 19753 / 22682(87.1%)

マウス 14746 / 17213(85.7%)

Ver. 6 (2007 Sep)では、SOLEXAのデータを導入

DBTSS検索と結果

プロモータ配列の入手

比較ゲノム例

比較ゲノムによるプロモータ解析が可能

human

mouse

アライメントTSS付近詳細

局所アライメント

転写開始点の多様性

一つの遺伝子の転写開始点は一つとは限らない

そろっている 揺らぎがある

選択的

甲状腺

その他

代表転写開始点の決定

Case 1

Case 2

ignored

ignored

ORF5’UTR

TSS with max number ofclones

Median locus ofTSS

代表転写開始点をもとにしたプロモータ配列はダウンロード可能

fixedTSSsの定義

TSS>=50%,#clones>=10    ↓fixedTSS

425117TSSs(15262遺伝子)↓

#clones>=10408341TSSs(10578遺伝子)

925fixedTSS(925遺伝子)

DBTSS ver. 5を使用

Sequencelogo

Weblogohttp://weblogo.berkeley.edu/

Weblogoのホームページより引用

SEQLOGOhttp://www.bioinf.ebc.ee/EP/EP/

Sequencelogo

Ribosomal proteinのmRNATSS付近-10~+10 45種

SEQLOGO入力

配列

マトリックスも可

SEQLOGO結果

Ribosome protein遺伝子(45種)

それ以外の遺伝子(880種)

miRNAのdatabase

http://microrna.sanger.ac.uk/

miRBase::Targets入力

miRBase::Targets結果

miRBase::Sequences

miRBase::Sequences詳細1

pre-matureな配列

miRBase::Sequences詳細2

matureな配列

Motif検索の必要性• 同じように発現する遺伝子は、同じ転写因子によって制御されている?

遺伝子領域A

遺伝子領域B

遺伝子領域C

遺伝子領域D

プロモータ

モチーフ

どうやって、モチーフ、プロモータを求めるか

既知Motifの探索

• TRANSFAC– Publicは無償だが、有償の方がデータ多い– 重複がある。– DBTSSにLinkがある– http://www.biobase.de/

• JASPAR– 無償– 重複なし– http://jaspar.genereg.net

JASPAR:Toppage

JASPAR:入力画面

JASPAR:結果

FANTOM4

FunctionalAnnotationoftheMouse

FunctionalAnnotationoftheMammalianGenome

http://fantom.gsc.riken.jp/4/

未知Motifの探索の限界

確率的手法

・MEME、Gibbs、CONSENSUS….

! " # ! $ ! " ! #

" % & % % % % & % %

# % % & % % % % % &

! & % % & % & % & %

$ % % % % & % % % %

# % % & % % % % % &

$ % % % % & % % % %

" % & % % % % & % %

! & % % & % & % & %

# % % & % % % % % &

! " # ! $ ! " ! #

" % & % % % % & % %

# % % & % % % % % &

! & % % & % & % & %

$ % % % % & % % % %

# % % & % % % % % &

$ % % % % & % % % %

" % & % % % % & % %

! & % % & % & % & %

# % % & % % % % % &

! " # ! $ ! " ! #

" % & % % % % & % %

# % % ' % % % % % &

! & % % ( % & % & %

$ % % % % ) % % % %

# % % & % % % % % &

$ % % % % & % % % %

" % & % % % % & % %

! & % % & % & % ' %

# % % & % % % % % (

配列が3つだったら・・・・→ 3次元配列がnだったら ・・・・→ n次元!!!

既存の確率的手法の問題点• 得られたモチーフが最適解とは限らない• パラメータ調整の必要性• プログラム間での結果比較が難しい

Motif 1 sites sorted by position p-value--------------------------------------------------------------------------------Sequence name Start P-value Site ------------- ----- --------- ---------------SEQ8; 172 9.57e-10 CCCGGAGTAT CTCAATCGTAGATGA ATACCACTTTSEQ3; 112 9.57e-10 GTTATATTGG CTCAATCGTAGATGA AACCAGACTCSEQ5; 185 1.96e-09 ACGGGCAAGC CTCAATCGTAGAGGA T SEQ6; 105 2.82e-09 GTCAGCCGGT CTCAATCGTAGATCA GAGGCGAGAASEQ4; 173 4.67e-09 GTTCGAGAGC CTCAATCGTAGATAA CCTCTCTGGCSEQ2; 172 4.67e-09 AAGCGTCGTG CTCAATCGTAGATAA CAGAGGTCGGSEQ10; 3 7.52e-09 TT CTCAATCGTAGAGTA TGCTTAGAGGSEQ9; 93 7.52e-09 CGCCTAGAAA CTCAATCGTAGAGTA TCACGCACCGSEQ1; 52 9.33e-09 CTTTACTCGG CTCAATCGTAGAGGC GGTGCCGCGASEQ7; 177 1.95e-08 AAGTCTTTGA CTCAATCGTAGACCC AACACTTGA --------------------------------------------------------------------------------

MEME

MOTIF A

1-1 53 tttactcggc TCAATCGTAG aggcggtgcc 62 2-1 173 agcgtcgtgc TCAATCGTAG ataacagagg 182 3-1 113 ttatattggc TCAATCGTAG atgaaaccag 122 4-1 174 ttcgagagcc TCAATCGTAG ataacctctc 183 5-1 186 cgggcaagcc TCAATCGTAG aggat 195 6-1 106 tcagccggtc TCAATCGTAG atcagaggcg 115 7-1 178 agtctttgac TCAATCGTAG acccaacact 187 8-1 173 ccggagtatc TCAATCGTAG atgaatacca 182 9-1 94 gcctagaaac TCAATCGTAG agtatcacgc 10310-1 4 ttc TCAATCGTAG agtatgctta 13

Gibbs

モチーフ発見ツール Melina2

2.パラメータ、プログラムを設定

3.submit

1.配列をFASTAフォーマットで入力

Melina2結果画面

3.既知の類似モチーフ検索

2.sequence logo

1.モチーフを選択

Melina2結果画面

3.既知の類似モチーフ検索

2.sequence logo

1.モチーフを選択

4.プロモータ上の探索

本日の流れ

1配列の解析

・BLASTからのリンク

・Genome browser

・InterProScan

・PSORT

転写制御解析

・DBTSS

・Seqlogo

・JASPAR

・Melina II

大量データ解析

・大量データの照会

・Panther

・Babelomics

・+@

現代のニーズ = 大規模データの処理• 大規模データ技術の出現(microarray, 次世代シークエンサー・・・)• 研究では、大規模データを取り扱うこともある

• あるデータセットを与えたときに有意な情報を得たい

どんな情報が濃縮?

・GO

・regulation

全ての遺伝子

癌で高発現の遺伝子群

Pantherhttp://www.pantherdb.org/取り出した遺伝子群の特徴を解析できる

Panther

補正が必要

Babelomics

http://www.babelomics.org/

遅い!!

取り出した遺伝子群のや転写因子結合部位の推定

次世代シークエンサーとにかく今までのシーケンサーとは桁が違う

454: 500 bp * 1,000,000 reads

Solid, SOLEXA: 25~50(70bp) * 100,000,000~

1 runで出てくる画像ファイルは1T以上

次世代シークエンサーデータの解析

Web経由でできるツールは、現状はない

いくつかのソフトウェアは使用可能

Mapping: Maq, SOAP, BowTie, TopHat

Assemble: velvet, GSassembly

別途ご相談下さい。。。

mapping

assemble

参考文献

Database issue

Web server issue

少しだけコンピュータの宣伝

• 便利なツールがあるので、できるだけそれを利用

• 大量に処理したいときには向いていないこともある・・・

ほんの少しのコンピュータの知識でも、かなりのことができます。

1.UNIX

2.R (http://www.r-project.org/)

3.Perl, ruby, python, C++, C・・・

例えば

問 refGene.txtを利用して、染色体ごとの遺伝子数を求めよ。

cut -f 3 refGene.txt | sort |uniq -c

Mac OSXであればすぐにできます。1.アプリケーション

 ー ユーティリティ

  ー ターミナルを立ち上げる

2.refGene.txtをデスクトップに置く

3. cd ~/Desktop

4. cut -f 3 refGene.txt | sort |uniq -c

HGCスーパーコンピュータwebページhttps://supcom.hgc.jp/japanese/

申請書を

ダウンロード

HGCスーパーコンピュータ

メモリ 2T

最後に

• 本日のスライドは– http://www.hgc.jp/~ryamasi/othersに置いておきます。

• 何かご質問等ありましたらお気軽にryamasi@hgc.jpまでメール下さい。

Recommended