76
有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点 ヒトゲノム解析センター 機能解析インシリコ分野 山下理宇 [email protected]

有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

有用データベースとWebサーバー

東京大学医科学研究所

フロンティア研究拠点

ヒトゲノム解析センター 機能解析インシリコ分野

山下理宇[email protected]

Page 2: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

本日の講義に当たって

• 質問がありましたら、いつでも途中で止めてください。

• メディカルゲノムの学生の方へ–講義の最後にアンケートに記入して下さい。 → 出席とみなします。

Page 3: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

本日の流れ

1配列の解析

・BLASTからのリンク

・Genome browser

・InterProScan

・PSORT

転写制御解析

・DBTSS

・Seqlogo

・JASPAR

・Melina II

大量データ解析

・大量データの照会

・Panther

・Babelomics

・+@

Page 4: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

introduction

Page 5: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

スタート:cDNA配列を得た

>cDNA_testCCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCACACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTGAGGCGCTGCCCCCACCATGAGCGCTGCTCAGATAGCGATGGTCTGGCCCCTCCTCAGCATCTTATCCGAGTGGAAGGAAATTTGCGTGTGGAGTATTTGGATGACAGAAACACTTTTCGACATAGTGTGGTGGTGCCCTATGAGCCGCCTGAGGTTGGCTCTGACTGTACCACCATCCACTACAACTACATGTGTAACAGTTCCTGCATGGGCGGCATGAACCGGAGGCCCATCCTCACCATCATCACACTGGAAGACTCCAGTGGTAATCTACTGGGACGGAACAGCTTTGAGGTGCGTGTTTGTGCCTGTCCTGGGAGAGACCGGCGCACAGAGGAAGAGAATCTCCGCAAGAAAGGGGAGCCTCACCACGAGCTGCCCCCAGGGAGCACTAAGCGAGCACTGCCCAACAACACCAGCTCCTCTCCCCAGCCAAAGAAGAAACCACTGGATGGAGAATATTTCACCCTTCAGATCCGTGGGCGTGAGC

クローニング

シークエンス

実験データから

Page 6: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

NCBIでBLASTをかける• NCBI(http://www.ncbi.nlm.nih.gov/)

Page 7: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

BLASTsearch

Page 8: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

BLASTresult

Page 9: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

各データベースへのリンク*UniGene

 ESTを含めたcDNAを機械的にクラスタリングした物

*GEO

 マイクロアレイによる発現データ (大林先生)

*Gene

 Entrez Geneによる遺伝子のアノテーション

*Structure

 立体構造(木下先生)

*Map viewer

 ゲノム上での位置

Page 10: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

EntrezGene

Page 11: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

EntrezGene詳細1

Page 12: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

EntrezGene:GO

遺伝子の機能を大まかに見積もることができる

遺伝子機能のデジタルな分類が可能

Page 13: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

GeneOntology(GO)とはhttp://www.geneontology.org/

生物学用語の階層構造を表記

遺伝子のアノテーションとして使われる

Page 14: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

GeneOntologyの例

Page 15: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

似ている配列が発見できない・・・

• 1.その前に– その配列は、ゴミではありませんか?

• AAAAAAAA・・・・・等、クオリティに問題はありませんか?– 大腸菌の一部ではないですか?

• 大腸菌・ベクターをクローニングしてしまった・・・。

– 他の生物種は試してみましたか?• (トマトではないですか?)

• 2.ゲノムに当ててみよう。

Page 16: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

GenomeBrowser

• NCBI– http://www.ncbi.nlm.nih.gov/Genomes/

• Ensembl– http://www.ensembl.org/index.html

• UCSC Genome browser– http://genome.ucsc.edu/

Page 17: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

UCSCGenomebrowserhttp://genome.ucsc.edu/ ゲノムの総合的なデータベース

Page 18: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

BLAT:ゲノムへのマッピング

Page 19: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

Browser

Page 20: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

detail

Page 21: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

Genome browserの内側:download

Page 22: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

自前のデータの追加

Page 23: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

ゲノム配列

Page 24: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

refGene.txt

26250行

Page 25: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

ゲノムにマッピングの結果・・・

• 1.ゲノムにマッピングできた。– 報告されているESTはありますか?– その領域の保存はどうですか?

• 2.ゲノムにマッピングできない– 意味のある配列だと思いますか?

アミノ酸に翻訳して考えてみましょう

Page 26: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

InterProScanによる機能推定http://www.ebi.ac.uk/Tools/InterProScan/タンパク質の機能モチーフ・ドメイン等の統合検索システム

Page 27: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

InterProScan結果

Page 28: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

InterProScan詳細

Page 29: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

タンパク質の局在予測(PSORT)

http://psort.ims.u-tokyo.ac.jp/

Page 30: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

WoLFPSORT

Paul Horton先生

Page 31: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

WoLF PSORT結果

特徴の似ているタンパク質の局在を元に多数決を取る

Page 32: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

本日の流れ

1配列の解析

・BLASTからのリンク

・Genome browser

・InterProScan

・PSORT

転写制御解析

・DBTSS

・Seqlogo

・JASPAR

・Melina II

大量データ解析

・大量データの照会

・Panther

・Babelomics

・+@

Page 33: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

さて・・・

それで満足ですか?

転写制御(プロモータ)を調べてみよう

目的のcDNAの同定・あるいは類似配列がわかった。CDSのアノテーションはできた。ゲノム上のどこにあるか分かった

Page 34: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

genome

mRNA(full) AAAA

転写開始領域の解析には5’端が保証された配列が不可欠

TTTTTTTTGenbankTTTT

Refseq cDNA TTTT

転写開始点はどこ?

5’端配列

プロモータ同定に必要な配列転写

TTTT完全長cDNA5’端が保証

Page 35: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

転写開始点データベースDBTSS

http://dbtss.hgc.jp

• 5’端の保証された多量のcDNA配列– Oligo-capping法(東大医科研、かずさDNA研)– CAP-Trapper法(理研)

ゲノム

5’端配列

転写開始点 転写開始点

DBTSS:DataBaseofTranscritptionStartSites

Page 36: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

!"#$ %#$!&# '()!$#* '&+""#, '-. '/!(0*/1$2 %#$!&# '()!$#* '&+""#, '-. '/!(0*/1$2

3#456 78869#"5 :%; 76;<87 666=>7 ;>>? @ @ @ @ @ @

3#457 7887.+45 :%66 <8877A 6>=><A ?==B @ &&6 ==<>7 6<B8B 7;>? @

3#45= 788=.+C5 :%6= <8877A 6?8?B< 667=< ?<;8 &&7 A>878? 6?A<<B ;A7< B>;A

3#45< 788<-!3 :%6B <8877A 7;;;?< 6AA=B 67;>8 &&= A>878? 7?8;6< 6666B 68?==

3#45A 788A9#" :%6; 6;>87?A 6=A?888 6?;A= 6A7B7 &&A A>878? =B<<>; 6<;<B 6<6B7

:0&+$ &!0*#

DBTSSデータ数

DBTSS登録遺伝子数

ヒト・マウス遺伝子の9割近い遺伝子について転写開始点情報がある

Ver. 5では

ヒト 19753 / 22682(87.1%)

マウス 14746 / 17213(85.7%)

Ver. 6 (2007 Sep)では、SOLEXAのデータを導入

Page 37: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

DBTSS検索と結果

Page 38: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

プロモータ配列の入手

Page 39: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

比較ゲノム例

比較ゲノムによるプロモータ解析が可能

human

mouse

アライメントTSS付近詳細

局所アライメント

Page 40: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

転写開始点の多様性

一つの遺伝子の転写開始点は一つとは限らない

そろっている 揺らぎがある

選択的

甲状腺

その他

Page 41: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

代表転写開始点の決定

Case 1

Case 2

ignored

ignored

ORF5’UTR

TSS with max number ofclones

Median locus ofTSS

代表転写開始点をもとにしたプロモータ配列はダウンロード可能

Page 42: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

fixedTSSsの定義

TSS>=50%,#clones>=10    ↓fixedTSS

425117TSSs(15262遺伝子)↓

#clones>=10408341TSSs(10578遺伝子)

925fixedTSS(925遺伝子)

DBTSS ver. 5を使用

Page 43: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

Sequencelogo

Weblogohttp://weblogo.berkeley.edu/

Weblogoのホームページより引用

SEQLOGOhttp://www.bioinf.ebc.ee/EP/EP/

Page 44: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

Sequencelogo

Ribosomal proteinのmRNATSS付近-10~+10 45種

Page 45: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

SEQLOGO入力

配列

マトリックスも可

Page 46: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

SEQLOGO結果

Ribosome protein遺伝子(45種)

それ以外の遺伝子(880種)

Page 47: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

miRNAのdatabase

http://microrna.sanger.ac.uk/

Page 48: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

miRBase::Targets入力

Page 49: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

miRBase::Targets結果

Page 50: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

miRBase::Sequences

Page 51: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

miRBase::Sequences詳細1

pre-matureな配列

Page 52: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

miRBase::Sequences詳細2

matureな配列

Page 53: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

Motif検索の必要性• 同じように発現する遺伝子は、同じ転写因子によって制御されている?

遺伝子領域A

遺伝子領域B

遺伝子領域C

遺伝子領域D

プロモータ

モチーフ

どうやって、モチーフ、プロモータを求めるか

Page 54: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

既知Motifの探索

• TRANSFAC– Publicは無償だが、有償の方がデータ多い– 重複がある。– DBTSSにLinkがある– http://www.biobase.de/

• JASPAR– 無償– 重複なし– http://jaspar.genereg.net

Page 55: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

JASPAR:Toppage

Page 56: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

JASPAR:入力画面

Page 57: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

JASPAR:結果

Page 58: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

FANTOM4

FunctionalAnnotationoftheMouse

FunctionalAnnotationoftheMammalianGenome

http://fantom.gsc.riken.jp/4/

Page 59: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

未知Motifの探索の限界

確率的手法

・MEME、Gibbs、CONSENSUS….

! " # ! $ ! " ! #

" % & % % % % & % %

# % % & % % % % % &

! & % % & % & % & %

$ % % % % & % % % %

# % % & % % % % % &

$ % % % % & % % % %

" % & % % % % & % %

! & % % & % & % & %

# % % & % % % % % &

! " # ! $ ! " ! #

" % & % % % % & % %

# % % & % % % % % &

! & % % & % & % & %

$ % % % % & % % % %

# % % & % % % % % &

$ % % % % & % % % %

" % & % % % % & % %

! & % % & % & % & %

# % % & % % % % % &

! " # ! $ ! " ! #

" % & % % % % & % %

# % % ' % % % % % &

! & % % ( % & % & %

$ % % % % ) % % % %

# % % & % % % % % &

$ % % % % & % % % %

" % & % % % % & % %

! & % % & % & % ' %

# % % & % % % % % (

配列が3つだったら・・・・→ 3次元配列がnだったら ・・・・→ n次元!!!

Page 60: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

既存の確率的手法の問題点• 得られたモチーフが最適解とは限らない• パラメータ調整の必要性• プログラム間での結果比較が難しい

Motif 1 sites sorted by position p-value--------------------------------------------------------------------------------Sequence name Start P-value Site ------------- ----- --------- ---------------SEQ8; 172 9.57e-10 CCCGGAGTAT CTCAATCGTAGATGA ATACCACTTTSEQ3; 112 9.57e-10 GTTATATTGG CTCAATCGTAGATGA AACCAGACTCSEQ5; 185 1.96e-09 ACGGGCAAGC CTCAATCGTAGAGGA T SEQ6; 105 2.82e-09 GTCAGCCGGT CTCAATCGTAGATCA GAGGCGAGAASEQ4; 173 4.67e-09 GTTCGAGAGC CTCAATCGTAGATAA CCTCTCTGGCSEQ2; 172 4.67e-09 AAGCGTCGTG CTCAATCGTAGATAA CAGAGGTCGGSEQ10; 3 7.52e-09 TT CTCAATCGTAGAGTA TGCTTAGAGGSEQ9; 93 7.52e-09 CGCCTAGAAA CTCAATCGTAGAGTA TCACGCACCGSEQ1; 52 9.33e-09 CTTTACTCGG CTCAATCGTAGAGGC GGTGCCGCGASEQ7; 177 1.95e-08 AAGTCTTTGA CTCAATCGTAGACCC AACACTTGA --------------------------------------------------------------------------------

MEME

MOTIF A

1-1 53 tttactcggc TCAATCGTAG aggcggtgcc 62 2-1 173 agcgtcgtgc TCAATCGTAG ataacagagg 182 3-1 113 ttatattggc TCAATCGTAG atgaaaccag 122 4-1 174 ttcgagagcc TCAATCGTAG ataacctctc 183 5-1 186 cgggcaagcc TCAATCGTAG aggat 195 6-1 106 tcagccggtc TCAATCGTAG atcagaggcg 115 7-1 178 agtctttgac TCAATCGTAG acccaacact 187 8-1 173 ccggagtatc TCAATCGTAG atgaatacca 182 9-1 94 gcctagaaac TCAATCGTAG agtatcacgc 10310-1 4 ttc TCAATCGTAG agtatgctta 13

Gibbs

Page 61: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

モチーフ発見ツール Melina2

2.パラメータ、プログラムを設定

3.submit

1.配列をFASTAフォーマットで入力

Page 62: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

Melina2結果画面

3.既知の類似モチーフ検索

2.sequence logo

1.モチーフを選択

Page 63: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

Melina2結果画面

3.既知の類似モチーフ検索

2.sequence logo

1.モチーフを選択

4.プロモータ上の探索

Page 64: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

本日の流れ

1配列の解析

・BLASTからのリンク

・Genome browser

・InterProScan

・PSORT

転写制御解析

・DBTSS

・Seqlogo

・JASPAR

・Melina II

大量データ解析

・大量データの照会

・Panther

・Babelomics

・+@

Page 65: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

現代のニーズ = 大規模データの処理• 大規模データ技術の出現(microarray, 次世代シークエンサー・・・)• 研究では、大規模データを取り扱うこともある

• あるデータセットを与えたときに有意な情報を得たい

どんな情報が濃縮?

・GO

・regulation

全ての遺伝子

癌で高発現の遺伝子群

Page 66: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

Pantherhttp://www.pantherdb.org/取り出した遺伝子群の特徴を解析できる

Page 67: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

Panther

補正が必要

Page 68: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

Babelomics

http://www.babelomics.org/

遅い!!

取り出した遺伝子群のや転写因子結合部位の推定

Page 69: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

次世代シークエンサーとにかく今までのシーケンサーとは桁が違う

454: 500 bp * 1,000,000 reads

Solid, SOLEXA: 25~50(70bp) * 100,000,000~

1 runで出てくる画像ファイルは1T以上

Page 70: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

次世代シークエンサーデータの解析

Web経由でできるツールは、現状はない

いくつかのソフトウェアは使用可能

Mapping: Maq, SOAP, BowTie, TopHat

Assemble: velvet, GSassembly

別途ご相談下さい。。。

mapping

assemble

Page 71: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

参考文献

Database issue

Web server issue

Page 72: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

少しだけコンピュータの宣伝

• 便利なツールがあるので、できるだけそれを利用

• 大量に処理したいときには向いていないこともある・・・

ほんの少しのコンピュータの知識でも、かなりのことができます。

1.UNIX

2.R (http://www.r-project.org/)

3.Perl, ruby, python, C++, C・・・

Page 73: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

例えば

問 refGene.txtを利用して、染色体ごとの遺伝子数を求めよ。

cut -f 3 refGene.txt | sort |uniq -c

Mac OSXであればすぐにできます。1.アプリケーション

 ー ユーティリティ

  ー ターミナルを立ち上げる

2.refGene.txtをデスクトップに置く

3. cd ~/Desktop

4. cut -f 3 refGene.txt | sort |uniq -c

Page 74: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

HGCスーパーコンピュータwebページhttps://supcom.hgc.jp/japanese/

申請書を

ダウンロード

Page 75: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

HGCスーパーコンピュータ

メモリ 2T

Page 76: 有用データベースとWebサーバー - HGCryamasi/others/20090423_MGS_lecture/...2009/04/23  · 有用データベースとWebサーバー 東京大学医科学研究所 フロンティア研究拠点

最後に

• 本日のスライドは– http://www.hgc.jp/~ryamasi/othersに置いておきます。

• 何かご質問等ありましたらお気軽に[email protected]までメール下さい。