AJACS advanced: NGSデータベース検索

  • View
    393

  • Download
    0

  • Category

    Science

Preview:

Citation preview

情報・システム研究機構 ライフサイエンス統合データベースセンター

仲里 猛留

Research Organization of Information and Systems (ROIS)Database Center for Life Science (DBCLS),

NAKAZATO, Takeru

2015/1/27

@chalkless

第1回 データ解析よろず相談会:AJACS advanced (AJACSa)

NGSデータベース検索

遺伝研W412撮影可

自己紹介

3

仲里 猛留名前なかざと たけるふりがな

所属 情報・システム研究機構 ライフサイエンス統合  データベースセンター

Twitter chalkless

詳しくは所属のページをごらんください...

質問などどうぞ

http://dbcls.rois.ac.jp/~nakazato/

4

Wet浸透圧調節・イオン輸送イオントランスポーターの

クローニング

東工大院・生命理工

阪大院・情報科学文献情報を利用した  マイクロアレイデータの  生物学的知見の付与

99.4

02.4

05.10

08.9

15.1

07.4

NEC バイオIT事業推進センター文献検索(もどき)ツールの開発

遺伝子(群)への文献情報を用いた アノテーションづけ

07.9

Dry

ライフサイエンス 統合データベースセンター

遺伝子、疾患のアノテーションキーワードづけ、用語整備

NGSデータの整理

休眠時代

(部署解体 → 異動)毎日、PowerPointで営業資料作成

Dry

Dry

こんな実験生物を使っていました...

血圧調節 分子生物学っぽく 言ってみる イオン濃度調節

mouse の系高Na食 or 高K食変化が見にくい

ウナギ 淡水と海水を行き来(サケ、マスと同じ)

SWFWbloodurine

Anguilla japonica

淡水/海水で遺伝子発現が どうかわるか。 (イオントランスポーター中心)

wet時代・ ウナギの海水適応機構

組織局在

膵臓と後腸に強い発現

wet時代・ ウナギの海水適応機構

8

経時変化

淡水 → 海水 で発現増大

wet時代・ ウナギの海水適応機構

9

H2O H2O

Na+

Cl-

Ca2+

Mg2+

HCO3-

HCO3-

Osm

H2O

eSult ?

腸内

血液

腸細胞

wet時代・ ウナギの海水適応機構海水適応に伴う浸透圧適応モデル

ライフサイエンス統合データベースセンター特任助教。博士(情報科学)。東京工業大学の学部 ・修士課程にて魚類の遺伝子研究を行い、2002年修了。同年、NECバイオ IT事業推進センターに入社し、遺伝子発現データの解析用ソフトの開発を行う。2007 年同部門の解体に伴い、現職に転職。2008 年大阪大学情報科学研究科にて博士号取得。最近は、公共データベース中のNGS データを検索するウェブサービスを作成。研究活動も行う。

自分の研究用に検索エンジンを作ったら、世界中のユーザーから反響があった。大勢の役に立ててうれしかった

仲 里猛 留Nakazato Takeru

25www.nature.com/naturedigest ©2014 Nature Japan K.K., trading as Nature Publishing Group. All rights reserved.

ワタクシも取材してもらいました (Natureダイジェスト '15年1月号)

本題だんだん

アンケート

NGS機器を使っている

NGSのデータ解析をしている

NGSをやってみたい

本題

次世代シーケンサー(NGS)

電気泳動式 キャピラリ式 NGS

Next Generation Sequencing → High-Throughput Sequencing

ABI社

北海道システム社

750 (base/lane) × 48/4 lanes = 9kbase

500 (base/lane) × 96 lane = 48kbase

36 (base/seq) × 300M seq/run = 10.8Gbase

次世代とか新型とか

ちっとも新しくない 「新しい昆虫採集案内」

昭和46年出版 昭和52年改訂

PubMed

BLAST

データベース 検索システム

GenBankEMBLDDBJ

BLAST

MEDLINE

塩基配列

文献

登録

Entrez Gene

登録

整理

NGSデータ

SRA

データベース 検索システム

GenBankEMBLDDBJ

BLAST

MEDLINE

塩基配列

文献

登録

登録

登録SRA Search

SRA:

Sequence Read Archive

ちなみに、昔は Short Read Archive

データを使ってもらう

データを集める

Total: 52,387

3,660

Total: 3.3 petabase

http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?

JGA (Japanese Genotype-Phenotype Archive)Controlled-access データのアーカイブ

DRAへのデータ登録

http://trace.ddbj.nig.ac.jp/dra/submission.html

FASTQ データ@DRR001107.1 GEZQ5FO01EEA7F length=77GCAACATTCAACACATATGTGTTGAATGTTGCACGACGGNGTG...+DRR001107.1 GEZQ5FO01EEA7F length=77C@BBBECCECDBBBAAAAA<441111<?@>?=?????44!000...

4行1組 1行目: @ + タイトル 2行目:塩基配列 3行目: + (+ タイトル) 4行目:シーケンスクオリティ

+

メタデータ = 実験情報プロジェクト名、生物種、シーケンサー、...

× 数千万 数十億

mappingde novo assemble

Quality check

データベース検索

Download自分で

発現量解析 SNP検出ゲノム

http://trace.ddbj.nig.ac.jp/DRASearch/

SRAを検索してみましょう

SRAのデータ構造(簡略版)

http://trace.ddbj.nig.ac.jp/dra/submission.html に現バージョン(後出)あり

ワインが飲みたい

どれにする?

どうしようかなぁ...

Soleil Hikumo Rouge名前タイプワイナリー

ブドウ品種製造年

生産地

赤で重くないやつ

→ 中身のクオリティによる足切り

赤旭洋酒山梨ピノノワール+ベイリーA

2012年

→ メタデータによる選択

目的が多種多様

SRAの検索は意外とツラい

ゲノム、発現解析、エピゲ、メタゲ、...

対象生物種も多種多様

データベースの構造

ヒト、マウス、メタゲノム、微生物、...

study:プロジェクト情報experiment:個々の実験情報

DBCLS SRAhttp://sra.dbcls.jp/

35

生物種による検索上のレベルや下のレベルでも検索可能

論文からの検索

疾患から検索

Total: 52,387

3,660

http://sra.dbcls.jp/trends.html

http://sra.dbcls.jp/trends.html

HiSeq 2000

GA II454 GS GLX Titanium

NCBI SRA やめます事件 (2011/2/22)http://www.nlm.nih.gov/pubs/techbull/jf11/jf11_ncbi_reprint_sra.html

発現はGEOへ

BioProject

SRA GEO

Project Summary

Run data

Umbrella Project

Study

Sample

Platform

Sample

Run data

Primary Project

Exp

Run

BioSample

Sample

SRAのデータ構造(最新版)

http://trace.ddbj.nig.ac.jp/dra/submission.html を改

http://aoe.dbcls.jp/

AOE(あおい):遺伝子発現データの目次サイト※ マイクロアレイ+NGS

PMID: 24167589

NGS(発現)データの (生物学的)解釈

[参考]

mappingde novo assemble

Quality check

データベース検索

Download自分で

発現量解析 SNP検出ゲノム

Statistics

?

wt/diseaseDrug(+/-)

microarray

Interpretation frombiological viewpoint

...

k-means

raw data (sequence)

normalization

clustering

PCA

gene list (cluster) What is biological features?

What is relationships toinitial conditions?

mapping

Next generation Sequencing

raw data (intensity)

No

biology!

Gene Ontology

DNA binding

androgen receptor binding

enzyme binding

transcription coactivator activity

tubulin binding

ubiquitin protein ligase binding

...

Molecular Function Biological Process

DNA damage response, signal transduction by p53 class mediator

resulting in transcription of p21 class mediator

G2 DNA damage checkpoint

androgen receptor signaling pathway

apoptotic process

cellular response to indole-3-methanol

chromosome segregation

double-strand break repair via homologous recombination

positive regulation of DNA repair

positive regulation of protein ubiquitination

postreplication repair

regulation of cell proliferation

regulation of transcription from RNA polymerase II promoter

regulation of transcription from RNA polymerase III promoter

response to DNA damage stimulus

response to estrogen stimulus

response to ionizing radiation

...

BRCA1-A complex

BRCA1-BARD1 complex

gamma-tubulin ring complex

nucleus

protein complex

ribonucleoprotein complex

ubiquitin ligase complex

Cellular Component

Example) BRCA1 (Gene ID: 672)

Controlled vocabulary for representing biological features

GO assign and enrichment analysishttp://david.abcc.ncifcrf.gov/

TogoTV (Tutorial movie)http://togotv.dbcls.jp/

Gene Ontology, ...

DNA binding

androgen receptor binding

enzyme binding

transcription coactivator activity

tubulin binding

ubiquitin protein ligase binding

...

Molecular Function Biological Process

DNA damage response, signal transduction by p53 class mediator

resulting in transcription of p21 class mediator

G2 DNA damage checkpoint

androgen receptor signaling pathway

apoptotic process

cellular response to indole-3-methanol

chromosome segregation

double-strand break repair via homologous recombination

positive regulation of DNA repair

positive regulation of protein ubiquitination

postreplication repair

regulation of cell proliferation

regulation of transcription from RNA polymerase II promoter

regulation of transcription from RNA polymerase III promoter

response to DNA damage stimulus

response to estrogen stimulus

response to ionizing radiation

...

BRCA1-A complex

BRCA1-BARD1 complex

gamma-tubulin ring complex

nucleus

protein complex

ribonucleoprotein complex

ubiquitin ligase complex

Cellular Component

Example) BRCA1 (Gene ID: 672)

No information on

diseases and anatomy

MeSH terms

50

Medical Subject Headings

> 23,000 terms

Controlled vocabulary

15 categories

Disease, Drugs, Anatomy, ...

Gene MeSH

Article

MeSH keywords related to BRCA1

51

Example) BRCA1 (Gene ID: 672)

Breast Neoplasms

Ovarian Neoplasms

BRCA1 Protein

Tumor Suppressor Proteins

Rad51 Recombinase

Breast

Chromosomes, Human, Pair 17

0

0

0

5.91 × 10-136

1.66 × 10-54

1.52 × 10-43

9.03 × 10-23

Disease

Chemicals and Drugs

Anatomy

MeSH Terms Category p-value

Differences and similarities between type 1/2 diabetes

52

MeSH keywords type 1

diabe

tes

type 2

diabe

tes

10e-1010e-0910e-0810e-0710e-0610e-0510e-0410e-0310e-020.050.100.200.300.400.500.751

p-valueCategory

Diseases

Chemicalsand drugs

Anatomy

Diabetes MellitusDiabetes Mellitus, Type 1Diabetes Mellitus, Type 2

Autoimmune DiseasesInsulin Resistance

ObesityInsulin

AdiponectinPancreas

SpleenAdipocytes

Implementation

53

http://gendoo.dbcls.jp/

Reference: Gendoo: Functional profiling of gene and disease features using MeSH vocabulary. Nucleic Acids Res, 37 (Suppl. 2), 2009. PMID: 19498079

Recommended