71
LARGE SCALE DATA IN LIFE SCIENCE ライフサイエンス分野の大規模データ 現場での課題とこれから

Large-scale data in life science

Embed Size (px)

DESCRIPTION

Bigdata meetup in Tokyo at 8 Dec. 2011 by Tazro Inutano Ohta

Citation preview

Page 1: Large-scale data in life science

LARGE SCALEDATA IN

LIFE SCIENCEライフサイエンス分野の大規模データ 現場での課題とこれから

Page 2: Large-scale data in life science

おことわり

��� ���������� �� �������������

Page 3: Large-scale data in life science
Page 4: Large-scale data in life science
Page 5: Large-scale data in life science
Page 6: Large-scale data in life science
Page 7: Large-scale data in life science

確かにそうなのですが

Page 8: Large-scale data in life science

今日はリレーショナル・データベースの話は一切出てきません

Page 9: Large-scale data in life science

NoSQLの話も出ません

Page 10: Large-scale data in life science

Update( new_suffix ){  current_suffix = active_point  test_char = last_char in new_suffix  done = false;  while ( !done ) {    if current_suffix ends at an explicit node {      if the node has no descendant edge starting with test_char        create new leaf edge starting at the explicit node      else        done = true;    } else {      if the implicit node's next char isn't test_char {        split the edge at the implicit node        create new leaf edge starting at the split in the edge      } else        done = true;    }    if current_suffix is the empty string      done = true;    else       current_suffix = next_smaller_suffix( current_suffix )  }  active_point = current_suffix}アルゴリズムの話や擬似コードも出ません

Page 11: Large-scale data in life science

理由は追って説明致しますので

Page 12: Large-scale data in life science

画面の前の皆さんも落ち着いて下さい

photo by http://www.photoxpress.com/stock-photos/1814937

Page 13: Large-scale data in life science

どうか平にご容赦を

photo by @meguu

Page 14: Large-scale data in life science

始めます

Page 15: Large-scale data in life science

Large-scale data in Life Science

Contents

fontin sans fonts by Jos Buivenga (exljbris). Thank You! -> www.exljbris.com

Page 16: Large-scale data in life science

LARGE SCALE DATA

IN LIFE SCIENCE

NOW IS THENEXT-GENERATION

Page 17: Large-scale data in life science

DBCLSについて 生命科学分野でのデータベースとは

LARGE SCALE DATA

IN LIFE SCIENCE

NOW IS THENEXT-GENERATION

生命 科学 分野での大きなデータ 例と特徴

「次 世代 」データとその問題 ア ー カ イ ブ と 解 析

対 「 次 世 代 」   現状と課題

Page 18: Large-scale data in life science

DBCLS:DATABASE CENTER

FOR LIFE SCIENCE

Page 19: Large-scale data in life science

大学共同利用機関法人 情報・システム研究機構ライフサイエンス統合データベースセンター / DBCLS国立遺伝学研究所,国立情報学研究所,統計数理研究所等と同じ機構に所属現所在地:東京大学浅野キャンパス内 (組織運営では同大学とは無関係)常勤職員20名強,リサーチアシスタント20名強

文部科学省委託研究開発事業統合データベースプロジェクト (H18~22)JSTライフサイエンスデータベース統合推進事業基盤技術開発プログラム (H23~25)

国内における自然科学分野データベース統合の中核機関http://dbcls.rois.ac.jp/

Page 20: Large-scale data in life science

大田 達郎 Tazro Inutano Ohta @iNut

特任専門技術員 / Technical Specialist

基盤技術開発プログラム:大規模データの利用技術開発に従事

Page 21: Large-scale data in life science

データベースとは

Page 22: Large-scale data in life science

生命科学系のデータベースとは

1. 研究成果が公開される場としてのDB 研究室,共同研究から国際コンソーシアムまで規模はさまざま

2. 公共の汎用研究リソースとしてのDB ゲノムや遺伝子から論文情報まで

Page 23: Large-scale data in life science

問題点 :

組織,プロジェクトが独自に構築されたDBが乱立する

プロジェクト(グラント)が終了すると維持されず放置される

→ それらを整備・統合し再利用性を高めるのがDBCLSの役割

生命科学系のデータベースとは

Page 24: Large-scale data in life science

Large-scale data in Life Science生命科学分野の大規模データ

Page 25: Large-scale data in life science

定義

Page 26: Large-scale data in life science

生命科学系の大規模データとは (例)

文献情報 2100万の論文要旨と230万の論文の全文情報 in PubMed

集団疫学のデータ 数百から数千の個人からなる集団について時系列で複数のデータが得られる

大規模塩基配列データ 新型のDNAシーケンサーによって高速・大量に生み出される塩基配列データ

Page 27: Large-scale data in life science

定義

分野共通の定義はない #ittamongachi

従来と比較してデータサイズが非常に大きい,データ量が多い

リアルタイム性は(他分野と比べて,今のところ)低い

生命科学系の大規模データとは (例)

Page 28: Large-scale data in life science

特徴

Page 29: Large-scale data in life science

メタデータの重要性 データについての情報を記述したメタデータがデータの解析に必須

アルゴリズム・ツールの実装者と実行者の関係 情報系研究者がツールを実装し,生物系研究者がそのツールで解析

一般的な生命科学系のデータの特徴

→ これらはそのまま大規模データにも当てはまる

Page 30: Large-scale data in life science

メタデータの重要性 データの解析にはそのデータを出した実験の情報が必須 細かい場合分けが必要なことが多く,メタデータは管理もコストが高い

一般的な生命科学系のデータの特徴

ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAT

or or

or or

?

?

photo by Togopic, Licensed under CreativeCommons 2.1 JP Attribution

Page 31: Large-scale data in life science

メタデータの重要性 データの再現性のためにはメタデータの維持管理が重要 大規模データのDBにおいて大きな問題の1つとなっている

一般的な生命科学系のデータの特徴

ATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCATGCAT

Data ID : 000001

organism : mouse

cell : nervous cell

sequencer : 454

date : 2011 12 08

photo by Togopic, Licensed under CreativeCommons 2.1 JP Attribution

Page 32: Large-scale data in life science

アルゴリズム・ツールの実装者と実行者の関係 実行者がコアとなるプログラムを書いて実行するケースは少ない

 情報系生物学研究者 : dry 実験系生物学研究者 : wet  一部のdry研究者が実装・公開したプログラムを,  wet研究者ないしdryな共同研究者が実行するのが一般的

一般的な生命科学系のデータの特徴

Page 33: Large-scale data in life science

アルゴリズム・ツールの実装者と実行者の関係,問題点 実行環境に合わないツールが利用出来ない

 エラーが起きた時に対応が難しい

 → 必然的にGUIソフトウェア,webインターフェースツール,   クラウド実行環境などの需要が高い

一般的な生命科学系のデータの特徴

Page 34: Large-scale data in life science

具体例

Page 35: Large-scale data in life science

Next-generation sequencing data次世代塩基配列データ

Page 36: Large-scale data in life science

次世代DNAシーケンサとはDNAシーケンサ : 遺伝物質であるDNAの塩基配列を決定する装置 核酸4種類,ATGCの四文字で表せる(1塩基1バイト)

次世代DNAシーケンサ (NGS) = 超並列型 従来は一度に70KB程度,新型では0.5GB~1TBのアウトプット

断片化された大量の短い塩基配列(short read) そのままでは使えないので元の塩基配列を復元する必要がある

医学・生物学に大きな影響と進歩をもたらしている 10年かかったヒトゲノムも数日で完了,個人ゲノムの時代

Page 37: Large-scale data in life science

個人ゲノムの時代 : 23andme.com

Page 38: Large-scale data in life science

個人ゲノムの時代 : exome, 全ての遺伝子*のプロファイリング

*正確にはゲノムDNA上で転写される領域のうち機能する部分,exonの全探索grazie per le informazioni @ma_ko

Page 39: Large-scale data in life science

データ

Page 40: Large-scale data in life science

NGSデータ

画像データ (変換後削除) 30 TBシグナル強度 2~10 TB塩基配列データ(quality value含む) 中間ファイル ~1.5 TB程度 結果ファイル ~1.5 TB程度解析結果 中間ファイル ~45 TB程度 結果ファイル ~5 TB程度

*illumina社 HiSeq 2000の場合

Page 41: Large-scale data in life science

重い

Page 42: Large-scale data in life science

データの大きさによる問題受託シーケンスの場合など転送の問題がある 生のデータはネットワークで送るよりもHDDを宅急便で送った方が速い

バックアップの余裕がない 公共のデータベースへのsubmitをバックアップ代わりに?

そもそも普通のwet研究室にそんなにストレージはない 「秋葉原にHDD買いに行ってきます」「また?」

某表計算ソフトウェアにデータが載らない 「結果をE<censored>で下さい」「え?」「え?」「いやだからヱ

Page 43: Large-scale data in life science

https://twitter.com/#!/dritoshi/status/121817788200390656

HDD長者ぞくぞく誕生

Page 44: Large-scale data in life science

データの解析

Page 45: Large-scale data in life science

塩基配列の復元

de novo assemble

short read from NGS

referencegenome

reference alignment

2つのアプローチ

de novo assemble

reference alignment

Page 46: Large-scale data in life science

塩基配列の復元

de novo assembly短い配列同士の重なりあう部分を元に繋ぎ合わせることで復元(但し,短い配列のみによる完全なassembleは現状困難)

de novo assemble

short read from NGS

referencegenome

reference alignment

課題 : 現在公開されているツールはメモリ要求性が非常に高い

リードの長さ,ゲノムサイズに比例して要求メモリが増える

256GBメモリくらいでは全然足りない(!)

Page 47: Large-scale data in life science
Page 48: Large-scale data in life science

Velvethttp://www.ebi.ac.uk/~zerbino/velvet/

SOAPdenovohttp://soap.genomics.org.cn/soapdenovo.html

sequence assembly in wikipediahttp://en.wikipedia.org/wiki/Sequence_assembly

de novo assemble tool

Page 49: Large-scale data in life science

塩基配列の復元

reference alignment既に解読されたゲノム配列を参照配列として,相同性を元に復元

ヒトの場合は3GBのゲノムに100bp程度の短い配列を数億本当てる

課題 :計算量が多い参照配列を利用するため,一定のメモリ確保が必要

de novo assemble

short read from NGS

referencegenome

reference alignment

Page 50: Large-scale data in life science

Chr1 Chr2 Chr3

CPU1 CPU2 CPU3

対策 : マルチコアのマシンで分散処理参照配列を染色体ごとに分割し,それぞれをCPUに割り当てる

課題 :NGSでは類似の短い塩基配列が大量に出る為,誤った領域にアラインメントされる

シーケンサの性能向上でリード長は長くなり,また長い塩基配列の両端を読むなどの工夫によって解決

Page 51: Large-scale data in life science

実際にどう対処しているか

Page 52: Large-scale data in life science

Troubles not yet shooted最前線 現状と課題

Page 53: Large-scale data in life science

計算機的対策の現状ローカルのPC ゲノムサイズの小さい生物種やリード数によっては間に合うが…

PCクラスタ Sun Grid Engine等による分散処理,他組織のものを借りることも

クラウド AWSなどを利用したクラウド計算環境の提供が始まりつつある

スパコン 分散処理は強いが,ノードあたりの割り当てメモリが減ると計算が出来ない

Page 54: Large-scale data in life science

メモリはいくらあっても足りない上に

Page 55: Large-scale data in life science

専門のエンジニアがいないので

Page 56: Large-scale data in life science

超能力に目覚めたり

https://twitter.com/#!/dritoshi/status/110559890413600768

Page 57: Large-scale data in life science

特殊能力に目覚めたり

https://twitter.com/#!/dritoshi/status/113546074760822784

Page 58: Large-scale data in life science

精神が鍛えられたり

https://twitter.com/#!/dritoshi/status/114675417998311425

Page 59: Large-scale data in life science

マシンメンテで研究どころじゃない

Page 60: Large-scale data in life science

どうすれば

Page 61: Large-scale data in life science

クラウド!

Page 62: Large-scale data in life science

usegalaxy.org : online bioinformatics analysishttp://bcbio.wordpress.com/tag/galaxy/

Page 63: Large-scale data in life science

クラウドの問題点

手元のデータのアップロードに時間がかかる 計算機資源の問題は解決するが依然転送の問題が残る

医療データなどの個人情報は? セキュリティの確保は十分であるか

コストパフォーマンスは? これから先さらにスケールするデータ量に見合っているか

Page 64: Large-scale data in life science

それHadoopで…

Page 65: Large-scale data in life science

ITProより http://itpro.nikkeibp.co.jp/article/NEWS/20110927/369510/

日立feat. 遺伝研

Page 66: Large-scale data in life science

asahi.com より http://www.asahi.com/digital/bcnnews/BCN201111240007.html

インテックfeat. 理研ジェネシス

grazie per le informazioni @yag_ays!

Page 67: Large-scale data in life science

やってるそうですやってるとこは

Page 68: Large-scale data in life science

まとめます

Page 69: Large-scale data in life science

まとめ

生命科学分野の大きなデータとは 定義はないが,従来よりサイズ・量が大きい,個人ゲノムなど身近なところにも

保存・転送等のデータの取り回しに問題 重要なデータは消せない・転送にはバイク便しかないのか?

計算機の要求スペックが高い CPUだけでなく、RAMの要求が非常に高いのが問題

現状ではなんとかやりくり ツールの改良・分散処理など様々な方法が現在試みられている

Page 70: Large-scale data in life science

以上、長い話でしたが

Page 71: Large-scale data in life science

ご清聴ありがとうございました