30
OBIGrid 北北北北北北北北北北北北北 北北北北北北北 北北北北

OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

Embed Size (px)

DESCRIPTION

OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二. 増大し続ける生物データ. 11月14日の nature insight 特集より. 増加速度は指数関数的. ポストゲノム: 網羅的・組み合わせ論的な計算の時代. ホモロジー 旧)遺伝子1個 vs データベースの比較 新)生物同士の比較 → 全遺伝子の網羅的比較 発現 旧)特定の遺伝子が発現する/しない 新)特定の生物の全遺伝子セットに含まれる   個々の遺伝子が相互に作用しあう. 数千の自乗~数千万の自乗個の 組み合わせに対する似たような 計算が頻繁に生じる. - PowerPoint PPT Presentation

Citation preview

Page 1: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

OBIGrid

北陸先端科学技術大学院大学知識科学研究科

佐藤賢二

OBIGrid

北陸先端科学技術大学院大学知識科学研究科

佐藤賢二

Page 2: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

増大し続ける生物データ増大し続ける生物データ

11月14日の nature insight 特集より

Page 3: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

増加速度は指数関数的増加速度は指数関数的

Page 4: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

ポストゲノム: 網羅的・組み合わせ論的な計算の時代ポストゲノム: 網羅的・組み合わせ論的な計算の時代

ホモロジー旧)遺伝子1個 vs データベースの比較新)生物同士の比較→全遺伝子の網羅的比較

発現旧)特定の遺伝子が発現する/しない新)特定の生物の全遺伝子セットに含まれる  個々の遺伝子が相互に作用しあう

ホモロジー旧)遺伝子1個 vs データベースの比較新)生物同士の比較→全遺伝子の網羅的比較

発現旧)特定の遺伝子が発現する/しない新)特定の生物の全遺伝子セットに含まれる  個々の遺伝子が相互に作用しあう

数千の自乗~数千万の自乗個の組み合わせに対する似たような計算が頻繁に生じる

Page 5: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

計算環境の変遷計算環境の変遷

HGC時HGC時代代

強力なマシン強力なマシンと豊富なDBと豊富なDB(ゲノムネッ(ゲノムネット)ト)

JAISTJAISTに異動に異動

最初はPC1最初はPC1個個中型マシン中型マシンででDBをミDBをミラーラー クラスクラス

タ構築タ構築

Page 6: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

問題問題

継続的な資源増強継続的な資源増強を強いられるを強いられる

DBやソフトのメンテナンス作業(一部DBやソフトのメンテナンス作業(一部手動手動)が生)が生じるじる

企業と共同研究する時には企業と共同研究する時には共通の作業ベース共通の作業ベースが必要が必要で、そのためにはこちらにログインしてもらうしかで、そのためにはこちらにログインしてもらうしかないない

グリッドコンピューティングに期待

Page 7: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

Open Bioinformatics Grid ( OBIGrid )Open Bioinformatics Grid ( OBIGrid )

http://www.obigrid.org

Page 8: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

参加組織等参加組織等

JAISTJAIST

東工大東工大

徳島大徳島大

同志社大同志社大

九大九大

GSCGSC

AISTAIST

富士通富士通

NECNEC

三井情報三井情報

CTCCTC 住エレ住エレ

富士総研富士総研

OBIEnvXML DB

VPN/Globus

好熱菌 KB

NMR 構造決定

細胞シミュレーション

NTTDataNTTData

CRLCRL

CompaqCompaq

数理技研数理技研日本新薬日本新薬

ベストシステムベストシステム

三菱総研三菱総研

インテックインテックW&GW&G

HNESHNES

大阪産業大大阪産業大

NISNIS

DDBJDDBJ HGCHGC

BLASTMD シミュレーション

和歌山大和歌山大

統数研統数研

琉球大琉球大

九工大九工大

Page 9: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

バイオインフォマティクスのためのグリッド構築

グリッドに接続するだけで、研究に必要な

・データベースへのアクセス・シミュレータの利用・実験データの配信

が可能になる

バイオインフォマティクスのためのグリッド構築

グリッドに接続するだけで、研究に必要な

・データベースへのアクセス・シミュレータの利用・実験データの配信

が可能になる

OBIGrid の目標OBIGrid の目標

Page 10: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

OBIG rid のネットワークインフラOBIG rid のネットワークインフラ

GenomeDBミラー

IBM IBM

IBM PCクラスター

インターネット

Site-ASite-A

Site-BSite-B Site-DSite-D

Site-CSite-C

IBM

配列解析プログラ

データベース検索プログラム

分子シミュレーションプログラ

IBM

細胞シミュレーションプログラ

PCクラスター

MDM専用計算機

XMLDB

IBM

VPN-FW

VPN-FW

VPN-FW

VPN-FW

•VPN+FW による隔離•Globus による認証•Over Internet 接続

Big Machine

Page 11: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

GTK2.0 の講習会(サマーキャンプ)GTK2.0 の講習会(サマーキャンプ)

9月6日(金)、7日(土) 於 北陸先端科学技術大学院大学9月6日(金)、7日(土) 於 北陸先端科学技術大学院大学                  (                  ( JAISTJAIST )知識科学研究科)知識科学研究科

内容 ・認証局設定内容 ・認証局設定    ・    ・ GlobusGlobusサーバーインストールサーバーインストール講師陣 (敬称略)講師陣 (敬称略)

中島 康彦 (北陸中島 康彦 (北陸 NESNES ))梅田 浩之 (梅田 浩之 ( IBMIBM ))小野 功   (徳島大)小野 功   (徳島大)今出 広明 (徳島大)今出 広明 (徳島大)谷村 勇輔 (同志社大)谷村 勇輔 (同志社大)小西 史一 (小西 史一 ( GSCGSC ))

参加者 15サイト 25名参加者 15サイト 25名

1月にはウィンターキャンプを実施1月にはウィンターキャンプを実施

Page 12: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

接続状況接続状況

25サイト 107ノード 188 CPU

Page 13: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

Grb2ShcGrb2

SOS

RAS

MAPKKKs

MAPKs

MAPKKs

MAPKs

PKCPLCPI3K

STAT3STAT1

STAT1

STAT3

STAT3

STAT1

Elk-1AP-1E2F

NF-kappaB

CyclinD1/cdk4/6

Rb E2F Rb-p

E2F

EGF

EGF receptor

SOS

細胞分裂期(M期)

DNA合成期(S期)

G1期

G2期

MPF

Cdc2

Cyclin B

Cdc2

P Cdc2

P PCdc2

PCdc2PCdc2

Wee1

Cyclin B

Cyclin B Cyclin B

Cyclin B

CAK

Wee1

Cdc25

0 200 400 600 8000

0.05

0.1

0

0.2

0.4

0.6

MPF Cyclin B

time

数理モデリング

シグナル情報伝達シグナル情報伝達

細胞周期細胞周期

Webポータル

Solver

JAVAAPI

PerlAPI

•高速 /精密ソルバー•未知パラメタ推定機能

細胞シミュレーション環境(OBIYagns)細胞シミュレーション環境(OBIYagns)

Page 14: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

# of residue: 189Molecular wait: 21kD

Oncogene VariantGly12 →Val

5ns1000h/64Gflops

Ras p21 G Molecular Dynamics Simulation

MDM Engine 64Gflops/4chips

Protein Explore Chip(200Gflops)Tera ~ Peta flops in total

分子シミュレーション環境(OBIMde)分子シミュレーション環境(OBIMde)

Page 15: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

実験解析データ 分子機能関連付加情報

相互作用情報データベース

立体構造データベース

文献情報データベース

配列データベース

>S53477 PIR2 release 73.00 MAAIRDYKTALDLTKSLPRPDGLSVQELMDSKIRGGLAYNDFLILPGLVD FASSEVSLQTKLTRNITLNIPLVSSPMDTVTESEMATFMALLDGIGFIHH NCTPEDQADMVRRVKNYENGFINNPIVISPTTTVGEAKSMKEKYGFAGFP VTADGKRNAKLVGAITSRDIQFVEDNSLLVQDVMTKNPVTGAQGITLSEG NEILKKIKKGRLLVVDEKGNLVSMLSRTDLMKNQKYPLASKSANTKQLLW GASIGTMDADKERLRLLVKAGLDVVILDSSQGNSIFQLNMIKWIKETFPD LEIIAGNVVTKEQAANLIAAGADGLRIGMGTGSICITQKVMACGRPQGTA VYNVCEFANQFGVPCMADGGVQKHWSYYYQSFGSWFFYCYDGWYVGRYYR ITR

研究者による情報付加

プログラムによる自動解析

実験データ

ゲノム情報、構造情報、機能情報を統合「細胞丸ごと一匹シミュレーション」を目指す

高度好熱菌知識共有環境( OBI Tco)高度好熱菌知識共有環境( OBI Tco)

Page 16: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

XML DB検索用indexXML DBXML DBs

検索用index

検索用index

検索用index

検索サーバー

Webポータル

JAVAAPI

PerlAPI

•スケーラビリティ•高速応答•高信頼性

分散XMLデータベース利用環境(OBISgd)分散XMLデータベース利用環境(OBISgd)

Page 17: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

パブリックデータベースの更新と配布・自動更新→自動配布→自動修復・分散配置→分散検索

最低限の共通ソフトウェア整備(推奨環境)・ Unix の基本コマンド・ Perl や Java などの言語・ BLAST などのアプリケーション

ユーザから見た使いやすさ・マシンを意識しないアプリケーション実行・特に指定しなくてもそれなりに最適な環境 でアプリケーションを実行

パブリックデータベースの更新と配布・自動更新→自動配布→自動修復・分散配置→分散検索

最低限の共通ソフトウェア整備(推奨環境)・ Unix の基本コマンド・ Perl や Java などの言語・ BLAST などのアプリケーション

ユーザから見た使いやすさ・マシンを意識しないアプリケーション実行・特に指定しなくてもそれなりに最適な環境 でアプリケーションを実行

OBIEnv: ライトユーザ向けのバイオインフォマティクス環境OBIEnv: ライトユーザ向けのバイオインフォマティクス環境

Page 18: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

そのためには?そのためには?

計算に必要な計算に必要な DBDB やアプリがどこやアプリがどこにあるか?どのマシンが空いていにあるか?どのマシンが空いているか?るか?

更新したい更新したい DBDB やソフトはどこにあやソフトはどこにあるか?どこから転送するのが良さそるか?どこから転送するのが良さそうか?うか?

よそのマシンに簡単よそのマシンに簡単にジョブを投げられにジョブを投げられるか?るか?

Page 19: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

Globus Toolkit (GTK) の問題点Globus Toolkit (GTK) の問題点

リモートのマシンに自分のアカウントが必要リモートのマシンに自分のアカウントが必要→→スケーラビリティが低いスケーラビリティが低い

遅い(秒単位のオーバーヘッド)遅い(秒単位のオーバーヘッド)

リソース情報の更新が遅いリソース情報の更新が遅い

デフォルトではハードやOSの情報しか検索でデフォルトではハードやOSの情報しか検索できないきない

Page 20: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

割り切った所割り切った所

スーパーロングジョブは考えない(1週間とか)スーパーロングジョブは考えない(1週間とか)

正確なロードアベレージやメモリとディスクの消費正確なロードアベレージやメモリとディスクの消費量など、くるくる変わる情報はモニターしない量など、くるくる変わる情報はモニターしない

リモートマシンにはユーザ個人の永続ファイルは不リモートマシンにはユーザ個人の永続ファイルは不要要

アカウントは代表アカウントで十分アカウントは代表アカウントで十分

UnixUnix系以外は考えない系以外は考えない

Page 21: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

こだわった所こだわった所

ジョブの自動分割とマシンの自動選択ジョブの自動分割とマシンの自動選択

ハードやソフト、ハードやソフト、 DBDB など、更新頻度が低いものはなど、更新頻度が低いものは確実に検索可能に確実に検索可能に

簡単な 簡単な Config Config でで DBDB やソフトを自動更新(プルやソフトを自動更新(プル型)型)コピーしたものは全て他からも転送可能にコピーしたものは全て他からも転送可能に

シンプルに、できるだけシンプルに(デフォルトシンプルに、できるだけシンプルに(デフォルトの充実)の充実)

必要とあらば色んなことを指定可能に必要とあらば色んなことを指定可能に

Page 22: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

グリッドへの接続を許されていないローカルユーザ

ジョブディスパッチャ(代表アカウントで動作)

ノード検索

ノード集合

GlobusTool Kit

ジョブ投入

Globus Tool Kitデーモン

ジョブ受け付け

DB

環境情報報告デーモン

SW HW

ジョブ実行用エリア

環境へのアクセス(利用)

実行結果

環境をスキャン

自作プログラムを

実行

OBIEnv を利用できるユーザ

ポータルアプリ

環境検索サーバ

ローカルユーザの一部をユーザ登録(グリッドへの接続許可)

ローカル認証

OBIEnv の概略図OBIEnv の概略図

Page 23: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

OBIEnv でジョブを実行OBIEnv でジョブを実行

blast Q1 genbankblast Q2 genbank

:blast Q10 genbank

ジョブディスパッチャ

ジョブ(タスクリスト)ジョブ(タスクリスト)

GenBankとBLAST を持っているノードは?

環境情報検索サーバ

ノード集合

genbank

genbank

genbank

genbankgenbank

Q1,Q2

Q3,Q4

Q5,Q6

Q7,Q8Q9,Q10

各タスクは独立(互いに依存しない)

Page 24: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

ユーザからジョブディスパッチャへの指示ユーザからジョブディスパッチャへの指示

必須条件として指定したい場合例) BLAST2.0 ~および最新版の GenBank例) Linux 2.4.X および Perl 5.6.X例) PentiumIII 800MHz ~

Preference として指定したい場合例)できるだけ分散して実行して欲しい例)できるだけ同じ環境で実行して欲しい例)できるだけ速そうな CPU で実行して欲しい

必須条件として指定したい場合例) BLAST2.0 ~および最新版の GenBank例) Linux 2.4.X および Perl 5.6.X例) PentiumIII 800MHz ~

Preference として指定したい場合例)できるだけ分散して実行して欲しい例)できるだけ同じ環境で実行して欲しい例)できるだけ速そうな CPU で実行して欲しい

これらの指示に応じてジョブディスパッチャがノードの検索と選択を行う

Page 25: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

環境情報検索サーバ環境情報検索サーバ

各ノードの環境情報を集積し、検索要求に応える( PostgreSQL を使用)。各ノードの環境情報を集積し、検索要求に応える( PostgreSQL を使用)。

ハードウェア環境テーブルノード名、サイト名、 CPU 、メモリ、ディスク、…

ソフトウェア環境テーブルノード名、ソフト名、バージョン、…

データ環境テーブルノード名、データベース名、バージョン、…

環境が変環境が変わったのでわったので情報を更新情報を更新したいしたい

BLASTBLAST とと GenBankGenBank を両方持っを両方持っているているノードを教えて欲しいノードを教えて欲しい

自分が持っ自分が持っているている DBDBの新しいの新しいバージョンバージョンが出ていなが出ていないか?いか?

Page 26: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

OBIEnv内のデータベース(イメージ図)OBIEnv内のデータベース(イメージ図)

UniGene TrEMBL

InterPro PDB

big machine

PDB

InterPro PDB

big machine

cluster

dataless

small machine

medium machine

Page 27: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

DBと推奨環境は自動転送(選択可能)DBと推奨環境は自動転送(選択可能)

配布元のサイトはグリッド内で1つとは配布元のサイトはグリッド内で1つとは限らない(限らない( DBDB やソフトごとに分散可能)やソフトごとに分散可能)

PerlGNU

BLAST...

ミラーミラー 加工加工

DB

推奨環境

DB DB DB

推奨環境

DB

推奨環境

DB DB

推奨環境

DB DB

DB

DB

DB

DB

推奨環境

ftp領域ftp領域

ftp領域ftp領域

ftp領域ftp領域

ftp領域ftp領域

ftp領域ftp領域

Page 28: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

課題課題

スーパーロングジョブを投げられると、簡単に占有さスーパーロングジョブを投げられると、簡単に占有されるれる→→抑制するしくみが必要抑制するしくみが必要→→課金するしかないか?課金するしかないか?

ユーザプリファレンスに基づくマシン選択のアルゴリユーザプリファレンスに基づくマシン選択のアルゴリズムがまだ弱いズムがまだ弱い

GTKGTK による不安定性やオーバヘッドのによる不安定性やオーバヘッドのさらなるさらなる削減削減

スーパーロングジョブを投げられると、簡単に占有さスーパーロングジョブを投げられると、簡単に占有されるれる→→抑制するしくみが必要抑制するしくみが必要→→課金するしかないか?課金するしかないか?

ユーザプリファレンスに基づくマシン選択のアルゴリユーザプリファレンスに基づくマシン選択のアルゴリズムがまだ弱いズムがまだ弱い

GTKGTK による不安定性やオーバヘッドのによる不安定性やオーバヘッドのさらなるさらなる削減削減

Page 29: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

生物情報データベースの問題生物情報データベースの問題

テキスト+ファイルシステムでは限界がある(サイズテキスト+ファイルシステムでは限界がある(サイズと数)と数)→→DBMSDBMS の活用の活用

データサイズが極端に異なる(1エントリ:数データサイズが極端に異なる(1エントリ:数 KBKB ~8~800 MBMB ))

WANWAN の細さを考えると圧縮転送すべきだが、利用の観の細さを考えると圧縮転送すべきだが、利用の観点からは 点からは as is as is で配りたいで配りたい→→2重に持つか?2重に持つか?

一次配布元における前処理(インデクシング等)が結構一次配布元における前処理(インデクシング等)が結構重い重い

更新頻度(リリースは数ヶ月に1回だが 更新頻度(リリースは数ヶ月に1回だが daily update daily update もある)もある)

テキスト+ファイルシステムでは限界がある(サイズテキスト+ファイルシステムでは限界がある(サイズと数)と数)→→DBMSDBMS の活用の活用

データサイズが極端に異なる(1エントリ:数データサイズが極端に異なる(1エントリ:数 KBKB ~8~800 MBMB ))

WANWAN の細さを考えると圧縮転送すべきだが、利用の観の細さを考えると圧縮転送すべきだが、利用の観点からは 点からは as is as is で配りたいで配りたい→→2重に持つか?2重に持つか?

一次配布元における前処理(インデクシング等)が結構一次配布元における前処理(インデクシング等)が結構重い重い

更新頻度(リリースは数ヶ月に1回だが 更新頻度(リリースは数ヶ月に1回だが daily update daily update もある)もある)

Page 30: OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二

おわりにおわりに

OBIEnvOBIEnv開発メンバー開発メンバー佐藤(全体および佐藤(全体および DBDB更新系)更新系)辻(スキーマ設計および推奨環境構築)辻(スキーマ設計および推奨環境構築)中島(ディスパッチャおよびシステム管理)中島(ディスパッチャおよびシステム管理)小長谷、山本、小長谷、山本、 XavierXavier (アドバイザー)(アドバイザー)

今後の予定今後の予定今年中はバグ出しと更新系の実装とドキュメント今年中はバグ出しと更新系の実装とドキュメント

書き書き新年に新年に ββ 版リリース、版リリース、 ββ テスター募集テスター募集年度内に正式リリース年度内に正式リリース

OBIEnvOBIEnv開発メンバー開発メンバー佐藤(全体および佐藤(全体および DBDB更新系)更新系)辻(スキーマ設計および推奨環境構築)辻(スキーマ設計および推奨環境構築)中島(ディスパッチャおよびシステム管理)中島(ディスパッチャおよびシステム管理)小長谷、山本、小長谷、山本、 XavierXavier (アドバイザー)(アドバイザー)

今後の予定今後の予定今年中はバグ出しと更新系の実装とドキュメント今年中はバグ出しと更新系の実装とドキュメント

書き書き新年に新年に ββ 版リリース、版リリース、 ββ テスター募集テスター募集年度内に正式リリース年度内に正式リリース