Upload
reed-baker
View
67
Download
10
Embed Size (px)
DESCRIPTION
OBIGrid 北陸先端科学技術大学院大学 知識科学研究科 佐藤賢二. 増大し続ける生物データ. 11月14日の nature insight 特集より. 増加速度は指数関数的. ポストゲノム: 網羅的・組み合わせ論的な計算の時代. ホモロジー 旧)遺伝子1個 vs データベースの比較 新)生物同士の比較 → 全遺伝子の網羅的比較 発現 旧)特定の遺伝子が発現する/しない 新)特定の生物の全遺伝子セットに含まれる 個々の遺伝子が相互に作用しあう. 数千の自乗~数千万の自乗個の 組み合わせに対する似たような 計算が頻繁に生じる. - PowerPoint PPT Presentation
Citation preview
OBIGrid
北陸先端科学技術大学院大学知識科学研究科
佐藤賢二
OBIGrid
北陸先端科学技術大学院大学知識科学研究科
佐藤賢二
増大し続ける生物データ増大し続ける生物データ
11月14日の nature insight 特集より
増加速度は指数関数的増加速度は指数関数的
ポストゲノム: 網羅的・組み合わせ論的な計算の時代ポストゲノム: 網羅的・組み合わせ論的な計算の時代
ホモロジー旧)遺伝子1個 vs データベースの比較新)生物同士の比較→全遺伝子の網羅的比較
発現旧)特定の遺伝子が発現する/しない新)特定の生物の全遺伝子セットに含まれる 個々の遺伝子が相互に作用しあう
ホモロジー旧)遺伝子1個 vs データベースの比較新)生物同士の比較→全遺伝子の網羅的比較
発現旧)特定の遺伝子が発現する/しない新)特定の生物の全遺伝子セットに含まれる 個々の遺伝子が相互に作用しあう
数千の自乗~数千万の自乗個の組み合わせに対する似たような計算が頻繁に生じる
計算環境の変遷計算環境の変遷
HGC時HGC時代代
強力なマシン強力なマシンと豊富なDBと豊富なDB(ゲノムネッ(ゲノムネット)ト)
JAISTJAISTに異動に異動
最初はPC1最初はPC1個個中型マシン中型マシンででDBをミDBをミラーラー クラスクラス
タ構築タ構築
問題問題
継続的な資源増強継続的な資源増強を強いられるを強いられる
DBやソフトのメンテナンス作業(一部DBやソフトのメンテナンス作業(一部手動手動)が生)が生じるじる
企業と共同研究する時には企業と共同研究する時には共通の作業ベース共通の作業ベースが必要が必要で、そのためにはこちらにログインしてもらうしかで、そのためにはこちらにログインしてもらうしかないない
グリッドコンピューティングに期待
Open Bioinformatics Grid ( OBIGrid )Open Bioinformatics Grid ( OBIGrid )
http://www.obigrid.org
参加組織等参加組織等
JAISTJAIST
東工大東工大
徳島大徳島大
同志社大同志社大
九大九大
GSCGSC
AISTAIST
富士通富士通
NECNEC
三井情報三井情報
CTCCTC 住エレ住エレ
富士総研富士総研
OBIEnvXML DB
VPN/Globus
好熱菌 KB
NMR 構造決定
細胞シミュレーション
NTTDataNTTData
CRLCRL
CompaqCompaq
数理技研数理技研日本新薬日本新薬
ベストシステムベストシステム
三菱総研三菱総研
インテックインテックW&GW&G
HNESHNES
大阪産業大大阪産業大
NISNIS
DDBJDDBJ HGCHGC
BLASTMD シミュレーション
和歌山大和歌山大
統数研統数研
琉球大琉球大
九工大九工大
バイオインフォマティクスのためのグリッド構築
グリッドに接続するだけで、研究に必要な
・データベースへのアクセス・シミュレータの利用・実験データの配信
が可能になる
バイオインフォマティクスのためのグリッド構築
グリッドに接続するだけで、研究に必要な
・データベースへのアクセス・シミュレータの利用・実験データの配信
が可能になる
OBIGrid の目標OBIGrid の目標
OBIG rid のネットワークインフラOBIG rid のネットワークインフラ
GenomeDBミラー
IBM IBM
IBM PCクラスター
インターネット
Site-ASite-A
Site-BSite-B Site-DSite-D
Site-CSite-C
IBM
配列解析プログラ
ム
データベース検索プログラム
分子シミュレーションプログラ
ム
IBM
細胞シミュレーションプログラ
ム
PCクラスター
MDM専用計算機
XMLDB
IBM
VPN-FW
VPN-FW
VPN-FW
VPN-FW
•VPN+FW による隔離•Globus による認証•Over Internet 接続
Big Machine
GTK2.0 の講習会(サマーキャンプ)GTK2.0 の講習会(サマーキャンプ)
9月6日(金)、7日(土) 於 北陸先端科学技術大学院大学9月6日(金)、7日(土) 於 北陸先端科学技術大学院大学 ( ( JAISTJAIST )知識科学研究科)知識科学研究科
内容 ・認証局設定内容 ・認証局設定 ・ ・ GlobusGlobusサーバーインストールサーバーインストール講師陣 (敬称略)講師陣 (敬称略)
中島 康彦 (北陸中島 康彦 (北陸 NESNES ))梅田 浩之 (梅田 浩之 ( IBMIBM ))小野 功 (徳島大)小野 功 (徳島大)今出 広明 (徳島大)今出 広明 (徳島大)谷村 勇輔 (同志社大)谷村 勇輔 (同志社大)小西 史一 (小西 史一 ( GSCGSC ))
参加者 15サイト 25名参加者 15サイト 25名
1月にはウィンターキャンプを実施1月にはウィンターキャンプを実施
接続状況接続状況
25サイト 107ノード 188 CPU
Grb2ShcGrb2
SOS
RAS
MAPKKKs
MAPKs
MAPKKs
MAPKs
PKCPLCPI3K
STAT3STAT1
STAT1
STAT3
STAT3
STAT1
Elk-1AP-1E2F
NF-kappaB
CyclinD1/cdk4/6
Rb E2F Rb-p
E2F
EGF
EGF receptor
SOS
細胞分裂期(M期)
DNA合成期(S期)
G1期
G2期
MPF
Cdc2
Cyclin B
Cdc2
P Cdc2
P PCdc2
PCdc2PCdc2
Wee1
Cyclin B
Cyclin B Cyclin B
Cyclin B
CAK
Wee1
Cdc25
0 200 400 600 8000
0.05
0.1
0
0.2
0.4
0.6
MPF Cyclin B
time
数理モデリング
シグナル情報伝達シグナル情報伝達
細胞周期細胞周期
Webポータル
Solver
JAVAAPI
PerlAPI
•高速 /精密ソルバー•未知パラメタ推定機能
細胞シミュレーション環境(OBIYagns)細胞シミュレーション環境(OBIYagns)
# of residue: 189Molecular wait: 21kD
Oncogene VariantGly12 →Val
5ns1000h/64Gflops
Ras p21 G Molecular Dynamics Simulation
MDM Engine 64Gflops/4chips
Protein Explore Chip(200Gflops)Tera ~ Peta flops in total
分子シミュレーション環境(OBIMde)分子シミュレーション環境(OBIMde)
実験解析データ 分子機能関連付加情報
相互作用情報データベース
立体構造データベース
文献情報データベース
配列データベース
>S53477 PIR2 release 73.00 MAAIRDYKTALDLTKSLPRPDGLSVQELMDSKIRGGLAYNDFLILPGLVD FASSEVSLQTKLTRNITLNIPLVSSPMDTVTESEMATFMALLDGIGFIHH NCTPEDQADMVRRVKNYENGFINNPIVISPTTTVGEAKSMKEKYGFAGFP VTADGKRNAKLVGAITSRDIQFVEDNSLLVQDVMTKNPVTGAQGITLSEG NEILKKIKKGRLLVVDEKGNLVSMLSRTDLMKNQKYPLASKSANTKQLLW GASIGTMDADKERLRLLVKAGLDVVILDSSQGNSIFQLNMIKWIKETFPD LEIIAGNVVTKEQAANLIAAGADGLRIGMGTGSICITQKVMACGRPQGTA VYNVCEFANQFGVPCMADGGVQKHWSYYYQSFGSWFFYCYDGWYVGRYYR ITR
研究者による情報付加
プログラムによる自動解析
実験データ
ゲノム情報、構造情報、機能情報を統合「細胞丸ごと一匹シミュレーション」を目指す
高度好熱菌知識共有環境( OBI Tco)高度好熱菌知識共有環境( OBI Tco)
XML DB検索用indexXML DBXML DBs
検索用index
検索用index
検索用index
検索サーバー
Webポータル
JAVAAPI
PerlAPI
•スケーラビリティ•高速応答•高信頼性
分散XMLデータベース利用環境(OBISgd)分散XMLデータベース利用環境(OBISgd)
パブリックデータベースの更新と配布・自動更新→自動配布→自動修復・分散配置→分散検索
最低限の共通ソフトウェア整備(推奨環境)・ Unix の基本コマンド・ Perl や Java などの言語・ BLAST などのアプリケーション
ユーザから見た使いやすさ・マシンを意識しないアプリケーション実行・特に指定しなくてもそれなりに最適な環境 でアプリケーションを実行
パブリックデータベースの更新と配布・自動更新→自動配布→自動修復・分散配置→分散検索
最低限の共通ソフトウェア整備(推奨環境)・ Unix の基本コマンド・ Perl や Java などの言語・ BLAST などのアプリケーション
ユーザから見た使いやすさ・マシンを意識しないアプリケーション実行・特に指定しなくてもそれなりに最適な環境 でアプリケーションを実行
OBIEnv: ライトユーザ向けのバイオインフォマティクス環境OBIEnv: ライトユーザ向けのバイオインフォマティクス環境
そのためには?そのためには?
計算に必要な計算に必要な DBDB やアプリがどこやアプリがどこにあるか?どのマシンが空いていにあるか?どのマシンが空いているか?るか?
更新したい更新したい DBDB やソフトはどこにあやソフトはどこにあるか?どこから転送するのが良さそるか?どこから転送するのが良さそうか?うか?
よそのマシンに簡単よそのマシンに簡単にジョブを投げられにジョブを投げられるか?るか?
Globus Toolkit (GTK) の問題点Globus Toolkit (GTK) の問題点
リモートのマシンに自分のアカウントが必要リモートのマシンに自分のアカウントが必要→→スケーラビリティが低いスケーラビリティが低い
遅い(秒単位のオーバーヘッド)遅い(秒単位のオーバーヘッド)
リソース情報の更新が遅いリソース情報の更新が遅い
デフォルトではハードやOSの情報しか検索でデフォルトではハードやOSの情報しか検索できないきない
割り切った所割り切った所
スーパーロングジョブは考えない(1週間とか)スーパーロングジョブは考えない(1週間とか)
正確なロードアベレージやメモリとディスクの消費正確なロードアベレージやメモリとディスクの消費量など、くるくる変わる情報はモニターしない量など、くるくる変わる情報はモニターしない
リモートマシンにはユーザ個人の永続ファイルは不リモートマシンにはユーザ個人の永続ファイルは不要要
アカウントは代表アカウントで十分アカウントは代表アカウントで十分
UnixUnix系以外は考えない系以外は考えない
こだわった所こだわった所
ジョブの自動分割とマシンの自動選択ジョブの自動分割とマシンの自動選択
ハードやソフト、ハードやソフト、 DBDB など、更新頻度が低いものはなど、更新頻度が低いものは確実に検索可能に確実に検索可能に
簡単な 簡単な Config Config でで DBDB やソフトを自動更新(プルやソフトを自動更新(プル型)型)コピーしたものは全て他からも転送可能にコピーしたものは全て他からも転送可能に
シンプルに、できるだけシンプルに(デフォルトシンプルに、できるだけシンプルに(デフォルトの充実)の充実)
必要とあらば色んなことを指定可能に必要とあらば色んなことを指定可能に
グリッドへの接続を許されていないローカルユーザ
ジョブディスパッチャ(代表アカウントで動作)
ノード検索
ノード集合
GlobusTool Kit
ジョブ投入
Globus Tool Kitデーモン
ジョブ受け付け
DB
環境情報報告デーモン
SW HW
ジョブ実行用エリア
環境へのアクセス(利用)
実行結果
環境をスキャン
自作プログラムを
実行
OBIEnv を利用できるユーザ
ポータルアプリ
環境検索サーバ
ローカルユーザの一部をユーザ登録(グリッドへの接続許可)
ローカル認証
OBIEnv の概略図OBIEnv の概略図
OBIEnv でジョブを実行OBIEnv でジョブを実行
blast Q1 genbankblast Q2 genbank
:blast Q10 genbank
ジョブディスパッチャ
ジョブ(タスクリスト)ジョブ(タスクリスト)
GenBankとBLAST を持っているノードは?
環境情報検索サーバ
ノード集合
genbank
genbank
genbank
genbankgenbank
Q1,Q2
Q3,Q4
Q5,Q6
Q7,Q8Q9,Q10
各タスクは独立(互いに依存しない)
ユーザからジョブディスパッチャへの指示ユーザからジョブディスパッチャへの指示
必須条件として指定したい場合例) BLAST2.0 ~および最新版の GenBank例) Linux 2.4.X および Perl 5.6.X例) PentiumIII 800MHz ~
Preference として指定したい場合例)できるだけ分散して実行して欲しい例)できるだけ同じ環境で実行して欲しい例)できるだけ速そうな CPU で実行して欲しい
必須条件として指定したい場合例) BLAST2.0 ~および最新版の GenBank例) Linux 2.4.X および Perl 5.6.X例) PentiumIII 800MHz ~
Preference として指定したい場合例)できるだけ分散して実行して欲しい例)できるだけ同じ環境で実行して欲しい例)できるだけ速そうな CPU で実行して欲しい
これらの指示に応じてジョブディスパッチャがノードの検索と選択を行う
環境情報検索サーバ環境情報検索サーバ
各ノードの環境情報を集積し、検索要求に応える( PostgreSQL を使用)。各ノードの環境情報を集積し、検索要求に応える( PostgreSQL を使用)。
ハードウェア環境テーブルノード名、サイト名、 CPU 、メモリ、ディスク、…
ソフトウェア環境テーブルノード名、ソフト名、バージョン、…
データ環境テーブルノード名、データベース名、バージョン、…
環境が変環境が変わったのでわったので情報を更新情報を更新したいしたい
BLASTBLAST とと GenBankGenBank を両方持っを両方持っているているノードを教えて欲しいノードを教えて欲しい
自分が持っ自分が持っているている DBDBの新しいの新しいバージョンバージョンが出ていなが出ていないか?いか?
OBIEnv内のデータベース(イメージ図)OBIEnv内のデータベース(イメージ図)
UniGene TrEMBL
InterPro PDB
big machine
PDB
InterPro PDB
big machine
cluster
dataless
small machine
medium machine
DBと推奨環境は自動転送(選択可能)DBと推奨環境は自動転送(選択可能)
配布元のサイトはグリッド内で1つとは配布元のサイトはグリッド内で1つとは限らない(限らない( DBDB やソフトごとに分散可能)やソフトごとに分散可能)
PerlGNU
BLAST...
ミラーミラー 加工加工
DB
推奨環境
DB DB DB
推奨環境
DB
推奨環境
DB DB
推奨環境
DB DB
DB
DB
DB
DB
推奨環境
ftp領域ftp領域
ftp領域ftp領域
ftp領域ftp領域
ftp領域ftp領域
ftp領域ftp領域
課題課題
スーパーロングジョブを投げられると、簡単に占有さスーパーロングジョブを投げられると、簡単に占有されるれる→→抑制するしくみが必要抑制するしくみが必要→→課金するしかないか?課金するしかないか?
ユーザプリファレンスに基づくマシン選択のアルゴリユーザプリファレンスに基づくマシン選択のアルゴリズムがまだ弱いズムがまだ弱い
GTKGTK による不安定性やオーバヘッドのによる不安定性やオーバヘッドのさらなるさらなる削減削減
スーパーロングジョブを投げられると、簡単に占有さスーパーロングジョブを投げられると、簡単に占有されるれる→→抑制するしくみが必要抑制するしくみが必要→→課金するしかないか?課金するしかないか?
ユーザプリファレンスに基づくマシン選択のアルゴリユーザプリファレンスに基づくマシン選択のアルゴリズムがまだ弱いズムがまだ弱い
GTKGTK による不安定性やオーバヘッドのによる不安定性やオーバヘッドのさらなるさらなる削減削減
生物情報データベースの問題生物情報データベースの問題
テキスト+ファイルシステムでは限界がある(サイズテキスト+ファイルシステムでは限界がある(サイズと数)と数)→→DBMSDBMS の活用の活用
データサイズが極端に異なる(1エントリ:数データサイズが極端に異なる(1エントリ:数 KBKB ~8~800 MBMB ))
WANWAN の細さを考えると圧縮転送すべきだが、利用の観の細さを考えると圧縮転送すべきだが、利用の観点からは 点からは as is as is で配りたいで配りたい→→2重に持つか?2重に持つか?
一次配布元における前処理(インデクシング等)が結構一次配布元における前処理(インデクシング等)が結構重い重い
更新頻度(リリースは数ヶ月に1回だが 更新頻度(リリースは数ヶ月に1回だが daily update daily update もある)もある)
テキスト+ファイルシステムでは限界がある(サイズテキスト+ファイルシステムでは限界がある(サイズと数)と数)→→DBMSDBMS の活用の活用
データサイズが極端に異なる(1エントリ:数データサイズが極端に異なる(1エントリ:数 KBKB ~8~800 MBMB ))
WANWAN の細さを考えると圧縮転送すべきだが、利用の観の細さを考えると圧縮転送すべきだが、利用の観点からは 点からは as is as is で配りたいで配りたい→→2重に持つか?2重に持つか?
一次配布元における前処理(インデクシング等)が結構一次配布元における前処理(インデクシング等)が結構重い重い
更新頻度(リリースは数ヶ月に1回だが 更新頻度(リリースは数ヶ月に1回だが daily update daily update もある)もある)
おわりにおわりに
OBIEnvOBIEnv開発メンバー開発メンバー佐藤(全体および佐藤(全体および DBDB更新系)更新系)辻(スキーマ設計および推奨環境構築)辻(スキーマ設計および推奨環境構築)中島(ディスパッチャおよびシステム管理)中島(ディスパッチャおよびシステム管理)小長谷、山本、小長谷、山本、 XavierXavier (アドバイザー)(アドバイザー)
今後の予定今後の予定今年中はバグ出しと更新系の実装とドキュメント今年中はバグ出しと更新系の実装とドキュメント
書き書き新年に新年に ββ 版リリース、版リリース、 ββ テスター募集テスター募集年度内に正式リリース年度内に正式リリース
OBIEnvOBIEnv開発メンバー開発メンバー佐藤(全体および佐藤(全体および DBDB更新系)更新系)辻(スキーマ設計および推奨環境構築)辻(スキーマ設計および推奨環境構築)中島(ディスパッチャおよびシステム管理)中島(ディスパッチャおよびシステム管理)小長谷、山本、小長谷、山本、 XavierXavier (アドバイザー)(アドバイザー)
今後の予定今後の予定今年中はバグ出しと更新系の実装とドキュメント今年中はバグ出しと更新系の実装とドキュメント
書き書き新年に新年に ββ 版リリース、版リリース、 ββ テスター募集テスター募集年度内に正式リリース年度内に正式リリース