5
クラウドコンピューティング 7

7 クラウドコンピューティング - bgi.com · - 77 - クラウドコンピューティング 4. バイオインフォマティクストレーニングとカウンセリングサービス

  • Upload
    buique

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

- 74 -

クラウドコンピューティング

クラウドコンピューティング7

- 75 -

クラウドコンピューティング

クラウドコンピューティング

クラウドコンピューティング

製品概要シーケンシング技術の発展は生物研究に大きなチャンスをもたらすと同時に、膨大なデータの収集・分析・保存・転送・

セキュリティーなどの問題ももたらしました。これらの問題を解決するために、BGI はカスタムデータの保存サー

ビスと高性能な計算力を提供します。

BGI のクラウドコンピューティングプラットフォームは、ゲノミクス領域で頻繁に利用される基礎データと豊富な

経験を組み合わせ、大規模な NGS データと分析プロセスを融合したデータ解析プラットフォームを提供します。世

界中の研究者にセルフサービスシステムを提供し、より低コストで効率的に膨大なデータを解析できます。

技術特長 • ハードウェアとソフトウェアを融合した BGI のクラウドコンピューティングプラットフォームは、各国の研究者

をエンド • ツー • エンドでサポートします。

1.ストレージ研究者に手頃な価格で高性能なデータの保存サービスと、長期的なデータ保存サービスを提供します。30PB を超え

る BGI の総ストレージ容量は、ここ数年で急激に増加しています。

1000,000

100,000

10,000

1,000

100

10

1

CPU SpeedStorageMoore Law

2000 2004 2008 2009 2010 2012 2014

Hight Performance Computing (HPC)

Evolution of Computational Capacities

100 G flops

1 T flops

4 1632

64128

10 T flops

50 T flops100 T flops

400 T flops

1 P flops

2T

45T

670T

5P

20P

30P

50P

図 1 BGIストレージ増加の変遷

参照配列の収集やダウンロードなどの手間を軽減できるよう、一般的なゲノムデータと関連データのセットサービ

スを提供しています。

- 76 -

クラウドコンピューティング

2.計算BLC/SGE クラスターに基づいた BGI のクラウドコンピューティングサービスは、マッピング・SNP・SV・Indel・CVN 解析やDe Novo アセンブリーなどのデータ解析サービスをサポートしています。

計算能力は最大 400T flops ですが、近々 1,000T flops にアップグレードされる予定です。最先端の高性能計算ノー

ドを持つ BGI のクラウドコンピューティングプラットフォームは、大規模なゲノム解析に適しており、分析時間も

大幅に短縮できます。

BGI では SOAP・ゲノム融合分析・トランスクリプトーム解析・エキソームキャプチャー・Digital Gene Expression Profiling (DGE)・Small RNA 分析などのゲノムアプリケーションの開発に取り組んでいます。BGI が独自に開発し

た SOAP(Short Oligonucleotide Alignment Program) は単なるアライメントツールから、次世代シーケンサーのデー

タを全面的に解析できる手法にアップグレードしました。また、総合的なデータ解析を提供するために、ABySS や

Velvet などのオープンソースソフトウェアの開発にも取り組んでいます。

1

1

1

3

2

4

4

BatmanFindpeaks

CisGenome

Short reada alignment

SOAPbowtie

BLAST

SOAPdenovo

SOAPsnp\SOAPsv\SOAPInDel

SAMtools

BreakDancer*VarScan

AbySS

Velvet

BLATFASTA*BFAST*

bwaMAQelano*

General sequence alignment

TRFRepeatMasker

Genescan*BGF*

InterproScan*

SOAPalsTopHat

Cufflinks*Mapsplice*

Phymlpaup

phylipmega

Others*

Evolution*

Annotation

Sequence Alignment

de novo Assembly

Genome resequencing analysis

RNA.seq

Bioinformatics software

(Typically for NGS)

MACS

図 2 BGIのクラウドコンピューティングソフトウェア

3.データの納品データの納品は、専用サーバへのアップロード (FTP・HTTPS・Aspera) とメディアによる送付(USB メモリ・ハード

ディスク)があります。データ量が 50GB 未満の場合、専用サーバへアップロード (FTP・HTTPS・Aspera) します。

Aspera には、2つの方法があります。

 a. 速度(Mbps)/ 月(例:30 Mbps/ 月)

  適用条件:大規模なデータの連続転送

 b. ネットワークトラフィック+最小帯域幅(例:200GB のデータセット+ 5 Mbps/ 月)

  適用条件:小規模或いは中規模なデータの断続転送

  データ量が 50GB 以上の場合、USB メモリ・ハードディスクで納品します(非暗号化)が、   暗号化されたデータでの納品も可能です。

Linux の場合:TrueCrypt/CryptSetup での暗号化を推奨しています。

Windows の場合:Western Digital 社の暗号化されたハードディスクを推奨しています。

ハードウェア 容量 インターフェース 適用範囲

USBメモリ 4GB・8GB・16GB USB 2.0・USB 3.0 少量の分析データ

ハードディスク

500GB USB 2.0・USB 3.0小規模な転送

500GB Raw1TB・2TB USB 2.0・USB 3.0

生データ・クリーンデータ・BAM Files1TB・2TB Raw

暗号化されたハードディスク1TB・2TB USB 2.0・USB 3.0

暗号化されたデータ1TB・2TB USB 2.0・USB 3.0

- 77 -

クラウドコンピューティング

4.バイオインフォマティクストレーニングとカウンセリングサービスBGI では、生物・物理・数学・医薬・コンピューティングなどの分野に跨る 200 人の専門チームが、各種バイオインフォ

マティクストレーニングとカウンセリングサービスを行っています。データ解析や報告書に関する質問からマンツー

マンのトレーニングまで、基礎からサポートします。

ワークフロー

シーケンシング

生データ

クリーンデータ

SOAPBWA

SAMToolsBreakDancers

データの

中間報告

第一層 プライマリデータ

第二層 スモールパイロット

第三層 データのリテンション

オンライン

・FTP・HTTPS・Aspera

オフライン

・USB メモリ

・ハードディスク

シーケンシング

解析

ストレージ

コンサルティング

データの納品

技術パラメーター

1.ファイル入力フォーマット

2.ストレージa. シーケンサーからリアルタイムで直接データを保存  30PB の総ストレージ能力

b. 完全なデータとバックアップシステム

3.分析a. 高い計算能力:400T flops 超

b. 多仕様化の計算ノード:16GB - 1TB RAM

- 78 -

クラウドコンピューティング

データのセキュリティ

Policies and Procedures,

Operation Records and

Dedicated Personnel

Firewall, UTM, DMZ,

VLAN, System

Hardening and Auditing

Role based Access

Control, Password and

ID Management Policy

PDU & UPS, HVAC,

Infrastructures and

Biometric reader

Encryption, Hash

and Backup

Data

Operation and Organization

Network, OS and Applications

Physical Environment

Access Control

BGIクラウドコンピューティングのデータセキュリティ概要

全面的なデータ管理システム・暗号化されたログイン認証とUSBキーで、ユーザーのデータは安全に守られています。