クラウド環境で動作する次世代シーケンサ・質量分析器ソフト …€¦ · ① NGS パイプライン ... • 深層学習 Tensorflow, KERAS ... Amazon/Google

D8 がんを中心としたゲノムビッグデータ解析 ○ 上田宏生先端科学技術研究センター生命データサイエンス分野

近年、次世代シーケンサ(NGS)の性能向上や実験技術の進展、ゲノム医学の発展により生物学で扱うデータ量が増大し、大量ではあるが、疎（スパース）なデータから

如何に知識発見を行うかが重要な課題となっている。この課題の解決には、ビッグデータ解析と機械学習を反復して行うことが必要であり、今日データサイエンスと呼ばれる、ビッグデータ関連技術や深層学習の技術を応用することが欠かせない。大規模ゲノムデータと深層学習をシームレスに連携させるソフトウェア基盤が充実しておらず研究の多くがデータ量や計算時間の制約を受ける結果になっている。そこで、オープンソース技術を利用したゲノム解析基盤を開発しており、(1)大規模がんゲノム解析、(2)ナノポア型シーケンサのデータ解析、および(3)質量分析器を用いたヒストン修飾の解析に応用を始めている。

クラウド環境で動作する次世代シーケンサ・質量分析器ソフトウェアを開発

Apache Spark コアエンジン

Hadoop BAM ADAM / Hail RDF

① ＮＧＳパイプライン

② ナノポアデータ解析

機械学習深層学習知識ベース

NGS pipeline

BIGDATA Deep Learning

Data

③ 質量分析機パイプライン

Hadoop (YARN/HDFS) Docker 分散・仮想基盤

フォーマットカラムＤＢ

機能バッチ処理データ管理・検索グラフデータベース

Many core CPU

GPU FPGA ハードウェア

スケールアウト

・・・・・

コホートデータ

公共データ

3D pointer memory

FastQ Bam Vcf

マッピング変異検出

リレーショナル

DB

ローカル環境

１．ゲノム解析技術の変遷

※ ウォーターホールモデル (後戻りできない、情報損失が起こる) ※ 分散処理に向かない ※ 同一環境にすべてのデータをUPLOADすることが難しい。

機械学習

知識

スパコン

ビッグデータに対する問題点

４．クラウド技術を活用した NGS・質量分析解析パイプライン

マッピングソフト Volt: アルゴリズム：Hash-DP Java で作成されておりSparkに組み込まれている。

既存のソフトウェアとの比較結果、単体で同等の精度、スピード

次世代シーケンサ

情報解析システム（ハードウェア）

300GB～1TB/ run

数千～数万 core 数十～数百 core

～6TB/ run

２．現状のデータ解析の問題点

2017 2010 2006

30GB/ run データ量：

コスト： $10,000/genome $1,000/genome

方法：

Stand alone

全ゲノムシーケンス

利用分野：研究分野研究・臨床分野

コホートサイズ：数百人数千～数万人

solexa Hiseq 2000 Novaseq

Local server Shirokane 4

情報解析システム（ソフトウェア）

Grid Engine を用いた自動分散システムの開発

クラウド技術を用いた

ソフトウェアの開発

機械学習（深層学習）に対する問題点

※ 大量データの機械学習を同一環境で実行しにくい。 ※ GPUやFPGAを用いた処理と統合しにくい。

ビッグデータ・深層学習が必要とされる分野大規模コホート、公開データとの統合解析 - VUS (Variant of Unknown Significance) の同定 - 新規がん遺伝子、変異、耐性品位の発見 - オミックス解析など新規解析アルゴリズムへの応用 - がん変位検出 - nanopore シーケンサベースコールなど

３．オープンソース技術の必要性

クラウド（分散処理、仮想化）

AI (深層学習)

のオープンソースを使用することが

汎用性のにおいて現実的。

大手クラウドやオープンソース

を利用した環境で動作させることができる。

オープンソース技術

• 分散基盤：Hadoop/Spark,HDFS,YARN

• 深層学習 Tensorflow, KERAS

• データ構造：カラム型データ構造

Apache Parquet

など

５．開発ソフトウェア

SparkMappy: (開発中) 既存ソフト minimap2 のpySpark 実装

変異検出ソフト Karkinos ：体細胞一塩基変異、Indel コピー数変異、腫瘍率を同時検出。

一塩基変異はheuristic 処理で候補をフィルタリングコピー数はＨＭＭを使うことにより算出。腫瘍率は理論値とのベクトルマッチングにより算出

（出典：https://cwiki.apache.org/confluence/display/SPARK/PySpark+Internals）

ＰｙSpark の構成機械学習のライブラリは Python ビッグデータのライブラリは Scala/Java が充実しているが、両者の統合が進んでる。

本ソフトウェアを用いた解析例

・Aihara, K. et al. Genetic and epigenetic stability of oligodendrogliomas at recurrence. Acta neuropathologica 7;5(1):18. (2017). ・Totoki, Y. et al. Trans-ancestry mutational landscape of hepatocellular carcinoma genomes. Nature genetics 46, 1267-1273, (2014). ・Kakiuchi, M. et al. Recurrent gain-of-function mutations of RHOA in diffuse-type gastric carcinoma. Nature genetics 46, 583-587, (2014).

Denovo ヒストン修飾解析プログラムの開発ヒストン middle down MS/MS データから、組成のマッチングを行い、ヒストン修飾部位の解析を行う。精度の要求されるデコンボリューションデアイソトープ処理をSpark基盤に移行。同位体分布に対して、厳密に連続ウェーブレット変換を行うことで０価、monoisotopic mass に変換している。

D e v e l o p m e n t o f

D e N o v o “m o d i fi c a ti o n ” Se q u e n c e s e a r c h a l g o r i s m

1 . S e a r c h s e q u e n c e w i t h p o s s i b l e m o d i f i c a o n s

P e p d e A w i t h - M e 2 a c 3 P e p d e A w i t h - M e 3 P e p d e A w i t h - M e

P e p d e B w i t h - M e 2 a c 3 P e p d e B w i t h - M e 3 P e p d e C w i t h - M e •c

D a t a B a s e o f p e p d e W i t h p o s s i b l e m o d i f i c a o n

P e p d e A w i t h - M e 3

2 . C o n s t r u c t a •g d e b r u i i n •h g r a p h o f g i v e n s e q u e n c e w i t h p o s s i b l e

m o d i f i c a o n

S# : 1708 RT : 54. 47 AV: 1 NL: 5 . 2 7 E6 T: + c d F u l l m s 2 6 3 8 . 0 0 [ 1 6 5 . 0 0 - 1 9 2 5 . 0 0 ]

200 400 600 800 1000 1200 1400 1600 1800 2000 m/ z

0

5

10

15

20

25

30

35

40

45

50

55

60

65

70

75

80

85

90

95

100

R e l a

t i v e

A b u n d a n c e

850. 3

687. 3

588. 1

851. 4 425. 0

949. 4

326. 0 524. 9

589. 2

1048. 6 397. 1 226. 9 1049. 6 489. 1

629. 0

3 A p p l y M S 2 p e a k s t o t h e g r a p h a n d f i n d o p m a l a n d s u b o p m a l

m o d i f i c a o n

K 4 M e 3

質量分析機パイプライン

アイソトープセンター川村研との共同研究

先端研ゲノムサイエンス分野との共同研究

ＤＮＡ／ＲＮＡの塩基修飾情報を含めた解析が可能であるが、そのためには、配列情報のBAMファイルに比較して、約100倍のraw データファイルをリファレンスに対してアラインメントする必要がある。

Ｓｐａｒｋを用いた分散処理基盤に統合、新規のナノポアシグナル用のフォーマットを作成

問題１： Short Read から増加するデータ量

問題２： Adaptor Trimming

Basecall のミス、PolyA の長さの違い、 Quality のばらつきにより、 Adaptor Trimming が正確にできない。

動的計画法で横方向の移動を許してシグナルを並べ替えるアルゴリズム Dynamic Time Warping を用いて Adaptorをトリミングし、リファレンスにアラインメントする手法を開発している。

問題３：深層学習とビッグデータの反復的解析が必要 Spark 上の解析基盤と深層学習ライブラリ KERAS を統合して 11TBのシグナルデータを分散して深層学習(CNN) で解析できるソフトウェアを構築中。修飾の有り無しで、noncoding –RNA を分類することに成功している。

Nanopore シーケンサの解析プログラム

化学生命工学鈴木研との共同研究

６．ゲノム大規模計算において留意する点・データの集約 Amazon/Google などのクラウドでは TCGA / ICGC , 1000 genome, nanopore-wgs-project など多くの公共データが集積されている。同様のデータの集積が必要。・ディスク領域の確保テラ・ペタオーダーのディスク領域が必要。

・分散処理・仮想化仮想化・コンテナ技術を用いて異なった環境でも同様に動作させることが必要。 Hadoop/Spark などでオープンソースの分散処理・データベース検索の仕組みを作ることが課題。・多様なインスタンス GPU/FPGA などのインスタンスを使用し処理を高速化する必要がある。

・オープンソース産業的に応用の進むオープンソース技術を活用する事が必要。

https://cwiki.apache.org/confluence/display/SPARK/PySpark+Internals

Documents

クラウド環境で動作する次世代シーケンサ・質量分析器ソフト …€¦ · ① NGS パイプライン ... • 深層学習 Tensorflow, KERAS ... Amazon/Google