1
D8 がんを中心としたゲノムビッグデータ解析 上田 宏生 先端科学技術研究センター 生命データサイエンス分野 近年、次世代シーケンサ(NGS)の性能向上や実験技術の進展、ゲノム医学の発展により生物学で扱うデータ量が増大し、大量ではあるが、疎(スパース)なデータから 如何に知識発見を行うかが重要な課題となっている。 この課題の解決には、ビッグデータ解析と機械学習を反復して行うことが必要であり、今日データサイエンスと呼ば れる、ビッグデータ関連技術や深層学習の技術を応用することが欠かせない。大規模ゲノムデータと深層学習をシームレスに連携させるソフトウェア基盤が充実しておら ず研究の多くがデータ量や計算時間の制約を受ける結果になっている。 そこで、オープンソース技術を利用したゲノム解析基盤を開発しており、(1)大規模がんゲノム解 析、(2)ナノポア型シーケンサのデータ解析、および(3)質量分析器を用いたヒストン修飾の解析に応用を始めている。 クラウド環境で動作する次世代シーケンサ・質量分析器ソフトウェアを開発 Apache Spark コアエンジン Hadoop BAM ADAM / Hail RDF NGS パイプライン ナノポア データ解析 機械学習 深層学習 知識ベース NGS pipeline BIGDATA Deep Learning Data 質量分析機 パイプライン Hadoop (YARN/HDFS) Docker 分散・仮想基盤 フォーマット カラムDB 機能 バッチ処理 データ管理・検索 グラフデータベース Many core CPU GPU FPGA ハードウェア スケールアウト ・・・・・ コホート データ 公共 データ 3D pointer memory FastQ Bam Vcf マッピング 変異検出 リレー ショナル DB ローカル環境 1.ゲノム 解析技術の変遷 ※ ウォーターホールモデル (後戻りできない、情報損失が起こる) ※ 分散処理に向かない ※ 同一環境にすべてのデータをUPLOADすることが難しい。 機械学習 知識 スパコン ビッグデータに対する問題点 4.クラウド技術を活用した NGS・質量分析 解析パイプライン マッピングソフト Volt: アルゴリズム:Hash-DP Java で作成されておりSparkに組み込まれている。 既存のソフトウェアとの比較結果、 単体で同等の精度、スピード 次世代シーケンサ 情報解析システム (ハードウェア) 300GB1TB/ run 数千~数万 core 数十~数百 core 6TB/ run 2.現状のデータ解析の問題点 2017 2010 2006 30GB/ run データ量: コスト: $10,000/genome $1,000/genome 方法: Stand alone 全ゲノムシーケンス 利用分野: 研究分野 研究・臨床分野 コホートサイズ: 数百人 数千~数万人 solexa Hiseq 2000 Novaseq Local server Shirokane 4 情報解析システム (ソフトウェア) Grid Engine を用いた 自動分散 システムの開発 クラウド技術 を用いた ソフトウェア の開発 機械学習(深層学習)に対する問題点 ※ 大量データの機械学習を同一環境で実行しにくい。 GPUFPGAを用いた処理と統合しにくい。 ビッグデータ・深層学習が必要とされる分野 大規模コホート、公開データとの統合解析 - VUS (Variant of Unknown Significance) の同定 - 新規がん遺伝子、変異、耐性品位の発見 - オミックス解析 など 新規解析アルゴリズムへの応用 - がん変位検出 - nanopore シーケンサベースコール など 3.オープンソース技術の必要性 クラウド(分散処理、仮想化) AI (深層学習) のオープンソースを使用することが 汎用性のにおいて現実的。 大手クラウドやオープンソース を利用した環境で動作させることができる。 オープンソース技術 分散基盤:Hadoop/Spark,HDFS,YARN 深層学習 Tensorflow, KERAS データ構造:カラム型データ構造 Apache Parquet など 5.開発ソフトウェア SparkMappy: (開発中) 既存ソフト minimap2 pySpark 実装 変異検出ソフト Karkinos 体細胞一塩基変異、Indel コピー数変異、 腫瘍率を同時検出。 一塩基変異はheuristic 処理で候補をフィルタリング コピー数はHMMを使うことにより算出。 腫瘍率は理論値とのベクトルマッチングにより算出 (出典:https://cwiki.apache.org/confluence/display/SPARK/PySpark+InternalsPySpark の構成 機械学習のライブラリは Python ビッグデータのライブラリは Scala/Java が充実しているが、 両者の統合が進んでる。 本ソフトウェアを用いた解析例 Aihara, K. et al. Genetic and epigenetic stability of oligodendrogliomas at recurrence. Acta neuropathologica 7;5(1):18. (2017). Totoki, Y. et al. Trans-ancestry mutational landscape of hepatocellular carcinoma genomes. Nature genetics 46, 1267-1273, (2014). Kakiuchi, M. et al. Recurrent gain-of-function mutations of RHOA in diffuse-type gastric carcinoma. Nature genetics 46, 583-587, (2014). Denovo ヒストン修飾解析 プログラムの開発 ヒストン middle down MS/MS データから、 組成のマッチングを行い、 ヒストン修飾部位の解析を行う。 精度の要求される デコンボリューション デアイソトープ処理をSpark基盤に移行。 同位体分布に対して、 厳密に連続ウェーブレット変換を 行うことで0価、monoisotopic mass に変換している。 D e v e l o p m e n t o f D e N o v o m o d i fi c a ti o n Se q u e n c e s e a r c h a l g o r i s m 1 . S e a r c h s e q u e n c e w i t h p o s s i b l e m o d i f ic a o n s P e p d e A w i t h - M e 2 a c 3 P e p d e A w i t h - M e 3 P e p d e A w i t h - M e P e p d e B w i t h - M e 2 a c 3 P e p d e B w i t h - M e 3 P e p d e C w i t h - M e c D a t a B a s e o f p e p d e W i t h p o s s i b l e m o d i f ic a o n P e p d e A w i t h - M e 3 2 . C o n s t r u c t a g d e b r u i i n hg r a p h o f g i v e n s e q u e n c e w i t h p o s s i b l e m o d i f ic a o n 3 A p p l y M S 2 p e a k s t o t h e g r a p h a n d f in d o p m a l a n d s u b o p m a l m o d i f ic a o n K 4 M e 3 質量分析機 パイプライン アイソトープセンター 川村研との共同研究 先端研ゲノムサイエンス 分野との共同研究 DNA/RNAの塩基修飾情報を 含めた解析が可能であるが、 そのためには、配列情報のBAMファイルに比較して、約100倍のraw データ ファイル をリファレンスに対してアラインメントする必要がある。 Spark を用いた 分散処理基盤に統合、 新規のナノポアシグナル用のフォーマットを作成 問題1: Short Read から増加するデータ量 問題2: Adaptor Trimming Basecall のミス、PolyA の長さの違い、 Quality のばらつきにより、 Adaptor Trimming が正確にできない。 動的計画法で横方向の移動を許してシグナルを並べ替 えるアルゴリズム Dynamic Time Warping を用いて Adaptorをトリミングし、リファレンスにアラインメントする 手法を開発している。 問題3: 深層学習とビッグデータの反復的解析が必要 Spark 上の解析基盤と深層学習ライブラリ KERAS を統合して 11TBのシグナルデータを分散して深層学習(CNN) で解析できる ソフトウェアを構築中。 修飾の有り無しで、noncoding –RNA を分類することに成功している。 Nanopore シーケンサの解析プログラム 化学生命工学 鈴木研との共同研究 6.ゲノム 大規模計算において留意する点 ・ データの集約 Amazon/Google などのクラウドでは TCGA / ICGC , 1000 genome, nanopore-wgs-project など 多くの公共データが集積されている。 同様のデータの集積が必要。 ディスク領域の確保 テラ・ペタオーダーの ディスク領域が必要。 ・ 分散処理・仮想化 仮想化・コンテナ技術を用いて異なった 環境でも同様に動作させることが必要。 Hadoop/Spark などでオープンソースの 分散処理・データベース検索の仕組みを 作ることが課題。 ・ 多様なインスタンス GPU/FPGA などのインスタンスを使用し 処理を高速化する必要がある。 ・ オープンソース 産業的に応用の進むオープンソース 技術を活用する事が必要。

クラウド環境で動作する次世代シーケンサ・質量分析器ソフト …€¦ · ① NGS パイプライン ... • 深層学習 Tensorflow, KERAS ... Amazon/Google

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: クラウド環境で動作する次世代シーケンサ・質量分析器ソフト …€¦ · ① NGS パイプライン ... • 深層学習 Tensorflow, KERAS ... Amazon/Google

D8 がんを中心としたゲノムビッグデータ解析 ○ 上田 宏生 先端科学技術研究センター 生命データサイエンス分野

近年、次世代シーケンサ(NGS)の性能向上や実験技術の進展、ゲノム医学の発展により生物学で扱うデータ量が増大し、大量ではあるが、疎(スパース)なデータから

如何に知識発見を行うかが重要な課題となっている。 この課題の解決には、ビッグデータ解析と機械学習を反復して行うことが必要であり、今日データサイエンスと呼ばれる、ビッグデータ関連技術や深層学習の技術を応用することが欠かせない。大規模ゲノムデータと深層学習をシームレスに連携させるソフトウェア基盤が充実しておらず研究の多くがデータ量や計算時間の制約を受ける結果になっている。 そこで、オープンソース技術を利用したゲノム解析基盤を開発しており、(1)大規模がんゲノム解析、(2)ナノポア型シーケンサのデータ解析、および(3)質量分析器を用いたヒストン修飾の解析に応用を始めている。

クラウド環境で動作する次世代シーケンサ・質量分析器ソフトウェアを開発

Apache Spark コアエンジン

Hadoop BAM ADAM / Hail RDF

① NGS パイプライン

② ナノポア データ解析

機械学習 深層学習 知識ベース

NGS pipeline

BIGDATA Deep Learning

Data

③ 質量分析機 パイプライン

Hadoop (YARN/HDFS) Docker 分散・仮想基盤

フォーマット カラムDB

機能 バッチ処理 データ管理・検索 グラフデータベース

Many core CPU

GPU FPGA ハードウェア

スケールアウト

・・・・・

コホート データ

公共 データ

3D pointer memory

FastQ Bam Vcf

マッピング 変異検出

リレーショナル

DB

ローカル環境

1.ゲノム 解析技術の変遷

※ ウォーターホールモデル (後戻りできない、情報損失が起こる) ※ 分散処理に向かない ※ 同一環境にすべてのデータをUPLOADすることが難しい。

機械学習

知識

スパコン

ビッグデータに対する問題点

4.クラウド技術を活用した NGS・質量分析 解析パイプライン

マッピングソフト Volt: アルゴリズム:Hash-DP Java で作成されておりSparkに組み込まれている。

既存のソフトウェアとの比較結果、 単体で同等の精度、スピード

次世代シーケンサ

情報解析システム (ハードウェア)

300GB~1TB/ run

数千~数万 core 数十~数百 core

~6TB/ run

2.現状のデータ解析の問題点

2017 2010 2006

30GB/ run データ量:

コスト: $10,000/genome $1,000/genome

方法:

Stand alone

全ゲノムシーケンス

利用分野: 研究分野 研究・臨床分野

コホートサイズ: 数百人 数千~数万人

solexa Hiseq 2000 Novaseq

Local server Shirokane 4

情報解析システム (ソフトウェア)

Grid Engine を用いた 自動分散 システムの開発

クラウド技術 を用いた

ソフトウェア の開発

機械学習(深層学習)に対する問題点

※ 大量データの機械学習を同一環境で実行しにくい。 ※ GPUやFPGAを用いた処理と統合しにくい。

ビッグデータ・深層学習が必要とされる分野 大規模コホート、公開データとの統合解析 - VUS (Variant of Unknown Significance) の同定 - 新規がん遺伝子、変異、耐性品位の発見 - オミックス解析 など 新規解析アルゴリズムへの応用 - がん変位検出 - nanopore シーケンサベースコール など

3.オープンソース技術の必要性

クラウド(分散処理、仮想化)

AI (深層学習)

のオープンソースを使用することが

汎用性のにおいて現実的。

大手クラウドやオープンソース

を利用した環境で動作させることができる。

オープンソース技術

• 分散基盤:Hadoop/Spark,HDFS,YARN

• 深層学習 Tensorflow, KERAS

• データ構造:カラム型データ構造

Apache Parquet

など

5.開発ソフトウェア

SparkMappy: (開発中) 既存ソフト minimap2 のpySpark 実装

変異検出ソフト Karkinos : 体細胞一塩基変異、Indel コピー数変異、 腫瘍率を同時検出。

一塩基変異はheuristic 処理で候補をフィルタリング コピー数はHMMを使うことにより算出。 腫瘍率は理論値とのベクトルマッチングにより算出

(出典:https://cwiki.apache.org/confluence/display/SPARK/PySpark+Internals)

PySpark の構成 機械学習のライブラリは Python ビッグデータのライブラリは Scala/Java が充実しているが、 両者の統合が進んでる。

本ソフトウェアを用いた解析例

・Aihara, K. et al. Genetic and epigenetic stability of oligodendrogliomas at recurrence. Acta neuropathologica 7;5(1):18. (2017). ・Totoki, Y. et al. Trans-ancestry mutational landscape of hepatocellular carcinoma genomes. Nature genetics 46, 1267-1273, (2014). ・Kakiuchi, M. et al. Recurrent gain-of-function mutations of RHOA in diffuse-type gastric carcinoma. Nature genetics 46, 583-587, (2014).

Denovo ヒストン修飾解析 プログラムの開発 ヒストン middle down MS/MS データから、 組成のマッチングを行い、 ヒストン修飾部位の解析を行う。 精度の要求される デコンボリューション デアイソトープ処理をSpark基盤に移行。 同位体分布に対して、 厳密に連続ウェーブレット変換を 行うことで0価、monoisotopic mass に変換している。

D e v e l o p m e n t o f

D e N o v o “m o d i fi c a ti o n ” Se q u e n c e s e a r c h a l g o r i s m

1 . S e a r c h s e q u e n c e w i t h p o s s i b l e m o d i f i c a o n s

P e p d e A w i t h - M e 2 a c 3 P e p d e A w i t h - M e 3 P e p d e A w i t h - M e

P e p d e B w i t h - M e 2 a c 3 P e p d e B w i t h - M e 3 P e p d e C w i t h - M e •c

D a t a B a s e o f p e p d e W i t h p o s s i b l e m o d i f i c a o n

P e p d e A w i t h - M e 3

2 . C o n s t r u c t a •g d e b r u i i n •h g r a p h o f g i v e n s e q u e n c e w i t h p o s s i b l e

m o d i f i c a o n

S# : 1708 RT : 54. 47 AV: 1 NL: 5 . 2 7 E6 T: + c d F u l l m s 2 6 3 8 . 0 0 [ 1 6 5 . 0 0 - 1 9 2 5 . 0 0 ]

200 400 600 800 1000 1200 1400 1600 1800 2000 m/ z

0

5

10

15

20

25

30

35

40

45

50

55

60

65

70

75

80

85

90

95

100

R e l a

t i v e

A b u n d a n c e

850. 3

687. 3

588. 1

851. 4 425. 0

949. 4

326. 0 524. 9

589. 2

1048. 6 397. 1 226. 9 1049. 6 489. 1

629. 0

3 A p p l y M S 2 p e a k s t o t h e g r a p h a n d f i n d o p m a l a n d s u b o p m a l

m o d i f i c a o n

K 4 M e 3

質量分析機 パイプライン

アイソトープセンター 川村研との共同研究

先端研ゲノムサイエンス分野との共同研究

DNA/RNAの塩基修飾情報を 含めた解析が可能であるが、 そのためには、配列情報のBAMファイルに比較して、約100倍のraw データファイル をリファレンスに対してアラインメントする必要がある。

Spark を用いた 分散処理基盤に統合、 新規のナノポアシグナル用のフォーマットを作成

問題1: Short Read から増加するデータ量

問題2: Adaptor Trimming

Basecall のミス、PolyA の長さの違い、 Quality のばらつきにより、 Adaptor Trimming が正確にできない。

動的計画法で横方向の移動を許してシグナルを並べ替えるアルゴリズム Dynamic Time Warping を用いて Adaptorをトリミングし、リファレンスにアラインメントする手法を開発している。

問題3: 深層学習とビッグデータの反復的解析が必要 Spark 上の解析基盤と深層学習ライブラリ KERAS を統合して 11TBのシグナルデータを分散して深層学習(CNN) で解析できる ソフトウェアを構築中。 修飾の有り無しで、noncoding –RNA を分類することに成功している。

Nanopore シーケンサの解析プログラム

化学生命工学 鈴木研との共同研究

6.ゲノム 大規模計算において留意する点 ・ データの集約 Amazon/Google などのクラウドでは TCGA / ICGC , 1000 genome, nanopore-wgs-project など 多くの公共データが集積されている。 同様のデータの集積が必要。 ・ ディスク領域の確保 テラ・ペタオーダーの ディスク領域が必要。

・ 分散処理・仮想化 仮想化・コンテナ技術を用いて異なった 環境でも同様に動作させることが必要。 Hadoop/Spark などでオープンソースの 分散処理・データベース検索の仕組みを 作ることが課題。 ・ 多様なインスタンス GPU/FPGA などのインスタンスを使用し 処理を高速化する必要がある。

・ オープンソース 産業的に応用の進むオープンソース 技術を活用する事が必要。