12
深層学習を用いた 阻害活性予測 チーム:PFDrug, 鈴木 脩司 Preferred Networks, Inc. 第4回IT創薬コンテスト発表会・表彰式 2017/12/15

20171215_ipab_深層学習を用いた阻害活性予測_pfn鈴木脩司

Embed Size (px)

Citation preview

Page 1: 20171215_ipab_深層学習を用いた阻害活性予測_pfn鈴木脩司

深層学習を用いた阻害活性予測

チーム:PFDrug, 鈴木 脩司

Preferred Networks, Inc.

第4回IT創薬コンテスト発表会・表彰式

2017/12/15

Page 2: 20171215_ipab_深層学習を用いた阻害活性予測_pfn鈴木脩司

深層学習を用いた阻害活性予測

チーム:PFDrug, 鈴木 脩司

Preferred Networks, Inc.

第4回IT創薬コンテスト発表会・表彰式

2017/12/15

Page 3: 20171215_ipab_深層学習を用いた阻害活性予測_pfn鈴木脩司

目次

コンテスト参加の動機

コンテストに用いた手法の概要

Graph Convolutionを用いた手法

標的タンパク質情報を組み合わせた手法

予測結果について

まとめ

3

Page 4: 20171215_ipab_深層学習を用いた阻害活性予測_pfn鈴木脩司

参加メンバー

4

S. Suzuki K. Oono Y. Sugawara M. Abe

K. Nakago T. Komatsu T. Kido

Page 5: 20171215_ipab_深層学習を用いた阻害活性予測_pfn鈴木脩司

コンテスト参加の動機

近年、深層学習の創薬分野への応用は重要なテーマになっており、Preferred

Networksとしても注目

これらの深層学習の応用は一見うまくいっているが、実際に活用した際、充分

な精度がでているのか不明

これに加えて、以下のことも目的として参加

– 深層学習フレームワークであるChainerの創薬分野への応用

– 創薬における知識の獲得

5

このコンテストを通じて、深層学習を利用した手法の実問題への課題を見つける

Page 6: 20171215_ipab_深層学習を用いた阻害活性予測_pfn鈴木脩司

コンテストに用いた手法の概要

深層学習を使った手法として、以下のような手法を用いた

– Graph Convolution を用いた手法

1. Neural Fingerprint (NFP) / Gated Graph Neural Networks

(GG-NN)を利用した手法

2. Molecular Graph Convolutionsを利用した手法

– 標的タンパク質情報を組み合わせた手法

3. 標的タンパク質の配列情報を組み合わせた手法

4. 標的タンパク質の3次元情報を組み合わせた手法

各手法でスコアを計算し、上位100個ずつ、合計400個を提出

6

Page 7: 20171215_ipab_深層学習を用いた阻害活性予測_pfn鈴木脩司

Graph Convolution (1)

グラフの局所的な構造に対して非線形な変換を

繰り返すことで、ある一定の半径以内の部分構造の情報を

固定次元の連続値ベクトルに変換する手法

7

https://arxiv.org/abs/1611.03199

Page 8: 20171215_ipab_深層学習を用いた阻害活性予測_pfn鈴木脩司

Graph Convolution (2)

このGraph Convolutionを使った手法として以下のものを活用

– Neural Fingerprint [Duvenaud+ 2015]

隣接するノードのみで畳み込みを実行する。畳み込みを行う際、 ノードの

次数によって違う重みを使う。この際、結合の種類を見ていない。

– Gated Graph Neural Networks [Li+ 2015]

隣接するノードのみで畳み込みを行う。畳み込みを行う際、 結合の種類

(1次結合・2次結合・3次結合・アロマティックの4種類のどれか)に

よって、違う重みを使う。

– Molecular Graph Convolutions [Kearnes+ 2016]

入力としてすべてのノード間の組み合わせの情報を用いる

(各原子間の距離など)

これらの手法の学習データとしては、去年のコンテストの際に実施された

TSAの実験結果のデータを利用

8

Page 9: 20171215_ipab_深層学習を用いた阻害活性予測_pfn鈴木脩司

標的タンパク質情報を組み合わせた手法

標的タンパク質情報も入力にいれることで、他の標的タンパク質について

調べられた化合物情報も学習データに利用可能

標的タンパク質の情報としては以下のものを活用

– 標的タンパク質の配列情報を組み合わせた手法

タンパク質配列をDoc2Vec [Le+ 2014]を利用して特徴ベクトルに変換して利用。

学習データにはBindingDBの中からSirtuin 1に類似するタンパク質のデータを利用

– 標的タンパク質の3次元情報を組み合わせた手法

タンパク質に含まれる原子(C, H, N, O, S)の3次元座標から, それぞれの原子に

おいてボクセルデータ(5チャンネル)を作成し, このボクセルデータを3D畳み込み

ニューラルネットワークの入力として利用 [Torng+ 2017]。

学習データにはPDBbindのデータを利用。

9

https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s

12859-017-1702-0

Page 10: 20171215_ipab_深層学習を用いた阻害活性予測_pfn鈴木脩司

予測結果について

予測結果でうまく見つけられた化合物が何個あったか?を確認

– Graph Convolution を用いた手法

1. Neural Fingerprint (NFP) / Gated Graph Neural Networks (GG-

NN)を利用した手法

2. Molecular Graph Convolutionsを利用した手法

– 標的タンパク質情報を組み合わせた手法

3. 標的タンパク質の配列情報を組み合わせた手法

4. 標的タンパク質の3次元情報を組み合わせた手法

10

手法1 手法2 手法3 手法4

TSAのヒット数 9 0 0 0

IC50が計算できた数 1 0 0 0

Page 11: 20171215_ipab_深層学習を用いた阻害活性予測_pfn鈴木脩司

Chainer Chemistry(v0.1.0)リリースしました!

今回、作った手法の一部を活用し、化学(と生物学)分野向けの深層学習用のライブ

ラリを開発し、12/14にv0.1.0をリリース!

– URL:https://github.com/pfnet-research/chainer-chemistry

11

FileParser (SDF, CSV) Loader (QM 9, Tox 21)

Graph convolution NN

(NFP, GGNN, SchNet, Weave)

Preprocessing

Multitask

learning with

QM9 / Tox21

Model

Layer

Dataset

Pretrained

Model

Feature extractor

TBD

GraphLinear, EmbedAtomID

Page 12: 20171215_ipab_深層学習を用いた阻害活性予測_pfn鈴木脩司

まとめ

以下のことを目的にしてこのコンテストに参加

– 深層学習を利用した手法の実問題に近いコンテストへの適用と課題の発見

– 深層学習フレームワークであるChainerの創薬分野への応用

– 創薬における知識の獲得

最新の深層学習手法を活用し、ある程度、予測できることは確認。また、今回

の成果の一部を活用し、Chainer Chemistryとして公開

今後の課題

– 学習データの工夫

– それぞれの手法の特徴を組み合わせた手法でどれくらいの精度になるのかを確認

12

We are Hiring!通年でPFNは正社員・アルバイトを募集しています。

(夏季インターンは来春募集予定)詳しくはPFNのHPをご覧ください