View
909
Download
0
Embed Size (px)
Citation preview
深層学習を用いた阻害活性予測
チーム:PFDrug, 鈴木 脩司
Preferred Networks, Inc.
第4回IT創薬コンテスト発表会・表彰式
2017/12/15
深層学習を用いた阻害活性予測
チーム:PFDrug, 鈴木 脩司
Preferred Networks, Inc.
第4回IT創薬コンテスト発表会・表彰式
2017/12/15
目次
コンテスト参加の動機
コンテストに用いた手法の概要
Graph Convolutionを用いた手法
標的タンパク質情報を組み合わせた手法
予測結果について
まとめ
3
参加メンバー
4
S. Suzuki K. Oono Y. Sugawara M. Abe
K. Nakago T. Komatsu T. Kido
コンテスト参加の動機
近年、深層学習の創薬分野への応用は重要なテーマになっており、Preferred
Networksとしても注目
これらの深層学習の応用は一見うまくいっているが、実際に活用した際、充分
な精度がでているのか不明
これに加えて、以下のことも目的として参加
– 深層学習フレームワークであるChainerの創薬分野への応用
– 創薬における知識の獲得
5
このコンテストを通じて、深層学習を利用した手法の実問題への課題を見つける
コンテストに用いた手法の概要
深層学習を使った手法として、以下のような手法を用いた
– Graph Convolution を用いた手法
1. Neural Fingerprint (NFP) / Gated Graph Neural Networks
(GG-NN)を利用した手法
2. Molecular Graph Convolutionsを利用した手法
– 標的タンパク質情報を組み合わせた手法
3. 標的タンパク質の配列情報を組み合わせた手法
4. 標的タンパク質の3次元情報を組み合わせた手法
各手法でスコアを計算し、上位100個ずつ、合計400個を提出
6
Graph Convolution (1)
グラフの局所的な構造に対して非線形な変換を
繰り返すことで、ある一定の半径以内の部分構造の情報を
固定次元の連続値ベクトルに変換する手法
7
https://arxiv.org/abs/1611.03199
Graph Convolution (2)
このGraph Convolutionを使った手法として以下のものを活用
– Neural Fingerprint [Duvenaud+ 2015]
隣接するノードのみで畳み込みを実行する。畳み込みを行う際、 ノードの
次数によって違う重みを使う。この際、結合の種類を見ていない。
– Gated Graph Neural Networks [Li+ 2015]
隣接するノードのみで畳み込みを行う。畳み込みを行う際、 結合の種類
(1次結合・2次結合・3次結合・アロマティックの4種類のどれか)に
よって、違う重みを使う。
– Molecular Graph Convolutions [Kearnes+ 2016]
入力としてすべてのノード間の組み合わせの情報を用いる
(各原子間の距離など)
これらの手法の学習データとしては、去年のコンテストの際に実施された
TSAの実験結果のデータを利用
8
標的タンパク質情報を組み合わせた手法
標的タンパク質情報も入力にいれることで、他の標的タンパク質について
調べられた化合物情報も学習データに利用可能
標的タンパク質の情報としては以下のものを活用
– 標的タンパク質の配列情報を組み合わせた手法
タンパク質配列をDoc2Vec [Le+ 2014]を利用して特徴ベクトルに変換して利用。
学習データにはBindingDBの中からSirtuin 1に類似するタンパク質のデータを利用
– 標的タンパク質の3次元情報を組み合わせた手法
タンパク質に含まれる原子(C, H, N, O, S)の3次元座標から, それぞれの原子に
おいてボクセルデータ(5チャンネル)を作成し, このボクセルデータを3D畳み込み
ニューラルネットワークの入力として利用 [Torng+ 2017]。
学習データにはPDBbindのデータを利用。
9
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s
12859-017-1702-0
予測結果について
予測結果でうまく見つけられた化合物が何個あったか?を確認
– Graph Convolution を用いた手法
1. Neural Fingerprint (NFP) / Gated Graph Neural Networks (GG-
NN)を利用した手法
2. Molecular Graph Convolutionsを利用した手法
– 標的タンパク質情報を組み合わせた手法
3. 標的タンパク質の配列情報を組み合わせた手法
4. 標的タンパク質の3次元情報を組み合わせた手法
10
手法1 手法2 手法3 手法4
TSAのヒット数 9 0 0 0
IC50が計算できた数 1 0 0 0
Chainer Chemistry(v0.1.0)リリースしました!
今回、作った手法の一部を活用し、化学(と生物学)分野向けの深層学習用のライブ
ラリを開発し、12/14にv0.1.0をリリース!
– URL:https://github.com/pfnet-research/chainer-chemistry
11
FileParser (SDF, CSV) Loader (QM 9, Tox 21)
Graph convolution NN
(NFP, GGNN, SchNet, Weave)
Preprocessing
Multitask
learning with
QM9 / Tox21
Model
Layer
Dataset
Pretrained
Model
Feature extractor
TBD
GraphLinear, EmbedAtomID
まとめ
以下のことを目的にしてこのコンテストに参加
– 深層学習を利用した手法の実問題に近いコンテストへの適用と課題の発見
– 深層学習フレームワークであるChainerの創薬分野への応用
– 創薬における知識の獲得
最新の深層学習手法を活用し、ある程度、予測できることは確認。また、今回
の成果の一部を活用し、Chainer Chemistryとして公開
今後の課題
– 学習データの工夫
– それぞれの手法の特徴を組み合わせた手法でどれくらいの精度になるのかを確認
12
We are Hiring!通年でPFNは正社員・アルバイトを募集しています。
(夏季インターンは来春募集予定)詳しくはPFNのHPをご覧ください