38
PubChemQCプロジェクト: 分子データベース構築と機械学習 による電子構造の推定 中田真秀 1 (NAKATA Maho) 島崎智実 2 (SHIMAZAKI Tomomi) 1 ACCC RIKEN, 2 AICS RIKEN 2017/9/17 10:58-11:16 11回分子科学討論会@仙台 (東北大学)

第11回分子科学 2017/9/17 Pubchemqcプロジェクト

Embed Size (px)

Citation preview

Page 1: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

PubChemQCプロジェクト:

分子データベース構築と機械学習による電子構造の推定

中田真秀1 (NAKATA Maho)島崎智実2 (SHIMAZAKI Tomomi)

1 ACCC RIKEN, 2 AICS RIKEN2017/9/17 10:58-11:16

第11回分子科学討論会@仙台 (東北大学)

Page 2: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

背景

• 解決の難しい社会問題地球温暖化、環境汚染問題、エネルギー問題、創薬、食糧問題など

• 化学はこのような問題の解決に重要な役割を果たすだろう

• 量子化学/計算化学の立場から– 大量の量子化学計算+データベース構築+クエリ環境構築+機械学習による分子の性質の予測(電子状態、物性値など)

– サービス提供に依る化学者間の連携• 理論さえ知っていればすべてわかるわけではない

• Give and Take

量子化学計算

データベース構築

社会問題+化学者機械学習

正確な計算

データベースにない Xxxという候補分子

教師データ

種分子提供物性予想

Page 3: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

材料は全て揃っている• 基礎理論は大体ok

– “the fundamental laws necessary for the mathematical treatment of a large part of physics and the whole of chemistry are thus completely known”

– Hartree Fock, DFT, MP2, … , PM3, PM6, AM1…

• 成熟した実装は多数あり、同じ結果を出す– GAMESS, Gaussian, Qchem, Molpro….

• コンピューターリソース: 理研の施設• データベース構築と、サービス提供

– 励起エネルギー、HOMO-LUMOギャップなどによる「波動関数による」クエリー

• 化学的直感による補完、予測aka. 機械学習

Page 4: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

主たる結果

• http://pubchemqc.riken.jp/ PubChemに掲載されている分子のうち400万分子程度の構造最適化済input/outputファイルを提供

• 上記結果を用いた機械学習に依るSMILES表記からHOMO-LUMOギャップの予想

• http://pccdb.org/ 上記の分子のサーチエンジン+ウェブベースの化学ツール提供

Page 5: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

データベースの種類

• PubChem: 90,000,000 分子。アメリカNIHが作成。著作権フリー、キュレーションが弱い (カタログなどから取っている)、ネットからダウンロード可能

• ChemSpider : 28,000,000 分子。手でキュレーションをしている。ftpによりダウンロード可、制限有り。

• Web-GDB13 : 900,000,000 以上、ただし組み合わせの手法で全網羅、重要な分子はかなり少ない。

• Zinc, CheMBL, DrugBank …

• CAS : 70,000,000分子。商用なので二次利用不可

を分子源として用いることにした。

Page 6: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

The PubChem

Page 7: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

Ex. A molecule listed in PubChem

Page 8: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

分子とはなんぞや!?!?• 現実的には「分子の名前」から分子のそれらしい初期構造を生成せねばならない

• 分子の厳密な定義は無い

• 量子化学計算パッケージ的定義– 原子の(x, y, z)座標– 原子核の種類– スピンの数– 電荷– 人間には読みにくい

• IUPAC命名法– 小さい分子のみ人間に判別可能– より厳密ではない。さらに例外も多数。

• 機械的な処理が可能な分子の表記方法が必要– SMILES : Simplified molecular input line entry specification

syntax– InChI : International Chemical Identifier

かなり厳密だが、時と場合によっては厳密すぎるしかしながらこれでも足りない場合も。

Page 9: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

分子とはなんぞや!?!?

• まず認めるべきことは–どんな命名法、定義、符号化も完全ではない。

–量子化学プログラムパッケージ的定義さえ、曖昧さを含むことさえある。

–ケースバイケースで定義は変えなければならない。

• SMILES/InChIの範囲内でどれだけ行けるか、それだけでさえ人間が追えないくらい多い…

Page 10: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

SMILESによる分子の符号化

Encoding molecule

SMILES is a good encoding method for molecules

IUPAC nomenclaturetert-butyl N-[(2S,3S,5S)-5-[[4-[(1-benzyltetrazol-5-yl)methoxy]phenyl]methyl]-3-hydroxy-6-[[(1S,2R)-2-hydroxy-2,3-dihydro-1H-inden-1-yl]amino]-6-oxo-1-phenylhexan-2-yl]carbamate

We can encode molecule • SMILES

CN(C)CCOC12CCC(C3C1CCCC3)C4=CC=CC=C24

Page 11: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

SMILESとは?

• Simplified Molecular Input Line Entry System– ASCII文字を使った分子の符号化

– コンフォーマー、幾何異性体なども表現可能

– 人間にもプログラムからも読める

–だいたい「分子」と一対一対応する(universal SMILESを用いることで)

• SMILESの発明者: David Weininger at USEPA Mid-Continent Ecology Division Laboratory

Page 12: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

Example by SMILEShttp://en.wikipedia.org/wiki/SMILES

分子 構造 SMILES

Nitrogen molecule N≡N N#N

copper sulfate Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-]

oenanthotoxin CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO

Vitamin B1 OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2

Aflatoxin B1 O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5

Page 13: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

SMILESで表現できない例

Ferroceneには二つの表現の仕方がある

• C12C3C4C5C1[Fe]23451234C5C1C2C3C45

• [CH-]1C=CC=C1.[CH-]1C=CC=C1.[Fe+2]

Page 14: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

符号化、命名法で表現しづらい例

• 複雑な金属錯体

– そもそも量子化学計算でできるか?

– 右上図鉄のスピン状態を様々に変化させ人工光合成させる

• 分子量の大きな分子

– 分子は大きくなる傾向あり?

https://www.ims.ac.jp/news/2016/02/12_3396.html

http://www.apc.titech.ac.jp/~tmurahashi/research.html

新規な物質を計算化学から創出することは可能か? 命名主義は良くないのか?

Page 15: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

色々なフォーマットの違いInChI SMILES CAS Number QC input file

入手性 Free (IUPAC & InChI Trust) Proprietary Proprietary Free

プログラムが読めるか?

Yes Yes No No (can be converted)

人間が読めるか

かなり努力すると読める InChIよりはマシ No No

水素 陰に陽に、浮動的指定可 大抵陰に指定する No 陽に指定する

量子数 No No No Yes, partially

Google検索 InChI keyで可能 ほぼ無理 運が良ければ No

正規化、標準化 オフィシャルサポート有り 無し(幾つかの可能性)

No No

互変異性体、光学異性体

Yes Isomeric SMILES で可能

No No

曖昧さを入れる Yes Yes Yes No

有機金属 一部可能、標準的ではない。

一部可能、標準的ではない。

Yes Yes

Page 16: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

PubChemQC/PCCDB project

Page 17: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

The PubChemQC projecthttp://pubchemqc.riken.jp/

Page 18: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

The PubChemQC projecthttp://pubchemqc.riken.jp/

• PubChemの分子を計算できたらそのままuploadするサイト

• Gamess input/outputがただ羅列されている

• Gaussian/Firefly/Smash/nwchemのインプットファイルも出している。

–誰でも簡単に試せるように

– これらはアクセスが有ったときに生成される

Page 19: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

PubChemQChttp://pubchemqc.riken.jp/

Page 20: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

PubChemQChttp://pubchemqc.riken.jp/

Page 21: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

どうやってPubChem Compoundの分子を計算してるか

aflatoxin

O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5

第一原理計算を

OpenBABEL

Page 22: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

計算のフローチャート

Page 23: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

分子量分布とPubChem Compouds

We are still here

Lipinski limit MW=500

We are still here

Lipinsky Rule

Page 24: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

双極子モーメントの分布

Page 25: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

HOMO-LUMO gapのヒストグラムと励起エネルギー

Page 26: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

HOMO-LUMO gap と励起エネルギーの関係

Page 27: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

HOMO-LUMO ギャップの機械学習に依る予測

Preliminary –さらなる結果は投稿中…

Python : scikit-learn

• 二つの機械学習の手法を試した

–サポートベクターマシン

– Ridge regression

Page 28: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

機械学習とHOMO-LUMO ギャップの予測

• 選択 : 100万分子 4.5 to 6.5 eV HOMO-LUMO ギャップがある分子をランダムに

• その中から2万分子: 教師データ次の関数を機械学習により作ったf(SMILES) = HOMO-LUMO gap• HOMO-LUMOギャップはGAMESS TDDFT/B3LYP/6-

31+G*• 特徴ベクトルに、topological fingerprint (1024bit)を利用。

• 分子の幾何構造はSMILESの段階では考慮なし。教師データを通じて陰に考慮されている

Page 29: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

機械学習とHOMO-LUMO ギャップの予測

• Topological fingerprintとは

– Fingerprintは化学構造をビット列に落とし込む手法一般のこと

– RDKitに入っているfingerprint “RDKit” fingerprint

–部分構造、原子種類、結合の種類など

• 他にもfingerprintはあり試行中(投稿中)

http://www.rdkit.org/UGM/2012/Landrum_RDKit_UGM.Fingerprints.Final.pptx.pdf参照

Page 30: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

機械学習とHOMO-LUMO ギャップの予測

Method Kernel RMSE [eV]

SVM regression RBF 0.36

second-order polynomial 0.39

third-order polynomial 0.43

Ridge regression RBF 0.37

second-order polynomial 0.38

third-order polynomial 0.36

fourth-order polynomial 0.48

Page 31: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

機械学習とHOMO-LUMO ギャップの予測

• HOMO-LUMO の精度は誤差が 0.3 to 0.4eV低尾であった

• Topological fingerprint (1024bit)を特徴ベクト

ルとすることで、良い精度が得られたと考えられる。

Page 32: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

PCCDB.orgと検索エンジンPublic Computer Chemistry DataBase project

http://pccdb.org/search_pubchemqc/query

Page 33: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

PCCDB.orgと検索エンジン

Page 34: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

3D構造

吸収スペクトル

分子軌道と静電ポテンシャルも見れます

分子の構造式

Page 35: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

PCCDB.orgと検索エンジン

• 検索キーは

– HOMO-LUMO ギャップ

– HOMO エネルギー or LUMO エネルギー

–励起エネルギー

–振動子強度

–双極子モーメント

–あいまい検索 (Partial/Similarity) by SMILESとfingerprint

http://pccdb.org/ 試してみてね

TODO:

HOMO-LUMOアッセイ機械学習に依る提案

Page 36: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

今回の結果

• http://pubchemqc.riken.jp/ PubChemに掲載されている分子のうち400万分子程度の構造最適化済input/outputファイルを提供

• 上記結果を用いた機械学習に依るSMILES表記からHOMO-LUMOギャップの予想

• http://pccdb.org/ 上記の分子のサーチエンジン+ウェブベースの化学ツール提供

Page 37: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

Computer Resources

• RICC : Intel Xeon 5570 Westmere, 2.93GHz 8 cores/node) x 1000 – 1000-10000 molecules/day (MW 160)

– Heavily depend on conditions of other users

– Time limit: 8 hours

• Quest : Intel Core2 duo (1.6GHz/node) x 700– 3000-8000 molecules / day (MW 160)

– 100-1000 molecules / day (MW 200-300)

– Time limit: 20 hours

• Some compounds fail to calculate are ignored for this time.

Page 38: 第11回分子科学 2017/9/17 Pubchemqcプロジェクト

Molecular weight and Lipinski Rule

• Lipinski’s five rule (Pfizer's rule of five): rule of thumb for drug discovery• No more than 5 hydrogen bond donors• Not more than 10 hydrogen bond acceptors • A molecular mass less than 500 daltons• An octanol-water partition coefficient log P not greater than 5

• Molecular weight should be smaller than 500 is very good for computational chemistry– For routine calculations without experimental data

other than molecular formula– If larger than 500, secondary or higher structure

becomes important. E.g., protein