The PubchemQC project

第一原理計算による分子の物理化学データベース構築

The PubChemQC Project

中田真秀理化学研究情報基盤センター

[email protected] 年 10 月 30 日

情報計算化学生物学会（ Chem-Bio 　Informatics Society)@ タワーホール船堀

mailto:[email protected]

http://www.towerhall.jp/

カール・マルクス (1818– 1883)

量は質に転化する

理論化学で実験を無くす• 理論化学計算は結構な高みまできた。– かなり実験と合う。

• 説明できる理論化学はコモディティ化– 有機化学やってる人の方が Gaussian のノウハ

ウ蓄積が大きい– B3LYP 6-31G* 計算でだいたい ok

• 実験を先導する理論化学は重要だが– あんまり無い

• 最終的には実験しなくてはならない

実験化学と計算化学研究の違い• テーマの選択、文献調査

– こういうことできないか？– よくわからないが A と B を混ぜると C ができる。

• キーとなる分子の設計、反応の組み立て、仮説

• 理論計算• 実験

– 生成物の分析

• 結果が得られる• 実験の提案

違いは二点だけ

実験化学と計算化学研究の違い• 「研究」としては本質的には変わらない。• 重要なのは「こういうことできない

か？」というサイエンス、化学の精神

自分の感性とデータの蓄積と解析、分析から

あたらしい知見を得たい。だけど、機械的に処理しやすい

データの蓄積がない…

背景

みたいなことしたいなぁ

＋

背景• 化学は超ビッグデータ処理 + 身近なもの– 分子の種類 (Chemical Space) は天文学的

• 薬になりそうな分子だけで、 1060といわれる

(http://onlinelibrary.wiley.com/doi/10.1002/wcms.1104/abstract)

• 参考 : 1018 エクサ– ものは、すべて、原子、分子からなっている。

• Google で検索して発見できないテーマは新しい研究

http://chemicalspace.wordpress.com/

http://chemicalspace.wordpress.com/

分子情報を「ググれる」までに何が必要 ?

1. 分子の種類– 世の中にはどんな分子があるか ? ほぼ無限 ??

2. 分子の性質 : 実験– 分子がどんな性質を持っているか ? 分子構造 ? エ

ネルギー、光吸収、双極子…3. 分子の性質 : 計算– 計算の精度 ( 実験との一致性 ) 、計算リソース。

4. 分子の符号化– 慣用名や IUPAC 名では検索システム構築はできな

い

分子の種類 : 分子情報を「ググれる」まで

1. 分子の種類：データベースが充実してきた– PubChem プロジェクト、 5000 万分子程度、米国立衛生研究所

(NIH) 、入手容易 (ftp) 、製薬会社など多数参加、制限緩い、自動化、よくわからない分子多数。

– ChemSpider : 英国発 2800 万分子程度、 ftp なし。制限キツい、キュレーションが良い。

– Web-GDB13 : 9 億分子、分子の数え上げ• 原子が限られる、分子数多すぎ ( 無駄な分子もある ?)

– Zinc, CheMBL, DrugBank … など他にもたくさんある。– CAS : 7000 万分子程度、プロプラ、制限がきつい– 日化辞 : 600 万分子、制限あり

分子情報はに依存することに

分子データベース： PubChem

Pubchem の分子エントリ例

分子情報 : 分子情報を「ググれる」まで

2. 分子の性質 : 実験– 分子がどんな性質を持っているか。 100 万分

子程度の実験は製薬会社は実行している…–非常にコストがかかる• 試薬の購入、実験施設の確保、実験ロボットなど

の導入、個々の性質の多様性 (固体、液体、気体、温度によって分解、毒性… )

実験は行わない (行えない )

分子の性質 : 分子情報を「ググれる」まで

3. 分子の性質 : 計算– 計算の精度は結構高くなってきた

• 密度汎関数法 +B3LYP汎関数 +6-31G(d) 基底関数• 有機分子については実験よりよい値が出ることもある。• 計算が難しい分子も多数ある…が、今回は仕方ないとした

– 計算プログラムの充実• Gamess : 無料で入手できる。計算方法充実。• Gaussian : 公開データとするには、ポリシーが不透明

– 計算リソース :強烈に必要• Intel Core i7 世代以降、特に SandyBridge以降、量子化学計算は

かなり高速になってきた。• 理研 RICC を利用可能

分子の性質は計算で得られる

分子の符号化 : 分子ってなんだろう ?

原子核の 3次元座標

正確だがわかりづらい

抽象度が高くなると理解・分類しやすくなるが正確さは減る :ex. 立体配座命名法は便利だが最終的には場当たり式

Propionaldehyde

分子の定義に厳密なものは多分無い…

分子の波動関数慣用名IUPAC命名法構造式

Wikipedia より

分子の符号化 : 分子ってなんだろう ?• 化学的直感 ( なんとなく ) により「分子」を定義する。

– 安定な分子、というのは何 ? 中間体は分子か ?• 分子の分類 : 分子に名前をつける

– 核の三次元座標– 構造式– IUPAC命名法

• 一つの分子に多くの IUPAC 名が存在する…– 抽象度を高くすると必ず情報の欠落がおこる

• 「シクロヘキサン」という情報だけでは chair, boat かわからん• Chair と boat- シクロヘキサンの分離は常温では不可能

• 良い分子の表記方法はないか ?– 人間にわかりやすい。– コンピュータ処理しやすい ( 検索など )– 系統的に分子を記述でき、あまり例外がない。– 最終的にはどこで妥協するかになる。

分子の符号化 : 分子情報を「ググれる」まで

4. 分子の符号化

分子の符号化は InChIおよび SMILES でほぼ解決

IUPAC 名tert-butyl N-[(2S,3S,5S)-5-[[4-[(1-benzyltetrazol-5-yl)methoxy]phenyl]methyl]-3-hydroxy-6-[[(1S,2R)-2-hydroxy-2,3-dihydro-1H-inden-1-yl]amino]-6-oxo-1-phenylhexan-2-yl]carbamate

分子構造は「グラフ」と考えれば、符号化可能• SMILES

CN(C)CCOC12CCC(C3C1CCCC3)C4=CC=CC=C24など

• InChI IUPAC謹製 InChI=1S/C20H29NO/c1-21(2)13-14-22-20-12-11-15(16-7-3-5-9-18(16)20)17-8-4-6-10-19(17)20/h3,5,7,9,15,17,19H,4,6,8,10-14H2,1-2H3

…

分子の符号化 :SMILES表記• Simplified Molecular Input Line Entry System

– ASCII 文字を使った一次元的な分子の表現方法。 2次元、 3次元の分子モデルに相互に変換できる。

– 立体配座などの指定も可能– 人間でもなんとか読める、コンピュータ処理も可能。– 一つの分子は複数の SMILES表記を持つことがあるが、

( ほぼ ) 一対一対応の Canonical (正準 ) SMLIES表記もある。

• 1980 年代に、 Duluthにある USEPA Mid-Continent Ecology Division Laboratory Duluth David Weininger が作った。

• IUPAC は SMILES ではなく新しく InChI という表記を作った。– International Chemical Identifier : 若干複雑– 実は InChI のお陰で Universal SMILES ができて、すごく進歩した (NM O’Boyle) 。

http://en.wikipedia.org/wiki/Duluth,_Minnesota

http://en.wikipedia.org/wiki/Duluth,_Minnesota

http://en.wikipedia.org/wiki/David_Weininger

分子の SMILES 表記の例http://en.wikipedia.org/wiki/SMILES　より

分子構造 SMILES

窒素分子 N≡N N#N

硫酸銅 Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-]

エナントトキシン CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO

ビタミン B1 OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2

アフラトキシン B1 O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5

http://en.wikipedia.org/wiki/SMILES




分子の符号化 : 分子情報を「ググれる」まで

必ずしも符号化がうまく行かない系もあるフェロセン• C12C3C4C5C1[Fe]23451234C5C1C2C3C45• [CH-]1C=CC=C1.[CH-]1C=CC=C1.[Fe+2]

量子化学計算データベースの構築

• データベースは pubchem を用いる• 計算で実験に近い値を得る !– 密度汎関数 (B3LYP functional)– 6-31G(d) 基底関数での構造最適化– TD-DFT 6-31G+(d) での励起状態– 生体系、有機分子には最適な計算手法

• 精度、コスト比は最高• インシリコ創薬向き

• 分子の符号化 : InChI/SMILES• 一言で言うと、道具は万全。

量子化学計算データベースの構築

• Related works– NIST Web Book

• http://webbook.nist.gov/chemistry/• さまざまな計算方法の比較がある。分子種は少ない。

– Harvard Clean Energy Project• http://cleanenergy.molecularspace.org/• 2500 万分子 (?) 、光デバイスとして使える分子のみ

–杉本ら :2013CBI 学会ポスター• 方向性はほぼ同じ ( この研究は 2014 年から始めた )

http://webbook.nist.gov/chemistry/

http://cleanenergy.molecularspace.org/

http://cleanenergy.molecularspace.org/

どうやっているか ?

• 3次元の初期構造を SMILES から作る– SDFファイルには MM による 3D 構造が入っている

が精度が悪いのでつかわない。– OpenBABEL -h (水素負荷 ) --gen3d (3次元構造生成 )

• GAMESS+firefly で第一原理量子化学計算– Gaussian は political な問題がある。– PM3 構造最適化– Hartree-Fock/STO-6G 構造最適化– B3LYP/6-31G(d) 構造最適化 :FireFly は高速。– TDDFT/6-31G+(d) で励起状態 10個

データベースの作成方法• OpenBABEL 大活躍• 化合物データベースの切り出し– PubChem の分子量の小さい順にソート – OpenBABEL

• SMILES表記による分子符号化– Isomeric smiles で立体構造保持した初期データ– OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)

[C@@H](O)1– CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO– CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C

SMILES から分子を生成するアフラトキシン

O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5

あとは量子化学計算

OpenBABEL

第一原理計算 on クラスタ• いわゆる massively parallel• 分子量 500 程度が限界– Intel Xeon 5570 (2.93GHz) 4 コア 12時間で計算

できる限界–創薬における Lipinsky’s Rule に合う– これ以上になると分子の高次の構造が重要に

なる ( タンパク質など )

どうやっているか• 計算がおわったらアップロード– http://pubchemqc.riken.jp/– 入力ファイル、出力ファイル、最終的な分子

構造だけを切り出した molファイル

http://pubchemqc.riken.jp/

PubChemQC http://pubchemqc.riken.jp/

まだ「ググ」れません




• http://pubchemqc.riken.jp/• PubChem プロジェクトから分子情報を得て、ひ

たすら分子の構造などを第一原理計算によって求める ( 実験値の代替可能程度 )

• 2014/1/15– 1 万 3千分子

• 2014/7/29– 155,792 分子 + 励起状態 155,456 分子

• 2014/10/30– 906,798 分子 +励起状態 906,229 分子



このプロジェクトの難しさ• 分子の第一原理計算に必要なパラメータが必ず

しも統一的ではない。• 分子によって収束回数が大きく違う。最終結果

も初期構造に引きずられてしまうこともある。• 計算リソース確保– Raspberry Pi? NVIDIA Jetson? Bonic?

• 分子の符号化は本質的にはグラフ理論を使う…同形の計算量が多すぎるため、 heuristic なものとなる…

経験から得られた感覚• 炭素の三重結合を含むと最適化が難しい。• 分子量が 500 程度の分子は、「分子の名前」で構造はほぼ決定されている– B3LYP による補正は軽微 ( だが重要 )

• 分子量 1000以上の分子の構造最適化は「分子の名前」だけでは難しいかも。– なかなか収束しない– タンパク質は電荷や水の効果が大きい


• RICC ( 理研情報基盤センターのスパコン )+Quest(Core2 quad 1.6GHz/node x 700台弱 ) で計算

• Quest: 1 日数千 -2 万分子程度• RICC 1024 コア使うと 3000-30000 分子 /day• Corei7 920 だと　 5-20 分子 /day• E5-2650 v2 (2.60GHz) 10-30 分子 /day• 一日一万分子計算できても 5000 万分子計算するには…

なんと– 5000 日 =14+ 年 !!!– 工夫が必要 (Raspberry Pi? NVIDIA Jetson? ボランティア ?)

• 京を全ノード使えば 20 日で全部計算可能かも– 1 コアあたり 30 分子 / 日とすると、 270 万分子 / 日– 20 日くらいあれば全分子計算できるだろう

全部計算するのに何年かかるか ?

• 今のままでは 20 年はかかるだろう…• でも 25 年前のコンピュータは ??(1990 年 )• 486DX@25MHz• 68000@10MHz

応用、発展の可能性• 超高精度な有機合成、インシリコ創薬が可能になるかも!• 機械学習の導入で超高速な量子化学計算

– 秒速で 1 億分子計算できるようになるかも

– すでに論文が出始めてる…– 有機分子、生体分子はそんなに難しくないはず

• 欲しい物性を持った分子を一発検索できるようになる。– こんなところにある官能基がついていて、– こんなところに HOMO が張り出しててこの分子の LUMO と反応– このエネルギー付近に励起状態があって光反応してほしい

• 化学反応データベースも創りたい– 精密な量子化学計算が必要 + 重要– GRRM と機械学習を組み合わせる ?

• PDB に登録されているタンパク質の構造最適化の自動化http://pubchemqc.riken.jp/

Technology

The PubchemQC project