Upload
maho-nakata
View
1.335
Download
0
Embed Size (px)
DESCRIPTION
This project provides optimized molecular geometries by GAMESS quantum chemical package for the pubchem project. http://pubchemqc.sourceforge.net
Citation preview
第一原理計算による分子の物理化学データベース構築
The PubChemQC Project
中田真秀理化学研究情報基盤センター
[email protected] 年 10 月 30 日
情報計算化学生物学会( Chem-Bio Informatics Society)@ タワーホール船堀
カール・マルクス (1818– 1883)
量は質に転化する
理論化学で実験を無くす• 理論化学計算は結構な高みまできた。– かなり実験と合う。
• 説明できる理論化学はコモディティ化– 有機化学やってる人の方が Gaussian のノウハ
ウ蓄積が大きい– B3LYP 6-31G* 計算でだいたい ok
• 実験を先導する理論化学は重要だが– あんまり無い
• 最終的には実験しなくてはならない
実験化学と計算化学研究の違い• テーマの選択、文献調査
– こういうことできないか?– よくわからないが A と B を混ぜると C ができる。
• キーとなる分子の設計、反応の組み立て、仮説
• 理論計算• 実験
– 生成物の分析
• 結果が得られる• 実験の提案
違いは二点だけ
実験化学と計算化学研究の違い• 「研究」としては本質的には変わらない。• 重要なのは「こういうことできない
か?」 というサイエンス、化学の精神
自分の感性とデータの蓄積と解析、分析から
あたらしい知見を得たい。だけど、機械的に処理しやすい
データの蓄積がない…
背景
みたいなことしたいなぁ
+
背景• 化学は超ビッグデータ処理 + 身近なもの– 分子の種類 (Chemical Space) は天文学的
• 薬になりそうな分子だけで、 1060といわれる
(http://onlinelibrary.wiley.com/doi/10.1002/wcms.1104/abstract)
• 参考 : 1018 エクサ– ものは、すべて、原子、分子からなっている。
• Google で検索して発見できないテーマは新しい研究
分子情報を「ググれる」までに何が必要 ?
1. 分子の種類– 世の中にはどんな分子があるか ? ほぼ無限 ??
2. 分子の性質 : 実験– 分子がどんな性質を持っているか ? 分子構造 ? エ
ネルギー、光吸収、双極子…3. 分子の性質 : 計算– 計算の精度 ( 実験との一致性 ) 、計算リソース。
4. 分子の符号化– 慣用名や IUPAC 名では検索システム構築はできな
い
分子の種類 : 分子情報を「ググれる」まで
1. 分子の種類:データベースが充実してきた– PubChem プロジェクト、 5000 万分子程度、米国立衛生研究所
(NIH) 、入手容易 (ftp) 、製薬会社など多数参加、制限緩い、自動化、よくわからない分子多数。
– ChemSpider : 英国発 2800 万分子程度、 ftp なし。制限キツい、キュレーションが良い。
– Web-GDB13 : 9 億分子、分子の数え上げ• 原子が限られる、分子数多すぎ ( 無駄な分子もある ?)
– Zinc, CheMBL, DrugBank … など他にもたくさんある。– CAS : 7000 万分子程度、プロプラ、制限がきつい– 日化辞 : 600 万分子、制限あり
分子情報は に依存することに
分子データベース: PubChem
Pubchem の分子エントリ例
分子情報 : 分子情報を「ググれる」まで
2. 分子の性質 : 実験– 分子がどんな性質を持っているか。 100 万分
子程度の実験は製薬会社は実行している…–非常にコストがかかる• 試薬の購入、実験施設の確保、実験ロボットなど
の導入、個々の性質の多様性 (固体、液体、気体、温度によって分解、毒性… )
実験は行わない (行えない )
分子の性質 : 分子情報を「ググれる」まで
3. 分子の性質 : 計算– 計算の精度は結構高くなってきた
• 密度汎関数法 +B3LYP汎関数 +6-31G(d) 基底関数• 有機分子については実験よりよい値が出ることもある。• 計算が難しい分子も多数ある…が、今回は仕方ないとした
– 計算プログラムの充実• Gamess : 無料で入手できる。計算方法充実。• Gaussian : 公開データとするには、ポリシーが不透明
– 計算リソース :強烈に必要• Intel Core i7 世代以降、特に SandyBridge以降、量子化学計算は
かなり高速になってきた。• 理研 RICC を利用可能
分子の性質は計算で得られる
分子の符号化 : 分子ってなんだろう ?
原子核の 3次元座標
正確だがわかりづらい
抽象度が高くなると理解・分類しやすくなるが正確さは減る :ex. 立体配座命名法は便利だが最終的には場当たり式
Propionaldehyde
分子の定義に厳密なものは多分無い…
分子の波動関数慣用名IUPAC命名法構造式
Wikipedia より
分子の符号化 : 分子ってなんだろう ?• 化学的直感 ( なんとなく ) により「分子」を定義する。
– 安定な分子、というのは何 ? 中間体は分子か ?• 分子の分類 : 分子に名前をつける
– 核の三次元座標– 構造式– IUPAC命名法
• 一つの分子に多くの IUPAC 名が存在する…– 抽象度を高くすると必ず情報の欠落がおこる
• 「シクロヘキサン」という情報だけでは chair, boat かわからん• Chair と boat- シクロヘキサンの分離は常温では不可能
• 良い分子の表記方法はないか ?– 人間にわかりやすい。– コンピュータ処理しやすい ( 検索など )– 系統的に分子を記述でき、あまり例外がない。– 最終的にはどこで妥協するかになる。
分子の符号化 : 分子情報を「ググれる」まで
4. 分子の符号化
分子の符号化は InChIおよび SMILES でほぼ解決
IUPAC 名tert-butyl N-[(2S,3S,5S)-5-[[4-[(1-benzyltetrazol-5-yl)methoxy]phenyl]methyl]-3-hydroxy-6-[[(1S,2R)-2-hydroxy-2,3-dihydro-1H-inden-1-yl]amino]-6-oxo-1-phenylhexan-2-yl]carbamate
分子構造は「グラフ」と考えれば、符号化可能• SMILES
CN(C)CCOC12CCC(C3C1CCCC3)C4=CC=CC=C24など
• InChI IUPAC謹製 InChI=1S/C20H29NO/c1-21(2)13-14-22-20-12-11-15(16-7-3-5-9-18(16)20)17-8-4-6-10-19(17)20/h3,5,7,9,15,17,19H,4,6,8,10-14H2,1-2H3
…
分子の符号化 :SMILES表記• Simplified Molecular Input Line Entry System
– ASCII 文字を使った一次元的な分子の表現方法。 2次元、 3次元の分子モデルに相互に変換できる。
– 立体配座などの指定も可能– 人間でもなんとか読める、コンピュータ処理も可能。– 一つの分子は複数の SMILES表記を持つことがあるが、
( ほぼ ) 一対一対応の Canonical (正準 ) SMLIES表記もある。
• 1980 年代に、 Duluthにある USEPA Mid-Continent Ecology Division Laboratory Duluth David Weininger が作った。
• IUPAC は SMILES ではなく新しく InChI という表記を作った。– International Chemical Identifier : 若干複雑– 実は InChI のお陰で Universal SMILES ができて、すごく進歩した (NM O’Boyle) 。
分子の SMILES 表記の例http://en.wikipedia.org/wiki/SMILES より
分子 構造 SMILES
窒素分子 N≡N N#N
硫酸銅 Cu2+ SO42- [Cu+2].[O-]S(=O)(=O)[O-]
エナントトキシン CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO
ビタミン B1 OCCc1c(C)[n+](=cs1)Cc2cnc(C)nc(N)2
アフラトキシン B1 O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
分子の符号化 : 分子情報を「ググれる」まで
必ずしも符号化がうまく行かない系もあるフェロセン• C12C3C4C5C1[Fe]23451234C5C1C2C3C45• [CH-]1C=CC=C1.[CH-]1C=CC=C1.[Fe+2]
量子化学計算データベースの構築
• データベースは pubchem を用いる• 計算で実験に近い値を得る !– 密度汎関数 (B3LYP functional)– 6-31G(d) 基底関数での構造最適化– TD-DFT 6-31G+(d) での励起状態– 生体系、有機分子には最適な計算手法
• 精度、コスト比は最高• インシリコ創薬向き
• 分子の符号化 : InChI/SMILES• 一言で言うと、道具は万全。
量子化学計算データベースの構築
• Related works– NIST Web Book
• http://webbook.nist.gov/chemistry/• さまざまな計算方法の比較がある。分子種は少ない。
– Harvard Clean Energy Project• http://cleanenergy.molecularspace.org/• 2500 万分子 (?) 、光デバイスとして使える分子のみ
–杉本ら :2013CBI 学会ポスター• 方向性はほぼ同じ ( この研究は 2014 年から始めた )
どうやっているか ?
• 3次元の初期構造を SMILES から作る– SDFファイルには MM による 3D 構造が入っている
が精度が悪いのでつかわない。– OpenBABEL -h (水素負荷 ) --gen3d (3次元構造生成 )
• GAMESS+firefly で第一原理量子化学計算– Gaussian は political な問題がある。– PM3 構造最適化– Hartree-Fock/STO-6G 構造最適化– B3LYP/6-31G(d) 構造最適化 :FireFly は高速。– TDDFT/6-31G+(d) で励起状態 10個
データベースの作成方法• OpenBABEL 大活躍• 化合物データベースの切り出し– PubChem の分子量の小さい順にソート – OpenBABEL
• SMILES表記による分子符号化– Isomeric smiles で立体構造保持した初期データ– OC[C@@H](O1)[C@@H](O)[C@H](O)[C@@H](O)
[C@@H](O)1– CCC[C@@H](O)CC\C=C\C=C\C#CC#C\C=C\CO– CC(=O)OCCC(/C)=C\C[C@H](C(C)=C)CCC=C
SMILES から分子を生成するアフラトキシン
O1C=C[C@H]([C@H]1O2)c3c2cc(OC)c4c3OC(=O)C5=C4CCC(=O)5
あとは量子化学計算
OpenBABEL
第一原理計算 on クラスタ• いわゆる massively parallel• 分子量 500 程度が限界– Intel Xeon 5570 (2.93GHz) 4 コア 12時間で計算
できる限界–創薬における Lipinsky’s Rule に合う– これ以上になると分子の高次の構造が重要に
なる ( タンパク質など )
どうやっているか• 計算がおわったらアップロード– http://pubchemqc.riken.jp/– 入力ファイル、出力ファイル、最終的な分子
構造だけを切り出した molファイル
PubChemQC http://pubchemqc.riken.jp/
まだ「ググ」れません
PubChemQC http://pubchemqc.riken.jp/
PubChemQC http://pubchemqc.riken.jp/
The PubChemQC Project
• http://pubchemqc.riken.jp/• PubChem プロジェクトから分子情報を得て、ひ
たすら分子の構造などを第一原理計算によって求める ( 実験値の代替可能程度 )
• 2014/1/15– 1 万 3千分子
• 2014/7/29– 155,792 分子 + 励起状態 155,456 分子
• 2014/10/30– 906,798 分子 +励起状態 906,229 分子
このプロジェクトの難しさ• 分子の第一原理計算に必要なパラメータが必ず
しも統一的ではない。• 分子によって収束回数が大きく違う。最終結果
も初期構造に引きずられてしまうこともある。• 計算リソース確保– Raspberry Pi? NVIDIA Jetson? Bonic?
• 分子の符号化は本質的にはグラフ理論を使う…同形の計算量が多すぎるため、 heuristic なものとなる…
経験から得られた感覚• 炭素の三重結合を含むと最適化が難しい。• 分子量が 500 程度の分子は、「分子の名前」で構造はほぼ決定されている– B3LYP による補正は軽微 ( だが重要 )
• 分子量 1000以上の分子の構造最適化は「分子の名前」だけでは難しいかも。– なかなか収束しない– タンパク質は電荷や水の効果が大きい
The PubChemQC Project
• RICC ( 理研情報基盤センターのスパコン )+Quest(Core2 quad 1.6GHz/node x 700台弱 ) で計算
• Quest: 1 日数千 -2 万分子程度• RICC 1024 コア使うと 3000-30000 分子 /day• Corei7 920 だと 5-20 分子 /day• E5-2650 v2 (2.60GHz) 10-30 分子 /day• 一日一万分子計算できても 5000 万分子計算するには…
なんと– 5000 日 =14+ 年 !!!– 工夫が必要 (Raspberry Pi? NVIDIA Jetson? ボランティア ?)
• 京を全ノード使えば 20 日で全部計算可能かも– 1 コアあたり 30 分子 / 日とすると、 270 万分子 / 日– 20 日くらいあれば全分子計算できるだろう
全部計算するのに何年かかるか ?
• 今のままでは 20 年はかかるだろう…• でも 25 年前のコンピュータは ??(1990 年 )• 486DX@25MHz• 68000@10MHz
応用、発展の可能性• 超高精度な有機合成、インシリコ創薬が可能になるかも!• 機械学習の導入で超高速な量子化学計算
– 秒速で 1 億分子計算できるようになるかも
– すでに論文が出始めてる…– 有機分子、生体分子はそんなに難しくないはず
• 欲しい物性を持った分子を一発検索できるようになる。– こんなところにある官能基がついていて、– こんなところに HOMO が張り出しててこの分子の LUMO と反応– このエネルギー付近に励起状態があって光反応してほしい
• 化学反応データベースも創りたい– 精密な量子化学計算が必要 + 重要– GRRM と機械学習を組み合わせる ?
• PDB に登録されているタンパク質の構造最適化の自動化http://pubchemqc.riken.jp/