超並列大規模電子状態計算向け実空間密度汎関数法コード ......2009/04/13 · 2 1 ( ) ( ) 2 1 [ ] 1 * 2 r r r r r r r r r r r ρ ρ ρ ρ φ φ XC Ion N n E

11

超並列大規模電子状態計算向け実空間密度汎関数法コード(RSDFT)の開発

～10,000原子Siクラスターへの応用～

筑波大学計算科学研究センター岩田潤一

CONTENTS

･密度汎関数法と大規模第一原理計算

･実空間密度汎関数法コード（RSDFT）

･Si量子ドットからバルクSi結晶の物性へ(数100～10,000原子超～∞のシステムへ)

22

第一原理電子状態計算と

密度汎関数法

原理的にはこれを解けば全てわかる・・が、実際に解くのは不可能・・

第一原理計算1

),,(),,(121

21

21211 11

2ee

ee ee

NkkNk

N

I

N

i Ii

IN

ji

N

ij ji

N

ii E

Z rrrrrrRrrr

LL Φ=Φ⎥⎥⎦

⎤

⎢⎢⎣

⎡

−+

−+∇− ∑∑∑∑∑

= =≠ ≠=

運動エネルギー電子間相互作用電子‐イオン相互作用

),,,(),,,()( 202*032 eee NNNe

dddN rrrrrrrrrr KKL ΦΦ= ∫ρ

0== kEE基底状態(k=0)のエネルギー

(基底状態の)電子密度

多電子系のシュレーディンガー方程式

物性物理の研究対象 → 原子、分子、固体（電子とイオン(原子核)からなる多体系）

∫∫ ∫∑ ∫ ++′−′

′+∇−==

)()(][)(21)()(

21][

1

2* rrrrr

rrrrrr ρρρφφρ IonXCN

nnnn vdEdddfE

e

∑=

=N

nnnf

1

2)()( rr φρ

第一原理計算2 －密度汎関数法－

エネルギー

電子密度

→ 量子力学的多体問題を扱い易い形にすることができる

Hohenberg-Kohnの定理

・基底状態のエネルギーは電子密度の汎関数として書ける・密度に関する変分原理（エネルギー最小原理）が成り立つ

)()()()]([)]([21 2 rrrrr nnnIonXCHartree vvv φεφρρ =⎟

⎠⎞

⎜⎝⎛ +++∇−

Kohn-Sham 方程式

3次元の関数を扱う(非線形)固有値問題 → Self-consistentに解く

P. Hohenberg and W. KohnPhys. Rev. 136, B864 (1964).

W. Kohn and L. J. Sham,Phys. Rev. 140, A1133 (1965).

交換相関エネルギー

55

密度汎関数法の威力密度汎関数法の威力

ダイヤモンド構造→最安定

体積小↓βスズ構造

M. T. Yin and M. L. CohenPhys. Rev. B26, 5668 (1982).

→ 単純な理論(近似)で高い定量性Si結晶：全エネルギー vs 体積

→ 原子数 N の3乗に比例する計算量

)(3)]([ 3/13/1

rr ρπ

ρ ⎟⎠⎞

⎜⎝⎛−=Xv

局所密度近似（LDA）による交換汎関数

単純な近似で軽い計算量、かつ定量性がある

DFTDFT計算計算実験値実験値

格子定数格子定数((ÅÅ)) 5.375.37 5.415.41

体積弾性率体積弾性率(Mb)(Mb) 0.9770.977 0.9880.988

Si（ダイヤモンド構造）

→ 高い定量性

格子定数～1％体積弾性率～10％凝集エネルギー～0.1eV

66

密度汎関数法の広がり

･様々な分野で様々な応用物理化学産業（材料開発のツール）

･1998年ノーベル化学賞 (W. Kohn)

･非常に多くの物理量を定量的に記述できるエネルギー安定性安定原子構造電子構造（バンド図）第一原理分子動力学（Car-Parrinello MD）光応答、励起エネルギー（Time-Dependent DFT）電気伝導、etc.

･非常に多くの物質に適用できる（tryだけならほとんど全て）

･理想のDFT計算コードありとあらゆる物質のありとあらゆる性質を短時間で知ることができる

77

現在日常的にDFT計算で扱われるシステムサイズ → 数100原子

大規模第一原理計算

Proteins（cytochrome c oxidase）～30,000 atoms

Si pyramid～100,000 atoms

A. Ichimiya et al., Surf. Sci. 493, 555 (2001).

“ありとあらゆる物質”の中には数百原子で収まらない系が無数に存在する･･･

･原子モデルの切り出しサイズを大きく取れる（よりrealisticなモデルを使える）･

たんぱく質ナノ構造

88

実空間法による大規模電子状態計算コードの開発

超並列計算機に向いた手法の採用（～100、～1,000、～10,000CPU→次世代スパコン、･･･）

オーダーN３アルゴリズム（cf. オーダーＮ法）（慣れ親しんだ計算手法で、計算機パワーで）

培ったノウハウは他にも活かせるだろう

→ 計算機能力をフル活用することで大規模系のDFT計算を目指す！→ 即、実アプリケーションに適用できる！

→ Higher-order finite differencepseudopotential method

Chelikowsky et al., Phys. Rev. B, (1994)

99

ONETEPM. C. PayneDensity-Matrix Minimization

E. TsuchidaLiquid Ethanol(125molcules, 1125 atoms)KMG functional

SIESTADensity-Matrix, Divide-and-Conquer

CONQUESTHydrated DNA (3439atoms)Si(001)上のGeハットクラスターES512CPU(64node), 22,746原子,10min

L.-W. Wang15,000 Si2048CPU, 30min(1point calc.)2000 CdSe, 8000CPU

Fragment MOMP2, インフルエンザ抗原抗体地球シミュレータ、4096CPU14,000原子、1時間弱

ProteinDFインスリン6量体、4716原子、26766基底12×35時間（Itanium2×32）

PHASE(Car-Parrinello、平面波)10,648原子バルクSi, AsES

J. R. CheliikowskySi9041H1860クラスターItanium(1.6GHz)×16CPU、294時間

RSDFTSi10701H1996クラスターPACS-CS(LV-Xeon2.8GHz)×1,024CPU約5日

オーダーN ＆オーダーN3 法による大規模電子状態計算

オーダーN法オーダーN法オーダーN3法オーダーN3法

･オーダーN法は開発途上さらなる近似が入る金属（波動関数が広がる物）が苦手馴染みのないパラメータ（密度行列のカットオフ）

･オーダーN3法は現在やっているのと全く同じ計算

実空間密度汎関数法コード

1111

2 6

26

( , , ) ( , , )n m nm

x y z C x m x y zxψ ψ

=−

∂≈ + ∆

∂ ∑

1( ) ( ) ( ) ( )

Mesh

m n m i n ii

d x y zψ ψ ψ ψ=

≈ ∆ ∆ ∆∑∫ r r r r r

実空間差分法疎行列FFTが要らない

KS 方程式 (finite-difference eq.)

3D grid is divided by several regionsfor parallel computation.

Higher-order finite difference

Integration

MPI_ISEND, MPI_IRECV

MPI_ALLREDUCE

実空間DFTコードによる超並列第一原理計算

MPI ( Message Passing Interface ) libraryを使用

（隣接通信）

)()()()]([21 2 rrrr nnnIonHXC vv φεφρ =⎟

⎠⎞

⎜⎝⎛ ++∇−

CPU0

CPU8CPU7CPU6

CPU5CPU4CPU3

CPU2CPU1

1212

•平面波基底計算で培ったノウハウが通用する（ cutoff energy ⇔ mesh size ）（psudopotential）

Ψ=0

isolated（molecules, clusters）

•境界条件を柔軟に設定できる

・並列化が容易（FFTが必要ない）

実空間法の利点実空間法の利点

・・・・・・

Ψ=0

Ψ(r+R)=Ψ(r)

Mixed（Surfaces）

・・・・・・

・・・

Ψ(r+R)=Ψ(r)

Periodic（solids）

↓(RSSOL)

↓(RSMOL)

1313

・原子数Ｎ → PACS-CS 数千～1万次世代機数万～10万

・格子点数 ML → N×216程度（シリコン系の場合）→ N×2468程度（たんぱく質系）

・固有ベクトルの本数 MB → N×２程度

・必要なメモリ～（ML×MB×２）×８バイトメモリ～ O(ML×MB) ～ O(N2)演算量～ O(ML×MB2) ～ O(N3)通信量～ O(MB2) ～ O(N2)

計算パラメータ計算パラメータ

原子数原子数ＮＮ格子点数格子点数 MLML バンド本数バンド本数 MBMB 全メモリ全メモリ

10001000 216000216000 20002000 6.4 (GB)6.4 (GB)

1064810648 22999682299968 2129621296 730 (GB)730 (GB)

9733697336 2102457621024576 194672194672 60 (TB)60 (TB)

扱う原子の種類でメッシュサイズがほぼ決まる。

システムサイズ10倍で・・・

→ メモリ100倍→ 計算時間1000倍

Si原子系の計算パラメータ

問題設定：ML次元エルミート(対称)行列の固有値問題を下からMB本解く

1414

{ }1 2( ), ( ), , ( )Nψ ψ ψr r rK

アルゴリズム → 部分空間反復法（共役勾配法）（Rayleigh-Ritz法）

M次元ハミルトニアンの固有値･固有ベクトルを下からN(≪M)本求める問題

)()()()]([21 2 rrrr nnnIonHXC vv ψεψρ =⎟

⎠⎞

⎜⎝⎛ ++∇−

N N n n nc cε×

⎛ ⎞⎛ ⎞ ⎛ ⎞⎜ ⎟⎜ ⎟ ⎜ ⎟=⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠⎝ ⎠ ⎝ ⎠

H r r

,m n m KS nH Hψ ψ=

,1

( ) ( )N

n n m mm

cψ ψ=

′ = ∑r r

O(MN2), O(N3)対角化

[ ]n KS nn

n n

Hψ ρ ψε

ψ ψ= → minimize

共役勾配法 O(MN)

1

1

n

n n m m nm

ψ ψ ψ ψ ψ−

=

′ = −∑Gram-Schmidt 直交化 O(MN2)

M：格子点数N：バンド本数（≪M）

Rayleigh quotient

Ritz vectors

1515

(Convergence Check)

Flow chart

Conjugate-Gradient Method（or Residual-Minimization Method）

Gram-Schmidt orthonormalization

Density, Potentials update

Subspace Diagonalization

Number of atoms N（格子点数、バンド本数はともに N に比例して増える）

Computational Cost～O(N3)

ε

1616

600

400

200

0

Tim

e (s

ec)

512 1000 1728 2744 4096

Number of Si atoms

CG GS SD Others

SCF反復１ステップの計算時間PACS-CS(5.6GFLOPS/node)256nodes

→ O(N2)部分(CG)とO(N3)部分(GS,SD)の計算時間が同程度

1717

Gram-Schmidtorthogonalization

Time (sec)Time (sec) GFLOPS/nodeGFLOPS/node

Old algorithmOld algorithm 661 (710)661 (710) 0.70 (0.65)0.70 (0.65)

New algorithmNew algorithm 111 (140)111 (140) 4.30 (3.50)4.30 (3.50)

Time & Performance for Gram-Schmidt

O(N3) part can be computed at 80% of the theoretical peak performance!

～Active use of Level 3 BLAS in O(N3) computation～

→ Collaboration with computer and computational scientistsmuch improve the performance of the RSDFT!

Theoretical peak performance = 5.6 GFLOPS/node

1 1

2 2 1 1 2

3 3 1 1 3 2 2 3

4 4 1 1 4 2 2 4 3 3 4

5 5 1 1 5 2 2 5 3 3 5 4 4 5

6 6 1 1 6 2 2 6 3 3 6 4 4 6 5 5 6

ψ ψψ ψ ψ ψ ψ

ψ ψ ψ ψ ψ ψ ψ ψ

ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ

ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ

ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ

′ =

′ ′ ′= −

′ ′ ′ ′ ′= − −

′ ′ ′ ′ ′ ′ ′= − − −

′ ′ ′ ′ ′ ′ ′ ′ ′= − − − −

′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′= − − − − −

Part of the calculations can beperformed as Matrix × Matrix operation!

Algorithm of GS

1818

# of atoms：4096Grid points：96^3=884736# of WF：8196# of CPU：256

Bulk Si (4096atoms)

Time (sec)Time (sec) MFLOPS/nodeMFLOPS/node

Subspace Subspace diagdiag O(NO(N33)) 312312 22702270

GramGram--SchmidtSchmidt直交化直交化O(NO(N33)) 140140 35003500

ConjugateConjugate--GradientGradient O(NO(N22)) 305305 78.878.8

TOTALTOTAL 777777 15401540

10-17

10-15

10-13

10-11

10-9

10-7

|n-n

0|^2

50403020100# of iteration

Convergence of Density

Time and performance for １iteration

理論ピーク性能：5.6GFLOPS/node

→8×8×8倍のセル

Si中複空孔欠陥の構造 Si divacancyの構造：黄色い小球の位置にあった2原子が欠落している。その結果緑球の原子は結合の手（ボンド）が余ることになる。

a c

ba'c'

b'

a c

ba'c'

b'

実験事実と矛盾しない2つの構造緩和の可能性

レゾナントボンド型

ラージペアリング型

a'c'

b

ca

b'v

v

dac

dab

･214原子までのユニットセル計算では「レゾナントボンド型」。･1000原子程度のユニットセルから構造緩和に寄与すると思われる部分だけを切り出したクラスターモデル（～300原子程度）では「ラージペアリング型」。

DFTに基づく第一原理計算においても2つの異なる結果が報告されている･･･DFTに基づく第一原理計算においても2つの異なる結果が報告されている･･･

EPR experiment(Watkins & Corbett, 1965)

LDA calculation(Saito & Oshiyama, 1994)

「ラージペアリング型だろう」「レゾナントボンド型も実験とは矛盾しない」

V2-の構造は？

モデルサイズの違いで異なる結果が得られている？→1,000原子のモデルで確かめる！

3.63.43.23.02.82.6

62 214 510 998Supercell size ( # of atoms )

d ac,

d ab

(Å)

～ Si divacancy ～

Resonant Bond type Large-Paring type

a c

ba'c'

b'a

b

ca’c’

b’ a c

ba'c'

b'a

b

c

a’c’

b’

Which type of relaxation takes place in the ground state?

・v・v

Converged (model size independent)results are obtained !

Large-paring structure is appeared inlarge size supercell.

We conclude Resonant-Bond type is themost stable structure.

Convergence of bond distances

Large-paring

Resonant-Bond

Si atom

Vacant site

This is a long standing problem in semiconductor physics.

We perform structure optimization of systems of 1000 atomsin order to get converged (model size independent) results.

a'c'

b

ca

b'v

v

dac

dab

Small-Paring

2121

10-10

10-9

10-8

10-7

10-6

10-5

10-4

10-3

10-2

10-1

|Vnew-Vold|^2

50403020100iteration

Convergence properties for Si10701H1996Si10701H1996

格子点数 3402059バンド本数 22432

CPU=1024nodeMemory＝1.4GB/node

計算 PACS-CS（@筑波大学）（理論ピーク5.6GFLOPS/node）

Calculation for 10,000 ‒atom Systems on PACS-CS

Computational Time

1反復=6781 sec.

（内訳）DTCG=2680 sec.Gram-Schmidt＝1184 sec.DIAG＝2350 sec.Total Energy Calc.＝562 sec.

O(N3)O(N3)O(N2)

O(N2)

2222

Summary of RSDFT

実空間差分法に基づく超並列計算機向け密度汎関数コードの開発（次世代スパコン中核アプリの一つ）

計算科学・計算機科学者との共同研究

O(N3)の演算部分は理論ピークに近い性能で実行可能（BLAS 3）

数100～1,024CPUを用いて

・Si1,000原子系の構造最適化・Si1万原子系のself-consistentな電子状態

の計算が可能になった

2323

Si ナノドットからバルクSiへ

荷電エネルギーとバンドギャップ

2424

･Siドット研究動機のひとつ

→ Visible luminescence from porous SiL. T. Canham, Appl. Phys. Lett. 57, 1046 (1990).

Siナノドットのﾊﾞﾝﾄﾞギャップ、荷電エネルギーは重要な物理量となるしかしnmサイズの系というのは非常な大規模系である・・・

研究動機

閉じ込め効果でバンドギャップが開いて光る？ドットサイズとバンドギャップの関係は？

･もう一つの動機 → 大規模第一原理計算への挑戦

実空間DFTコードの応用→直径2nm～7.6nm（数100～1万原子）Siドットのギャップを系統的に調べる

ドットサイズを大きくして行くことでバルク極限が見えるか？

→ デバイス応用（不揮発メモリ、多値メモリ、SET）.

2525

直径6.6nmのドット（Si7055H1596）

モデル

バルクSiからある半径の内側にあるものだけ切り出す

直径 = 2.4nm ～ 7.6nm（数百～１万原子超）

表面は水素原子で終端

孤立系の境界条件

Computational parameters

・Troullier-Martins pseudopotetial・LDA・Mesh size = 0.847 (a.u.) (～14Ry)

The results is changed by 0.01eVwith the mesh size 0.726 (a.u.).

2626

Band gap

LDA (LDA (eVeV)) ExptExpt. (. (eVeV))

CC 3.903.90 5.485.48

SiSi 0.540.54 1.171.17

GaAsGaAs 0.370.37 1.521.52

種々の物質の band gap の計算値と実験値

)(2)1()1(

)()(

NENENE

NANIEg−−++=

−=

・Definition

I(N) → Ionization potentialA(N) → Electron affinityE(N) → N電子系の全エネルギー

・LDA band gap→ difference of Highest-Occupied

and Lowest-Unoccupied KS eigenvalues

)()(1 NN NN εε −+

Band gap problem in LDA1−Nε

1ε

1+Nε

Nε (HOKS)

(LUKS)

1=nf

0=nf

Vacuum (o eV)

Occupationnumber↓

ΔSCF計算

2727

Experimental Band Gap 1.17 (eV)

LDA bulk band gap 0.553 (eV)

Energy gap of Si dots

( 1) ( 1) 2 ( )SCFE E N E N E N∆ = + + − −

0.8

0.6

0.4

0.2

0.0

DO

S (a

rb. u

nit)

-12 -8 -4 0 4

Energy (eV)

Si5011H1276 Si6047H1308

M. T. Yin, M. L. CohenPhys. Rev. B 26, 5668 (1982).

Density of states of Si cluster Density of states of bulk Si

2.5

2.0

1.5

1.0

Ener

gy (e

V)

318 1978 4006 6047 10701 bulkCluster Size ( # of Si atoms )

∆SCF HOMO-LUMO gap

Diameter of the dots : from 2.4nm to 7.6nm

0.67（eV）

1.07（eV）

2828

（近似(LDA, GGAなど)によらず成り立つ）Janakの定理

∫=−=−−1

0)()()1()( fdfNINENE Nε

∫ +=−=−+1

0 1)()()()1( fdfNANENE Nε

iif

E ε=∂∂

J. F. JanakPhys. Rev. B18, 7165 (1978).

（微分型）（積分型）

イオン化ポテンシャル定理（近似なしのDFTでのみ成り立つ） Phys. Rev. B56, 16021 (1997).

J. P. Perdew and M. Levy

Phys. Rev. Lett.49, 1691 (1982).J. P. Perdew et al.

)()1()()( NINENENN −=−−=ε

)()()1()1(1 NANENENN −=−+=++ε )()1(

)()(

1 NN

NANIE

NN

g

εε −+=

−=

+

→ したがって、近似なしのDFTではバンドギャップは次のようにも表せる

2929

Summary

超並列計算機向け、Real-Space Density Functional Theory（RSDFT）コードを開発し、それにより１万原子（半径3.8nm）クラスのSi量子ドットの第一原理計算が可能となった

1万Si原子系の第一原理計算という非常に複雑な計算結果にもかかわらず、チャージした時のドットのKSレベルシフトと、ΔSCFギャップ、KSギャップの間の関係式は非常に単純である。

厳密なDFTでは成り立つが、LDAでは成り立たないと思われていた関係式が（近似的に）大きいサイズの量子ドット系の計算では成り立つ。

バンドギャップの収束値を得るにはさらに多くの原子数が要るが、数100～1万原子という広範なモデルサイズを扱えるようになったため、物理量の変化（バルクへの外挿）が十分見えるようになった。

Documents

超並列大規模電子状態計算向け 実空間密度汎関数法コード ......2009/04/13 · 2 1 ( ) ( ) 2 1 [ ] 1 * 2 r r r r r r r r r r r ρ ρ ρ ρ φ φ XC Ion N n E

超並列大規模電子状態計算向け実空間密度汎関数法コード ......2009/04/13 · 2 1 ( ) ( ) 2 1 [ ] 1 * 2 r r r r r r r r r r r ρ ρ ρ ρ φ φ XC Ion N n E