29
1 1 超並列大規模電子状態計算向け 実空間密度汎関数法コード(RSDFT)の開発 ~10,000原子Siクラスターへの応用~ 筑波大学計算科学研究センター 岩田潤一 CONTENTS ・密度汎関数法と大規模第一原理計算 ・実空間密度汎関数法コード(RSDFT) ・Si量子ドットからバルクSi結晶の物性へ (数100~10,000原子超~∞のシステムへ)

超並列大規模電子状態計算向け 実空間密度汎関数法コード ......2009/04/13  · 2 1 ( ) ( ) 2 1 [ ] 1 * 2 r r r r r r r r r r r ρ ρ ρ ρ φ φ XC Ion N n E

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

  • 11

    超並列大規模電子状態計算向け実空間密度汎関数法コード(RSDFT)の開発

    ~10,000原子Siクラスターへの応用~

    筑波大学計算科学研究センター 岩田潤一

    CONTENTS

    ・密度汎関数法と大規模第一原理計算

    ・実空間密度汎関数法コード(RSDFT)

    ・Si量子ドットからバルクSi結晶の物性へ(数100~10,000原子超~∞のシステムへ)

  • 22

    第一原理電子状態計算と

    密度汎関数法

  • 原理的にはこれを解けば全てわかる・・が、実際に解くのは不可能・・

    第一原理計算1

    ),,(),,(121

    21

    21211 11

    2ee

    ee ee

    NkkNk

    N

    I

    N

    i Ii

    IN

    ji

    N

    ij ji

    N

    ii E

    Z rrrrrrRrrr

    LL Φ=Φ⎥⎥⎦

    ⎢⎢⎣

    −+

    −+∇− ∑∑∑∑∑

    = =≠ ≠=

    運動エネルギー 電子間相互作用 電子‐イオン相互作用

    ),,,(),,,()( 202*032 eee NNNe

    dddN rrrrrrrrrr KKL ΦΦ= ∫ρ

    0== kEE基底状態(k=0)のエネルギー

    (基底状態の)電子密度

    多電子系のシュレーディンガー方程式

    物性物理の研究対象 → 原子、分子、固体(電子とイオン(原子核)からなる多体系)

  • ∫∫ ∫∑ ∫ ++′−′

    ′+∇−==

    )()(][)(21)()(

    21][

    1

    2* rrrrr

    rrrrrr ρρρφφρ IonXCN

    nnnn vdEdddfE

    e

    ∑=

    =N

    nnnf

    1

    2)()( rr φρ

    第一原理計算2 - 密度汎関数法 -

    エネルギー

    電子密度

    → 量子力学的多体問題を扱い易い形にすることができる

    Hohenberg-Kohnの定理

    ・基底状態のエネルギーは電子密度の汎関数として書ける・密度に関する変分原理(エネルギー最小原理)が成り立つ

    )()()()]([)]([21 2 rrrrr nnnIonXCHartree vvv φεφρρ =⎟

    ⎠⎞

    ⎜⎝⎛ +++∇−

    Kohn-Sham 方程式

    3次元の関数 を扱う(非線形)固有値問題 → Self-consistentに解く

    P. Hohenberg and W. KohnPhys. Rev. 136, B864 (1964).

    W. Kohn and L. J. Sham,Phys. Rev. 140, A1133 (1965).

    交換相関エネルギー

  • 55

    密度汎関数法の威力密度汎関数法の威力

    ダイヤモンド構造→最安定

    体積小↓βスズ構造

    M. T. Yin and M. L. CohenPhys. Rev. B26, 5668 (1982).

    → 単純な理論(近似)で高い定量性Si結晶:全エネルギー vs 体積

    → 原子数 N の3乗に比例する計算量

    )(3)]([ 3/13/1

    rr ρπ

    ρ ⎟⎠⎞

    ⎜⎝⎛−=Xv

    局所密度近似(LDA)による交換汎関数

    単純な近似で軽い計算量、かつ定量性がある

    DFTDFT計算計算 実験値実験値

    格子定数格子定数((ÅÅ)) 5.375.37 5.415.41

    体積弾性率体積弾性率(Mb)(Mb) 0.9770.977 0.9880.988

    Si(ダイヤモンド構造)

    → 高い定量性

    格子定数 ~1%体積弾性率 ~10%凝集エネルギー ~0.1eV

  • 66

    密度汎関数法の広がり

    ・様々な分野で様々な応用物理化学産業(材料開発のツール)

    ・1998年ノーベル化学賞 (W. Kohn)

    ・非常に多くの物理量を定量的に記述できるエネルギー安定性安定原子構造電子構造(バンド図)第一原理分子動力学(Car-Parrinello MD)光応答、励起エネルギー(Time-Dependent DFT)電気伝導、etc.

    ・非常に多くの物質に適用できる(tryだけならほとんど全て)

    ・理想のDFT計算コードありとあらゆる物質のありとあらゆる性質を短時間で知ることができる

  • 77

    現在日常的にDFT計算で扱われるシステムサイズ → 数100原子

    大規模第一原理計算

    Proteins(cytochrome c oxidase)~30,000 atoms

    Si pyramid~100,000 atoms

    A. Ichimiya et al., Surf. Sci. 493, 555 (2001).

    “ありとあらゆる物質”の中には数百原子で収まらない系が無数に存在する・・・

    ・原子モデルの切り出しサイズを大きく取れる(よりrealisticなモデルを使える)・

    たんぱく質 ナノ構造

  • 88

    実空間法による大規模電子状態計算コードの開発

    超並列計算機に向いた手法の採用(~100、~1,000、~10,000CPU→次世代スパコン、・・・)

    オーダーN3アルゴリズム (cf. オーダーN法)(慣れ親しんだ計算手法で、計算機パワーで)

    培ったノウハウは他にも活かせるだろう

    → 計算機能力をフル活用することで大規模系のDFT計算を目指す!→ 即、実アプリケーションに適用できる!

    → Higher-order finite differencepseudopotential method

    Chelikowsky et al., Phys. Rev. B, (1994)

  • 99

    ONETEPM. C. PayneDensity-Matrix Minimization

    E. TsuchidaLiquid Ethanol(125molcules, 1125 atoms)KMG functional

    SIESTADensity-Matrix, Divide-and-Conquer

    CONQUESTHydrated DNA (3439atoms)Si(001)上のGeハットクラスターES512CPU(64node), 22,746原子,10min

    L.-W. Wang15,000 Si2048CPU, 30min(1point calc.)2000 CdSe, 8000CPU

    Fragment MOMP2, インフルエンザ抗原抗体地球シミュレータ、4096CPU14,000原子、1時間弱

    ProteinDFインスリン6量体、4716原子、26766基底12×35時間(Itanium2×32)

    PHASE(Car-Parrinello、平面波)10,648原子バルクSi, AsES

    J. R. CheliikowskySi9041H1860クラスターItanium(1.6GHz)×16CPU、294時間

    RSDFTSi10701H1996クラスターPACS-CS(LV-Xeon2.8GHz)×1,024CPU約5日

    オーダーN & オーダーN3 法による大規模電子状態計算

    オーダーN法オーダーN法 オーダーN3法オーダーN3法

    ・オーダーN法は開発途上さらなる近似が入る金属(波動関数が広がる物)が苦手馴染みのないパラメータ(密度行列のカットオフ)

    ・オーダーN3法は現在やっているのと全く同じ計算

  • 実空間密度汎関数法コード

  • 1111

    2 6

    26

    ( , , ) ( , , )n m nm

    x y z C x m x y zxψ ψ

    =−

    ∂≈ + ∆

    ∂ ∑

    1( ) ( ) ( ) ( )

    Mesh

    m n m i n ii

    d x y zψ ψ ψ ψ=

    ≈ ∆ ∆ ∆∑∫ r r r r r

    実空間差分法疎行列FFTが要らない

    KS 方程式 (finite-difference eq.)

    3D grid is divided by several regionsfor parallel computation.

    Higher-order finite difference

    Integration

    MPI_ISEND, MPI_IRECV

    MPI_ALLREDUCE

    実空間DFTコードによる超並列第一原理計算

    MPI ( Message Passing Interface ) libraryを使用

    (隣接通信)

    )()()()]([21 2 rrrr nnnIonHXC vv φεφρ =⎟

    ⎠⎞

    ⎜⎝⎛ ++∇−

    CPU0

    CPU8CPU7CPU6

    CPU5CPU4CPU3

    CPU2CPU1

  • 1212

    •平面波基底計算で培ったノウハウが通用する( cutoff energy ⇔ mesh size )(psudopotential)

    Ψ=0

    isolated(molecules, clusters)

    •境界条件を柔軟に設定できる

    ・並列化が容易(FFTが必要ない)

    実空間法の利点実空間法の利点

    ・・・ ・・・

    Ψ=0

    Ψ(r+R)=Ψ(r)

    Mixed(Surfaces)

    ・・・・・・

    ・・・

    Ψ(r+R)=Ψ(r)

    Periodic(solids)

    ↓(RSSOL)

    ↓(RSMOL)

  • 1313

    ・原子数 N → PACS-CS 数千~1万次世代機 数万~10万

    ・格子点数 ML → N×216程度(シリコン系の場合)→ N×2468程度(たんぱく質系)

    ・固有ベクトルの本数 MB → N×2程度

    ・必要なメモリ ~ (ML×MB×2)×8バイトメモリ ~ O(ML×MB) ~ O(N2)演算量 ~ O(ML×MB2) ~ O(N3)通信量 ~ O(MB2) ~ O(N2)

    計算パラメータ計算パラメータ

    原子数原子数 NN 格子点数格子点数 MLML バンド本数バンド本数 MBMB 全メモリ全メモリ

    10001000 216000216000 20002000 6.4 (GB)6.4 (GB)

    1064810648 22999682299968 2129621296 730 (GB)730 (GB)

    9733697336 2102457621024576 194672194672 60 (TB)60 (TB)

    扱う原子の種類でメッシュサイズがほぼ決まる。

    システムサイズ10倍で・・・

    → メモリ100倍→ 計算時間1000倍

    Si原子系の計算パラメータ

    問題設定:ML次元エルミート(対称)行列の固有値問題を下からMB本解く

  • 1414

    { }1 2( ), ( ), , ( )Nψ ψ ψr r rK

    アルゴリズム → 部分空間反復法(共役勾配法)(Rayleigh-Ritz法)

    M次元ハミルトニアンの固有値・固有ベクトルを下からN(≪M)本求める問題

    )()()()]([21 2 rrrr nnnIonHXC vv ψεψρ =⎟

    ⎠⎞

    ⎜⎝⎛ ++∇−

    N N n n nc cε×

    ⎛ ⎞⎛ ⎞ ⎛ ⎞⎜ ⎟⎜ ⎟ ⎜ ⎟=⎜ ⎟⎜ ⎟ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠⎝ ⎠ ⎝ ⎠

    H r r

    ,m n m KS nH Hψ ψ=

    ,1

    ( ) ( )N

    n n m mm

    cψ ψ=

    ′ = ∑r r

    O(MN2), O(N3)対角化

    [ ]n KS nn

    n n

    Hψ ρ ψε

    ψ ψ= → minimize

    共役勾配法 O(MN)

    1

    1

    n

    n n m m nm

    ψ ψ ψ ψ ψ−

    =

    ′ = −∑Gram-Schmidt 直交化 O(MN2)

    M:格子点数N:バンド本数(≪M)

    Rayleigh quotient

    Ritz vectors

  • 1515

    (Convergence Check)

    Flow chart

    Conjugate-Gradient Method(or Residual-Minimization Method)

    Gram-Schmidt orthonormalization

    Density, Potentials update

    Subspace Diagonalization

    Number of atoms N(格子点数、バンド本数はともに N に比例して増える)

    Computational Cost~O(N3)

    ε

  • 1616

    600

    400

    200

    0

    Tim

    e (s

    ec)

    512 1000 1728 2744 4096

    Number of Si atoms

    CG GS SD Others

    SCF反復1ステップの計算時間PACS-CS(5.6GFLOPS/node)256nodes

    → O(N2)部分(CG)とO(N3)部分(GS,SD)の計算時間が同程度

  • 1717

    Gram-Schmidtorthogonalization

    Time (sec)Time (sec) GFLOPS/nodeGFLOPS/node

    Old algorithmOld algorithm 661 (710)661 (710) 0.70 (0.65)0.70 (0.65)

    New algorithmNew algorithm 111 (140)111 (140) 4.30 (3.50)4.30 (3.50)

    Time & Performance for Gram-Schmidt

    O(N3) part can be computed at 80% of the theoretical peak performance!

    ~Active use of Level 3 BLAS in O(N3) computation~

    → Collaboration with computer and computational scientistsmuch improve the performance of the RSDFT!

    Theoretical peak performance = 5.6 GFLOPS/node

    1 1

    2 2 1 1 2

    3 3 1 1 3 2 2 3

    4 4 1 1 4 2 2 4 3 3 4

    5 5 1 1 5 2 2 5 3 3 5 4 4 5

    6 6 1 1 6 2 2 6 3 3 6 4 4 6 5 5 6

    ψ ψψ ψ ψ ψ ψ

    ψ ψ ψ ψ ψ ψ ψ ψ

    ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ

    ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ

    ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ ψ

    ′ =

    ′ ′ ′= −

    ′ ′ ′ ′ ′= − −

    ′ ′ ′ ′ ′ ′ ′= − − −

    ′ ′ ′ ′ ′ ′ ′ ′ ′= − − − −

    ′ ′ ′ ′ ′ ′ ′ ′ ′ ′ ′= − − − − −

    Part of the calculations can beperformed as Matrix × Matrix operation!

    Algorithm of GS

  • 1818

    # of atoms:4096Grid points:96^3=884736# of WF:8196# of CPU:256

    Bulk Si (4096atoms)

    Time (sec)Time (sec) MFLOPS/nodeMFLOPS/node

    Subspace Subspace diagdiag O(NO(N33)) 312312 22702270

    GramGram--SchmidtSchmidt直交化直交化O(NO(N33)) 140140 35003500

    ConjugateConjugate--GradientGradient O(NO(N22)) 305305 78.878.8

    TOTALTOTAL 777777 15401540

    10-17

    10-15

    10-13

    10-11

    10-9

    10-7

    |n-n

    0|^2

    50403020100# of iteration

    Convergence of Density

    Time and performance for 1iteration

    理論ピーク性能:5.6GFLOPS/node

    →8×8×8倍のセル

  • Si中複空孔欠陥の構造 Si divacancyの構造 :黄色い小球の位置にあった2原子が欠落している。その結果緑球の原子は結合の手(ボンド)が余ることになる。

    a c

    ba'c'

    b'

    a c

    ba'c'

    b'

    実験事実と矛盾しない2つの構造緩和の可能性

    レゾナントボンド型

    ラージペアリング型

    a'c'

    b

    ca

    b'v

    v

    dac

    dab

    ・214原子までのユニットセル計算では「レゾナントボンド型」。・1000原子程度のユニットセルから構造緩和に寄与すると思われる部分だけを切り出したクラスターモデル(~300原子程度)では「ラージペアリング型」。

    DFTに基づく第一原理計算においても2つの異なる結果が報告されている・・・DFTに基づく第一原理計算においても2つの異なる結果が報告されている・・・

    EPR experiment(Watkins & Corbett, 1965)

    LDA calculation(Saito & Oshiyama, 1994)

    「ラージペアリング型だろう」「レゾナントボンド型も実験とは矛盾しない」

    V2-の構造は?

    モデルサイズの違いで異なる結果が得られている?→1,000原子のモデルで確かめる!

  • 3.63.43.23.02.82.6

    62 214 510 998Supercell size ( # of atoms )

    d ac,

    d ab

    (Å)

    ~ Si divacancy ~

    Resonant Bond type Large-Paring type

    a c

    ba'c'

    b'a

    b

    ca’c’

    b’ a c

    ba'c'

    b'a

    b

    c

    a’c’

    b’

    Which type of relaxation takes place in the ground state?

    ・v・v

    Converged (model size independent)results are obtained !

    Large-paring structure is appeared inlarge size supercell.

    We conclude Resonant-Bond type is themost stable structure.

    Convergence of bond distances

    Large-paring

    Resonant-Bond

    Si atom

    Vacant site

    This is a long standing problem in semiconductor physics.

    We perform structure optimization of systems of 1000 atomsin order to get converged (model size independent) results.

    a'c'

    b

    ca

    b'v

    v

    dac

    dab

    Small-Paring

  • 2121

    10-10

    10-9

    10-8

    10-7

    10-6

    10-5

    10-4

    10-3

    10-2

    10-1

    |Vnew-Vold|^2

    50403020100iteration

    Convergence properties for Si10701H1996Si10701H1996

    格子点数 3402059バンド本数 22432

    CPU=1024nodeMemory=1.4GB/node

    計算 PACS-CS(@筑波大学)(理論ピーク5.6GFLOPS/node)

    Calculation for 10,000 ‒atom Systems on PACS-CS

    Computational Time

    1反復=6781 sec.

    (内訳)DTCG=2680 sec.Gram-Schmidt=1184 sec.DIAG=2350 sec.Total Energy Calc.=562 sec.

    O(N3)O(N3)O(N2)

    O(N2)

  • 2222

    Summary of RSDFT

    実空間差分法に基づく超並列計算機向け密度汎関数コードの開発(次世代スパコン中核アプリの一つ)

    計算科学・計算機科学者との共同研究

    O(N3)の演算部分は理論ピークに近い性能で実行可能(BLAS 3)

    数100~1,024CPUを用いて

    ・Si1,000原子系の構造最適化・Si1万原子系のself-consistentな電子状態

    の計算が可能になった

  • 2323

    Si ナノドットからバルクSiへ

    荷電エネルギーとバンドギャップ

  • 2424

    ・Siドット研究動機のひとつ

    → Visible luminescence from porous SiL. T. Canham, Appl. Phys. Lett. 57, 1046 (1990).

    Siナノドットのバンドギャップ、荷電エネルギーは重要な物理量となるしかしnmサイズの系というのは非常な大規模系である・・・

    研究動機

    閉じ込め効果でバンドギャップが開いて光る?ドットサイズとバンドギャップの関係は?

    ・もう一つの動機 → 大規模第一原理計算への挑戦

    実空間DFTコードの応用→直径2nm~7.6nm(数100~1万原子)Siドットのギャップを系統的に調べる

    ドットサイズを大きくして行くことでバルク極限が見えるか?

    → デバイス応用(不揮発メモリ、多値メモリ、SET).

  • 2525

    直径6.6nmのドット(Si7055H1596)

    モデル

    バルクSiからある半径の内側にあるものだけ切り出す

    直径 = 2.4nm ~ 7.6nm(数百~1万原子超)

    表面は水素原子で終端

    孤立系の境界条件

    Computational parameters

    ・Troullier-Martins pseudopotetial・LDA・Mesh size = 0.847 (a.u.) (~14Ry)

    The results is changed by 0.01eVwith the mesh size 0.726 (a.u.).

  • 2626

    Band gap

    LDA (LDA (eVeV)) ExptExpt. (. (eVeV))

    CC 3.903.90 5.485.48

    SiSi 0.540.54 1.171.17

    GaAsGaAs 0.370.37 1.521.52

    種々の物質の band gap の計算値と実験値

    )(2)1()1(

    )()(

    NENENE

    NANIEg−−++=

    −=

    ・Definition

    I(N) → Ionization potentialA(N) → Electron affinityE(N) → N電子系の全エネルギー

    ・LDA band gap→ difference of Highest-Occupied

    and Lowest-Unoccupied KS eigenvalues

    )()(1 NN NN εε −+

    Band gap problem in LDA1−Nε

    1+Nε

    Nε (HOKS)

    (LUKS)

    1=nf

    0=nf

    Vacuum (o eV)

    Occupationnumber↓

    ΔSCF計算

  • 2727

    Experimental Band Gap 1.17 (eV)

    LDA bulk band gap 0.553 (eV)

    Energy gap of Si dots

    ( 1) ( 1) 2 ( )SCFE E N E N E N∆ = + + − −

    0.8

    0.6

    0.4

    0.2

    0.0

    DO

    S (a

    rb. u

    nit)

    -12 -8 -4 0 4

    Energy (eV)

    Si5011H1276 Si6047H1308

    M. T. Yin, M. L. CohenPhys. Rev. B 26, 5668 (1982).

    Density of states of Si cluster Density of states of bulk Si

    2.5

    2.0

    1.5

    1.0

    Ener

    gy (e

    V)

    318 1978 4006 6047 10701 bulkCluster Size ( # of Si atoms )

    ∆SCF HOMO-LUMO gap

    Diameter of the dots : from 2.4nm to 7.6nm

    0.67(eV)

    1.07(eV)

  • 2828

    ( 近似(LDA, GGAなど)によらず成り立つ)Janakの定理

    ∫=−=−−1

    0)()()1()( fdfNINENE Nε

    ∫ +=−=−+1

    0 1)()()()1( fdfNANENE Nε

    iif

    E ε=∂∂

    J. F. JanakPhys. Rev. B18, 7165 (1978).

    (微分型) (積分型)

    イオン化ポテンシャル定理( 近似なしのDFTでのみ成り立つ) Phys. Rev. B56, 16021 (1997).

    J. P. Perdew and M. Levy

    Phys. Rev. Lett.49, 1691 (1982).J. P. Perdew et al.

    )()1()()( NINENENN −=−−=ε

    )()()1()1(1 NANENENN −=−+=++ε )()1(

    )()(

    1 NN

    NANIE

    NN

    g

    εε −+=

    −=

    +

    → したがって、近似なしのDFTではバンドギャップは次のようにも表せる

  • 2929

    Summary

    超並列計算機向け、Real-Space Density Functional Theory(RSDFT)コードを開発し、それにより1万原子(半径3.8nm)クラスのSi量子ドットの第一原理計算が可能となった

    1万Si原子系の第一原理計算という非常に複雑な計算結果にもかかわらず、チャージした時のドットのKSレベルシフトと、ΔSCFギャップ、KSギャップの間の関係式は非常に単純である。

    厳密なDFTでは成り立つが、LDAでは成り立たないと思われていた関係式が(近似的に)大きいサイズの量子ドット系の計算では成り立つ。

    バンドギャップの収束値を得るにはさらに多くの原子数が要るが、数100~1万原子という広範なモデルサイズを扱えるようになったため、物理量の変化(バルクへの外挿)が十分見えるようになった。