12
SACLA大量回折像データの 超並列計算による迅速クラスタリング ツールの整備 (hp120214) 発表者: 城地 保昌 (JASRI/Spring8 XFEL) 研究代表者: 初井 宇記 (理研 XFEL) 副代表者: 敦史 (理研AICS)

SACLA大量回折像データの 超並列計算による迅速クラスタリ …X線自由電子レーザー(XFEL)施設SACLA (H24.3‐) 本課題の目的 [目的] SACLAによる3Dイメージングに向けて、模擬実験データ(2Dデータ)を「京」の超並列計算により分類するソフトウェア基盤を構築する

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • SACLA大量回折像データの超並列計算による迅速クラスタリング

    ツールの整備 (hp120214)

    発表者: 城地 保昌 (JASRI/Spring‐8 XFEL)

    研究代表者:    初井 宇記 (理研 XFEL)副代表者:       堀 敦史 (理研AICS)

  • X線自由電子レーザー(XFEL)施設SACLA(H24.3‐)

    本課題の目的

    [目的] SACLAによる3Dイメージングに向けて、模擬実験データ(2Dデータ)を「京」の超並列計算により分類するソフトウェア基盤を構築する

    レーザー

    ランプ

    コヒーレンス

    1 m 10 nm 1 Å1 nm100 nm10 m

    UV rays soft X-rays X-rays hard X-rays

    XFELレーザー

    放射光

    ランプ

    波長

    コヒーレント回折イメージング(CDI)

    SACLAの利用実験では1パルスの照射で試料が破壊され、その向きがわからない

    コヒーレント散乱像

    試料

    BL29XUL, SPring-8

    ヒト染色体

    フーリエ変換

    位相回復

    西野教授 (北大) ら (PRL, 2009)

    0.5 um

  • なぜ「京」が必要か?

    SACLAの利用研究を促進し、XFELサイエンスをリードする

    1日あたり、250万‐500万個の2次元データが取得されるしかも、それらは独立ではなく、(空間的・時間的に)相関する

    京及び京の関連技術がSACLAの利用研究を加速する

    高度なデータ解析技術が必要

    SACLAの特性を生かした利用研究・ コヒーレンス・ 短パルス・ 高輝度

    高繰返し(60Hz)

  • SACLAと京の連携が切り拓く生命科学

    連携

    相乗効果

    ナノメートルからマイクロメートルのサイズで起こる生命現象を”高解像度”で解き明かす

    10‐10 m 10‐9 m 10‐8 m 10‐7 m 10‐6 m 10‐5 m

    可視光で見える領域

    (原子の大きさ) (蛋白質分子) (生体超分子複合体) (ウィルス) (細胞内小器官)

    通常の結晶構造解析が困難な領域結晶構造解析が得意な領域

    X線ビームを照らして観る

    cv

    cv

    計算機上に再現することで観る

  • 本課題の計算対象

    Our original method:  A. Tokuhisa et al, Acta Cryst. Sec. A 68, 366‐381 (2012)Basic concept :             G. Huldt et al.,  J. Str. Biol. 144, 219‐227 (2003)

    R.Neutze et al.:Nature 406(2000)752

    ”Diffraction‐Before‐Destruction” 

    現状では実験が難しいが系の設定が容易であり、大規模データ解析法の検討に最適

    理想系によるシミュレーションを通して、SACLA大量実験データの相関解析を超並列計算による実行するソフトウェア基盤の構築を目指す

  • これまでの成果

    A. Tokuhisa et al, “High‐speed classification of coherent X‐ray diffraction patterns on the K computer for high‐resolution single bio‐molecule imaging “, J. Synch. Rad. 20, 899‐904 (2013)

    大規模計算の結果、大量データの相関統計量を調べることが容易になった

    (1) 代表画像の選出画像集合(N枚の画像)の

    一部から互いに似ていないM毎の画像を抽出する

    N枚の画像(2) 画像の分類

    画像集合(N枚の画像)を代表回折像との類似度に

    基づき分類する

    M枚の代表画像

    M個に分類された画像

    SACLAから送られて来た画像群本課題では、ダミーデータを生成

    計算対象:          M: 13,252×N: 1,050,000の相関計算リソース: 385ノード×255ジョブ計算時間:  約10万ノード時間

    サブナノメートル分解能解析に対応する計算をSACLAの利用実験中に実行できることを実証

  • H25年上期の取り組み1. I/Oチューニング(主に入力部)

    2. ノード内並列にOpenMPを利用

    画像保存用メモリ領域の効率的利用など、メモリ消費量の削減

    各プロセスが分担して画像を1枚につき1度だけ読み込む‐ 総読み込み量の削減‐ 読み込みを行うプロセスと画像が一意に決まるため、

    必要な画像をランクディレクトリにステージイン

    処理の流れ

  • H25年度資源利用状況

    • 京:約80%(80万ノード時間)を消費– 4・5月 52万ノード時間利用

    • 昨年度開発版プロトタイプを用いた分類計算の実施• 性能評価:実行結果及び実行ログから問題点の解析

    – 6・7月 25万ノード時間利用• プロトタイプの問題点を解消した新ソフトウェアの開発• 7月前半:小~中規模ノードを利用した新ソフトウェアの動作確認• 7月後半:全京を用いた大規模実行による分類計算の実施

    – 8月 3万ノード時間利用• 全京を用いた大規模実行時にI/Oスケーラビリティが低下する問

    題について、詳細な解析を行うための実験を実施

    • HPCI共用ストレージ:約80%(16TB)を利用• 実験用模擬回折像データ、分類計算結果などの保存に利用

  • H25上期の成果状況

    • 小規模実行(385ノード、 13252× 5079の相関計算)– 旧方式:49分30秒(相関計算が約52%)– 新方式:26分57秒(相関計算が約97%)→ファイル読み込み時間の大幅な削減を達成

    • 大規模実行(全「京」、 20,951×1,586,000の相関計算– 約16万 ノード時間– 問題点

    • 中規模実行結果から必要時間見込に比べて約2倍遅い通信時間・画像読み込み時間が見込より遅い

  • H25下期加速枠応募内容

    (1)京のI/O特性にあわせ、多数ファイルのI/O性能のスケーラビリティ向上

    (2)京の負荷状況に考慮し、柔軟なジョブ投入による応答時間の向上

    (3)SACLAと京の連係動作を確認‐ SACLAから京に向けたデータ転送‐ 京でのデータ解析と結果の出力

    〜H25上期まで:実証と性能評価・解析プログラムの開発・アルゴリズムレベルでのチューニング(主にI/O性能)

    〜H25上期まで:実証と性能評価・解析プログラムの開発・アルゴリズムレベルでのチューニング(主にI/O性能)

    H25下期:実用化に向けて

  • 課題終了後の展望

    2Dイメージング 3Dイメージング 4Dイメージング低分解能

    高分解能

    10nm

    1nm本課題の想定

    2. 実験手法の高度化を支援するソフトウェア基盤の高度化

    1. 大量データの相関解析手法の汎用化

    入力データ形式

    相関アルゴリズム

    実験データの種類に応じて最適なものを選択

    様々な相関解析に対応できるように汎用化

    並列入出力

    通信(データ分配)

  • 課題参加者

    代表者: 初井 宇記 (理研 XFEL)副代表者: 堀 敦史 (理研 AICS)連絡責任者: 城地 保昌 (JASRI XFEL)

    課題参加者徳久 淳師 (理研 XFEL、H25.4 理研AICSに異動)新井 淳也 (東大 情報理工、H25.4 NTTソフトウェアに就職)吉永 一美 (理研 AICS、H25.4から参加)大野 善之 (理研 AICS)亀山 豊久 (理研 AICS)山本 啓二 (理研 AICS)畑中 正行 (理研 AICS)Gerofi Balazs (理研 AICS、H25.4 東大に異動)島田 明男 (理研 AICS)黒川 原佳 (理研 AICS)庄司 文由 (理研 AICS)横川 三津夫 (理研 AICS)