Upload
yahoo
View
1.605
Download
0
Embed Size (px)
Citation preview
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
2017年8月1日
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
角田 直行
kukai: 省エネ世界2位のディープラーニング・スパコン
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
自己紹介
• 角田 直行(かくだ なおゆき)データ&サイエンスソリューション統括本部テクニカルディレクター
• 2005年 ヤフー中途入社• 地図や路線、ウェブ検索、検索エンジン、検索プラット
フォームなどの開発• 2012年にビッグデータやデータサイエンス領域に
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
ヤフーのDeep Learning事例
音声認識(YJVOICE)・Yahoo! JAPANや乗換案内など多数のアプリに搭載
Yahoo! JAPANアプリ・ニュース記事のレコメンデーション・ニュース記事の重複排除・ニュース画像のクロッピング
…他多数
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
背景
DLに適した環境の必要性
Goyal+, Accurate, Large Minibatch SGD: Training ImageNet in 1 Hour
・今後のデータ増加、DL事例の増加・マルチノード、マルチGPUでのスケーラビリティ・世界Top企業の取り組み
自社インフラ技術の強化・グループにIDCフロンティア・数千台規模のHadoop運用実績・OpenStack、Open Compute Project・アメリカDC運用
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
きっかけ
• 数年前から調査を継続的に実施• Xeon Phi、GPU、FPGA、Ethernet、InfiniBand、水冷、液浸…etc
• 開発、検証向けに共用GPU環境を構築
• 2015年末に本格的に始動• 宮坂社長より「スパコン作ろう」「名前は『空海』で」
• 構成がスパコンに似ていたので「スパコン」として企画
• 2016年夏に構成を決定• 2016年末完成を目標に予定規模を修正
• ExaScalerスパコンやTSUBAMEを見学し液浸に決定
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
kukai
• 2017年3月末完成
• 構築費用: 約4億円
• IDCF 白河DCに設置
• 1サーバラック + 1液浸槽
• 設置にあたり壁面に工事
初の試みのため、物理的に距離が近いことも理由の一つ
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
kukai20ブリック構成、80ノード(1ブリックあたり4CPU & 8GPU)
CPU Xeon E5-2650L 1.7GHz, 14core v4GPU NVIDIA Tesla P100 PCIe 16GBNetwork InfiniBand FDR
フロリナートによる液浸冷却3M社製 フッ素系不活性液体の製品名称
・優れた電気絶縁性・無臭・毒性無し・粘性が低い・揮発性が高い・不燃性・オゾン破壊係数ゼロ
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
TOP500/Green500
スパコンの省エネランキングで世界2位
TOP500スコア 460.7 TFlops (465位)Green500スコア 14.04 GFlops/W (2位)
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
TOP500
・1993年に発足・年2回(6月, 11月)実施・LINPACKベンチマークにて評価・FLOPSという単位が使われる・近年は中国が台頭・日本は今回7, 8位にランクイン
https://www.top500.org/lists/2017/06/
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
Green500
・2005年に発足(2007年に開始)・指標はFLOPS/W・2016年よりTOP500ランクインが条件・今回、日本が上位4位独占・10位中6システムランクイン・TSUBAMEは上位常連
・10位中9システムがTesla P100採用・9位にFacebook・10位のNVIDIAは前回(2016/11)1位
https://www.top500.org/green500/lists/2017/06/
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
機械学習によるチューニング
• LINPACKチューニングは職人的スキルが必要• 専門スキルを持っていない• スパコン完成〜締め切りまでの時間が短い
• ベイズ最適化による自動化• 東京大学 大学院新領域創成科学研究科の佐藤一誠講師
との共同研究• 行列サイズ(N)やブロックサイズ(NB)など数項目を探索• 論文投稿予定
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
苦労?
• 少ない開発リソース• 自分含めて実質2名• スパコン知識ゼロ• 本業との片手間
• スパコンに対する初の試み• 液浸、InfiniBand• データセンターの設置、保守運用ナレッジ
• パーツ供給不足• メモリやGPUの供給不足で完成時期が不明
• ハード故障• 計測中に原因不明のハード故障が頻発• チューニングを充分に実施できず(空港でsubmit)
Copyright © 2017 Yahoo Japan Corporation. All Rights Reserved.
今後
• 実稼働に向け準備中• クラスタ管理、ソフトウェアスタック• YJVOICEなど既存Deep Learning実装を移行
• Green500• おそらく次回はTop500ランク外• 実稼働を優先
• 増強、増設• 今後の利用状況次第• 現棟でも増設可能だが、数が増えると新棟増設?