Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
AI и высокопроизводительные вычисления
Черных И.Г., Куликов И.М.
Содержание:
1) ЦКП Сибирский суперкомпьютерный центр ИВМиМГ СО
РАН.
2) Территориальный распределенный вычислительный комплекс
МСЦ РАН – ЦКП ССКЦ ИВМиМГ СО РАН.
3) Что такое AI?
4) Зачем нужен HPC для AI?
5) Задачи.
6) Вычислительная техника для AI
Кластер НКС-1П (ввод в строй 2017 год)
• 40 x CPU Intel Xeon E5-2697v4 (640 ядер)
• 16 x CPU Intel Xeon Phi 7290 KNL (1152 ядер)
• Параллельная файловая система – 200 ТБайт
Пиковая производительность - 81,9 ТФЛОП/С
Кластер НКС-30Т (2011 год)
• 576 x CPU Intel Xeon Е5450/E5540(2688 ядер)
• 80 x CPU Intel Xeon X5670(480 ядер)
• 120 x GPU NVIDIA Tesla M 2090(61440 ядер)
• Файловая система – 90 ТБайт
Пиковая производительность – 115 ТФЛОП/С
ОБОРУДОВАНИЕ - 2017 ГОД 3 3
27-я редакция от 25.09.2017г
ОБОРУДОВАНИЕ В РЕЙТИНГЕ ТОП 50 СУПЕРКОМПЬЮТЕРОВ
34 место - кластер НКС-1П (56 процессоров/1792 ядра) - Linpack – 50.5 ТФЛОП/С 49 место - кластер НКС-30Т (80 процессоров/2400 ядер) – Linpack – 38.21 ТФЛОП/С
4 4
0
50
100
150
200
250
ТФЛОП/С
Рост суммарной вычислительной мощности ЦКП
2016 2017
МСЦ РАН* ЦКП ССКЦ
ИВМиМГ СО РАН**
ИНСТИТУТЫ СИБИРСКОГО
ТУ ФАНО РОССИИ
НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ
УНИВЕРСИТЕТ
АКАДЕМПАРК
МОСКВА НОВОСИБИРСК
Сеть 10 Гбит/с (ИВТ СО РАН), криптографическая защита (С-Терра, РСК)
Сеть 10 гбит/с
*МСЦ РАН – Межведомственный Суперкомпьютерный Центр РАН **ЦКП ССКЦ ИВМиМГ СО РАН – Центр Коллективного Пользования Сибирский Суперкомпьютерный Центр ИВМиМГ СО РАН
ТЕРРИТОРИАЛЬНЫЙ РАСПРЕДЕЛЕННЫЙ ВЫЧИСЛИТЕЛЬНЫЙ КОМПЛЕКС МСЦ - ССКЦ
5 5
ЧТО ТАКОЕ AI? 6 6
Иску́сственный интелле́кт (ИИ; англ. Artificial
intelligence, AI) —наука и технология создания
интеллектуальных машин,
особенно интеллектуальных компьютерных программ;
свойство интеллектуальных
систем выполнять творческие функции, которые
традиционно считаются прерогативой человека.
ИИ связан со сходной задачей использования
компьютеров для понимания человеческого интеллекта,
но не обязательно ограничивается биологически
правдоподобными методами.
MILS : Machine Intelligence Led S ervices
Mills
Information
Revolution
“We’re seeing a rebirth of artificial intelligence driven by the cloud, huge amounts of data and the learning algorithms of software,”
Larry Sm arr, founding director of the California Institute for
Telecommunications and Information Technology http://bits.blogs.nytimes.com/2014/06/11/intelligence-too-big-for-a-single-machine/
Intelligence Too Big for a S ingle Machine
MILS
ЗАЧЕМ НУЖЕН HPC ДЛЯ AI? 7 7
Estimated Compute Resource Requirements for Deep Learning
[Source: Preferred Network Japan Inc.]
1E〜100E Flops 自動卞厷区1卤あたり1日
1TB 10卤〜1000卤, 100日分の走行データの学習
10P(Image) 〜 10E(Video) 学習データ:1匥枚の厐像 10000クラス分類
包収ノードで6ヶ月 [Google 2015]
Robots / Drones
10P〜 Flops 1勦人の5000時間分の
音声データ 人卋的に生勱された10勦時間の 音声データを匼に学習 [Baidu
2015]
100P 〜 1E Flops 一人あたりゲノム卆析で約10M個のSNPs
100勦人で100PFlops、1匥人で1EFlops
Flops
Image/Video
Recognition
1E〜100E Flops 1
台あたり年間1TB
100万台〜1億台から得られた ヅヺソで学習する場合
Auto Driving
Bio / Healthcare P:Peta
E:Exa
F:Flops
機械学習、深層学習は学習ヅヺソが大きいほど高精度になる 現在は人が生み出したヅヺソが対象だが、今後は機械が生み出すヅヺソが対象となる
各種推定値は1GBの学習ヅヺソに対して1日で学習するためには 1TFlops必要だとして計算
To complete the learning phase in one day
It’s the FLOPS
(in reduced
precision)
and BW!
So both are
important in the
infrastructure 10PF 100PF 1EF 10EF 100EF
2015 2020 2025 2030
ЗАЧЕМ НУЖЕН HPC ДЛЯ AI? 8 8
Example: Tokyo Tech IT-Drug Discovery Factory Simulation & Big Data & AI at Top HPC Scale (Tonomachi, Kawasaki-city: planned 2017, PI Yutaka Akiyama)
Tokyo Tech’s research seeds
①Drug Target selection system
②Glide-based Virtual Screening
TSUBAME’s GPU-environment allows
World’s top-tier Virtual Screening
• Yoshino et al., PLOS ONE (2015) • Chiba et al., Sci Rep (2015)
③Novel Algorithms for fast virtual
screening against huge databases
Fragment-based efficient algorithm
designed for 100-millions cmpds data
Plasma binding (ML-based)
Membrane penetration (Mol. Dynamics simulation)
N
O
N
Minister of Health, Labour and Welfare Award of the 11th annual Merit Awards for Industry- Academia-Government Collaboration
• Yanagisawa et al., GIW (2016)
Drug Discovery platform powered by
Supercomputing and Machine Learning
Application projects
New Drug Discovery platform especially for
specialty peptide and nucl. acids.
Investments from JP Govt., Tokyo Tech. (TSUBAME SC) Muninciple Govt (Kawasaki), JP & US Pharma
Multi-Petaflops Compute
Peta~Exabytes Data
Processing Continuously
Cutting Edge, Large- Scale HPC & BD/AI Infrastructure
Absolutely Necessary
ЗАДАЧИ 9 9
Core Center of AI for Industry-Academia Co-operation
Technology transferApplication Domains
NLP, NLU Text mining
Behavior Mining & Modeling
Manufacturing
Industrial robots
Automobile
Innovative
Retailing Health Care
Elderly Care
Data-Knowledge integration AI Brain Inspired AI
Ontology
Knowledge
Model of Hippocampus
Model of Basal ganglia
Logic & Probabilistic
Modeling
Bayesian net ・・・
A・・I・ Research Framework
Network Services Communication
Big Sciences
Bio-Medical Sciences
Material Sciences
Model of Cerebral cortex
Technology transfer
Starting Enterprises
Start-Ups Institutions
Companies
Joint research Common AI Platform
Common Modules
Common Data/Models
Planning
Control Prediction
Recommend Image Recognition
3D Object recognition
Planning/Business Team
・・・
Standard Tasks
Standard Data
Now > 300+ FTEs
Effective Cycles among Research and Deployment of AI Deployment of AI in real businesses and society
Security
Planning/Business Team
AI Research Center (AIRC), AIST
Matsuoka : Joint appointment as
“Designated” Fellow
since July 2017
ЗАДАЧИ 10 10
Deep Learning at 15PF* (In collaboration with NERSC, Stanford, and University of Montreal)
• Scientific Achievement • Signal vs. Background classification for
LHC datasets exceeds physics cuts • Pattern discovery for Climate data
• Methods Achievement • Hybrid parameter update strategy • Supervised and semi-supervised
architectures
• CS Achievement • IntelCaffe + MLSL optimized on KNL • ~2TF peak on single KNL node • ~15 PF peak on ~9300 nodes
* “Petascale Deep Learning” Thorsten Kurth, Jian Zhang, Nadathur Satish, Ioannis Mitliagkas, Evan Racah, Mostofa Patwary, Tareq Malas, Narayanan Sundaram, Wahid Bhimji, Mikhail Smorkalov, Jack Deslippe, Mikhail Shiryaev, Srinivas Sridharan, Prabhat, and Pradeep Dubey, accepted at Supercomputing 2017
ЗАДАЧИ 11 11
TSUBAME-KFC/DL: TSUBAME3 Prototype [ICPADS2014]
High Temperature Cooling
Oil Loop 35~45℃
⇒ Water Loop 25~35℃ (c.f. TSUBAME2: 7~17℃)
Cooling Tower: Water 25~35℃
⇒ To Ambient Air
Oil Immersive Cooling+ Hot Water Cooling + High Density Packaging + Fine- Grained Power Monitoring and Control, upgrade to /DL Oct. 2015
Container Facility
20 feet container (16m2)
Fully Unmanned Operation
Single Rack High Density Oil
Immersion
168 NVIDIA K80 GPUs + Xeon
413+TFlops (DFP)
1.5PFlops (SFP)
~60KW/rack
2013年11月/2014年6 Word #1 Green500
ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА ДЛЯ AI 12 12
Fujitsu Processor Direction
Required
Processing
SPARC64TM
VII / VII+
SPARC64TM
X
SPARC64TM
XII
SPARC64TM
XIfx
SPARC64TM
VIIIfx Post-K
Domain
Specific Deep Learning
DLU
General purpose and Domain specific
Wider variety of processors in the future to meet different requirements.
Supercomputer
Specialization
General
Purpose
HPC & AI
Diverge
28 Copyright 2017 FUJITSU LIMITED
ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА ДЛЯ AI 13 13
HBM2
DPU: Deep learning Processing Unit, DPE: Deep learning Processing Element
Host I/F DPU-0
DPU-1
DPU
DPU
DPU
DPU-n
DPE DPE DPE
DPE DPE DPE DPE DPE DPE
DPE DPE DPE
DPE DPE DPE
Large scale DLU interconnect
through off-chip network
DPE DPE DPE
DLUTM
(Deep Learning Unit)
DLU Architecture
Inter-chip
I/F
1. Domain specific
Domain specific Cores
- Newly designed ISA
- Simplified μ-architecture
- Fully software visible and
controllable
- Heterogeneous cores★ - DPE and Large RF ★
3. Massively Parallel
Many DPUs with an On-chip Network
2. Optimal Precision
Deep Learning Integer★
20 Copyright 2017 FUJITSU LIMITED
ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА ДЛЯ AI 14 14
DPE & Large RF (Register File)
DPU
CNTL
DPU: 128 SIMD* / 16DPE
DPU consists of 16 DPEs connected with on-chip network
DPE incudes large RF and wide SIMD execution units to realize an
efficient Deep Learning engine.
RF is fully SW controllable unlike cache to extract full HW potential
DPE: 8SIMD* with large RF
(~100x of typical CPU core)
Exec Exec
UNIT UNIT
RF RF RF RF RF RF RF
* For FP32
Register File
Register File
Register File
Register File
Register File
Register File
Register File
Register File
Register File
Register File
Register File
Register File
Register File
Register File
Register File
Register File
Register File
More SW controllability
22 Copyright 2017 FUJITSU LIMITED
Exe
c
UNI
T
Exec
UNI
T
Exec
UNI
T
Exe
c
UNI
T
Exe
c
UNI
T
Exe
c
UNI
T
Name RF/$ structure
UNIX SPARC64 XII RF + $
HPC SPARC64 XIfx RF + sector $
AI DLU Large RF
ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА ДЛЯ AI 15 15
ТРЕБУЕТСЯ СТУДЕНТ
Оптимизация астрофизического кода AstroPhi: 1) Векторизация кода, оптимизация работы с памятью, AVX-512, FMA 2) Оптимизация кода под Intel® Memory Drive Technology
СПАСИБО ЗА ВНИМАНИЕ
ИСПОЛЬЗОВАНЫ ПРЕЗЕНТАЦИИ с конференции ISC’17: 1. Satoshi Matsuoka. FLOPS to BYTES: Accelerating Beyond Moore’s Law is enabled from Data. 2. Pradeep K Dubey. Machines: Number Crunching AND Decision Making 3. Takumi Maruyama. Fujitsu HPC and AI Processors