AI и высокопроизводительные вычисления Черных И.Г. …intelligent-computing.nsu.ru/files/AI_HPC_Dr Igor Chernykh.pdf · 10P（Image) 〜 10E（Video）

AI и высокопроизводительные вычисления

Черных И.Г., Куликов И.М.

Содержание:

1) ЦКП Сибирский суперкомпьютерный центр ИВМиМГ СО

РАН.

2) Территориальный распределенный вычислительный комплекс

МСЦ РАН – ЦКП ССКЦ ИВМиМГ СО РАН.

3) Что такое AI?

4) Зачем нужен HPC для AI?

5) Задачи.

6) Вычислительная техника для AI

Кластер НКС-1П (ввод в строй 2017 год)

• 40 x CPU Intel Xeon E5-2697v4 (640 ядер)

• 16 x CPU Intel Xeon Phi 7290 KNL (1152 ядер)

• Параллельная файловая система – 200 ТБайт

Пиковая производительность - 81,9 ТФЛОП/С

Кластер НКС-30Т (2011 год)

• 576 x CPU Intel Xeon Е5450/E5540(2688 ядер)

• 80 x CPU Intel Xeon X5670(480 ядер)

• 120 x GPU NVIDIA Tesla M 2090(61440 ядер)

• Файловая система – 90 ТБайт

Пиковая производительность – 115 ТФЛОП/С

ОБОРУДОВАНИЕ - 2017 ГОД 3 3

27-я редакция от 25.09.2017г

ОБОРУДОВАНИЕ В РЕЙТИНГЕ ТОП 50 СУПЕРКОМПЬЮТЕРОВ

34 место - кластер НКС-1П (56 процессоров/1792 ядра) - Linpack – 50.5 ТФЛОП/С 49 место - кластер НКС-30Т (80 процессоров/2400 ядер) – Linpack – 38.21 ТФЛОП/С

4 4

0

50

100

150

200

250

ТФЛОП/С

Рост суммарной вычислительной мощности ЦКП

2016 2017

МСЦ РАН* ЦКП ССКЦ

ИВМиМГ СО РАН**

ИНСТИТУТЫ СИБИРСКОГО

ТУ ФАНО РОССИИ

НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ

УНИВЕРСИТЕТ

АКАДЕМПАРК

МОСКВА НОВОСИБИРСК

Сеть 10 Гбит/с (ИВТ СО РАН), криптографическая защита (С-Терра, РСК)

Сеть 10 гбит/с

*МСЦ РАН – Межведомственный Суперкомпьютерный Центр РАН **ЦКП ССКЦ ИВМиМГ СО РАН – Центр Коллективного Пользования Сибирский Суперкомпьютерный Центр ИВМиМГ СО РАН

ТЕРРИТОРИАЛЬНЫЙ РАСПРЕДЕЛЕННЫЙ ВЫЧИСЛИТЕЛЬНЫЙ КОМПЛЕКС МСЦ - ССКЦ

5 5

ЧТО ТАКОЕ AI? 6 6

Иску́сственный интелле́кт (ИИ; англ. Artificial

intelligence, AI) —наука и технология создания

интеллектуальных машин,

особенно интеллектуальных компьютерных программ;

свойство интеллектуальных

систем выполнять творческие функции, которые

традиционно считаются прерогативой человека.

ИИ связан со сходной задачей использования

компьютеров для понимания человеческого интеллекта,

но не обязательно ограничивается биологически

правдоподобными методами.

https://ru.wikipedia.org/wiki/%D0%90%D0%BD%D0%B3%D0%BB%D0%B8%D0%B9%D1%81%D0%BA%D0%B8%D0%B9_%D1%8F%D0%B7%D1%8B%D0%BA

https://ru.wikipedia.org/wiki/%D0%9D%D0%B0%D1%83%D0%BA%D0%B0

https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D1%85%D0%BD%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F

https://ru.wikipedia.org/wiki/%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%B0

https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82

https://ru.wikipedia.org/wiki/%D0%9A%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D0%B0%D1%8F_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B0

https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0

https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82%D1%83%D0%B0%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0

https://ru.wikipedia.org/wiki/%D0%A2%D0%B2%D0%BE%D1%80%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%BE

https://ru.wikipedia.org/wiki/%D0%98%D0%BD%D1%82%D0%B5%D0%BB%D0%BB%D0%B5%D0%BA%D1%82

MILS : Machine Intelligence Led S ervices

Mills

Information

Revolution

“We’re seeing a rebirth of artificial intelligence driven by the cloud, huge amounts of data and the learning algorithms of software,”

Larry Sm arr, founding director of the California Institute for

Telecommunications and Information Technology http://bits.blogs.nytimes.com/2014/06/11/intelligence-too-big-for-a-single-machine/

Intelligence Too Big for a S ingle Machine

MILS

ЗАЧЕМ НУЖЕН HPC ДЛЯ AI? 7 7

http://bits.blogs.nytimes.com/2014/06/11/intelligence-too-big-for-a-single-machine/































































Estimated Compute Resource Requirements for Deep Learning

[Source: Preferred Network Japan Inc.]

1E〜100E Flops 自動卞厷区１卤あたり1日

1TB 10卤〜1000卤, 100日分の走行データの学習

10P（Image) 〜 10E（Video）学習データ：1匥枚の厐像 10000クラス分類

包収ノードで6ヶ月 [Google 2015]

Robots / Drones

10P〜 Flops 1勦人の5000時間分の

音声データ人卋的に生勱された10勦時間の音声データを匼に学習 [Baidu

2015]

100P 〜 1E Flops 一人あたりゲノム卆析で約10M個のSNPs

100勦人で100PFlops、1匥人で1EFlops

Flops

Image/Video

Recognition

1E〜100E Flops 1

台あたり年間1TB

100万台〜1億台から得られたヅヺソで学習する場合

Auto Driving

Bio / Healthcare P:Peta

E:Exa

F:Flops

機械学習、深層学習は学習ヅヺソが大きいほど高精度になる現在は人が生み出したヅヺソが対象だが、今後は機械が生み出すヅヺソが対象となる

各種推定値は1GBの学習ヅヺソに対して1日で学習するためには 1TFlops必要だとして計算

To complete the learning phase in one day

It’s the FLOPS

(in reduced

precision)

and BW!

So both are

important in the

infrastructure 10PF 100PF 1EF 10EF 100EF

2015 2020 2025 2030

ЗАЧЕМ НУЖЕН HPC ДЛЯ AI? 8 8

Example: Tokyo Tech IT-Drug Discovery Factory Simulation & Big Data & AI at Top HPC Scale （Tonomachi, Kawasaki-city: planned 2017, PI Yutaka Akiyama）

Tokyo Tech’s research seeds

①Drug Target selection system

②Glide-based Virtual Screening

TSUBAME’s GPU-environment allows

World’s top-tier Virtual Screening

• Yoshino et al., PLOS ONE (2015) • Chiba et al., Sci Rep (2015)

③Novel Algorithms for fast virtual

screening against huge databases

Fragment-based efficient algorithm

designed for 100-millions cmpds data

Plasma binding （ML-based）

Membrane penetration （Mol. Dynamics simulation）

N

O

N

Minister of Health, Labour and Welfare Award of the 11th annual Merit Awards for Industry- Academia-Government Collaboration

• Yanagisawa et al., GIW (2016)

Drug Discovery platform powered by

Supercomputing and Machine Learning

Application projects

New Drug Discovery platform especially for

specialty peptide and nucl. acids.

Investments from JP Govt., Tokyo Tech. (TSUBAME SC) Muninciple Govt (Kawasaki), JP & US Pharma

Multi-Petaflops Compute

Peta~Exabytes Data

Processing Continuously

Cutting Edge, Large- Scale HPC & BD/AI Infrastructure

Absolutely Necessary

ЗАДАЧИ 9 9

Core Center of AI for Industry-Academia Co-operation

Technology transferApplication Domains

NLP, NLU Text mining

Behavior Mining & Modeling

Manufacturing

Industrial robots

Automobile

Innovative

Retailing Health Care

Elderly Care

Data-Knowledge integration AI Brain Inspired AI

Ontology

Knowledge

Model of Hippocampus

Model of Basal ganglia

Logic & Probabilistic

Modeling

Bayesian net ･･･

A･･I･ Research Framework

Network Services Communication

Big Sciences

Bio-Medical Sciences

Material Sciences

Model of Cerebral cortex

Technology transfer

Starting Enterprises

Start-Ups Institutions

Companies

Joint research Common AI Platform

Common Modules

Common Data/Models

Planning

Control Prediction

Recommend Image Recognition

3D Object recognition

Planning/Business Team

･･･

Standard Tasks

Standard Data

Now > 300+ FTEs

Effective Cycles among Research and Deployment of AI Deployment of AI in real businesses and society

Security

Planning/Business Team

AI Research Center (AIRC), AIST

Matsuoka : Joint appointment as

“Designated” Fellow

since July 2017

ЗАДАЧИ 10 10

Deep Learning at 15PF* (In collaboration with NERSC, Stanford, and University of Montreal)

• Scientific Achievement • Signal vs. Background classification for

LHC datasets exceeds physics cuts • Pattern discovery for Climate data

• Methods Achievement • Hybrid parameter update strategy • Supervised and semi-supervised

architectures

• CS Achievement • IntelCaffe + MLSL optimized on KNL • ~2TF peak on single KNL node • ~15 PF peak on ~9300 nodes

* “Petascale Deep Learning” Thorsten Kurth, Jian Zhang, Nadathur Satish, Ioannis Mitliagkas, Evan Racah, Mostofa Patwary, Tareq Malas, Narayanan Sundaram, Wahid Bhimji, Mikhail Smorkalov, Jack Deslippe, Mikhail Shiryaev, Srinivas Sridharan, Prabhat, and Pradeep Dubey, accepted at Supercomputing 2017

ЗАДАЧИ 11 11

TSUBAME-KFC/DL: TSUBAME3 Prototype [ICPADS2014]

High Temperature Cooling

Oil Loop 35~45℃

⇒ Water Loop 25~35℃ (c.f. TSUBAME2: 7~17℃)

Cooling Tower： Water 25~35℃

⇒ To Ambient Air

Oil Immersive Cooling＋ Hot Water Cooling + High Density Packaging + Fine- Grained Power Monitoring and Control, upgrade to /DL Oct. 2015

Container Facility

20 feet container (16m2)

Fully Unmanned Operation

Single Rack High Density Oil

Immersion

168 NVIDIA K80 GPUs + Xeon

413+TFlops (DFP)

1.5PFlops (SFP)

~60KW/rack

2013年11月/2014年6 Word #1 Green500

ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА ДЛЯ AI 12 12

Fujitsu Processor Direction

Required

Processing

SPARC64TM

VII / VII+

SPARC64TM

X

SPARC64TM

XII

SPARC64TM

XIfx

SPARC64TM

VIIIfx Post-K

Domain

Specific Deep Learning

DLU

General purpose and Domain specific

Wider variety of processors in the future to meet different requirements.

Supercomputer

Specialization

General

Purpose

HPC & AI

Diverge

28 Copyright 2017 FUJITSU LIMITED


HBM2

DPU: Deep learning Processing Unit, DPE: Deep learning Processing Element

Host I/F DPU-0

DPU-1

DPU

DPU

DPU

DPU-n

DPE DPE DPE

DPE DPE DPE DPE DPE DPE

DPE DPE DPE

DPE DPE DPE

Large scale DLU interconnect

through off-chip network

DPE DPE DPE

DLUTM

(Deep Learning Unit)

DLU Architecture

Inter-chip

I/F

1. Domain specific

Domain specific Cores

- Newly designed ISA

- Simplified μ-architecture

- Fully software visible and

controllable

- Heterogeneous cores★ - DPE and Large RF ★

3. Massively Parallel

Many DPUs with an On-chip Network

2. Optimal Precision

Deep Learning Integer★



DPE & Large RF (Register File)

DPU

CNTL

DPU: 128 SIMD* / 16DPE

DPU consists of 16 DPEs connected with on-chip network

DPE incudes large RF and wide SIMD execution units to realize an

efficient Deep Learning engine.

RF is fully SW controllable unlike cache to extract full HW potential

DPE: 8SIMD* with large RF

(~100x of typical CPU core)

Exec Exec

UNIT UNIT

RF RF RF RF RF RF RF

* For FP32

Register File

Register File

Register File

Register File

Register File

Register File

Register File

Register File

Register File

Register File

Register File

Register File

Register File

Register File

Register File

Register File

Register File

More SW controllability


Exe

c

UNI

T

Exec

UNI

T

Exec

UNI

T

Exe

c

UNI

T

Exe

c

UNI

T

Exe

c

UNI

T

Name RF/$ structure

UNIX SPARC64 XII RF + $

HPC SPARC64 XIfx RF + sector $

AI DLU Large RF


ТРЕБУЕТСЯ СТУДЕНТ

[email protected]

Оптимизация астрофизического кода AstroPhi: 1) Векторизация кода, оптимизация работы с памятью, AVX-512, FMA 2) Оптимизация кода под Intel® Memory Drive Technology

СПАСИБО ЗА ВНИМАНИЕ

ИСПОЛЬЗОВАНЫ ПРЕЗЕНТАЦИИ с конференции ISC’17: 1. Satoshi Matsuoka. FLOPS to BYTES: Accelerating Beyond Moore’s Law is enabled from Data. 2. Pradeep K Dubey. Machines: Number Crunching AND Decision Making 3. Takumi Maruyama. Fujitsu HPC and AI Processors

Documents

AI и высокопроизводительные вычисления Черных И.Г. …intelligent-computing.nsu.ru/files/AI_HPC_Dr Igor Chernykh.pdf · 10P（Image) 〜 10E（Video）