61
SEOUL | Oct.7, 2016 김진철 (SK Telecom) / 2016. 10. 7. 인공지능을 위해 GPGPU우리가 바라는

김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

SEOUL | Oct.7, 2016

김진철 (SK Telecom) / 2016. 10. 7.

인공지능을 위해 GPGPU에 우리가 바라는 것

Page 2: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

2

Copyright © 2016 ~, Jincheol Kim. All rights reserved. All rights reserved. No part of this publication may be reproduced, distributed, or transmitted in any form or by any means, including photocopying, recording, or other electronic or mechanical methods, without the prior written permission of the author.

Copyright © 2016 ~, 김진철. (자료에 쓰인 그림 및 자료에 대한 저작권은 자료 출처의 저작권 규정에 따름.) 본 발표자료의 모든 내용은 저작권법의 보호를 받으며, 저자 및 저작권자의 허락 없이 수정, 복사 및 재배포를 금합니다.

자료에 쓰인 그림 및 자료 중 일부 적절한 인용 표기가 없는 것은 인용을 위한 출처가 파악되지 않았기 때문에 명시되지 않았습니다. 해당 자료의 저작권자께서는 연락 주시면 인용 추가 및 적절한 조치를 하겠습니다.

Page 3: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

3

AGENDA

I. 인공지능 어디로 가고 있는가?

II. 인공지능을 어디에 담아야 할 것인가?

III. 컴퓨터 아키텍처의 변화 및 인공지능에의 의미

IV. 인공지능 구현을 위해 우리가 GPGPU에 바라는 것

V. 인공지능을 어떻게 만들어야 할까? – DNN과 Neural Circuits and Pathways

Page 4: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

4

인공지능 – 어디로 가고 있는가?

Page 5: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

5

인공지능 – 어디로 가고 있는가?

멀티코어 CPU, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의 비약적인 향상, 딥러닝으로 대표되는 확장성 있는 기계 학습 알고리즘의 발전, 모바일 및 웹 환경으로 인한 데이터의 폭발적인 증가로 인해 인공지능, 특히 기계 학습 기술을 이용한 데이터 처리 기술이 크게 발전하여 및 보다 인간지향적인 지능형 서비스의 실현 가능성이 높아지고 있음.

컴퓨팅 파워의 비약적인 향상 딥러닝 및 기계 학습 기술의 발전 빅데이터

빅데이터 기반 기계 학습을 이용한 인공지능 기술 및 서비스의 발전

그림 출처: (오른쪽) http://smartfuture-poscoict.co.kr/181

Page 6: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

6

최근 컴퓨터 하드웨어의 발전 방향: Exascale VS. Nanoscale

현재의 컴퓨팅 기술은 Exascale, Zettascale 컴퓨팅과 같은 대형 계산 인프라 기술의 발전 방향과, 가능한 한 많은 계산을 수행할 수 있도록 computing device를 소형화하고 집적도를 높이는 프로세서 기술 발전 방향의 두 방향으로 계속 진화하고 있음. 이로 인해 근시일 내에 현재의 컴퓨터 아키텍처가 새로운 양상으로 크게 변화될 것으로 예상됨.

그림 출처: (위 오른쪽) http://www.extremetech.com/computing/155941-supercomputing-director-bets-2000-that-we-wont-have-exascale-computing-by-2020 (위 왼쪽) http://topyaps.com/the-end-of-moores-law (아래 맨 왼쪽) http://www.betanews.net/article/623225 (아래 왼쪽 두 번째) http://kr.nvidia.com/object/tesla-k20-powers-titan-worlds-fastest-supercomputing-20121029-kr.html (가운데) http://www.pcworld.com/article/3052222/components-graphics/nvidias-pascal-gpu-tech-specs-revealed-full-cuda-count-clock-speeds-and-more.html (오른쪽 두 번째) http://www.popularmechanics.com/technology/gadgets/a18475/google-nasa-d-wave-quantum-computer/ (맨 오른쪽) https://www.wired.com/2013/10/quantum-computer-ramsey/

Page 7: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

7

인공지능을 어디에 담아야 할 것인가? – 인공지능 알고리즘을 위한 컴퓨터 시스템

인공지능을 위한 계산 및 알고리즘은 전통적으로 NP-hard 문제들이 많음. 특히 Deep Learning을 비롯한 기계 학습 알고리즘은 최적화 연산이 필요한 경우가 많아 많은 계산이 필요함. 현재 기계 학습은 하나의 문제만을 해결하기 위해 디자인되는 경우가 많지만, 앞으로 인간 수준의 강인공지능 구현을 위해서는 모델간 선택 및 개선을 위한 메타 러닝, 여러 모델간의 파이프라이닝 및 복합 인지 모델 구성, 사람 두뇌 정도의 공간에 큰 계산을 할 수 있는 기술등이 개발되어야 함.

■ Machine Learning 및 Deep Neural Network(DNN) Model 연산의 특성

Parametric/non-parametric statistical learning, Bayesian learning 및 DNN 학습시 stochastic gradient descent와 같은 계산량이 많이 필요한 최적화(optimization) 알고리즘이 사용됨 (NP-hard algorithms)

DNN의 경우 – 모델의 학습이 완료된 후 추론(inference)시에는 단순한 매트릭스 연산을 고속으로 수행하여야 함. – 다른 기계 학습 방법에 비해 더 많은 데이터가 필요함.

■ 인공지능을 위한 앞으로의 기계 학습 알고리즘에 요구되는 것

Model selection and adaptive, flexible model evolution through meta-learning Composition and pipelining of learned models for advanced, higher-level cognitive functions and learning of the

complex composed, pipelined machine intelligence model Condensing learning and inference computation into more compact space with massive parallelism

Page 8: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

8

미디어에 비친 인공지능 시스템의 모습

Page 9: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

9

인공지능을 어디에 담아야 할 것인가? – 영화 및 미드에서 표현된 인공지능 하드웨어

10/7/2016 그림 출처: Jack Paglen, Transcendence, Mobile Media Service (Oksusu by SK Telecom), Directed by Wally Pfister, Seoul: Warner Brothers Co. and Summit Entertainment, 2014.

Page 10: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

10

인공지능을 어디에 담아야 할 것인가? – 영화 및 미드에서 표현된 인공지능 하드웨어

10/7/2016

그림 출처: Jack Paglen, Transcendence, Mobile Media Service (Oksusu by SK Telecom), Directed by Wally Pfister, Seoul: Warner Brothers Co. and Summit Entertainment, 2014.

Page 11: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

11

인공지능을 어디에 담아야 할 것인가? – 영화 및 미드에서 표현된 인공지능 하드웨어

10/7/2016

그림 출처: Jack Paglen, Transcendence, Mobile Media Service (Oksusu by SK Telecom), Directed by Wally Pfister, Seoul: Warner Brothers Co. and Summit Entertainment, 2014.

Page 12: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

12

인공지능을 어디에 담아야 할 것인가? – 영화 및 미드에서 표현된 인공지능 하드웨어

10/7/2016 그림 출처: Jack Paglen, Transcendence, Mobile Media Service (Oksusu by SK Telecom), Directed by Wally Pfister, Seoul: Warner Brothers Co. and Summit Entertainment, 2014.

Page 13: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

13

인공지능을 어디에 담아야 할 것인가? – 영화 및 미드에서 표현된 인공지능 하드웨어

10/7/2016 그림 출처: Jonathan Nolan, Person of Interests, Mobile Media Service (Oksusu by SK Telecom), Directed by Jonathan Nolan, Greg Plageman, J. J. Abrams, Bryan Burk, Denise Thé, Chris Fisher, New York: Warner Bros. Television Distribution, 2011 ~ 2016.

Page 14: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

14

인공지능을 어디에 담아야 할 것인가? – 영화 및 미드에서 표현된 인공지능 하드웨어

10/7/2016 그림 출처: Jonathan Nolan, Person of Interests, Mobile Media Service (Oksusu by SK Telecom), Directed by Jonathan Nolan, Greg Plageman, J. J. Abrams, Bryan Burk, Denise Thé, Chris Fisher, New York: Warner Bros. Television Distribution, 2011 ~ 2016.

Page 15: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

15

인공지능을 어디에 담아야 할 것인가? – 영화 및 미드에서 표현된 인공지능 하드웨어

10/7/2016 그림 출처: Jonathan Nolan, Person of Interests, Mobile Media Service (Oksusu by SK Telecom), Directed by Jonathan Nolan, Greg Plageman, J. J. Abrams, Bryan Burk, Denise Thé, Chris Fisher, New York: Warner Bros. Television Distribution, 2011 ~ 2016.

Page 16: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

16

인공지능을 어디에 담아야 할 것인가? – 영화 및 미드에서 표현된 인공지능 하드웨어

10/7/2016 그림 출처: Jonathan Nolan, Person of Interests, Mobile Media Service (Oksusu by SK Telecom), Directed by Jonathan Nolan, Greg Plageman, J. J. Abrams, Bryan Burk, Denise Thé, Chris Fisher, New York: Warner Bros. Television Distribution, 2011 ~ 2016.

Page 17: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

17

인공지능을 어디에 담아야 할 것인가? – 영화 및 미드에서 표현된 인공지능 하드웨어

10/7/2016 그림 출처: Jonathan Nolan, Person of Interests, Mobile Media Service (Oksusu by SK Telecom), Directed by Jonathan Nolan, Greg Plageman, J. J. Abrams, Bryan Burk, Denise Thé, Chris Fisher, New York: Warner Bros. Television Distribution, 2011 ~ 2016.

Page 18: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

18

인공지능을 어디에 담아야 할 것인가? – 영화 및 미드에서 표현된 인공지능 하드웨어

10/7/2016 그림 출처: Alex Garland, Ex Machina, Mobile Media Service (Oksusu by SK Telecom), Directed by Alex Garland, United Kingdom: Universal Pictures, 2015.

Page 19: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

19

인공지능을 어디에 담아야 할 것인가? – 영화 및 미드에서 표현된 인공지능 하드웨어

10/7/2016 그림 출처: Alex Garland, Ex Machina, Mobile Media Service (Oksusu by SK Telecom), Directed by Alex Garland, United Kingdom: Universal Pictures, 2015.

Page 20: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

20

인공지능을 어디에 담아야 할 것인가? – 영화 및 미드에서 표현된 인공지능 하드웨어

10/7/2016 그림 출처: Alex Garland, Ex Machina, Mobile Media Service (Oksusu by SK Telecom), Directed by Alex Garland, United Kingdom: Universal Pictures, 2015.

Page 21: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

21

컴퓨터 아키텍처의 변화 및 인공지능 기술에의 의미

Page 22: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

22

눈여겨 봐야 할 최근 컴퓨터 하드웨어의 변화

기존 노드 단위의 컴퓨터 구조가 해체될 가능성이 보이며, 대규모의 확장성(scalability)와 자원 계층을 줄이는 방향으로 발전해가고 있음.

■ 기존 컴퓨터 구조의 해체 및 재구성

Nvidia Pascal SXM (Coprocessor로서의 GPU가 아닌 CPU와 동등한 프로세서로서 머더보드에 위치) Intel Rack-scale Architecture (노드 단위의 해체 및 Rack 단위 자원으로 재구성) Intel Xeon Phi + FPGA (범용 CPU와 silicon-level programmable logic의 결합) 비휘발성 메모리 기술(NVM)의 발전과 Memory-Cache-Persistent Storage 계층의 축소 (SSD, Intel 3D XPoint 등)

■ Massive Scalability를 고려한 디자인

Nvidia TESLA GPU series (단위 공간당 계산 core의 수를 천 배 이상 향상시킴.) Intel Xeon Phi Knights Landing CPU (CPU core 밀도를 수십개로 높이고, 메모리의 확장성 (CPU내의 MCDRAM 16GB

를 최대 384GB까지 추가 가능, 머더보드에 통합된 OmniPath Fabric을 통한 저지연 네트워킹 지원)

■ Deep Neural Networks on Silicon

IBM의 TrueNorth (Deep Neural Network 연산 전용 프로세서) MIT의 Eyeriss (Deep Convolutional Neural Network 연산을 위한 저전력 프로세서) Qualcomm Snapdragon 820 프로세서와 Zeroth Machine Intelligence Platform, Neural Processing Engine SDK

Page 23: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

23

인공지능의 실제 구현을 위해 필요한 컴퓨터의 수

두뇌가 단일 레이어 신경망으로 구성되어 있다고 가정하고, 각 weight element와 input, output node들의 상태를 double precision 실수로 표현한다고 가정. 두뇌의 뉴런 수와 시냅스 수에 따라 이를 Deep Neural Network으로 구성하기 위해 필요한 노드의 수는 1,000개에서 10,000,000개까지 기하급수적으로 증가함. (서버당 K80 GPU 2개 장착 가정)

1.00E+06

1.00E+07

1.00E+08

1.00E+09

1.00E+10

1.00E+11

1.00E+12

1.00E+13

1.00E+14

1.00E+15

생쥐

(mouse)

쥐 (rat) 고양이 마카크

원숭이

사람

전체 뉴런 수 신피질의 뉴런 수 시냅스 수

1.00E+03

1.00E+04

1.00E+05

1.00E+06

1.00E+07

1.00E+08

생쥐

(mouse)

쥐 (rat) 고양이 마카크

원숭이

사람

필요한 노드 수

Page 24: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

24

인공지능 구현을 위한 확장성을 어떻게 얻을 것인가?

최신 컴퓨터 하드웨어 기술을 이용해서 보통 생물의 지능을 모방할 수준으로 Deep Neural Network을 확장할 경우 필요한 대규모의 확장성(scalability)을 얻기 위해 자원 계층을 줄이고, 네트워크 병목을 토폴로지 개선을 통해 해결하며, 각 프로세서의 core 집적도를 높이는 방향으로 해결할 수 있음.

■ 컴퓨터 내부의 resource 계층 문제 해결

Core간, CPU/GPU Core-Memory간 메모리 버스 대역폭 향상과 대칭적 토폴로지(Nvidia DGX-1 NVLinks Topology) Intel Rack-scale Architecture (노드 단위의 해체 및 Rack 단위 자원으로 재구성) Intel Xeon Phi + FPGA (범용 CPU와 silicon-level programmable logic의 결합) 비휘발성 메모리 기술(NVM)의 발전과 Memory-Cache-Persistent Storage 계층의 축소 (SSD, Intel 3D XPoint 등)

■ 네트워크 연결/토폴로지에 따른 병목 해결

Core간, CPU/GPU Core-Memory간 메모리 버스 대역폭 향상과 대칭적 토폴로지(Nvidia DGX-1 NVLinks Topology) CPU내의 silicon photonics기반 통합 패브릭을 이용한 네트워크 지연 향상 (Intel OmniPath Fabric (Knights Hill)) 고성능 저지연 네트워크 기술의 발전 (100G Ethernet, 100G Infiniband, OmniPath Architecture)

■ 프로세서의 core 집적도 및 core당 컴퓨팅 파워 향상

Nvidia TESLA 및 Intel Xeon Phi등에서 보이는 단위 프로세서당 core수의 증가

Page 25: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

25

컴퓨팅 자원의 계층 문제 (Resource Hierarchy)

□ 컴퓨팅 자원의 계층 문제는 컴퓨터 구성 및 아키텍처의 물리적인 한계 때문에 나타남.

□ 현대 컴퓨터 시스템이 기반하고 있는 폰 노이만 방식의 컴퓨터 시스템은 발전 과정에서 자원의 심각한 제약을 극복하기 위해 개발되고 추가된 다양한 기술들이 (메모리 캐쉬, 클러스터링) 오히려 계층 구조를 더 심화시킴

대규모의 컴퓨터를 구성하기 위해 필요한 구성 요소 및 부품들이 무한한 크기와 자원을 지니지 못하기 때문에, 컴퓨터 자원을 확장하게 되면 계층이 생길 수 밖에 없음. 이러한 자원 계층은 다양한 형태의 성능 저하 및 병목을 만들게 되고, 이러한 성능 저하 및 병목이 근본적으로 컴퓨터 자원의 확장성을 제약하는 원인이 됨.

그림 출처: (오른쪽) http://cse1.net/recaps/4-memory.html

Page 26: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

26

컴퓨팅 자원의 계층 문제 (Resource Hierarchy)

대규모의 컴퓨터를 구성하기 위해 필요한 구성 요소 및 부품들이 무한한 크기와 자원을 지니지 못하기 때문에, 컴퓨터 자원을 확장하게 되면 계층이 생길 수 밖에 없음. 이러한 자원 계층은 다양한 형태의 성능 저하 및 병목을 만들게 되고, 이러한 성능 저하 및 병목이 근본적으로 컴퓨터 자원의 확장성을 제약하는 원인이 됨.

데이터센터

Inter-cluster Network

Cluster

Rack

Node

Intra-cluster Network

CPU RAM HDD SSD

Cluster

Rack

Node

Intra-cluster Network

Cluster

Rack

Node

Intra-cluster Network

CPU RAM HDD SSD

CPU RAM HDD SSD

Page 27: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

27

Resource Hierarchy 문제 해결 – Nvidia DGX-1의 GPU간 통신 토폴로지

10/7/2016 그림 출처: http://www.anandtech.com/show/10229/nvidia-announces-dgx1-server

NVIDIA DGX-1 Specifications

CPUs 2x Intel Xeon E5-2698 v3 (16 core, Haswell-EP)

GPUs 8x NVIDIA Tesla P100 (3584 CUDA Cores)

System Memory

512GB DDR4-2133 (LRDIMM)

GPU Memory 128GB HBM2 (8x 16GB)

Storage 4x Samsung PM863 1.92TB SSDs

Networking 4x Infiniband EDR 2x 10GigE

Power 3200W

Size 3U Rackmount

GPU Throughput

FP16: 170 TFLOPs FP32: 85 TFLOPs

FP64: 42.5 TFLOPs

• P100간 GPU간 대칭적으로 모두 연결됨.

• GPU peer간 양방향으로 160GB/s 대역폭

• Peer GPU 메모리에 load/store access 가능

• PCIe 인터페이스와 CPU간 대량의 데이터 복사 엔진

Nvidia DGX-1은 기존의 GPU 및 GPU RAM간의 네트워크 토폴로지의 비대칭으로 인해 생기는 확장성의 제약을 GPU간 통신 버스인 NVLink의 토폴로지를 완전하게 대칭으로 만들어서 확장성의 약점을 크게 개선함.

Page 28: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

28

Resource Hierarchy 문제 해결 – Nvidia DGX-1의 GPU간 통신 토폴로지

10/7/2016

Nvidia DGX-1은 기존의 GPU 및 GPU RAM간의 네트워크 토폴로지의 비대칭으로 인해 생기는 확장성의 제약을 GPU간 통신 버스인 NVLink의 토폴로지를 완전하게 대칭으로 만들어서 확장성의 약점을 크게 개선함.

그림 출처: http://www.nextplatform.com/2016/04/06/dgx-1-nvidias-deep-learning-system-newbies/

Page 29: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

29

컴퓨터의 자원 계층을 평평하게 만들자! – Resource Hierarchy 문제 해결

Intel이 클라우드 데이터센터의 자원을 Rack단위로 재조직하기 위해 아키텍처로 제시한 Rack-scale Architecture에서는 고대역폭(high bandwidth) 네트워크(현재는 10G Ethernet)를 통해 CPU, Memory, Storage단위의 컴퓨팅 자원을 Rack단위로 손쉽게 재조직(reconfigure)하고 멀티테넌시를 제공할 수 있도록 함.

■ Intel RSA

모든 컴퓨팅 자원이 rack 단위로 위치한 pod manager를 통해서 rack을 기본 단위로 프로비저닝, 관리됨.

그림 출처: Jean-Louis Lezaun, OpenStack in Action 4! Jean-Louis Lezaun - Re-architecturing the datacenter : Cloud, RSA & Big Data, October 10, 2013. (http://www.slideshare.net/enovance/intel-clouddatacenterdec5th2013)

Page 30: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

30

컴퓨터의 자원 계층을 평평하게 만들자! – Resource Hierarchy 문제 해결

Intel이 클라우드 데이터센터의 자원을 Rack단위로 재조직하기 위해 아키텍처로 제시한 Rack-scale Architecture에서는 고대역폭(high bandwidth) 네트워크(현재는 10G Ethernet)를 통해 CPU, Memory, Storage단위의 컴퓨팅 자원을 Rack단위로 손쉽게 재조직(reconfigure)하고 멀티테넌시를 제공할 수 있도록 함.

■ Intel RSA

프로비저닝된 컴퓨팅 자원(CPU, RAM, Storage등)간 데이터의 이동은 optical fabric 으로 이루어짐.

그림 출처: Ryousei Takano, From Rack scale computers to Warehouse scale computers, July 31, 2014. (http://www.slideshare.net/oraccha/rack-scale-computers-to-warehouse-scale-computers)

Page 31: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

31

컴퓨터의 자원 계층을 평평하게 만들자! – Resource Hierarchy 문제 해결 Intel Xeon Phi(Knights Landing)에서는 Nvidia TESLA GPU와 같이 우선 core의 숫자를 늘이는데 집중하였지만, core의 수는 GPU에 비해 많지 않음. CPU core-RAM간 데이터 통신의 병목에 의한 CPU, RAM자원의 계층 형성을 최소화하기 위해 2D mesh 형태로 CPU core가 연결되었고, 고대역폭의 memory bus를 이용하는 MCDRAM이 16GB, 6개의 DDR4 채널을 통해 통신이 가능한 DDR4 RAM을 384GB까지 노드에 증설할 수 있음.

그림 출처: http://www.nextplatform.com/2015/08/28/intel-stacks-knights-landing-chips-next-to-xeons/

Page 32: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

32

컴퓨터의 자원 계층을 평평하게 만들자! – Resource Hierarchy 문제 해결

Intel Xeon Phi(Knights Landing)에서는 Nvidia TESLA GPU와 같이 우선 core의 숫자를 늘이는데 집중하였지만, core의 수는 GPU에 비해 많지 않음. CPU core-RAM간 데이터 통신의 병목에 의한 CPU, RAM자원의 계층 형성을 최소화하기 위해 2D mesh 형태로 CPU core가 연결되었고, 고대역폭의 memory bus를 이용하는 MCDRAM이 16GB, 6개의 DDR4 채널을 통해 통신이 가능한 DDR4 RAM을 384GB까지 노드에 증설할 수 있음.

그림 출처: http://www.nextplatform.com/2015/08/28/intel-stacks-knights-landing-chips-next-to-xeons/

Page 33: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

33

컴퓨터의 자원 계층을 평평하게 만들자! – Resource Hierarchy 문제 해결

10/7/2016

Intel Xeon Phi(Knights Landing)에서는 Nvidia TESLA GPU와 같이 우선 core의 숫자를 늘이는데 집중하였지만, core의 수는 GPU에 비해 많지 않음. CPU core-RAM간 데이터 통신의 병목에 의한 CPU, RAM자원의 계층 형성을 최소화하기 위해 2D mesh 형태로 CPU core가 연결되었고, 고대역폭의 memory bus를 이용하는 MCDRAM이 16GB, 6개의 DDR4 채널을 통해 통신이 가능한 DDR4 RAM을 384GB까지 노드에 증설할 수 있음.

그림 출처: http://www.nextplatform.com/2015/08/19/intel-traces-deeper-pathways-on-future-fpga-map/

Page 34: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

34

컴퓨터의 자원 계층을 평평하게 만들자! – Resource Hierarchy 문제 해결

10/7/2016

Intel Xeon Phi(Knights Landing)에서는 Nvidia TESLA GPU와 같이 우선 core의 숫자를 늘이는데 집중하였지만, core의 수는 GPU에 비해 많지 않음. CPU core-RAM간 데이터 통신의 병목에 의한 CPU, RAM자원의 계층 형성을 최소화하기 위해 2D mesh 형태로 CPU core가 연결되었고, 고대역폭의 memory bus를 이용하는 MCDRAM이 16GB, 6개의 DDR4 채널을 통해 통신이 가능한 DDR4 RAM을 384GB까지 노드에 증설할 수 있음.

그림 출처: http://www.theregister.co.uk/2016/03/14/intel_xeon_fpga/

Page 35: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

35

자원 계층 문제의 해결 – Non-Volatile Memories

Non-volatile Memory(NVM) 기술의 발전으로 기존 노드내 성능 계층 현상의 가장 큰 원인이었던 메모리 계층이 단순화되고, 기존의 노드 수준의 자원 계층이 파괴되어 사라질 수 있음.

Cluster

Rack

Node

Intra-cluster Network

CPU RAM HDD SSD

■ Memory-Storage 계층 파괴

NVM 및 고성능 SSD가 조만간 Memory-Cache(L1, L2, L3)-CPU-Disk의 계층을 파괴하고 새로운 컴퓨터 아키텍처로 나타날 수 있음.

■ Bootless computing system

Memory가 필요 없이 데이터가 저장된 영속 저장장치에서 바로 연산을 수행하여 데이터 통신으로 인한 지연을 줄임. (Bootless computing system)연산을 위해 데이터를 메모리나 캐시로 옮길 필요가 없이 영속 저장 장치에 저장된 위치에서 바로 연산을 수행하기 때문에 연산 성능의 비약적인 향상이 가능함

운영체제 커널의 부팅이 필요 없고, 컴퓨터의 자원 관리가 간단해져, 컴퓨팅 파워의 확장성을 비약적으로 향상시킬 수 있음.

Cluster

Rack

Intra-rack Fabric

CPU NVM

AS-IS TO-BE

Page 36: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

36

자원 계층 문제의 해결 – Non-Volatile Memories

10/7/2016

Intel의 새로운 차세대 NVM 기술인 3D XPoint 기술은 기존의 nand-flash기반의 SSD보다 1000배 더 빠른 I/O 속도와 10배 이상 향상된 용량을 제공할 수 있음. 또한 기존의 SSD에 비해 내구성도 뛰어나 반영구적인 데이터 저장장치로 사용 가능.

그림 출처: (왼쪽) http://www.pcworld.com/article/2951864/storage/intel-micron-announce-new-3dxpoint-memory-type-thats-1000-times-faster-than-nand.html (오른쪽) Intel, Micron unveil “breakthrough” 3D XPoint Memory Tech – A revolutionary breakthrough in Memory Technology, http://www.slideshare.net/Syntech/intel-micron-unveil-breakthrough-3d-xpoint-memory-tech-a-revolutionary-breakthrough-in-memory-technology

Page 37: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

37

자원 계층 문제의 해결 – Non-Volatile Memories

10/7/2016

Intel의 새로운 차세대 NVM 기술인 3D XPoint 기술은 기존의 nand-flash기반의 SSD보다 1000배 더 빠른 I/O 속도와 10배 이상 향상된 용량을 제공할 수 있어 DRAM과 유사한 수준의 I/O 성능을 낼 수 있음. 기술이 조금 더 발전되면 RAM의 역할을 대신할 수 있을 정도의 I/O 성능을 낼 수 있을 것으로 기대되며, RAM을 대체할 가능성도 있음.

그림 출처: http://www.extremetech.com/computing/226721-intel-demos-3d-xpoint-showcases-optanes-2gbs-performance-2

그림 출처: http://www.extremetech.com/computing/226721-intel-demos-3d-xpoint-showcases-optanes-2gbs-performance-2

Page 38: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

38

자원 계층 문제의 해결 – Non-Volatile Memories

10/7/2016

Intel의 새로운 차세대 NVM 기술인 3D XPoint 기술은 기존의 nand-flash기반의 SSD보다 1000배 더 빠른 I/O 속도와 10배 이상 향상된 용량을 제공할 수 있어 DRAM과 유사한 수준의 I/O 성능을 낼 수 있음. 기술이 조금 더 발전되면 RAM의 역할을 대신할 수 있을 정도의 I/O 성능을 낼 수 있을 것으로 기대되며, RAM을 대체할 가능성도 있음.

그림 출처: http://electronics360.globalspec.com/article/6425/xpoint-memory-chips-positioned-for-rapid-adoption

그림 출처: http://wccftech.com/interface-limitations-deliver-actual-3d-xpoint-ssd-speeds/

Page 39: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

39

자원 계층 문제의 해결 – Non-Volatile Memories

10/7/2016

2014년 HP가 Memrister기반의 차세대 컴퓨터 아키텍처로 발표했던 “The Machine”은 이러한 NVM에 기반한 새로운 컴퓨터 아키텍처의 큰 흐름중의 하나였음. 현재 memrister기술의 실용화 가능성에 의문을 품은 HP가 memrister대신 phase-change memory(PCM)으로 기본 소자를 변경하여 개발을 진행하고 있음.

그림 출처: (왼쪽) http://www.extremetech.com/extreme/207897-hp-kills-the-machine-repurposes-design-around-conventional-technologies (오른쪽 위) https://www.engadget.com/2015/06/05/hp-the-machine-no-memristors/ (오른쪽 아래) https://en.wikipedia.org/wiki/Memristor

Page 40: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

40

자원 계층 문제의 해결 – Non-Volatile Memories

10/7/2016

2014년 HP가 Memrister기반의 차세대 컴퓨터 아키텍처로 발표했던 “The Machine”은 이러한 NVM에 기반한 새로운 컴퓨터 아키텍처의 큰 흐름중의 하나였음. 현재 memrister기술의 실용화 가능성에 의문을 품은 HP가 memrister대신 phase-change memory(PCM)으로 기본 소자를 변경하여 개발을 진행하고 있음.

그림 출처: (왼쪽) https://en.wikipedia.org/wiki/Memristor (오른쪽) https://nanoheat.stanford.edu/projects/phase-change-memory-and-electrothermal-transport-chalcogenides

Page 41: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

41

자원 계층 문제의 해결 – Non-Volatile Memories

10/7/2016

Phase-Change Memory(PCM)이란 정보를 저장할 물질의 상변화(phase-change)를 이용해 비트를 저장하는 기술로, 기존의 HDD, SSD보다 빠른 read/write가 가능하여 차세대 메모리 기술로 개발되고 있음.

그림 출처: (왼쪽) http://slideplayer.com/slide/2812341/ (오른쪽) http://slideplayer.com/slide/7457279/

Page 42: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

42

자원 계층 문제의 해결 – Advanced Data Communication Technologies

네트워크 대역폭이 100G 이상으로 크게 향상되어 네트워크 상에서의 대역폭 제약에 의한 병목이 점차 완화되고 있음. Silicon photonics 기술의 발전에 따라 기존 유선 네트워크의 대역폭과 지연(latency)이 크게 개선되어 노드 내 자원 계층이 단순해지고, 노드 내 CPU, RAM 및 Storage간의 데이터 통신의 대역폭도 크게 개선될 것으로 기대됨. ■ Silicon Photonics 기술의 발전과 latency 감소 개선

Silicon photonics 기술로 노드간 통신에서의 데이터 전송 대역폭(bandwidth)과 지연(latency)이 비약적으로 향상될 수 있음.

노드간 데이터 전송 지연이 크게 짧아짐으로 scale-out에 따른 성능 저하가 크게 줄어들 수 있음.

■ 대칭형 네트워크 및 버스 토폴로지 도입

최근 Nvidia TESLA P100등의 Many-core processor들에서 도입된 NVLink기반의 symmetric memory bus도 노드내의 코어간 데이터 통신 지연을 개선하여 연산의 확장성을 크게 높임.

■ 고대역폭 (100G이상) 네트워크 기술의 범용화

Silicon photonics가 범용화되기 전에 100G Ethernet, Infiniband 및 Omni-Path 기술이 분산 시스템의 확장성을 크게 높일 수 있음.

Page 43: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

43

자원 계층 문제의 해결 – Advanced Data Communication Technologies

10/7/2016

Silicon photonics 기술의 발전에 따라 기존 유선 네트워크의 대역폭과 지연(latency)가 크게 개선될 수 있음. Silicon photonics 기술은 노드 내 CPU, RAM 및 기타 자원간의 데이터 통신 패브릭으로도 쓰이게 되며, 이로 인해 노드 내 자원 계층이 단순해지고, 노드 내 CPU, RAM 및 Storage간의 데이터 통신의 대역폭도 크게 개선될 것으로 기대됨.

그림 출처: http://hexus.net/tech/news/mainboard/25707-intel-takes-next-step-silicon-photonics/

Page 44: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

44

자원 계층 문제의 해결 – Silicon photonics technologies

10/7/2016

Silicon photonics 기술의 발전에 따라 기존 유선 네트워크의 대역폭과 지연(latency)가 크게 개선될 수 있음. Silicon photonics 기술은 노드 내 CPU, RAM 및 기타 자원간의 데이터 통신 패브릭으로도 쓰이게 되며, 이로 인해 노드 내 자원 계층이 단순해지고, 노드 내 CPU, RAM 및 Storage간의 데이터 통신의 대역폭도 크게 개선될 것으로 기대됨.

그림 출처: (왼쪽 위) http://www.fujitsu.com/global/about/resources/news/press-releases/2011/0916-01.html (왼쪽 아래 왼쪽) http://www.theregister.co.uk/2016/08/17/intel_silicon_photonics/ (왼쪽 아래 가운데) http://simesoftware.com/tag/shipping/ (오른쪽) http://www.fujitsu.com/global/about/resources/news/press-releases/2011/0916-01.html

Page 45: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

45

자원 계층 문제의 해결 – Silicon photonics technologies

10/7/2016

Silicon photonics 기술의 발전에 따라 기존 유선 네트워크의 대역폭과 지연(latency)가 크게 개선될 수 있음. Silicon photonics 기술은 노드 내 CPU, RAM 및 기타 자원간의 데이터 통신 패브릭으로도 쓰이게 되며, 이로 인해 노드 내 자원 계층이 단순해지고, 노드 내 CPU, RAM 및 Storage간의 데이터 통신의 대역폭도 크게 개선될 것으로 기대됨.

그림출처: (왼쪽) http://www.heise.de/newsticker/meldung/Intel-bringt-endlich-den-HPC-Prozessor-Xeon-Phi-Knights-Landing-3241370.html (오른쪽) http://simesoftware.com/tag/shipping/

Page 46: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

46

자원 계층 문제의 해결 – Advanced Data Communication Technologies

10/7/2016

최근 100G 이상의 대역폭을 가지는 고성능 네트워크 장비 제품이 점차 시장에서 확산되고 있음. Intel의 Omni-Path는 과거 Infiniband 저지연 네트워크를 대체할 수 있는 새로운 네트워크 기술로, 분산 시스템의 확장성을 크게 높일 수 있음.

Mellanox CS7500 648-Port EDR 100Gb/s InfiniBand Director Switch 648 EDR (100Gb/s) ports in a 28U switch

ConnectX®-4 Single/Dual-Port Adapter supporting 100Gb/s with VPI

Intel® Omni-Path Director Class Switch 100 Series - High Performance Computing 32-768 Port Director Class Switches

Intel® Omni-Path Network Interface Card 그림 출처: http://www.enterprisetech.com/2014/11/17/taking-omni-path-cluster-scaling/

Page 47: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

47

자원 계층 문제의 해결 – Advanced Data Communication Technologies

10/7/2016

최근 100G 이상의 대역폭을 가지는 고성능 네트워크 장비 제품이 점차 시장에서 확산되고 있음. Intel의 Omni-Path는 과거 Infiniband 저지연 네트워크를 대체할 수 있는 새로운 네트워크 기술로, 분산 시스템의 확장성을 크게 높일 수 있음.

그림 출처: http://www.heise.de/newsticker/meldung/Intel-bringt-endlich-den-HPC-Prozessor-Xeon-Phi-Knights-Landing-3241370.html

Page 48: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

48

프로세서 성능의 비약적 향상

Nvidia의 TESLA는 연산 core의 집적 및 GPU의 성능 향상에 있어서 탁월한 혁신을 보여주고 있음. Intel Knights Landing의 CPU-Memory bus 대역폭 향상에 따른 메모리 확장성 개선, CPU-Network port간 fabric 아키텍처의 개선을 통한 노드 확장성 개선으로 데이터센터 내 분산 시스템의 계층 단순화의 가능성이 높아짐.

■ 프로세서당 Core 집적도 향상으로 인한 성능 향상

Silicon photonics 기술로 노드간 통신에서의 데이터 전송 대역폭(bandwidth)과 지연(latency)이 비약적으로 향상될 수 있음.

노드간 데이터 전송 지연이 크게 짧아짐으로 scale-out에 따른 성능 저하가 크게 줄어들 수 있음.

■ 프로세서 내 fabric 아키텍처의 향상으로 인한 프로세서 단위 성능 향상

최근 Nvidia TESLA P100등의 Many-core processor들에서 도입된 NVLink기반의 symmetric memory bus도 노드내의 코어간 데이터 통신 지연을 개선하여 연산의 확장성을 크게 높임.

■ 비트 수준의 병렬화에 따른 연산 향상 – Quantum Computing

Silicon photonics가 범용화되기 전에 100G Ethernet, Infiniband 및 Omni-Path 기술이 분산 시스템의 확장성을 크게 높일 수 있음.

Page 49: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

49

프로세서 성능의 비약적 향상 - Core 집적도 향상 NVIDIA Tesla Family Specification Comparison

Tesla P100 Tesla K80 Tesla K40 Tesla M40

Stream Processors 3584 2 x 2496 2880 3072 Core Clock 1328MHz 562MHz 745MHz 948MHz

Boost Clock(s) 1480MHz 875MHz 810MHz, 875MHz

1114MHz

Memory Clock 1.4Gbps HBM2 5Gbps GDDR5 6Gbps GDDR5 6Gbps GDDR5

Memory Bus Width

4096-bit 2 x 384-bit 384-bit 384-bit

Memory Bandwidth

720GB/sec 2 x 240GB/sec 288GB/sec 288GB/sec

VRAM 16GB 2 x 12GB 12GB 12GB

Half Precision 21.2 TFLOPS 8.74 TFLOPS 4.29 TFLOPS 6.8 TFLOPS

Single Precision 10.6 TFLOPS 8.74 TFLOPS 4.29 TFLOPS 6.8 TFLOPS

Double Precision 5.3 TFLOPS (1/2 rate)

2.91 TFLOPS (1/3 rate)

1.43 TFLOPS (1/3 rate)

213 GFLOPS (1/32 rate)

GPU GP100 (610mm2)

GK210 GK110B GM200

Transistor Count 15.3B 2 x 7.1B(?) 7.1B 8B

TDP 300W 300W 235W 250W

Cooling N/A Passive Active/Passive Passive

Manufacturing Process

TSMC 16nm FinFET

TSMC 28nm TSMC 28nm TSMC 28nm

Architecture Pascal Kepler Kepler Maxwell 2 10/7/2016

Nvidia의 TESLA는 연산 core의 집적 및 GPU의 성능 향상에 있어서 탁월한 혁신을 보여주고 있음. 최근 발표된 TESLA P100은 단위 GPU당 3584개의 core를 집적하고, Single Precision 연산에서 10.6 TFLOPS의 성능을 보여줌.

그림 출처: http://www.nag.co.za/2016/04/06/nvidia-unveils-the-pascal-based-tesla-p100-accelerator/

Page 50: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

50

프로세서 성능의 비약적 향상

10/7/2016

Page 51: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

51

프로세서 성능의 비약적 향상 - fabric 아키텍처의 향상과 프로세서 단위 성능 향상

10/7/2016

Intel Knights Landing의 CPU-Memory bus 대역폭 향상에 따른 메모리 확장성 개선, CPU-Network port간 fabric 아키텍처의 개선을 통한 노드 확장성 개선으로 데이터센터 내 분산 시스템의 계층 단순화의 가능성이 높아짐.

그림 출처: (왼쪽) http://wccftech.com/intel-knights-landing-detailed-16-gb-highbandwidth-ondie-memory-384-gb-ddr4-system-memory-support-8-billion-transistors/ (오른쪽) http://www.nag.co.za/2016/04/06/nvidia-unveils-the-pascal-based-tesla-p100-accelerator/

Page 52: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

52

프로세서 성능의 비약적 향상 - 비트 수준의 병렬화와 Quantum Computing

10/7/2016

양자역학의 state superposition 원리를 이용한 quantum algorithms의 내재적인 병렬성(inherent parallelism)을 이용하면 비트(qubit)수준에서 부터 연산을 가속화하여 기존의 컴퓨터와는 다른 연산이 가능함. 양자컴퓨터의 bit 수에 따라 semi-global optimization 계산을 동시에 연산 가능하여 Deep Learning과 같은 최적화 연산에 적합함. 현재는 범용 양자컴퓨터는 개발되지 않았으며, 특정한 목적에 맞는 연산(adiabatic quantum computing)만 가능함.

그림 출처: (위쪽) Krysta M. Svore, Matthias Troyer, The Quantum Future of Computation, IEEE Computer V. 49 Iss. 9 (September), IEEE, 2016. (아래 왼쪽) http://motherboard.vice.com/read/google-claims-its-d-wave-quantum-computer-is-the-real-deal (아래 가운데) http://www.techrepublic.com/article/quantum-leap-d-waves-next-quantum-computing-chip-offers-a-1000x-speed-up/ (아래 오른쪽) http://www.ibtimes.com/d-wave-systems-announces-2000-qubit-quantum-annealing-computer-says-it-1000-times-2423682

Page 53: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

53

(강)인공지능 구현을 위해 우리가 GPGPU에 바라는 것

Page 54: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

54

(강)인공지능 구현을 위해 우리가 GPGPU에 바라는 것

Nvidia의 TESLA는 연산 core의 집적 및 GPU의 성능 향상에 있어서 탁월한 혁신을 보여주고 있음. GPU RAM의 부족, CPU-GPU 통신 대역의 제약과 GPU-CPU-RAM-Network으로 이어지는 자원 계층으로 인한 Inter-node 확장성의 부족이 인공지능 구현에 GPGPU가 활용되는 데에 약점이 될 것임. 이런 약점을 개선하여야 함

■ GPU RAM의 제약을 극복할 방법이 필요

GPU RAM의 제약으로 인한 대형 DNN 및 machine learning 모델링이 불가능한 약점을 극복해야 함. GPU RAM 자체를 키우는 방법은 공간의 제약으로 인해 한계가 있으나, PCM이나 3D XPoint 기술과 같은 새로운

메모리 기술을 도입하여 극복이 부분적으로 가능할 것으로 보임.

■ GPU-CPU-RAM-Network으로 이어지는 자원 계층 극복

GPU를 쓰는 계산의 확장성을 쉽게 높이는 방법은 multi-GPU를 사용하는 것이나, multi-GPU 사용시 GPU간 통신의 자원 계층이 복잡하여 지연과 병목이 발생하는 점을 극복할 아키텍처상의 개선이 있어야 함.

GPU-to-GPU간 자원 계층을 단순화할 수 있는 GPU 인터페이스 및 컴퓨터 아키텍처 개선이 있어야 함.

■ Inter-node GPU간 통신 지연을 개선하기 위한 fabric 기술의 발전

GPGPU에서도 silicon photonics와 같은 광회로를 도입하고 통합하여 inter-node GPU간 통신 지연이 개선되고 GPU-to-GPU간 데이터 대역폭을 증가, 자원 계층을 단순화할 수 있도록 개선되어야 함.

Page 55: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

55

인공지능을 어떻게 만들어야 할까? – DNN과 NEURAL CIRCUITS AND PATHWAYS

Page 56: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

56

인공지능을 어떻게 만들어야 할까? – DNN과 Neural Circuits and Pathways

그림 출처: (오른쪽 위) https://www.yahoo.com/news/mind-blowing-brain-map-accomplishes-170000596.html (오른쪽 아래) http://www.extremetech.com/extreme/232452-report-from-the-human-connectome-project-zeroes-in-on-the-firmware-of-the-brain

그림 출처: (왼쪽) http://www.nature.com/nature/journal/v536/n7615/index.html

Page 57: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

57

인공지능을 어떻게 만들어야 할까? – DNN과 Neural Circuits and Pathways

http://discovermagazine.com/2013/jan-feb/36-new-project-maps-the-wiring-of-the-mind https://en.wikipedia.org/wiki/Neural_pathway

Page 58: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

58

인공지능을 어떻게 만들어야 할까? – DNN과 Neural Circuits and Pathways

http://discovermagazine.com/2013/jan-feb/36-new-project-maps-the-wiring-of-the-mind http://www.ucalgary.ca/pip369/mod7/touch/neural

Page 59: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

59

인공지능을 어떻게 만들어야 할까? – DNN과 Neural Circuits and Pathways

http://discovermagazine.com/2013/jan-feb/36-new-project-maps-the-wiring-of-the-mind https://www.studyblue.com/notes/note/n/4-01-13-and-4-03-13/deck/6551073

Page 60: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

60

인공지능을 어떻게 만들어야 할까? – DNN과 Neural Circuits and Pathways

10/7/2016

인공지능을 만들기 위해서는 단위 정보, 또는 특정한 정보 처리 단계를 모델링하는 Deep Neural Network 모듈들이 각각의 계산을 수행하기 위한 노드에 배치되어 실행되고, neural circuits과 pathway를 기술하는 소프트웨어적인 통합 인터페이스 (분산 메시지 인터페이스 또는 RPC?)가 DNN-chain, DNN-flow형태로 회로를 만들어 통합된 기능을 수행하는 방식이 될 것임.

DNN (V1)

DNN (LGN)

DNN (Thalamus) DNN (Neocortex)

DNN (Neural Module 1) DNN

(Neural Module 2)

Active Device (Robot hand)

Active Device (Robot eye)

DNN circuit channel

(Spinal Networks) DNN

circuit channel (Motion Circuits)

DNN circuit channel (Vision Circuits)

DNN circuit channel

(Spinal Networks)

Neural Interface Design (by Bayesian Deep Learning?)

Page 61: 김진철 (SK Telecom) / 2016. 10. 7. · 2016-10-12 · 5. 인공지능 – 어디로 가고 있는가? 멀티코어. cpu, 네트워크 기술의 발전으로 인한 컴퓨팅 파워의

SEOUL | Oct.7, 2016

THANK YOU