Arquitectura de Computadores - Técnico Lisboa ... · Coer^encia de Mem oria Em sistemas paralelos, amigra˘c~aoereplica˘c~aode dados e normal, e mesmo desej avel. No entanto, uma

Arquitectura de ComputadoresProcessadores Multicore; GPUs; Clusters

Jose Monteiro

Licenciatura em Engenharia Informatica e de Computadores

Departamento de Engenharia Informatica (DEI)Instituto Superior Tecnico

20 de Maio, 2013

Jose Monteiro (DEI / IST) Arquitectura de Computadores 2013-05-20 1 / 25

Sumario da Aula

multicores

UMA, Uniform Memory Access

NUMA, Non-Uniform Memory Access

GPUs, Graphics Processing Units

multicomputadores


Nıveis de Paralelismo

execucao simultanea de varias fases de instrucoes em sequencia

⇒ pipelining

execucao paralela de instrucoes de uma sequencia num unicoprocessador

⇒ processadores superescalares e VLIWs

execucao paralela em varios processadores num unico computador

⇒ multiprocessadores

execucao paralela em varios computadores

⇒ clusters, grids




⇒ pipelining






⇒ clusters, grids




⇒ pipelining






⇒ clusters, grids




⇒ pipelining






⇒ clusters, grids


Processadores com Memoria Partilhada

Arquitetura Uniform Memory Access (UMA)

tambem conhecida por

Symmetric Shared-Memory Multiprocessors (SMP)

UCP UCP UCP UCP

Memória

PrimáriaE / S



Contencao no acesso a memoria?

UCP UCP UCP UCP

Memória

PrimáriaE / S

Caches write-back ou write-through?

Tipicamente write-back: reducao do numero de acessos a memoria central.




UCP

Cache

UCP UCP UCP

Memória

PrimáriaE / S

Cache Cache Cache






UCP

Cache

UCP UCP UCP

Memória

PrimáriaE / S

Cache Cache Cache






UCP

Cache

UCP UCP UCP

Memória

PrimáriaE / S

Cache Cache Cache




Coerencia de Memoria

Em sistemas paralelos, a migracao e replicacao de dados e normal, emesmo desejavel.

No entanto, uma vez que os dados podem estar em multiplas caches, enecessario lidar com o problema da coerencia de dados.

Tempo Evento Cache Cache MemoriaUCP A UCP B Primaria

0 0

1 UCP A le M[X] 0 0

2 UCP B le M[X] 0 0 0

3 UCP A 1→M[X] 1 0 1






0 0

1 UCP A le M[X] 0 0

2 UCP B le M[X] 0 0 0

3 UCP A 1→M[X] 1 0 1






0 0

1 UCP A le M[X] 0 0

2 UCP B le M[X] 0 0 0

3 UCP A 1→M[X] 1 0 1






0 0

1 UCP A le M[X] 0 0

2 UCP B le M[X] 0 0 0

3 UCP A 1→M[X] 1 0 1



UCP

Cache

UCP UCP UCP

Memória

PrimáriaE / S

Cache Cache Cache

Limitacao principal desta arquitetura?

Escalabilidade limitada devido ao acesso a memoria primaria.



UCP

Cache

UCP UCP UCP

Memória

PrimáriaE / S

Cache Cache Cache





UCP

Cache

UCP UCP UCP

Memória

PrimáriaE / S

Cache Cache Cache




Sistemas de Memoria Distribuıda

Arquitetura Non-Uniform Memory Access (NUMA)

UCP

Cache

Cache

UCP

Memória

Primária

Memória

PrimáriaE / S

UCP

Cache

Cache

UCP

Memória

Primária

Memória

Primária

Principal problema desta arquitetura?

Acesso lento a dados remotos.




UCP

Cache

Cache

UCP

Memória

Primária

Memória

PrimáriaE / S

UCP

Cache

Cache

UCP

Memória

Primária

Memória

Primária






UCP

Cache

Cache

UCP

Memória

Primária

Memória

PrimáriaE / S

UCP

Cache

Cache

UCP

Memória

Primária

Memória

Primária




Comparacao entre Sistemas UMA e NUMA

Em arquiteturas UMA:

partilha de dados muito mais facil

tempo de acesso a dados uniforme

mais faceis de programar

No entanto:

contencao no acesso a memoria e uma limitacao seria a suaescalabilidade

a memoria distribuıda permite uma maior largura de banda no acessoa memoria

partilha de dados e explıcita, portanto mais facil de perceber econtrolar

hardware mais simples







No entanto:











No entanto:











No entanto:











No entanto:











No entanto:











No entanto:






Multicores

Exemplos de processadores multicore atuais:

AMD

Opteron: dual, quad, hex, 8-, 12-coresPhenom: dual, quad, hex cores

Intel

Core i7: six hyperthreaded coresDunnington (Xeon): six cores

Sun

Niagara: 8 cores; 8-way fine-grain multithreading per core

IBM

Power 7: dual, quad, hex, 8-coreCell: 1 PPC core; 8 SPEs w/ SIMD parallelism


GPGPU

GPU - Graphics Processing Unit

processador dedicado para a geracao de imagens

GPGPU - General Purpose Graphics Processing Unit programming

desacoplar o GPU dos graficos

explorar o poder computacional do GPU


CUDA

A NVIDIA colocou muitos exemplos/aplicacoes interessantes na suapagina da internet para demonstrar o potencial da programacao GPGPU.

Alguns speedups sao difıceis de acreditar...


Fatores que Impulsionam o Desempenho dos GPUs

Porque tem os GPUs um desempenho tao elevado?

necessidade de geracao deimagens em tempo real

industria dos jogos e ummercado rico


Fatores que Impulsionam o Desempenho dos GPUs

Porque tem os GPUs um desempenho tao elevado?

necessidade de geracao deimagens em tempo real

industria dos jogos e ummercado rico


Evolucao do Desempenho da UCP vs GPU


Arquitetura dos GPUs

GPU desenhado para as funcoes que e usado:

processamento vetorial

vetores grandes de dados

stream processing

operacoes em vırgula flutuante rapidas


GPU Hardware

O hardware do GPU NVIDIA G80/GT200 consiste em:

conjunto de processadores vetoriais: 16 no G80; 30 no GT200

cada processador vetorial tem 8 ULAs, e um pipeline de 4 andares

cada processador suporta:

unidades inteiras de 32-bitvırgula flutuante IEEE 754 de precisao simples


Ligacao CPU - GPU

O GPU tem:

mais hardware para unidades de processamento (muitas, mais simples)

menos hardware dedicado a unidade de controlo e a cache

memoria mais rapida, e com maior largura de banda (> 10x)

mais cores (GT200 tem 30 cores vs quad core Xeon)

muitas ULAs (GT200 tem 240 SP ULAs vs 32 do quad core Xeon)


Programacao GPGPU

Dificuldades da programacao GPGPU:

Aprendizagem complicada

Necessidade de mapear programa para calculo vetorial

Modelo de acesso a memoria limitado

Transferencia de dados CPU-GPU reduz desempenho


Programacao GPGPU







Programacao GPGPU







Programacao GPGPU







Hierarquia de Capacidade de Processamento

HPC: High Performance Computing


Hierarquia de Capacidade de Processamento

HPC: High Performance Computing


Computadores do Tamanho de Armazens


Computadores do Tamanho de Armazens


Multicomputadores

Multicomputadores: Clusters; Grids

Memória

PrimáriaE / S

UCP

Cache

Interconnection Network

Cache

Cache Cache

UCP

UCP UCP

Memória

Primária

Memória

Primária

Memória

Primária

E / S

E / S E / S


Evolucao de Desempenho

Em 2009 atingiu-se o primeiro computador com mais de um Peta Flops!

Estimativa do poder computacional do cerebro humano:1014 ligacoes neuronais a 200 calculos por segundo ⇒ 20 PFLOPS


Top 10 Supercomputers (Junho 2012)


Revisao

multicores

UMA, Uniform Memory Access

NUMA, Non-Uniform Memory Access

GPUs, Graphics Processing Units

multicomputadores


Proximos Passos

esta semana, discussoes e definicao da nota de laboratorio

2o teste

teste dia 7 de Junho as 11h30

inscricoes abertas entre 28 de Maio e 4 de Junho

horario das aulas de duvidas para as proximas semanas vai ser alterado,novos perıodos vao ser colocados na pagina do Fenix

repescagem

teste dia 27 de Junho as 8h

inscricoes abertas entre 17 e 24 de Junho

⇒ escolher o teste certo!

⇒ a inscricao para a repescagem leva a perda do bonus!


Proximos Passos


2o teste




repescagem






Proximos Passos


2o teste




repescagem






Proximos Passos


2o teste




repescagem






Proximos Passos


2o teste




repescagem






Proximos Passos


2o teste




repescagem






Documents

Arquitectura de Computadores - Técnico Lisboa ... · Coer^encia de Mem oria Em sistemas paralelos, amigra˘c~aoereplica˘c~aode dados e normal, e mesmo desej avel. No entanto, uma