40
Arquitetura de Computadores Marcelo Adriano Perecim 129 5.7.5 – Pentium III O Pentium III é um processador de 6ª geração. Tem as mesmas características do Pentium II, apresentando algumas novidades. Os primeiros modelos de Pentium III têm núcleo com tecnologia de 0,25 µm, chamado Katmai, e operam externamente a 100 MHz. Uma segunda versão do Pentium III utiliza núcleo com tecnologia de 0,18 µm (chamado Coppermine) e opera externamente a 133 MHz. As principais diferenças entre Pentium II e o Pentium III são: Tecnologia SSE (Streaming SIMD Extensions) : são 70 novas instruções com o conceito SIMD. A idéia é parecida com a tecnologia 3Dnow! da AMD, introduzida com o processador K6-2. É a segunda geração da tecnologia MMX. Co-processador superescalar : permite o uso simultâneo de instruções MMX e SSE e do coprocessador matemático. Número de série : todos os processadores a partir do Pentium III têm um número de série único que permite identificar o processador através de redes, especialmente da Internet. Isso permite a identificação imediata do usuário quando este se conectar a um site em que esteja cadastrado, por exemplo. Acesso a até 4 GB de memória usando o cache. Existem dois modelos de Pentium III: SECC-2 (Single Edge Contact Cartridge 2) e FC-PGA (Flip Chip Pin Grid Array). O primeiro é conectado à placa- mãe através do slot 1, dessa forma utiliza as mesmas placas-mãe desenvolvidas para o Pentium II, enquanto o Pentium III FC-PGA utiliza o padrão de pinagem soquete 370, que é o mesmo padrão de pinagem do processador Celeron.

Arquitetura+de+Computadores4

Embed Size (px)

DESCRIPTION

INFORMATIVO SOBRE ENGENHARIA DE CONSTRUÇÃO DE COMPUTADORES.

Citation preview

Arquitetura de Computadores Marcelo Adriano Perecim 1295.7.5 Pentium III OPentiumIIIumprocessadorde6gerao.Temasmesmas caractersticasdoPentiumII,apresentandoalgumasnovidades.Osprimeiros modelos de Pentium III tm ncleo com tecnologia de 0,25 m, chamado Katmai, eoperamexternamentea100MHz.UmasegundaversodoPentiumIIIutiliza ncleo com tecnologia de 0,18m (chamado Coppermine) e opera externamente a 133 MHz. As principais diferenas entre Pentium II e o Pentium III so: Tecnologia SSE (Streaming SIMD Extensions): so 70 novas instrues com o conceitoSIMD.Aidiaparecidacomatecnologia3Dnow!daAMD, introduzida com o processador K6-2. a segunda gerao da tecnologia MMX. Co-processadorsuperescalar:permiteousosimultneodeinstruesMMXe SSE e do coprocessador matemtico. Nmerodesrie:todososprocessadoresapartirdoPentiumIIItmum nmero de srie nico que permite identificar o processador atravs de redes, especialmentedaInternet.Issopermiteaidentificaoimediatadousurio quando este se conectar a um site em que esteja cadastrado, por exemplo. Acesso a at 4 GB de memria usando o cache. ExistemdoismodelosdePentiumIII:SECC-2(SingleEdgeContact Cartridge 2) e FC-PGA (Flip Chip Pin Grid Array). O primeiro conectado placa-me atravs do slot 1, dessa forma utilizaas mesmas placas-me desenvolvidas paraoPentiumII,enquantooPentiumIIIFC-PGAutilizaopadrodepinagem soquete 370, que o mesmo padro de pinagem do processador Celeron. Arquitetura de Computadores Marcelo Adriano Perecim 130 Os processadores Pentium III podem ser encontrados em duas verses de barramentoexterno,100MHze133MHz,eemduasversesdecachede memria:512KBoperandonametadedafreqnciadoprocessadorou256KB operando na mesma freqncia do processador. No entanto, o Pentium III nome-cdigo Tualatin tem 512 KB de cache L2 sendo acessado na freqncia interna do processador. Todos os modelos FC-PGA tm cache de 256 KB (ou 512 KB, no caso do Tualatin) integrado dentro do prprio processador, operando na mesma freqncia de operao interna. J os modelos SECC-2 podem ter tanto o cache de memria L2de512KBoperandonametadedafreqnciadeoperao,quantocachede memriaL2de256KBoperandonamesmafreqnciadeoperaointernado processador. Nesteltimocaso,osprocessadoressomarcadoscomaLetraEapsa suafreqnciadeoperao.Porexemplo,PentiumIII-600E.Quandonoha letraEapsafreqnciadoprocessadorPentiumIIIemformadecartucho, significaqueseucachede512KB,operandonametadedafreqnciade operao interna do processador. Umsistemadeletrassimilarusadoparaidentificarafreqnciade operaoexternadosprocessadores.ProcessadorescomaletraBapsa freqnciadeoperaotrabalhamexternamentea133MHz(comoemPentium III-600B),eosprocessadoresquenotmaletraBtrabalhamexternamentea 100 MHz. Osprocessadoresquetm256KBdememriacachetrabalhandona mesmafreqnciadeoperaointernadoprocessadorebarramentoexternode 133 MHz so marcados com as duas letras ao mesmo tempo (Pentium III-600EB, por exemplo). Arquitetura de Computadores Marcelo Adriano Perecim 131 PENTIUM III KATMAI Barramento: 100 MHz Tecnologia: 0,25 m Cache L1: 64 KB Cache L2: 512 KB Freqncia do cache L2: metade do processador. Processador Pentium III Katmai Lanamento1999 Transistores9.500.000 Tecnologia0,25 Barramento de dados64 bits Barramento de endereos36 bits Capacidade de endereamento64 GB Clock interno450 600 MHz Clock externo100 ou 133 MHz Consumo26 a 36 W Cache L132 Kb Cache L2512KB, (half speed) Modelo ClockClock Interno Clock ExternoMultiplicadorPotncia Pentium III/450450 MHz100 MHz4,5 x26,6 W Pentium III/500500 MHz100 MHz5 x29,3 W Pentium III/533B533 MHz133 MHz4 x31,1 W Pentium III/550550 MHz100 MHz5,5 x32,2 W Pentium III/600600 MHz100 MHz6 x36,1 W Pentium III/600B600 MHz133 MHz4,5 x36,1 W PENTIUM III COPPERMINE Barramento: 133 MHz Tecnologia: 0,25 m Cache L1: 64 KB Cache L2: 256 KB Freqncia do cache L2: igual do processador. Arquitetura de Computadores Marcelo Adriano Perecim 132 PENTIUM III SOCKET 370 Barramento: 133 MHz Tecnologia: 0,18 m Cache L1: 64 KB Cache L2: 256 KB Freqncia do cache L2: igual do processador. Processador Pentium III Coppermine Lanamento1999 Transistores28.000.000 Tecnologia0,18 Barramento de dados64 bits Barramento de endereos36 bits Capacidade de endereamento64 GB Clock interno500 1.133 MHz Clock externo100 ou 133 MHz Consumo16 a 36 W Cache L132 Kb Cache L2256KB, (full speed) PENTIUM III TUALATIN Barramento: 133 MHz Tecnologia: 0,13 m Cache L1: 64 KB Cache L2: 512 KB Freqncia do cache L2: igual do processador. ProcessadorClock InternoClock ExternoCache L2CPUID Pentium III/1.131.13 GHz133 MHz512 KB06Bxh Pentium III/1.261.26 GHz133 MHz512 KB06Bxh Arquitetura de Computadores Marcelo Adriano Perecim 133Processador Pentium III Tualatin Lanamento2001 Transistores28.000.000 Tecnologia0,13 Barramento de dados64 bits Barramento de endereos36 bits Capacidade de endereamento64 GB Clock interno1.133 MHz e superiores Clock externo133 MHz ConsumoA partir de 29W Cache L132 Kb Cache L2256KB ou 512 KB AIntelpassouautilizaranovatecnologiade0,13memseusnovos processadoresPentiumIIIpararesolverproblemasencontradosnoPentiumIII Coppermine.Esteprocessadoraooperarcomclockssuperioresa1GHz,mas especificamente1.13GHz,apresentouproblemasdetravamentoqueresultaram emumrecall(unidadesjvendidas,foramrecolhidas).Assim,corrigiueste problema,criandoumnovoncleo,paraoprocessadorPentiumIIIchamado Tualatin.OmodeloTualatinpassaatrabalharcomtensoexternade2,5voltseo ncleoCopperminetrabalhacom3,3volts.Assimparafazerumupgradedo processador Pentium III Coppermine para o Tualatin deve-se verificar se a placa-me aceita a voltagem correta. Desempenho ExistemmodelosdiferentesdePentiumIIIcomamesmafreqnciade operaosendovendidosnomercado.UmexemplomarcanteodoPentiumIII de600MHz,queencontradoemquatroversesdiferentes:PentiumIII-600, Pentium III-600B, Pentium III-600E e Pentium III-600EB. Osmodelosqueoperamexternamentea133MHzoferecemum desempenhosuperioraosmodelosqueoperama100MHz,jqueataxade transfernciadeacessomemriapassarde800MB/s(100MHz)para1.064 MB/s(133MHz).Assim,osprocessadoresPentiumIII-600BePentiumIII-600EB tmdesempenhomaiordoqueosprocessadoresPentiumIII-600ePentiumIII-600E, mesmo operando internamente mesma freqncia de operao. Segundo(TORRES,2001),ocacheL2,apesardetersidodiminudode tamanho nos modelos E, passando de 512 KB para 256 KB, a sua freqncia de operaoaumentou.Foiverificadoemtestesqueodesempenhodosmodelos com 256 KB de cache similar aos dos modelos com 512 KB de cache por esse motivo. Arquitetura de Computadores Marcelo Adriano Perecim 134SSE (Streaming SIMD Extensions) AtecnologiaSSEacrescentaoitonovosregistradoresde128bitsao processador e funciona de modo similar tecnologia MMX. Enquanto a tecnologia MMXteminstruesquebasicamenteoperamcomnmerosinteiros(isto,so instruessimples,comosoma,subtraoecomparaodebits),atecnologia SSEapresentainstruesquetrabalhamcomomesmoconceitodatecnologia MMX(SIMD),pormcominstruesqueutilizambastanteoco-processador matemtico o que certamente agilizar o processamento de programas 3D e de reconhecimento de voz escritos utilizando essas novas instrues. DamesmaformaqueatecnologiaMMX,oprogramadeverserescrito paraatecnologiaSSEdemodoaaproveitarosbenefciosdesseconjuntode instrues.importantenotarqueaIntel,nosannciosdoprocessadorPentium III, vende a idia de que com essas instrues o processador fica mais rpido para navegar na Internet. Isso pura jogada de marketing.AvelocidadedenavegaonaInternetnodependedoprocessadorda mquina,mas simdomodem oudaplacaderedequeest conectadaaomicro. Esseaumentodevelocidade,segundoaIntel,seriaconseguidoporqueas instruesSSEforamcriadasespecificamenteparaaumentaravelocidadede navegao na Internet. Isso s seria verdadeiro se os browsers para a navegao na Internet fossem escritos usando essas instrues, o que no ocorre. Nmero de Srie A idia principal de colocar um nmero de srie dentro de um processador epoderexecutarumaidentificaoremotaatravsdaInternet,paraqueum determinadositequemousurio.Asaplicaesprticassoenormes,a comearpornoprecisarfazerumaidentificaomanualdousurioem servidores seguros em sites de acesso restrito. AIntelpromoveaidiadequeoPentiumIIIomelhorprocessadorpara navegarnaInternet:quantomaismquinasequipadascomprocessadores PentiumIIIeposterioresexistiremconectadasInternet,melhorparaIntel,pois facilitaotrabalhodevenderumasoluodeservidordecomrcioeletrnico usando tecnologia para empresas de comrcio eletrnico. Esse nmero gravado dentro da pastilha de silcio do processador e no existemdoisprocessadorescomnmerosdesrieiguais,oquepareceseruma soluobastanteinteligente.Entretanto,essasoluoapresentaumapolmica emtornodaprivacidade,poisalgunssitesdaInternetpoderiambuscar informaes sobre o usurio sem a permisso do mesmo, pois para ler o nmero de srie do processador necessrio executar uma rotina no micro do usurio.Quandoasolicitaodeleituradonmerodesriedoprocessadorfor efetuadaporumsite,obrowserperguntarseousuriopermiteessaleitura.O nmero de srie pode ser desabilitado, atravs do setup da placa-me. Arquitetura de Computadores Marcelo Adriano Perecim 135Identificando Processadores Pentium III Algumas placas-me mais antigas podem identificar o Pentium III instalados comosefosseumPentiumII.Seissoocorrer,bastaexecutarumupgradede BIOS na placa-me.Atravs da instruo CPUID, o Pentium III retornar os mesmos valores do Pentium II, com exceo do campo Modelo, que ter o valor 7. O Pentium III Xeon retornaosmesmosvaloresdoPentiumIII.Paradiferencia-los,bastaobservara linha indicando o tamanho e tipo do cache de memria L2. Se houver 1 MB ou 2 MBdecacheL2,trata-sedeumprocessadorPentiumIIIXeon.Seoprograma indicar512KBdecache,oprocessadorpodeserumPentiumIIIouPentiumIII Xeoncom512KBdecache.Adiferenciaodessedoismodelospodeserfeita pela velocidade de acesso ao cache. Arquitetura de Computadores Marcelo Adriano Perecim 136Desempenho Placa-me A placa-me utilizada pelo processador Pentium III depende de seu modelo. A princpio, processadores Pentium III SECC-2 utilizam placas-me slot 1 que o mesmotipodeplaca-medesenvolvidaparaoprocessadorPentiumII,e processadoresPentiumIIIFC-PGAutilizamplacas-mesoquete370,queo mesmo tipo de placa-me desenvolvida para o processador Celeron. Almdeteromesmotipodeconectorusadopeloprocessador,aplaca-meprecisasercapazdefornecerafreqnciadeoperaoexternarequerida peloprocessador:100MHzou133MHz,dependendodomodelo.Assim,nem todasasplacas-meslot1servemparaosprocessadoresPentiumIIISECC-2, bem como nem todas as placas-me soquete 370 servem para os processadores PentiumIIIFC-PGA.OsmodelosdePentiumIIIde100MHznecessitam obrigatoriamente de memrias do tipo PC-100, enquanto os modelos de 133 MHz devem utilizar memrias PC-133. Arquitetura de Computadores Marcelo Adriano Perecim 1375.7.6 Pentium III Xeon OPentiumIIIXeonumprocessadorPentiumIIXeoncomas caractersticasdoPentiumIIIadicionadas,comoatecnologiaSSEenmerode srie. Existem dois ncleos de Pentium III Xeon: Tanner, que utiliza tecnologia de 0,25metrabalhaexternamentea100MHz,eCascades,queutilizatecnologia de0,18metrabalhaexternamentea133MHz.AssimcomooPentiumIIXeon esseprocessadorutilizaslot2.OfuncionamentodoPentiumIIIXeon exatamente igual ao do Pentium II Xeon. Clocks (MHz)TecnologiaCache L2 500, 5500,25 m512KB, 1MB, 2 MB (no integrada) 600 a 8660,18 m256 KB (integrada) 7000,18 m1 MB, 2 MB (integrada) 933, 10000,18 m256 KB (integrada) 9000,18 m2MB (integrada) ModeloClock InternoClock ExternoMultiplicadorPotncia 500 / 512KB500 MHz100 MHz5 x40 W 500 / 1MB500 MHz100 MHz5 x47 W 500 / 2MB500 MHz100 MHz5 x39,6 W 550 / 512KB550 MHz100 MHz5,5 x37,8 W 550 / 1MB550 MHz100 MHz5,5 x37,8 W 550 / 2MB550 MHz100 MHz5,5 x43,2 W 600 / 256KB600 MHz100 MHz4,5 x21,6 W 667 / 256KB667 MHz133 MHz5 x23,9 W 733 / 256KB733 MHz133 MHz5,5 x26,2 W 800 / 256KB800 MHz133 MHz6 x28,5 W 866 / 256KB866 MHz133 MHz6,5 x30,8 W 933 / 256KB933 MHz133 MHz7 x33,2 W 1000 / 256KB1000 MHz133 MHz7,5 x34,6 W 700 / 1MB700 MHz100 MHz7 x33,2 W 700 / 2MB700 MHz100 MHz7 x33,2 W 900 / 2MB900 MHz100 MHz9 x40,8 W Arquitetura de Computadores Marcelo Adriano Perecim 1385.8.1 Processadores de 7 Gerao O primeiro processador Intel de 7 gerao lanado no mercado chama-se Pentium4.Apesardesuaunidadedeexecuotrabalhardemaneirasimilar unidadedeexecuodosprocessadoresde6gerao(comrecursosde execuo fora de ordem, por exemplo, sua arquitetura interna apresenta algumas grandesdiferenasemrelaoaarquiteturainternadosprocessadoresde6 gerao.Comercialmente,aIntelestchamandoaarquiteturainternados processadores de 7 gerao de Netburst. As principais caractersticas so: Barramentoexterno:Ocacheexternodosprocessadoresde7gerao transfere quatro dados por pulso de clock, e no somente um, como o usual paraosdemaisprocessadoresdaIntel.Comisso,odesempenhodo barramentoexternoquatrovezesmaiordoqueumbarramentoexterno convencionalqueoperecomomesmoclock.Osprimeirosmodelosde Pentium4operamexternamentecomumclockde100MHz,atingindouma taxa de transferncia mxima de 3,2 GB/s, em vez de 800 MB/s, que a taxa nominaldeumbarramentode100MHzconvencional.Emmuitoslugares, estar escrito que o barramento externo do Pentium 4 opera a 400 MHz. Isso no verdade. Fisicamente falando, o barramento externo desse processador operaa100MHz,mastemumdesempenhocomoseestivesseoperandoa 400MHz.Ograndeproblemadessaaltataxadetransfernciaqueomicro necessariamentedeverusarumamemriaRAMcapazdeoperarto rapidamente, ou ento no haver ganho algum de desempenho. CacheL1:OcacheL1temumaarquiteturatotalmentediferentedetodosos demais processadores. Tambm divididoem dois, um cache de dados (que no Pentium 4 de apenas 8 KB, porm usando um caminho de 256 bits entre sieocacheL2)eumcachedeinstrues.Squeocachedeinstruesfoi posicionado de maneira diferente. Em vez de estar antes da unidade de busca e a unidade de busca pegar dados desse cache, agora est localizado entre o decodificadordeinstrues(odecodificadorCISC/RISC)eaunidadede execuo, passando a ser chamado de cache de microinstrues. Renomeamentoderegistradores:NaarquiteturaP6,oprocessadortinha40 registradoresdeusointernopararenomearosoitoregistradorestradicionais daarquiteturax86.Nosprocessadoresde7gerao,h128registradores internos. InstruesSSE2:FoicriadaaterceirageraodatecnologiaMMX,chamada SSE2(StreamingSIMDExtensions2).So144novasinstruesusandoo mesmoconceitoSIMDintroduzidopelatecnologiaMMX,pormmanipulando registradoresde128bits(assimcomoasinstruesSSEediferentedas instruesMMX,quesmanipulavam64bits)etendomuitasinstruesde ponto flutuante. Arquitetura de Computadores Marcelo Adriano Perecim 139Hiperpipeline Opipelinedosprocessadoresde7geraomuitomaior,isto,tem muito mais estgios que o pipeline dos processadores de 6 gerao. Enquanto a execuodeumainstruoemprocessadoresde6geraodivididaem11 etapas, nos processadores de 7 gerao a execuo de uma instruo dividida em20etapas(no486enoPentiumasinstrueseramexecutadasemapenas cinco etapas).Porterumnmerotoaltodeestgios,aprincpioumainstruoemum processadorPentium4demoramaistempoparaserexecutadadoqueseriaem um processador Pentium III! Basta lembrar que cada etapa demora pelo menos 1 pulsodeclock.Dessaforma,umainstruodemoranoPentium4nomnimo20 pulsosdeclockparaserexecutada,enquantoquenoPentiumIIIumainstruo demoranomnimo11pulsosdeclock.claroqueestacomparaoterica, poisnolevaemcontaosdemaisrecursospresentesnaarquiteturado processador criados para o aumento de desempenho, justamente para compensar esseaumentonotamanhodopipeline.Umpipelinetograndequantoesse classificado como hiperpipeline. Seporumladoumpipelinecommuitosestgiostrazadesvantagemde fazercomqueumainstruodemoremuitotempoparasertotalmente processada,poroutropermitequeoprocessadortenhaumclockinternomaior. Esse o motivo tcnico pelo qual os projetistas dessa arquitetura optaram por um hiperpipeline. A grande diferena entre os dois pipelines a ausncia, nos processadores de 7 gerao, das etapas de decodificao. Isso ocorre porque os processadores de7gerao,emvezdeumcacheL1deinstrues,tmumcachede microinstrues,quearmazenaasmicroinstruesjdecodificadas.Assim, quando h um erro na previso de desvio, o processador no precisa decodificar novamenteasinstrues,asmesmasjestodecodificadasnocachede microinstrues. Arquitetura de Computadores Marcelo Adriano Perecim 140 Os passos para a execuo de uma instruo: 1.Ponteirodaprximamicroinstruo:Verifica,nobufferdedestinodedesvio, qualaprximamicroinstruoaserexecutada.Estaetapademora2 estgios. Ponteiro da prxima microinstruo (estgio 1)Ponteiro da prxima microinstruo (estgio 2)Busca prxima microinstruo (estgio 1)Busca prxima microinstruo (estgio 2)DriveAlocao de recursosRenomeamento de registradores (estgio 1)Renomeamento de registradores (estgio 2)FilaAgendamento (estgio 1)Agendamento (estgio 2)Agendamento (estgio 3)Envio (estgio 1)Envio (estgio 2)Leitura dos registradores internos (estgio 1)Leitura dos registradores internos (estgio 2)ExecuoFlagsVerificao dos desviosDriveArquitetura de Computadores Marcelo Adriano Perecim 141 2.Buscaprximamicroinstruo:Carrega,docachedemicroinstrues,essa microinstruo. Esta etapa demora 2 estgios. 3.Drive:Enviaamicroinstruoaserexecutadaaocircuitodealocaode recursos e de renomeamento de registradores. 4.Alocaoderecursos:Verificaquaisrecursosseroalocadospela microinstruo,como,porexemplo,obufferdecarga(load)ouobufferde armazenamento (store) 5.Renomeaoderegistradores:Renomeiaosregistradoresx86(oito registradores)emregistradoresinternosdoprocessador(128registradores), em processo similar ao que ocorre com os processadores de 6 gerao. Esta etapa demora 2 estgios. 6.Fila:Asmicroinstruessoarmazenadasemfilasdeacordocomoseutipo (porexemplo,inteirooupontoflutuante)athaverespaonoagendadorde execuo corresponde ao tipo de instruo a ser executada. 7.Agendamento:Asmicroinstruessoagendadasdeacordocomoseutipo. Antesdechegarnestaetapa,asmicroinstruessoentreguesemordem. Nestaetapa,oagendadorreordenaasinstruesdeformaqueestassejam executadas da melhor forma possvel, isto , que no fique nenhuma unidade de execuo vazia. Os agendadores so o corao da execuo fora de ordem dos processadores de 7 gerao. Esta etapa demora 3 estgios. 8.Envio: As microinstrues so enviadas s unidades de execuo adequadas. Esta etapa dividida em dois estgios. 9.Leitura dos registradores internos: Os registradores internos (armazenados no pool de instrues) so lidos. Esta etapa dividida em dois estgios. 10. Execuo:Asmicroinstruessoexecutadasnasunidadesdeexecuo. Assimcomoocorrenosprocessadoresde6gerao,asinstruesmais usuais(quesoconvertidasemapenasumamicroinstruo)conseguemser executadasemapenasumpulsodeclock.Osprocessadoresde7gerao tmapenasquatrounidadesdeexecuo(osde6geraotmcinco).A princpio,portanto,issospermitiaaexecuodequatroinstrues simultaneamente. Acontece que em duas dessas unidades so enviadas duas instruesporpulsodeclock.Dessaforma,odesempenhomximodas unidadesdeexecuodosprocessadoresde7geraodeseisinstrues por pulso de clock. 11. Flags: Atualiza os flags do processador. Arquitetura de Computadores Marcelo Adriano Perecim 14212. Verificao de desvios: Verifica se o desvio tomado pelo programa o mesmo que o previsto pelo circuito de previso de desvio. 13. Drive:Enviaoresultadodessaverificaoparaobufferdedestinodedesvio localizado na entrada do processador. Ocircuitodeprevisodedesviosdosprocessadoresde7geraofoi totalmente redesenhado. Isso faz com que o nvel de erro desse circuito seja trs vezesmenordoqueonveldeerrodocircuitodeprevisodedesviodos processadores de 6 gerao Cache L1 A arquitetura usada pelo cache de memria L1 completamente diferente. O cache de dados conectado ao cache L2 atravs de um caminho de 256 bits, permitindoqueodesempenhonessacomunicaosejaquatrovezesmaiordo queodesempenhodosprocessadoresanteriores,queusamumcaminhode64 bits.EmumprocessadorPentium4de1,5GHz,ataxadetransfernciaentreo cacheL2eocacheL1dedadosde48GB/s,enquantoemumhipottico processador Pentium III de 1,5 GHz essa taxa seria de 12 GB/s. J o cache de instrues foi alterado de local. Em todos os processadores anteriores, o cache L1 de instrues era colocado na entrada da unidade de busca deinformaes.Assim,essaunidadebuscavainstruesdessecache.Casoa instruo necessria no estivesse no cache, a instruo teria de ser buscada do cacheL2e,casotambmnoestivessenocacheL2,entoainstruoteriade ser lida diretamente da memria RAM. Nos processadores de 7 gerao, o cache L1 de instrues passou a estar entre o decodificador de instrues (o decodificador CISC/RISC) e as unidades de execuo, passando a ser chamado de cache de microinstrues (execution trace cache).Emvezdearmazenarinstruesaseremcodificadas,ocachede instruespassaagoraaarmazenarinstruesjdecodificadas.Essecache capazdearmazenar12.288microinstruesRISC.Comocadamicroinstruo RISCdosprocessadoresIntelde7geraode100bits,entoocachede microinstrues de 150 KB. Essamudananaarquiteturadocacheotornamuitomaisrpido, especialmente quando h um loop (while, for e repeat) no programa, o que uma situaomuitocomum.Nosprocessadoresanteriores,quandohaviaumloopno programa, as instrues pertencentes a um loop teriam de ser decodificadas uma aumanovamente.Naarquiteturade7gerao,umloopfazcomqueas instruessejambuscadasdiretamentenocachedemicroinstrues,sem necessitarumanovadecodificao,jqueasmesmasforamrecentemente decodificadas e, com isso, ainda esto armazenadas nesse cache. Arquitetura de Computadores Marcelo Adriano Perecim 143Decodificador CISC/RISC Ao contrrio dos processadores de 6 gerao, o decodificador CISC/RISC dosprocessadoresde7geraotemapenasumanicaunidadede decodificao.Odecodificadordosprocessadoresde6geraotinhatrs unidades de decodificao, o que permitia a decodificao simultnea de at trs instrues x86 em microinstrues RISC. Aprincpio,ofatodeosprocessadoresde7geraosteremumnico decodificador pode parecer uma desvantagem em comparao aos processadores de6gerao,pormnosprocessadoresde7geraoasinstruesx86so decodificadasmenosvezesdoquenosprocessadoresde6gerao,porconta da existncia do cache de microinstrues. 5.8.2 Pentium 4 OprocessadorPentium4oprimeiroprocessadorIntelde7gerao lanado. Suas caractersticas so: Cache L1: Cache L1 de dados de 8 KB. No tem cache de instrues. Em vez disso,temumcachedemicroinstruesquecapazdearmazenar12.288 microinstrues.Cadamicroinstruodaarquiteturade7geraotem100 bits, significando que o cache de microinstruo possui 150 KB. CacheL2: CacheL2 de256KBoperandonamesma freqnciadeoperao interna do processador. Comunica-se com o cache L1 de dados atravs de um barramentodedicadode256bits,fazendocomqueessacomunicaoseja quatro vezes mais rpida do que era nos processadores da gerao passada. Arquiteturasuperescalar:Unidadedeexecuosuperescalar,comsete unidadesdeexecuo.Asunidadesdeexecuosimplesoperam internamente com o dobro do clock interno do processador. Barramentoexterno:ObarramentoexternodoPentium4operatransferindo quatrodadosporpulsodeclock,emvezdeapenasum,comoeranos processadoresanteriores.Fisicamentefalando,utilizaumbarramentoexterno de 100 MHz e tem o desempenho de como se estivesse operando a 400 MHz, mas fisicamente continua operando a 100 MHz, obtendo uma transferncia de 3,2GB/s.AmemriaRAMdevesercapazdetransferirdadosaesta velocidade. Soquete 423: Os processadores Pentium 4 atualmente disponveis no mercado tmumpadrodepinagemchamadosoquete423,necessitandodeumnovo tipo de placa-me. Os modelos mais recentes do Pentium 4 utiliza um padro chamado soquete 478. Arquitetura de Computadores Marcelo Adriano Perecim 144 Identificando Processadores Pentium 4 Os processadores Pentium 4 podem ser facilmente identificados atravs da instruo CPUID, implementada por diversos programas de hardware, tais como o Wcpuid, Hwinfo, etc. O processador retornar as seguintes informaes: String:EstaastringqueainstruoCPUIDcolocaemdeterminados registradoresdoprocessador.TodososprocessadoresdaIntelretornama string Genuine Intel. Tipo(type):Seoprocessadorestoperandoemmodomonoou multiprocessado.Comonamaioriadasvezestrabalhassecomapenasum processadorinstaladonaplaca-me,oprogramaapontarqueomicrotem apenas um processador (Single). Famlia(family):Afamliadoprocessador.Seforumprocessadorqueutiliza arquitetura Netburst, esse valor ser 7. Modelo(model):Informaqualomodelodoprocessadordentrodafamlia. Para processadors Pentium 4, a instruo retorna o valor zero. Stepping: Nmero da reviso do processador. Arquitetura de Computadores Marcelo Adriano Perecim 145Placa-me A figura abaixo mostra uma placa-me com soquete 423. Tecnologia HyperThreading

AtecnologiaHyperThreading,desenvolvidapelaIntel,maisumatcnica criadaparaoferecermaioreficincianautilizaodosrecursosdeexecuodo processador.SegundoaIntel,aHyperThreadingofereceumaumentode desempenho de at 30% dependendo da configurao do sistema.AtecnologiaHyperThreadingsimulaemumnicoprocessadorfsicodois processadoreslgicos.Cadaprocessadorlgicorecebeseuprpriocontrolador deinterrupoprogramvel(APIC)econjuntoderegistradores.Osoutros recursosdoprocessadorfsico,taiscomo,cachedememria,unidadede execuo, unidade lgica e aritmtica, unidade de ponto flutuante e barramentos, so compartilhados entre os processadores lgicos.Emtermosdesoftware,significaqueosistemaoperacionalpodeenviar tarefasparaosprocessadoreslgicoscomoseestivesseenviandopara processadores fsicos em um sistema de multiprocessamento.Arquitetura de Computadores Marcelo Adriano Perecim 146 Nodiagrama,osregistradoresecontroladordeinterrupoforam chamadosdeAS.Nareadenominadaderecursosdeexecuoestotodos osrecursosqueoprocessadornecessitaparaexecutarasinstrues.O processador da esquerda no suporta a tecnologia Hyper-Threading.Oprocessadordadireitasuporta,duplicandoseusregistradorese controladoresecompartilhadoosrecursosdeexecuoentreosprocessadores lgicos, parecendo assim um sistema com dois processadores.OsmodernossistemasoperacionaissoSMP(Multiprocessamento Simtrico),ouseja,podemtrabalharcommaisdeumprocessadorinstaladono sistema,dividindostarefasentreosmesmos.AtecnologiaHyperThreading estendeessaidiadeformaqueossistemaoperacionaisesoftwareaplicativos dividam as tarefas entre os processadores lgicos. Sistema Multiprocessado sem tecnologia HyperThreading. Arquitetura de Computadores Marcelo Adriano Perecim 147 Processador com tecnologia Hyper-Threading. AsinstruesCPUIDsoutilizadaspelosistemaoperacionaleaplicativos paraidentificarapresenadatecnologiaHyperThreadingnosprocessadores. Paraquemnosabe,asinstruesCPUIDservemparainformaraosoftwareas caractersticas do processador instalado. Obviamente, os sistemas operacionais e softwareaplicativostmquesuportaratecnologiaHyperThreadingparausufruir dos processamentos simultneos. AIntellanouaversode3e3.06GHzdoPentium4comatecnologia HyperThreading. ModeloClock InternoClock ExternoVoltagem MultiplicadorPotnciaPentium 4 1.31300 MHz400 MHz1.75 V13 x51,6 W Pentium 4 1.41400 MHz400 MHz1.75 V14 x54,7 W Pentium 4 1.51500 MHz400 MHz1.75 V15 x57,8 W Pentium 4 1.61600 MHz400 MHz1.75 V16 x61,0 W Pentium 4 1.71700 MHz400 MHz1.75 V17 x64,0 W Pentium 4 1.81800 MHz400 MHz1.75 V18 x66,7 W Pentium 4 2.02000 MHz400 MHz20 x Pentium 4 2.22200 MHz400 MHz22 x Pentium 4 2.262260 MHz533 MHz17 x Pentium 4 2.42400 MHz400 MHz24 x Pentium 4 2.42400 MHz533 MHz18 x Pentium 4 2.52500 MHz400 MHz25 x Pentium 4 2.532530 MHz533 MHz19 x Pentium 4 2.62600 MHz400 MHz26 x Pentium 4 2.662660 MHz533 MHz20 x Pentium 4 2.82800 MHz533 MHz21 x Pentium 4 3.03000 MHz800 MHz15 x Pentium 4 3.063060 MHz533 MHz23 x Arquitetura de Computadores Marcelo Adriano Perecim 148 Arquitetura de Computadores Marcelo Adriano Perecim 149 Arquitetura de Computadores Marcelo Adriano Perecim 150 Processador Pentium 4 Lanamento2000 Transistores42.000.000 Tecnologia0,18 e 0,13 Barramento de dados64 bits Barramento de endereos36 bits Capacidade de endereamento64 GB Clock interno1.300 MHz e superiores Clock externo400 MHz ConsumoA partir de 51W Cache L18 KB + 12 KB (microoperaes) Cache L2256KB Arquitetura de Computadores Marcelo Adriano Perecim 1515.8.3 Pentium 4 Prescott A Intel lana o Pentium 4 com ncleo Prescott, o primeiro processador para PCs usando a tecnologia de 90 nanmetros (0,09 mcron). Com este novo ncleo, a Intel conseguir colocar o seu Pentium 4 rodando a clocks ainda mais elevados.O ncleo Prescott ser usado em uma srie de processadores Pentium 4, e hoje foram lanados processadores Pentium 4 "Prescott" com clocks de 2,8 GHz, 3GHz,3,2GHze3,4GHz,todosrodandoexternamentea800MHz(200MHz transferindo quatro dados por pulso de clock).Para diferenciar os processadores Pentium 4 "comuns" (ncleo Northwood) dosPentium4comncleoPrescott,aIntelestutilizandoaletra"E"como indicadorparaonovoncleo.Destaforma,paraasfreqnciasdeoperao listadasacima,hdoismodelosdencleo:NorthwoodePrescott,estequando houver a letra "E" aps a indicao de freqncia do processador (ex: Pentium4 3,2 GHz E).A Intel lanou ainda uma segunda verso do modelo de 2,8 GHz, chamada "A".Estaversorodaexternamentea533MHz(133MHzQDR)enotema tecnologia HyperThreading, e voltada para usurios que queiram fazer upgrade paraumPentium4comncleoPrescottmassuaplaca-menoaceita processadores Pentium 4 de 800 MHz. CompatibilidadeOsprocessadoresPentium4comncleoPrescottcontinuamusandoo tradicionalsoquete478doPentium4,significandoqueestanovasafrade processadorespodeserinstaladanasplacas-mejexistentesdesdequeela sejacompatvelcomobarramentoexternode800MHzeconsigafornecera tenso e corrente requeridas pelo novo processador. DesempenhoOs modelos com ncleo Prescott so mais rpidos do que os modelos com ncleo Northwood quando rodando sob um mesmo clock (isto , o Pentium 4 3,2 GHz "E" mais rpido do que o Pentium 4 3,2 GHz), pois h diferenas internas significativasqueaumentaramodesempenhodoPentium4Prescott(Pentium4 "E").Arquitetura de Computadores Marcelo Adriano Perecim 152AprimeiragrandediferenaestnocachedememriaL1dedados,que aumentou de 8 KB para 16 KB, fazendo com que o cache L1 aumentasse de 158 KB para 166 KB. J o cache L2 foi aumentado de 512 KB para 1 MB. Alm destas duasmodificaesqueporsisaumentamodesempenhodoprocessador foram feitas melhorias nos circuitos de HyperThreading e previso de desvio deste novo ncleo de Pentium 4.SegundoaIntel,odesempenhodeprocessamentodoPentium4Prescott de 3,4 GHz 5,18% maior que o do Pentium 4 Northwood de 3,4 GHz, de acordo comoprogramaSPECCPU2000,eodesempenhodeprocessamento matemtico do Pentium 4 Prescott de 3,4 GHz 6,03% maior que o do Pentium 4 Northwood de 3,4 GHz, de acordo com o mesmo programa.Instrues SSE3OutranovidadedonovoncleoPrescottsoasnovasinstruesSSE3. So13novasinstruesdotipoMMXqueagilizafunesdesoftwaretais como codificaodevdeo,conversodenmerosdepontoflutuanteeminteirose sincronizaodethreads.Aexistnciadestasnovasinstrues,porsis,no aumentaodesempenhodoprocessador.Omotivosimples:paraus-las,os programasterodesercompiladostendoelasemmente.Assim,somentea prximageraodeprogramas(taiscomoaplicativosgrficos,aplicativosde codificaodeudioevdeoejogos)possivelmenteutilizarestasinstrues, sendoqueeventualmenteaMicrosoftpodeadotardealgumaformaosuportea estas instrues em algum driver adicional para o sistema operacional (atravs de umservicepackouseumaatualizaodisponvelnoWindowsUpdate),nas novas verses de codec de vdeo e/ou na prxima verso do DirectX.Destaforma,quandofuturasversesdeprogramassuportandoas instruesSSE3foremlanadas,omicroficarmaisrpido,casosejaequipado com um processador que tenha tais instrues.Omotivosimples.InstruesdotipoMMX/SSEsubstituemtarefasque antesnecessitariamdevriasinstruesparaseremefetuadas.Umanica instruodestetipopodesubstituirumarotinaque,casooprocessadorno tivesse este conjunto de instrues, teria de executar dez instrues, por exemplo. Gerenciamento TrmicoOPentium4(todososmodelos)diminuemautomaticamenteoclockdo processadorcasodetectemsuperaquecimentodoprocessador.Diminuindoo clock, a potncia dissipada menor e, com isto, a temperatura do processador cai. Masatagora,estadiminuiodeclockestavaexclusivamenteconjugada temperatura do processador.Arquitetura de Computadores Marcelo Adriano Perecim 153OsnovosprocessadoresPentium4"E"possuemumpinoquenoera usadonasversesanterioresdoPentium4.ChamadoPROCHOT#,estepino permitequeaplicaesexternasaoprocessadordiminuamoseuclockcaso encontrem algum problema com a temperatura do sistema. Por exemplo, o circuito reguladordevoltagempode,emteoria,diminuiroclockdoprocessador casoele detecte um superaquecimento em seus transistores e bobinas, evitando, assim, a queima de algum componente da placa-me.Por falar em gerenciamento trmico, as necessidades de dissipao trmica do novo ncleo Prescott so maiores, o que inevitavelmente faz com que os novos processadoresPentium4baseadosnestencleonecessitemdeumcoolermais potente.ProcessadorPotncia Pentium 4 Northwood at 2,8 GHz64 W Pentium 4 Northwood a partir de 3 GHz 82 W Pentium 4 Prescott at 3 GHz89 W Pentium 4 Prescott a partir de 3,2 GHz103 W Repare que os processadores Pentium 4 Prescott de at 3 GHz necessitam de um cooler capaz de dissipar 89 W de potncia, potncia maior que o Pentium 4 de3,4GHz!OsprocessadoresPrescottapartirde3,2GHznecessitamdissipar 103W,umvalorbemmaiorqueos82WqueosprocessadoresPentium4 "normais" dissipam.SevoccomprarumPentium4"Prescott"in-a-box,vocnoter problemas,poisos modelos"box"jvmcomocooleradequado.Entretanto, se voctrabalhamontandomicrosecompraromodeloOEM,muitaatenoparaa escolha do cooler correto, ou voc encontrar problemas de superaquecimento. Arquitetura de Computadores Marcelo Adriano Perecim 1545.8.4 Pentium 4 de 64 bits A Intel lanou o Pentium 4 de 64 bits para concorrer de igual para igual com oAthlon64daAMD.Foramlanadososseguintesmodelos:630(3GHz),640 (3,2GHz),650(3,4GHz),660(3,6GHz)e670(3,8GHz).Asprincipais caractersticas desses processadores so: Extenses de 64 bits (EM64T)Soquete 775Barramento externo de 800 MHz (200 MHz x 4)Tecnologia HyperThreadingTecnologia SpeedStepTecnologia XD (eXecute Disable)Cache de memria L1 de 16 KB para dado e de 150 KB para instruesCache de memria L2 de 2 MBAlmdessesprocessadores,aIntellanouaindaoPentium4Extreme Editionde3,73GHzcomonovobarramentoexternode1.066MHze2MBde memria cache L2, que promete ser o mais rpido da Intel. Potncia OsprocessadoresPentium4630,640e650dissipamumapotncia mximade84W,enquantoosmodelos660e670essenmeropulapara impressionantes 115 W. Nomenclatura OsprocessadoresPentium4comtecnologiade64bitspossuemsua numeraocomeandopor"6",enquantoosprocessadoressemesta caracterstica comeam por "5". Assim, fica fcil saber se o Pentium 4 tem ou no Arquitetura de Computadores Marcelo Adriano Perecim 155esta caracterstica. Por exemplo, tanto o Pentium 4 540 quanto o 640 rodam a 3,2 GHz,maso640tematecnologiade64bitseasdemaiscaractersticasno presentesemoutrosPentium4emespecialatecnologiaSpeedStepea memria cache L2 de 2 MB. A Tecnologia de 64 bits da Intel (EM64T)Parausaratecnologiade64bitsnecessrioterumsistemade64bits compatvelcomestatecnologiainstaladonamquina.Porenquanto,temos somente algumas verses de Linux capazes de reconhecer esta tecnologia (SuSE SL9.1 e SLES9; a verso Red Hat Enterprise Linux 3 update 2 trar suporte a esta tecnologiamasserlanadosomenteemmaio).OsusuriosWindowsterode esperar at o Windows 64 ser lanado. Voc pode ler mais sobre esta tecnologia em http://www.intel.com/technology/64bitextensions.Importante notar que esta tecnologia no tem nada a ver com a tecnologia de 64 bits usada pelos processadores Itanium (IA-64), e que programas de 32 bits rodam sem problema neste processador.Aprincipalvantagemdestatecnologiafazercomqueoprocessador consigaacessarmaismemriaRAM.Osprocessadoressemestatecnologia acessamaat4GBdememriaRAM.JosprocessadoresPentium4srie6 socapazesdeacessarat32TBdememriaRAM.claroqueaquantidade mxima de memria que se pode ter no micro limitada pelo chipset usado pela placa-me(jquenochipsetqueestocircuitocontroladordememria)e tambm pela quantidade de soquetes que a placa-me possui.

Tecnologia SpeedStep OutranovidadedosprocessadoresPentium4dasrie6atecnologia SpeedStep,presentenosprocessadoresIntelvoltadosparanotebooks.Esta tecnologiapermitediminuiroclockdoprocessadorecomissooconsumodo micro e o calor gerado e a velocidade da ventoinha (significando menos barulho) em momentos em que o usurio no esteja usando o seu micro no mximo de sua capacidade. Tecnologia XD (eXecute Disable)Estatecnologiaimpedequedeterminadostiposdevrusataquemomicro, desdequeseusistemaoperacionaltambmtenhasuporteestatecnologia.No Arquitetura de Computadores Marcelo Adriano Perecim 156universoWindows,necessriousaroWindowsXPcomoServicePack2 instalado para que esta tecnologia funcione.Elafuncionausandoumbitqueindicaseareadememriausadapor dadosouporprogramas(davemoutrosinnimodestatecnologiabitXD).Se umcdigoqueestinstaladoemumareadememriadestinadaadados executado,osistemaoperacionalbloqueiasuaexecuo,jqueestenoum comportamentonormal(dadosnopodemser"executados"vrusnormalmente se fazer passar por dados para serem executados). Mais Memria CacheO processadores Pentium 4 da srie 6 possuem uma maior quantidade de memria cache L2, que passou a ser de 2 MB, o dobro da do Pentium 4 "comum" dasrie5.Emteoria,quantomaismemriadessetipooprocessadortiver,mais rpidoeleser.Ouseja,secompararmosumPentium4dasrie5comum Pentium4dasrie6demesmoclock,estesseromaisrpidos,noporque possui a tecnologia EM64T, mas por ter mais memria cache.Oganhodedesempenhodependemuitodaaplicao.Deacordocoma Intel,esteganhovariade2%a7%dependendodoprogramadetestede desempenhousado,sendoque,naprtica,esteganhopodesermaior, dependendodaaplicao(sebeneficiarodocachemaioraplicaesquefazem muito acesso memria RAM).ModeloClockCache L2 6303.0 GHz2 MB 6403.2 GHz2 MB 6503.4 GHz2 MB 6603.6 GHz2 MB 6703.8 GHz2 MB

Arquitetura de Computadores Marcelo Adriano Perecim 1575.9 Processadores Intel IA-64 (Itanium) Todososprocessadoresdasgeraesanterioresutilizambasicamenteo mesmoconjuntodeinstruesintroduzidopeloprocessador80386.Esses processadoressoclassificadoscomoIA-32ousimplesmentex86.So processadores de 32 bits, j que suas instrues tm esse tamanho. OsprocessadoresanterioresnasceramusandoatecnologiaCISCeque a longoprazoatecnologiaCISCtendeanomaisexistir,tantoqueapartirdos processadores Intel de 6 gerao (bem como na maioria dos processadores no-Intel)oncleodeprocessamentodoprocessadorRISC,eatravsdeum decodificadorCISC/RISCpresentesuaentrada, converteasinstruesx86em microinstruesRISCquesocompreendidaspeloncleodeprocessamentodo processador. Ograndeproblemacominstruesqueestaslimitamoaumentodo desempenhodoprocessador,especialmentepelofatodenoserem padronizadas:cadainstruotemumtamanhodiferenteedemoratempos diferentes para serem executadas. Com isso, o decodificador de instrues perde muito tempo para separar as instrues de um programa e envi-las unidade de execuodoprocessador.OcarregamentodeinstruesdocacheL1de instruesseriafeitomuitomaisrapidamentesetodasasinstruestivessemo mesmo tamanho. Oconjuntodeinstruesx86vemdeumapocaondeosprocessadores notinhamumaarquiteturasuperescalar,isto,maisdeumaunidadede execuotrabalhandoemparalelo.Assim,osprogramasnosocompilados tendoemvistaasmltiplasunidadesdeexecuoqueoprocessadorpossater. Como resultado, os processadores que passaram a reorganizar internamente o programa, para poderem executar vrias instrues em paralelo. Nosnovosprocessadores,outrosrecursosvieramacompletaressa deficinciainerentearquiteturaCISC,comoorenomeamentoderegistradores, quetornapossvelaexecuoforadeordem,ampliandoonmerode registradoresdoprocessador,jquenaarquiteturax86sexistemoito registradores de uso geral. Atendnciaqueosfabricantesfiquemcriandocadavezmaisnovos recursosdehardwarenointeriordoprocessadordeformaatentarcorrigiras deficincias da arquitetura x86.S que obviamente isso no pode continuar para sempre! A idia da arquitetura IA-64 oferecer processadores RISC para PCs. Isso significaprocessadorespuramenteRISC,queaceitaminstruesRISCao contrrio dos processadores anteriores que apesar de serem internamente RISC, aceitam somente instrues CISC x86. IssosignificaqueosprocessadoresIA-64tmumconjuntodeinstrues prprio.Comisso,aprincpioessesprocessadoressoincompatveiscomos processadoresIA-32.Pararesolveressasituao,osprocessadoresIA-64(pelo menososprimeirosmodelos)contmumtradutordeinstruesinterno,para converter as instrues IA-32 em instrues IA-64. O problema que a existncia Arquitetura de Computadores Marcelo Adriano Perecim 158dessa traduo pode fazer com que os programas IA-32 executem mais lento em processadores IA-64 do que em processadores IA-32 de mesmo clock. ParaousodosprocessadoresIA-64,necessrioescrevernovos programas e, principalmente, novos sistemas operacionais para essa arquitetura. Barramento externo Ncleo IA-64 Tradutor IA-32/IA-64 Instrues IA-64Instrues IA-32 Arquitetura de Computadores Marcelo Adriano Perecim 1595.10 - Processadores Para o Prximo Milnio Por Ricardo Zelenovsky e Alexandre Mendona* 5.10.1 - Postulados de von NeumannVonNeumann[1],quetrabalhounodesenvolvimentodoENIACe posteriormenteempregousuaexperincianoprojetodoIAS(1952),elaborouas idiaseosconceitosquenortearamaarquiteturadoscomputadoresatosdias dehoje.Seuentendimentoessencialparaapreciarmosaatualevoluodos computadores.Iniciemosconstatando,deformabvia,queasmquinasque usamos nas nossas casas possuem quatro elementos bsicos: a CPU, a memria, osdadoseasinstrues(ouprogramas).Apartirda,apresentamosostrs postuladosbsicosdevonNeumann,quenomomentopodemparecertriviais, mas que no o eram na dcada de 50:1. Um nico controle centralizado (uma s CPU); 2. Uma nica memria para dados e instrues; e 3. As instrues devem fazer operaes elementares sobre os dados.Cerca de 90% dos computadores atuais usam esses postulados e por isso sochamadosdeArquiteturadevonNeumann,ouArquiteturaSerial,pois empregamumnicoprocessador.Essaarquitetura,aliadaaosavanosda microeletrnica, ofertou-nos o atual mercado de computadores, rpidos e baratos. Porm, tal arquitetura enfrenta um limite de velocidade que ditado pelas leis da fsica. O tempo que um sinal eltrico gasta para trafegar entre dois pontos de um circuito eletrnico muito pequeno, porm no igual a zero. Em outras palavras, istocorrespondeadizerqueexisteumlimiteparaavelocidadederelgiodas CPUse,infelizmente,elenoestmuitodistante.Comoentocontinuarcoma evoluodoscomputadores?Essaaperguntaquetemocupadoacabeade muitospesquisadoresedesdeasegundametadedestadcada,vriassolues foram propostas.Aprincipalrespostavemdacomparaoentrenossocrebroeum processador. sabido que o sinal eltrico trafegando por dentro de um CI muito maisvelozqueotrnsitodeimpulsosnervososentrenossosneurnios.claro que, para fazer operaes numricas, comparar e classificar, o computador mais rpido.Mas,poroutrolado,eleinferior,poisnopensa,noinovaeno aprende,apenasseguepassosprogramados.Porexemplo,comumnicoolhar emumasalaidentificamosimediatamentecentenasdeobjetos.Jum computador,mesmoomaissofisticado,apenasconsegueidentificarosobjetos mais simples.Somoscapazesdedirigirumcarroeenquantoandamospornossas (terrveis)estradas,temoshabilidadeparaescolheromelhorcaminho.Serque Arquitetura de Computadores Marcelo Adriano Perecim 160umcomputadorpodedirigirumcarro?UmadasexperinciasnoMITcomum pilotocomputadorizado,queidentificavaaruaatravsdaslinhasparalelasdo meiofio,revelouumgrandeescaladordervores,poiseleconfundiaocontorno do meio fio com o contorno do caule das rvores.Comoserqueocrebroconseguesersuperioraosprocessadores,seo nosso neurnio muito mais lento que um circuito eletrnico? A resposta bvia: porque temos vrios bilhes de neurnios operando em paralelo. Ora, por que, ao invsdeconstruirmosCPUsvelozesegigantescas,nousamosvriasCPUs, simpleseconfiveis,operandoemparalelo?Chegamosassimidiabsicado processamento paralelo, que a esperana para o prximo milnio. 5.10.2 - Processamento ParaleloSabemosentoquedevemosusarumagrandequantidadede processadores,mascomocontrol-losdeformaaquefaamalgumacoisade til?Existemgrandesproblemas!Parainiciar,vamostrabalharoconceitode processamentoparaleloatravsdeumexemplobemsimples.Seumpedreiro constri uma casa em um ano, ento dois pedreiros constroem a mesma casa em meioano.Esteconceitobsicodoprocessamentoparalelo:adivisodas tarefas. Podemos seguir adiante e concluir que cem pedreiros gastam apenas 3,6 dias. Ser isto um absurdo? claro que h um limite, pois o trabalho dos pedreiros s ser eficiente se estiveremperfeitamentesincronizadoseequilibrados.Estepontoimportante: todosospedreirosdevemteramesmacargadetrabalho.Emtermostcnicos, usa-se a expresso Balanceamento da Carga de Trabalho. Esse balanceamento podeserfeitodedoismodos.Noprimeiromodo,otrabalhodecadapedreiro idntico,ouseja,cadaumfaz1/100dacasa.Nooutromodousadoa especializao,ouseja,algunspedreirosviramcimentoenquantooutros assentam tijolos e outros tratam do encanamento, e assim por diante.Aoimaginarmostodasastarefasquedevamserexecutadasparaa construo da casa, fica claro que algumasdelas nopodero ser paralelizadas. Imagine100pedreirosparaassentarumaporta,ou100pedreirosemcimada casa tentando montar o telhado. A casa acabaria por cair! Alm disso, deve haver umlimiteparaaquantidadedepedreirosquepodemtrabalharemparalelo.A partirdestelimite,quantomaispedreiroscolocamos,pioramosodesempenhoe em conseqncia, aumentamos o tempo de construo.Temos ento dois grandes problemas: at quanto podemos paralelizar uma tarefaeatquantosprocessadoresdevemseralocados?Apartirda,surgem outrasquestes:comosincronizaressesprocessadoresdeformaaqueumno repita o trabalho do outro e como garantir o balanceamento da carga de trabalho? Agoratemoscondiesdeentenderporquesedizqueasdificuldades Arquitetura de Computadores Marcelo Adriano Perecim 161presentes noprojetodohardwaredemquinasparalelasnosotocomplexas quandocomparadoscomosproblemasdesuaprogramao.Diz-sequeos computadoresestosempreumageraoatrasadaemrelaosnossas necessidadeseosprogramas,duasgeraesatrasadas.Emsuma,umdesafio maior que o projeto de supercomputadores a sua programao. 5.10.3 - Lei de AmdhalApesar do quanto promissor a computao paralela possa parecer, ela no uma soluo para todo o problema de processamento. Existem tarefas que so eminentemente seqenciais e que no tiram proveito de um computador paralelo.Voltandoaonossoexemplodaconstruodeumacasa,apesardelaser executada em paralelo, existe por detrs uma seqncia que deve ser obedecida. Nessaconstruo,nopodemosfazerotelhadoantesdetermosasparedes prontas e tambm no podemos construir as paredes antes do alicerce. Assim, comumqueastarefasaseremexecutadaspossuamporesparalelizveise poresqueprecisamserexecutadasdeformaseqencial.Notequeum computador paralelo operando de forma seqencial um grande desperdcio, pois enquantoumprocessadortrabalhanotrechoserial,todososdemaisficam ociosos. 5.10.4 - Deep Blue, o enxadristaAmquinachamadaDeepBlue[1]aindaomaispoderosocomputador voltadoparaojogodexadrez.Mas,oqueserquetemdeinteressanteuma mquinaquejogaxadrez?Muitacoisaquandoestamquinapossuiuma arquiteturaparalelacapazderealizar1.000.000.000.000operaesdeponto-flutuanteporsegundo(1Teraflops).Aarquiteturabemsimples:oDeepBlue est montado sobre estaes de trabalho IBM RS/6000SP (P2SC). Cada estao umnecadanusaumplacamicrocanalcontendo8processadoresVLSI. Comosoempregados32ns,chega-seaumtotalde256processadores trabalhando em paralelo, como mostrado na Figura 1, onde uma letra P usada para representar cada processador.Arquitetura de Computadores Marcelo Adriano Perecim 162 Figura 1: Arquitetura do Computador Deep Blue com seus 256 processadores. Talarquitetura,capazdeanalisar200milhesdeposiesdexadrezpor segundo, duelou com o mestre Garry Kasparov, cuja capacidadede anlise de aproximadamente3posiesporsegundo.Realmente,foiumabatalhadesigual. No dia 11 de maio, foi iniciada a disputa de 6 partidas, que terminou em 3,5 x 2,5 a favordoDeepBlue.Deve-senotarqueKasparovaindafoicapazdeganhara primeira e empatar trs, perdendo apenas duas partidas. Kasparov, pelo segundo lugarganhouUS$400.000,00,enquantoqueoDeepBlue,ovencedor,levou US$ 700.000,00 (mas infelizmente ele no teve onde gastar). Figura 2: Kasparov versus Deep Blue. A habilidade do Deep Blue em jogar xadrez vem da chamada funo de avaliao.Estafunoumalgoritmoquemedeaqualidadedeumadada posiodexadrez.Posiescomvalorespositivossoboasparaasbrancas, enquantoqueaquelascomvaloresnegativossoboasparaaspretas.Seo cmputototalpositivo,asbrancasestoemvantagem.Afunodeavaliao levaemconta4valoresquesobsicosparaoxadrez:material,posio, segurana doReietempo.Omaterialcalculadosegundoovalordaspeas,o peo vale 1 e assim por diante at a Rainha que vale 9. O Rei, claro, est alm desses valores pois sua perda implica em derrota. A posio calculada ao olhar suaspeasecontaronmerodeposiessegurasqueelespodematacar.A seguranadoReimedidaemfunodesuacapacidadedefensiva.Otempo estrelacionadocomodesenvolvimentodojogosobreotabuleiro.Almdisso tudo, o Deep Blue no usa fora bruta ao avaliar as posies, mas sim seleciona alguns caminhos com bom potencial e elimina as buscas irrelevantes.Arquitetura de Computadores Marcelo Adriano Perecim 163Aproveitamosaindaparaelucidaralgunspontossobreesteembate.O Deep Blue no usa inteligncia artificial (IA) e tampouco aprende enquanto joga com seu oponente. Ao invs disso, ele trabalha como um sistema especialista que analisa seu vasto sistema de informaes. Por exemplo, ele consulta sua base de dados com todas as aberturas dos ltimos 100 anos e ento calcula qual a melhor resposta ao movimento do oponente. Ele no pensa, mas sim, apenas reage e foi aondeKasparovtinhasuavantagem.Masclaroque,comtodosesses recursos,oDeepBluedecertaformaforabrutacontraaintelignciade Kasparov,quetevequejogarcontraosfantasmasdetodososgrandesmestres do passado. Alm disso, a mquina nunca esquece ou se distrai.Para terminar este tpico, perguntamo-nos por que tanto dinheiro para jogar xadrez?Oprincipalobjetivonoestnojogo,massimnabuscadeuma arquiteturarpidaosuficienteparaapresentarresultadosprticos.Paraisso,o xadrezumexcelentedesafio,pois,comsuas64clulas,ofereceumproblema matemtico extremamentecomplexo.Ao provar sua eficincia nessa rea, a IBM demonstrousercapazdeoferecercomputadoresparaosproblemasqueainda desafiam as atuais mquinas. E, no dia seguinte vitria, suas aes subiram. 5.10.5 - ASCI Blue Pacific, o mais rpidoOmaisrpidocomputadordaatualidadechama-seBluePacificefoi entregue em 28 de outubro de 1998. O termo ASCI vem de Accelerate Strategic ComputingIniciative,traduzidocomoIniciativaparaAceleraodaComputao Estratgica,queonomedoprogramadoDepartamentodeEnergiaNorte-Americanoparaacelerarosavanosnastecnologiasnecessriasparasimular numericamentedispositivosnucleares,eliminandoassimanecessidadedoteste fsico. Ele emprega 5.856 processadores que, operando cada um a cerca de 333 MHz,entregamumapotnciadeaproximadamente4Teraflops,ou,emoutros termos,15.000vezesmaisrpidoqueumPCconvencional,consumindoo equivalentea324secadoresdecabelo.Umapessoacomumacalculadorade mo levaria 63 mil anos para realizar as operaes que esse computador faz em 1 segundo. A tabela a seguir resume suas principais caractersticas.Processadores 5.856 Ns1.464 Memria2,6 Terabytes Armazenagem 75 Terabytes Desempenho3,88 Teraflops Potncia486 kW PreoUS$ 94 milhes5.10.6 - Blue Gene, o maior projetoArquitetura de Computadores Marcelo Adriano Perecim 164Em6dedezembrode1999,aIBManunciouumapesquisadeUS$100 milhescomoobjetivodeconstruirumcomputadorqueser500vezesmais poderosoqueomaisrpidocomputadordaatualidade.Essenovocomputador, apelidadodeBlueGenesercapazdeultrapassaramarcade1quadrilhode operaesporsegundo,ouseja,1Petaflops(10^15flops).Essamarcaotorna 1.000 vezes mais poderoso que o Deep Blue e cerca de 2 milhes de vezes mais rpido que um PC topo de linha.Essamaciacapacidadedeprocessamentoserusadainicialmentepara modelar o dobramento das protenas humanas. As protenas controlam todos os processoscelularesdocorpohumano.Formadasporcadeiasdeaminocidos, sounidascomoanisemumacorrenteedobram-sedeformasaltamente complexas. Sua forma tridimensional determina sua funo. Qualquer mudana na formaalteradramaticamenteafunodaprotena.Mesmoumapequena alterao no processo de dobragem pode transformar uma protena desejvel em uma doena.Assim,aprendermaissobrecomoasprotenassodobradasdever possibilitar aos pesquisadores mdicos uma melhor compreenso das doenas e, emconseqncia,desuascuras.Acomunidadecientficaconsideraoproblema dedobragemdasprotenascomoumdosgrandesdesafioscientficosda atualidadeesuasoluosomentepodeseralcanadacomatecnologiade computao de alto desempenho que, com certeza, ter grande impacto cientfico e econmico.AexpectativadaIBMatingirosPetaflopsem5anos,umterodoque seriaesperadosegundoaLeideMoore.AIBMdenominasuaabordagempara este computador de SMASH, Simple, Many and Self-Hearing, que seria traduzido como Simples, Muitos e Auto-Curativo. Trs tpicos distinguem essa arquitetura SMASH: Reduo dramtica do nmero de instrues, permitindo que os processadores sejam rpidos, de baixo consumo e ocupem pouca rea do CI; Facilidadenoprocessamentomaciamenteparalelo,permitindomaisde8 milhes de threads; Garantiadeumcomputadorauto-estveleauto-curativo,sobrepujandofalhas de processadores e de threads.OBlueGeneconsistirdemaisde1milhodeprocessadores,cadaum capaz de oferecer 1 bilho de operaes por segundo, ou seja, 1 Gigaflops, como estmostradonaFigura3.Trintaedoisdessesprocessadoresserointegrados emumnicoCI,resultandoem32Gigaflops.Umaplacade2pspor2ps receber 64 CIs, levando a 2 Teraflops. Somente essa placa j capaz de igualar odesempenhodoBluePacific,quetem8.000psquadrados.Oitodessas placas (16 Teraflops) sero colocadas em racks de 6 ps. Finalmente 64 racks Arquitetura de Computadores Marcelo Adriano Perecim 165constituirooestadofinaldocomputador,ocupandoumareamenorque2.000 ps quadrados. Figura 3: Arquitetura do Blue Gene, com seu 1 milho de processadores. 5.10.7 - Computador QunticoAgora teremos a sensao de que entramos no campo da fico cientfica. Oscomputadorestradicionaistrabalhamcomelementosbsicosquepodem assumir dois estados (ou dois bits): 0 ou 1. Normalmente, usam-se transistores ou flip-flopspararepresent-los.Olhandoparaoladodafsicaatmica,uma partculaquntica,comooeltronouncleosatmicos,podeexistiremdois estados: com o spin para cima ou para baixo. Ora, isto constitui um bit quntico ou qubit. Quando o spin est para cima, o tomo pode ser lido como 1 e, quando o spin est para baixo, lido como 0.Arquitetura de Computadores Marcelo Adriano Perecim 166Osqubitsdiferemdosbitstradicionaisporqueumncleoatmicopode estar num estado de superposio, representando simultaneamente 0 e 1 e tudo o mais que existe entre esses valores. Mais ainda, sem a interferncia do ambiente externo,osspinspodemserelacionardetalformaqueefetivamenteconectam osqubitsdeumcomputadorquntico.Doistomosrelacionadosatuamem conjunto:quandoumestnaposioparacimaeooutrogarantidoestarna posio para baixo.Acombinaodesuperposioerelacionamentooquepermiteaum computadorqunticoterumenormepoderdeprocessamento,possibilitando-oa realizarclculosdeformamaciamenteparalelaedeformanolinear.Para certostiposdeclculos,comoporexemplooscomplexosalgoritmospara criptografia,umcomputadorqunticopoderealizarbilhesdeclculosemum nicopasso.Aoinvsderesolveroproblemapelaadioordenadadetodosos nmeros, um computador quntico poderia adicionar todos os nmeros ao mesmo tempo.Assim,pelainteraodeumcomooutro,quandoisoladasdoambiente externo, os qubits podem realizar certos clculos de forma exponencialmente mais rpidaqueoscomputadoresconvencionais.Diz-sequeocomputadorquntico comea onde a Lei de Moore termina.Em15deagostode2000,umtimedaIBMdemonstrouumnovo computadorqunticocom5qubits,compostoportantopor5tomos(deflor) fixadosemumamolculaespecialmenteprojetadadeformaapermitirqueos qubits (spin dos ncleos) relacionem entre si. Esses qubits so programados por pulsosderdio-freqnciaedetectadospormeioderessonncianuclear magntica, semelhante ao usado em hospitais.Essecomputadorde5qubitsfoicapazderesolverumproblemade determinaodeordemdeumsistema,ouseja,adeterminaodoperodode umafuno.Oscomputadoresconvencionaiscalculamasoluousando iteraespasso-a-passocomosvaloresdafunoatqueelescomecema repetir. O computador quntico faz isso com um novo enfoque. Por natureza, eles representam simultaneamente todos os possveis valores da varivel de entrada e, portanto, com um nico passo pode analisar todos os possveis valores da funo.Apesardopotencialdoscomputadoresqunticossergigantescoe encorajador,osdesafiosaindasoenormes.Oatualcomputadorde5bitsum mero instrumento de pesquisa. Ainda faltam muitos anos de trabalho para que os computadores qunticos se tornem comerciais. Os prognsticos indicam que eles devero ter pelo menos 12 bits para poderem resolver problemas do mundo real. Espera-seque,nofuturo,taiscomputadoresvenhamatrabalharcomo processadorauxiliarparaproblemasmatemticosdedifcilsoluo.Comcerteza processamentodetextoeInternetnosoaplicaestalhadasparaum computadorquntico.Aidiadocomputadorqunticonorecente,elafoi proposta na dcada de 1970.Arquitetura de Computadores Marcelo Adriano Perecim 167 Concluso ParcialObserva-seclaramentequeosgrandescomputadorescaminhamparao processamento paralelo. Basicamente, o poder est vindo, no dos megahertz do processador, mas da quantidade de processadores que em conjunto resolvem um determinadoproblema.Istosignificaqueotamanhodogrodeprocessamento ser cada vez menor e os processos cada vez mais acoplados. Como substituio para o atual modelo de processamento e esperana para os novos computadores, surge o processador quntico. No prximo nmero veremos alguns computadores Cray e estudaremos dois processadores simples, porm inovadores.Tabela de MultiplicadoresMultiplicador Abreviatura ValorKiloK10^3 MegaM10^6 GigaG10^9 TeraT10^12PetaP10^15 5.10.8 - Computadores Crayimpossvelfalardesupercomputadoressemcitaropionerismodas mquinasfabricadasporSeymourCray,quejusavamoconceitode processamentovetorial.SeuprimeirosupercomputadorfoioCRAY-1,fabricado em 1976. Era capaz de atingir o pico de 133 Megaflops. Em 1985, lanou o Cray-2, com o desempenho de 1,9 Gigaflops. Na poca, esse computador tinha a maior memriadomundo:2Gigabytes.Quantidadegigantesca,mesmoparaos parmetros atuais.Apsessesmarcos,citamosasprincipaismquinasqueaempresaCray comercializanosdiasdehoje.ComeamoscomoCrayT-90,queusaat32 processadoresvetoriaisemparaleloechegaa60Gigaflops.Emseguida,esto Cray T3E, que oferece at 2048 processadores, permitindo alcanar 2,5 Teraflops eque,embreve,sersubstitudopeloCraySV2,aindaemfasedeprojeto. Finalmente,temosoCrayMTA,(MultiThreadArchitecture),quepretende diminuirotrabalhodeprogramaoparalelaaooferecervetorizaoe paralelizao automticas.OatualtopodelinhaoCraySV1,quetrazsoluoparaosconflitantes problemas de desempenho, preo e escalabilidade. Os supercomputadores, como de se esperar, so mquinas caras mas que oferecem um grande desempenho. Arquitetura de Computadores Marcelo Adriano Perecim 168Essa caractersticaostornaquaseinacessveisparaasempresas menores.Fica entoodilema:ougasta-semuitodinheiroecompra-seumcomputadordealto desempenho,ouentoeconomiza-sedinheiroetenta-sesatisfazer-secom mquinas de desempenho inferior. Pensando nisso, a Cray projetou uma mquina escalvel,cujodesempenho,deacordocomasnecessidadeseoramentodo clientepodeirdesde1,2Gigaflopsat1Teraflops(1.000vezesodesempenho inicial).Essecomputadorpodeusardesdeumprocessador(4,8Gigaflops)at centenasdeprocessadores,quandoentoatingeamarcade1Teraflops.So empregadosdoistiposdeprocessadores:umprocessadordealtodesempenho (4,8Gigaflops),chamadodeMSP,eumprocessadorconvencional(1,2 Gigaflops).At6MSPeat8processadoresconvencionaisformamumn.O sistemapodechegarat32ns,resultandoem1Teraflops.AFigura1ilustraa escalabilidade desse computador. Figura 1: Escalabilidade do CRAY SV1. Em22desetembrode1999,aCrayassinouumcontratocomdiversas agnciasamericanas,entreelasaconhecidaNSA(NationalSecurityAgency), aquela que trata, dentre outros temas, das limitaes na exportao de programas decriptografia,paraconstruiroSV2,quesubstituiroCrayT3E.Estenovo computadorcontarcomnovosprocessadoresvetoriaisepretendeatingir algumasdezenasdeTeraflops. Atabelaaseguirapresentaumacomparaode velocidade entre os principais computadores Cray. Figura 2: Desempenho (em Gigaflops).