74
บบบบบ 7 Multi-Processors Architecture

บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Embed Size (px)

Citation preview

Page 1: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

บทท�� 7Multi-Processors

Architecture

Page 2: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

หั�วข้อเรื่��องหั�วข้อเรื่��องโครื่งสรื่างรื่ะบบแบบหัลายหัน่�วยปรื่ะมวล

ผลกลางเทคโน่โลย�และการื่พั�ฒน่าใน่ป!จจ#บ�น่

Page 3: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

ว�ตถุ#ปรื่ะสงค&การื่เรื่�ยน่รื่'ว�ตถุ#ปรื่ะสงค&การื่เรื่�ยน่รื่'ยกต�วอย�างรื่ะบบคอมพั(วเตอรื่&แบบหัลายหัน่�วยปรื่ะมวล

ผลกลางได้อธิ(บายหัล�กการื่ท,างาน่ข้องรื่ะบบคอมพั(วเตอรื่&แบบหัลาย

หัน่�วยปรื่ะมวลผลกลางได้

Page 4: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

เอกสารื่อางอ(งเอกสารื่อางอ(งHayes, John P. Computer Architecture and Organization 3rd

ed. Malaysia:McGraw-Hill, 1998. P.550 - 566.http://en.wikipedia.org Stallings, William Computer Organization and

Architecture : designing for performance 5th ed. NewJersey : Prentice-Hall, 2000. P.621 – 667.

Page 5: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Taxonomy of Parallel Processor Architectures

Page 6: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

6

คอมพั(วเตอรื่&สมรื่รื่ถุน่ะคอมพั(วเตอรื่&สมรื่รื่ถุน่ะส'งส'งHHigh PPerformance CComputing

Supercomputer Computer Cluster Grid Computing Multi-Core Technology

Page 7: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

• The term is most commonly associated with computing used for scientific research. A related term, High-performance technical computing (HPTC), generally refers to the engineering applications of cluster-based computing (such as computational fluid dynamics and the building and testing of virtual prototypes).

Recently, HPC has come to be applied to business uses of cluster-based supercomputers, such as data warehouses, line-of-business applications (LOB) and transaction processing.

• HPC is sometimes used as a synonym for supercomputing; but in other contexts, "supercomputer" is used to refer to a more powerful subset of "high performance computers," and the term "supercomputing" becomes a subset of "high performance computing." The potentially confusing overlap of these usages is apparent. 7

HHigh PPerformance CComputing

Page 8: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

SupercomputerSupercomputerSupercomputers introduced in the 1960s were designed

primarily by Seymour Cray at Control Data Corporation (CDCCDC), and led the market into the 1970s until Cray left to form his own company, Cray Research. He then took over the supercomputer market with his new designs, holding the top spot in supercomputing for five years (1985–1990).

In the 1980s a large number of smaller competitors entered the market, in parallel to the creation of the minicomputerminicomputer market a decade earlier, but many of these disappeared in the mid-1990s "supercomputer market crash".

Page 9: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

9

CDC 6600 (1965) (1MFLOPs)

Control DataCorporation

http://ed-thelen.org/comp-hist/vs-cdc-6600.html

Page 10: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

10

CDC 7600 (1970) (10 MFLOPs, PP : Peripheral

Processor)

CDC Cyber170, 180, 200(1974)

(vector processor, 4 pipelines, 200 MFLOPs)

Control DataCorporation

http://ed-thelen.org/comp-hist/vs-cdc-6600.html

CDC 8600(1971)

(10 times of 7600)

Page 11: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

11

MiniComputers

PDP-8 (12-Bits Instructions, words)

PDP-10 (36-Bits Instructions, words)

PDP-11(16-Bit words, dynamic Instruction) VAX 11/XXX Series

DEC Alpha 1000, 2000

DEC : Digital Equipment Corporati

on

Page 12: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

12

MiniComputers

SUN SPARC SUN Microsystems Inc.

RISC I, II (Berkley RISC)Ultra-SPARC I, II, III,

IV

Page 13: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

13

MIP IMIP I32-Bits Internal-Ex. Data, Address Path, Registers

MIPS R2000 (1985) MIPS R3000 (1988)

MIPS TechnologyInc.

MIP IIMIP II MIPS R6000

Page 14: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

14

MIP IIIMIP III64-Bits Int.-Ext. Data, Address Path, Registers

MIPS R4000 (1991)

MIP IVMIP IV MIPS R8000 (1994) R10000 (1996)

R12000 (1998), R14000 (2001) R16000 (2002), R24K (2003)

2007: MIPS Technologies acquires Portugal-based mixed-signal intellectual property company Chipidea May 8, 2009: Chipidea is sold to Synopsys.

Page 15: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

SupercomputerSupercomputerIn the 19701970s most supercomputers were

dedicated to running a vector processorvector processor, and many of the newer players developed their own such processors at a lower price to enter the market. The early and mid-1980mid-1980s saw machines with a modest number of vector processors working in parallelparallel to become the standard.

The term supercomputer itself is rather fluid, and today's supercomputer tends to become tomorrow's ordinary computer. CDC's early machines were simply very fast scalar processors, some ten times the speed of the fastest machines offered by other companies.

Page 16: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

16

HistoryCray Research 1972 by Seymour Cray

1995 Cray Computer Corporation and bought by SGI in the next year.

2000 merge with Tera computer company to Cray Inc.

http://www.cray.com

Cray Inc.

Page 17: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

17

Cray Research (1972-2000) - 1Cray

- Cray X MP - 2Cray - Cray Y MP 3Cray T D TT T 3TTTT 90C 90 90Cray J

MARQUISE

SGI in 1996-2000

Cray MTA-2

Cray X-1 Cray XD-1 Cray XT3 Cray XT4Cray XT5

Page 18: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

18

CRAY- 1TM (12-pipeline processor, 160MIPS, 1976)

http://www.cray.com Cray Research I

nc.

CRAY X-MPTM (multiprocessor supercomputer,

1982)CRAY- 2TM (1985)CRAY Y-MP®, CRAY Y-MP ELTM

(2.3 GFLOPs,1988)

http://www.cray.com/about_cray/history.html

CRAY T3DTM, CRAY T3E, T90 (MPP:Massively Parallel Processing,

1993)

Page 19: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

19

Page 20: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

20

Cray X1E Cray XT3, XT4, XT5

Cray XD1 (2004) Cray XMT (2006)

Cray CX1 (2008) with Intel 2-4 Core

Cray XT5 (2009) with more 224,000 processing cores,

1.75 petaflops

http://www.cray.com

Cray Research Inc.

Page 21: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

21

1Cray X E supercompuTTT combines the processor performance of traditional ve ctor systems with the scalabil - ity of microprocessor based a rchitectures. High performan ce interconnectand memory subsystems allowCray X1 E toscal e f rom 16 81to , 92processors ,del i veri ngu pto TTTTTT147 in a singl e system. The Cray X1 E and its predecessor, the Cray X1 ™, are the firstvector syste msdesi gnedtoscal e to thous andsof processors i na si ngl e systemi mage.

Page 22: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

22

1Cray XD system purchased to date. Equ

ipped with -336 Dual Co -336 Dual Co re AMD Opteron re AMD Opteron ™ proc

essors (6 7 2 cores), th esupercomputerwillbeusedby Ri ce research ersforstudiesthati ncl ude computer sci e nce,biophysics,computationalmathematics,earthsci ences andc

ognitiveneurosci ence.

Page 23: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

23

3™Cray XT sup ,- purpose built to m

eet the special nee ds of capability cla ss HPC application

s,offers a new leve l of scalable compu

ting.

Page 24: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Cray XT4

24

Cray XT4 (codenamed HoodHood ) is an updated version of the Cray XT3 supercomputer, released on November 18, 2006. It includes an updated version of the SeaStar interconnect router called SeaStar2, processor sockets for Socket AM2

Opteron processors, and 240-pin unbuffered DDR2 memory, also includes support for FPGA coprocessors that

plug into riser cards in the Service and IO blades. The interconnect, cabinet, system software and programming

environment remain unchanged from the Cray XT3.

Page 25: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

25

4 DIMM Slots4 DIMM Slots

CRAYSeastar™

CRAYSeastar™

CRAYSeastar™

CRAYSeastar™

L0 RAS ComputerL0 RAS Computer

Redundant VRMsRedundant VRMs

Red Storm Compute Board

Slide from David Harper, John Feo from Cray Inc

Page 26: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

26

Page 27: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

27

Page 28: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Cray XT5h, XT5

28

Cray XT5 is an updated version of the Cray XT4 supercomputer, launched on November 6, 2007. It includes a faster version of the XT4's SeaStar2 interconnect router called SeaStar2+, and can be configured either with XT4 compute blades, which have four dual-core AMD Opteron processor sockets, or XT5 blades, with eight sockets supporting dual or quad-core Opterons.The XT5h (hybrid) variant also includes support for Cray X2 vector processor blades, and Cray XR1 blades which combine Opterons with FPGA-based Reconfigurable Processor Units (RPUs) provided by DRC Computer Corporation. The XT5 retains the same UNICOS/lc operating system of the XT4.

Page 29: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

SeaStar2+ Interconnect can be configured either with XT4 compute blades, which have four dual-core AMD Opteron processor sockets, or XT5 blades, with eight sockets supporting dual or quad-core Opterons. The XT5 uses a 3-dimensional torus network topology.The XT5 family run the Cray Linux Environment, formerly known as UNICOS/lcUNICOS/lc. This incorporates SUSE Linux Enterprise Server and Cray's Compute Node Linux. 29

Kraken, a Cray XT5 supercomputer at Oak Ridge National Laboratory

Jaguar underwent an upgrade to 224,256 cores in 2009, after which its performance jumped to 1.75 petaflops,1.75 petaflops, taking it to the number one position in the 34th edition of the

TOP500 list in fall 2009

Page 30: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

30

Page 31: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Cray XT5h HPC Workflow

31

Page 32: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

32

Page 33: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

33

Page 34: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

34

Page 35: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

SupercomputerSupercomputerToday, supercomputers are typically one-of-a-

kind custom designs produced by "traditional" companies such as Cray,Cray, IBMIBM and Hewlett-Hewlett-PackardPackard, who had purchased many of the 1980s companies to gain their experience. As of July 2009, the IBM Roadrunner,IBM Roadrunner, located at Los Alamos National Laboratory, is the fastest supercomputer in the world.

Page 36: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

SupercomputerSupercomputer

In the later 19801980s and 19901990s, attention turned from vector processors to massive parallel massive parallel processing systemsprocessing systems with thousands of "ordinary" CPUs, some being off the shelf units and others being custom designs. Today, parallel designs are based on "off the shelf" server-class microprocessors, such as the PowerPCPowerPC, OpteronOpteron, or XeonXeon, and most modern supercomputers are now highly-tuned computer clusterscomputer clusters using commodity processors combined with custom interconnects.

Page 37: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

37

http://www.top500.orgJune 2008

Page 38: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Top 10 positions of the 33rd TOP500 List released during the ISC09 conference, June 23, 2009 in Hamburg, Germany.

Page 39: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Top 10 positions of the 33rd TOP500 List released during the ISC10 conference, May 31, 2010 in Hamburg, Germany.

Page 40: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

The systems ranked #1 since 1993The systems ranked #1 since 1993Cray Jaguar (since November 2009)IBM Roadrunner (June 2008 – November 2009)IBM Blue Gene/L (November 2004 – June 2008)NEC Earth Simulator (June 2002 – November 2004)IBM ASCI White (November 2000 – June 2002)Intel ASCI Red (June 1997 – November 2000)Hitachi CP-PACS (November 1996 – June 1997)Hitachi SR2201 (June 1996 – November 1996)Fujitsu Numerical Wind Tunnel (November 1994 – June 1996)Intel Paragon XP/S140 (June 1994 – November 1994)Fujitsu Numerical Wind Tunnel (November 1993 – June 1994)TMC CM-5 (June 1993 – November 1993)

40

Page 41: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

41

Page 42: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง
Page 43: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

http://www.green500.orghttp://www.green500.org

Page 44: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

The Green500 Listed below are the June 2010 The Green500's energy-efficient supercomputers ranked

Page 45: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Features two high-performance IBM PowerXCell 8i processors Up to 32 GB DDR II memory, Dual Gigabit Ethernet Optional Dual-port 4x InfiniBand® HCA connected through PCI-Express Optional Serial Attached SCSI daughter cards connected through PCI-X Optional 8 GB uFDM Flash Drive (note second half of 2008 availability date) Optional I/O buffer memory DIMMs (up to 2 GB, 2 x 1 GB)

IBM BladeCenter

QS22Cell Broadband

Engine™ Architecture

Page 46: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Dates operational 2008, final completion 2009Sponsors IBM,  United States

OperatorsNational Nuclear Security Administration,  United States

Location Los Alamos National Laboratory,  United States

Architecture12,960 IBM PowerXCell 8i CPUs, 6,480 AMD Opteron dual-core processors, Infiniband, Linux

Power 2.35 MWSpace 296 racks, 6,000 sq ft (560 m2)Memory 103.6 TiBSpeed 1.7 petaflops (peak)Cost US$133MRanking TOP500: 1, June 2008Purpose Modeling the decay of the U.S. nuclear arsenal.

LegacyFirst TOP500 Linpack sustained 1.0 petaflops, May 25, 2008

Web site http://www.lanl.gov/roadrunner/

Page 47: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

In 2006, Department of Energy’s National Nuclear Security Administration selected Los Alamos National Laboratory as the development site for RoadrunnerRoadrunner, named after the New Mexico state bird, cost about $100 million.

System Name Roadrunner

Site DOE/NNSA/LANL

System Family IBM Cluster

System Model BladeCenter QS22 Cluster

Computer

BladeCenter QS22/LS21

Cluster, PowerXCell 8i 3.2

Ghz / Opteron DC 1.8 GHz

, Voltaire Infiniband

Vendor IBM

Application area

Not Specified

Installation Year

2008

Operating System

Linux

Interconnect Infiniband

ProcessorPowerXCell 8i 3200 MHz

(12.8 GFlops)

First “hybrid” supercomputer – one powerful enough to operate at one petaflop. That’s twice as fast as the current No.1 rated IBM IBM Blue GeneBlue Gene system at Lawrence Livermore National Lab – itself nearly three times faster than the leading contenders on the current TOP 500TOP 500 list of worldwide supercomputers.

Page 48: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Form Factor Single-wide blade server for BladeCenter

Processors 3.2 GHz IBM PowerXCell 8i Processors

Number of Processors Two standard, each with one PPE core and eight enhanced double precision (eDP) SPE cores

L2 Cache 512 KB per IBM PowerXCell 8i Processor, plus 256 KB of local store memory for each eDP SPE

Memory Up to 32 GB (16 GB per processor)

Internal Disk Storage Optional 8 GB modular flash drive

Networking Dual Gigabit Ethernet

I/O Upgrade Serial Attached SCSI (SAS) daughter card connected via PCI-X (CFFv)

Optional Connectivity Dual-port InfiniBand 4x HCA connected via PCI-Express (SFF)

Operating Systems Red Hat Enterprise Linux 5.2 (upon availability)

Warranty 3-year

Specification

Page 49: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

The RIKEN MDGRAPE-3 supercomputerThe RIKEN MDGRAPE-3 supercomputerMDGRAPE-3 is an ultra-high performance Petascale supercomputer system developed by the RIKEN research institute in Japan. It is a special purpose system built for molecular dynamics simulations, especially protein structure prediction. MDGRAPE-3 consists of 201 units of 24 custom MDGRAPE-3 201 units of 24 custom MDGRAPE-3 chips (4808 total)chips (4808 total), plus additional plus additional Dual-Core Dual-Core Intel XeonIntel Xeon processors processors (codename "Dempsey")(codename "Dempsey") which serve as host machines.

In June 2006 RIKEN

announced its

completion. It’s more

than three times faster

than the 2006

version of the IBM

Blue Gene/L system,

which then led the

TOP500 list of

supercomputers at 0.28

PetaFLOPS. Because it's

not a general-purpose machine

capable of running the

LINPACK benchmark,

MDGRAPE-3 does not

qualify for the TOP500

list.

Page 50: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Computer ClusterComputer ClusterA group of linked computers, working group of linked computers, working

together closelytogether closely so that in many respects they form a single computer. The components of a cluster are commonly, but not always, connected to each other through fast local area networks. Clusters are usually deployed to improve performance and/or availability over that provided by a single computer, while typically being much more cost-effective than single computers of comparable speed or availability

Often clusters are used for primarily computational purposes, rather than handling IO-oriented operations such as web service or databases.

Page 51: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

For instance, a cluster might support computational simulations of weather or vehicle crashes. The primary distinction within compute clusters is how tightly-coupled the individual nodes are.

For instance, a single compute job may require frequent communication among nodes - this implies that the cluster shares a dedicated network, is densely located, and probably has homogenous nodes.

This cluster design is usually referred to as Beowulf Cluster. The other extreme is where a compute job uses one or few nodes, and needs little or no inter-node communication. This latter category is sometimes called "GridGrid" computing. Tightly-coupled compute clusters are designed for work that might traditionally have been called "supercomputingsupercomputing".

Middleware such as MPI (Message Passing Interface) or PVM MPI (Message Passing Interface) or PVM (Parallel Virtual Machine)(Parallel Virtual Machine) permits compute clustering programs to be portable to a wide variety of clusters.

Computer ClusterComputer Cluster

Page 52: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

52

The Columbia Supercomputer at NASA's Advanced Supercomputing Facility at Ames

Research Center

NASANASA's's Columbia supercomputer is built from 20 SGI Altix 3,000 nodes each powered by 512 Intel Itanium 2 processors bringing the total to 10,240 processors Columbia is housed at the NASA Advanced Supercomputing facility in Mountain View, California.

It has 20 TB. of RAM, 440 TB. of storage, and 10 PB. of archive storage. It was named in honor of the crew STS-107, who were killed in the Columbia disaster. Connected together with a Voltaire InfiniBand ISR 9288 288 port switch with transfer

speeds of up to 10 gigabits (or 1250 megabytes) per second, 10 gigabit Ethernet and multiple 1 gigabit Ethernet nodes.

It is running at 51.87 teraflops, or 51.87 trillion floating-point calculations per second.

Page 53: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

An example of a computer cluster--this is a Silicon Graphics Cluster-SGI

NASA's Columbia supercomputer, installed in 2004, is a 10,240-microprocessor10,240-microprocessor cluster of twenty Altix 3000Altix 3000 systems,

each with 512 microprocessors, interconnected with InfiniBandInfiniBand.

Page 54: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

54

Based on SGI; NUMAflex™ architecture - 20 SGI Altix™ 3700 superclusters, each with 512 processors- Global shared memory across 512 processors 10,240 Intel Itanium 2 processors - processor speed: 1.5 GHz.- cache: 6 MB. - 1 terabyte of memory per 512 processors, 20 TB. total memory Operating Environment - Linux-based operating system- PBS Pro™ job scheduler- Intel Fortran/C/C++ compiler- SGI ProPack™ 3.2 softwareInterconnect - SGI NUMAlink

- InfiniBand network- 10 Gbits Ethernet- 1 Gbits EthernetStorage - Online: 440 TB. of Fibre Channel RAID storage- Archive storage capacity: 10 petabytes

Page 55: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Grid ComputingGrid ComputingGrid computing (or the use of computational computational

gridsgrids) is the combination of computer resources from multiple administrative domains applied to a common task, usually to a scientific, technical or business problem that requires a great number of computer processing cycles or the need to process large amounts of data

Grid computing is distributed, large-scale cluster computingcluster computing, as well as a form of network-distributed parallel processing. The size of grid computing may vary from being small — confined to a network of computer workstations within a corporation, for example — to being large, public collaboration across many companies and networks

Page 56: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

What distinguishes grid computing from conventional cluster computing systems is that grids tend to be moremore loosely coupled, heterogeneous, and loosely coupled, heterogeneous, and geographically dispersedgeographically dispersed. Also, while a computing grid may be dedicated to a specialized applicationspecialized application, it is often constructed with the aid of general-purpose grid software libraries and middleware.

Grid ComputingGrid Computing

Page 57: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Multi-Core TechnologyMulti-Core TechnologyA multi-core CPU (or chip-level multiprocessor,

CMPCMP) combines two or more independent cores into a single package composed of a single integrated circuit (IC), called a die, or more dies packaged together

57

Each "core" independently

implements optimizations such as

superscalarsuperscalar execution, pipeliningpipelining, and multithreadingmultithreading.

A system with n cores is effective when it is

presented with n or more threads concurrently

Page 58: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Multi-Core TechnologyMulti-Core TechnologyThe amount of performance gained by the use of a multicore

processor depends on the problem being solved and the algorithms used, as well as their implementation in software (Amdahl's lawAmdahl's law).

For so-called "embarrassingly parallel" problems, a dual-core processor with two cores at 2GHz may perform very nearly as fast as a single core of 4 GHz.

Other problems though may not yield so much speedup. This all assumes however that the software has been software has been designed to take advantage of available parallelismdesigned to take advantage of available parallelism. If it hasn't, there will not be any speedup at all.

*However, the processor will multitaskmultitask better since it can run two programs at once, one on each core

Page 59: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Multi-Core TechnologyMulti-Core Technology

Athlon 64Athlon 64, Athlon 64 FXAthlon 64 FX and Athlon 64 X2Athlon 64 X2 OpteronOpteron,

dual- and quad-core server/workstation processors.PhenomPhenom, triple, quad, Hex-core desktop processors.Semipro X2Semipro X2, dual-core entry level processors.Turion 64 X2Turion 64 X2, dual-core laptop processors.RadeonRadeon and FireStreamFireStream multi-core GPU/GPGPU(10 cores,

16 5-issue wide superscalar stream processors per core)"InterlagosInterlagos" (32nm, 16-core) 8 Bulldozer modules (two dies

as MCM) HyperTransport 3.1 hexa Channel DDR3 Socket G34

Page 60: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

POWER4POWER4 the world's first dual-core processor, released in 2001.

POWER5POWER5, a dual-core processor, released in 2004.POWER6POWER6, a dual-core processor, released in 2007.POWER7POWER7 a 8 to 128 cores processor, released in 2010.

use in PERCS, Blue Waters project.PowerPC 970MPPowerPC 970MP, a dual-core processor, used in the Apple

Power Mac G5.XenonXenon, a triple-core, SMT: Simultaneous Multi-Threading-

capable, PowerPC microprocessor used in the Microsoft Xbox 360 game console.

Multi-Core TechnologyMulti-Core Technology

http://en.wikipedia.org/wiki/POWER7

Page 61: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Celeron Dual-Core, the first dual-core processor for the budget/entry-level market.

Core Duo, a dual-core processor.Core 2 Duo, a dual-core processor.Core 2 Quad, 2 dual-core dies packaged in a multi-chip module.Core i3, Core i5 and Core i7, a family of multi-core processors, the

successor of the Core 2 Duo and the Core 2 Quad.Itanium 2, a dual-core processor.Pentium D, 2 single-core dies packaged in a multi-chip module.Pentium Extreme Edition, 2 single-core dies packaged in a multi-

chip module.

Multi-Core TechnologyMulti-Core Technology

Page 62: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Pentium Dual-Core, a dual-core processor.Teraflops Research Chip (Polaris), a 3.16 GHz, 80-core

processor prototype, which the company says will be released within the next five years[8].

Xeon dual-, quad-, hexa-, and octo-core processors.

Multi-Core TechnologyMulti-Core Technology

Page 63: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

UltraSPARC IV UltraSPARC IV and UltraSPARC IV+UltraSPARC IV+, dual-core processors.

UltraSPARC UltraSPARC T1T1, an eight-core, 32-thread processor.

UltraSPARC UltraSPARC T2T2, an eight-core, 64-concurrent-thread processor.

Multi-Core TechnologyMulti-Core Technology

Page 64: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

64

เทคโน่โลย�และการื่พั�ฒน่าเทคโน่โลย�และการื่พั�ฒน่าใน่ป!จจ#บ�น่ใน่ป!จจ#บ�น่Optical ComputerOptical Computer

light travels about 30 cm, or one foot, in a nanosecond – and have a higher bandwidth.Quantum ComputerQuantum Computer A computer in which the time evolution of the state of the individual switching elements of the computer is governed by the laws of quantum mechanics. DNA or Molecular DNA or Molecular ComputerComputer DNA computers are faster and smaller than any other computer built so far. But DNA computing does not provide any new capabilities from the standpoint of computability theory, the study of which problems are computationally solvable using different models of computation.

Page 65: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Optical ComputerOptical ComputerComputers work with binary, on or off, states. A

completely optical computer requires that one light beam can turn another on and off. This was first achieved with the photonic transistorphotonic transistor, invented in 1989 at the Rocky Mountain Research Center. This demonstration eventually created a growing interest in making photonic logic componentry utilizing light interference.

Photonic computing is intended to use photonsphotons or light particles, produced by lasers, in place of electrons. Compared to electrons, photons are much faster – light travels about 30 cm, or one foot, in a nanosecondnanosecond – and have a higher bandwidthbandwidth.

Page 66: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Light interference is very frequency sensitive. This means that a narrow band of photon frequencies can be used to represent one bit in a binary number. Many of today's electronic computers use 64 or 128 bit-position logic. The visible light spectrum alone could enable 123 billion bit positions.

Recent research shows promise in temporarily trapping light in crystalscrystals. Trapping light is seen as a necessary element in replacing electron storage for computer logic. Recent years have seen the development of new conducting polymerspolymers which create transistor-like switches that are smaller, and 1,000 times faster, than silicon transistors.

Optical ComputerOptical Computer

Page 67: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Optical switches switch optical wavelengths. 100 terabit-per-second data-handling is expected within the decade. Existing technologies include:

micro-electro-mechanical systemsmicro-electro-mechanical systems, or MEMS, which use tiny mechanical parts such as mirrors.

Thermo-optics technologyThermo-optics technology, derived from ink-jet technology, creates bubbles to deflect light.

liquid crystal display switchingliquid crystal display switching changes (e.g., by filtering and rotating) the polarization states of the light.

acousto-optic modulator acousto-optic modulator uses the acousto-optic effect to diffract and shift the frequency of light using sound waves (usually at radio-frequency).

photonic integrated circuitsphotonic integrated circuitssilicon photonicssilicon photonics

Optical ComputerOptical Computer

Page 68: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Quantum ComputerQuantum ComputerA future technology for designing computers

based on quantum mechanics, the science of atomic structure and function. It uses the "qubit," or quantum bit, which can hold an infinite number of values.

In 1999, the feasibility of such a computer was demonstrated by a collaboration of scientists at MIT, the University of California at Berkeley and Stanford University, which used a technique similar to MRI scans in hospitals.

68

Page 69: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

The concept is that the atoms can be made to perform higher level gating functions rather than just be used to store 00s and 11s. It is believed that such a device can handle multiple operations simultaneously and can factor large numbers 10,000 times faster than today's computers. In late 2001, researchers at IBM computed the factors of the number 15 using quantum techniques. Although there are gigantic hurdles to overcome, scientists believe this will be feasible some time in the future.

If quantum computing were to come about, the world of cryptography would undergo a dramatic change. In a short amount of time, such a device could be used to find the secret keys to all encryption algorithms.

Quantum ComputerQuantum Computer

Page 70: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Quantum ComputerQuantum ComputerA quantum computer is a device for

computation that makes direct use of quantum mechanical phenomena, such as superposition and entanglement, to perform operations on data. The basic principle behind quantum computation is that quantum properties can be used to represent data and perform operations on these data

Although quantum computing is still in its infancy, experiments have been carried out in which quantum computational operations were executed on a very small number of qubits (quantum bit)qubits (quantum bit).

Wikipedia

Page 71: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Quantum computers are different from other computers such as DNA computersDNA computers and traditional computers based on transistors. Some computing architectures such as optical optical computerscomputers may use classical superposition of electromagnetic waves. Without some specifically quantum mechanical resources such as entanglement, it is conjectured that an exponential advantage over classical computers is not possible.

If large-scale quantum computers can be built, they will be able to solve certain problems much faster than any of our current classical computers (for example Shor's algorithm, Grover's Shor's algorithm, Grover's algorithm, Deutsch-Jozsa algorithmalgorithm, Deutsch-Jozsa algorithm).

Quantum ComputerQuantum Computer

Wikipedia

Page 72: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Molecular ComputerMolecular ComputerMolecular computers also called DNA computerDNA computer

are massively parallel computers taking advantage of the computational power of molecules (specifically biological).

Molectronics specifically refers to the sub-field of physics which addresses the computational potential of atomic arrangements.

In 2002, researchers from the Weizmann Institute of Science in Rehovot, Israel, unveiled a programmable molecular computing machine a programmable molecular computing machine composed of enzymes and DNA molecules composed of enzymes and DNA molecules instead of silicon microchipsinstead of silicon microchips.

BiocomputersBiocomputers use systems of biologically derived molecules, such as DNA and proteins, to perform computational calculations involving storing, retrieving, and processing

Page 73: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

On April 28, 2004, Ehud Shapiro, Yaakov Benenson, Binyamin Gil, Uri Ben-Dor, and Rivka Adar at the Weizmann Institute announced in the journal Nature that they they had constructed a DNA computerhad constructed a DNA computer. This was coupled with an input and output module and is capable of diagnosing cancerous activity within a cell, and then releasing an anti-cancer drug upon diagnosis.

MAYA-IIMAYA-II (MMolecular AArray of YYES and AANDNOT logic gates) is a DNA computer, based on DNA Stem Loop Controllers, developed by scientists at Columbia University and the University of New Mexico

Molecular ComputerMolecular Computer

Page 74: บทที่ 7 Multi-Processors Architecture หัวข้อเรื่อง โครงสร้างระบบแบบหลายหน่วย ประมวลผลกลาง

Chapter 8Parallel Organization

Coming SoonComing Soon