120
Организация ЭВМ и систем Тема: Параллельные системы Понятие о многомашинных и многопроцессорных вычислительных системах Основные классы параллельных систем, их характерные особенности

Лекция №9 Организация ЭВМ и систем

Embed Size (px)

Citation preview

Page 1: Лекция №9 Организация ЭВМ и систем

Организация ЭВМ и системТема: Параллельные системы

• Понятие о многомашинных и многопроцессорных вычислительных системах• Основные классы параллельных систем, их характерные особенности

Page 2: Лекция №9 Организация ЭВМ и систем

Что такое суперЭВМ?Что такое суперЭВМ?

Оксфордский толковый словарь по вычислительной Оксфордский толковый словарь по вычислительной технике, изданный технике, изданный в 1986 годув 1986 году, сообщает, что , сообщает, что суперкомпьютерсуперкомпьютер - - это очень мощная ЭВМ это очень мощная ЭВМ с с производительностью свыше 10 MFLOPSпроизводительностью свыше 10 MFLOPS. . В начале 90-В начале 90-хх годов границу проводили уже около отметки годов границу проводили уже около отметки в 300 в 300 MFLOPSMFLOPS. . В 2001 годуВ 2001 году специалисты двух ведущих специалисты двух ведущих "суперкомпьютерных" стран, - США и Японии, - "суперкомпьютерных" стран, - США и Японии, - договорились о подъеме планки договорились о подъеме планки до 5 GFLOPSдо 5 GFLOPS. .

В 1989 году Г. Беллом и Д. Нельсоном была разработана шутливая классификация, предлагающая любой компьютер, весящий более тонны, считать суперкомпьютером. Из ряда предложенных определений суперкомпьютеров безоговорочно сегодня признается статус суперкомпьютеров лишь для систем, включенных в последнюю версию выпуска рейтинга Top 500.

Page 3: Лекция №9 Организация ЭВМ и систем

Таким образом, Таким образом, основные признаки, основные признаки, характеризующие суперЭВМ, характеризующие суперЭВМ, кроме высокой кроме высокой производительности, следующие: производительности, следующие:

самый современный технологический уровень самый современный технологический уровень (например, GaAs-технология); (например, GaAs-технология);

специфические архитектурные решения, специфические архитектурные решения, направленные на повышение быстродействия направленные на повышение быстродействия (например, наличие операций над векторами); (например, наличие операций над векторами);

цена, обычно свыше 1-2 млн. долл. цена, обычно свыше 1-2 млн. долл.

Выдающаяся роль в становлении суперкомпьютерных систем принадлежит крупнейшим идеологам – академикам С.А. Лебедеву, В.М. Глушкову и Сеймуру Крею.

В 1985 году в мире действовало уже более 150 таких систем стоимостью около $10 млн. каждая.

Page 4: Лекция №9 Организация ЭВМ и систем

Пик разработок в СССР суперкомпьютерных систем пришелся примерно на 1986 год.

В достаточной мере тогда финансировались и координировались через оборонные ведомства следующие разработки многопроцессорных систем:

– ереванский матричный спецпроцессор EC2700 (этот спецпроцессор выполнял только узкий набор операций над матрицами и векторами, но с очень большой скоростью);

– киевский макроконвейер EC2701 (ведущие разработчики В.М. Глушков, С.Б. Погребинский, А.Г. Кухарчук, В.П. Клименко, Ю.В. Капитонова и др.);

– ленинградский мультипроцессор с динамической архитектурой EC2704;

– таганрогский мультипроцессор EC2706;– семейство мультипроцессоров ПС ИПУ АН СССР;– Электроника СС – БИС;

Page 5: Лекция №9 Организация ЭВМ и систем

– московские комплексы «Эльбрус-1», «Эльбрус-2» (ведущие разработчики С.А. Лебедев, В.С. Бурцев, Б.А. Бабаян и др.);

– киевский коллективный интеллектуальный терминал для «Эльбрус-2» (ведущие разработчики З.Л. Рабинович, А.А. Якуба и др.);

– московские системы НИИ “Квант” и ряд других.

Page 6: Лекция №9 Организация ЭВМ и систем

Области применения суперЭВМОбласти применения суперЭВМ

Автомобилестроение Автомобилестроение Нефте- и газодобычаНефте- и газодобычаФармакология Фармакология Прогноз погоды и моделирование изменения Прогноз погоды и моделирование изменения

климата климата Сейсморазведка Сейсморазведка Проектирование электронных устройств Проектирование электронных устройств Синтез новых материалов Синтез новых материалов И многие, многие другие И многие, многие другие В 1995 году корпус автомобиля Nissan Maxima В 1995 году корпус автомобиля Nissan Maxima

удалось сделать на 10% прочнее благодаря удалось сделать на 10% прочнее благодаря использованию суперкомпьютера фирмы Cray (The использованию суперкомпьютера фирмы Cray (The Atlanta Journal, 28 мая, 1995г). С помощью него были Atlanta Journal, 28 мая, 1995г). С помощью него были найдены не только слабые точки кузова, но и наиболее найдены не только слабые точки кузова, но и наиболее эффективный способ их удаления. эффективный способ их удаления.

Page 7: Лекция №9 Организация ЭВМ и систем

История появления параллелизма в История появления параллелизма в архитектуре ЭВМархитектуре ЭВМ

1953 г. – 1953 г. – IBM IBM 701701 1955 г. – 1955 г. – IBM 704IBM 704

1958 г. – 1958 г. – IBM 709IBM 709 (независимые контроллеры (независимые контроллеры I/OI/O)) 19611961 г. – г. – IBM STRETCH (IBM STRETCH (опережающий просмотр, опережающий просмотр,

расслоение памяти на 2 банкарасслоение памяти на 2 банка)) 19631963 г. – г. – ATLASATLAS (реализована конвейерная обработка (реализована конвейерная обработка

данных)данных) 1964 г. – 1964 г. – CDC 6600CDC 6600 (независимые устройства – несколько (независимые устройства – несколько

конвейеров)конвейеров) 19691969 г. – г. – CDC 7600CDC 7600 (8 конвейерных функциональных (8 конвейерных функциональных

устройств)устройств) 19741974 г. – г. – ALLIACALLIAC (УУ + матрица из 64 процессоров) (УУ + матрица из 64 процессоров) 19761976 г. – г. – CRAY1CRAY1 (векторно-конвейерные процессоры) (векторно-конвейерные процессоры)

-) параллельный формат данныхпараллельный формат данных-) АЛУ с плавающей точкой-) АЛУ с плавающей точкой

Page 8: Лекция №9 Организация ЭВМ и систем

АрхитектураАрхитектура традиционных традиционных последовательных последовательных компьютеровкомпьютеров основана на идеях Джона фон Неймана и основана на идеях Джона фон Неймана и включаетвключает в себя в себя центральный процессор, оперативную центральный процессор, оперативную память и устройства ввода/выводапамять и устройства ввода/вывода..

Последовательность команд применяется к Последовательность команд применяется к последовательности данных.последовательности данных. Скорость работы такого Скорость работы такого компьютера определяется быстродействием его компьютера определяется быстродействием его центрального процессора и временем доступа к центрального процессора и временем доступа к оперативной памяти.оперативной памяти. Быстродействие центрального Быстродействие центрального процессора может быть увеличено за счет увеличения процессора может быть увеличено за счет увеличения тактовой частотытактовой частоты, величина которой зависит от плотности , величина которой зависит от плотности элементов в интегральной схеме, способа их "упаковки" и элементов в интегральной схеме, способа их "упаковки" и быстродействия микросхем оперативной памятибыстродействия микросхем оперативной памяти. .

Page 9: Лекция №9 Организация ЭВМ и систем

Другие методы повышения быстродействия Другие методы повышения быстродействия основаны на расширениях традиционной фон-основаны на расширениях традиционной фон-неймановской архитектуры, включающих:неймановской архитектуры, включающих:

конвейерную обработку данных и команд;конвейерную обработку данных и команд;использование процессоров с сокращенным использование процессоров с сокращенным

набором команд (RISC-процессоров). В RISC-набором команд (RISC-процессоров). В RISC-процессорах большая часть команд выполняется процессорах большая часть команд выполняется за 1- 2 такта;за 1- 2 такта;

использование суперскалярных использование суперскалярных процессоровпроцессоров;;

векторную обработку данных;векторную обработку данных;использование процессоров со сверхдлинным использование процессоров со сверхдлинным

командным словом;командным словом;использование многопроцессорных использование многопроцессорных

конфигураций.конфигураций.

Page 10: Лекция №9 Организация ЭВМ и систем

Параллельная обработка данныхПараллельная обработка данных, имеет , имеет

две разновидности: две разновидности:

Конвейерность (выделение нескольких Конвейерность (выделение нескольких

этапов при выполнении операции).этапов при выполнении операции). Параллельность (наличие нескольких Параллельность (наличие нескольких

функционально независимых устройств).функционально независимых устройств).

Page 11: Лекция №9 Организация ЭВМ и систем

Закон Амдала Закон Амдала (зависимость коэффициента ускорения от числа (зависимость коэффициента ускорения от числа

процессоров и степени параллелизма алгоритма процессоров и степени параллелизма алгоритма (относительной доли параллельной части)(относительной доли параллельной части)

где: где: S – S – ускорение, ускорение, f – f – доля операций, которые нужно доля операций, которые нужно выполнить последовательно, выполнить последовательно, pp – число процессоров. – число процессоров.

Следствие из закона АмдалаСледствие из закона Амдала::Для того, чтобы ускорить выполнение программы в Для того, чтобы ускорить выполнение программы в

qq раз, необходимо ускорить не менее чем в раз, необходимо ускорить не менее чем в qq раз, не раз, не менее чем менее чем (1-1/q)-(1-1/q)-ую часть программы.ую часть программы.

pffS

/)1(

1

Page 12: Лекция №9 Организация ЭВМ и систем

Классификация ЭВМ по Флинну Классификация ЭВМ по Флинну

Одной из наиболее известных схем классификации Одной из наиболее известных схем классификации компьютерных архитектур является компьютерных архитектур является таксономия Флинна, таксономия Флинна, предложенная Майклом Флинном в 1972 году. предложенная Майклом Флинном в 1972 году. ВВ ее ее основу положено описание работы компьютера с основу положено описание работы компьютера с потоками команд и данныхпотоками команд и данных. .

В классификации Флинна имеется четыре класса В классификации Флинна имеется четыре класса архитектур:архитектур:1.1. SISD SISD (Single Instruction Stream — Single Data Stream) — (Single Instruction Stream — Single Data Stream) — один поток команд и один поток данных.один поток команд и один поток данных.2.2. SIMD SIMD (Single Instruction Stream — Multiple Data Stream) (Single Instruction Stream — Multiple Data Stream) — один поток команд и несколько потоков данных.— один поток команд и несколько потоков данных.3.3. MISD MISD (Multiple Instruction Stream — Single Data Stream) (Multiple Instruction Stream — Single Data Stream) — несколько потоков команд и один поток данных.— несколько потоков команд и один поток данных.4.4. MIMD MIMD (Multiple Instruction Stream — Multiple Data Stream) (Multiple Instruction Stream — Multiple Data Stream) — несколько потоков команд и несколько потоков данных.— несколько потоков команд и несколько потоков данных.

Page 13: Лекция №9 Организация ЭВМ и систем

SISD-компьютерыSISD-компьютеры SISD-компьютеры SISD-компьютеры — это обычные — это обычные

последовательные компьютеры,последовательные компьютеры, выполняющие в выполняющие в каждый момент времени только одну операцию над каждый момент времени только одну операцию над одним элементом данныходним элементом данных. .

Page 14: Лекция №9 Организация ЭВМ и систем

SIМD-компьютерыSIМD-компьютерыSIMD-компьютеры состоят из одного командного SIMD-компьютеры состоят из одного командного

процессорапроцессора (управляющего модуля), называемого (управляющего модуля), называемого контроллером, контроллером, и нескольких модулей обработки и нескольких модулей обработки данныхданных, называемых процессорными элементами (ПЭ). , называемых процессорными элементами (ПЭ). Количество модулей обработки данных таких машин может Количество модулей обработки данных таких машин может быть от 1024 до 16 384. быть от 1024 до 16 384.

Процессорные элементы в SIMD-компьютерах имеют Процессорные элементы в SIMD-компьютерах имеют относительно простое устройство, они содержат относительно простое устройство, они содержат арифметико-логическое устройство (АЛУ), выполняющее арифметико-логическое устройство (АЛУ), выполняющее команды, поступающие из устройства управления (УУ), команды, поступающие из устройства управления (УУ), несколько регистров и локальную оперативную память. несколько регистров и локальную оперативную память.

В SIMD-компьютере управление выполняется В SIMD-компьютере управление выполняется контроллером, а "арифметика" отдана процессорным контроллером, а "арифметика" отдана процессорным элементам. элементам. Подклассом SIMD-компьютеров являются Подклассом SIMD-компьютеров являются векторные компьютерывекторные компьютеры. Пример такой вычислительной . Пример такой вычислительной системы — Hitachi S3600. системы — Hitachi S3600. Другой пример SIMD-Другой пример SIMD-компьютера — матричные процессорыкомпьютера — матричные процессоры (Array Processor). (Array Processor).

Page 15: Лекция №9 Организация ЭВМ и систем

Схема SIMD- компьютера с Схема SIMD- компьютера с разделяемой памятьюразделяемой памятью

Схема SIMD-компьютера с Схема SIMD-компьютера с распределенной памятьюраспределенной памятью

Page 16: Лекция №9 Организация ЭВМ и систем

MISD-компьютерыMISD-компьютерыВычислительных машин такого класса мало. Один из Вычислительных машин такого класса мало. Один из

немногих примеров - систолический массив процессоров, в немногих примеров - систолический массив процессоров, в котором процессоры находятся в узлах регулярной решетки. котором процессоры находятся в узлах регулярной решетки. Роль ребер в ней играют межпроцессорные соединения, все Роль ребер в ней играют межпроцессорные соединения, все ПЭ управляются общим тактовым генератором. В каждом ПЭ управляются общим тактовым генератором. В каждом цикле работы любой ПЭ получает данные от своих соседей, цикле работы любой ПЭ получает данные от своих соседей, выполняет одну команду и передает результат соседям. На выполняет одну команду и передает результат соседям. На рисунке дана схема фрагмента систолического массива.рисунке дана схема фрагмента систолического массива.

Page 17: Лекция №9 Организация ЭВМ и систем

MIMIMMD-компьютерыD-компьютеры

Этот класс архитектур наиболее богат примерами Этот класс архитектур наиболее богат примерами успешных реализаций. В него попадают успешных реализаций. В него попадают симметричные симметричные параллельные вычислительные системы, рабочие параллельные вычислительные системы, рабочие станции с несколькими процессорами, кластеры станции с несколькими процессорами, кластеры рабочих станций ирабочих станций и т. д. Довольно давно появились т. д. Довольно давно появились компьютеры с несколькими независимыми процессорами, компьютеры с несколькими независимыми процессорами, но вначале на них был реализован только принцип но вначале на них был реализован только принцип параллельного исполнения заданий, т. е. на разных параллельного исполнения заданий, т. е. на разных процессорах одновременно выполнялись независимые процессорах одновременно выполнялись независимые программы. программы.

В начале 90-х годов прошлого века именно MIMD-В начале 90-х годов прошлого века именно MIMD-компьютеры вышли в лидеры на рынке компьютеры вышли в лидеры на рынке высокопроизводительных вычислительных систем.высокопроизводительных вычислительных систем.

Page 18: Лекция №9 Организация ЭВМ и систем

Схема MIMD-компьютера Схема MIMD-компьютера с разделяемой памятьюс разделяемой памятью

Схема MIMD-компьютера с Схема MIMD-компьютера с распределенной памятьюраспределенной памятью

Page 19: Лекция №9 Организация ЭВМ и систем

Имеются и гибридные конфигурации, в которых, Имеются и гибридные конфигурации, в которых, например, объединены несколько SIMD-компьютеров, в например, объединены несколько SIMD-компьютеров, в результате чего получается MSIMD-компьютер, результате чего получается MSIMD-компьютер, позволяющий создавать виртуальные конфигурации, позволяющий создавать виртуальные конфигурации, каждая из которых работает в SIMD-режиме.каждая из которых работает в SIMD-режиме.

Классификация Флинна не дает исчерпывающего Классификация Флинна не дает исчерпывающего описания разнообразных архитектур MIMD-машин, порой описания разнообразных архитектур MIMD-машин, порой существенно отличающихся друг от друга. существенно отличающихся друг от друга. Часто Часто используется классификация, в которой за основу используется классификация, в которой за основу берется способ взаимодействия процессоров с берется способ взаимодействия процессоров с оперативной памятью.оперативной памятью. Например, существуют такие Например, существуют такие подклассы MIMD-компьютеров, как подклассы MIMD-компьютеров, как системы с системы с разделяемой памятью и системы с распределенной разделяемой памятью и системы с распределенной памятью.памятью. Системы с разделяемой памятью могут Системы с разделяемой памятью могут относиться по классификации Флинна как к MIMD, так и к относиться по классификации Флинна как к MIMD, так и к SIMD-машинам. То же самое можно сказать и о системах с SIMD-машинам. То же самое можно сказать и о системах с распределенной памятью.распределенной памятью.

Page 20: Лекция №9 Организация ЭВМ и систем

Классификация по способу Классификация по способу взаимодействия процессоров с взаимодействия процессоров с

оперативной памятьюоперативной памятьюВ этой схеме выделяют три основные группы В этой схеме выделяют три основные группы

архитектур:архитектур:- с разделяемой памятью;- с разделяемой памятью;- с распределенной памятью;- с распределенной памятью;- с- с распределенно-разделяемой памятью.распределенно-разделяемой памятью.

Основным свойством систем с разделяемой Основным свойством систем с разделяемой памятью является то, что все процессоры системы памятью является то, что все процессоры системы имеют доступ к одной оперативной памяти, используя имеют доступ к одной оперативной памяти, используя единое адресное пространствоединое адресное пространство. Обычно главная память . Обычно главная память состоит из нескольких модулей памяти (их число не состоит из нескольких модулей памяти (их число не обязательно совпадает с числом процессоров).обязательно совпадает с числом процессоров).

Page 21: Лекция №9 Организация ЭВМ и систем

В такой системе связь между процессорами В такой системе связь между процессорами выполняется с помощью разделяемых переменных. Этот выполняется с помощью разделяемых переменных. Этот тип параллельных компьютеров называют также тип параллельных компьютеров называют также компьютерами компьютерами с однородным доступом к памятис однородным доступом к памяти и и обозначают английской аббревиатурой обозначают английской аббревиатурой UMA (Uniform UMA (Uniform Memory Access),Memory Access), поскольку параметры доступа к модулям поскольку параметры доступа к модулям памяти для всех процессоров одинаковы.памяти для всех процессоров одинаковы. Преимуществом компьютеров с разделяемой Преимуществом компьютеров с разделяемой памятью является удобство программированияпамятью является удобство программирования для для них, поскольку все данные доступны всем процессорам, и них, поскольку все данные доступны всем процессорам, и не надо заботиться о пересылках данных. Синхронизацию не надо заботиться о пересылках данных. Синхронизацию обеспечивает сама система. Однако на компьютерах с обеспечивает сама система. Однако на компьютерах с разделяемой памятью разделяемой памятью сложно достичь параллелизма сложно достичь параллелизма высокого уровнявысокого уровня, поскольку большинство таких систем , поскольку большинство таких систем содержат менее 64 процессоровсодержат менее 64 процессоров. Это ограничение . Это ограничение следует из плохой масштабируемости централизованной следует из плохой масштабируемости централизованной памяти и системы коммуникаций.памяти и системы коммуникаций.

Page 22: Лекция №9 Организация ЭВМ и систем

В случае компьютера с распределенной памятью В случае компьютера с распределенной памятью каждый процессор имеет собственную оперативную каждый процессор имеет собственную оперативную памятьпамять. Глобального адресного пространства в этом . Глобального адресного пространства в этом случае уже нет. Коммуникации и синхронизация случае уже нет. Коммуникации и синхронизация процессоров осуществляются с помощью обмена процессоров осуществляются с помощью обмена сообщениями по коммуникационной сети.сообщениями по коммуникационной сети. В отличие от систем с разделяемой памятью В отличие от систем с разделяемой памятью системы с системы с распределенной памятью очень хорошо распределенной памятью очень хорошо масштабируютсямасштабируются, поскольку в этом случае исключены , поскольку в этом случае исключены конфликты по доступу к памяти. В результате могут конфликты по доступу к памяти. В результате могут создаваться системы с высокой степенью параллелизма создаваться системы с высокой степенью параллелизма (МРР — Massively Parallel Processors), состоящие из (МРР — Massively Parallel Processors), состоящие из сотен и тысяч процессоровсотен и тысяч процессоров. Типичными . Типичными представителями систем с распределенной памятью представителями систем с распределенной памятью являются кластеры рабочих станций, объединенные являются кластеры рабочих станций, объединенные коммуникационной сетью достаточно дешевой, но коммуникационной сетью достаточно дешевой, но обеспечивающей приемлемую скорость обмена данными обеспечивающей приемлемую скорость обмена данными (Ethernet, Myrinet и др.).(Ethernet, Myrinet и др.).

Page 23: Лекция №9 Организация ЭВМ и систем

В системах с распределенно-разделяемой В системах с распределенно-разделяемой памятьюпамятью используются преимущества обоих подходов. используются преимущества обоих подходов. Это относительная простота программирования с одной Это относительная простота программирования с одной стороны, хорошая масштабируемость с другой. стороны, хорошая масштабируемость с другой.

Каждый процессор имеет собственную локальную Каждый процессор имеет собственную локальную памятьпамять, но, в отличие от архитектуры с распределенной , но, в отличие от архитектуры с распределенной памятью, памятью, все модули памяти образуют единое все модули памяти образуют единое адресное пространствоадресное пространство, т. е. каждая ячейка памяти , т. е. каждая ячейка памяти имеет адрес, единый для всей системы.имеет адрес, единый для всей системы.

Page 24: Лекция №9 Организация ЭВМ и систем

Для самостоятельного изучения

Чаще всего аналитики выделяют как актуальные следующие четыре направления архитектурных решений:

1) векторно-конвейерные системы, 2) массивно-параллельные системы с

распределенной памятью (MPP массивно-параллельная архитектура – massive parallel processing),

3) параллельные системы с общей памятью, 4) кластерную архитектуру.

Page 25: Лекция №9 Организация ЭВМ и систем

1. Массивно-параллельные 1. Массивно-параллельные системы (MPP)системы (MPP)

АрхитектураАрхитектура Система состоит из однородных Система состоит из однородных вычислительных узловвычислительных узлов, ,

включающих: включающих: один или несколько центральных процессоров (обычно один или несколько центральных процессоров (обычно

RISC), RISC), локальную памятьлокальную память (прямой доступ к памяти других (прямой доступ к памяти других

узлов невозможен), узлов невозможен), коммуникационный процессор или сетевой адаптер коммуникационный процессор или сетевой адаптер иногда - жесткие диски (как в SP) и/или другие иногда - жесткие диски (как в SP) и/или другие

устройства в/в. устройства в/в. К системе могут быть добавлены специальные узлы К системе могут быть добавлены специальные узлы

ввода-вывода и управляющие узлы. Узлы связаны через ввода-вывода и управляющие узлы. Узлы связаны через некоторую коммуникационную среду (высокоскоростная сеть, некоторую коммуникационную среду (высокоскоростная сеть, коммутатор и т.п.) коммутатор и т.п.)

Примеры:Примеры: IBM RS/6000 IBM RS/6000 SP2SP2, Intel PARAGON/ASCI Red, Intel PARAGON/ASCI Red, CRAY CRAY T3ET3E, Hitachi Hitachi SR8000SR8000, транспьютерные системы транспьютерные системы ParsytecParsytec. .

Page 26: Лекция №9 Организация ЭВМ и систем

CRAY T3DCRAY T3DCray T3D Cray T3D и и T3E T3E используют единое адресное используют единое адресное

пространство (общая виртуальная память). По пространство (общая виртуальная память). По аппаратному прерыванию особого случая адресации ОС аппаратному прерыванию особого случая адресации ОС выполняет пересылку страницы с одного узла на другой. выполняет пересылку страницы с одного узла на другой. У каждого МП своя локальная память, но единое У каждого МП своя локальная память, но единое виртуальное адресное пространство.виртуальное адресное пространство.

Cray T3D (32-2048Cray T3D (32-2048 МП МП)) хост-машинахост-машина

Сеть межпроцессорноговзаимодействия

(коммуникационная сеть)140 Мбайт/с

Вычислительные узлы Узлы ввода/вывода

2 ПЭ

МП ЛокальнаяНесколько

вспомогательных схем

Сетевой интерфейс

Контроллерблочныхпередач

Page 27: Лекция №9 Организация ЭВМ и систем

МасштабируемостьМасштабируемостьОбщее число процессоров в реальных системах Общее число процессоров в реальных системах

достигает нескольких тысяч (ASCI Red, Blue Mountain). достигает нескольких тысяч (ASCI Red, Blue Mountain). Операционная системаОперационная система

Существуют два основных варианта: Существуют два основных варианта: Полноценная ОС работает только на управляющей Полноценная ОС работает только на управляющей

машине (front-end), на каждом узле работает сильно машине (front-end), на каждом узле работает сильно урезанный вариант ОС, обеспечивающие только работу урезанный вариант ОС, обеспечивающие только работу расположенной в нем ветви параллельного приложения. расположенной в нем ветви параллельного приложения. Пример: Cray T3E. Пример: Cray T3E.

На каждом узле работает полноценная UNIX-На каждом узле работает полноценная UNIX-подобная ОС (вариант, близкий к подобная ОС (вариант, близкий к кластерномукластерному подходу). подходу). Пример: IBM RS/6000 SP + ОС AIX, устанавливаемая Пример: IBM RS/6000 SP + ОС AIX, устанавливаемая отдельно на каждом узле. отдельно на каждом узле.

Модель программированияМодель программирования Программирование в рамках модели передачи Программирование в рамках модели передачи

сообщений ( сообщений ( MPIMPI, PVM, BSPlib)

Page 28: Лекция №9 Организация ЭВМ и систем

2. Симметричные 2. Симметричные мультипроцессорные системы (SMP)мультипроцессорные системы (SMP)

АрхитектураАрхитектураСистема состоит из нескольких однородных Система состоит из нескольких однородных

процессоров и процессоров и массива общей памятимассива общей памяти (обычно из (обычно из нескольких независимых блоков). Все процессоры имеют нескольких независимых блоков). Все процессоры имеют доступ к любой точке памяти с одинаковой скоростью. доступ к любой точке памяти с одинаковой скоростью. Процессоры подключены к памяти либо с помощью общей Процессоры подключены к памяти либо с помощью общей шины (базовые 2-4 процессорные SMP-сервера), либо с шины (базовые 2-4 процессорные SMP-сервера), либо с помощью crossbar-коммутатора (HP 9000). Аппаратно помощью crossbar-коммутатора (HP 9000). Аппаратно поддерживается когерентность кэшей. поддерживается когерентность кэшей.

Примеры:Примеры: HP 9000 V-classHP 9000 V-class, N-class; SMP-cервера и , N-class; SMP-cервера и

рабочие станции на базе процессоров Intel (IBM, HP, рабочие станции на базе процессоров Intel (IBM, HP, Compaq, Dell, ALR, Unisys, DG, Fujitsu и др.). Compaq, Dell, ALR, Unisys, DG, Fujitsu и др.).

Page 29: Лекция №9 Организация ЭВМ и систем

МасштабируемостьМасштабируемостьНаличие общей памяти сильно упрощает Наличие общей памяти сильно упрощает

взаимодействие процессоров между собой, однако взаимодействие процессоров между собой, однако накладывает сильные ограничения на их число - не накладывает сильные ограничения на их число - не более 32 в реальных системах. Для построения более 32 в реальных системах. Для построения масштабируемых систем на базе SMP используются масштабируемых систем на базе SMP используются кластерныекластерные или или NUMANUMA-архитектуры. -архитектуры.

Операционная системаОперационная система Вся система работает под управлением единой ОС Вся система работает под управлением единой ОС

(обычно UNIX-подобной, но для Intel-платформ (обычно UNIX-подобной, но для Intel-платформ поддерживается Windows NT). ОС автоматически (в поддерживается Windows NT). ОС автоматически (в процессе работы) распределяет процессы/нити по процессе работы) распределяет процессы/нити по процессорам, но иногда возможна и явная привязка. процессорам, но иногда возможна и явная привязка.

Модель программированияМодель программирования Программирование в модели Программирование в модели общей памятиобщей памяти. (POSIX . (POSIX

threads, threads, OpenMPOpenMP). Для SMP-систем существуют Для SMP-систем существуют сравнительно эффективные средства сравнительно эффективные средства автоматического распараллеливанияавтоматического распараллеливания.

Page 30: Лекция №9 Организация ЭВМ и систем

3. Системы с неоднородным 3. Системы с неоднородным доступом к памяти (NUMA)доступом к памяти (NUMA)

АрхитектураАрхитектураСистема состоит из однородных базовых модулей Система состоит из однородных базовых модулей

(плат), состоящих из небольшого числа процессоров и (плат), состоящих из небольшого числа процессоров и блока памяти. Модули объединены с помощью блока памяти. Модули объединены с помощью высокоскоростного коммутатора. Поддерживается высокоскоростного коммутатора. Поддерживается единое адресное пространствоединое адресное пространство, аппаратно , аппаратно поддерживается доступ к удаленной памяти, т.е. к памяти поддерживается доступ к удаленной памяти, т.е. к памяти других модулей. других модулей. При этом доступ к локальной памяти в При этом доступ к локальной памяти в несколько раз быстрее, чем к удаленнойнесколько раз быстрее, чем к удаленной. В случае, если . В случае, если аппаратно поддерживается когерентность кэшей во всей аппаратно поддерживается когерентность кэшей во всей системе (обычно это так), говорят об архитектуре cc-системе (обычно это так), говорят об архитектуре cc-NUMA (cache-coherent NUMA).NUMA (cache-coherent NUMA).

Примеры:Примеры: HP HP HP 9000 V-classHP 9000 V-class в SCA-конфигурациях, в SCA-конфигурациях,

SGI SGI Origin2000Origin2000, Sun Sun HPC 10000HPC 10000, IBM/Sequent , IBM/Sequent NUMA-Q 2000NUMA-Q 2000, SNI , SNI RM600RM600.

Page 31: Лекция №9 Организация ЭВМ и систем

МасштабируемостьМасштабируемостьМасштабируемость NUMA-систем ограничивается Масштабируемость NUMA-систем ограничивается

объемом адресного пространства, возможностями объемом адресного пространства, возможностями аппаратуры поддержки когерентности кэшей и аппаратуры поддержки когерентности кэшей и возможностями операционной системы по управлению возможностями операционной системы по управлению большим числом процессоров. На настоящий момент, большим числом процессоров. На настоящий момент, максимальное число процессоров в NUMA-системах максимальное число процессоров в NUMA-системах составляет 256 (Origin2000). составляет 256 (Origin2000).

Операционная системаОперационная система Обычно вся система работает под управлением Обычно вся система работает под управлением

единой ОС, как в единой ОС, как в SMPSMP. Но возможны также варианты . Но возможны также варианты динамического "подразделения" системы, когда динамического "подразделения" системы, когда отдельные "разделы" системы работают под отдельные "разделы" системы работают под управлением разных ОС (например, Windows NT и UNIX в управлением разных ОС (например, Windows NT и UNIX в NUMA-Q 2000). NUMA-Q 2000).

Модель программированияМодель программирования АналогичноАналогично SMP.

Page 32: Лекция №9 Организация ЭВМ и систем

4. Параллельные векторные 4. Параллельные векторные системы (PVP)системы (PVP)

Архитектура Архитектура Основным признаком PVP-систем является наличие Основным признаком PVP-систем является наличие

специальных векторно-конвейерных процессоров, в специальных векторно-конвейерных процессоров, в которых предусмотрены команды однотипной обработки которых предусмотрены команды однотипной обработки векторов независимых данных, эффективно векторов независимых данных, эффективно выполняющиеся на конвейерных функциональных выполняющиеся на конвейерных функциональных устройствах. Как правило, несколько таких процессоров (1-устройствах. Как правило, несколько таких процессоров (1-16) работают одновременно 16) работают одновременно над общей памятьюнад общей памятью (аналогично (аналогично SMPSMP) в рамках многопроцессорных в рамках многопроцессорных конфигураций. Несколько таких узлов могут быть конфигураций. Несколько таких узлов могут быть объединены с помощью коммутатора (аналогично объединены с помощью коммутатора (аналогично MPPMPP).).

Примеры:Примеры: NEC SX-4/ NEC SX-4/SX-5SX-5, линия векторно-, линия векторно-конвейерных компьютеров CRAY: от CRAY-1, CRAY конвейерных компьютеров CRAY: от CRAY-1, CRAY J90/T90, CRAY SV1, CRAY X1, серия Fujitsu серия Fujitsu VPP. .

Page 33: Лекция №9 Организация ЭВМ и систем

Модель программированияМодель программирования

Эффективное программированиеЭффективное программирование подразумевает: подразумевает:

векторизацию циклов (для достижения разумной векторизацию циклов (для достижения разумной производительности одного процессора); производительности одного процессора);

и их распараллеливание (для одновременной и их распараллеливание (для одновременной загрузки нескольких процессоров одним загрузки нескольких процессоров одним приложением).приложением).

Page 34: Лекция №9 Организация ЭВМ и систем

CRAY Y-MP C90CRAY Y-MP C901.1. 16 16 МП, МП, ttтакта такта = 4,1 нс, = 4,1 нс, ffт.ч.=т.ч.=250 МГц.250 МГц.2.2. Разделяемые ресурсы процессора:Разделяемые ресурсы процессора:

ОП ОП разделяется всеми МП и секцией вводаразделяется всеми МП и секцией ввода//вывода. ОП вывода. ОП разделена на множество банков, которые могут работать разделена на множество банков, которые могут работать одновременно.одновременно.

Секция вводаСекция ввода//вывода:вывода:Low-Speed Channels – 6Low-Speed Channels – 6 Мбайт Мбайт//ссHigh-Speed Channels – 200High-Speed Channels – 200 Мбайт Мбайт//ссVery High-Speed Channels – Very High-Speed Channels – 1800 Мбайт1800 Мбайт//сс

Секция межпроцессорного взаимодействияСекция межпроцессорного взаимодействия содержит содержит регистры и семафоры, предназначенные для передачи данных регистры и семафоры, предназначенные для передачи данных и управляющей информации.и управляющей информации.

3.3. Вычислительная секция процессораВычислительная секция процессора Регистры (адресные, скалярные, векторные).Регистры (адресные, скалярные, векторные). Функциональные устройства.Функциональные устройства. Сети коммуникаций.Сети коммуникаций.

4.4. Секция управления. Команды выбираются из ОП блоками и Секция управления. Команды выбираются из ОП блоками и заносятся в буфера команд.заносятся в буфера команд.

5.5. Параллельное выполнение программ.Параллельное выполнение программ.

Page 35: Лекция №9 Организация ЭВМ и систем

Факторы, снижающие Факторы, снижающие производительность производительность

параллельных компьютеровпараллельных компьютеров1.1.Закон Амдала. Закон Амдала. В таблице показано, на какое максимальное ускорение В таблице показано, на какое максимальное ускорение

работы программы можно рассчитывать в зависимости от доли работы программы можно рассчитывать в зависимости от доли последовательных вычислений и числа доступных ПЭ.последовательных вычислений и числа доступных ПЭ.

Число Число ПЭПЭ

Доля последовательных вычисленийДоля последовательных вычислений

50%50% 25%25% 10%10% 5%5% 2%2%

22 1.33 1.33 1.60 1.60 1.82 1.82 1.90 1.90 1.96 1.96

88 1.78 1.78 2.91 2.91 4.71 4.71 5.93 5.93 7.02 7.02

3232 1.94 1.94 3.66 3.66 7.80 7.80 12.55 12.55 19.75 19.75

512512 1.99 1.99 3.97 3.97 9.83 9.83 19.28 19.28 45.63 45.63

20482048 2.00 2.00 3.993.99 9.96 9.96 19.82 19.82 48.83 48.83

Page 36: Лекция №9 Организация ЭВМ и систем

2.2. Время инициализации посылки сообщенияВремя инициализации посылки сообщения (латентность)(латентность) и и передачи сообщения по сетипередачи сообщения по сети..

Максимальная скорость передачи достигается на Максимальная скорость передачи достигается на больших сообщениях, когда латентность, возникающая больших сообщениях, когда латентность, возникающая лишь вначале, не столь заметна на фоне непосредственно лишь вначале, не столь заметна на фоне непосредственно передачи данных.передачи данных.

3.3. Возможность асинхронной посылки сообщений и Возможность асинхронной посылки сообщений и вычисленийвычислений..

Если или аппаратура, или программное обеспечение не Если или аппаратура, или программное обеспечение не поддерживают возможности проводить вычисления на поддерживают возможности проводить вычисления на фоне пересылок, то возникнут неизбежные накладные фоне пересылок, то возникнут неизбежные накладные расходы, связанные с ожиданием полного завершения расходы, связанные с ожиданием полного завершения взаимодействия параллельных процессов.взаимодействия параллельных процессов.

4.4. Неравномерная загрузка всех процессорных Неравномерная загрузка всех процессорных элементов.элементов.

5.5. Время ожидания прихода сообщенияВремя ожидания прихода сообщения. . 6.6. Реальная производительность одного Реальная производительность одного

процессорапроцессора..

Page 37: Лекция №9 Организация ЭВМ и систем

5. Кластерные системы5. Кластерные системы АрхитектураАрхитектура

Набор рабочих станций (или даже ПК) общего Набор рабочих станций (или даже ПК) общего назначения, используется в качестве дешевого варианта назначения, используется в качестве дешевого варианта массивно-параллельного компьютера. Для связи узлов компьютера. Для связи узлов используется одна из стандартных сетевых технологий используется одна из стандартных сетевых технологий (Fast/Gigabit Ethernet, Myrinet) на базе шинной архитектуры (Fast/Gigabit Ethernet, Myrinet) на базе шинной архитектуры или коммутатора. При объединении в кластер или коммутатора. При объединении в кластер компьютеров разной мощности или разной архитектуры, компьютеров разной мощности или разной архитектуры, говорят о говорят о гетерогенныхгетерогенных (неоднородных) кластерах. (неоднородных) кластерах.

Узлы кластера могут одновременно использоваться в Узлы кластера могут одновременно использоваться в качестве пользовательских рабочих станций. В случае, качестве пользовательских рабочих станций. В случае, когда это не нужно, узлы могут быть существенно когда это не нужно, узлы могут быть существенно облегчены и/или установлены в стойку. облегчены и/или установлены в стойку.

Примеры:Примеры: NT-кластер в NCSA, в NCSA, Beowulf-кластеры, -кластеры, CRAY SV1, HP Exemplar, Sun StarFire, NEC SX-5, CRAY SV1, HP Exemplar, Sun StarFire, NEC SX-5, последние модели IBM SP2. последние модели IBM SP2.

Page 38: Лекция №9 Организация ЭВМ и систем

Операционная системаОперационная система

Используются стандартные для рабочих станций ОС, Используются стандартные для рабочих станций ОС, чаще всего, свободно распространяемые - Linux/FreeBSD, чаще всего, свободно распространяемые - Linux/FreeBSD, вместе со специальными средствами поддержки вместе со специальными средствами поддержки параллельного программирования и распределения параллельного программирования и распределения нагрузки. нагрузки.

Модель программированияМодель программирования

Программирование, как правило, в рамках модели Программирование, как правило, в рамках модели передачи сообщений (чаще всего - MPI). Дешевизна передачи сообщений (чаще всего - MPI). Дешевизна подобных систем оборачивается большими накладными подобных систем оборачивается большими накладными расходами на взаимодействие параллельных процессов расходами на взаимодействие параллельных процессов между собой, что сильно сужает потенциальный класс между собой, что сильно сужает потенциальный класс решаемых задач. решаемых задач.

Page 39: Лекция №9 Организация ЭВМ и систем

6. Суперкомпьютеры на базе FPGA6. Суперкомпьютеры на базе FPGA

Экспериментальный Экспериментальный суперкомпьютер, способный суперкомпьютер, способный самостоятельно изменять собственную самостоятельно изменять собственную конфигурациюконфигурацию, создан в Шотландии. , создан в Шотландии. В основе В основе суперкомпьютерасуперкомпьютера — уже не обычные микропроцессоры,  — уже не обычные микропроцессоры, а так называемые «программируемые матрицы ключей», а так называемые «программируемые матрицы ключей», или или «программируемые логические матрицы» FPGA «программируемые логические матрицы» FPGA (Field Programmable Gate Array).(Field Programmable Gate Array).

Особенностью решения на базе FPGA является его Особенностью решения на базе FPGA является его исключительно высокая производительность на исключительно высокая производительность на некоторых задачахнекоторых задачах (по данным источника, прирост (по данным источника, прирост производительности может доходить до 10 -100 раз по производительности может доходить до 10 -100 раз по сравнению с обычными процессорами). Кроме того, сравнению с обычными процессорами). Кроме того, FPGA FPGA потребляют заметно меньше энергиипотребляют заметно меньше энергии. Так . Так компьютер компьютер производительностью 1 терафлоппроизводительностью 1 терафлоп, на 64 , на 64 вычислительных модуля на основе FPGAвычислительных модуля на основе FPGA будет будет потреблять лишь 1% энергии, потреблять лишь 1% энергии, требуемой требуемой суперкомпьютеру стандартной архитектуры с той же суперкомпьютеру стандартной архитектуры с той же производительностью.производительностью.

Page 40: Лекция №9 Организация ЭВМ и систем

Конфигурацию устройств FPGA можно менять Конфигурацию устройств FPGA можно менять программным образом, что дает возможность программным образом, что дает возможность «настраивать» вычислительную систему для решения «настраивать» вычислительную систему для решения конкретной задачиконкретной задачи — в отличие от микропроцессоров, — в отличие от микропроцессоров, которые представляют собой вычислительные устройства которые представляют собой вычислительные устройства с жесткой, раз и навсегда заданной конфигурацией. с жесткой, раз и навсегда заданной конфигурацией. Каждый чип FPGA включает блок программируемой Каждый чип FPGA включает блок программируемой логики, позволяющей менять схемотехнику устройства. логики, позволяющей менять схемотехнику устройства.

Основная проблема — это разработка Основная проблема — это разработка технологии, которая позволит технологии, которая позволит программировать их.программировать их.

Page 41: Лекция №9 Организация ЭВМ и систем

За небольшими компаниями, имеющими За небольшими компаниями, имеющими эффективные инновационные технологии, ведут эффективные инновационные технологии, ведут постоянную “охоту” компании – гиганты, стараясь их постоянную “охоту” компании – гиганты, стараясь их выкупить вместе с соответствующими выкупить вместе с соответствующими интеллектуальными активами, присоединив к себе. Так, интеллектуальными активами, присоединив к себе. Так, компания Cray в 2004 году приобрела небольшую компания Cray в 2004 году приобрела небольшую канадскую компанию OctigaBay, которая создала канадскую компанию OctigaBay, которая создала эффективные акселераторы приложений на базе эффективные акселераторы приложений на базе ПЛИСПЛИС VirtexII Pro. Компания VirtexII Pro. Компания Cray внедрила эти Cray внедрила эти акселераторы в свой суперкомпьютер XD1акселераторы в свой суперкомпьютер XD1, , использовав уже новые ПЛИС Xilinx Virtex-4 по 6 штук в использовав уже новые ПЛИС Xilinx Virtex-4 по 6 штук в каждой стойке системы XD1. Cray в новых каждой стойке системы XD1. Cray в новых суперкомпьютерах планирует подключать суперкомпьютерах планирует подключать вспомогательный DRC FPGA чип непосредственно в вспомогательный DRC FPGA чип непосредственно в сокет Opteron-процессора. Это создаст ряд преимуществ сокет Opteron-процессора. Это создаст ряд преимуществ для пользователей разъема CraySeaStar.для пользователей разъема CraySeaStar.

Page 42: Лекция №9 Организация ЭВМ и систем

22 марта 2007 года22 марта 2007 года

Специалисты Эдинбургского университета Специалисты Эдинбургского университета (Шотландия) завершили строительство (Шотландия) завершили строительство экспериментального суперкомпьютера с изменяемой экспериментального суперкомпьютера с изменяемой архитектурой. Вычислительная система, как сообщает архитектурой. Вычислительная система, как сообщает ZDNet, получила название Maxwell.ZDNet, получила название Maxwell.

В суперкомпьютере Maxwell вместо традиционных В суперкомпьютере Maxwell вместо традиционных микропроцессоров используются перепрограммируемые микропроцессоров используются перепрограммируемые логические интегральные схемы (FPGA). Конфигурацию логические интегральные схемы (FPGA). Конфигурацию FPGA можно менять при помощи специализированных FPGA можно менять при помощи специализированных программных средств, адаптируя таким образом систему программных средств, адаптируя таким образом систему для решения строго определенных задач. Правда, для решения строго определенных задач. Правда, перепрограммирование суперкомпьютера на базе FPGA перепрограммирование суперкомпьютера на базе FPGA представляет собой очень сложный процесс, что представляет собой очень сложный процесс, что затрудняет коммерческое использование подобных затрудняет коммерческое использование подобных комплексов.комплексов.

Page 43: Лекция №9 Организация ЭВМ и систем

По словам Марка Парсонса, руководителя проекта По словам Марка Парсонса, руководителя проекта Maxwell, в процессе тестирования экспериментальная Maxwell, в процессе тестирования экспериментальная система использовалась для проведения сложных система использовалась для проведения сложных расчетов в финансовой и медицинской сферах. При этом расчетов в финансовой и медицинской сферах. При этом комплекс продемонстрировал в 300 раз более комплекс продемонстрировал в 300 раз более высокую производительность и в 10 раз меньшее высокую производительность и в 10 раз меньшее энергопотребление по сравнению со стандартными энергопотребление по сравнению со стандартными вычислительными центрами.вычислительными центрами.

Разработка Разработка суперкомпьютера суперкомпьютера Maxwell длилась два Maxwell длилась два года и обошлась в семь миллионов долларов США.года и обошлась в семь миллионов долларов США. Помощь в создании специализированных средств Помощь в создании специализированных средств программирования шотландским ученым оказывали программирования шотландским ученым оказывали исследователи альянса FHPCA (FPGA High Performance исследователи альянса FHPCA (FPGA High Performance Computing Alliance). Парсонс считает, что в течение Computing Alliance). Парсонс считает, что в течение ближайших двух-трех лет интерес к вычислительным ближайших двух-трех лет интерес к вычислительным комплексам на основе перепрограммируемых логических комплексам на основе перепрограммируемых логических интегральных схем может существенно вырасти. Кстати, интегральных схем может существенно вырасти. Кстати, схемы FPGA уже используют в своей продукции схемы FPGA уже используют в своей продукции некоторые компании, в частности, Cray.некоторые компании, в частности, Cray.

Page 44: Лекция №9 Организация ЭВМ и систем

Описание FPGA-суперкомпьютера Описание FPGA-суперкомпьютера MaxwellMaxwell

Maxwell является высокопроизводительным Maxwell является высокопроизводительным реконфигурируемым компьютером, разработанным реконфигурируемым компьютером, разработанным альянсом FHPCA для демонстрации возможностей альянсом FHPCA для демонстрации возможностей создания вычислительных приложений на базе ПЛИС-создания вычислительных приложений на базе ПЛИС-технологий.технологий.

Физически Maxwell Физически Maxwell состоит из 32 блейд-серверовсостоит из 32 блейд-серверов, , управляемых при помощи IBM Blade Center. Каждый управляемых при помощи IBM Blade Center. Каждый сервер содержит одинсервер содержит один обычный процессор обычный процессор Intel XeonIntel Xeon с с тактовой частотой тактовой частотой 2.8 ГГц с 1 ГБ ОЗУ2.8 ГГц с 1 ГБ ОЗУ, а также , а также 2 ПЛИС-2 ПЛИС-платыплаты различных типов. Один тип ПЛИС-платы различных типов. Один тип ПЛИС-платы разрабатывается фирмой Alpha Data, а другой - фирмой разрабатывается фирмой Alpha Data, а другой - фирмой Nallatech (обе входят в состав FHPCA). Nallatech (обе входят в состав FHPCA). Платы сделаны Платы сделаны на основе ПЛИС Xilinx Virtex-4на основе ПЛИС Xilinx Virtex-4 и соединяются с основным и соединяются с основным процессором при помощи интерфейса IBM PCI-X (не процессором при помощи интерфейса IBM PCI-X (не путать с PCI Express!). Платы Alpha Data ADM-XRC-4FX путать с PCI Express!). Платы Alpha Data ADM-XRC-4FX содержат содержат 16 МБ статической памяти и 1ГБ 16 МБ статической памяти и 1ГБ динамической памятидинамической памяти (на плату), в то время как платы (на плату), в то время как платы Nallatech H101Nallatech H101 содержат соответственно содержат соответственно 64 МБ и 512 МБ.64 МБ и 512 МБ.

Page 45: Лекция №9 Организация ЭВМ и систем

Описание FPGA-суперкомпьютера Описание FPGA-суперкомпьютера MaxwellMaxwell

УзлыУзлы суперкомпьютера Maxwell суперкомпьютера Maxwell объединеныобъединены двумя двумя типами вычислительных сетей. С одной стороны, это типами вычислительных сетей. С одной стороны, это стандартная сеть Gigabit Ethernetстандартная сеть Gigabit Ethernet, которая соединяет , которая соединяет обычные процессоры и по которой, в частности, в этом обычные процессоры и по которой, в частности, в этом кластере работает MPI. С другой стороны, это кластере работает MPI. С другой стороны, это соединяющая ПЛИС-платы соединяющая ПЛИС-платы сеть RocketIOсеть RocketIO. Она соединяет . Она соединяет все платы в системе все платы в системе по топологии двумерного тора со по топологии двумерного тора со скоростью 3.125 Гбит/канал.скоростью 3.125 Гбит/канал.

Page 46: Лекция №9 Организация ЭВМ и систем
Page 47: Лекция №9 Организация ЭВМ и систем

Примеры программПримеры программ

На Maxwell решались три типа задач. На Maxwell решались три типа задач. Во-первых, это задача оценки цены опционов при Во-первых, это задача оценки цены опционов при

помощи метода Монте-Карло ("Опционы Монте-Карло").помощи метода Монте-Карло ("Опционы Монте-Карло").Во-вторых, это задача построения трехмерных Во-вторых, это задача построения трехмерных

изображений по набору стереоснимков или стереовидео изображений по набору стереоснимков или стереовидео ("Построение изображений"). ("Построение изображений").

Наконец, третья задача ("Поиск нефти и газа") - это Наконец, третья задача ("Поиск нефти и газа") - это решение на ПЛИС обратной задачи поиска месторождений решение на ПЛИС обратной задачи поиска месторождений нефти и газа на основе электромагнитного зондирования. нефти и газа на основе электромагнитного зондирования. Для каждой задачи приведены затраты на разработку Для каждой задачи приведены затраты на разработку (большую часть его составляет именно написание (большую часть его составляет именно написание прошивок для ПЛИС). Для каждой задачи также прошивок для ПЛИС). Для каждой задачи также сравниваются времена ее счета: обычный кластер из N сравниваются времена ее счета: обычный кластер из N процессоров против системы из N ПЛИС-ов (ЦП в этом процессоров против системы из N ПЛИС-ов (ЦП в этом случае не используется для расчетов). случае не используется для расчетов).

http://fpga.parallel.ru/maxwell.htmlhttp://fpga.parallel.ru/maxwell.html

Page 48: Лекция №9 Организация ЭВМ и систем

ЗадачаЗадача Время Время разработкиразработки

УскорениеУскорение

Опционы Монте-Опционы Монте-КарлоКарло

несколько несколько человеко-недельчеловеко-недель

х109 - х322 х109 - х322 (разные для (разные для разных типов разных типов ПЛИС) ПЛИС)

Построение Построение изображений изображений (Image-Based (Image-Based Rendering)Rendering)

6 человеко-6 человеко-месяцевмесяцев

х2.52 (один узел, х2.52 (один узел, включая включая пересылку пересылку данных, без - данных, без - х3.6), х2 (8 узлов) х3.6), х2 (8 узлов)

Поиск нефти и Поиск нефти и газагаза

12 человеко-12 человеко-месяцевмесяцев

х4.83 (8 узлов) х4.83 (8 узлов)

Page 49: Лекция №9 Организация ЭВМ и систем

Продолжение лекции

Page 50: Лекция №9 Организация ЭВМ и систем

Технологии параллельного Технологии параллельного программированияпрограммирования

Средства программированияСредства программирования: параллельные : параллельные расширения и диалекты языков – расширения и диалекты языков – Fortran, C/C++, ADAFortran, C/C++, ADA и и др.др.

MPI – MPI – интерфейс передачи сообщенийинтерфейс передачи сообщений..Особенности:Особенности:Поддерживает несколько режимов передачи данных.Поддерживает несколько режимов передачи данных.Предусматривает гетерогенные вычисления.Предусматривает гетерогенные вычисления.Передача типизированных сообщений.Передача типизированных сообщений.Построение библиотек – Построение библиотек – MPICH, LAM MPIMPICH, LAM MPI..Наличие вариантов для языков программирования Наличие вариантов для языков программирования

C/C++, Fortran.C/C++, Fortran.Поддерживает коллективные операции: Поддерживает коллективные операции:

широковещательную передачу, разборкушироковещательную передачу, разборку//сборку, операции сборку, операции редукции.редукции.

Совместимость с многопоточностью.Совместимость с многопоточностью.

Page 51: Лекция №9 Организация ЭВМ и систем

    Национальные и международные Национальные и международные проекты - МЕТАКОМПЬЮТИНГпроекты - МЕТАКОМПЬЮТИНГ

Наиболее известные глобальные проекты, связанные с Наиболее известные глобальные проекты, связанные с вычислительными сетями нового поколения - GRID. вычислительными сетями нового поколения - GRID.

CrossGrid - Европейский исследовательский проект, Европейский исследовательский проект, разрабатываемый в тесном сотрудничестве с разрабатываемый в тесном сотрудничестве с European DataGrid. .

DataGrid - Проект DataGrid основан Европейским Проект DataGrid основан Европейским Сообществом. Сообществом.

European Grid of Solar Observations (EGSO) - Европейский Европейский проект, работающий в сотрудничестве с NASA.проект, работающий в сотрудничестве с NASA.

EUROGRID - Исследовательский проект, созданный в Исследовательский проект, созданный в рамках европейской программы IST (Information Society рамках европейской программы IST (Information Society Technologies).Technologies).

NEESgrid - Проект NEESgrid поддерживается программой Проект NEESgrid поддерживается программой NEES (Network for Earthquake Engineering Simulation) NEES (Network for Earthquake Engineering Simulation) Национального Научного Фонда (NSF) США.Национального Научного Фонда (NSF) США.

TeraGrid - Проект TeraGrid, созданный объединенными Проект TeraGrid, созданный объединенными усилиями нескольких университетов и лабораторий США в 2001 усилиями нескольких университетов и лабораторий США в 2001 г. при поддержке фонда.г. при поддержке фонда.

Page 52: Лекция №9 Организация ЭВМ и систем

Оценки производительности суперЭВМОценки производительности суперЭВМ

Большинство оценочных характеристик Большинство оценочных характеристик производительности суперЭВМ связано с производительности суперЭВМ связано с вычислениями над вещественными числами.вычислениями над вещественными числами. К ним К ним относится относится пиковая производительностьпиковая производительность (ПП) (ПП), , измеряемая в млн. операций с плавающей точкой, которые измеряемая в млн. операций с плавающей точкой, которые компьютер теоретически может выполнить за 1 сек компьютер теоретически может выполнить за 1 сек ((MFLOPSMFLOPS).).

ПП - величина, практически не достижимая. Это ПП - величина, практически не достижимая. Это связано с проблемами заполнения функциональных связано с проблемами заполнения функциональных конвейерных устройств. Чем больше конвейер, тем больше конвейерных устройств. Чем больше конвейер, тем больше надо "инициализационного" времени для того, чтобы его надо "инициализационного" времени для того, чтобы его заполнить. Такие конвейеры эффективны при работе с заполнить. Такие конвейеры эффективны при работе с длинными векторами. Поэтому для оценки векторных длинными векторами. Поэтому для оценки векторных суперЭВМ было введено такое понятие, как суперЭВМ было введено такое понятие, как длина длина полупроизводительностиполупроизводительности - - длина вектора, при которой длина вектора, при которой достигается половина пиковой производительностидостигается половина пиковой производительности..

Page 53: Лекция №9 Организация ЭВМ и систем

Более Более реальные оценки производительности реальные оценки производительности базируются на временах выполнения различных базируются на временах выполнения различных тестовтестов. Поскольку большую часть времени выполнения . Поскольку большую часть времени выполнения программ обычно занимают циклы, иногда именно они программ обычно занимают циклы, иногда именно они применяются в качестве тестов, например, известные применяются в качестве тестов, например, известные ливерморские циклыливерморские циклы. .

Ливерморские циклыЛиверморские циклы - - это набор фрагментов это набор фрагментов фортран-программ, каждый из которых взят из фортран-программ, каждый из которых взят из реальных программных систем, эксплуатируемых в реальных программных систем, эксплуатируемых в Ливерморской национальной лаборатории им. Ливерморской национальной лаборатории им. Лоуренса (США).Лоуренса (США). В этих фрагментах используются В этих фрагментах используются различные вычислительные алгоритмы: сеточные, различные вычислительные алгоритмы: сеточные, последовательные, волновые, что существенно с точки последовательные, волновые, что существенно с точки зрения соответствия вычислительных и аппаратных зрения соответствия вычислительных и аппаратных структур. Соответствие этих структур друг другу должно структур. Соответствие этих структур друг другу должно обеспечить максимальную эффективность вычислений. обеспечить максимальную эффективность вычислений.

Page 54: Лекция №9 Организация ЭВМ и систем

При проведении тестовых испытаний может При проведении тестовых испытаний может использоваться либо набор из 14 циклов (малый набор), использоваться либо набор из 14 циклов (малый набор), либо набор их 24 циклов (большой набор). При либо набор их 24 циклов (большой набор). При использовании векторных и параллельных машин важным использовании векторных и параллельных машин важным фактором, определяющим эффективность работы для фактором, определяющим эффективность работы для конкретного приложения, является конкретного приложения, является коэффициент коэффициент векторизуемости алгоритмавекторизуемости алгоритма. На "Ливерморских циклах" . На "Ливерморских циклах" этот коэффициент составляет от 0 до 100% , что этот коэффициент составляет от 0 до 100% , что подтверждает возможность их применения для широкого подтверждает возможность их применения для широкого круга вычислительных систем.круга вычислительных систем.

Наиболее популярным тестом производительности Наиболее популярным тестом производительности является Linpack, который представляет собой является Linpack, который представляет собой решение системы решение системы NN линейных уравнений методом линейных уравнений методом ГауссаГаусса. . В основеВ основе используемых в LINPACK алгоритмов используемых в LINPACK алгоритмов лежит метод декомпозиции - лежит метод декомпозиции - исходная матрица исходная матрица представляется в виде произведения двух матриц представляется в виде произведения двух матриц стандартной структуры,стандартной структуры, к которому собственно и к которому собственно и применяется алгоритм нахождения решения.применяется алгоритм нахождения решения.

Page 55: Лекция №9 Организация ЭВМ и систем

Важной особенность системы LINPACK - ее Важной особенность системы LINPACK - ее структурированность.структурированность. В частности, выделяется базовый В частности, выделяется базовый уровень системы, предназначенный для реализации уровень системы, предназначенный для реализации элементарных операций над векторами, куда входят элементарных операций над векторами, куда входят подпрограммы умножения векторов на скаляр и сложения подпрограммы умножения векторов на скаляр и сложения векторов, а также скалярного произведения векторов. Этот векторов, а также скалярного произведения векторов. Этот уровень называется BLAS (Basic Linear Algebra уровень называется BLAS (Basic Linear Algebra Subprograms). Все операции выполняются над Subprograms). Все операции выполняются над вещественными числами двойной точности, а результат вещественными числами двойной точности, а результат измерения выражается в MFLOPS.измерения выражается в MFLOPS.

Сегодня используются два уровня тестаСегодня используются два уровня теста: : LINPACK DP - для исходной матрицы размером LINPACK DP - для исходной матрицы размером 100 х 100 х

100100 и LINPACK TPP - для матрицы размером и LINPACK TPP - для матрицы размером 1000 х 10001000 х 1000. .

Page 56: Лекция №9 Организация ЭВМ и систем

При этом следует обратить внимание, что для многих При этом следует обратить внимание, что для многих современных вычислительных систем первый уровень современных вычислительных систем первый уровень этого теста может дать заведомо превосходящие этого теста может дать заведомо превосходящие возможности системы результаты за счет того, что возможности системы результаты за счет того, что исходная исходная матрица размером 100х100 может быть матрица размером 100х100 может быть целиком размещена в кэш-памятицеликом размещена в кэш-памяти. Использование теста . Использование теста LINPACK TPP пока снимает эту проблему, однако даже и LINPACK TPP пока снимает эту проблему, однако даже и этот тест для систем с массовым параллелизмом не может этот тест для систем с массовым параллелизмом не может быть использован. Для таких систем рекомендуется быть использован. Для таких систем рекомендуется использовать тест LINPACK HPC (Highly Parallel использовать тест LINPACK HPC (Highly Parallel Computing), который позволяет полностью загрузить Computing), который позволяет полностью загрузить вычислительные ресурсы MPP-системы, увеличивая вычислительные ресурсы MPP-системы, увеличивая размеры матрицы.размеры матрицы.

Для MPP-систем более интересным является Для MPP-систем более интересным является тест тест Linpack-parallelLinpack-parallel, в котором производительность , в котором производительность измеряется измеряется при больших при больших NN и числе процессоров и числе процессоров..

Page 57: Лекция №9 Организация ЭВМ и систем

Для высокопараллельных суперкомпьютеров в Для высокопараллельных суперкомпьютеров в последнее время все больше используются последнее время все больше используются тесты NAS тесты NAS parallel benchmark.parallel benchmark. Эта система состоит из пяти так Эта система состоит из пяти так называемых, тестов NAS kernel benchmark, и трех называемых, тестов NAS kernel benchmark, и трех тестов, основанных на реальных задачах тестов, основанных на реальных задачах аэродинамического моделирования.аэродинамического моделирования. Три последних Три последних теста считаются наиболее перспективными для теста считаются наиболее перспективными для определения производительности систем MPP - в определения производительности систем MPP - в особенности для класса вычислительных задач.особенности для класса вычислительных задач. Их Их недостатком является фиксация алгоритма решения, а не недостатком является фиксация алгоритма решения, а не текста программы. текста программы.

Page 58: Лекция №9 Организация ЭВМ и систем

TOP500TOP500

TOP500 — TOP500 — проект по составлению рейтинга и проект по составлению рейтинга и описаний 500 самых мощных общественно известных описаний 500 самых мощных общественно известных компьютерных систем мира.компьютерных систем мира. Этот проект направлен на Этот проект направлен на обеспечение надёжной основы для выявления и обеспечение надёжной основы для выявления и отслеживания тенденций в области отслеживания тенденций в области высокопроизводительных вычислений. высокопроизводительных вычислений.

В начале 1990-х годов возникла необходимость В начале 1990-х годов возникла необходимость получения сравнительных характеристик и метрик получения сравнительных характеристик и метрик суперкомпьютеров. После экспериментов 1992 года с суперкомпьютеров. После экспериментов 1992 года с метриками, основанными на количестве процессоров, в метриками, основанными на количестве процессоров, в университете Мангейма возникла идея сравнивать все университете Мангейма возникла идея сравнивать все подсистемы суперкомпьютеров. В начале 1993 года Джек подсистемы суперкомпьютеров. В начале 1993 года Джек Донгарра был убеждён принять участие в этом проекте со Донгарра был убеждён принять участие в этом проекте со своим тестом Linpack. своим тестом Linpack.

Page 59: Лекция №9 Организация ЭВМ и систем

Первая версия теста была готова в мае 1993 года. Она Первая версия теста была готова в мае 1993 года. Она частично была основана на данных доступных в сети, частично была основана на данных доступных в сети, включая источники:включая источники:

Статистика по суперкомпьютерам Мангейма 1986—Статистика по суперкомпьютерам Мангейма 1986—1992 1992

Список Самых Мощных Мировых Вычислительных Список Самых Мощных Мировых Вычислительных Узлов обновляемого Гюнтером Арендтом Узлов обновляемого Гюнтером Арендтом

Огромное количество информации от Дэвида Огромное количество информации от Дэвида Кехнера. Кехнера.

Информация из этих источников использовалась для Информация из этих источников использовалась для создания первых двух списков TOP500. создания первых двух списков TOP500. С июня 1993 С июня 1993 TOP500 составляется два раза в год (1-Июнь, 2-Ноябрь) и TOP500 составляется два раза в год (1-Июнь, 2-Ноябрь) и основывается только на информации от узлов сети и основывается только на информации от узлов сети и производителей.производителей.

Page 60: Лекция №9 Организация ЭВМ и систем

Общая вычислительная мощность 500 наиболее мощных компьютерных систем в мире с 1993 по 2008 год.

Page 61: Лекция №9 Организация ЭВМ и систем

В ноябре 2008 годаВ ноябре 2008 года состоялась очередная, тридцать состоялась очередная, тридцать вторая конференция SCO 2008, в ходе которой был вторая конференция SCO 2008, в ходе которой был обнародован новый список самых производительных обнародован новый список самых производительных суперкомпьютеров на текущий момент. Впервые за долгое суперкомпьютеров на текущий момент. Впервые за долгое время за первое место боролись две системы от время за первое место боролись две системы от различных производителей – IBM Roadrunner, лидер различных производителей – IBM Roadrunner, лидер предыдущего Top500, и модернизированный Cray XT5 предыдущего Top500, и модернизированный Cray XT5 Jaguar. Jaguar.

Победителем из этой схватки вышел более «опытный» Победителем из этой схватки вышел более «опытный» IBM RoadrunnerIBM Roadrunner. . Производительность лидера Производительность лидера составила 1,105 петафлопс. составила 1,105 петафлопс.

Производительность Cray XT5 Jaguar - 1,059 Производительность Cray XT5 Jaguar - 1,059 петафлопс в тестовом приложении Linpackпетафлопс в тестовом приложении Linpack. .

Page 62: Лекция №9 Организация ЭВМ и систем

Из 500 самых мощных в мире суперкомпьютеров, Из 500 самых мощных в мире суперкомпьютеров, представленных в 32-м выпуске списка TOP500, восемь представленных в 32-м выпуске списка TOP500, восемь являются российскими.являются российскими. А семь из них представляют собой А семь из них представляют собой системы на базе процессоров Intel. Более того, два из них системы на базе процессоров Intel. Более того, два из них включены в другой, более узкий круг – TOP100.включены в другой, более узкий круг – TOP100.

35-е (1-е в России) место35-е (1-е в России) место - - Межведомственный Межведомственный суперкомпьютерный центр Российской Академии науксуперкомпьютерный центр Российской Академии наук.. Система реализована на базе платформы HP (Hewlett-Система реализована на базе платформы HP (Hewlett-Packard) 3000 BL460c/BL2x220. Суперкомпьютер Packard) 3000 BL460c/BL2x220. Суперкомпьютер представлен 7920 ядрами процессоров представлен 7920 ядрами процессоров Intel XeonIntel Xeon серии серии E5450 и 5365 с рабочей тактовой частотой 3 ГГц. Он E5450 и 5365 с рабочей тактовой частотой 3 ГГц. Он построен в 2008 году и работает под управлением ОС построен в 2008 году и работает под управлением ОС Linux.Linux.

54-е (2-е в России) место54-е (2-е в России) место - - суперкомпьютерсуперкомпьютер Научно- Научно-исследовательского вычислительного центра исследовательского вычислительного центра Московского Московского государственного университетагосударственного университета им. М.В. Ломоносова. им. М.В. Ломоносова. Это Это «СКИФ»«СКИФ» Т60 (5000 процессорных ядер), построенный в Т60 (5000 процессорных ядер), построенный в 2008 году на базе четырехядерных 2008 году на базе четырехядерных Intel Xeon E5472Intel Xeon E5472 (тактовая частота 3 ГГц), работающих под CentOS.(тактовая частота 3 ГГц), работающих под CentOS.

Page 63: Лекция №9 Организация ЭВМ и систем

119-е (3-е в России) место119-е (3-е в России) место - система Российского - система Российского научного центра «Курчатовский институт» – научного центра «Курчатовский институт» – суперкомпьютер на базе платформы HP 3000 BL460c, суперкомпьютер на базе платформы HP 3000 BL460c, построенный тоже в 2008 году и представленный 3456 построенный тоже в 2008 году и представленный 3456 ядрами процессоров ядрами процессоров Intel Xeon 5335Intel Xeon 5335, работающими на , работающими на тактовой частоте 2,33 ГГц под управлением Linux.тактовой частоте 2,33 ГГц под управлением Linux.

371-е (4-е в России) место 371-е (4-е в России) место – – кластер Уфимского кластер Уфимского Авиационного технического университетаАвиационного технического университета, созданный , созданный на платформе IBM BladeCenter HS21 из 2128 ядер на платформе IBM BladeCenter HS21 из 2128 ядер четырехядерных процессоров четырехядерных процессоров Intel Xeon 5335Intel Xeon 5335 (2,33 ГГц). (2,33 ГГц). Он также работает под Linux.Он также работает под Linux.

433-е (5-е в России) место433-е (5-е в России) место - - система Вятского система Вятского государственного университетагосударственного университета, созданная на , созданная на платформе HP 3000 BL460c, построенному в нынешнем платформе HP 3000 BL460c, построенному в нынешнем году из 1920 ядер процессоров году из 1920 ядер процессоров Intel Xeon 5335Intel Xeon 5335, которые , которые работают на тактовой частоте 2,33 ГГц под управлением работают на тактовой частоте 2,33 ГГц под управлением Linux.Linux.

Page 64: Лекция №9 Организация ЭВМ и систем

451-е (6-е в России) место451-е (6-е в России) место – кластер «Росгидромета», – кластер «Росгидромета», созданный на платформе SGI Altix ICE 8200 (прежнее созданный на платформе SGI Altix ICE 8200 (прежнее название Silicon Graphics, Inc.). Эта система базируется на название Silicon Graphics, Inc.). Эта система базируется на четырехядерных процессорах четырехядерных процессорах Intel Xeon E5440Intel Xeon E5440 (работают (работают на тактовой частоте 2,83 ГГц) — суммарно 1416 на тактовой частоте 2,83 ГГц) — суммарно 1416 вычислительных ядер. Операционная среда кластера — вычислительных ядер. Операционная среда кластера — SLES10+SGI.SLES10+SGI.

483-е (7-е в России) место 483-е (7-е в России) место - кластер Красноярского - кластер Красноярского Сибирского федерального университета. Он построен из Сибирского федерального университета. Он построен из компонентов IBM BladeCenter HS21, представлен 1808 компонентов IBM BladeCenter HS21, представлен 1808 ядрами процессоров ядрами процессоров Intel Xeon 5335Intel Xeon 5335 (2,33 ГГц) и работает (2,33 ГГц) и работает под управлением ОС Linux.под управлением ОС Linux.

Page 65: Лекция №9 Организация ЭВМ и систем

Суммарная производительность российских Суммарная производительность российских суперкомпьютеровсуперкомпьютеров составляет составляет 286 терафлопс286 терафлопс и и демонстрирует 25-процентный прирост быстродействия по демонстрирует 25-процентный прирост быстродействия по сравнению с данными рейтинга TOP500, представленными сравнению с данными рейтинга TOP500, представленными в июне 2008 года. в июне 2008 года.

Все упомянутые системы работают на нужды Все упомянутые системы работают на нужды российских государственных структур, научных центров, российских государственных структур, научных центров, высшей школы, промышленных предприятий. высшей школы, промышленных предприятий.

Три четверти всех суперкомпьютеров, входящих в Три четверти всех суперкомпьютеров, входящих в список TOP500, и 90% суммарной мощности систем список TOP500, и 90% суммарной мощности систем списка реализовано на основе четырехядерных списка реализовано на основе четырехядерных процессоров Intel Xeon в составе блейд-серверовпроцессоров Intel Xeon в составе блейд-серверов..

Page 66: Лекция №9 Организация ЭВМ и систем

Из 500 систем Из 500 систем 209209 (41,8%) изготовлены (41,8%) изготовлены специалистами специалистами HPHP. . IBMIBM находится на втором находится на втором месте с месте с 186186 машинами, а машинами, а CrayCray – на третьем с – на третьем с 2222 суперкомпьютерами, но суперкомпьютерами, но сразу три ее системы сразу три ее системы попали в список десяти попали в список десяти самых мощных самых мощных компьютеров, помимо компьютеров, помимо упомянутого выше Cray упомянутого выше Cray XT5 Jaguar высокие XT5 Jaguar высокие позиции заняли Cray XT4 позиции заняли Cray XT4 Franklin и Cray XT4 Jaguar Franklin и Cray XT4 Jaguar (седьмое и восьмое место (седьмое и восьмое место соответственно). соответственно).

Page 67: Лекция №9 Организация ЭВМ и систем

Статистика суперкомпьютеров по странам на 2009 год:Статистика суперкомпьютеров по странам на 2009 год:291 – 291 – США;США;45 – Великобритания; 45 – Великобритания; 26 – Франция;26 – Франция;24 – Германия; 24 – Германия; 18 – 18 – ЯпонияЯпония;;15 – Китай; 15 – Китай; 8 – 8 – Россия.Россия.

Page 68: Лекция №9 Организация ЭВМ и систем

Система IBM возглавляет рейтинговый список суперкомпьютеров TOP500 рекордный десятый год подряд.

АРМОНК, штат Нью-Йорк, 23 июня 2009 г. Система IBM, созданная для «проекта Roadrunner»

и развернутая в Лос-Аламосской национальной лаборатории (Los Alamos National Lab) – которая первой в мире продемонстрировала способность работать со скоростями, превышающими один квадрильон вычислений в секунду (петафлопс) – остается мировым чемпионом по быстродействию.

IBM также объявила о своем намерении превзойти петафлопный барьер и сообщила о создании исследовательской «коллаборатории» (от слова коллаборация – международное [научное] сотрудничество) в Дублине в партнерстве с Министерством промышленного развития Ирландии.

Page 69: Лекция №9 Организация ЭВМ и систем

Эта совместная инициатива направлена на достижение уровня вычислительной мощности, характеризуемого термином "exascale computing" («вычисления со скоростями порядка экзафлопс»), и разработку прикладных решений для применения систем с подобной производительностью в бизнесе.

Экзафлопс (exaflops) обозначает миллион триллионов (квинтильон, 10 в 18-й степени в США и Канаде) вычислений в секунду – и это в 1000 раз быстрее любой современной системы петафлоп-класса.

Page 70: Лекция №9 Организация ЭВМ и систем

Среди других важных результатов рейтинга:20-петафлопсовая система IBM Sequoia в

первоначальной конфигурации, поставляемой в Ливерморскую национальную лабораторию им. Лоуренса, дебютировала в рейтинговом списке на 9-ой позиции.

Система IBM Blue Gene/P (№3 в списке; показатель производительности 825 терафлопс), установленная в Forchungzentrum Juelich, Германия, является самым мощным суперкомпьютером в Европе.

14-ю позицию рейтинга занимает суперкомпьютер IBM Blue Gene/P из Научно-технологического университета имени короля Абдуллы (King Abdullah University of Science and Technology) в Саудовской Аравии, который с показателем производительности 185 терафлопс стал самой мощной вычислительной системой на Ближнем Востоке.

Page 71: Лекция №9 Организация ЭВМ и систем

Система IBM System x iDataPlex консорциума SciNet Университета Торонто (№16 в списке), показавшая производительность 168 терафлопс, является самым мощным суперкомпьютером в Канаде.

IBM опережает всех других поставщиков по совокупной производительности своих систем, вошедших в рейтинговый список TOP500, с почти 9 петафлопсами, что составляет 39,38% от общей производительности всех суперкомпьютеров из списка.

IBM также лидирует в рейтинге TOP10 с пятью своими системами, в рейтинге TOP50 – с 17-ю своими системами, и в рейтинге TOP100 – с 35-ю своими системами.

19-ть из 20-ти самых энергетически эффективных суперкомпьютеров в мире созданы в IBM.

Самые мощные суперкомпьютерные системы в Великобритании, Испании, Нидерландах, Италии, на Тайване, в Израиле, Болгарии, Словении и Сингапуре также поставляются IBM.

Page 72: Лекция №9 Организация ЭВМ и систем

Рейтинг по состоянию на ноябрь 2009В данной таблице представлена первая десятка 34-й

по счёту редакции списка Top500, опубликованного 17 ноября 2009 года на конференции SC09 в Портленде, США.

Россия по данным на ноябрь 2009 года занимает 8-10 Россия по данным на ноябрь 2009 года занимает 8-10 место по числу установленных систем наряду с Австрией место по числу установленных систем наряду с Австрией и Новой Зеландией. Лидируют по этому показателю США.и Новой Зеландией. Лидируют по этому показателю США.

Page 73: Лекция №9 Организация ЭВМ и систем

Первая десятка Top500 Первая десятка Top500 на ноябрь 2009 годана ноябрь 2009 года

№№ ФирмФирма а

ЭВМЭВМ Где Где установленустановлен

Стра-Стра-нана

ГодГод ЧислоЧислопроцессорныхпроцессорных ядерядер

11 CrayCray JaguarJaguar Окриджская Окриджская национальная национальная лаборатория лаборатория

США США 2009 2009 Cray XT5Cray XT5224162 224162 (Opteron)(Opteron)

22 IBM IBM RoadrunnerRoadrunner Лос-Лос-Аламосская Аламосская национальная национальная лабораториялаборатория

США США 2009 2009 BladeCenter BladeCenter QS22/LS21QS22/LS21122400122400,, (Cell/Opteron)(Cell/Opteron)

33 CrayCray KrakenKraken Национальный Национальный институт институт вычислительнвычислительных наук при ых наук при университете университете в Теннессив Теннесси

США США 20092009 Cray XT5Cray XT59892898928, , (Opteron)(Opteron)

Page 74: Лекция №9 Организация ЭВМ и систем

66 SGISGI PleiadesPleiades NASA/NASA/ИсследовательИсследовательский центр ский центр имени Эймсаимени Эймса

США США 20092009 SGI Altix SGI Altix ICE ICE 8200EX8200EX56320 56320 (Xeon)(Xeon)

77 IBM IBM Blue Blue Gene/LGene/L

Ливерморская Ливерморская национальная национальная лабораториялаборатория

США США 20072007 eServer eServer Blue Gene Blue Gene SolutionSolution212992212992, , (Power)(Power)

44 IBM IBM JUGENEJUGENE Юлихский Юлихский исследовательисследовательский центрский центр

ГерманиГерманияя

20092009 Blue Blue Gene/P Gene/P SolutionSolution

294912294912, , (Power)(Power)

55 NUDTNUDT Tianhe-ITianhe-I Национальный Национальный суперкомпьютесуперкомпьютерный центр рный центр (Тяньцзинь)(Тяньцзинь)

КНРКНР 20092009 NUDT NUDT TH-1TH-1

71680 71680 (Xeon) (Xeon)

Page 75: Лекция №9 Организация ЭВМ и систем

88 IBM IBM IntrepidIntrepid Аргоннская Аргоннская национальная национальная лабораториялаборатория

США США 20072007 Blue Blue Gene/P Gene/P SolutionSolution163840163840, , (Power)(Power)

99 SunSun RangerRanger Техасский Техасский вычислительнывычислительный центрй центр

США США 20082008 Sun Sun ConstellatiConstellation Systemon System6297662976, , (Opteron)(Opteron)

1010 SunSun

Red SkyRed Sky Национальная Национальная лаборатория лаборатория СандияСандия

США США 20092009 Sun Sun ConstellatiConstellation Systemon System41616 41616 (Xeon)(Xeon)

Page 76: Лекция №9 Организация ЭВМ и систем
Page 77: Лекция №9 Организация ЭВМ и систем

Intel Xeon

Page 78: Лекция №9 Организация ЭВМ и систем

Топ50 мощнейших компьютеров СНГ: Топ50 мощнейших компьютеров СНГ: анонс 12-ой редакции спискаанонс 12-ой редакции списка

30 марта 2010 г. было объявлено о выпуске 12-й редакции списка Тор50 самых мощных компьютеров России и СНГ. Лидером нового рейтинга стал суперкомпьютер «Ломоносов», разработанный и построенный российской компанией «Т-Платформы». Система обладает пиковой производительностью 414 Тфлопс, реальной — 350 Тфлопс, и занимает 12-е место в рейтинге мощнейших компьютеров мира. Помимо России подобные машины сегодня есть только в США, Германии и Китае.

Несмотря на столь высокую производительность, система обладает достаточно скромными габаритами по общемировым меркам: «Ломоносов» занимает площадь всего 252 квадратных метра.

Page 79: Лекция №9 Организация ЭВМ и систем

Добиться подобной вычислительной плотности позволили российские разработки: около 90% производительности компьютера обеспечивают блейд-системы T-Blade2, сконструированные инженерами «Т-Платформы» с нуля. Суперкомпьютер «Ломоносов» имеет гибридную архитектуру: в общей сложности в нем используется три типа вычислительных узлов, разработанных российской компанией, что позволяет получать высокую производительность максимально широкого спектра приложений.

Возможностями суперкомпьютерного комплекса Московского университета, основу которого составляет недавно введенный в строй суперкомпьютер «Ломоносов», сегодня пользуются более 250 научных групп, представляющих все основные подразделения МГУ.

Page 80: Лекция №9 Организация ЭВМ и систем

Направления фундаментальных исследований, требующих использования суперкомпьютерных вычислительных мощностей — это магнитная гидродинамика, гидро- и аэродинамика, квантовая химия, сейсмика, компьютерное моделирование лекарств, геология и науки о материалах, фундаментальные основы нанотехнологий, криптография и многое другое.

Суперкомпьютер «Ломоносов» вытеснил на второе место лидера предыдущей редакции рейтинга, систему МВС-100К, установленную в Межведомственном суперкомпьютерном центре РАН. Пиковая производительность этого суперкомпьютера составляет 140,16 Тфлопс, реальная — 107,4 Тфлопс.

Page 81: Лекция №9 Организация ЭВМ и систем

На третьем месте списка обосновался суперкомпьютер СКИФ «Чебышев» с пиковой производительностью 60 Тфлопс и реальной — 47,32 Тфлопс, установленный в МГУ им. М.В. Ломоносова.

Впервые в истории рейтинга все системы обладают производительностью от 1 Тфлопс: для попадания в текущий список потребовалась производительность 1,47 Тфлопс (в предыдущей редакции порог вхождения в рейтинг составлял 978 Гфлопс).

Что же касается областей применения суперкомпьютеров, то здесь существенных изменений не произошло. Ненамного снизилась доля систем, используемых в науке и образовании (с 31 до 28), а число суперкомпьютеров, использующихся для прикладных исследований, напротив, увеличилось (с 9 до 10). Возросло число систем, задействованных в сфере финансов (с 3 до 5), а вот доля систем, использующихся в промышленности, немного снизилась (с 6 до 5).

Page 82: Лекция №9 Организация ЭВМ и систем

Топ50 мощнейших компьютеров СНГ: Топ50 мощнейших компьютеров СНГ: анонс 20-ой редакции спискаанонс 20-ой редакции списка

01 апреля 2014 г. было объявлено о выпуске 20-й редакции списка Тор50 самых мощных компьютеров России и СНГ. Как и в прошлом году, лидером нового рейтинга стал суперкомпьютер «Ломоносов», разработанный и построенный российской компанией «Т-Платформы». Система обладает пиковой производительностью 1700 Тфлопс, реальной — 901 Тфлопс, и занимает 26-е место в рейтинге мощнейших компьютеров мира.

Page 83: Лекция №9 Организация ЭВМ и систем

18 июня 2012 года была опубликована 39-ая редакция 18 июня 2012 года была опубликована 39-ая редакция списка 500 наиболее мощных компьютеров мира Top500. списка 500 наиболее мощных компьютеров мира Top500.

На первом месте На первом месте списка оказался новый суперкомпьютер списка оказался новый суперкомпьютер Sequoia, построенный по архитектуре IBM BlueGene/Q. Sequoia, построенный по архитектуре IBM BlueGene/Q. Суперкомпьютер установлен в Lawrence Livermore National Суперкомпьютер установлен в Lawrence Livermore National Laboratory (США). Количество вычислительных ядер Laboratory (США). Количество вычислительных ядер компьютера составляет 1572864, а производительность на компьютера составляет 1572864, а производительность на тесте Linpack - 16.32 PFlop/s.тесте Linpack - 16.32 PFlop/s.

На второе место На второе место списка опустился суперкомпьютер K списка опустился суперкомпьютер K Computer, установленный в RIKEN Advanced Institute for Computer, установленный в RIKEN Advanced Institute for Computational Science (Япония), с производительностью на Computational Science (Япония), с производительностью на тесте Linpack 10.51 PFlop/s.тесте Linpack 10.51 PFlop/s.

На третьем месте На третьем месте списка оказался новый списка оказался новый суперкомпьютер Mira, построенный по архитектуре IBM суперкомпьютер Mira, построенный по архитектуре IBM BlueGene/Q, установленный в Argonne National Laboratory BlueGene/Q, установленный в Argonne National Laboratory (США), с производительностью на тесте Linpack 8.15 PFlop/s.(США), с производительностью на тесте Linpack 8.15 PFlop/s.

Page 84: Лекция №9 Организация ЭВМ и систем

На четвёртом месте На четвёртом месте списка оказался новый суперкомпьютер SuperMUC списка оказался новый суперкомпьютер SuperMUC производства IBM, установленный в Leibniz Rechenzentrum (Германия), производства IBM, установленный в Leibniz Rechenzentrum (Германия), с производительностью на тесте Linpack 2.90 PFlop/s.с производительностью на тесте Linpack 2.90 PFlop/s.

На пятое месте На пятое месте списка опустился суперкомпьютер Tianhe-1A, списка опустился суперкомпьютер Tianhe-1A, установленный в National Supercomputer Center, Tianjin (Китай), с установленный в National Supercomputer Center, Tianjin (Китай), с производительностью на тесте Linpack 2.57 PFlop/s.производительностью на тесте Linpack 2.57 PFlop/s.

На шестом месте На шестом месте списка оказался суперкомпьютер Jaguar производства списка оказался суперкомпьютер Jaguar производства Cray, установленный в Oak Ridge National Laboratory (США), чья Cray, установленный в Oak Ridge National Laboratory (США), чья производительность на тесте Linpack увеличилась до 1.94 PFlop/s.производительность на тесте Linpack увеличилась до 1.94 PFlop/s.

Последняя, 500-ая система в новой редакции списка была бы полгода Последняя, 500-ая система в новой редакции списка была бы полгода назад на 332-ом месте. Для того чтобы попасть в текущий список, назад на 332-ом месте. Для того чтобы попасть в текущий список, потребовалась производительность на тесте Linpack 60.8 TFlop/s потребовалась производительность на тесте Linpack 60.8 TFlop/s против 50.9 TFlop/s в ноябре. Суммарная производительность систем в против 50.9 TFlop/s в ноябре. Суммарная производительность систем в списке выросла за полгода с 74.2 PFlop/s до 123.4 PFlop/s.списке выросла за полгода с 74.2 PFlop/s до 123.4 PFlop/s.

Из коммуникационных технологий впервые наиболее популярной стала технология InfiniBand – 208 систем (в прошлом списке - 209), оттеснив на второе место Gigabit Ethernet - 207 систем (в прошлом списке – 224). Общая производительность систем на InfiniBand значительно бщая производительность систем на InfiniBand значительно превосходит общую производительность систем на Gigabit Ethernet превосходит общую производительность систем на Gigabit Ethernet (31.5 PFlop/s против 13.3 PFlop/s).(31.5 PFlop/s против 13.3 PFlop/s).

Page 85: Лекция №9 Организация ЭВМ и систем

Количество систем в списке, построенных на процессорах Количество систем в списке, построенных на процессорах Intel, несколько уменьшилось с 384 до 372. Процессоры AMD Intel, несколько уменьшилось с 384 до 372. Процессоры AMD Opteron используются в 63 системах (в ноябре - также 63). Уже Opteron используются в 63 системах (в ноябре - также 63). Уже 374 системы (310 в ноябре) используют процессоры, имеющие 6 374 системы (310 в ноябре) используют процессоры, имеющие 6 и более ядер. 57 систем используют ускорители или и более ядер. 57 систем используют ускорители или сопроцессоры (39 систем полгода назад). Среднее количество сопроцессоры (39 систем полгода назад). Среднее количество ядер на систему выросло за полгода с 18383 до 26866. ядер на систему выросло за полгода с 18383 до 26866.

По количеству установленных системПо количеству установленных систем , вошедших в , вошедших в список, традиционно лидируют IBM - 213 (223 в ноябре) и список, традиционно лидируют IBM - 213 (223 в ноябре) и Hewlett-Packard - 138 (141). По суммарной производительности Hewlett-Packard - 138 (141). По суммарной производительности системы IBM дают 47.6% (27.3% в ноябре), а системы HP - 9.9% системы IBM дают 47.6% (27.3% в ноябре), а системы HP - 9.9% (13.1%) от всего списка. Такую же долю общей (13.1%) от всего списка. Такую же долю общей производительности, как HP, показывают суперкомпьютеры производительности, как HP, показывают суперкомпьютеры производства Fujitsu - 9.9% (14.4%), далее идут производства Fujitsu - 9.9% (14.4%), далее идут суперкомпьютеры производства Cray - 8.9% (14.3%). суперкомпьютеры производства Cray - 8.9% (14.3%).

По географической принадлежности По географической принадлежности продолжает продолжает доминировать США - 252 системы (263 в прошлом списке), доминировать США - 252 системы (263 в прошлом списке), Европа чуть улучшила свои позиции - 106 систем против 103 Европа чуть улучшила свои позиции - 106 систем против 103 полгода назад, Азия также увеличила своё присутствие в списке полгода назад, Азия также увеличила своё присутствие в списке - 121 система (118).- 121 система (118).

Page 86: Лекция №9 Организация ЭВМ и систем

В данной редакции списка В данной редакции списка РоссияРоссия представлена 5 системами (в представлена 5 системами (в прошлой редакции списка было также 5). прошлой редакции списка было также 5).

На 22-ое место списка с 18-го опустился суперкомпьютер МГУ На 22-ое место списка с 18-го опустился суперкомпьютер МГУ "Ломоносов" производства компании "Т-Платформы", установленный в "Ломоносов" производства компании "Т-Платформы", установленный в Научно-исследовательском вычислительном центре МГУ имени Научно-исследовательском вычислительном центре МГУ имени М.В.Ломоносова, чья пиковая производительность увеличилась до 1.7 М.В.Ломоносова, чья пиковая производительность увеличилась до 1.7 PFlop/s, а производительность на тесте Linpack - до 901.9 TFlop/s.PFlop/s, а производительность на тесте Linpack - до 901.9 TFlop/s.

На 148-ое место с 107-го опустился суперкомпьютер MVS-100K На 148-ое место с 107-го опустился суперкомпьютер MVS-100K Hewlett-Packard Cluster Platform 3000 BL460c/BL2x220, установленный в Hewlett-Packard Cluster Platform 3000 BL460c/BL2x220, установленный в Межведомственном суперкомпьютерном центре РАН, чья Межведомственном суперкомпьютерном центре РАН, чья производительность на тесте Linpack выросла до 119.9 TFlop/s.производительность на тесте Linpack выросла до 119.9 TFlop/s.

На 182-ое место с 119-го опустился суперкомпьютер Hewlett-Packard На 182-ое место с 119-го опустился суперкомпьютер Hewlett-Packard Cluster Platform 3000 BL2x220, установленный в РНЦ Курчатовский Cluster Platform 3000 BL2x220, установленный в РНЦ Курчатовский институт, с производительностью на тесте Linpack 101.21 TFlop/s.институт, с производительностью на тесте Linpack 101.21 TFlop/s.

На 185-ое место с 121-го опустился суперкомпьютер "СКИФ-Аврора", На 185-ое место с 121-го опустился суперкомпьютер "СКИФ-Аврора", установленный в Южно-Уральском государственном университете, с установленный в Южно-Уральском государственном университете, с производительностью на тесте Linpack 100.4 TFlop/s.производительностью на тесте Linpack 100.4 TFlop/s.

На 390-ом месте списка оказался суперкомпьютер Hewlett-Packard На 390-ом месте списка оказался суперкомпьютер Hewlett-Packard Cluster Platform SL390s G7, установленный в РНЦ Курчатовский институт, Cluster Platform SL390s G7, установленный в РНЦ Курчатовский институт, с производительностью на тесте Linpack 69.6 TFlop/s.с производительностью на тесте Linpack 69.6 TFlop/s.

Page 87: Лекция №9 Организация ЭВМ и систем

13 ноября 2012 года была опубликована 40-ая 13 ноября 2012 года была опубликована 40-ая редакция списка 500 наиболее мощных компьютеров редакция списка 500 наиболее мощных компьютеров мира Top500. мира Top500.

На первом месте списка оказался новый На первом месте списка оказался новый суперкомпьютер Titan Cray XK7, установленный в Oak Ridge суперкомпьютер Titan Cray XK7, установленный в Oak Ridge National Laboratory (США). Его пиковая производительность National Laboratory (США). Его пиковая производительность составляет 27.1 PFlop/s, а производительность на тесте составляет 27.1 PFlop/s, а производительность на тесте Linpack - 17.59 PFlop/s. Linpack - 17.59 PFlop/s.

На второе место списка опустился прежний лидер, На второе место списка опустился прежний лидер, суперкомпьютер Sequoia, построенный по архитектуре IBM суперкомпьютер Sequoia, построенный по архитектуре IBM BlueGene/Q, с производительностью на тесте Linpack 16.32 BlueGene/Q, с производительностью на тесте Linpack 16.32 PFlop/s. PFlop/s.

На третье место списка опустился суперкомпьютер K На третье место списка опустился суперкомпьютер K Computer, установленный в RIKEN Advanced Institute for Computer, установленный в RIKEN Advanced Institute for Computational Science (Япония), с производительностью на Computational Science (Япония), с производительностью на тесте Linpack 10.51 PFlop/s.тесте Linpack 10.51 PFlop/s.

Page 88: Лекция №9 Организация ЭВМ и систем

Всего в текущей редакции списка уже 23 системы с Всего в текущей редакции списка уже 23 системы с производительностью на тесте Linpack более 1 PFlop/s.производительностью на тесте Linpack более 1 PFlop/s.

Последняя, 500-ая система в новой редакции списка была Последняя, 500-ая система в новой редакции списка была бы полгода назад на 336-ом месте. Для того чтобы попасть бы полгода назад на 336-ом месте. Для того чтобы попасть в текущий список, потребовалась производительность на в текущий список, потребовалась производительность на тесте Linpack 76.5 TFlop/s против 60.8 TFlop/s в июне. тесте Linpack 76.5 TFlop/s против 60.8 TFlop/s в июне. Суммарная производительность систем в списке выросла Суммарная производительность систем в списке выросла за полгода со 123 PFlop/s до 162 PFlop/s.за полгода со 123 PFlop/s до 162 PFlop/s.

Самый производительный суперкомпьютер из России - Самый производительный суперкомпьютер из России - расположенный в МГУ "Ломоносов" - занял 26-е место с расположенный в МГУ "Ломоносов" - занял 26-е место с показателем максимальной производительности 1,7 показателем максимальной производительности 1,7 петафлопс (22-е место в июньском рейтинге). Всего в петафлопс (22-е место в июньском рейтинге). Всего в ноябрьский список Top500 вошло 8 российских ноябрьский список Top500 вошло 8 российских суперкомпьютеров, по сравнению с 5 машинами, суперкомпьютеров, по сравнению с 5 машинами, преодолевшими отборочный барьер в июне 2012 года.преодолевшими отборочный барьер в июне 2012 года.

Page 89: Лекция №9 Организация ЭВМ и систем

«Это первый случай с начала публикации рейтинга в 1993 году, когда первая десятка осталась без изменений», - отмечает редактор Top500 Эрик Штромайер.

Самый производительный суперкомпьютер из России - Самый производительный суперкомпьютер из России - расположенный в МГУ "Ломоносов" - занял 18-е место с расположенный в МГУ "Ломоносов" - занял 18-е место с показателем максимальной производительности 0,67 петафлопс показателем максимальной производительности 0,67 петафлопс (13-е место в июньском рейтинге). Лишь пять российских (13-е место в июньском рейтинге). Лишь пять российских суперкомпьютеров вошли в ноябрьский список Top500, по суперкомпьютеров вошли в ноябрьский список Top500, по сравнению с 12 машинами, преодолевшими отборочный барьер сравнению с 12 машинами, преодолевшими отборочный барьер в июне 2011 года. в июне 2011 года.

В числе последних тенденций суперкомпьютерной отрасли В числе последних тенденций суперкомпьютерной отрасли организаторы рейтинга отмечают усиление позиций Китая. Эта организаторы рейтинга отмечают усиление позиций Китая. Эта страна прочно утвердилась по числу систем в Top500 на втором страна прочно утвердилась по числу систем в Top500 на втором месте (первое остается за США), далеко обогнав Японию, месте (первое остается за США), далеко обогнав Японию, Великобританию, Францию и Германию. Кроме того заметен Великобританию, Францию и Германию. Кроме того заметен рост числа суперкомпьютеров с графическими ускорителями (39 рост числа суперкомпьютеров с графическими ускорителями (39 по сравнению с 17 в прошлом списке) и тенденция к по сравнению с 17 в прошлом списке) и тенденция к использованию многоядерных чипов (62% систем ноябрьского использованию многоядерных чипов (62% систем ноябрьского рейтинга используют процессоры с шестью и более рейтинга используют процессоры с шестью и более вычислительными ядрами). вычислительными ядрами).

Page 90: Лекция №9 Организация ЭВМ и систем

В июне 2013 года была опубликована 41-ая В июне 2013 года была опубликована 41-ая редакция списка 500 наиболее мощных редакция списка 500 наиболее мощных компьютеров мира Top500. компьютеров мира Top500.

https://parallel.ru/computers/top500.list41.htmlhttps://parallel.ru/computers/top500.list41.html

Page 91: Лекция №9 Организация ЭВМ и систем

В ноябре 2013 года была опубликована 42-ая В ноябре 2013 года была опубликована 42-ая редакция списка 500 наиболее мощных редакция списка 500 наиболее мощных компьютеров мира Top500. компьютеров мира Top500.

http://parallel.ru/computers/top500.list42.htmlhttp://parallel.ru/computers/top500.list42.html

Page 92: Лекция №9 Организация ЭВМ и систем

Сорок вторую редакцию обновляемого дважды в год Сорок вторую редакцию обновляемого дважды в год списка самых высокопроизводительных компьютеров в списка самых высокопроизводительных компьютеров в мире возглавил кластер Tianhe-2, работающий в мире возглавил кластер Tianhe-2, работающий в национальном суперкомпьютерном центре Китая. Tianhe-2 национальном суперкомпьютерном центре Китая. Tianhe-2 включает в себя 16 тысяч узлов, укомплектованных двумя включает в себя 16 тысяч узлов, укомплектованных двумя процессорами Intel Xeon IvyBridge и тремя процессорами процессорами Intel Xeon IvyBridge и тремя процессорами Xeon Phi, т.е. в сумме содержит более трёх миллионов Xeon Phi, т.е. в сумме содержит более трёх миллионов процессорных ядер. процессорных ядер.

Tianhe-2 достигает в тесте Linpack Tianhe-2 достигает в тесте Linpack производительности 33.86 petaflop/s, что почти в два раза производительности 33.86 petaflop/s, что почти в два раза больше, чем могут обеспечить занимающие второе и больше, чем могут обеспечить занимающие второе и третье места кластеры Titan (17.590 petaflop/s) и Sequoia третье места кластеры Titan (17.590 petaflop/s) и Sequoia (17.173 petaflop/s). Производительность одного Tianhe-2 (17.173 petaflop/s). Производительность одного Tianhe-2 близка к суммарной производительности всех систем, близка к суммарной производительности всех систем, представленных в 34 выпуске списка самых мощных представленных в 34 выпуске списка самых мощных суперкомпьютеров (ноябрь 2009 г).суперкомпьютеров (ноябрь 2009 г).

Page 93: Лекция №9 Организация ЭВМ и систем

Находящийся на Находящийся на втором месте втором месте кластер Titan используется кластер Titan используется в Национальной лабораторией Оук-Ридж (США). Titan в Национальной лабораторией Оук-Ридж (США). Titan построен компанией Cray и включает в себя 18688 16-построен компанией Cray и включает в себя 18688 16-ядерных процессоров Opteron 2.200GHz и столько же 14-ядерных процессоров Opteron 2.200GHz и столько же 14-ядерных вычислительных акселераторов на базе GPU NVIDIA ядерных вычислительных акселераторов на базе GPU NVIDIA Tesla K20x (общее число ядер CPU и GPU - 560640). Tesla K20x (общее число ядер CPU и GPU - 560640).

На На третьем месте третьем месте кластер Sequoia, внедрённый в кластер Sequoia, внедрённый в Ливерморской национальной лаборатории. Sequoia Ливерморской национальной лаборатории. Sequoia базируется на платформе IBM BlueGene/Q и содержит базируется на платформе IBM BlueGene/Q и содержит 1572864 ядер процессоров Power. 1572864 ядер процессоров Power. 

Самый производительный из Самый производительный из отечественныхотечественных кластеров кластеров Lomonosov за полгода переместился с 31 на 37 место в Lomonosov за полгода переместился с 31 на 37 место в рейтинге. Всего в Top500 вошло 5 отечественных рейтинге. Всего в Top500 вошло 5 отечественных суперкомпьютеров (в прошлом рейтинге было 8 суперкомпьютеров (в прошлом рейтинге было 8 отечественных систем). отечественных систем). 

Page 94: Лекция №9 Организация ЭВМ и систем
Page 95: Лекция №9 Организация ЭВМ и систем
Page 96: Лекция №9 Организация ЭВМ и систем

Экзафлопсный суперкомпьютер в Экзафлопсный суперкомпьютер в России: первые детали проектаРоссии: первые детали проекта04.02.11 г.

Межведомственная рабочая группа по развитию индустрии суперкомпьютеров в России и их применению в промышленности, возглавляемая гендиректором «Росатома» Сергеем Кириенко, организовала специальную группу, которая занялась разработкой концепции по развитию технологий высокопроизводительных вычислений на базе суперЭВМ экзафлопсного класса. Такая система будет способна выполнять свыше квинтиллиона операций в секунду (10 в 18 степени).

Концепция проекта предполагает поэтапное увеличение вычислительных мощностей "Росатома" - в десять раз каждые три года.

Page 97: Лекция №9 Организация ЭВМ и систем

Предварительно сроки выглядят следующим образом:

2011 г. – 1 Пфлопс,

2014 г. – 10 Пфлопс,

2017 г. – 100 Пфлопс,

2020 г. - 1 экзафлопс.

Как сообщает источник, по энергопотреблению системы разработчики рассчитывают уложиться в 20 МВт.

Разработку концепции планируется завершить к апрелю 2011 г. и представить на рассмотрение межведомственной рабочей группы.

Page 98: Лекция №9 Организация ЭВМ и систем

В РФЯЦ-ВНИИЭФ центре (федеральный ядерный центр в Сарове, входит в «Росатом») уже установлено несколько суперкомпьютеров, мощность самого крупного из которых составляет 1 Пфлопс. Сборку этого суперкомпьютера РФЯЦ-ВНИИЭФ осуществлял самостоятельно.

В 2010 г. институт передал 21 такую систему различным промышленным предприятиям, а в 2011 г. планирует передать 52 системы.

По мнению Сергея Абрамова, директора ИПС имени А.К. Айламазяна РАН, у специалистов ядерного центра накоплен большой опыт создания мощных вычислительных систем: «У РФЯЦ-ВНИИЭФ всегда были большие машины, очень часто, самые мощные по России и СНГ. Просто они нигде не «светились». У них много опытных образцов суперкомпьютерных платформ собственной разработки, и они были одними из первых, кто в России сделал достаточно крупную установку на графических процессорах».

Page 99: Лекция №9 Организация ЭВМ и систем

Для создания экзафлопсной системы разработчикам придется преодолеть целый ряд технологических проблем, связанных с энергопотреблением, объемом памяти, масштабируемостью системного ПО и реальных приложений на миллионы процессорных ядер.

На сегодняшний день разработки в области экзафлопсных суперкомпьютеров ведут разные группы разработчиков в США. Совместные работы в этом направлении проводят национальные лаборатории Sandia и Oak Ridge министерства энергетики США. Экзафлопсные программы есть и в Европе.

Экзафлопсные системы наиболее актуальны для задач, требующих масштабного моделирования с большой точностью. К примеру, Министерство энергетики США рассматривает экзафлопсный суперкомпьютер как инструмент обеспечения энергетической безопасности страны.

Page 100: Лекция №9 Организация ЭВМ и систем

С его помощью американцы планируют проектировать атомные станции, использовать для разведки нефтегазовых месторождений с целью повысить коэффициент извлечения углеводородов, создавать новые виды синтетического топлива.

Из российских организаций разработками в области экзафлопсных вычислительных систем намерен заниматься МГУ и компания «Т-Платформы», заключившие в 2010 г. соответствующий меморандум.

Page 101: Лекция №9 Организация ЭВМ и систем

«В настоящий момент в мире не существует окончательного видения направлений развития элементной базы и архитектуры построения вычислительных систем эксафлопного класса. Концепция универсальной многоядерности Intel и AMD может оказаться бесперспективной по энергопотреблению (сотни мегаватт по самым оптимистичным прогнозам) и из-за конфликтного доступа множества ядер к общей памяти».

«Новая стратегия развития, скорее всего, будет базироваться на интеграции в одном кристалле разнородных вычислительных ядер, с интеграцией в вычислительный модуль высокочастотных FPGA».

Алексей Волгин, главный специалист департамента развития научно-производственной базы ядерного оружейного комплекса госкорпорации «Росатом»

Page 102: Лекция №9 Организация ЭВМ и систем

Для самостоятельного изученияДля самостоятельного изучения

Page 103: Лекция №9 Организация ЭВМ и систем

SIМD-компьютерыSIМD-компьютеры

Одним из преимуществ данной архитектуры считается Одним из преимуществ данной архитектуры считается эффективная реализация логики вычислений. До эффективная реализация логики вычислений. До половины логических команд обычного процессора половины логических команд обычного процессора связано с управлением процессом выполнения машинных связано с управлением процессом выполнения машинных команд, а остальная их часть относится к работе с команд, а остальная их часть относится к работе с внутренней памятью процессора и выполнению внутренней памятью процессора и выполнению арифметических операций. арифметических операций.

В SIMD-компьютере управление выполняется В SIMD-компьютере управление выполняется контроллером, а "арифметика" отдана процессорным контроллером, а "арифметика" отдана процессорным элементам. элементам. Подклассом SIMD-компьютеров являются Подклассом SIMD-компьютеров являются векторные компьютерывекторные компьютеры. Пример такой вычислительной . Пример такой вычислительной системы — Hitachi S3600.системы — Hitachi S3600.

Page 104: Лекция №9 Организация ЭВМ и систем

SIМD-компьютерыSIМD-компьютеры

Другой пример SIMD-компьютера — матричные Другой пример SIMD-компьютера — матричные процессорыпроцессоры (Array Processor). В качестве примера можно (Array Processor). В качестве примера можно привести вычислительную систему Thinking Machines CM-привести вычислительную систему Thinking Machines CM-2, где 65 536 ПЭ связаны между собой сетью 2, где 65 536 ПЭ связаны между собой сетью коммуникаций с топологией "гиперкуб". Часто компьютеры коммуникаций с топологией "гиперкуб". Часто компьютеры с SIMD-архитектурой специализированы для решения с SIMD-архитектурой специализированы для решения конкретных задач, допускающих матричное конкретных задач, допускающих матричное представление. Это, например, могут быть задачи представление. Это, например, могут быть задачи обработки изображений, где каждый модуль обработки обработки изображений, где каждый модуль обработки данных работает на получение одного элемента данных работает на получение одного элемента конечного результата.конечного результата.

Page 105: Лекция №9 Организация ЭВМ и систем

Мультипроцессорные и Мультипроцессорные и мультикомпьютерные системымультикомпьютерные системы

MIMD-компьютеры с разделяемой памятьюMIMD-компьютеры с разделяемой памятью иногда иногда называют называют мультипроцессорными системамимультипроцессорными системами. В . В некоторых мультипроцессорных системах отсутствует некоторых мультипроцессорных системах отсутствует общая разделяемая память, вместо нее у каждого общая разделяемая память, вместо нее у каждого процессорного элемента имеется собственная локальная процессорного элемента имеется собственная локальная память, но, тем не менее, каждый процессорный элемент память, но, тем не менее, каждый процессорный элемент имеет доступ к локальной памяти любого процессорного имеет доступ к локальной памяти любого процессорного элемента. В этом случае говорят о элемента. В этом случае говорят о наличии глобального наличии глобального адресного пространстваадресного пространства. .

Такая организация памяти называется Такая организация памяти называется распределенно-разделяемой памятью.распределенно-разделяемой памятью. Передача Передача данных между процессорными элементами данных между процессорными элементами осуществляется через разделяемую память — один ПЭ осуществляется через разделяемую память — один ПЭ может произвести запись в ячейку памяти, а все может произвести запись в ячейку памяти, а все остальные ПЭ могут это значение использовать. остальные ПЭ могут это значение использовать.

Page 106: Лекция №9 Организация ЭВМ и систем

С точки зрения программиста, коммуникации С точки зрения программиста, коммуникации реализуются посредством разделяемых переменных, реализуются посредством разделяемых переменных, т. е. переменных, доступ к которым имеют все т. е. переменных, доступ к которым имеют все параллельные процессы. параллельные процессы.

Примерами вычислительных мультипроцессорных Примерами вычислительных мультипроцессорных систем могут служить: Cray X-MP, Cray Y-MP, Cray C90, систем могут служить: Cray X-MP, Cray Y-MP, Cray C90, Cray-3.Cray-3.

MIMD-компьютеры с распределенным адресным MIMD-компьютеры с распределенным адресным пространством, так что каждый ПЭ имеет пространством, так что каждый ПЭ имеет собственную, локальную оперативную памятьсобственную, локальную оперативную память, , "невидимую" другими ПЭ, иногда называются "невидимую" другими ПЭ, иногда называются мультикомпьютерами. мультикомпьютерами.

Page 107: Лекция №9 Организация ЭВМ и систем

Взаимодействие между ПЭ реализуется обменом Взаимодействие между ПЭ реализуется обменом сообщениями, которые передаются по коммуникационной сообщениями, которые передаются по коммуникационной сети. сети. С точки зрения программиста это означает, что С точки зрения программиста это означает, что для взаимодействия между ПЭ используются не для взаимодействия между ПЭ используются не разделяемые переменные, а операции пересылки и разделяемые переменные, а операции пересылки и приема, а также каналыприема, а также каналы. Поскольку в данном случае нет . Поскольку в данном случае нет конкуренции между процессорами за доступ к конкуренции между процессорами за доступ к оперативной памяти, количество ПЭ не ограничено оперативной памяти, количество ПЭ не ограничено объемом оперативной памяти. объемом оперативной памяти. Результирующее Результирующее быстродействие вычислительной системы быстродействие вычислительной системы определяется скоростью работы сети. определяется скоростью работы сети.

Примерами мультикомпьютеров являются — nCube Примерами мультикомпьютеров являются — nCube (8192 ПЭ, гиперкуб), Cray T3E, кластеры рабочих станций (8192 ПЭ, гиперкуб), Cray T3E, кластеры рабочих станций и др.и др.

Page 108: Лекция №9 Организация ЭВМ и систем

Наиболее перспективным классом Наиболее перспективным классом высокопроизводительных систем являются высокопроизводительных систем являются многопроцессорные системымногопроцессорные системы. В организации . В организации многопроцессорных вычислительных систем следует многопроцессорных вычислительных систем следует выделить следующие ключевые моменты:выделить следующие ключевые моменты:

количество и архитектура индивидуальных количество и архитектура индивидуальных процессоров; процессоров;

структура и организация доступа к оперативной структура и организация доступа к оперативной памяти; памяти;

топология коммуникационной сети и ее топология коммуникационной сети и ее быстродействие; быстродействие;

работа с устройствами ввода/вывода.работа с устройствами ввода/вывода.Важнейшей характеристикой многопроцессорной Важнейшей характеристикой многопроцессорной

вычислительной системы является ее вычислительной системы является ее масштабируемостьмасштабируемость. Масштабируемость является мерой, . Масштабируемость является мерой, которая показывает, можно ли данную проблему решить которая показывает, можно ли данную проблему решить быстрее, увеличив количество процессорных элементов. быстрее, увеличив количество процессорных элементов. Данным свойством обладает как аппаратное, так и Данным свойством обладает как аппаратное, так и программное обеспечение.программное обеспечение.

Page 109: Лекция №9 Организация ЭВМ и систем

    Национальные и международные Национальные и международные проекты - МЕТАКОМПЬЮТИНГпроекты - МЕТАКОМПЬЮТИНГ

Наиболее известные глобальные проекты, связанные с Наиболее известные глобальные проекты, связанные с вычислительными сетями нового поколения - GRID. вычислительными сетями нового поколения - GRID.

CrossGridЕвропейский исследовательский проект, Европейский исследовательский проект,

разрабатываемый в тесном сотрудничестве с разрабатываемый в тесном сотрудничестве с European DataGrid. Проект охватывает весь спектр традиционных . Проект охватывает весь спектр традиционных для GRID задач - организация объемных вычислений для для GRID задач - организация объемных вычислений для конкретных научных областей, создание новый конкретных научных областей, создание новый инструментов и сервисов и т.д.инструментов и сервисов и т.д.

DataGridПроект DataGrid основан Европейским Сообществом. Проект DataGrid основан Европейским Сообществом.

Цель этого проекта - создание сетевой компьютерной Цель этого проекта - создание сетевой компьютерной инфраструктуры нового поколения для обработки инфраструктуры нового поколения для обработки распределенных тера- и петабайтных баз данных, распределенных тера- и петабайтных баз данных, полученных в результате научных исследований, полученных в результате научных исследований, преимущественно в области физики.преимущественно в области физики.

Page 110: Лекция №9 Организация ЭВМ и систем

European Grid of Solar Observations (EGSO)

Европейский проект, работающий в сотрудничестве с Европейский проект, работающий в сотрудничестве с NASA, своей целью ставит создание "виртуальной NASA, своей целью ставит создание "виртуальной солнечной обсерватории", данные в которой будут солнечной обсерватории", данные в которой будут собираться из наземных и космический наблюдательных собираться из наземных и космический наблюдательных пунктов. Собранные данные будут каталогизироваться и пунктов. Собранные данные будут каталогизироваться и визуализироваться для удобного просмотра.визуализироваться для удобного просмотра.

EUROGRID Исследовательский проект, созданный в рамках Исследовательский проект, созданный в рамках европейской программы IST (Information Society европейской программы IST (Information Society Technologies). Отрабатывались технологии организации Technologies). Отрабатывались технологии организации распределенных вычислений, решались задачи распределенных вычислений, решались задачи молекулярного моделирования, прогнозирования погоды, молекулярного моделирования, прогнозирования погоды, аэродинамики.аэродинамики.

Page 111: Лекция №9 Организация ЭВМ и систем

NEESgrid Проект NEESgrid поддерживается программой NEES Проект NEESgrid поддерживается программой NEES (Network for Earthquake Engineering Simulation) (Network for Earthquake Engineering Simulation) Национального Научного Фонда (NSF) США. NEESgrid Национального Научного Фонда (NSF) США. NEESgrid планирует обеспечить исследователей землятресений планирует обеспечить исследователей землятресений средствами коллективной организации, удаленного средствами коллективной организации, удаленного наблюдения и управления экспериментами, а также наблюдения и управления экспериментами, а также распределенными вычислительными ресурсами для распределенными вычислительными ресурсами для обработки результатов.обработки результатов.TeraGrid Проект TeraGrid, созданный объединенными усилиями Проект TeraGrid, созданный объединенными усилиями нескольких университетов и лабораторий США в 2001 г. нескольких университетов и лабораторий США в 2001 г. при поддержке фонда. В 2004-м году располагал при поддержке фонда. В 2004-м году располагал распределенной вычислительной мощностью порядка 20 распределенной вычислительной мощностью порядка 20 Tflops и средствами для хранения данных до 1 петабайта. Tflops и средствами для хранения данных до 1 петабайта. Основное применение - решение задач физики высоких Основное применение - решение задач физики высоких энергий и молекулярной биологии, прогнозирование погоды энергий и молекулярной биологии, прогнозирование погоды и т.ди т.д

Page 112: Лекция №9 Организация ЭВМ и систем

Первая десятка Top500 Первая десятка Top500 (18-я редакция)(18-я редакция)

№№ Фирма Фирма ЭВМЭВМ Где Где установленустановлен

Стра-Стра-нана

ГодГод ЧислоЧислопроцессоровпроцессоров

11 IBM IBM ASCI ASCI White White

Ливерморская Ливерморская национальная национальная лаборатория лаборатория

США США 2000 2000 8192 8192

22 Compaq Compaq AlphaServAlphaServer SC er SC

Питтсбургский Питтсбургский суперкомпью-суперкомпью-терный центр терный центр

США США 2001 2001 3024 3024

33 IBM IBM SP Power3 SP Power3 Институт Институт исследований исследований в области в области энергетики энергетики NERSC NERSC

США США 20012001 3328 3328

44 Intel Intel ASCI Red ASCI Red Национальная Национальная лаборатория лаборатория Sandia Sandia

СШАСША 19991999 96329632

Page 113: Лекция №9 Организация ЭВМ и систем

66 Compaq Compaq AlphaSerAlphaServer SC ver SC

Лос-Лос-Аламосская Аламосская национальная национальная лаборатория лаборатория

США США 20012001 15361536

77 Hitachi Hitachi SR8000/SR8000/MPP MPP

Токийский Токийский университет университет

Япония Япония 20012001 11521152

88 SGI SGI ASCI ASCI Blue Blue Mountain Mountain

Лос-Лос-Аламосская Аламосская национальная национальная лаборатория лаборатория

США США 19981998 61446144

99 IBM IBM SP SP Power3 Power3

Океанографи-Океанографи-ческий центр ческий центр NAVOCEANO NAVOCEANO

США США 20002000 13361336

1010 IBM IBM SP SP Power3 Power3

Немецкая Немецкая служба погоды служба погоды

ГерманиГермания я

20012001 12801280

55 IBM IBM ASCI ASCI Blue Blue Pacific Pacific

Ливерморская Ливерморская национальная национальная лаборатория лаборатория

СШАСША 19991999 58085808

Page 114: Лекция №9 Организация ЭВМ и систем

14 ноября 2005 года была опубликована 26-я редакция 14 ноября 2005 года была опубликована 26-я редакция списка 500 наиболее мощных компьютеров мира Top500. списка 500 наиболее мощных компьютеров мира Top500.

На первом месте в 26-й редакции списка остался прототип На первом месте в 26-й редакции списка остался прототип будущего суперкомпьютера IBM BlueGene/L, число процессоров будущего суперкомпьютера IBM BlueGene/L, число процессоров которого увеличилось до 131072, а производительность на которого увеличилось до 131072, а производительность на Linpack - до 280.6 TLinpack - до 280.6 TFLOPSFLOPS. .

На втором месте списка осталась другая инсталляция На втором месте списка осталась другая инсталляция суперкомпьютера IBM BlueGene/L, установленная в Thomas J. суперкомпьютера IBM BlueGene/L, установленная в Thomas J. Watson Research Center, на основе 40960 процессоров с Watson Research Center, на основе 40960 процессоров с производительностью на Linpack 91.29 Tпроизводительностью на Linpack 91.29 TFLOPS.FLOPS.

На третье место в новой редакции списка вышел На третье место в новой редакции списка вышел суперкомпьютер ASC Purple производства IBM на основе 10240 суперкомпьютер ASC Purple производства IBM на основе 10240 процессоров p5 575 1.9 ГГц с производительностью на Linpack процессоров p5 575 1.9 ГГц с производительностью на Linpack 63.39 T63.39 TFLOPSFLOPS. .

На 5-ом месте в списке оказался суперкомпьютер На 5-ом месте в списке оказался суперкомпьютер Thunderbird производства Dell на основе 8000 процессоров Thunderbird производства Dell на основе 8000 процессоров PowerEdge 1850 3.6 ГГц с производительностью на Linpack PowerEdge 1850 3.6 ГГц с производительностью на Linpack 38.27 T38.27 TFLOPSFLOPS. На 6-ом месте - суперкомпьютер Red Storm . На 6-ом месте - суперкомпьютер Red Storm производства Cray на основе технологии XT3 с производства Cray на основе технологии XT3 с производительностью на Linpack 36.19 Tпроизводительностью на Linpack 36.19 TFLOPSFLOPS. .

Page 115: Лекция №9 Организация ЭВМ и систем

Суперкомпьютер Earth Simulator, долгое время Суперкомпьютер Earth Simulator, долгое время возглавлявший список, оказался в новой редакции уже на возглавлявший список, оказался в новой редакции уже на 7-м месте.7-м месте.

Суперкомпьютер Earth Simulator предназначен Суперкомпьютер Earth Simulator предназначен длядля моделирования климатических изменениймоделирования климатических изменений на основе на основе данных, которые поступают со спутников. По утверждению данных, которые поступают со спутников. По утверждению представителей NEC, высокая производительность представителей NEC, высокая производительность компьютера достигнута за счет использования специально компьютера достигнута за счет использования специально разработанных векторных процессоров. Система разработанных векторных процессоров. Система базируется на 5120 таких процессорах, объединенных в базируется на 5120 таких процессорах, объединенных в 640 узлов SX-6 (по 8 процессоров в каждом). 640 узлов SX-6 (по 8 процессоров в каждом). Суперкомпьютер работает под управлением ОС SUPER-Суперкомпьютер работает под управлением ОС SUPER-UX. В числе средств разработки установлены компиляторы UX. В числе средств разработки установлены компиляторы языков C/C++, Fortran 90 и HPF, а также средства языков C/C++, Fortran 90 и HPF, а также средства автоматической векторизации, реализация интерфейса автоматической векторизации, реализация интерфейса MPI-2 и математическая библиотека ASL/ES. Вся машина MPI-2 и математическая библиотека ASL/ES. Вся машина занимает площадь трех теннисных кортов (50x65 м) и занимает площадь трех теннисных кортов (50x65 м) и использует несколько километров кабеля. использует несколько километров кабеля.

Page 116: Лекция №9 Организация ЭВМ и систем

Суммарная производительность систем в списке Суммарная производительность систем в списке выросла за полгода с 1.69 Pвыросла за полгода с 1.69 PFLOPSFLOPS до 2.30 P до 2.30 PFLOPSFLOPS. .

Общее число кластеров еще увеличилось и составляет Общее число кластеров еще увеличилось и составляет уже 360 систем (по сравнению с 304 в июне), таким уже 360 систем (по сравнению с 304 в июне), таким образом, образом, кластерная архитектура остается наиболее кластерная архитектура остается наиболее популярной при проектировании мощнейших популярной при проектировании мощнейших суперкомпьютеров.суперкомпьютеров. В качестве коммуникационной В качестве коммуникационной технологии 249 кластеров используется Gigabit Ethernet, в технологии 249 кластеров используется Gigabit Ethernet, в 70 случаях - Myrinet. 70 случаях - Myrinet.

По количеству установленных систем, вошедших в По количеству установленных систем, вошедших в

список, IBM (219) продолжает доминировать, на втором список, IBM (219) продолжает доминировать, на втором месте по-прежнему Hewlett-Packard (169). месте по-прежнему Hewlett-Packard (169).

Page 117: Лекция №9 Организация ЭВМ и систем

13 ноября 200713 ноября 2007 года опубликована юбилейная года опубликована юбилейная тридцатая редакциятридцатая редакция списка 500 мощнейших списка 500 мощнейших суперкомпьютеров мира суперкомпьютеров мира Тор-500Тор-500. .

Как и полгода назад, Как и полгода назад, возглавляет рейтинг возглавляет рейтинг вычислительный комплекс IBM Blue Gene/L, вычислительный комплекс IBM Blue Gene/L, установленный в Ливерморской национальной установленный в Ливерморской национальной лаборатории имени Лоуренсалаборатории имени Лоуренса. Однако если еще весной . Однако если еще весной производительность этой системы составляла 280,6 производительность этой системы составляла 280,6 терафлопса (триллионов операций с плавающей запятой в терафлопса (триллионов операций с плавающей запятой в секунду), то теперь суперкомпьютер обладает секунду), то теперь суперкомпьютер обладает быстродействием в 478,2 быстродействием в 478,2 TTFLOPSFLOPS. . Второе местоВторое место заняла заняла новая версия аналогичной новая версия аналогичной системы IBM - BlueGene/P системы IBM - BlueGene/P JugeneJugene, установленная , установленная в Германии и выполняющая до в Германии и выполняющая до 167,3167,3 триллиона операций с плавающей запятой в секунду. триллиона операций с плавающей запятой в секунду. Замыкает тройку лидеровЗамыкает тройку лидеров еще один новичок, еще один новичок, сконструированный фирмой SGI. Данный сконструированный фирмой SGI. Данный комплекскомплекс смонтирован в Вычислительном центре Нью-Мексико и смонтирован в Вычислительном центре Нью-Мексико и обладает обладает производительностью в 126,9 производительностью в 126,9 TTFLOPSFLOPS. .

Page 118: Лекция №9 Организация ЭВМ и систем

Наиболее мощный вычислительный комплекс РФ, Наиболее мощный вычислительный комплекс РФ, кластер 3000 BL460c, занимает 33 позициюкластер 3000 BL460c, занимает 33 позицию. Эта . Эта система, смонтированная компанией Hewlett-Packard, система, смонтированная компанией Hewlett-Packard, установлена в Межведомственном суперкомпьютерном установлена в Межведомственном суперкомпьютерном центре и выполняет 33,9 триллиона операций с центре и выполняет 33,9 триллиона операций с плавающей запятой в секунду. плавающей запятой в секунду.

На 181 и 183 строки попали суперкомпьютеры На 181 и 183 строки попали суперкомпьютеры BladeCenter HS21 с производительностью в 9,3 TBladeCenter HS21 с производительностью в 9,3 TFLOPSFLOPS. . Они установлены в Уфимском государственном Они установлены в Уфимском государственном авиационном техническом университете и Сибирском авиационном техническом университете и Сибирском университете. университете.

Суперкомпьютер "МВС-15000БМ", установленный в Суперкомпьютер "МВС-15000БМ", установленный в Межведомственном суперкомпьютерном центре, с Межведомственном суперкомпьютерном центре, с быстродействием в 6,65 Tбыстродействием в 6,65 TFLOPSFLOPS занимает 408 место. Еще занимает 408 место. Еще полгода назад данная система находилась на 187 строке. полгода назад данная система находилась на 187 строке.

Page 119: Лекция №9 Организация ЭВМ и систем

Наиболее мощный вычислительный комплекс РФ, Наиболее мощный вычислительный комплекс РФ, кластер 3000 BL460c, занимает 33 позициюкластер 3000 BL460c, занимает 33 позицию. Эта . Эта система, смонтированная компанией Hewlett-Packard, система, смонтированная компанией Hewlett-Packard, установлена в Межведомственном суперкомпьютерном установлена в Межведомственном суперкомпьютерном центре и выполняет 33,9 триллиона операций с центре и выполняет 33,9 триллиона операций с плавающей запятой в секунду. плавающей запятой в секунду.

На 181 и 183 строки попали суперкомпьютеры На 181 и 183 строки попали суперкомпьютеры BladeCenter HS21 с производительностью в 9,3 TBladeCenter HS21 с производительностью в 9,3 TFLOPSFLOPS. . Они установлены в Уфимском государственном Они установлены в Уфимском государственном авиационном техническом университете и Сибирском авиационном техническом университете и Сибирском университете. университете.

Суперкомпьютер "МВС-15000БМ", установленный в Суперкомпьютер "МВС-15000БМ", установленный в Межведомственном суперкомпьютерном центре, с Межведомственном суперкомпьютерном центре, с быстродействием в 6,65 Tбыстродействием в 6,65 TFLOPSFLOPS занимает 408 место. Еще занимает 408 место. Еще полгода назад данная система находилась на 187 строке. полгода назад данная система находилась на 187 строке.

Page 120: Лекция №9 Организация ЭВМ и систем

В 354 системахВ 354 системах из списка Тор500 из списка Тор500 применяются применяются процессоры Intelпроцессоры Intel, тогда как , тогда как чипы AMD установленычипы AMD установлены только только в 78в 78 вычислительных комплексах. вычислительных комплексах. Процессоры Процессоры IBM PowerIBM Power находятся на третьем месте по находятся на третьем месте по распространенности - они установлены распространенности - они установлены в 61 в 61 суперкомпьютересуперкомпьютере, попавшем в рейтинг Тор-500. , попавшем в рейтинг Тор-500.

Суммарная производительностьСуммарная производительность всех систем списка всех систем списка составляет составляет 6,97 P6,97 PFLOPSFLOPS (квадриллиона операций с (квадриллиона операций с плавающей запятой в секунду). Для сравнения, плавающей запятой в секунду). Для сравнения, полгода полгода назад данный показатель был равен 4,92 Pназад данный показатель был равен 4,92 PFLOPSFLOPS..

Самый "слабый" участник рейтинга обладает Самый "слабый" участник рейтинга обладает быстродействием в быстродействием в 5,9 T5,9 TFLOPSFLOPS..