Пермский государственный национальный исследовательский университет Научно-образовательный центр

Распараллеливание вычислений на мультиядерных и многоядерных Распараллеливание вычислений на мультиядерных и многоядерных процессорах для исследования магнитодинамики в наномагнитных структурахпроцессорах для исследования магнитодинамики в наномагнитных структурах

Пермский государственный национальный исследовательский университетНаучно-образовательный центр

«Параллельные и распределённые вычисления»

•Второй Национальный Суперкомпьютерный форум (г.Переславль-Залесский, ИПС имени А.К. Айламазяна РАН, 27-29 ноября 2013 г.)

•Деменев Алексей Геннадьевич, к. ф.-м. н., доц. , директор НОЦ ПиРВ, доцент кафедры прикладной математики и информатики ПГНИУ;•Белозерова Татьяна Сергеевна, к.ф.-м.н., ведущий программист КЦ ММФ ПГНИУ;•Поляков Александр Владимирович, инженер НОЦ ПиРВ, аспирант кафедры прикладной математики и информатики ПГНИУ;•Хеннер Виктор Карлович, д.ф.-м.н., проф., профессор кафедры теоретической физики, директор ЦОНО ПГНИУ.

Деменев А.Г., 2013 1

Введение

•Фундаментальная проблема – создание высокопроизводительных и надежных программных систем и компьютерных технологий многомасштабного компьютерного моделирования процессов в системах взаимодействующих спинов.•Описание процессов - относительно небольшое число временных корреляционных функций, обычно используемых в физике магнитных явлений.•Необходимо разработать эффективные и надежные методы вычислений таких функций для далеких от равновесия систем спинов, связанных дальнодействующими межспиновыми взаимодействиям•Основная математическая трудность - наличие широкого квазинепрерывного спектра характерных времен процессов, определяющих многомасштабную динамику системы.•Технологический барьер - исследование реалистичных моделей приводит к необходимости решения задач, вычислительная сложность которых нелинейно растет с увеличением числа структурных элементов и времени наблюдения за системой.


Введение

•Подход к преодолению технологического барьера – распараллеливание алгоритмов позволяет значительно увеличить число структурных элементов и диапазон времен эволюции исследуемых систем, доступных для изучения..Дополнительные трудности параллелизма: •классическая теория сходимости не применима к параллельным численным методам;•в параллельных алгоритмах могут специфические ошибки, не характерные для последовательных;•накладные расходы на организацию параллельной вычислений могут нивелировать выгоду от распараллеливания.Дополнительно необходимы:•проведение исследований на предмет обеспечения корректности результатов, •анализ и оценку эффективности отображения вычислительных алгоритмов на •современные параллельные компьютерные архитектуры.Перспективные суперкомпьютеры - с гибридной архитектурой (мультиядерные центральные процессоры + многоядерные ускорители)


О проекте РФФИ 11-07-96007 - р_урал_а

•Цель - развитие и применение стратегических информационных технологий в исследовании процессов многомасштабной динамики наномагнитов в твердых телах.•Направлен на конкретную фундаментальную задачу развития и применения вычислительных и информационных технологий в моделировании многомасштабной молекулярной динамики многочастичных систем наномагнитов. •Барьер - использование традиционных методов и алгоритмов компьютерного моделирования не позволяет достигнуть необходимых результатов при исследовании многочастичных систем с размерами, требуемыми практикой. •Ожидания - применение суперкомпьютерных технологий при выполнении компьютерного моделирования в исследовании процессов в парамагнитных и ферромагнитных наноструктурах позволит использовать реалистичные модели из тысяч магнитных частиц.•Новизна - параллельные алгоритмы многомасштабной молекулярной динамики, реализованные в виде суперкомпьютерного ПО и апробированные при математическом моделировании магнитодинамических когерентных эффектов, в т.ч. числе сверхизлучения.


Предметная область моделирования

•Сверхизлучение — необычный феномен для макроскопической физики, когда излучаемая мощность пропорциональная не числу спинов, а их квадрату, происходит из-за когерентизации спиновых переходов. •Когерентные эффекты - эффективные спин-спиновые взаимодействия не уменьшаются с расстоянием, шкала времени для процессов релаксации обратно пропорциональна числу спинов. •Условия проявления – при помещении низкотемпературного образца в пассивный резонатор.•Практическая перспектива - возможное использование больших скоростей когерентных процессов в высокоспиновых наномолекулах, кластерах и кристаллах, в различного рода датчиках и переключателях, особенно в наноустройствах, где традиционные механизмы релаксации выражены очень слабо. •Область приложения - разработки технологий получения нанодетекторов слабых излучений и создания компактных систем быстрой магнитной записи.


Предметная область моделированияСпин: - магнитный момент (в физике магнитных явлений);- аналог классического момента количества движения частицы (в квантовой механике).Взаимодействующие спины - внутри резонатора (LCR-контур). Спиновая прецессия наводит ЭДС в LCR-контуре. Обратная связь – через магнитное поле индуцируемого тока, влияя на процесс релаксации спинов

Деменев А.Г., 20136

Предметная область моделирования


Спины наномагнитных молекул


Математическая постановка задачи

9

•«Классические» спины: движение магнитного момента каждой частицы описывается одним вектором.•Уравнения движения для k-го спина :• (1)

• – безразмерный параметр спин-решеточной релаксации, • – гиромагнитное отношение для электронов


( )

( ) ( ) ( ) ( ) ( )k

k k k k kss

d

dt

H H

s

Математическая постановка задачи

10

Поле в уравнении (1) – это общее магнитное поле, действующее на k-тый спин; Включает:1) постоянное внешнее поле ;2) одноосное анизотропное поле

где n – единичный вектор оси легкого намагничивания, – анизотропная энергия частицы;3) поле обратной связи , наведенное в резонансной катушке, ось которой направлена по оси Ox;4) дипольное магнитное поле индуцируемое парными диполь-дипольными взаимодействиями спинов частиц.


( )kH

0 OzH

/ , 2 /A A A AH H E H n n

AE

( ,0,0)HH

( )k

dH

11


Система уравнений движения

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )2 ( )2

( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

1

1 ,

1

k k k k k k k k kx A z y D y dz z dy H D dx y z

k k k k kA z D dz x z D dy x y

k k k ky A z x H z D z

e p e e p e H e H p p H e e

p e p H e e p H e e

e p e e p e p e

( ) ( ) ( ) ( ) ( ) ( )

( ) ( ) ( ) ( )2 ( )2

( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )

1 ,

k k k k k kdx x dz H D dx x y

k k k k kdz A z y z dy x z

k k k k k k k kz H y D x dy y dx H D dx x z

H e H p p H e e

H p e e e H e e

e p e p e H e H p p H e e

( ) ( )2 ( )2 ( ) ( ) 1 .k k k k kA z D dz x y D dy y zp e p H e e p H e e

22 2( )

2 210 0

12 4

Nlr

H H H xl

d d dp p p

dt dt N dt

30 0 0 0 0 0

, , ,A A H DA H D

H Hp p p

H H a H

0 /r c LC 202 / / , rc R L Q 0/ ( )N VH

12

Методы:• анализ информационной структуры алгоритмов;• асимптотический анализ сложности алгоритмов. Вычислительная сложность T(1) алгоритмов с ростом числа

моделируемых наночастиц растет: • при постоянном шаге интегрирования - асимптотически

квадратично;• при автоматическом выборе шага интегрирования – возможно

асимптотически кубично. Асимптотические оценки ускорения и эффективности многопоточного

распараллеливания алгоритмов, реализованных в коде MagnetoDynamics-F, на типичных задачах:

• теоретические (по Амдалу);• полуэмпирические (с учетом накладных расходов на поддержку

многопоточности на мультиядерных и многоядерных процессорах).


Потенциал распараллеливания алгоритмов MagnetoDynamics-F

13

Требования к оперативной памяти алгоритмов MagnetoDynamics-F с ростом числа наночастиц растут асимптотически линейно

Гипотеза:

пусть накладные расходы pτT(1) на многопоточное распараллеливание асимптотически растут также, как требования к оперативной памяти.

Следствие:

с ростом числа моделируемых наночастиц возможен рост масштабируемости распараллеливания.


00

( ) ( )N

Mem N Mem NN

Потенциал распараллеливания алгоритмов

1( )

1( ) /MTS p

p f f p max (1 )p f

( ) ( )vec MTLS p S S p ( ) ( )vec MTLS p S S p

( ) ( )vec MTLS p S S p

1

(1 ) /vecL vec vecS

f f L

14

• !$OMP PARALLEL SHARED(/Spins/, /Feqn/, /DelRnd/, /FieldPH/) PRIVATE(Mi,Hdx,Hdy,Hdz,PiD,WR)• !$OMP DO • DO 40 Mi = 1, Neqn• … тело цикла• 40 CONTINUE• !$OMP END DO • !$OMP END PARALLEL• ! Вычисляем правые части уравнений для WH и PH• SumD2x = 0• !$OMP PARALLEL SHARED(/Spins/,/Feqn/,/DelRnd/,/FieldPH/,SumD2x) PRIVATE (Mi, Hdx, Hdy, Hdz, dHdx,

dHdy, dHdz, PiD, Wr, d2eX)• !$OMP DO • DO 50 Mi = 1, Neqn• … тело цикла• ! Вычисляем сумму производных d2eX• !$omp atomic • SumD2x = SumD2x + d2eX• 50 CONTINUE• !$OMP END DO • !$OMP END PARALLEL


OpenMP-распараллеливание вычислений правых частей уравнений движения

15

• !$OMP PARALLEL SHARED(/Spins/,/Feqn/,/DelRnd/,/OmRnd/,/FieldPH/,dFeqn) PRIVATE (Mi,Hdx, Hdy, Hdz, dHdx, dHdy, dHdz, PiD, Wr, Wr1)

• !$OMP DO • DO 10 Mi = 1, Neqn• …тело цикла • 10 CONTINUE

• !$OMP END DO • !$OMP END PARALLEL

Распараллелены циклы по вычислению правых частей уравнений движения и цикл по вычислению интенсивностей магнитодипольного излучения.

Команда компиляции параллельной программы:

ifort -static MainMagDyn.f90 ServMagD.f90 -openmp -fast -xSSE4.1 -vec_report -openmp_report -o MagDynT


OpenMP-распараллеливание вычислений интенсивностей магнитодипольного излучения

16Деменев А.Г., 2013

Тестовый пример 1


Тестовый пример 1. OpenMP-версия


Тестовый пример 1. OpenMP-версия


Тестовый пример 1. CPU+OpenMP vs GPU+OpenACC

• OpenACC-версия для графических ускорителей NVIDIA • Использовался компилятор PGI Аccelerator,

поддерживающий стандарты OpenACC и OpenMP. • При 1000 частиц ускорение OpenACC-версии в

вычислениях при расчёте на одном 448-ядерном графическом ускорителе NVIDIA Tesla 2050 на порядок превзошло ускорение порядок по сравнению с расчётом на одном из ядер процессора Intel Xeon 5670.

• Это примерно в два раза лучше результата оптимизированной OpenMP-версии на 6-ядерном Intel Xeon 5670.


Тестовый пример 2


Тестовый пример 2. CPU+OpenMP vs GPU+OpenACC

OpenMP at 1 CPU core

OpenMP at 2 CPU cores

OpenMP at 4 CPU core



OpenACC at 2496 CUDA cores

0 5 10 15 20 25 30 35 40

Speedup for 5000 particles

Spe

edup

22

Параллельный код MagnetoDynamics-F: • последовательная часть - ввод параметров, создание выходных файлов,

построение ансамбля Гиббса для заданной поляризации с помощью техники Монте-Карло;

• подлежащая распараллеливанию часть - интегрирование системы уравнений движения и вычисление интенсивности магнитодипольного излучения.

OpenMP-версия :• получена экспериментальная оценка на многопроцессорных системах с

мультиядерными процессорами Intel Xeon;• получена полуэмпирическая формула для асимптотической оценки

ускорения и эффективности распараллеливания; • отмечена возможность эффективного использования многоядерных

сопроцессоров Intel Xeon Phi.OpenАСС-версия :• получена экспериментальная оценка на системах с многоядерными

ускорителями NVIDIA Tesla 2050 и K20;• показана целесообразность эффективного использования многоядерных

ускорителей уже при числе частиц порядка 1000;• отмечен существенный рост производительности при росте числа частиц.


Заключение

БлагодарностиБлагодарности

23

Работа выполнена на базе Научно-образовательного центра «Параллельные и распределенные вычисления» (НОЦ ПиРВ) ПГНИУ.

Использовано дорогостоящее оборудование, приобретенное по гранту РФФИ 10-01-05021-б (руководитель Е.К. Хеннер):

• программно-технический комплекс «Высокопроизводительный SMP-сервер».

Использовано уникальное оборудование приобретенное по проекту "Развитие центра коллективного пользования высокопроизводительными вычислительными ресурсами — НОЦ ПиРВ" (руководитель А.Г. Деменев) Программы развития ПГНИУ:

• суперкомпьютеры «ПГУ-Тесла» и «ПГНИУ-Кеплер».• Работа была выполнена при поддержке грантов РФФИ, 11-07-96007 -

р_урал_а (руководители Е.К. Хеннер, А.Г. Деменев) и 13-02-96018 - р_урал_а (руководитель В.К. Хеннер).


КонтактыКонтакты

Деменев Алексей ГеннадьевичТел. (342)2396409Факс (342)2396584E-mail: [email protected]://Demenev.livejournal.com


mailto:[email protected]

mailto:[email protected]

http://demenev.livejournal.com/

Documents

Пермский государственный национальный исследовательский университет Научно-образовательный центр