Upload
hana
View
66
Download
0
Embed Size (px)
DESCRIPTION
Распараллеливание вычислений на мультиядерных и многоядерных процессорах для исследования магнитодинамики в наномагнитных структурах. Пермский государственный национальный исследовательский университет Научно-образовательный центр «Параллельные и распределённые вычисления». - PowerPoint PPT Presentation
Citation preview
Распараллеливание вычислений на мультиядерных и многоядерных Распараллеливание вычислений на мультиядерных и многоядерных процессорах для исследования магнитодинамики в наномагнитных структурахпроцессорах для исследования магнитодинамики в наномагнитных структурах
Пермский государственный национальный исследовательский университетНаучно-образовательный центр
«Параллельные и распределённые вычисления»
•Второй Национальный Суперкомпьютерный форум (г.Переславль-Залесский, ИПС имени А.К. Айламазяна РАН, 27-29 ноября 2013 г.)
•Деменев Алексей Геннадьевич, к. ф.-м. н., доц. , директор НОЦ ПиРВ, доцент кафедры прикладной математики и информатики ПГНИУ;•Белозерова Татьяна Сергеевна, к.ф.-м.н., ведущий программист КЦ ММФ ПГНИУ;•Поляков Александр Владимирович, инженер НОЦ ПиРВ, аспирант кафедры прикладной математики и информатики ПГНИУ;•Хеннер Виктор Карлович, д.ф.-м.н., проф., профессор кафедры теоретической физики, директор ЦОНО ПГНИУ.
Деменев А.Г., 2013 1
Введение
•Фундаментальная проблема – создание высокопроизводительных и надежных программных систем и компьютерных технологий многомасштабного компьютерного моделирования процессов в системах взаимодействующих спинов.•Описание процессов - относительно небольшое число временных корреляционных функций, обычно используемых в физике магнитных явлений.•Необходимо разработать эффективные и надежные методы вычислений таких функций для далеких от равновесия систем спинов, связанных дальнодействующими межспиновыми взаимодействиям•Основная математическая трудность - наличие широкого квазинепрерывного спектра характерных времен процессов, определяющих многомасштабную динамику системы.•Технологический барьер - исследование реалистичных моделей приводит к необходимости решения задач, вычислительная сложность которых нелинейно растет с увеличением числа структурных элементов и времени наблюдения за системой.
Деменев А.Г., 2013 2
Введение
•Подход к преодолению технологического барьера – распараллеливание алгоритмов позволяет значительно увеличить число структурных элементов и диапазон времен эволюции исследуемых систем, доступных для изучения..Дополнительные трудности параллелизма: •классическая теория сходимости не применима к параллельным численным методам;•в параллельных алгоритмах могут специфические ошибки, не характерные для последовательных;•накладные расходы на организацию параллельной вычислений могут нивелировать выгоду от распараллеливания.Дополнительно необходимы:•проведение исследований на предмет обеспечения корректности результатов, •анализ и оценку эффективности отображения вычислительных алгоритмов на •современные параллельные компьютерные архитектуры.Перспективные суперкомпьютеры - с гибридной архитектурой (мультиядерные центральные процессоры + многоядерные ускорители)
Деменев А.Г., 2013 3
О проекте РФФИ 11-07-96007 - р_урал_а
•Цель - развитие и применение стратегических информационных технологий в исследовании процессов многомасштабной динамики наномагнитов в твердых телах.•Направлен на конкретную фундаментальную задачу развития и применения вычислительных и информационных технологий в моделировании многомасштабной молекулярной динамики многочастичных систем наномагнитов. •Барьер - использование традиционных методов и алгоритмов компьютерного моделирования не позволяет достигнуть необходимых результатов при исследовании многочастичных систем с размерами, требуемыми практикой. •Ожидания - применение суперкомпьютерных технологий при выполнении компьютерного моделирования в исследовании процессов в парамагнитных и ферромагнитных наноструктурах позволит использовать реалистичные модели из тысяч магнитных частиц.•Новизна - параллельные алгоритмы многомасштабной молекулярной динамики, реализованные в виде суперкомпьютерного ПО и апробированные при математическом моделировании магнитодинамических когерентных эффектов, в т.ч. числе сверхизлучения.
Деменев А.Г., 2013 4
Предметная область моделирования
•Сверхизлучение — необычный феномен для макроскопической физики, когда излучаемая мощность пропорциональная не числу спинов, а их квадрату, происходит из-за когерентизации спиновых переходов. •Когерентные эффекты - эффективные спин-спиновые взаимодействия не уменьшаются с расстоянием, шкала времени для процессов релаксации обратно пропорциональна числу спинов. •Условия проявления – при помещении низкотемпературного образца в пассивный резонатор.•Практическая перспектива - возможное использование больших скоростей когерентных процессов в высокоспиновых наномолекулах, кластерах и кристаллах, в различного рода датчиках и переключателях, особенно в наноустройствах, где традиционные механизмы релаксации выражены очень слабо. •Область приложения - разработки технологий получения нанодетекторов слабых излучений и создания компактных систем быстрой магнитной записи.
Деменев А.Г., 2013 5
Предметная область моделированияСпин: - магнитный момент (в физике магнитных явлений);- аналог классического момента количества движения частицы (в квантовой механике).Взаимодействующие спины - внутри резонатора (LCR-контур). Спиновая прецессия наводит ЭДС в LCR-контуре. Обратная связь – через магнитное поле индуцируемого тока, влияя на процесс релаксации спинов
Деменев А.Г., 20136
Предметная область моделирования
Деменев А.Г., 20137
Спины наномагнитных молекул
Деменев А.Г., 20138
Математическая постановка задачи
9
•«Классические» спины: движение магнитного момента каждой частицы описывается одним вектором.•Уравнения движения для k-го спина :• (1)
• – безразмерный параметр спин-решеточной релаксации, • – гиромагнитное отношение для электронов
Деменев А.Г., 2013
( )
( ) ( ) ( ) ( ) ( )k
k k k k kss
d
dt
H H
s
Математическая постановка задачи
10
Поле в уравнении (1) – это общее магнитное поле, действующее на k-тый спин; Включает:1) постоянное внешнее поле ;2) одноосное анизотропное поле
где n – единичный вектор оси легкого намагничивания, – анизотропная энергия частицы;3) поле обратной связи , наведенное в резонансной катушке, ось которой направлена по оси Ox;4) дипольное магнитное поле индуцируемое парными диполь-дипольными взаимодействиями спинов частиц.
Деменев А.Г., 2013
( )kH
0 OzH
/ , 2 /A A A AH H E H n n
AE
( ,0,0)HH
( )k
dH
11
Деменев А.Г., 2013
Система уравнений движения
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )2 ( )2
( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
1
1 ,
1
k k k k k k k k kx A z y D y dz z dy H D dx y z
k k k k kA z D dz x z D dy x y
k k k ky A z x H z D z
e p e e p e H e H p p H e e
p e p H e e p H e e
e p e e p e p e
( ) ( ) ( ) ( ) ( ) ( )
( ) ( ) ( ) ( )2 ( )2
( ) ( ) ( ) ( ) ( ) ( ) ( ) ( )
1 ,
k k k k k kdx x dz H D dx x y
k k k k kdz A z y z dy x z
k k k k k k k kz H y D x dy y dx H D dx x z
H e H p p H e e
H p e e e H e e
e p e p e H e H p p H e e
( ) ( )2 ( )2 ( ) ( ) 1 .k k k k kA z D dz x y D dy y zp e p H e e p H e e
22 2( )
2 210 0
12 4
Nlr
H H H xl
d d dp p p
dt dt N dt
30 0 0 0 0 0
, , ,A A H DA H D
H Hp p p
H H a H
0 /r c LC 202 / / , rc R L Q 0/ ( )N VH
12
Методы:• анализ информационной структуры алгоритмов;• асимптотический анализ сложности алгоритмов. Вычислительная сложность T(1) алгоритмов с ростом числа
моделируемых наночастиц растет: • при постоянном шаге интегрирования - асимптотически
квадратично;• при автоматическом выборе шага интегрирования – возможно
асимптотически кубично. Асимптотические оценки ускорения и эффективности многопоточного
распараллеливания алгоритмов, реализованных в коде MagnetoDynamics-F, на типичных задачах:
• теоретические (по Амдалу);• полуэмпирические (с учетом накладных расходов на поддержку
многопоточности на мультиядерных и многоядерных процессорах).
Деменев А.Г., 2013
Потенциал распараллеливания алгоритмов MagnetoDynamics-F
13
Требования к оперативной памяти алгоритмов MagnetoDynamics-F с ростом числа наночастиц растут асимптотически линейно
Гипотеза:
пусть накладные расходы pτT(1) на многопоточное распараллеливание асимптотически растут также, как требования к оперативной памяти.
Следствие:
с ростом числа моделируемых наночастиц возможен рост масштабируемости распараллеливания.
Деменев А.Г., 2013
00
( ) ( )N
Mem N Mem NN
Потенциал распараллеливания алгоритмов
1( )
1( ) /MTS p
p f f p max (1 )p f
( ) ( )vec MTLS p S S p ( ) ( )vec MTLS p S S p
( ) ( )vec MTLS p S S p
1
(1 ) /vecL vec vecS
f f L
14
• !$OMP PARALLEL SHARED(/Spins/, /Feqn/, /DelRnd/, /FieldPH/) PRIVATE(Mi,Hdx,Hdy,Hdz,PiD,WR)• !$OMP DO • DO 40 Mi = 1, Neqn• … тело цикла• 40 CONTINUE• !$OMP END DO • !$OMP END PARALLEL• ! Вычисляем правые части уравнений для WH и PH• SumD2x = 0• !$OMP PARALLEL SHARED(/Spins/,/Feqn/,/DelRnd/,/FieldPH/,SumD2x) PRIVATE (Mi, Hdx, Hdy, Hdz, dHdx,
dHdy, dHdz, PiD, Wr, d2eX)• !$OMP DO • DO 50 Mi = 1, Neqn• … тело цикла• ! Вычисляем сумму производных d2eX• !$omp atomic • SumD2x = SumD2x + d2eX• 50 CONTINUE• !$OMP END DO • !$OMP END PARALLEL
Деменев А.Г., 2013
OpenMP-распараллеливание вычислений правых частей уравнений движения
15
• !$OMP PARALLEL SHARED(/Spins/,/Feqn/,/DelRnd/,/OmRnd/,/FieldPH/,dFeqn) PRIVATE (Mi,Hdx, Hdy, Hdz, dHdx, dHdy, dHdz, PiD, Wr, Wr1)
• !$OMP DO • DO 10 Mi = 1, Neqn• …тело цикла • 10 CONTINUE
• !$OMP END DO • !$OMP END PARALLEL
Распараллелены циклы по вычислению правых частей уравнений движения и цикл по вычислению интенсивностей магнитодипольного излучения.
Команда компиляции параллельной программы:
ifort -static MainMagDyn.f90 ServMagD.f90 -openmp -fast -xSSE4.1 -vec_report -openmp_report -o MagDynT
Деменев А.Г., 2013
OpenMP-распараллеливание вычислений интенсивностей магнитодипольного излучения
16Деменев А.Г., 2013
Тестовый пример 1
17Деменев А.Г., 2013
Тестовый пример 1. OpenMP-версия
18Деменев А.Г., 2013
Тестовый пример 1. OpenMP-версия
19Деменев А.Г., 2013
Тестовый пример 1. CPU+OpenMP vs GPU+OpenACC
• OpenACC-версия для графических ускорителей NVIDIA • Использовался компилятор PGI Аccelerator,
поддерживающий стандарты OpenACC и OpenMP. • При 1000 частиц ускорение OpenACC-версии в
вычислениях при расчёте на одном 448-ядерном графическом ускорителе NVIDIA Tesla 2050 на порядок превзошло ускорение порядок по сравнению с расчётом на одном из ядер процессора Intel Xeon 5670.
• Это примерно в два раза лучше результата оптимизированной OpenMP-версии на 6-ядерном Intel Xeon 5670.
20Деменев А.Г., 2013
Тестовый пример 2
21Деменев А.Г., 2013
Тестовый пример 2. CPU+OpenMP vs GPU+OpenACC
OpenMP at 1 CPU core
OpenMP at 2 CPU cores
OpenMP at 4 CPU core
OpenMP at 8 CPU cores
OpenMP at 16 CPU cores
OpenACC at 2496 CUDA cores
0 5 10 15 20 25 30 35 40
Speedup for 5000 particles
Spe
edup
22
Параллельный код MagnetoDynamics-F: • последовательная часть - ввод параметров, создание выходных файлов,
построение ансамбля Гиббса для заданной поляризации с помощью техники Монте-Карло;
• подлежащая распараллеливанию часть - интегрирование системы уравнений движения и вычисление интенсивности магнитодипольного излучения.
OpenMP-версия :• получена экспериментальная оценка на многопроцессорных системах с
мультиядерными процессорами Intel Xeon;• получена полуэмпирическая формула для асимптотической оценки
ускорения и эффективности распараллеливания; • отмечена возможность эффективного использования многоядерных
сопроцессоров Intel Xeon Phi.OpenАСС-версия :• получена экспериментальная оценка на системах с многоядерными
ускорителями NVIDIA Tesla 2050 и K20;• показана целесообразность эффективного использования многоядерных
ускорителей уже при числе частиц порядка 1000;• отмечен существенный рост производительности при росте числа частиц.
Деменев А.Г., 2013
Заключение
БлагодарностиБлагодарности
23
Работа выполнена на базе Научно-образовательного центра «Параллельные и распределенные вычисления» (НОЦ ПиРВ) ПГНИУ.
Использовано дорогостоящее оборудование, приобретенное по гранту РФФИ 10-01-05021-б (руководитель Е.К. Хеннер):
• программно-технический комплекс «Высокопроизводительный SMP-сервер».
Использовано уникальное оборудование приобретенное по проекту "Развитие центра коллективного пользования высокопроизводительными вычислительными ресурсами — НОЦ ПиРВ" (руководитель А.Г. Деменев) Программы развития ПГНИУ:
• суперкомпьютеры «ПГУ-Тесла» и «ПГНИУ-Кеплер».• Работа была выполнена при поддержке грантов РФФИ, 11-07-96007 -
р_урал_а (руководители Е.К. Хеннер, А.Г. Деменев) и 13-02-96018 - р_урал_а (руководитель В.К. Хеннер).
Деменев А.Г., 2013
КонтактыКонтакты
Деменев Алексей ГеннадьевичТел. (342)2396409Факс (342)2396584E-mail: [email protected]://Demenev.livejournal.com
Деменев А.Г., 2013