CUDA альманах · 2016-10-31 · решения для рынка hpc». nvidia gpu ... две относительно новые тенденции ... сжатые сроки,

CUDA® альманахиюль 2014

2CUDA АльмАнАх / июль 2014

Содержание

новоСти NVIDIA CUDA 3Графические процессоры NVIDIA открывают ARM64 решениям дверь в мир высокопроизводительных вычислений 3

Приложения с GPU ускорением: Машинное обучение 5

В рейтинге Green500 становится все больше суперкомпьютеров с GPU 6

Предложения от NVIDIA 8Вебинары на английском языке 8

Ускоряйте ваши научные приложения с OpenACC 9

Проведите тест-драйв ускорителя Tesla K20/K40 GPU 10

научные работы С иСПользованием вычиСлений на CUDA 11

Нейросетевой параллельный алгоритм слежения за объектом в реальном времени // М. С. Тарков, С. В. Дубынин 11

Расчёт генерации шума модельных сопел на графических процессорах // Е. В. Коромыслов, М. В. Усанин, Л. Ю. Гомзиков, Т. П. Любимова 13

Расчёт инженерных газодинамических задач методами высокого порядка точности на графических процессорах // Е. В. Коромыслов, М. В. Усанин, Л. Ю. Гомзиков, А. А. Синер 14

Применение технологии nvidia cuda для обучения и декодирования скрытых марковских моделей // П. М. Зацепин, Д. А. Гефке 15

Программный комплекс визуализации синоптических данных // В.А. Бобков, С.В. Мельман, В.П. Май, А. С. Черкашин 16

ваканСии CUDA 17

контакты и Полезные ССылки 18


Новости NVIDIA CUDA

ГрафичеСкие ПроцеССоры NVIDIA открывают ARM64 решениям дверь в мир выСокоПроизводительных вычиСлений

NVIDIA объявила о том, что несколько производителей серверов используют GPU-ускорители NVIDIA® для создания первых в мире систем разработки на базе 64-битных ARM-процессоров для высокопроизводительных вычислений (HPC).

Благодаря своей высочайшей энергоэффективности, серверные процессоры на базе архитектуры ARM64 были изначально предназначены для микросерверов и вэб-серверов. Сегодня, в паре с GPU-ускорителями на базе платформы параллельного программирования NVIDIA CUDA® 6.5, поддерживающей 64-битные ARM-процессоры, они становятся способны решать задачи класса HPC.

Графические процессоры дают возможность производителям ARM64-серверов решать HPC задачи и, соответственно, создавать высокопроизводительные системы, которые максимально используют энергоэффективность и конфигурируемость архитектуры ARM. Список первых систем на ARM64 смотрите ниже.

широкий СПектр HPC-задач выСокой эффективноСти

Новые ARM64 серверы, оснащенные процессорами Applied Micro X-GeneARM64 и ускорителями NVIDIA Tesla® K20, предоставляют потребителям широкий спектр эффективных, высокопроизводительных вычислительных возможностей для тяжелых HPC нагрузок и задач корпоративных ЦОД. Пользователи также смогут незамедлительно воспользоваться преимуществом сотен существующих научных и инженерных высокопроизводительных приложений, ускоряемых на CUDA, путем простой перекомпиляции их под ARM64 системы.

«NVIDIA построила наиболее полную ускоряемую вычислительную платформу для индустрии HPC. Она включает серверы, программное обеспечение, инструменты разработки, процессоры и соответствующие технологии, — говорит Ян Бак (Ian Buck), вице-президент по ускоренным вычислениям в NVIDIA. — Графические процессоры предлагают технологию, позволяющую производителям серверов создавать системы HPC-класса на базе гибких процессоров на ARM64. Результатом представленного решения станут инновационные вычислительные решения для рынка HPC».

NVIDIA GPU

x86 POWERARM64NEW


Применение ARM для Прорывов в науке

«Мы намерены использовать новейшие технологические достижения, как на рынке HPC, так и за его пределами, для разработки кардинально новых путей исследований, — говорит Пэт МакКормик (Pat McCormick), старший научный сотрудник Лос-Аламосской Национальной Лаборатории. — Вместе с NVIDIA мы пытаемся использовать GPU-ускорение в сочетании с новейшими технологиями, такими, как ARM, чтобы стимулировать дальнейшее развитие науки».

«Появление ускоренных 64-битных ARM-серверов является важным достижением HPC-рынка в этом году, — говорит Эрл Джозеф (Earl Joseph), вице-президент IDC по HPC. — Мы уверены, что в HPC-сообществе существует огромный интерес к GPU-ускоренным 64-битным ARM-системам для вычислительных проектов нового поколения».

доСтуПны уже в июле

Первые GPU-ускоренные платформы разработки на ARM64 доступны уже в июле у компаний Cirrascale и E4 Computer Engineering. Готовые решения на базе новой платформы поступят в продажу чуть позже. Свои решения на базе новой платформы в этом году планирует представить и компания Eurotech Group. Подробнее о системах:

• Cirrascale RM1905D — 1U шасси, содержащее 2 высокоплотных сервера с двумя GPU-ускорителями Tesla K20; обеспечивает высокую производительность, низкую стоимость владения для частных и публичных облачных приложений, HPC и корпоративных приложений.

• E4 EK003 — готовый к производству экономичный 3U сервер с двумя материнскими платами и двумя GPU-ускорителями Tesla K20, предназначенный для приложений для обработки сейсмических данных, сигналов и изображений, анализа видео, движения частиц, вэб-приложений и обработки моделей MapReduce.

• Eurotech — экономичный модульный HPC-сервер Aurora высочайшей плотности на базе собственной технологии Brick с системой прямого охлаждения горячей водой.


Приложения С GPU уСкорением: машинное обучение

Специалисты по обработке и анализу данных как в промышленности, так и в научных кругах используют GPU в сфере машинного обучения для усовершенствования приложений, включая приложения для классификации изображений, анализа видеоданных, распознавания речи и обработки текстов на естественном языке. Глубокое обучение, то есть использование сложных, многоуровневых нейронных сетей для создания систем, которые могут выявлять признаки из большого объема немаркированных данных, — именно та область, в которой ведутся активные исследования и инвестиционная деятельность.

Хотя машинное обучение существует уже десятки лет, две относительно новые тенденции привели к его широкомасштабному использованию: доступность большого объема данных, а также производительность и эффективность параллельной обработки данных, которая возможна благодаря вычислениям на GPU. GPU используются для обучения этих глубоких нейронных сетей с помощью намного более крупных обучающих последовательностей в более сжатые сроки, с использованием меньшей инфраструктуры ЦОД. GPU также используются, чтобы воспроизводить эти учебные модели машинного обучения для выполнения задач классификации и прогнозирования на облаке. При этом графические процессоры позволяют работать с данными большего объема и с более высокой производительностью, потребляя меньше энергии и на базе меньшей инфраструктуры.

К числу тех, кто впервые применил графические ускорители для решения задач машинного обучения, относятся многие крупные веб-компании и социальные сетевые серверы, наряду с научно-исследовательскими институтами высокого ранга в области обработки и анализа данных и машинного обучения. Благодаря тысячам вычислительных ядер и увеличению производительности приложений в 10-100 раз по сравнению с CPU, GPU стали процессорами, которые выбирают специалисты по обработке данных для работы с данными большого объема.

Узнать подробнее о машинном обучении, ознакомиться со свежими статьями, техническими докладами и рекомендованными конфигурациями системы можно по ссылке.

Полный список приложений, ускоряемых на GPU, доступен по ссылке.

теСты ПроизводительноСти для Приложений в облаСти машинноГо обучения

http://www.nvidia.ru/object/gpu-computing-ru.html

http://www.nvidia.ru/object/tesla-gpu-machine-learning-ru.html

http://www.nvidia.ru/docs/IO/125423/GPU_Apps_Catalog_July2014_RU_LR.pdf


в рейтинГе GREEN500 СтановитСя вСе больше СуПеркомПьютеров С GPU

Каждые полгода эксперты индустрии высокопроизводительных вычислений составляют список 500 самых энергоэффективных суперкомпьютеров мира — Green500.

Последние несколько лет самые экономичные системы в мире строятся на базе ускорителей NVIDIA. В новой редакции рейтинга Green500 графические процессоры находятся в основе первых 15-ти систем списка.

Эта редакция знаменует собой новую веху в истории HPC. GPU-ускорители теперь применяют не только для супервычислений и исследований, но и для решения задач обычных коммерческих предприятий. В этом году в числе 15-ти самых эффективных суперкомпьютеров мира появилась система, установленная в крупной итальянской нефтегазовой компании ENI, а также 4 решения для финансовых организаций.


Использование GPU-ускорителей в высокопроизводительных вычислениях позволяет добиться не только огромного прироста производительности, по сравнению с системами исключительно на базе CPU, но и позволяет решать задачи, к которым было невозможно подступиться ранее, сокращает энергозатраты и заметно снижает расходы на обслуживание систем.

NVIDIA неуклонно работает как над повышением производительности своих решений, так и над улучшением их энергоэффективности. Представленная в прошлом году архитектура Kepler обеспечила заметный рывок вперед, втрое сократив энергопотребление по сравнению со своей предшественницей. Мы надеемся, что новые архитектуры GPU смогут продемонстрировать еще лучшие результаты.


ПредложеНия от NVIDIA

вебинары на анГлийСком языке

August 6 (at 9 a.m. PDT)

Deep Neural Networks for Visual Pattern Recognition on Wednesdaypresented by Dan Ciresan, Senior Researcher, Istituto Dalle Molle di Studi sull'Intelligenza Artificiale (IDSIA).

August 12 (at 9 a.m. PDT)

Asynchronous Operations & Dynamic Parallelism in CUDApresented by Dan Cyca, Chief Technology Officer, Acceleware.

August 20(at 9 a.m. PDT)

10 Billion Parameter Neural Networks in Your Basement presented by Adam Coates, Director, Baidu Silicon Valley AI Lab.

October 16(at 9 a.m. PDT)

Essential CUDA Optimization Techniquespresented by Dan Cyca, Chief Technology Officer, Acceleware.

https://www2.gotomeeting.com/register/810317986





беСПлатная лицензия от PGI на 30 дней

Получив доступ к бесплатной 30-дневной версии компилятора PGI, вы сможете воспользоваться вычислительными мощностями GPU и стандартом программирования OpenACC.

OpenACC — это:

• легкость: простота добавления директив в исходный код своей программы.

• открытость: используйте единый исходный код как для CPU так и для GPU.

• мощность: получите быстрый доступ к вычислительной мощности GPU.

уСкоряйте ваши научные Приложения С OPENACC

http://www.nvidia.ru/object/openacc-gpu-directives-ru.html


Воспользуйтесь нашим предложением провести простой и бесплатный тест-драйв ускорителей Tesla K20/K40 GPU.

Самые быстрые в мире ускорители Tesla K20/K40 GPU созданы на основе архитектуры Kepler и обеспечивают высокую производительность и энергоэффективность ваших приложений.

Проведите теСт-драйв уСкорителя TEslA K20/K40 GPU

http://www.nvidia.ru/object/k20-gpu-test-drive-ru.html


НаучНые работы с исПользоваНием вычислеНий На CUDA

Актуальность исследования обусловлена необходимостью разработки программных средств слежения за объектами в реальном масштабе времени.

цель работы: Создание алгоритма слежения за объектом в кадре в реальном масштабе времени.

методы исследования: Параллельная реализация сигмоидальной нейронной сети на графическом процессоре, замеры временных характеристик параллельного алгоритма и его оптимизация.

результаты: Предложена реализация на графическом процессоре (GPU) нейросетевого алгоритма слежения за объектом, спецификой которого является использование при обучении нейронной сети задачника, устанавливающего однозначное соответствие обрабатываемого кадра в видеопотоке координатам центра объекта в кадре. Благодаря использованию GPU удается решить задачу слежения в реальном масштабе времени (25 кадров в секунду) при размерах обрабатываемого кадра до 1280×960.

Алгоритм основан на использовании многослойного персептрона и имеет ряд параметров, которые определены экспериментально. Одним из таких параметров является число нейронов скрытого слоя. В связи с реализацией алгоритма на GPU рассмотрены числа нейронов, кратные 16. В экспериментах установлено, что 16 и 32 нейрона не могут обеспечить даже малой степени запоминания образов, 48 нейронов справлялись с обучением только на малых обучающих выборках, 64 нейрона обеспечили хорошую степень запоминания образов и скорость работы. Дальнейшее увеличение числа нейронов приводит только к уменьшению скорости работы нейронной сети и ее обучения.

Также заслуживает внимания частота, с которой нужно брать кадры из видеозаписи, чтобы эффективно обучить нейронную сеть. Экспериментально установлено, что на частоте выборки одного кадра из десяти сумма максимальных отклонений по обеим координатам равна 50 при размерах объекта 300×300; дальнейшее увеличение частоты кадров лишь замедляет процесс обучения, не давая существенного выигрыша в качестве.

нейроСетевой Параллельный алГоритм Слежения за объектом в реальном времени м. С. тарков, С. в. дубынин

http://izvestiya.tpu.ru/assets/files/N-5_324_2014_Maket-A4.pdf


Получены ускорения процесса слежения в 10 раз по сравнению с центральным процессором персонального компьютера. Процесс обучения нейронной сети ускорился в среднем только в 2 раза. Это обусловлено необходимостью транспонирования матриц весов при реализации обучения нейронной сети на GPU.

Для реализации параллельного алгоритма использована программноаппаратная архитектура CUDA, позволяющая производить вычисления с использованием графических процессоров NVIDIA, поддерживающих технологию GPGPU (произвольных вычислений на видеокартах). Для предварительной обработки изображений и вывода информации использовалась библиотека компьютерного зрения OpenCV. Рис. Ускорение параллельной реализации алгоритма по сравнению с

последовательной


В настоящее время методы высокого порядка точности наряду с методом крупных вихрей (LES) приобретают все большую популярность в задачах о течении жидкостей и газов. Данное обстоятельство объясняется не только высоким качеством результатов, которое эти методы позволяют достичь, но и непрерывным ростом мощностей вычислительных ресурсов.

Использование таких ресурсов, как графические процессоры, чья производительность значительно превышает производительность обычных (центральных) процессоров, позволяет проводить нестационарные расчёты достаточно больших конструкций (в том числе и турбомашин) на подробных сетках в короткие сроки. Это дает возможность решать важные прикладные задачи, в частности задачу об определении шума реактивного сопла.

Постоянное ужесточение норм по шуму самолетов приводит к необходимости сложного акустического проектирования основных источников его шума, таких как вентилятор и сопло двигателя. Для этого требуется точное и быстрое моделирование процессов образования и распространения шума, что неизбежно приводит к высоким вычислительным затратам.

Такая задача, как расчет генерации шума сопла, является сложной также и в плане физической постановки: при её решении необходимо точно описывать не только турбулентную струю с большими градиентами физических величин внутри нее, но и распространение генерированных ей звуковых волн, которые имеют значительно меньшую амплитуду. В данной постановке только схемы высокого порядка точности, а в частности — схемы, специально оптимизированные под задачи о распространении звука, могут служить решением. Эти схемы, в силу своих свойств, также позволяют уменьшить размерность необходимой расчетной сетки.

В данной работе описывается создаваемый на ОАО «Авиадвигатель» программный пакет GHOST CFD, использующий преимущества как схем высокого порядка, так и современных вычислительных ресурсов. Кроме того, рассматриваются две тестовые задачи, решенные с его помощью: истечение газа из дозвукового модельного сопла европейского проекта JEAN (Jet Exhaust Aerodynamics And Noise) и генерация шума модельным дозвуковым коническим соплом.

раСчёт Генерации шума модельных СоПел на ГрафичеСких ПроцеССорах е. в. коромыслов, м. в. усанин, л. ю. Гомзиков, т. П. любимова

Рис. Масштабируемость решателя GHOST CFD и ускорение по сравнению с CPU. — Коническое сопло (12М), — сопло JEAN (12М), — тестовая задача (8М).

http://rao.akin.ru/Rao/sess27/%D0%BA%D0%BE%D1%80%D0%BE%D0%BC%D1%8B%D1%81%D0%BB%D0%BE%D0%B2.pdf


В настоящее время инженерные газодинамические расчеты проводятся, в подавляющем большинстве, схемами низкого (до 2го) порядка точности. Также для них в основном используются осредненные по Рей-нольдсу уравнения Навье-Стокса, а сами расчеты проводятся в стационарных постановках с использованием секторов периодичности, допускаемых конструкцией. Такая постановка задач, в контексте турбомашин и авиадвигателестроения, позволяет определить многие важные характеристики двигателя, такие как потери полного давления на ступенях компрессора и турбины, их КПД, а также тягу, создаваемую реактивным соплом. Тем не менее, при проектировании авиационных двигателей (особенно это касается современных двигателей нового поколения) стоят и такие важные задачи, как определение акустических характеристик, а также динамической прочности конструкций. Данные задачи, в общем случае, могут быть решены только с применением нестационарных расчетов конструкции в целом, без использования периодичности. При этом необходимые вычислительные ресурсы значительно увеличиваются, а время расчета начинает составлять недели и месяцы (например, порядка месяца для расчета шума вентиляторной ступени двигателя). Более того, для расчетов генерации и распространения звука требуются модели с использованием метода крупных вихрей (LES). Для большинства таких задач также необходимы схемы высокого порядка точности, способные хорошо описывать как основное высокоамплитудное турбулентное течение, так и распространение низкоамплитудных звуковых волн. Следует отметить, что использование данных схем значительно увеличивает необходимые вычислительные ресурсы и время расчета.Для возможности проведения таких нестационарных расчетов методами высокого порядка точности на ОАО «Авиадвигатель» создается решатель GHOSTCFD (GPU-orientedHighOrderSTructured).

Все основные расчетные процедуры GHOSTCFD реализованы в виде ядер на CUDAC. Также имеется возможность расчета на нескольких ГПУ с одновременным выполнением расчетных процедур и передачей данных между ГПУ с помощью GPUDirect, что позволяет увеличить эффективность распараллеливания.

раСчёт инженерных ГазодинамичеСких задач методами выСокоГо Порядка точноСти на ГрафичеСких ПроцеССорах е. в. коромыслов, м. в. усанин, л. ю. Гомзиков, а. а. Синер

Рис. Мгновенное распределения числа Маха в расчетной области и из энтропического числа Маха на поверхности лопатки для STCF4.

http://gpu-hpc.psu.ru/Reports-GPU-HPC-2014.pdf


Математический аппарат Скрытых Марковских Моделей (СММ) представляет собой универсальный инструмент моделирования стохастических процессов, для описания которых не существует точных математических моделей, а их свойства меняются с течением времени в соответствии с некоторыми статистическими законами. Наиболее широкое применение СММ нашли при решении таких задач, как распознавание речи, анализа последовательностей ДНК и ряда других.

Современные системы распознавания речи предполагают наличие нескольких сотен, а то и тысяч Скрытых Марковских Моделей и их сочетаний, вследствие чего работа со СММ связана со значительными вычислительными затратами, как на этапе обучения — при обработке огромного массива речевых данных, так и при последующем декодировании — в зависимости от сложности языковой модели. Например, обучение хорошей помехозащищенной дикторо-независимой системы распознавания слитной речи может занять несколько недель, а то и месяцев. Поэтому задача оптимизации алгоритмов обработки СММ остается актуальной в настоящее время.

Применение современных технологий параллельного программирования, в частности графических мультипроцессоров, позволяет получить значительный прирост производительности и перейти на качественно более высокий уровень в решении задач распознавания речи.

Целью данной работы является оптимизация алгоритмов обучения Скрытых Марковских Моделей (Baum-Welch re-estemation и forward-backward) и алгоритма декодирования (обобщенный алгоритм Витерби) с помощью графического процессора (CUDA) и оценка прироста производительности относительно центрального процессора (CPU).

Применение технолоГии NVIDIA CUDA для обучения и декодирования Скрытых марковСких моделей П. м. зацепин, д. а. Гефке

http://izvestiya.tpu.ru/assets/files/N-5_324_2014_Maket-A4.pdf


Представлена усовершенствованная реализация интерактивного программного комплекса визуализации и анализа синоптических данных, предназначенного для автоматизации исследований динамики атмосферы и океана. Описана новая архитектура и функциональные возможности комплекса. Приведены результаты тестирования и опытной эксплуатации системы.

Исследования динамики атмосферных явлений и океана, выполняемые метеорологами, подразумевают работу с большими объемами пространственных данных. Поэтому при разработке программных систем, обеспечивающих автоматизацию научных исследований в этой области, возникают две основные задачи, от результативности решения которых зависит эффективность системы в целом: быстрая обработка больших объемов данных (приведение исходных данных к желаемому виду) и визуализация 3D данных, облегчающая пространственное восприятие синоптических данных и понимание погодных явлений.

Существует ряд зарубежных и отечественных программных разработок в этой области. Однако разработки, представляющие данные с большой степенью информативности и высоким качеством визуализации, имеющие высокопроизводительную аппаратную поддержку, являются уникальными и нетиражируемыми, поскольку характеризуются достаточно сложной программной архитектурой с привязкой к специализированному вычислительному оборудованию, специфике форматов данных и решаемым задачам в конкретном центре. Общедоступные системы имеют ряд недостатков, в особенности невысокий уровень интерактив— ности интерфейса и информативности визуализации, а также ограниченный набор поддерживаемых форматов данных и методов визуализации. Поэтому на сегодняшний день сохраняется актуальность проблемы разработки систем визуализации синоптических данных.

ПроГраммный комПлекС визуализации СиноПтичеСких данных в.а. бобков, С.в. мельман, в.П. май, а. С. черкашин

Рис. Кадр анимационной визуализации динамики циклона "Мелор" над японскими островами. Среднее значение температуры рассчитывается внутри кольца, центр которого совпадает с центром циклона.

http://ics.khstu.ru/media/2014/N39_15.pdf


вакаНсии CUDA

Вакансия: Специалист по развитию технологий (мобильная платформа)

Компания: NVIDIA

Город: москва

оПиСание

Мы ищем первоклассного инженера для работы в команде поддержки разработчиков мобильной платформы Tegra. В обязанности будет входитить помощь сторонним разработчикам в оптимизации приложений (в основном, игровых) для мобильной платформы Tegrа, обеспечение оптимальной производительности, портирование, написание технических демонстраций и участие в конференциях. Возможны редкие командировки за рубеж.

требования:

• Отличное знание С++. • Отличные знания в области математики. • Опыт использования графических библиотек DirectX или OpenGL. • Опыт написания и оптимизайции шейдеров GLSL/HLSL/CG. • Опыт портирования приложений. • Опыт профилирования приложений. • Опыт работы c Android как плюс. • Опыт написания бенчмарков как плюс. • Опыт работы с CUDA как плюс. • Разговорный английский язык.

Подробнее

http://hh.ru/vacancy/11295340?query=cuda

коНтакты и ПолезНые ссылки

Если вы хотите, чтобы ваша статья появилась в следующем выпуске CUDA Альманах пишите нам на: [email protected]

По вопросам приобретения NVIDIA GPU и по прочим техническим вопросам пишите нам на: [email protected]

Протестируйте PGI OpenACC compiler бесплатно в течение месяца: www.nvidia.ru/openacc

Узнайте подробнее про CUDA: www.nvidia.ru/cuda

Полный каталог приложений, ускоряемых на CUDA: http://www.nvidia.ru/gpuapps

Copyright © 2014 NVIDIA логотип NVIDIA, являются торговыми знаками или зарегистрированными торговыми знаками компании NVIDIA в США и других странах. Все другие названия компаний и/или продуктов могут являться товарными знаками и/или зарегистрированными товарными знаками соответствующих владельцев. Все права защищены.

NVIDIA Corporation, 2701 San Tomas Expressway, Santa Clara, CA 9505

mailto:landreeva%40nvidia.com?subject=

mailto:adzhoraev%40nvidia.com?subject=

www.nvidia.ru/openacc

Documents

CUDA альманах · 2016-10-31 · решения для рынка hpc». nvidia gpu ... две относительно новые тенденции ... сжатые сроки,