Программно-аппаратная архитектура CUDA, осень 2015 [Открытое прочтение]: Иерархия памяти GPU

Иерархия памяти

Храмченков Э.М.1,2

1. Казанский федеральный университет

2. НИИСИ РАН

Computer Science клуб, Казань, 21.10-23.10, 2015 г.

Организация памяти и работы с ней на CPU и GPU существенно отличаются


Память GPU


CPU – основная площадь схемы занята кешами


Память GPU



GPU – основная часть отведена под вычислительные блоки


Память GPU




В GPU существует несколько видов памяти - некоторые в мультипроцессорах, другие в DRAM


Память GPU




В GPU существует несколько видов памяти - некоторые в мультипроцессорах, другие в DRAM

Эффективное использование памяти – один из важнейших элементов написания быстрого кода


Память GPU

Тип памяти Доступ Видимость Скорость Расположение

Регистры R/W Per-thread Высокая SM

Локальная R/W Per-thread Низкая DRAM(device)

Разделяемая R/W Per-block Высокая SM

Глобальная R/W Per-grid Низкая DRAM(device)

Константная R/O Per-grid Высокая DRAM(device)

Текстурная R/O Per-grid Высокая DRAM(device)


Память GPU


Память GPU

Регистры – наиболее простой вид памяти:


Регистры


Распределяются между потоками блока на этапе компиляции


Регистры



Каждый поток получает в монопольное пользование некоторое количество регистров на все время исполнения ядра


Регистры




Доступ к регистрам других потоков запрещен


Регистры




Доступ к регистрам других потоков запрещен

Расположен в мультипроцессоре – минимальная латентность


Регистры

Локальная память – используется если регистров не хватает:


Локальная память


Размещена в DRAM GPU – высокая латентность порядка 400-800 тактов





В локальную память всегда попадают union’ы и массивы, размерность которых неизвестна во время компиляции






В локальную память попадают большие структуры и массивы



Локальная память – используется если регистров не хватает: Размещена в DRAM GPU – высокая латентность

порядка 400-800 тактов


В локальную память попадают большие структуры и массивы

Все переменные, если ядро использовало все регистры



Константная (constant) и текстурная (texture) память – расположены в DRAM GPU:


Constant & texture


Обладают независимым кешем – высокая скорость доступа


Constant & texture



Доступны всем потокам сетки, но только на чтение


Constant & texture




Запись с CPU с помощью CUDA API


Constant & texture





Общий объем константной памяти – 64КБайт


Constant & texture





Общий объем константной памяти – 64КБайт

Текстурная память – объем равен свободному объему DRAM, но доступ ведется через специальный кеш, работа с данными как с текстурами


Constant & texture

Глобальная память – память DRAM GPU:


Глобальная память


Высокая латентность – около 800 тактов





Может выделяться как с CPU при помощи CUDA API, так и потоками на GPU, с помощью malloc






Начиная с архитектуры Fermi кешируется, но эффективность в пересчете на поток незначительна







Может использоваться всеми потоками сетки







Может использоваться всеми потоками сетки

Минимизация доступа к глобальной памяти – основной метод создания эффективного кода



Выделяется и освобождается на CPU командами:

cudaError_t cudaMalloc(void ** devPtr, size_t size);

cudaError_t cudaFree(void * devPtr);






Доступ к массивам может быть ускорен при наличии выравнивания






Доступ к массивам может быть ускорен при наличии выравнивания

Функция для выделения памяти с выравниванием, сдвиг возвращается через параметр pitch:

cudaError_t cudaMallocPitch(void ** devPtr, size_t * pitch, size_t width, size_t height);



Указатель от cudaMalloc имеет смысл только для адресного пространства GPU. Для заполнения памяти GPU данными с хоста необходимо использовать команду:

cudaError_t cudaMemcpy ( void * dst, const void * src, size_t size, enum cudaMemcpyKind kind );



Указатель от cudaMalloc имеет смысл только для адресного пространства GPU. Для заполнения памяти GPU данными с хоста необходимо использовать команду: cudaError_t cudaMemcpy ( void * dst, const void * src,

size_t size, enum cudaMemcpyKind kind );

Направление копирования определяются параметром kind: host -> device – cudaMemcpyHostToDevice

device -> host – cudaMemcpyDeviceToHost



Shared (разделяемая память) – один из важнейших типов памяти:


Разделяемая память


Расположена в мультипроцессоре, но выделяется на уровне блоков





Каждый блок получает в распоряжение одно и то же количество разделяемой памяти






Размер 48КБайт (+16Кбайт кеша на Fermi)







Низкая латентность – такая же как у регистров







Низкая латентность – такая же как у регистров

Может использоваться всеми потоками блока



Эффективно использовать разделяемую память как буфер, вместо обращения к глобальной памяти




Объем разделяемой памяти делится поровну между всеми блоками потоков, запущенными на мультипроцессоре




Объем разделяемой памяти делится поровну между всеми блоками потоков, запущенными на мультипроцессоре

Размер разделяемой памяти может быть задан в CUDA-ядре при определении массивов с атрибутом __shared__ или в параметрах запуска ядра



Ситуация – поток А изменяет значение переменной X в разделяемой памяти, поток В должен читать измененное значение

Какое значение в реальности считает поток В

Порядок выполнения потоков не определен – результат операции будет undefined

Чтобы избежать race condition необходима барьерная синхронизация потоков __syncthreads()



Типичный алгоритм:

Загрузка данных из global в shared

__syncthreads ()

Вычисления над этими данными

__syncthreads ()

Запись данных из shared в global


Синхронизация

Начиная с CUDA 4.0 существует Unified Virtual Addressing (UVA) – общее адресное пространство всех GPU и хоста


Unified Virtual Addressing


Адреса больше не пересекаются между собой





Доступ по указателям из GPU кода, вне зависимости от их фактического размещения





Доступ по указателям из GPU кода, вне зависимости от их фактического размещения

Копирование данных между двумя GPU без хост-буфера





Начиная с CUDA 6.0 и архитектуры GPU Kepler появилась Unified Memory – развитие UVA


Unified Memory


Одинаковый указатель для CPU и GPU памяти


Unified Memory



CUDA автоматически перемещает данные между хостом и GPU


Unified Memory




Создание кода значительно упрощается – нет нужды в ручном копировании


Unified Memory




Создание кода значительно упрощается – нет нужды в ручном копировании

Это не единая физическая память


Unified Memory


Unified Memory

Old Memory Perception New Perception with Unified Memory


Unified Memory

Начиная с архитектуры Fermi используются L1 и L2 кеши


Кеширование


Кеш L1 находится на каждом мультипроцессоре





Кеш L2 общий и имеет размер 768 Кбайт






Кеш L1 и разделяемая память расположены на одном физическом носителе – 64Кбайт







Длина кэш-линии составляет 128 байт







Длина кэш-линии составляет 128 байт

Если размер слова для каждой потока равен 4 байтам, то запросы в память всех 32 потоков варпа объединяются в один





Выравнивание - при чтении и записи значений глобальной памяти на низком уровне используются выровненные 32-, 64- и 128-битные слова


Оптимизация доступа в память


Вся выделяемая память CUDA всегда выровнена по 256 байт





Если адрес объекта невыровнен – требуется больше обращений к памяти





Если адрес объекта невыровнен – требуется больше обращений к памяти

Чем выше латентность типа памяти, тем важнее выравнивание





Пример:

struct vec3{

float x, y, z;

};

Размер = 12 байт

Не выровнен в памяти

В случае создания массива – выровненным будет только каждый 4й элемент



Решение 1 – добавить фиктивный элемент

struct vec3{

float x, y, z, w;

};

Решение 2 – директива выравнивания по 16 байтам

struct __attribute__((aligned(16))) vec3{

float x, y, z;

};

Все элементы расположены по адресам кратным 16



Coalescing – объединение запросов потоков полуварпа или всего варпа в одно обращение к непрерывному блоку глобальной памяти


Объединение запросов


Условия объединения запросов полуварпа:





Все нити должны обращаться к 32/64-битным словам, давая в результате 64/128-байтовый блок






Блок должен быть выровнен по размеру







Все 16 слов должны находиться в блоке




Условия объединения запросов полуварпа: Все нити должны обращаться к 32/64-битным словам,

давая в результате 64/128-байтовый блок


Все 16 слов должны находиться в блоке

Последовательное обращение – k-ая нить к k-ому слову




Удачное объединение


Неудачное объединение

На архитектуре Fermi появилось объединение для всего варпа




Объединение запросов эффективнее работает со структурами или наборами массивов, чем с массивами структур




Объединение запросов эффективнее работает со структурами или наборами массивов, чем с массивами структур

Объединение запросов – потенциальное ускорение CUDA-приложения



Квадратная матрица n×n

n – степень двойки

Два варианта – самый простой, без использования разделяемой памяти и с использованием разделяемой памяти

Примерно 2.7-кратное ускорение


Транспонирование матрицы


Транспонирование матрицы

Квадратные матрицы n×n

n – степень двойки

Двумерная сетка блоков, двумерные блоки 16×16

«Наивная» реализация

На каждый элемент:

2N арифметических операций

2N обращений к глобальной памяти

Производительность ограничена пропускной способностью памяти


Перемножение матриц


Перемножение матриц

Оптимизация «наивного» алгоритма:

Считаем n кратным 16

Для вычисления подматрицы C΄ необходимы лишь полосы A΄ и B΄ размером n×16 исходных матриц А и В

При N=1024 полосы не лезут в shared

Выход – разбиение полос на подматрицы 16×16

C΄ – сумма попарных произведений подматриц из этих полос


Блочное перемножение матриц





В этом случае C΄ вычисляется за n/16 шагов

На каждом шаге в разделяемую память загружаются 2 подматрицы 16×16

Обращения в глобальную память будут объединены

Требуется 2n/16 обращений в глобальную память

Число арифметических операций осталось 2n

Данные тестов приведены для n=2048

В CUBLAS алгоритм оптимизирован на регистрах



Алгоритм перемножения Скорость, мс

Без разделяемой памяти 324,63

С разделяемой памятью 93,26

Библиотека CUBLAS 30,84




To be continued…

Documents

Программно-аппаратная архитектура CUDA, осень 2015 [Открытое прочтение]: Иерархия памяти GPU