Upload
expolink
View
300
Download
11
Embed Size (px)
Citation preview
Новые технологии Ethernet в решениях QLogicНоябрь 2014
Сергей Перроте[email protected] Account Manager Russia / CIS+7 916 993 3480
Несколько слов о компании Qlogic Corp
3
• Более 1 000 сотрудников • Глобальное присутствие:
• Центры разработки в США, Израиле и Индии• Заводы в Китае и Малайзии• Логистические центры и офисы по всему миру
• Штаб-квартира: Aliso Viejo, Калифорния
U.S., China, France, Germany, India, Ireland, Israel, Japan, Singapore, Taiwan, U.K.
68%9%
15%8%
Engineering Ops / IT S&M G&A
July 2014
4
Продуктовый портфель Qlogic – свежие новости :
Новый портфель решений QLogic в технологии 10 Gb Ethernet
Немного об истории Ethernet
• Ethernet начался как средство связи между компьютерами
• Главной задачей была гибкость (совместимость) и надежность связи, а не скорость
• Ранние реализации, например, Telnet, были средством обмена строками символов
• Протоколы блоковой передачи данных и передачи файлов появились чуть позже
• Побайтное упорядочение было важно для обеспечения взаимодействия по данным
• Модель OSI (Open Systems Interconnect) определила надежную схему взаимодействия и
совместимости
• Данные для обмена содержались и обрабатывались в буферах ядра ОС
• Сообщения и их последовательности собираются на Транспортном Уровне OSI (Layer 4)
средствами ОС и передаются приложениям
• В процессе SAR (Segmentation and Reassembly) данные многократно копируютсяJuly 1420
Protocols Data UnitFunctionOSI Layer
Protocols Data UnitFunctionOSI Layer
Protocols Data UnitFunctionOSI Layer
Protocols Data UnitFunctionOSI Layer
Protocols Data UnitFunctionOSI Layer
Protocols Data UnitFunctionOSI Layer
Модель сетевого обмена OSI (Open Systems Interconnect )Создана для max совместимости и надежности обмена данными, но не производительности
Приложение(Layer 7)
Передача данных в приложение. Определение адреса-та, параметров конфиденциальности, QoS и др.
SMB, HTTP, SMTPTelnet, FTP, SNMP User Data
Представление(Layer 6)
Преобразование данных, кодирование, шифрование, сжатие и др.сервисы
HTTP, SMTP, AFPTelnet, FTP, TDI User Data
Сессия(Layer 5)
Связь между хостами, распределение сессий междуприложениями.
NetBEUI, TCPUDP, SPX
User Data
Транспорт(Layer 4)
Доставка данных между конечными точками в Сети.Абстрагирование уровней L5-7 от деталей уровней L1-3.
IP, IPX, NWLinkNetBEUI
Сегмент /Блок данных
Сеть(Layer 3)
Адресация, маршрутизация доставка датаграмм между узлами сети.
IP, IPX, TCPNWLink, NetBEUI
Пакет /Датаграмма
Канал(Layer 2)
Доступ к аппаратуре (MAC), формирование кадров (фреймов) и доставка из точки в точкуDelivery.
Ethernet, PPPHDLC
Кадр (фрейм)
Физический(Layer 1)
Передача потока битов через физическую среду, кодирование, управление физич. параметрами сигнала.
Ethernet, TokenRing, FDDI, IB
Бит/ Кодовое слово
Протоколы ДанныеФункцияУровень
July 1421
Основы технологии Ethernet
• Базовый формат кадра Ethernet
• Допускается использование фреймов >1518 бит “Jumbo Frames” до 9K байт• Фреймы < 64 бит считаются испорченными и игнорируются на приеме
6 bytes 6 bytes 2 bytes 4 bytesFCS
адрес доставки
адресотправит
Тип /Длина Полезная нагрузка
46-1500 bytes
64 bytes minimum1518 bytes maximum
ЗаголовокSOF
8 bytes
Хвостовик
12 bytes
4 bytes
20 bytes транспортные накладные расходы
Optional 802.1QVLAN HDR
12 bit VLAN ID
0x8100
July 1422
Основы технологии Ethernet – уровень IP и TCP :
• Базовый формат кадра Ethernet
• Заголовок в IPv4 - 20 байт, в IPv6 - 40 байт; заголовок TCP - min 20 байт• Некоторые режимыTCP увеличивают размер заголовка
• В итоге полезная нагрузка уменьшается до размера max 1442 байта• Это значение называется TCP MSS (Maximum Segment Size)
6 bytes 6 bytes 2 bytes 4 bytesFCS
Адресдост.
Адресотпр.
Тип /длина Полезная нагрузка
0-1442 bytes
64 bytes minimum1518 bytes maximum
ЗаголовокSOF
8 bytes
Хвостовик
12 bytes
20 bytes транспортные накладные расходы4-8 bytes накладные расходы VLAN
40-60 bytes накладные расходы TCP / IP
ЗаголовIP
ЗаголовTCP
20 /40 bytes 20 bytes
July 1423
Стеки протоколов СХД и Сетевого обмена
Приложение
Socket Lib
TCP/IPNIC Driver
CNA
Socket APIFile System API
Порт NICПорт CNA
File System
SCSI ‘Head’ driverSCSI ‘Port’ driver
• Обычно одно прерывание на 1 операцию I/O (чтение / запись)
• Протокол SCSI: адаптер CNA напрямую управляет SAR*
• CNA ведет прямой обмен данными (DMA) с буферами приложений
• Обычно одно прерывание на пакет или серию пакетов
• Адаптер NIC ведет DMA- обмен данными с буферами ядра
• Стек протоколов выполняет SAR* и копирует данные в/из буферов приложений
БуферПрилож.
БуферЯдра ОС
User-modeKernel-mode
* SAR = Segmentation and Reassembly
Стек протоколов СХД:Создан для быстрой передачи больших объемов данных
Стек сетевых протоколов:Создан для обеспечения гибкости взаимодействия
July 1428
Работа сетевого стека на прием – Без разгрузки (Non Offload)
• Очередь буферов Rx (прием)• Буфера в области ядра, в них
обрабатываются заголовки и выполняется сборка данных
• Пакеты Ethernet пересылаются в буфера ядра и выдается сигнал прерывания
• Запускается драйвер и сообщение о приеме поступает в драйвер верхнего уровня
• Стек протоколов анализирует принятый пакет
• Когда все сообщение полностью получено, оно копируется в буфер приложения и выдается сигнал окончания операции
Приложение
Socket Lib
Стек протоколов(TCP/IP, UDP, и т.д.)
Драйвер NIC
Адаптер NIC
Socket iFace
Буфер ядра Rx
User Rx Data
Порт PCIe
Rx QueueData Re-assembly
Copy to User space
User Tx Data
User-modeKernel-mode
EmptyEmptyEmptyEmpty
Поток 1 пак 1Поток 2 Пак 1Поток 1 Пак 2Поток 1 Пак 3
1Intrpt
2 Intrpt
3 Intrpt
4
Intrpt
1
23
1
Поток 2 Пак 1 Copy to User spaceПоток 1Пак 1, 2, 3
Сеть
EmptyEmptyEmpty
July 1430
Реализация функции RSS (Receive Side Scaling)
• RSS: Receive Side Scaling• Пакеты разводятся по разным
очередям• NIC обрабатывает заголовки входящих
пакетов и группирует «похожие» пакеты по соответствующим очередям
• Результат: ядра ЦП параллельно обрабатывают потоки пакетов значительный рост производительности
• При использовании SR-IOV требуется много очередей RSS, причем для каждой ВМ
• NX2 обеспечивает поддержку SR-IOV и разгрузку процессора с использованием RSS
RSS:Разделенные очереди Rx
Хост CPU
CPU
CPU
CPU
Stream 1 Pkt 1Stream 2 Pkt 1Stream 3 Pkt 1Stream 1 Pkt 1
Поток 2 Пак 1Поток 3 Пак 1Поток 4 Пак 1
RxQueue
RxQueue
RSSQueue
RSSQueue
RSSQueue
RSSQueue
Поток 1 Пак 1
Обработка пакетов в
один поток
Пакеты одной сессии должен обрабаты-
вать один поток CPU
July 1432
Работа с большими сегментами данных (LSO, TSO, GSO)
• LSO: Large Segment Offload• NIC через DMA забирает данные
непосредственно из области памяти задачи
• NIC сегментирует данные на пакеты длиной MSS
• NIC вставляет изначально предоставленные заголовки TCP/IP или UDP в каждый последующий пакет
• До 64 KB данных можно отправить за одну операцию обращения хоста к адаптеру.
• NX2 поддерживает LSO для UDP и TCP
Host CPU
CPU
CPU
CPU TxQueue
Memory
Хост посылает адаптеру указатель на блок данных длиной до 64 KB
Вместе с адресом данных хост передает стартовые заголовки
TCP / IP или UDP
NIC черз DMA получает доступ к данным, нарезает их на пакеты, вставляет заголовки и отправляет пакеты, пока сегмент данных не будет исчерпан.
Up to 64KB
закончил
July 1433
Иллюстрация работы TPA Transparent Packet Aggregation(также известно как LRO)
HDR1 Data #1(seq n)
HDR2 Data #1(seq q)
Порядок получения пакетов
H1
H2
Результат работы TPA
Data #1(seq n)
Data #1(seq q)
HDR1 Data #3(seq n+2)
Data #3(seq n+2)
HDR2 Data #2(seq q + 1)
Из NIC в память Из NIC в стек драйверов
Стек TCP/IPLinux или Windows
Обработка пакетов в ОС
Прерываниеt
HDR1 Data #2(seq n+1)
Data #2(seq n+1)H1’
Data #2(seq q + 1)H2’
July 1434
Скорости и проводники
July 1437
Концепция физического уровня Ethernet…..
• MAC: Media Access Control• Формирование пакетов на уровне Layer 2
• PCS: Подуровень физического кодирования• Кодировки: 8B/10B, 64B/66B, и т.д.• Определение виртуальных линий:
• Least Common Multiplier (LCM) определяет кол-во виртуальных линий
• Multi-Lane Distribution (MLD)• Отображает виртуальные линии на физическую
• PMA:Подключение физической линии• SFP+ или QSFP+ cages
• PMD:Physical Medium Dependent• Обычно – оптический модуль (может содержать
собственный PMA)
Media Access Control (MAC)Reconciliation Sub-layer
Physical Coding Sub-layer (PCS)
Physical Media Attachment (PMA)
Media Independent Interface(MII)
Physical Medium Dependent (PMD)
Функции контроллера Ethernet:L2, iSCSI, FCoE, виртуализация ит.д.
July 1438
Стандарты IEEE скоростей Ethernet и их реализация
10GB-T 10G-KR/SFI 40G KR/CR-4(MLD-4)
100G-CAUI(MLD-20)
2 дифференциальых пары 1 Tx + 1 Rx пара – 4 провода
Пары на частоте 10.3125 Gb/sКодировка 64B/66B
4 линии x 10 Gb4 пары Tx + 4 Rx –16 проводов40Gb передаются по 4 линиям
10 Gb посредством MLD-4
4 дифференциальных пары4 пары Tx / Rx – 8 проводов
Кабель катагории CAT6aКаждая пара параллельно
передает ¼ данных Tx и Rx Кодировка THP PAM-16
Rx + Tx Rx Tx Rx Tx
10 линий x 10Gb10 пар Tx + 10 Rx – 40 проводов100Gb передаются по 10 линиям
10Gb посредством MLD-20
Rx Tx
10G CX-4
4 линии x 3.125Gb4 пары Tx + 4 Rx– 16 проводов
10Gb распределено по интерфейсу XAUI
Rx Tx
July 1439
40Gb MLD Layer
Lane 4
Lane3
Lane 2
Lane1
Пример распределения 40Gb через MLD-4:Симметричные виртуальные и физические линии
Данные в 64-битных пакетах
Данные для передачи в 66-битной кодировке
… #0#1#2#3#n+0
4 физические линии4 виртуальные линии
#n+1#n+2#n+3
July 1440
100Gb MLD Layer
Lane0
Пример распределения 100Gb через MLD-20:Симметричные виртуальные и физические линии
Данные в64-битных пакетах
Данные для передачи в 66-битной кодировке
#0
10 Физических линий
Lane1
Lane2
Lane3
Lane4
Lane5
Lane6
Lane7
Lane8
Lane9
#1#2#3#4#5#6#7#8#9#10#11#12#13#14#15#16#17#18#19
20 Виртуальных линий
July 1441
Новые скорости… стандартные (IEEE) и не очень
40GB-TIEEE
100G-KR-4IEEE
4 диффернциальных пары4 пары Tx / Rx – 8 проводов
Кабель категории CAT8Каждая пара передает ¼
данных Tx и Rx одновременноКодировка THP PAM-16 (30м)
Rx + Tx
4 линии x 25Gb По 4 пары Tx и Rx – 16 проводовПоток 100Gb распределен по 4 линиям 25Gb используя MLD-4
20G-KR/SFIУпрощение от 40Gb
4 дифференциальные парыПо 2 пары Tx и Rx = 8 проводов
Пары на частоте 10.3125 Gb/sПоток 20Gb распределен по
двум линиям 10Gb, используя MLD-4
Rx TxRx Tx
50G MLD-4Упрощение от
100G-KR-4
4 дифференциальные парыПо 2 пары Tx и Rx =8 проводов
Пары на частоте 25 Gb/sПоток 50Gb распределен по
2 линиям 25Gb используя MLD-4
Rx Tx
½ o
f 100
G-KR
-4
½ o
f 40G
-KR-
4
25G-KRMax скоростьодной линии
2 дифференциальные парыПо 1 паре Tx и 1 Rx – 4 провода
Пары на частоте 25 Gb/sКодировка 64B/66B
Rx Tx
July 1442
Новые разработки для скоростей 25G / 50G
• Новый консорциум 25G / 50G:
25gconsortium.org
July 1443
QLogic присоединяется !
Новый консорциум 25Gb / 50Gb / 100 Gb: http://www.2550100.com
July 1444
Основные особенности семейства NetXtreme II
July 1445
2x10G + 2x1G для недорогих решений
Blade и Rack
Лидер по производительности за счет разгрузки Storage HBA offload – 1.6M – 2.5M IOP/s
Непревзойденные возможности
виртуализации: • туннелирование,• SR-IOV• NIC-Partitioning
Лидер производительности для копусов Blade
и Rack включая 4x10Gb и 2x20Gb
Серия микросхем Everest 3: обзор функций
• Разгрузка туннелирования:• VXLAN• NVGRE
Виртуализация Сети
• NIC Partitioning – virtually all OEM flavors• SR-IOV (128 VFs + 8 PFs)• QoS per PF (B/W limit and priority)
Виртуализация сервера
• Разгрузка iSCSI HBA (одновременно)• Разгрузка FCoE HBA (одновременно)• Поддержка DCB для iSCSI и FCoE
СХД
• x8 PCIe Gen 3 (64Gbps в обе стороны)• Гибкий выбор: 2x1Gb + 2x10Gb• Высокие скорости – 4x10G, 2x20G• Пропускн.способность 40GbE дуплекс
Мощность & производительность
• NCSI включая поддержку RMII• MCTP через SMBUS• Связь Хост – BMC
Управление
Единая платформа для Blade и Rack – для Enterprise и Облаков
July 1446
Архитектура семейства Everest 3 “Meru / Kilimanjaro”:
• MAC, PHY, PCIe и Процессор Управления – разделяемые ресурсы.• Отдельные полностью изолированные рабочие процессоры Storm Engines• Высокоскоростная и гибкая архитектура ПО прошивки и аппаратного решения
MAC /PHY
До 4-х портов
PCIe
Storm Engine 1TX Buffer
RX Buffer
TxTx
RxRx
Storm Engine 0TX Buffer
RX Buffer
TxTx
RxRx
ПроцессорУправления
Port 0
Port 1
Port 2
Port 3
Независимые каналы данных
H/W Parser
Classifier
Context eng.
Queue Mgr.
H/W Parser
Classifier
Context eng.
Queue Mgr.
July 1447
Everest 4(Big Bear): Блок-схема и основной функционал
Single/Dual/Quad-Port 100/50/40/25/20/10GbE• Powerful, Fully Featured Controller
− iSCSI and FCoE HBA offload support− RoCE RDMA support− Multi-Tenant: SR-IOV: 120VFs per Engine− Network Virtualization: Tunneling Offloads over L2,
RDMA or Storage protocols
• PCI Express® host interface− Gen 3x16 with latest ECNs: TPH, LTR, OBFF
• Integrated 10/25Gb PHYs• High performance
− Full bi-directional line-rate throughput− High PPS: > 30M Rx PPS (>15M PPS / Engine)− Latency: 3us with RDMA (under high IOP load)
• Advanced features− 50G via two-serdes-lanes physical interconnect− OpenFlow
• Small package: 27mm2
• Early Samples: Aug/Sep 2014(MIPs)
1x 100Gb2x 50Gb2x 40Gb4x 25Gb4x 20Gb4x 10Gb
July 14QLogic Confidential48
Сравнение серий E-3(Meru, Kilimanjaro) и E-4 (Big Bear)
Функции, технологии, производительность
Meru (BCM 57810, 57800) Kilimanjaro (BCM 57840) BB (BCM 57980)
Скорости и режимы 2x10G, 2x10G + 2x1G 4x10G, 2x20G 4x10Gb/20Gb/25Gb | 2x40Gb/50Gb | 1x100G
Max потребляемая мощность на чип 7W 9W 6W - 40Gb / 13W – 80Gb,100Gb
Пакетов/сек L2 Rx - на 1 канал / всего 3M / 6M всего 3M / 6M всего 15M / 30M всего
Low Latency (RDMA/RoCE, DPM) Не поддерживается Не поддерживается MS SMB-Direct + Linux OFED
Виртуализация 8 PFs, 128VFs 8 PFs, 128VFs 16 PFs and 240VFs
DCB Traffic Classes 3 3 8
Безопасная копия прошивки Не поддерживается Не поддерживается ПоддерживаетсяПроизводительность на протоколах СХД 2.5M FCoE & 1.4M iSCSI IOPS 2.5M FCoE & 1.4M iSCSI IOPS 7M FCoE & 5.4M iSCSI IOPS
Виртуализация Сети(Tunnel offload, OpenFlow)
Базовая разгрузка Туннелирования OpenFlow не поддерживается
Базовая разгрузка Туннелирования OpenFlow не поддерживается
Полная разгрузка Туннелирования (NVGRE/VXLAN/NGE), Поддержка VTEP и OpenFlow
Управление 100Mb NC-SI 100Mb NC-SI 1Gb NC-SI, MCTP через PCIe VDMCoupled-mode teaming Не поддерживается Не поддерживается Поддерживается
T10 PI (DIF) in HW Не поддерживается Не поддерживается Поддерживается
PCIe atomic, TPH, OBFF , LTR Не поддерживается Не поддерживается Поддерживается
July 14QLogic Confidential49
NPAR and SR-IOV
July 1450
Виртуализация: функция NPAR (NIC Partitioning)
1. Независимое разделение портовДо 4 аппаратно поддерживаемых
вирт.портов на 1 физический портНикаких изменений в ОС или BIOSРежимы Switch independent /
Switch dependent
2. Динамическое управление разделениемШаг 100Mb, возможно фиксированная или
взвешенная приоретизация
3. Конвергентные функции Networking, iSCSI and FCoE storage offloads
orOS VM VM
CPU Hypervisor
NetXtreme II поддерживает ВСЕ схемы виртуального разделения
NX2
ToE
Physical Port 0
vNIC#0
vNIC#2
vNIC#4
vNIC#6
Physical Port 1
vNIC#1
vNIC#3
vNIC#5
vNIC#7
July 1451
VMApp 1
Hypervisor
VMApp 2
VMApp 3
VMApp 4
Server
Выгода:• Гибкость системы• Доступность ресурсов
eSwitch
vSwitch
Встроенный в ИМС карты свич иподдержка NPAR и SR-IOV
обеспечивают внутреннюю коммутацию между виртуальными адаптерами vNICs и vHBAs (FCoE)
Внешние задачи:• Управление трафиком• Политики безопасностьюExternal
HairpinNetwork Switch
Виртуализация ввода-вывода. Новый уровень коммутации.
NX II поддерживает ВСЕ виды коммутации: vSwitch, eSwitch и внешние свичи
ToE
May 1, 2023QLogic Confidential54
Поддержка функции SR-IOV
Виртуализация в/вывода с одного уровня• Выше производительность
• Пропускная способность • Время отклика системы
• Меньше загрузка ЦП• Больше ВМ • Безопасность• Изоляция траффика
ВСЕ адаптеры серий QLE 3400/8400 поддерживают SR-IOV
SR-IOV увеличивает производительность до 135%
• 57810 SR-IOV поддерживает до 128 ВФ • Работает вместе с NPAR (все виды)
• До 16 ВФ на партицию (equal division) или до 64 ВФ на физический порт
• Поддерживает все Гипервизоры:• Windows Server 2012 (inbox)• Linux (XEN/KVM) in T7.10• VMware vSphere 5.5*
• SR-IOV под Windows дает 135% производительности при 8K 59% производительности при 64K
• Comprehensive Virtualization Support!64K 32K 16K 8K 4K 2K 1K
0
5,000
10,000
15,000
20,000
25,000
30,000
35,000
40,000
0
10
20
30
40
50
60
70
80
90
100Chariot Bi-Directional
57810 57810 VMQ 57810 SR-IOV RSC
57810 CPU 57810 VMQ CPU 57810 SR-IOV RSC CPU
IO Size (Bytes)
Thro
ughp
ut (M
b/s)
CPU
%
* VMware disables VM migration (vMotion) when SR-IOV is employedJuly 1457
Производительность
July 1463
Производительность NetXtreme II – общий обзор
• Семейство контролллеров Ethernet QL NX II :
• Лучшая в отрасли производительность iSCSI и FCoE
с разгрузкой на контроллерах HBA ;
• Превосходная производительность и функционал
Layer-2 Ethernet• Экстремально гибкая платформа, открывающая путь к поддержке новых требований и
новых технологий :• Аппаратная разгрузка при туннелировании ;• Новые требования к разделению ресурсов при виртуализации (NIC Partitioning) • Новые требования функций встроенного коммутатора (EVB, VEPA, PF->PF, VF->VF и т.д.)
• Низкое использование ЦП на всех видах нагрузок, оставляющее больше ресурсов для прикладных задач – увеличение производительности приложений, повышение плотности ВМ на физическом сервере.
MAC /PHY
(Up to 4 ports)
PCIe
Storm Engine 1
TX Buffer
RX Buffer
Tx T
x
Rx R
x
Storm Engine 0
TX Buffer
RX Buffer
Tx T
x
Rx R
x
ManagementProcessor
H/W Parser
Classifier
Context eng.
Queue Mgr.
H/W Parser
Classifier
Context eng.
Queue Mgr.
Экстремально быстрая архитектура
July 1464
QLogic: лучшая в классе 10GbE производительность Сети
Source: Demartek benchmark testing
На 264% лучше, чем Emulex
• QL обеспечивает высочайшую производительность на коротких пакетах• QL обеспечивает на длинных пакетах максимально теоретически допустимую
физической линией производительность по всем портам
July 1465
QLogic : лучшая в классе 10GbE скорость по iSCSI и FCoE
Лучшая в классе производительность с разгрузкой для СХД
Source: Demartek benchmark testing
Up to 250% Better Than Emulex
Up to 100% Better Than Emulex
July 1466
Преимущества работы с СХД с разгрузкой: QL против Intel
Source: Demartek benchmark testing
Intel X520
QLogicBCM957810S
Intel X520
QLogicBCM957810S
Intel X520
QLogicBCM957810S
Intel X520
QLogicBCM957810S
Лучшая в классе производительность и эффективность использования ЦПJuly 1467
Ethernet and Fibre Channel Adapters
2014 2015 2016 2017GA
QLogic Confidential68
QLE3442-Cu/SR2 x 10GbE
L2-only
QLE3440-Cu/SR1 x 10GbE
QLE8442-CU/SR2 x 10GbE
QLE8440-Cu/SR1 x 10GbE
QLE3442-RJ2 x 10GBASE-T
QLE8362-CU/SR2 x 10GbE
QLE-Cu/SR2 x 40GbE
QLE-Cu/SR1 x 40GbE
QLE27622 x 32G
QLE27601 x 32G
QLE27644 x 32G
QLE26722 x 16G
QLE26701 x 16G
Leading edge is GA
Hilda
Kilimanjaro (E3)
Fibre Channel
Future: 40GbE
Версии для OEM могут появиться раньше, чем в канале
L2 NIC
CNA
FC HBA
Shipping Products
Products available today under non-QLogic branding
L2-only
L2-only
CNA
CNA
July 2014
July 1469