45
<Insert Picture Here> 日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013109112夜な夜な! なにわオラクル塾 Oracle×Sun 12弾】 Oracle InfiniBand 勉強会

Oracle Oracle InfiniBand · 日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

  • Upload
    lykiet

  • View
    238

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

<Insert Picture Here>

日本オラクル株式会社

システム事業統括 ソリューション統括本部

2013年10月9日

第112回 夜な夜な! なにわオラクル塾

【Oracle×Sun 第12弾】

Oracle InfiniBand 勉強会

Page 2: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 2

以下の事項は、弊社の一般的な製品の方向性に関する概要を説明するものです。また、情報提供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。以下の事項は、マテリアルやコード、機能を提供することをコミットメント(確約)するものではないため、購買決定を行う際の判断材料になさらないで下さい。オラクル製品に関して記載されている機能の開発、リリースおよび時期については、弊社の裁量により決定されます。

OracleとJavaは、Oracle Corporation 及びその子会社、関連会社の米国及びその他の国における登録商標です。文中の社名、商品名等は各社の商標または登録商標である場合があります。

Page 3: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 3

アジェンダ

• InfiniBand の概要

• InfiniBand の構成

• サブネットマネージャの役割

• InfiniBand Layered Architecture

• InfiniBand と Ethernetの比較

• InfiniBand の接続方法

• InfiniBandを利用した製品

Page 4: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 4

InfiniBandとは

• IBTA (InfiniBand Trade Association) により策定された広帯域・低遅延のサーバ間・サーバストレージ間ネットワーク

• スイッチ型ファブリックによるネットワーク構成

• 高速な通信が求められる HPC分野で発展

• ノード間の MPI , Lustre 並列ファイルシステム

• 現在 TOP500 で一番シェアが多く41.8%がInfiniBandを採用

TOP500 (June 2013) http://www.top500.org/statistics/list/ Sun Datacenter Switch 3456

Page 5: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 5

InfiniBand と Oracle

• Exadata, Exalogic, SPARC SuperCluster Big Data Appliance, Oracle Virtual Compute Appliance

• ノード間通信、ストレージサーバ、ZFS Storage アクセス

• ZFS Storage

• ストレージアクセス

• Solaris Cluster, Oracle RAC

• インターコネクト通信

• Oracle Fabric Interconnect (旧Xsigo製品)

• I/O仮想化・統合

Xsigoによる I/O 統合

Page 6: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 6

InfiniBand と他社動向等

• Microsoft

• Windows Server 2012で RDMA 正式サポート(SMB over RDMA)

• Intel

• Qlogic の InfiniBand 事業を買収

• EMC/iSilon, NetApp

• クラスタ間接続に InfiniBand

• SSD (Texas Memory, Nimbus, Violin Memory, Insight Technology )

• SSD通信の高速化のためIBに対応

• VMware

• ノード間通信(Live Migration)、ストレージアクセスに InfiniBand

Page 7: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 7

InfiniBand の価格

• Switch

• Sun Datacenter InfiniBand Switch 36

• 40Gbps x36、定価164万円

• Oracle Switch ES1-24

• 10Gbase-T x20 + 10G SFP+ x4、定価152万円

• HBA

• Sun InfiniBand QDR Host Channel Adapter

• 40Gbps x2、定価25万円

• Sun Dual 10GbE SFP+ PCIe 2.0 Low Profile adapter

• 10Gbps x2、定価18万円

• Sun Storage Dual 16 Gb Fibre Channel PCIe Universal HBA, Qlogic

• 16Gbps x2、定価19万円

InfiniBand Switch も 低価格化

Page 8: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 8

InfiniBand の特徴

• 広帯域

• 4x QDR では、双方向合計 80Gbps の帯域

• 低遅延

• スイッチのポート間で 100ns、10GbE の場合は 350ns~1μs以上

• 低 CPU 負荷

• RDMA (Remote Direct Memory Access) CPUの介入無し、送受信バッファへのメモリコピー無しにリモートノードのメモリへデータを転送する技術(zero copy)

• CPU Offload トランスポート層までハードウェア(HCA)で実行

Server

HCA

CPU

Mem

user buffer

Kernel buffer

NIC

Server

HCA

CPU

Mem

user buffer

Kernel buffer

NIC

RDMA

TCP/IP 通信

トランスポート 層の処理

トランスポート 層の処理

メモリコピー メモリコピー

Page 9: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 9

広帯域のデータレート

• QDRは、片方向1レーン当たり 10Gbps, 通常4レーンを束ねて40Gbps

• 全二重通信対応で、合計 80Gbps

• 8B/10Bエンコーディングが使用されているので、片方向実効 32Gbps

• PCI-Express 2.0 x8レーンが片方向 40Gbps (実効 32Gbps)

SDR - Single Data Rate DDR - Double Data Rate QDR - Quad Data Rate FDR - Fourteen Data Rate EDR - Enhanced Data Rate HDR - High Data Rate NDR - Next Data Rate

Page 10: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 10

ファブリックの構成

• HCA (Host Channel Adapter) • サーバ側に装備

• 主に PCI-Expressスロット

• TCA (Target Channel Adapter) • ストレージ側に装備

• Cable • Copper または Fibre

• Switch • Managed (Subnet Manager 内蔵) と

Unmanaged

• Subnet Manager • ファブリック内部でネットワークを管理

• SMA (Subnet Manager Agent) • Subnet Manager と通信

• Router • 複数サブネットを接続

Switch Switch

Server

HCA

Storage

TCA

Router

Subnet Manager (Active)

Subnet Manager

(Standby)

SMA SMA

SMA SMA

SMA

Page 11: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 11

トポロジー

• サブネットマネージャがトポロジを自動的に検出して ルーティングを各スイッチに設定する

どちらかに Subnet Manager を起動させておく

Page 12: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 12

SM (Subnet Manager)

• 配置 • ファブリックに一つ以上は存在する必要がある

• ノード、スイッチ等ファブリック内のどこでも配置可能 Sun Datacenter InfiniBand Switch 36 はサブネットマネージャ機能有り

• 同時に一つのサブネットマネージャが active, 他は standby

• マスターのサブネットマネージャがダウンすると、standbyがマスターに昇格

• 機能 • ネットワークトポロジーを自動的に検出し最短経路でルーティング

• 全ノード、スイッチ、ルータへ LID (Local ID) を割り当てる

• ノード間のすべてのパスに関して最短経路を計算、 マルチパスがある場合はロードバランス

• 定期的にファブリックをチェックし、構成変更を監視

• 通信 • 各デバイスに有る SMA(Subnet Manager Agent)とSMが通信

• MAD (Management Datagram Packet)を制御専用レーンで通信

Page 13: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 13

SM (Subnet Manager) の設定

• Sun Datacenter InfiniBand Switch 36

• Priority の設定

• 0 to 13 (highest) を設定、priority が高い SM がプライマリになる

• Controlled handover の設定

• 障害回復時のフェイルバックを防ぐかどうか

• subnet_prefix の設定

• GID (Global IDentifier) = 64bit GID prefix + 64bit GUID

• サブネットごとに固有の ID

• Management Key の設定

• SMA にアクセスするパスワードの設定が可能

• サブネット内の全ての SM で同じ key に設定する必要がある

• パーティションの設定

• 別途スライドで

Page 14: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 14

InfiniBand Layered Architecture

電気信号、伝送媒体、コネクタ等

LIDに基づいた サブネット内部でのルーティング

クレジットベースのフロー制御

GUIDに基づいた サブネット間でのルーティング

Queue Pair (TCP/UDPにおけるポート 番号に相当) でのメッセージ交換

Message <-> 複数パケットに分割、組立

トランスポート層までハードウェアで実行

アプリケーションレベルの多様なプロトコル

Page 15: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 15

LRH GRH ETH Payload ICRC VCRC BTH

Upper Layer

InfiniBand Packet Format

LRH (Local Routing Header)

•サブネット内部のルーティングに使用

•宛先LID, 送信元LID

•Service Level, Virtual Lane

ETH (Extended Transport Header)

•RDMA等の操作に使用

GRH (Global Routing Header)

•異なるサブネット間のルーティングに使用

•宛先GUID, 送信元GUID

ICRC (Invariant CRC)

•End-to-End の誤り訂正符号

VCRC (Variant CRC)

•ホップ毎に計算される誤り訂正符号

Transport Layer Network Layer

Link Layer

BTH (Base Transport Header)

•宛先 Queue Pair 番号

•パケットシーケンス

•オペレーションコード

•パーティションキー

Page 16: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 16

Physical Layer

• リンク幅 • 1リンク (1X) が最小構成要素

• リンクあたり送信と受信用にワイヤーのペアが2つ存在

• 1x, 4x, 12x があり、4x が一般に使用される、12x はスイッチ間通信等

• Auto Negotiation

• リンク速度 • SDR (Single Data Rate) 2.5GHz

• DDR (Double Data Rate) 5GHz

• QDR (Quad Data Rate) 10GHz

• 現在の主流は、 • 4x QDR = 40Gbps 片方向

• QDRは、8/10Bエンコードにより実効32Gbps

TX

RX

TX

RX

1x Link

Differential Pair

HCA (Host Channel Adapter)

Page 17: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 17

Physical Layer

タイプ レート コネクタ形状 距離

Copper SDR CX4 20m

DDR CX4 10m

QDR QSFP 7m

Fiber SDR CX4 300m

DDR CX4 150m

QDR QSFP 100m

Page 18: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 18

Link Layer

• LID (Local IDentifier) • 16bit のサブネット内部で使用するアドレス

• サブネットマネージャが初期化時、トポロジー変更時に動的に割り当て

• ノード側で設定不可

• Virtual Lane • 物理リンクに複数のチャネル

• 独立したフロー制御(Rx/Txバッファ)、サービスレベル

• VL15は、SM と SMA が通信する制御専用レーン

• フロー制御 • クレジットベースでパケットロス無し、受信バッファが利用可能という通知を

送信側デバイスが受け取るまでパケットは送信されない

• 信頼性 • 32bit Invariant CRC End-to-End の誤り訂正符号

• 16bit Variant CRC Link レベルの誤り訂正符号、ホップごとに再計算

Page 19: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 19

Network Layer

• GUID (Global Unique IDentifier) • すべてのデバイス(HCA およびポート)が有するユニークな 64bitのアドレス

• IPv6 タイプ

• GID (Global IDentifier) = 64bit GID prefix + 64bit GUID

• GID prefix はサブネットマネージャが設定

• ルータ • GUIDを基に、LRH (Local Routing Header)の LID を順次書き換えていく

• 最後のルータは、最終目的の LID に書き換えることで到達できる

• 単一サブネット • Network Layer の情報は使用しない

Page 20: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 20

Transport Layer

• HCA でハードウェア実行、CPU offload

• メッセージ(最大2GB)をパケットに分割(最大MTU 4KB) 受信時にパケットからメッセージを組み立て

• Transport Services • Reliable (データ転送・順序保障あり) / Unreliable(データ転送・順序保障無し)

• Connection(TCP) / Datagram (UDP)

• Queue Pair (QP) • アプリケーションとのインタフェース

• TCP/UDP のポート番号に相当

• RDMA Operation をサポート

Page 21: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 21

パーティション • ファブリックを論理的に独立したドメインに分割

• ホストは複数のパーティションに所属可能

• イーサネットのVLAN, FCのzoning に似た概念

• サブネットマネージャでパーティションを作成

• P_key (0x001 – 0x7fff or default) 最上位ビットは 1=full, 0=limited

• メンバシップ

• full 全てのメンバーと通信できる

• limited 他のlimitedメンバーと通信できないが fullメンバーと通信できる

• 参加するエンドポート

• IPoIB 使用フラグ

Page 22: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 22

Upper Layer Protocol

• アプリケーションは修正せずに利用可能

Page 23: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 23

Upper Layer Protocol

• ネットワーク

• IPoIB (IP over InfiniBand) • Active/Passive Bonding で冗長化 (Linux)

• IPMP で冗長化 (Solaris 11, ZFS Storage Appliance)

• Layer2の IEEE802.3ad Link Aggregation, IEEE802.1Q tagged VLAN は使用不可

• SDP (Socket Direct Protocol)

• ストレージ (Oracle ZFS Storage ではサポート)

• SRP (SCSI RDMA Protocol) • Device Mapper Multipath で冗長化 (Linux)

• Solaris では SRP Client 無し

• iSER (iSCSI Extension for RDMA)

• NFS over RDMA • Solaris 11はデフォルトで RDMAを使用

Page 24: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 24

InfiniBand と Ethernetの比較 InfiniBand Ethernet

カード HCA (Host Channel Adapter) NIC (Network Interface Card)

主流の帯域 40Gbps 10Gbps

レイテンシー (Switch port 間)

100ns 350ns (超低レイテンシー)~1μs以上

CPUオフロード トランスポート層まで HCA で実行しホストのCPUに負荷をかけない

データリンク層までをNICで実行 ToE (TCP/IP Offload Engine) 機能搭載NICでトランスポート層までの一部の処理を NIC で実行

RDMA サポートしており、HCA で実行 一部のNICでサポート

フォワーディング カットスルー ストアアンドフォワード、カットスルー

フォワーディングテーブル ノード起動時に LID (Local ID) を全スイッチに登録

パケット到着時に送信元MACアドレスを登録

トポロジー ファットツリー、トーラス等、 アーキテクチャ上は任意のトポロジー

基本的にツリー型

ループ ループフリー サブネットマネージャが最短経路を計算 障害時は Trap が送られ最短経路を再計算

スパニングツリーで回避 最新のイーサネットではループフリーに対応

アクセス分離 パーティション VLAN

フロー制御 クレジットベース PAUSE フレーム、TCP/IPの再送制御

アドレス GUID (Global Unique Identifier) LID (Local Identifier)

Mac Address IP Address

Page 25: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 25

Solaris 11 における IPoIB

• 各HCAのポート毎に物理データリンクが作成される

• その上にIBパーティションリンクを作成して、IPを付与する

# dladm show-phys LINK MEDIA STATE SPEED DUPLEX DEVICE ibp0 Infiniband up 8000 unknown ibp0 ibp1 Infiniband down 8000 unknown ibp1 ibp2 Infiniband down 8000 unknown ibp2 ibp3 Infiniband up 8000 unknown ibp3 # dladm show-ib LINK HCAGUID PORTGUID PORT STATE P_Key ibp0 2C9020040041C 2C9020040041D 1 up FFFF, 8001 ibp1 2C9020040041C 2C9020040041E 2 down FFFF ibp2 3BA0001004E14 3BA0001004E15 1 down FFFF ibp3 3BA0001004E14 3BA0001004E16 2 up FFFF, 8001 # dladm create-part -l ibp0 -P 0x8001 p8001.ibp0 # dladm show-part LINK P_Key OVER STATE FLAGS p8001.ibp0 8001 ibp0 unknown ---- # ipadm create-ip p8001.ibp0 # ipadm create-addr -T static -a 192.168.1.100 p8001.ibp0/ipv4

Page 26: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 26

Linuxにおける IPoIB

• Mellanox OFED Stack for Linux User’s Manual を参照

• パッケージのインストールを行う

• デフォルトの IB パーティションを使用する

• ユーザ定義のパーティションを使用する ib0 デバイスに対して P_key = 0 の場合

# ifconfig ib0 11.4.3.175 netmask 255.255.0.0

# echo 0 > /sys/class/net/ib0/create_child # ifconfig ib0.8000 11.5.3.175 netmask 255.255.0.0

Page 27: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 27

InfiniBand 診断ツール 1 (Solaris 11) コマンド 説明

ibdiagnet ファブリック全体の診断検査を実行します

ibaddr 1 つまたは複数の InfiniBand アドレスを照会します

ibnetdiscover リモートの InfiniBand トポロジを発見します

ibping IB ノード間の接続性を検査します

ibportstate 物理ポートの状態および IB ポートのリンク速度を照会します

ibroute InfiniBand スイッチ転送テーブルを表示します

ibstat または ibsysstat 1 つまたは複数の InfiniBand デバイスのステータス、または IB アドレス上のシステムのステータスを照会します

ibtracert IB パスをトレースします

perfquery または saquery IB ポートカウンタまたは sIB サブネット管理属性を照会します

smpquery または smpdump IB サブネット管理属性を照会またはダンプします

ibcheckerrors または ibcheckerrs

IB ポート (またはノード) または IB サブネットを検査して、エラーを報告します

ibchecknet、ibchecknode、または ibcheckport

IB サブネット、ノード、またはポートを検査し、エラーを報告します

ibcheckportstate、ibcheckportwidth、 ibcheckstate、または ibcheckwidth

リンクが作動しているがアクティブでない IB ポート、リンク幅 1x (2.0 Gbps) のポート、リンクが作動しているがアクティブでない IB サブネットのポート、または IB サブネット内の lx リンクを検査します

Page 28: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 28

InfiniBand 診断ツール 2 (Solaris 11)

コマンド 説明

ibclearcounters または ibclearerrors

IB サブネット内のポートカウンタまたはエラーカウンタを消去します

ibdatacounters または ibdatacounts

IB サブネットまたは IB ポートデータカウンタ内のデータカウンタを照会します

ibdiscover.pl IB トポロジに注釈を付けて、比較します

ibhosts トポロジ内の IB ホストノードを表示します

iblinkinfo.pl または iblinkinfo ファブリック内のすべてのリンクのリンク情報を表示します

ibnodes トポロジ内の IB ノードを表示します

ibprintca.pl ibnetdiscover の出力から、指定した CA または CA のリストを表示します

ibprintrt.pl ibnetdiscover の出力から、指定したルーターのみ、またはルーターのリストを表示します

ibprintca.pl ibnetdiscover の出力から、指定した CA または CA のリストを表示します

ibprintrt.pl ibnetdiscover の出力から、指定したルーターのみ、またはルーターのリストを表示します

ibprintswitch.pl ibnetdiscover の出力から、指定したスイッチまたはスイッチのリストを表示します

Page 29: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 29

InfiniBand 診断ツール 3 (Solaris 11) コマンド 説明

ibqueryerrors.pl 0 以外の IB ポートカウンタを照会して報告します

ibrouters トポロジ内の IB ルーターノードを表示します

ibstatus IB デバイスの基本ステータスを照会します

ibswitches トポロジ内の IB スイッチノードを表示します

ibswportwatch.pl 指定したスイッチまたはポートのカウンタをポーリングして、変更レート情報を報告します

set_nodedesc.sh IB HCA (Host Controller Adapter) のノード説明文字列を設定または表示します

dump2psl.pl クレジットループ検査に使用される opensm 出力ファイルに基づいて PSL ファイルをダンプします

dump2slvl.pl クレジットループ検査に使用される opensm 出力ファイルに基づいて SLVL ファイルをダンプします

ibis IB 管理帯域内サービスの拡張 TCL シェル

Page 30: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 30

InfiniBand を利用した製品

Big Data Appliance

Exalogic Exadata

アプリケー ション

実行基盤

OracleDB 統合基盤

key-value ストア専用

マシン

SPARC 汎用マシン

仮想化統合基盤

SuperCluster M6-32

Oracle Virtual

Compute Appliance

F1-15

F1-4 Oracle Fabric Interconnect

I/O 仮想 スイッチ

SuperCluster T5-8

SPARC 汎用マシン

Page 31: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 31

Oracle Fabric Interconnect 高速な InfiniBand でクラウド基盤のネットワークを統合

F1-15

F1-4

DMZ LAN NFS SAN

Oracle Virtual Networking

iSCSI Mgmt

Oracle Fabric Interconnect

シンプルな構成

高性能

高セキュリティ

80Gbps 高速ファブリック

50%コストを削減

完全なネットワークの分離

Infiniband

DC ネットワークを 40Gb InfiniBand で統合

Software Defined Network を実現する次世代のスイッチ

Ethernet / FC

1GE / 10GE / 8G FC

40Gb InfiniBand

InfiniBand に統合

Xsigo vNIC (EoIB)

• IPoIBとは異なり、EthernetフレームをIB上で送受信

• OSは標準Ethernet NICとして認識

• FC向けには、vHBA を実装

Page 32: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 32

Oracle Fabric Interconnect

vSwitch4 vSwitch1 vSwitch2

VLAN x VLAN z VLAN y

vmk2

vmotion

vmk1

iscsi

vNIC vNI

C

vNIC vNI

C vSwitch3

VLAN x VLAN y

vNIC vNI

C

VM VM VM VM VM

Hypervisor

vSwitch0

vmk0

mgt

vNIC vNI

C

vNIC vNI

C

HBA HBA vHBA vHBA

1GE

管理用

10GE iSCSI/NAS

1GE ゲストOS用

1GE ゲストOS用

10GE Live Migration

8G FC Databaseなど

特に、仮想化環境で必要な複数の I/O networkを 40Gbps の Infiniband上に仮想化統合します

Page 33: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 33

Oracle Fabric Interconnect – シンプルな構成

大量のアダプタカード

・ケーブル

多数のスイッチ

After

スロット数の少ない1U サーバの活用

カード・ケーブル・スイッチを削減

1GE / 10GE / 8G FC

I/O統合

40Gb InfiniBand

Before

Page 34: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 34

バックアップの高速化 80Gbpsの広帯域により、バックアップを高速化

0

100

200

300

400

1GbE OVN

バックアップ

高速化

Oracle Virtual Networking

SPARC & x86

仮想化サーバー

ベアメタル

サーバー

Oracle Virtual Networking

ルータ

NAS FC ストレージ

自由に必要なバックアップ用vNICを作成でき、VMイメージバックアップも、従来のファイルベースのバックアップも対応可能

vNIC単位にQoS機能で最低保証帯域、最大利用帯域を指定可能

多くの事例で、1/2から1/10以上のバックアップ時間削減

Page 35: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 35

ライブマイグレーションの高速化

0

50

100

150

200

1GbE OVN

Live Migration

19倍 高速化

一定時間に移動できるVMの数が多くなることで、メンテナンス上の制限が解消→一台あたりに搭載できるVM数増加

左図の例:5 VM(各VM 24GB)を使い、メモリをフルに利用した状態から、Live Migrationを実施して時間を測定

Oracle Virtual Networking

Oracle Virtual Networking

ルータ

NAS FC ストレージ

VM VM VM VM VM Live Migration

Hypervisor Hypervisor

Page 36: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 36

データベースの高速化 データベースのパフォーマンスを高速化

0

0.2

0.4

0.6

0.8

1

1GbE OVN

DBクエリー

12倍 高速化

Oracle Virtual Networking

Oracle DB on OVM Oracle Enterprise

Lnux

Oracle Virtual Networking

ルータ

NAS FC ストレージ

ベアメタルサーバでNative InfiniBand接続を生かしたデータベースの統合

Oracle VM上でのデータベース統合

I/O接続を仮想化することで、構成をシンプルに

広帯域、低遅延ファブリックでクエリを高速化

Page 37: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 37

Oracle Fabric Interconnect – 高セキュリティ

A B

Oracle Virtual Networking の構成

“A” “B” Web Production

異なるポートで

vNICをそれぞれ終端

ソフトウェアレベルで分離

VM A VM B

標準的な構成

“A” “B” Web Production

VM A VM B

VLAN

Network

NIC

仮想カード

物理カード

VLANによる論理分割

宛先による制御

完全な分離 VLANドメイン内での分離

Page 38: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 38

Oracle Virtual Compute Appliance X3-2 統合仮想化管理基盤

• 迅速な導入:オラクルだけが、基盤とアプリケーションの両方のデプロイを高速化、電源投入から2-3時間で稼働へ

• 俊敏な展開:Oracle VM のテンプレートによる高速なアプリケーション展開

• シンプル:SDN(Software Defined Networking)によるシンプルな物理配線と高い柔軟性

OVCA X3-2 (フルラック構成)

•25台の仮想化サーバ

•16core, 256GB

•2台の管理サーバ

•1台の ZFS Storage

•40 Gb InfiniBand 接続

•2台の Fabric Interconnect F1-15

•2台の 36port IBスイッチ

•2台の 24port 10GbE スイッチ

エンタープライズ

アプリケーション

スタック

ハードウェア • サーバ

• ストレージ

• ネットワーク

仮想マシン

1時間(OVCA)

1- 2時間(OVCA)

Page 39: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 39

Oracle Exadata データベース専用マシン 従来のデータベース

Exadata

ストレージ

DBサーバ

ストレージ DBサーバ

パフォーマンス の劇的な向上

Exadata X3-2 (フルラック構成)

•8台の Database Server

•16core, 256GB

•14台の Storage Server

•12core, 1.6TB SSD

•600GB or 3TB x12HDD

• 40 Gb InfiniBand 接続

• Database Server と Storage Server の間は iDB (intelligent DataBase protocol)で通信

• RDSv3 プロコトルに基づきInfiniBand上で動作

• ZDP (Zero-loss Zero-copy Datagram Protocol)でブロックの不要なコピーを削減

Page 40: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 40

Oracle Exalogic アプリケーション実行基盤

オープンスタンダード基盤

超高速処理

運用コストの最適化

• さまざまなアプリケーションを展開可能 (Java, C, COBOL…)

• Exabus によりInfiniband をさらに高速活用

• 圧倒的なパフォーマンスにより将来の スケーラビリティを確保

• ネットワーク、ストレージ、CPU、などすべてを 工場出荷時に設定済

• 管理、監視作業を集約化

• クラウド運用に最適な仮想化機能を提供

Exalogic X3-2 (フルラック構成)

• Xeon 480 コア

• 7.7TB RAM

• 60TB ZFS Storage

• 6TB SSD

• 40 Gb InfiniBand 接続

Exabus (InfiniBandとその上のソフトウェア最適化) で帯域を4倍高速化、遅延を6分の1に短縮

•RDMA(Remote Direct Memory Access)

•SDP(Sockets Direct Protocol) を活用しオーバーヘッドを解消

Page 41: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 41

SPARC SuperCluster T5-8 SPARC 仮想化統合マシン

SuperCluster T5-8 (フルラック構成)

•2台のSPARCサーバ

•128core, 2TB Memory

•8台のストレージサーバ

• 12core, 1.6TB SSD

• 600GB or 3TB x12HDD

•1台の ZFS Storage

•40 Gb InfiniBand 接続

• 高い性能 • スマート・スキャン、スマート・フラッシュキャッシュなど

InfiniBand 接続された Exadata Storage Server のテクノロジーがOracleデータベースを高速化

• 迅速かつ確実なシステム導入 • ラッキング、検証済みの構成で出荷し、インストール、デバ

ッグ、チューニング、テストの時間を最短化

• コスト削減/投資保護 • システム統合によるTCO削減

• 100%のバイナリ互換によるアプリケーション資産の保護

EBS, SAP. PeopleSoft, データベース

と クラウドに 最適化

Oracle Optimized Solutions

10倍の データベースと アプリケーショ

ン パフォーマンス

Exadata とExalogic

Java, データベースと Oracle アプリケーション

で17の 世界記録!

SPARC T5-8 サー

Page 42: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 42

SPARC SuperCluster M6-32 ビッグメモリマシン

SuperCluster M6-32 (最大構成)

•1台の M6-32 SPARCサーバ

•384core, 32TB Memory

•17台のストレージサーバ

• 12core, 1.6TB SSD

• 600GB or 3TB x12HDD

•1台の ZFS Storage

•40 Gb InfiniBand 接続

• 爆発するデータセットサイズをリアルタイムに高速に処理するために、インメモリーコンピューティング

• Oracle Database 12cで、インメモリオプションと ロー・カラムのデュアルフォーマットが利用可能に

• スマート・スキャン、スマート・フラッシュキャッシュなどInfiniBand 接続された Exadata Storage Server のテクノロジーがOracleデータベースを高速化

3 テラバイト/秒 システム帯域

1.4 テラバイト/秒 メモリ帯域

1 テラバイト/秒

I/O 帯域

32 テラバイトメモリ

Page 43: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 43

Oracle Big Data Appliance 高速hadoopマシン

調整済みのソフトウェアがインストール済み

• Oracle Linux 5

• Java Hotspot VM

• Cloudera CDH4.1 - Apache Hadoop

• Cloudera Manager

• Open Source R Distribution

• Oracle NoSQL Database *1

• Oracle Big Data Connectors *1 *1 別ライセンス製品

Big Data Appliance X3-2 (フルラック構成)

•18台の Sun Server X3-2L

•16core, 64-512GB

•12x 3TB HDD

•40 Gb InfiniBand 接続

Oracle Big Data Appliance

Oracle Exadata

Acquire Organize Analyze

Oracle Exalytics

Oracle Loader for Hadoop

Oracle SQL Connector for

HDFS

ODI Application Adapter for

Hadoop

InfiniBand InfiniBand

Page 44: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 44

Page 45: Oracle Oracle InfiniBand ·  日本オラクル株式会社 システム事業統括 ソリューション統括本部 2013年10月9日 第112回 夜な夜な!なにわオラクル塾

Copyright© 2013, Oracle. All rights reserved. 45 45