Gumi study7 messagepack

Preview:

Citation preview

古橋貞之

e

MessagePackProjectgumiStudy#7#gumilab

#msgpack @frsyukihttp://d.hatena.ne.jp/viver/

Manager

Gateway

Server

Application

ServerManager

Gateway

Manager

冗長構成

Server

Server

Server

Server

Server

Application

GatewayApplication

Gateway

レプリケーション

Tokyo Cabinet

Application

Gateway

Gateway

Application

Server Server Server

memcached protocol

MessagePack-RPC

・Hides cluster configuration from applications. “memcached server on localhost”

localhost:11211 Asynchronous RPC library

Tools

Written in Ruby

> automates operation tasks

> easy to implement

> easy to customize

kumoctl

kumostat

kumotop

MessagePack-RPCAsynchronous RPC libraryCross-language RPC

MessagePack - 高速シリアライザ

> いつ/どこで MessagePack を使うか> MessagePack の手法

背景

> シリアライザの設計手法と MessagePack の選択> フォーマットと Embedded Type Information> MessagePack の型システムと型変換

MessagePack-RPC - 多機能RPC> プロトコル> 並列性 - Parallel Pipelining> 並列イベント駆動I/O

事例

MessagePack - 高速シリアライザ

> いつ/どこで MessagePack を使うか> MessagePack の手法

背景

> シリアライザの設計手法と MessagePack の選択> フォーマットと Embedded Type Information> MessagePack の型システムと型変換

MessagePack-RPC - 多機能RPC> プロトコル> 並列性 - Parallel Pipelining> 並列イベント駆動I/O

事例

背景

• 多言語でシステムを構築したい> C++で分散KVSを実装 + Rubyで管理を自動化> Rubyでプロトタイプ → 段階的にC++に移植> Javaサーバ + Rubyクライアント

• スケールアウト時代に耐える通信システムが欲しい> 多数のサーバやクライアントが並列して通信> マルチコア環境でもスケールする並列性

理想

Interface

C++

Interface

Java

Interface

Ruby

高速で多機能で使いやすいオープンソースのライブラリ

各言語の利点を活かして本質的な設計に集中

通信のパイプライン化や並列化などの高速化手法をシンプルに使える

現実1 JSON+XML+HTTP/TCPC++

Java Ruby

遅い/面倒なライブラリ+通信部分は自作

各言語の利点は活かせるが、オブジェクトの交換は面倒

Interface

Interface Interface

通信を並列化するにはマルチスレッドorイベント駆動プログラミングが必要。パイプライン化などの高速化手法は実装が難しい。バグりやすい。「高負荷になると固まる」

人間が読めるので、デバッグはしやすい

現実2 SOAPやXML-RPCC++

Java Ruby

遅くてトラフィックが大きく仕様が複雑な通信ライブラリ

Interface

Interface Interface

遅い。トラフィックが大きい。並列化はユーザー任せ。

標準化はされている

Interface

Interface

現実3 同じ言語で固める

Java Ruby

後で別のシステムやモジュールと接続したくなったときに困る

言語の短所に付き合わされる例:GCが遅い

Java

書きやすい言語でプロトタイピング →効率の良い言語で本番実装 は難しい

実はそんなに速くない(並列性が低い)スケールアウト時代の実装に使えない

言語の長所を活かせない

従来の問題

• 多言語対応自体の実装が面倒で、本質的な機能の実装に集中できない

• オーバーヘッドの大きいプログラムができあがる> リソースの消費量が増え、サーバの台数が増える

• 並列化や非同期化が難しく、高負荷に対応しにくい> 自前実装はバグの元 =「高負荷になると固まる」> ネットワーク/マルチスレッド/イベント駆動には罠が多い

従来の問題2

• 書きやすい言語でプロトタイピングしたい→ 効率の良い言語で本番実装 を段階的に行いたい> 例:サーバだけRubyからC++に移植

• プロトコルを後から(無停止で)更新したい> サーバの一部を最新版に更新> ↑繰り返して無停止で全サーバを更新

ローリングアップデート

MessagePackによる解決

• 高速で多機能で多言語対応した通信システムを提供> 本質的な機能の実装に集中できる> 用途に合った言語を選択できる> プロトタイピング→別の言語で本番実装 も容易

• データサイズやCPU負荷を削減して、サーバの台数を減らす

• 互換性を保ったままプロトコルを拡張可能にする• 通信を並列性してマルチコア・スケールアウトに対応

解決手法

• MessagePack:効率の良いシリアライザ> 中間の型システム+型変換APIを導入 各言語の差異を吸収する JSONとの相互変換が可能な型システム> 高速化手法 ゼロコピー化 効率の良いバッファリング機能を内臓  (ストリーミングAPI)

解決手法

• MessagePack-RPC:高機能なRPC> 並列化手法 非同期呼び出し Parallel Pipelining 並列イベント駆動I/O> 高速化手法 コネクションプーリング> 使いやすいAPI:複雑な並列I/Oを隠蔽 Session Future

MessagePackの用途

• サーバ間の通信> 分散システムのプロトタイプの実装> 新しいサーバプログラムの実装 管理ツールの実装 クライアントライブラリの実装

• シリアライザ単体で利用> KVSやログに保存するレコードのシリアライズ> JSONを置き換え

MessagePack - 高速シリアライザ

> いつ/どこで MessagePack を使うか> MessagePack の手法

背景

> シリアライザの設計手法と MessagePack の選択> フォーマットと Embedded Type Information> MessagePack の型システムと型変換

MessagePack-RPC - 多機能RPC> プロトコルと Parallel Pipelining> 並列イベント駆動I/O> FutureとSessionによる隠蔽

事例

MessagePack - 高速シリアライザ

> いつ/どこで MessagePack を使うか> MessagePack の手法

背景

> シリアライザの設計手法と MessagePack の選択> フォーマットと Embedded Type Information> MessagePack の型システムと型変換

MessagePack-RPC - 多機能RPC> プロトコルと Parallel Pipelining> 並列イベント駆動I/O> FutureとSessionによる隠蔽

事例

シリアライザ

• シリアライザの役割> オブジェクトをバイト列に変換> バイト列からオブジェクトを復元

• シリアライザの用途> オブジェクトをDBやキャッシュに保存> オブジェクトをネットワーク越しに転送

require 'msgpack' # gem install “msgpack"raw = [1,2,3].to_msgpack #=> "\x93\x01\x02\x03"MessagePack.unpack(raw) #=> [1,2,3]

public class Main { public static void main(String[] args) { byte[] raw = MessagePack.pack(new MyClass()); MyClass dst = MessagePack.unpack(raw, MyClass.class); }}

int main() { msgpack::sbuffer raw; std::vector<int> src; std::vector<int> dst; msgpack::pack(raw, src); msgpack::unpack(raw.data(), raw.size())->convert(&dst);}

Ruby

Java

C++

シリアライザの設計方法

• バイナリかテキストか> 人間には読めないが速い <-> 読めるが遅い

• シリアライズ後のデータに型情報を埋め込むか> データサイズが大きくなる <-> 小さく済む> バイト列だけから復元可能 <-> IDLが必要

• 多言語に対応するか

MessagePackの選択

• バイナリ形式のシリアライズフォーマット> 大きなバイト列をゼロコピーで扱う

• 型情報をシリアライズ後のデータに埋め込む> コンパクトに埋め込むエンコーディング手法> JSONと互換性のある型システム 整数, 真偽値, 配列, 連想配列, ...

• 多言語に対応> MessagePackの型 と 言語の型 を相互に変換

フォーマット

JSON MessagePack

null

Integer

Array

String

Map

null c0

10 0a

[20] 91 14

“30” a2 ‘3’ ‘0’

{“40”:null} 81 a2 ‘4’ ‘0’ c0

フォーマット

JSON MessagePack

null

Integer

Array

String

Map

null c0

10 0a

[20] 91 14

“30” a2 ‘3’ ‘0’

{“40”:null} 81 a2 ‘4’ ‘0’ c0

4 bytes 1 byte

2 bytes 1 byte

4 bytes 2 bytes

4 bytes 3 bytes

11 bytes 5 bytes

Embedded type information

type body...

type + value

typevalue length

type + length

非コンテナ型 コンテナ型

よく使う(小さいデータ)は、型情報+値/長さ を1バイトで保存

body...

Type information0x000xc20xc30xca0xcb0xcc0xcd0xce0xcf0xdf...

nil false true float double uint8 uint16 uint32 uint64 int8 ...

Types

0xc00xe0

Type information

Type information

Positive FixNum

Negative FixNum

FixMapFixArray

FixRaw

0x00

0xc0

0x800x900xa0

0xe0

0x000xc20xc30xca0xcb0xcc0xcd0xce0xcf0xdf...

nil false true float double uint8 uint16 uint32 uint64 int8 ...

Type information Types

JSONとの比較{“msgpack”:“json”, “hello”:“world”}

24%削減

MessagePack26 bytes

JSON34 bytes

別の事例:ある日のTwitterのpublic_timeline:JSON 31KB => MessagePack 25KB(19%削減)

多言語対応の問題

• 言語間の差異を吸収する必要がある> 型システムの違い 文字列とバイト列の区別がない 配列と連想配列の区別がない クラスがない> クラス名や変数名の命名規則が違う

“MessagePackの型”

• “MessagePackの型”を導入> JSON互換 整数, 浮動小数点数, Boolean, nil, 文字列, 配列, 連想配列> “MessagePackの型”を表現するクラスを導入 Java:MessagePackObject C++:msgpack::object> MessagePackの型 と 言語の型 を相互に変換する機能をライブラリで実装

MessagePackC++の型 Rubyの型

MessagePackの型

Javaの型

msgpack::object

MessagePackObject

多言語対応

高度な型変換

• テンプレート(Java版, C++版)> デシリアライズされたオブジェクトの型を検査> 型の変換や型チェックするコードが不要になる

• Optionalフィールド(Java版)> クラスのデシリアライズ時に、値の省略を許して、デフォルト値を使う

• 高速化> コンパイル時コード生成(C++版)> 実行時コード生成(Java版)

Optionalフィールド

@MessagePackMessagepublic static class MyClass { public String str; public double num;

@Optional public int flag = 0;}

ストリーミング

require 'msgpack'

u = MessagePack::Unpacker.new($stdin)

u.each do |obj|

puts obj.to_json

end

msgpack json protobuf avro thrift

形式

型情報

スキーマ記述

ストリーミング

RPC

シリアライザ単体で利用

binary text binary binary binary

埋め込み 埋め込み 外部 外部(添付) 外部

コード内に記述Thrift互換形式の

IDLも実装中

JSON Schema?

必須(独自DSL)

必須(JSON形式)

必須(独自DSL)

対応 できるはず 非対応 非対応 非対応

msgpack-rpc json-rpc (非公開) avro thrift

可能 可能 可能 可能 面倒

MessagePack - 高速シリアライザ

> いつ/どこで MessagePack を使うか> MessagePack の手法

背景

> シリアライザの設計手法と MessagePack の選択> フォーマットと Embedded Type Information> MessagePack の型システムと型変換

MessagePack-RPC - 多機能RPC> プロトコルと Parallel Pipelining> 並列イベント駆動I/O> FutureとSessionによる隠蔽

事例

MessagePack - 高速シリアライザ

> いつ/どこで MessagePack を使うか> MessagePack の手法

背景

> シリアライザの設計手法と MessagePack の選択> フォーマットと Embedded Type Information> MessagePack の型システムと型変換

MessagePack-RPC - 多機能RPC> プロトコルと Parallel Pipelining> 並列イベント駆動I/O> FutureとSessionによる隠蔽

事例

プロトコルJSON-RPCをベースにしたプロトコル設計

[0, msgid, method, params]

[1, msgid, error, result]

[2, method, params]

Request

Response

Notify

メッセージID→Parallel Pipelining

並列性

クライアント サーバ パイプライン化応答が帰ってくる前に立て続けに複数の要求を発行することで高速化を図る

実装例:・HTTP/1.1 pipelining・Thrift・SOAP

クライアント サーバ

並列性

重いタスク軽いタスク

実装例:・HTTP/1.1 pipelining・Thrift・SOAP

重いタスクが軽いタスクを待たせる

> 並列性が低下

順番を揃える(キュー)

クライアント サーバ

並列性

実装例:・MessagePack-RPC

応答の順番を揃える必要が無い早く終わったタスクはすぐに返す

> 並列性が向上 > サーバのリソース消費量を削減

時間短縮

重いタスク軽いタスク

並列性ベンチマークテスト

並列性

• RPCの要求と応答に”メッセージID”を入れ、クライアント側で要求と応答を対応付ける> サーバで処理する順番は自由> サーバの並列化が容易 全要求を自動的に並列化する(Java, C++版)> 重いタスクが軽いタスクを待たせない

MessagePack - 高速シリアライザ

> いつ/どこで MessagePack を使うか> MessagePack の手法

背景

> シリアライザの設計手法と MessagePack の選択> フォーマットと Embedded Type Information> MessagePack の型システムと型変換

MessagePack-RPC - 多機能RPC> プロトコルと Parallel Pipelining> 並列イベント駆動I/O> FutureとSessionによる隠蔽

事例

イベント駆動I/Oサーバーサイド イベント駆動I/O

Dispatcher

ServerClient

Client

Loop

multi-threaded event-driven I/O(C++, Java)

大量のクライアントと効率的に通信できる

イベント駆動I/O

Client

Session Loop Server

Client

ServerSession Loop

クライアントサイド イベント駆動I/O

イベント駆動I/O

sharedevent loop

Client

Client

Server

Server

Loop

Session

Session

クライアントサイド イベント駆動I/O

並列して通信可能

イベント駆動I/O

Session PoolServer

Server

pools these connectionsLoop

Session

Session

connection

クライアントサイド イベント駆動I/O

Dispatcher

イベント駆動I/O

sharedevent loop

Client

Server

Server

Loop

Session

Session

クライアントサイド イベント駆動I/O

Client

サーバとクライアントを同じイベントループ上で動作

sharedevent looptimer, signal handler,

other protocol, etc...

Dispatcher

イベント駆動I/O

Client

Server

Loop

Session

クライアントサイド イベント駆動I/O

Client

サーバとクライアントを同じイベントループ上で動作

イベント駆動I/O

• スレッドを使わずにI/Oを並列化> 多数のクライアントと効率よく通信できる

• クライアント側もイベント駆動> 多数のサーバと効率よく通信できる

• 高度な分散システムを効率よく実装可能> 例:多数のサーバ同士が通信しあう分散システム> 例:クラスタの一括制御ツール

イベント駆動I/O

• サーバとクライアントのアーキテクチャが対称的> 1つのイベントループに様々なイベントハンドラを追加のせてプログラムを構築できる

> サーバ/クライアント両方の特性を持つシステム 例:プロキシサーバ

• イベントループをプールしてコネクションをプール> 何度もコネクションを張り直す負荷を削減> 高負荷時でもポート番号が足りなくならない

MessagePack - 高速シリアライザ

> いつ/どこで MessagePack を使うか> MessagePack の手法

背景

> シリアライザの設計手法と MessagePack の選択> フォーマットと Embedded Type Information> MessagePack の型システムと型変換

MessagePack-RPC - 多機能RPC> プロトコルと Parallel Pipelining> 並列イベント駆動I/O> FutureとSessionによる隠蔽

事例

Futureとセッション

• Future> 「未来の結果」を表すオブジェクト 実際に参照されるまで結果の処理を遅延させる> 非同期呼び出しを抽象化> 並列イベント駆動I/Oを隠蔽

• セッション> 「コネクション」の概念を隠蔽> 接続・再接続・接続維持を自動化

Future

Future概念提示使い方を軽く

非同期処理を抽象化

require 'msgpack/rpc'

loop = MessagePack::RPC::Loop.new

c1 = MessagePack::RPC::Client.new(host, port, loop)c2 = MessagePack::RPC::Client.new(host, port, loop)

future1 = c1.call_async(:method1, arg)future2 = c2.call_async(:method2, arg)

future2.getfuture1.get

Futureクライアント サーバ1 サーバ2

call_async(method1)

call_async(method2)

future1

future2

セッションコネクションの隠蔽

sharedevent loop

Server

Server

Loop

Session

Session

connection

セッションコネクションの隠蔽

sharedevent loop

Server

Server

Loop

Session

Session

connection

Future

Future

Future

Future

コネクションを隠蔽非同期処理を抽象化

セッションコネクションの隠蔽

Session

Session

Future

Future

Future

Future

コネクションを隠蔽非同期処理を抽象化

セッション:コネクションを直接制御させない

> 接続が切れたら自動的に再接続 > コネクションプーリング

Future:非同期処理を直接記述させない

> 記述を簡略化 > バックグラウンドで処理できる 通信は自動的に並列処理

Future非同期処理を抽象化

require 'msgpack/rpc'

loop = MessagePack::RPC::Loop.new

c1 = MessagePack::RPC::Client.new(host, port, loop)c2 = MessagePack::RPC::Client.new(host, port, loop)

future1 = c1.call_async(:method1, arg)future2 = c2.call_async(:method2, arg)

future2.getfuture1.get

MessagePack - 高速シリアライザ

> いつ/どこで MessagePack を使うか> MessagePack の手法

背景

> シリアライザの設計手法と MessagePack の選択> フォーマットと Embedded Type Information> MessagePack の型システムと型変換

MessagePack-RPC - 多機能RPC> プロトコルと Parallel Pipelining> 並列イベント駆動I/O> FutureとSessionによる隠蔽

事例

MessagePack - 高速シリアライザ

> いつ/どこで MessagePack を使うか> MessagePack の手法

背景

> シリアライザの設計手法と MessagePack の選択> フォーマットと Embedded Type Information> MessagePack の型システムと型変換

MessagePack-RPC - 多機能RPC> プロトコルと Parallel Pipelining> 並列イベント駆動I/O> FutureとSessionによる隠蔽

事例

事例

• Sedue Search Cloud• Amebaなう• kumofs• Sekai Camera• mycached• Ficia

> “kumofs での Data::Model の使い方” http://blog.yappo.jp/yappo/archives/000710.html

• Cassandra?

MessagePack - 高速シリアライザ

> いつ/どこで MessagePack を使うか> MessagePack の手法

背景

> シリアライザの設計手法と MessagePack の選択> フォーマットと Embedded Type Information> MessagePack の型システムと型変換

MessagePack-RPC - 多機能RPC> プロトコルと Parallel Pipelining> 並列イベント駆動I/O> FutureとSessionによる隠蔽

事例

MessagePack - 高速シリアライザ

> いつ/どこで MessagePack を使うか> MessagePack の手法

背景

> シリアライザの設計手法と MessagePack の選択> フォーマットと Embedded Type Information> MessagePack の型システムと型変換

MessagePack-RPC - 多機能RPC> プロトコルと Parallel Pipelining> 並列イベント駆動I/O> FutureとSessionによる隠蔽

事例

まとめ - MessagePack

• 高速なシリアライズ形式> バイナリ形式のコンパクトなフォーマット JSONと比べて約20%くらいデータサイズを削減> 中間型システム + 型変換API により多言語に対応> 型情報をデータに埋め込む; 定義ファイルが不要> JSONと相互に変換可能> ストリーミング機能

まとめ - MessagePack-RPC

• 多機能なRPCシステム> クライアントサイドイベント駆動I/O;複数のコネクションで通信を並列化

> Parallel Pipelining;1本のコネクション上でも通信を並列化

> Futureにより複雑な並列イベント駆動I/Oを隠蔽> Sessionによりコネクションを隠蔽 コネクションの確立・維持・再接続を自動化

まとめ - The MessagePack Project

• 世界で利用拡大中• コミッタ募集中• 利用事例募集中

MessagePack

• C++> Sadayuki Furuhashi

• Ruby> Sadayuki Furuhashi

• Java> Muga Nishizawa

• Python> INADA Naoki

• Haskell> Hideyuki Tanaka

• Lua> Nobuyuki Kubota

• Perl> tokuhirom, gfx, ...

• Erlang> UENISHI Kota

• Node.JS> Peter Griess

• JavaScript> uupaa

• PHP> advect

• D> repeatedly

対応言語と開発者の一部

MessagePack-RPC

• C++版 - Sadayuki Furuhashi• Erlang版 - UENISHI Kota• Haskell版 - Hideyuki Tanaka• Java版 - Muga Nishizawa• PHP版 - h0x10• Python版 - INADA Naoki• Ruby版 - Sadayuki Furuhashi

対応言語と開発者の一部

Recommended