Upload
satoshi-kitajima
View
212
Download
2
Embed Size (px)
DESCRIPTION
Cloudera World Tokyo 2014にてRevolution R Enterpriseのご紹介をいたしました。
Citation preview
株式会社KSKアナリティクス データアナリスト 北島 聡 2014年11月6日
分析革命がもたらすビッグデータの世界 cloudera World Tokyo 2014
1993年 二人の大学教授、Robert Gentlemanと Ross Ihakaが開発開始
オープンソースR
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
1993年 二人の大学教授、Robert Gentlemanと Ross Ihakaが開発開始
2000年 Version 1.0のリリース
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
オープンソースR
1993年 二人の大学教授、Robert Gentlemanと Ross Ihakaが開発開始
2000年 Version 1.0のリリース
現在(2014年11月) Version 3.1.2のリリース パッケージ数も多く「Rで出来ない分析は無い」、世界中のR利用者は250万人以上、と言われるほどに成長
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
オープンソースR
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
www.rexeranalyBcs.com
世界で も使われている分析ソフト
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
www.rexeranalyBcs.com
世界で も使われている分析ソフト
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
www.rexeranalyBcs.com
世界で も使われている分析ソフト
Rっていつから そんなに使われてるの?
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
分析者のR利用率は増加傾向
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
分析者のR利用率は増加傾向
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
分析者の中でRの 利用者は70%
分析者のR利用率は増加傾向
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
分析者のR利用率は増加傾向
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
分析者のR利用率は増加傾向
近年の増加率が特にすごい
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
分析者のR利用率は増加傾向
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
分析者のR利用率は増加傾向
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
分析者の24%がRを メインツールとして利用
分析者のR利用率は増加傾向
hPp://r4stats.com/arBcles/popularity/ © KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
利用可能なパッケージ数は増加傾向
hPp://r4stats.com/arBcles/popularity/
利用可能なパッケージ数は増加傾向
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
5,846
(2014年11月現在)
>nrow(available.packages())
hPp://r4stats.com/arBcles/popularity/
利用可能なパッケージ数は増加傾向
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
5,846
(2014年11月現在)
>nrow(available.packages())
指数関数的に増加中
hPp://www.maths.lancs.ac.uk/~rowlings/R/TaskViews/
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
パッケージで様々な分析が可能に
hPps://github.com/RevoluBonAnalyBcs © KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
パッケージでHadoopも
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
プログラミング言語の人気ランキングを調査 (カテゴリーを「分析」に特化していない調査です)
「X programming」 の検索数を指標化 ※Xにはプログラミング言語名が入る。 Google検索、GoogleトレンドやTwiPer, GitHub, Stack Overflowなど10のソースを用いて客観的にプログラミング言語の人気を調査している
hPp://spectrum.ieee.org/staBc/interacBve-‐the-‐top-‐programming-‐languages
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
hPp://spectrum.ieee.org/staBc/interacBve-‐the-‐top-‐programming-‐languages
プログラミング言語の人気ランキングを調査
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
hPp://spectrum.ieee.org/staBc/interacBve-‐the-‐top-‐programming-‐languages
プログラミング言語の人気ランキングを調査
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
hPp://spectrum.ieee.org/staBc/interacBve-‐the-‐top-‐programming-‐languages
プログラミング言語の人気ランキングを調査
Rは第9位にランクイン
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
hPp://spectrum.ieee.org/staBc/interacBve-‐the-‐top-‐programming-‐languages
プログラミング言語の人気ランキングを調査
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
hPp://spectrum.ieee.org/staBc/interacBve-‐the-‐top-‐programming-‐languages
プログラミング言語の人気ランキングを調査
Rと同じカテゴリーに分類される SASと比較しても人気の高さが伺える
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
一方、ビッグデータの世界は・・・
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner hPp://www.datacenterjournal.com/it/birth-‐death-‐big-‐data/
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner hPp://www.datacenterjournal.com/it/birth-‐death-‐big-‐data/
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner hPp://www.datacenterjournal.com/it/birth-‐death-‐big-‐data/
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner hPp://www.datacenterjournal.com/it/birth-‐death-‐big-‐data/
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner hPp://www.datacenterjournal.com/it/birth-‐death-‐big-‐data/
地球上のすべての人に5000GBを 超える情報量がある時代
ひたすら増えていく・・・
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
ひたすら増えていく・・・
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
2010年の体重が123kgだとすれば、 2020年には4000kg(4トン)になる
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
分析者や分析業務も増えてきたのに・・・
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
は様々な分析ができて、 素晴らしいけれど・・・
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
は様々な分析ができて、 素晴らしいけれど・・・ ビッグデータになると・・・
重い © KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
重い かなり必死
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
かなり必死
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
実行速度が重い 大規模データが重い
・・・というか扱えない
分析革命がもたらすビッグデータの世界
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
大規模データの実行速度を比較
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
大規模データの実行速度を比較
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
オープンソースRはデータ件数が25万件で約80秒
大規模データの実行速度を比較
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
大規模データの実行速度を比較
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
レボリューションRはデータ件数が500万件で10秒以下
大規模データの実行速度を比較
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
レボリューションRはデータ件数が500万件で10秒以下
大規模データの実行速度を比較
※GLM:一般化線形モデル
データ件数
時間(秒)
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
レボリューションRはデータ件数が500万件で10秒以下
しかも、メモリ8GBの普通のノートPCで
大規模データの実行速度を比較
Rユーザーであれば移行はスムーズ
オープンソースRの記載例
レボリューションR(ScaleR)の記載例
既存のRユーザーにとっては、 新しいパッケージを使う感覚です
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
§ データの読み込み(SAS, SPSS, OBDC接続など) § 変数作成、変換 § 変数保存、Factor変数処理 § 欠損値処理 § 並び替え、データ結合、分割 § カテゴリー毎の演算 (平均や合計など)
§ 小, 大,平均,中央値 § 四分位 § 標準偏差 § 分散 § 相関係数 § 共分散 § 平方和 § リスク・オッズ比 § クロス集計およびそのサマリー出力
データ加工
基礎統計
§ カイ二乗検定 § ケンドールの順位相関 § フィッシャーの正確確率検定 § T検定(Student’s t-‐Test)
§ サブサンプリング(行データおよび変数) § ランダムサンプル
検定
サンプリング
§ 平方和 § 重回帰分析 § 一般化線形モデル(GLM)familyパラメータの指定:
binomial, Gaussian, inverse Gaussian, Poisson, Tweedie. Standard link funcBons: cauchit, idenBty, log, logit, probit、ユーザー定義やリンク機能
§ 分散共分散行列、相関行列 § ロジスティック回帰 § 分類木、回帰木 § 予測、スコアリングモデル § 残差
予測モデル § K-‐Means
§ 決定木 § ランダムフォレスト
クラスター分析
分類
シミュレーション
変数選択 § ステップワイズ回帰
§ シミュレーション (例 モンテカルロ) § パラレルランダムナンバージェネレータ
コンビネーション rxDataStepとrxExecでopen source Rと RevoluBon R Enterpriseを連携できる
ScaleRの対応している機能
R+CRAN
数値演算ライブラリー
マルチスレッド実行
並列処理
並列分散処理
データベース内実行
Hadoop環境での実行
適なメモリ管理
並列ユーザーコード
Revolution R Open(無料)
オープンソース R
DistributedR
DistributedR
DistributedR
ScaleR
ScaleR
ScaleR
ScaleR
データ量・分析速度に対する パフォーマンス
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
R+CRAN
数値演算ライブラリー
マルチスレッド実行
並列処理
並列分散処理
データベース内実行
Hadoop環境での実行
適なメモリ管理
並列ユーザーコード
Revolution R Open(無料)
オープンソース R
DistributedR
DistributedR
DistributedR
ScaleR
ScaleR
ScaleR
ScaleR
データ量・分析速度に対する パフォーマンス
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
ビッグデータの世界
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
JavaのMap-‐Reduceで回帰分析 Data setup
Mapper
Reducer
約100行のJavaコード (セットアップも含む)
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
Rの実行はたった2行
RevoluBon R Enterpriseで回帰分析 (Hadoop環境)
Complex & Basic analyBcs
RRE with Hadoop
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
Complex & Basic analyBcs
RRE with Hadoop
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
Complex & Basic analyBcs
RRE with Hadoop
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
R言語だけでOK
Hadoopか? サーバー1台か?
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
サーバー1台(8コア) Hadoopクラスタ8台
分析したいデータ量が100GBだとすると・・・
Hadoopか? サーバー1台か?
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
分析したいデータ量が100GBだとすると・・・
< 概ね、サーバー1台の方が8倍〜10倍の速度で早いです。 (※データ量が1TB以上だとHadoopをオススメします)
サーバー1台(8コア) Hadoopクラスタ8台
Consumer & Info Svcs
Finance & Insurance Healthcare & Life Sciences
Manuf & Tech Academic & Gov’t
導入実績 米国内200社以上、世界では2000社以上
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
ビッグデータの世界 〜事例紹介〜
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
マルチチャネル・マーケティングと分析ソフトウェアの開発を行いクライアントにサービスの提供を行う。成長企業でありイノベーティブ、高いコスト意識を持つ。日次で50万件のスコアリングを行うが時間がかかることが課題
企業概要
事例紹介1
Hadoop上でRevoluBon R Enterpriseを利用 (これまではSASとOpen Source Rを利用)
主な動作環境
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
DataSongの顧客の一つであるウィリアムズ・ソノマ(キッチン用品取扱)に対し、分析環境が大規模かつ拡張可能になったことで、彼らのお客さま一人ひとりの 適化をサポートできた。 一つのキャンペーン費だけで25万ドルの削減につながる。 ビッグデータに対して先進的な手法である一般化加法モデルによる生存時間分析を用いることで迅速な開発と顧客別の展開が可能になった
ソリューション
事例紹介1
4倍以上の速度改善
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
事例紹介1
「私達のデータは既にテラバイト級に達し、今後も急速に増え続けていることから、RevoluBon R Enterpriseの大規模かつ拡張可能な環境を選択しました。50万件を従来の4倍以上の速度で処理されています。その速度が見事に機能しています」
DataSong CEO, John Wallace
お客さまの声
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
ミューシグマ社は3500人を超えるデータサイエンスの専門家を有する分析の 大手企業。ビッグデータを活用した意思決定を推進している
企業概要
事例紹介2
RevoluBon R Enterprise、Rhadoopとrmrパッケージを利用 (これまではSASとEDWを利用)
主な動作環境
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
Fortune500の大手企業向けに、第二世代とも言える分析開発後すぐ展開できる大規模データの高速分析による分析アプリケーションを提供することができた。 そのため、不正検知や優良顧客分析、マルチチャネル・マーケティング分析、在庫・サプライチェーン分析などでこの領域での先行者利益を得る能力が得られた。
ソリューション
事例紹介2
24時間の処理が4時間以下、より多くのデータでモデル100個が作成できた
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
事例紹介2
「我々はRevoluBon AnalyBcs社のHadoop環境でRが使えるrmrパッケージを使い、大規模なデータを並列化して高速に計算することができました」
VP / Head of InnovaBon & Development, Zubin Dowlaty
お客さまの声
株式会社KSKアナリティクス セールス & マーケティンググループ www.ksk-anl.com [email protected]
レボリューションR日本語サイト http://www.r-analytics.jp/
© KSK AnalyBcs Inc., RevoluBon AnalyBcs Japan Partner
ご不明な点がございましたらお気軽にブースへお立ち寄り下さい