Upload
others
View
4
Download
0
Embed Size (px)
Citation preview
Oracle Advanced Analyticsビッグ・データと分析をシンプルに
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.
MBAData Mining and Advanced Analytics、MS Eng、MBASr. Director Product Management、Charlie [email protected] www.twitter.com/CharlieDataMine
Safe Harbor Statement
Copyright © 2014 Oracle and/or its affiliates.All rights reserved. 2
下記事項は、弊社の一般的な製品の方向性に関する概要を説明するものです。また、情報提供を唯一の目的とするものであり、いかなる契約にも組み込むことはできません。以下の事項は、マテリアルやコード、機能を提供することをコミットメント(確約)するものではないため、購買決定を行う際の判断材料になさらないでください。オラクル社の製品に関して記載されている機能の開発、リリース、および時期については、弊社の裁量により決定されます。
Agenda
•ビッグ・データと分析の事象
•Oracle Advanced Analyticsの概要と機能/利点– GUI
– SQLデータ・マイニング関数
– Rの統合
•簡易版デモ
•Oracle Big Data SQL
•アプリケーション「OAA搭載」
•Getting Started
Copyright © 2014 Oracle and/or its affiliates.All rights reserved 3
将来の計画データはデータ・アナリストの増加をはるかに上回る勢いで増加
•
結論–データ分析のプラットフォームが
満たすべき条件
•非常に習得しやすく、それでありながら
•極めてパワフルで
•可能な限り、自動化されていること
http://www.delphianalytics.net/more-data-than-analysts-the-real-big-data-problem/Copyright © 2014 Oracle and/or its affiliates.All rights reserved. 4
分析 + データウェアハウス + Hadoop
•プラットフォームのスプロール化
– より多くの重複データ
– より長いデータ移動の待機時間
– より多くのセキュリティ課題
– より多くの重複ストレージ
– より多くの重複バックアップ
– より多くの重複システム
– より多くのスペースと消費電力
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
ビジョン
•ビッグ・データとクラウドの時代に合ったビッグ・データおよび分析プラットフォームの構築
–ビッグ・データと分析をシンプルに•あらゆるコンピュータ・インフラストラクチャでどのようなデータ・サイズにも対応
•あらゆる種類のデータのどのような組み合わせにも対応
–ビッグ・データと分析のデプロイメントをシンプルに•サービス、プラットフォーム、アプリケーションとして
Copyright © 2014 Oracle and/or its affiliates.All rights reserved. 6
Oracle Advanced Analyticsデータベースの進化
データベース内の分析SQL
• 7社のデータ・マイニング「パートナー」
• Thinking Machine Corpの開発チーム + 「Darwin」データ・マイニング・ソフトウェアを買収
2002年 2004年 2005年
Advanced Analytics(ODM + ORE)」に変更
2014年
• Oracle Data Mining 10gおよび10gR2で、SQL dm
関数、7つの新しいSQLdmアルゴリズム、および
新しいOracle Data Miner
の「伝統的」なウィザード駆動型GUIを導入
•新しいアルゴリズム(EM、PCA、SVD)
•予測問合せSQLDEV/Oracle
Data Miner 4.0 SQLのスクリプト• ODM 11gおよび11gR2で、生成およびSQL AutoDataPrep(ADP)、テキスト問合せノード(R統合)のマイニングを追加、パフォーマンスを改善OAA/ORE 1.3 + 1.4
• SQLDEV/Oracle Data Minerで、NN、ステップワイズのアルゴリズムを追加
•
スケーラブルなRアルゴリズム
•Hadoopコネクタ向けOracle Adv.AnalyticsをスケーラブルなBDAアルゴリズムとともに市場投入
• Oracle Data Mining 9.2iを市場投入 – Java APIを介した2つのアルゴリズム(NBとAR)
3.2 「ワークフロー」GUIを導入
•「R」との統合、および
Oracle R Enterpriseの導入/追加
•製品名を「Oracle
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
2008年 2011年1999年1998年
おもな機能
データベース内のデータ・マイニング・アルゴリズムとオープン・ソースのRアルゴリズム
オラクルの3言語コンポーネントデータベース— SQL、SQLDev/ODMr GUI、R
スケーラブルなデータベース内パラレル実行
ワークフローGUIとIDE
統合データベース・コンポーネント
エンタープライズ分析アプリケーションの実現
Oracle Advanced Analytics Database Optionスケーラブルな予測分析を全社に最速の方法で展開
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
データはデータベース内のまま
SQLカーネルでのスケーラブルなパラレル・データ・マイニング・アルゴリズム
並列化された高速なネイティブSQLデータ・マイニング関数、SQLデータ準備、Rオープン・ソース・パッケージの効率的な実行
SQLデータ・マイニング関数とRオープンソース・モデルの高パフォーマンスなパラレル・スコアリング
おもな機能
Oracle Advanced Analytics Database OptionOracle Databaseの3言語コンポーネント— SQL、SQLDev/ODMr GUI、R
節約
モデルの「スコアリング」組込みデータの準備
モデルの構築
データの準備
Oracle Advanced Analytics
数秒/数分/数時間
従来の分析
数時間/数日/数週間
データの抽出
データの準備および
変換
データ・マイニング・
モデルの構築
データ・マイニング・
モデル「スコアリング」
データの準備および変換
データのインポート
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
総所有コストの大幅削減
データの重複排除
独立した分析サーバーの不要化
Oracle ITの投資を利用
予測分析を最速の方法で全社に提供統合GUIによる予測分析
データベース・スコアリング・エンジン
おもな機能
Oracle Advanced Analytics Database OptionOracle Databaseの3言語コンポーネント— SQL、SQLDev/ODMr GUI、R
節約
数秒/数分/数時間数時間/数日/数週間
Oracle Advanced Analytics
従来の分析
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
モデルの「スコアリング」組込みデータの準備
モデルの構築
データの準備
データの抽出
データの準備および
変換
データ・マイニング・
モデルの構築
データ・マイニング・
モデル「スコアリング」
データの準備および変換
データのインポート
Turkcell通信詐欺対策
目的
プリペイド・カードによる不正 -数百万ドル/年
膨大なデータを極めて高速に取捨選択、不正に対応、時は金なり
ソリューション
毎日100億件の通話記録データを監視
1PBに対する準備にSQLを利用
データ移動のプロセスは速度が遅いため、TurkcellのITはモデルをデータベース内に構築してデプロイ
Exadata上のOracle Advanced Analyticsは極めて高速。アナリストは不正パターンをほぼ即座に検出可能00
「TurkcellはOracle Exadata上で100テラバイトの圧縮データ(非圧縮状態では1ペタバイトの生データ)を管理しています。Oracle Advanced AnalyticsオプションのコンポーネントであるOracle Data Miningを使用
することで、他のどんなツールよりも迅速かつ容易に大量の顧客データと通話記録データを分析し、不正な電話使用を検出し、根絶に努めることができます」
- Turkcell İletişim Hizmetleri A.Ş、Manager、Hasan Tonguç Yılmaz
Oracle Advanced Analyticsのデータベース内不正モデル
Oracle Exadata
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
OBIEE アプリケーション
Oracle Database Enterprise Edition
Oracle Advanced Analytics DatabaseアーキテクチャOracle Databaseの3言語コンポーネント— SQL、SQLDev/ODMr GUI、R
ユーザー データおよびビジネス分析 Rプログラマー ビジネス・アナリスト/マネージャー ドメインのエンドユーザー
Oracle Advanced AnalyticsネイティブSQLデータ・マイニング/分析関数、および高パフォーマンスのR統合により、スケーラブルな分散並列実行を実現
Oracle SQL Developer Rクライアント
プラットフォーム
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
より多くのデータの種類—より優れた予測モデル• 関連データのソースを増やすことで、モデルの精度を向上することが可能
0% 母集団の規模
Res
po
nd
ers Naive Guessまたは
ランダム
20の変数を持つモデル
100%
75の変数を持つモデル
250の変数を持つモデル
以下を含む「ビッグ・データ」と数百から数千の入力変数を持つモデル:•人口統計データ•POS購入トランザクション・データ•「非構造化データ」、テキスト、およびコメント•空間位置データ•長期および最近の履歴行動•Web訪問回数•センサー・データ•その他
100%
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
データベース内データ・マイニング・アルゴリズム— SQL、R、GUIアクセス
関数 アルゴリズム 応用
分類
ロジスティック回帰(GLM)ディシジョン・ツリーNaive Bayesサポート・ベクター・マシン
従来型の統計手法人気度/ルール/透明度埋め込みアプリ範囲が広い/狭いデータ/テキスト
回帰線形回帰(GLM)サポート・ベクター・マシン(SVM)
伝統的な統計手法
範囲が広い/狭いデータ/テキスト
異常検出1クラスSVM 未知の不正ケースまたは異常
属性の重要度 最小記述長(MDL)主成分分析(PLC)
属性縮約、データ・ノイズの低減
相関ルールApriori マーケットバスケット分析/次善策の提案
クラスタリング階層型K-Means階層型Oクラスタ化期待値最大化(EM)クラスタリング
製品分類/テキスト・マイニング遺伝子およびタンパク質の分析
特徴抽出 非負行列因子分解(NMF)特異値分解(SVD)
テキスト分析/特徴削減
Oracle Advanced Analytics
A1 A2 A3 A4 A5 A6 A7
F1 F2 F3 F4
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle Advanced Analytics Database Option
• データの理解と視覚化 • クラスタリング
– サマリー統計と記述統計
– ヒストグラム、散布図、箱ひげ図、棒グラフ
– Rグラフィックス:3Dプロット、リンク・プロット、特殊なRグラフ・タイプ
– クロス集計
– 相関テスト(t検定、ピアソン、ANOVA)
– 選択されたBase SASと同等機能
• データの選択、準備、変換– 結合、表、ビュー、データ選択、データ・フィルタ、SQL時間枠、複数スキーマ
– サンプリング手法
– コード変更、欠損値
– 集計
– 空間データ
– SQLパターン
– RからSQLへの透過性とプッシュ・ダウン
• 分類モデル– ロジスティック回帰(GLM)
– Naive Bayes
– ディシジョン・ツリー
– サポート・ベクター・マシン
– ニューラル・ネットワーク(NN)
• 回帰モデル
– 重回帰(GLM)
– サポート・ベクター・マシン
幅広いデータベース内のデータ・マイニングと統計関数
– 階層型K-Means
– 直交パーティショニング
– 期待値の最大化
• 異常検出– 特殊なケースのサポート・ベクター・マシン(1クラスSVM)
• 対応付け/マーケットバスケット分析– アプリオリ・アルゴリズム
• 特徴選択と特徴削減– 属性評価(最小記述長)
– 主成分分析(PCA)
– 非負行列因子分解
– 特異値の分解
• テキスト・マイニング– ほとんどのOAAアルゴリズムが非構造化データをサポート(顧客のコメント、
電子メール、要約など)
• トランザクション・データと空間データ– すべてのOAAアルゴリズムでトランザクション・データ(購入取引、長期的な反復測
定、ロケーションからの距離、エリアA/B/Cで過ごした時間など)をサポート
• Rパッケージ -オープン・ソースの実行機能
– RからSQLへの透過性や組込みRモードを使用して、データベース・プロセスの一部として、幅広いR CRANパッケージを実行可能
* すべてのOracle Databaseに無料搭載
R
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
大量のデータを自動的にふるいにかけ、前は見えなかったパターンを見つけ、新しい有益な
知見を見いだし、予測を立てること
•もっとも重要な要素の特定(属性重要度)
•顧客行動の予測(分類)
•価値の予測または見積り(回帰)
•ターゲットとなる人または項目のプロファイルを検出(ディシジョン・ツリー)
•母集団のセグメント化(クラスタリング)
•不正または「まれな事象」の検出(異常検出)
•「バスケット」内に同時に出現する項目の特定(関連性)
データ・マイニングとは
A1 A2 A3 A4 A5 A6 A7
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
データ・マイニングがもたらすもの質の高い情報、有益な知見と予測
携帯電話の顧客離れ対忠実な顧客
セグメント#3IF CUST_MO > 7 AND INCOME <$175000、THEN予測 = 携帯電話の顧客離れ、確率 = 83% 支持 = 6/39
知見と予測セグメント#1IF CUST_MO > 14 AND INCOME <$90000、THEN 予測 = 携帯電話の顧客離れ確率 = 100% 支持 = 8/39
契約月数
出典:Inspired from Data Mining Techniques:For Marketing, Sales, and Customer Relationship Management、Michael J. A. BerryおよびGordon S. Linoff著
R
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle Advanced Analytics —ベスト・プラクティス
2. データを移動しない
3. 問題の「適切な4. データ」を組み立てる
4.新たに導き出された変数を作成
5.分析手法をクリエイティブに考案する
6.「データ」を「実践的知見」に素早く変換
何も違わない;何もかもが違う
1.ビジネス課題のステートメントから開始
7.全社的に自動化とデプロイメントを行う
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
複雑なセグメント化の問合せを数週間から数分間に短縮—競争上の強みを獲得
目的
世界をリードする顧客科学会社
Oracle Advanced Analyticsとサード・パーティ製ツールを使用して、分
析をほぼリアルタイムで実行可能なまでに短縮し、スマートフォンのような新しいソースの非構造化ビッグ・データを分析
ソリューション
セグメント化と顧客ロイヤルティ分析を1週間からわずか4
時間に短縮して、情報ときめ細かい分析をよりタイムリーに出すことが可能に
ごく小さいサンプルではなく、数年分の履歴データを含めた100%のデータを分析できるため、より正確なビジネス知見とマーケティング・リコメンデーションを生成
「問合せの処理に数時間あるいは数日待たなくても、問合せを実行して分析を完了できるようになったため、アナリストの生産性と集中力が改善された」
「大規模なサンプル・サイズを分析し、新製品の考えと戦略が市場にどの程度受け入れられるかを予測することで、マーケティング・リコメンデーションの精度が高まった」
– dunnhumby Oracle Customer Snapshot
(http://www.oracle.com/us/corporate/customers/customersearch/dunnhumby-1-exadata-ss-2137635.html)
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
行動を予測「可能性の高い行動」とそのプロファイルを特定
考慮点:• 人口統計• 過去の購入• 最近の購入• 顧客のコメントとツイート非構造化データも
アルゴリズムで
マイニング
トランザクション
POSデータ
デプロイメント用の
SQLスクリプトを生成
インライン予測
モデルで入力
データを増やす
SQLが結合を実行し、任意SQL
変換と問合せを実行 – SQLのパワー
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle SQL Developer/Oracle Data Miner 4.0新機能
SQLスクリプトの生成– 手法全体を1つのSQLスクリプトとしてデプロイ
– データ・アナリストの手法を即座にデプロイ
R
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
不正予測デモ自動化されたデータベース内分析手法
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
drop table CLAIMS_SET;exec dbms_data_mining.drop_model('CLAIMSMODEL');create table CLAIMS_SET (setting_name varchar2(30), setting_value varchar2(4000)); insert into CLAIMS_SET values ('ALGO_NAME','ALGO_SUPPORT_VECTOR_MACHINES');insert into CLAIMS_SET values ('PREP_AUTO','ON');commit;
POLICYNUMBER PERCENT_FRAUDRNK
------------ ------------- ----------6532 64.78 12749 64.17 2
begindbms_data_mining.create_model('CLAIMSMODEL', 'CLASSIFICATION', 'CLAIMS', 'POLICYNUMBER', null, 'CLAIMS_SET');end;/
3440 63.22 3654 63.1 412650 62.36 5
自動化された月次「アプリケーション」。以下を追加:
CreateView CLAIMS2_30AsSelect * from CLAIMS2Where mydate > SYSDATE – 30
Time measure:set timing on;
-- Top 5 most suspicious fraud policy holder claims select * from(select POLICYNUMBER, round(prob_fraud*100,2) percent_fraud,rank() over (order by prob_fraud desc) rnk from(select POLICYNUMBER, prediction_probability(CLAIMSMODEL, '0' using *) prob_fraud from CLAIMSwhere PASTNUMBEROFCLAIMS in ('2to4', 'morethan4'))) where rnk <= 5order by percent_fraud desc;
Oracle Advanced Analytics詳細
•シングル・レコードにその場で新しいデータ(コール・センターから取得したデータなど)を適用
コール・センター
アドバイスの取得ブランチ
オフィス
Web モバイル
ソーシャル・メディア
電子メール
R
Select prediction_probability(CLAS_DT_1_2, 'Yes'
USING 7800 as bank_funds, 125 as checking_amount, 20 as credit_balance, 55 as age, 'Married' as marital_status,250 as MONEY_MONTLY_OVERDRAWN, 1 as house_ownership)
from dual;
応える可能性:
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
例がない場合のデータ・マイニング質の高い情報、価値ある知見と予測
携帯電話詐欺対忠実な顧客
契約月数出典:Inspired from Data Mining Techniques:For Marketing, Sales, and Customer Relationship Management、Michael J. A. BerryおよびGordon S. Linoff著
?Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
課題:異常の検出
•複数の属性を考慮
• 1つだけで見ると、
「正常」に見える可能性が
ある
•レコードを全体からみると、異常である可能性がみえてくる
• 「異なる」ものを探す
X1
X2
X3
X4
X1
X2
X3
X4
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
脱税監査の選択
•シンプルなOracle Data Mining予測モデル
–ディシジョン・ツリーを使って、2011年のデータを基に非準拠の納税を分類(はい/いいえ)
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle Advanced AnalyticsOAA/Oracle R Enterprise(R統合)
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
R環境
•強み
– パワフルで拡張可能
– グラフィカルで広範な統計
– 無料—オープン・ソース
•課題
– メモリの制約
– シングルスレッド
– 外部ループ—プロセスの速度低下
– 業務仕様ではない
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
R —広く普及RはBase SASまたはSPSS Statisticsに似た統計言語
Oracle Advanced Analytics
• R-SQL透過フレームワークがR関数をオーバーロードして、スケーラブルなデータベース内実行を実現
•関数のオーバーロードにより、データ変換、統計関数、高度な分析に対応
• グラフィカルな結果とフロー制御を標準Rと同様にインタラクティブに表示
• ユーザー定義のR関数を送信して、Oracle Databaseの制御のもと、データベース・サーバーで実行
•大規模データセットにスケーリング
• DB LINKで表、ビュー、外部表、およびデータにアクセス
• データベースのパラレルSQL処理を利用
• データベース内の新規および既存の統計機能とデータ・マイニング機能を利用
Rエンジン その他のRパッケージ
Oracle R Enterpriseパッケージ
デスクトップ上のユーザーRエンジン
• データベースで複数のRエンジンを起動して、データベース管理の並列処理を実現
•起動したRエンジンにデータを効率的に転送
• MapReduce方式のアルゴリズムとアプリケーションをエミュレート
• Rスクリプトを本番環境にデプロイして自動実行
1 2SQL
結果
データベース計算エンジン
Rエンジン その他のRパッケージ
Oracle R Enterpriseパッケージ
Oracle DBから起動されたRエンジン
R
結果
3
?x
Rオープン・ソース
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle R Enterprise計算エンジン
Oracle Databases
ユーザー表
Rグラフィックスからデータベース・データへの直接アクセスR> boxplot(split(CARSTATS$mpg, CARSTATS$model.year), col = "green")
Oracle Advanced Analytics
時間とともにMPGが増加
R
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
R:関数のオーバーロードにより透過的に動作データベース内の集計関数を起動
> aggdata <- aggregate(ONTIME_S$DEST,
++
> class(aggdata)
by = list(ONTIME_S$DEST),
FUN = length)
Oracle SQLselect DEST, count(*)
from ONTIME_S group by
DEST
Oracle Advanced Analytics OREクライアント・パッケージ
透過レイヤー
[1] "ore.frame"
attr(,"package")
[1] "OREbase"
> head(aggdata)
Group.1
1ABE
2ABI
3ABQ
4ABY
5ACK
6ACT
x
237
34
135
7
10
3
33
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle Database
In-dbStats
ONTIME_S
データベース・サーバー
R:関数のオーバーロードにより透過的に動作データベース内データ・マイニング・モデルを起動(サポート・ベクター・マシン)
> svm_mod <- ore.odmSVM(BUY~INCOME+YRS_CUST+MARITAL_STATUS,data=CUST,"classification", kernel="linear")
> summary(svm_mod)Call:ore.odmSVM(formula = BUY ~ INCOME + YRS_CUST + MARITAL_STATUS, data = CUST,
CUST
データ
ベース内
マイニング・
モデル
Oracle Database
Oracle PL/SQL
BEGIN DBMS_DATA_MINING.CREATE_MODEL(model_name => ’SVM_MOD’, mining_function => dbms_data_mining.classification...
Oracle Advanced Analytics
OREクライアント・パッケージ
透過レイヤー
type = "classification", kernel.function =
"linear")
Settings
: value
on
al.enableprep.auto
active.learnin
gcomplexity.factor 46.044899
conv.tolerance 1e-04
Coefficients
: class variable
value
INCOME
estimate
5.204561e-051
2
3
4
0
0 MARITAL_STATUS
0 MARITAL_STATUS
0 YRS_CUST
M -4.531359e-05
S 4.531359e-05
1.264948e-04
データベース・サーバー
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
kernel.function linear 5 0 (Intercept) 9.999269e-01
6 1 INCOME 2.032340e-05
7 1 MARITAL_STATUS M 2.636552e-06
8 1 MARITAL_STATUS S -2.636555e-06
9 1 YRS_CUST -1.588211e-04
10 1 (Intercept) -9.999324e-01
Oracle Advanced Analytics for HadoopデータがHDFS内にあるHadoop上で、並列/分散方式で実行される予測アルゴリズム
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle R Advanced Analytics for Hadoop
• ORAAH = Oracle R Advanced Analytics for Hadoop。Oracle Big Data Software Connectors Suiteの一部(Oracle Big Data Appliance Option)
• ORAAHの透過レイヤーにより、オーバーロードされた特定のR関数はR構文と動作(RからHiveQLへの透過的な変換)を使って、Hive表で機能させることが可能
• HDFSデータを操作し、マッパー関数とリデューサ関数をRで作成できるRインタフェースでは、オープン・ソースCRANパッケージを利用し、これらのHadoopジョブをRから起動することが可能
• データがHDFS内にあるHadoopクラスタ上で、並列/分散方式で実行される幅広い予測アルゴリズムを提供
Copyright © 2014 Oracle and/or its affiliates.All rights reserved. 35
Oracle R Advanced Analytics for HadoopRパッケージ群により、以下を提供:
• Apache Hive表、Apache Hadoopインフラストラクチャ、ローカルR環境、およびOracle Database表とのインタフェース
• RまたはJavaでHadoop MapReduceジョブとして作成した予測分析手法をHDFSファイルのデータに適用することが可能
• Rパッケージの場合と同様に、パッケージをインストール、ロードして、次のような処理を実行させる:– Hive対応透過レイヤーを使って、HDFSデータのアクセスと変換を実行
– R言語を使ってマッパーとリデューサを作成
– Rメモリ、ローカル・ファイル・システム、HDFS、Hive、Oracle Database間でデータをコピー
– RプログラムをHadoop MapReduceジョブとして実行して、結果をそれらの場所に返すようにスケジューリング
• Oracle R Advanced Analytics for Hadoopを使用するには、MapReduceプログラミング、Rプログラミング、統計手法の十分な知識が必要
計算
Copyright © 2014 Oracle and/or its affiliates.All rights reserved. 36
ORAAHのHadoop内MR関数最新リリース
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.| オラクル社外秘 37
関数 説明orch.cor ピアソン相関係数で相関行列を生成
orch.cov 共分散行列を生成
orch.getXlevels model.matrix呼出しのxlev引数で使用可能な要素レベルのリストを作成。これは、statsパケージの.getXlevels関数に相当します。
orch.glm 一般化した線形モデルを、HDFSに保存したデータに適合させて使用
orch.kmeans HDFSにファイルとした保存されたデータ行列に対し、K-Meansクラスタリングを実行
orch.lm Tall-and-Skinny QR(TSQR)因子分解とパラレル分散を使って、線形モデルを調整。この関数は、Oracle R Enterprise ore.lm関数と同じ統計パラメータを計算します。
orch.lmf jellyfishアルゴリズムまたはMahout交互最小二乗法と重み正則化(ALS-WR)アルゴリズムのいずれかを使って、低ランクの行列因子分解を調整
ORAAHのHadoop内MR関数最新リリース
Copyright © 2014 Oracle and/or its affiliates.All rights reserved 38
関数 説明orch.neural 入出力間の複雑な非線形関係をモデル化したり、データのパターンを見つけたり
するためのニューラル・ネットワークを提供
orch.nmf jellyfishアルゴリズムを使って、非負行列因子分解モデルを作成するためのおも
なエントリ・ポイントを提供。この関数は、入力データをメモリに収める必要がないため、R NMFパッケージよりはるかに大きいデータセットを扱うことができます。
orch.nmf.NMFalgo カスタム・アルゴリズムとして、R NMFパッケージ・フレームワークに挿入。この関数はベンチマーク・テストに使用されます。
orch.princomp 主成分のパフォーマンスを分析
orch.recommend 入力したorch.mahout.lmf.aslモデルを基にランキングが予測された各ユーザーに勧める上位n個の項目を計算
orch.sample リザーバ・サンプリングを提供
orch.scale スケーリングを実行
Oracle Big Data SQLSQLの述部をストレージ・レイヤーにプッシュ・ダウン
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle Exadataのパフォーマンスが卓越している理由
Oracle Database 12c
SQL
小さいデータ・サブセットを素早く返す
問合せをOracle Exadata Storage Server
にオフロード
HadoopおよびNoSQL
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.| 40
データ分析の課題別個のデータ・アクセッサ・インタフェースに別個のサイロ
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.| 41
お客様が求めているもの:Oracle Big Data SQL全エンタープライズ・データへの機能が豊富で包括的なSQLアクセス
Oracle SQLの威力-幅広い種類の'ビッグ・データ'構造化データ
数値、文字列、日付...
非構造化データLOB、テキスト、XML、JSON、空間、グラフ、マルチメディア
-豊富なSQL分析関数のラン
キング、ウィンドウイング、LAG/LEAD、集計、パターン・
マッチング、クロス集計、統計、線形回帰、相関、仮説検定、分布適合度...
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.| 42
Oracle Big Data SQLの導入Oracle, Hadoop、NoSQLにまたがる超並列SQL問合せ処理
Oracle Database 12c
問合せをOracle Exadata
Storage Serverにオフロード
SQL
SQL
小さいデータ・サブセットを素早く返す
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.| 43
HadoopおよびNoSQL
問合せをデータ・
ノードにオフロード
データ
サブセット
すべてのデータを管理、分析 - SQLおよびOracle Big Data SQL
44
変換されていないJSONデータをHadoopに保存
JSON
Oracle Database 12cOracle Big Data Appliance
SQL
SQLまたはRで分析したデータビジネスに不可欠なデータをOracleに保存
SQL
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle Advanced Analyticsアプリケーション統合およびOBIEE統合
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
統合されたビジネス・インテリジェンス予測とデータ・マイニングの知見でダッシュボードを強化
•データベース内予測
モデル顧客データを「マイニン
グ」し、顧客の行動を
予測
•OBIEEの統合空間マッピ
ングで位置を表示
•ダッシュボードを強化するため、すべてのOAAの結果と予測がOBIEE Adminを介してデータベースで使用可能
Oracle Data Miningの結果をOracle BI EE管理者が利用可能
Oracle BI EEで結果を定義して、エンドユーザーに表示
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
事前構築済みの予測モデル
•スケーラブルな全社的予測分析を最短期間で提供
•OAAのクラスタリングと予測がデータベース内でOBIEE用に使用可能
•顧客の自動セグメント化、解約予測、感情分析
Oracle Communications Industry Data Model予測分析アプリケーションの例
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
予測分析
Oracle Fusion Human Capital Management OAA搭載
•Oracle Advanced Analyticsに事前インストールされた予測分析
•離職しそうな従業員と予測された業績
•おもな理由、予測される行動
•リアルタイムの「What-If」分析
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Fusion HCMの労働力予測
Oracle Communications Data Model事前構築されたデータ・マイニング・モデル
1.顧客離れの予測
2.顧客プロファイリング
3.顧客離れの要因
4.クロスセルの機会
5.顧客の生涯価値
6.顧客の勘定
7.顧客の生涯価値
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle Communications Data Model事前構築されたプリペイド携帯電話利用者離れデータ・マイニング・モデル
• プリペイド携帯電話利用者離れの定義
–通信事業者から製品を何も買わなくなったとき、顧客は離れたと見なされます
• モデルで使用されたサンプルの入力属性
• プリペイド携帯電話利用者離れモデルでは、合計170の属性を使用
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
属性 説明
ACCPT_NWSLTR_IND 顧客がニュース・レターを受け取るかどうかを示しますBRDBND_IND 顧客にブロードバンド接続があるかどうかを示しますCAR_DRVR_LICNS_IND 顧客に運転免許証があるかどうかを示しますCAR_TYP_CD 車のタイプのコードCHRN_IND 顧客が離れたかどうかを示しますCMPLNT_CNT_LAST_3MO 過去3か月に顧客が行った苦情の数CMPLNT_CNT_LAST_MO 今月顧客が行った苦情の数CMPLNT_CNT_LFTM 生涯の間、顧客が行った苦情の数CRDT_CTGRY_KEY 顧客の信用カテゴリCUST_RVN_BND_CD 顧客の利益帯コードDAYS_BFR_FIRST_RCHRG 最初の決済から最初のリチャージまでの日数DAYS_BFR_FIRST_USE 決済から最初の使用日までの日数DRPD_CALLS_CNT_LAST_3MO 過去3か月で通話が切断された回数DRPD_CALLS_CNT_LAST_MO 今月通話が切断された回数DRPD_CALLS_CNT_LFTM 顧客の生涯の間、通話が切断された回数DWLNG_OWNER 住居の所有者DWLNG_STAT 居住状況DWLNG_SZ 住居の規模DWLNG_TENR 住居の保有権DWNLD_DATA_LAST_3MO 過去3か月にダウンロードされたデータ(KB)DWNLD_DATA_LAST_MO 過去1か月にダウンロードされたデータ(KB)DWNLD_DATA_LFTM 顧客の生涯の間、ダウンロードされたデータ(KB)ETHNCTY 顧客の人種GNDR_CD 個人の顧客の性別コードHH_SZ 世帯規模HNGUP_CALLS_CNT_LAST_3MO 過去3か月で電話を切った回数HNGUP_CALLS_CNT_LAST_MO 今月電話を切った回数MMS_CNT_LAST_MO 過去1か月で送信したMMSOFFNET_CALLS_LAST_MO 過去1か月のオフネット通話の回数PAY_TV_IND 顧客に有料テレビ接続があるかどうかを示します
予測分析アプリケーション
SNA分析によって改善されたOCDMの通信顧客離れ
•OCDM、OBIEEとの統合、特殊なSNAコードを使用したOracle Data Miningの利用
•CDRデータからのソーシャル・ネットワーク・コミュニティの特定
•ノード・レベルでの顧客離れと影響力に対する予測スコア、潜在的なリスクのある収益/価値
•ビジネス・ユーザー向けのユーザー・インタフェースと柔軟な非定型レポート
Oracle Communications Industry Data Model
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle Advanced Analyticsデータベース・オプションOracle Data Miner 4.Xの新機能のまとめ
•Oracle Data Miner/SQLDEV 4.1 EA2(Oracle Database 11gおよび12c向け)
– 新しいグラフ・ノード(箱ひげ図、散布図、棒グラフ、ヒストグラム)
– SQL問合せノード+Rスクリプトの統合
– デプロイメント用のSQLスクリプトの自動生成
– JSON問合せノードにより、ビッグ・データ外部表をマイニング
•Oracle Data Minerで使用可能なOracle Advanced Analytics 12cの機能– 新しいSQLデータ・マイニングのアルゴリズム/拡張機能
• 期待値最大化クラスタリング・アルゴリズム
• PCAおよび特異値分解アルゴリズム
• 改善/自動化されたテキスト・マイニング、予測の詳細、その他のアルゴリズムの改善
– 予測SQL問合せ - SQL問合せ内で自動的に構築、適用
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle SQL Developer/Oracle Data Miner 4.0新機能
グラフ・ノード– 散布図、折れ線グラフ、棒グラフ、箱ひげ図、ヒストグラム
– Group_byのサポート
R
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle SQL Developer/Oracle Data Miner 4.0新機能
•SQL問合せノード
– ODMrのワークフロー内でどのような形式の問合せ/変換/統計も可能
– どこにいてもSQLを使って、特別/独自のデータ操作ユースケースを処理• 最終購入日、購入頻度、購入金額(RFM:Recency,
Frequency, Monetary)
• SQLウィンドウ関数。過去3か月と過去3日に切られた小切手の移動平均などを出す場合などに使用
– Rスクリプトを統合可能
R
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle SQL Developer/Oracle Data Miner 4.0新機能
SQLスクリプトの生成– 手法全体を1つのSQLスクリプトとしてデプロイ
– データ・アナリストの手法を即座にデプロイ
R
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle SQL Developer/Oracle Data Miner 4.0新機能
•SQL問合せノード
– Rスクリプトを統合可能
R
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle SQL Developer/Oracle Data Miner 4.0R新機能
•SQL問合せノード
– Rスクリプトを統合可能
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle SQL Developer/Oracle Data Miner 4.0R
Parallel Query On (All)
新機能
•データベース/データ・マイニング・パラレル処理のオン/オフ制御
– ユーザーは、Oracle Data Minerノードごとに、オラクルのパラレル処理/スケーラビリティをフルに利用することが可能
• デフォルトは「オフ」
– 大規模なOracle Database、およびOracle Exadataを使用する企業には重要
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
12cの新機能サーバーの新機能
•3つの新しいOracle Data Mining SQL関数アルゴリズム– 期待値の最大化(EM)クラスタリング
•新しいクラスタリング手法
-データの密度モデルを構築する確率論的クラスタリング・アルゴリズム– 各種ドメインで発生したデータに対するアプローチの改善(例:販売取引と顧客層、構造化データとテキスト/その他の非構造化データ)
– データ・モデリングに必要なクラスタ数の最適値を自動的に決定
– 主成分分析(PCA)
•データ削減および改善されたモデリング機能
– 強力な特徴抽出手法がSVDに基づいて直交線形投影を使用し、データの根底にある分散を捕捉
– 特異値の分解(SVD)
•行列演算用のビッグ・データの「主力」手法
– 非常に大きい数値データセットで、非常に大きいデータ・サイズ(行と属性の両方)を実現するスケーラビリティ(センサー・データ、テキストなど)
R
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
12cの新機能サーバーの新機能
•テキスト・マイニング・サポートの拡張
– 入力にテキスト・データが含まれる場合のデータ・マイニング・プロセス(モデルの構築、デプロイメント、スコアリング)を大幅に簡便化
• テキスト・データに対する手動の前処理は不要
• テキスト索引の作成は不要
• データ型サポートの追加:CLOB、BLOB、BFILE
• 文字データはカテゴリ値またはテキストとして指定可能
R
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
12cの新機能サーバーの新機能
•予測的問合せ– SQL問合せ内でODMモデルを即座に構築/適用
• 分類と回帰
–対象が複数ある問題
• クラスタリングの問合せ
• 異常の問合せ
• 特徴抽出の問合せ
OAAは強力なSQL問合せを介したパーティ
ションによって、自動的に複数の異常検出モデル「Grouped_By」と「scores」を作成
Selectcust_income_level, cust_id,round(probanom,2) probanom, round(pctrank,3)*100 pctrank from ( selectcust_id, cust_income_level, probanom,percent_rank()over (partition by cust_income_level order by probanom desc) pctrank from (selectcust_id, cust_income_level, prediction_probability(of anomaly, 0 using *) over (partition by cust_income_level) probanom from customers))where pctrank <= .05order by cust_income_level, probanom desc;
R
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
12cの新機能サーバーの新機能
•予測的問合せ– SQL問合せ内でODMモデルを即座に構築/適用
• 分類と回帰
–対象が複数ある問題
• クラスタリングの問合せ
• 異常の問合せ
• 特徴抽出の問合せ
OAAは強力なSQL問合せを介したパーティ
ションによって、自動的に複数の異常検出モデル「Grouped_By」と「scores」を作成
R
結果/予測
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle Data Miner 4.1新機能
•JSON問合せノード
R
JSON問合せノードは外部表を介してBDAを抽出し、JSONデータ型を
解析し、データをデータ・マイニング用に組み立て
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle Data Miner 4.1新機能
•Oracle Data MinerワークフローAPIでワークフローを管理、スケジューリング、および実行
- PL/SQL APIにより、アプリケーションでワークフローを即座に実行したり、スケジューリングしたりすることが可能
–Oracle Schedulerによる
スケジューリング機能
–ODMrリポジトリ・ビューを問合せ
て、プロジェクトやワークフローの
情報を取得することが
可能
–アプリケーションでワークフローの実行や問合せで生成された結果を監視することが可能
R
CONNECT DMUSER/DMUSERSET SERVEROUTPUT ON DECLAREv_jobId v_status v_projectNamev_workflow_name v_node v_run_mode v_failurev_nodes BEGINv_nodes.extend();
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
VARCHAR2(30) := NULL; VARCHAR2(30) := NULL; VARCHAR2(30) := 'Project';VARCHAR2(30) := 'build_workflow';VARCHAR2(30) := 'MODEL_COEFFCIENTS';VARCHAR2(30) := ODMRSYS.ODMR_WORKFLOW.RERUN_NODE_PARENTS; NUMBER := 0;ODMRSYS.ODMR_OBJECT_NAMES := ODMRSYS.ODMR_OBJECT_NAMES();
v_nodes(v_nodes.count) := v_node;v_jobId := ODMRSYS.ODMR_WORKFLOW.WF_RUN(p_project_name => v_projectName,p_workflow_name => v_workflow_name, p_node_names => v_nodes, p_run_mode => v_run_mode,p_start_date => '31-DEC-14 12.00.00 AM AMERICA/NEW_YORK',p_repeat_interval => 'FREQ=MONTHLY;BYMONTHDAY=-1', p_end_date => '31-DEC-15 12.00.00 AM AMERICA/NEW_YORK');DBMS_OUTPUT.PUT_LINE('Job:'||v_jobId);
OAAのリンクおよびリソース• Oracle Advanced Analyticsの概要:
– プレゼンテーションのリンク—Oracle Advanced Analyticsデータベース内オプションによるビッグ・データの分析
– OAAデータ・シート(OTN)
– Oracle Internal OAA Product Management Wiki and Workspace
• YouTubeに録画されたOAAプレゼンテーションおよびデモ:
– Oracle Advanced Analytics and Data Mining at the YouTube Movies(ODM’r 4.0の新機能、小売、詐欺、ロイヤルティ、概要などに関する6 + OAAの「ライブ」デモ)
• Getting Started:– Getting Started w/ ODM blog entryのリンク
– New OAA/Oracle Data Mining 2-Day Instructor Led Oracle University courseのリンク
– OAA/Oracle Data Mining 4.0 Oracle by Examples (free) Tutorials(OTN)のリンク
– Free Test Drive of Oracle Advanced Analytics (Oracle Data Miner GUI) on the Amazon Cloudを試す
– SQL Developer Days Virtual Event w/ downloadable VM of Oracle Database + ODM/ODMr and e-training for Hands on Labsのリンク
– OAA/Oracle R Enterprise (free) Tutorial Series (OTN)のリンク
• その他のリソース:– Oracle Advanced Analytics Option on OTNページ
– OAA/Oracle Data Mining on OTNページ、ODM Documentation、およびODM Blog
– OAA/Oracle R Enterprise page on OTNページ、ORE Documentation、およびORE Blog
– Oracle SQL based Basic Statistical functions(OTN)
– ビジネス・インテリジェンス、ウェアハウス、および分析—2015年1月27~29日開催のBIWA Summit(Oracle HQ Conference Centerにて)
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|
Oracle Advanced Analyticsの新刊
Amazonで購入可能な書籍Predictive Analytics Using Oracle DataMiner:Develop for ODM in SQL &PL/SQL
Copyright © 2014 Oracle and/or its affiliates.All rights reserved. 68
テスト・ドライブを受けるオラクルのパートナー、Vlamis Softwareによる、Amazon Cloudの無料テスト・ドライブの提供
•ステップ— リクエストに記入する
– http://www.vlamis.com/td/に移動
•ステップ2 —接続する– リモート・デスクトップで接続
•ステップ3 —テスト・ドライブを開始する– Oracle Database +
– Oracle Advanced Analytics Option
– Oracle SQL Developer/Oracle Data Miner GUI
– 学習用のデモ・データ
– チュートリアルで学習
Copyright © 2014 Oracle and/or its affiliates.All rights reserved. 78
2016年1月26、27、28日Oracle HQ Campusにて
Copyright © 2014 Oracle and/or its affiliates.All rights reserved.|