Bridging Relational Learning Algorithms@ビッグデータ基盤勉強会

BridgingRelational Learning

Algorithms

山口祐人

2017/12/21 Yuto Yamaguchi @ ビッグデータ基盤勉強会 1


関係データ”関係データとは、複数のデータの間に観測、定義される「関係」に関するデータのことです。”

たとえば？


Web 購買データSNS

ハイパーリンク

友人買った

人や物の間にある何らかの関係に注目

関係データ「学習」


1位

2位

3位

4位

関係データに対する機械学習

さまざまなタスクを解くことができる

ランキング分類クラスタリングリンク予測

関係データ学習の関係


ページランク

パーソナライズドページランク

ラベル伝搬法

確率的ブロックモデル行列分解

テンソル分解

（一般化行列分解） Tensor Decompositionwith Missing Indices

[YY+ IJCAI’17]

When Does LP Fail?[YY+ IJCAI’17]

Karnighan-Lin法



ラベル伝搬法

確率的ブロックモデル


Label Propagation が解く問題例


友人

サッカーサッカー

サッカー

テニス

野球

？？？

• 真ん中の人の趣味は何？• 職業は？• 居住地は？• 年齢は？

SNSにおけるユーザの属性推定

Label Propagation｜アイデア


わかってるラベルを伝播させる

これがただの逆行列計算に帰着する（詳細略）

Label Propagation の問題


ラベルの割合が違う時はうまくいかない

ラベルごとにエッジ密度が違う時はうまくいかない

違うラベル同士が繋がりやすい時はうまくいかない

多少

密疎


なぜ？

When Does Label Propagation Fail? A View from a Network Generative ModelYuto Yamaguchi, Kohei Hayashi

IJCAI 2017


概要

① LPの性質を説明するためにネットワーク生成モデルの一つである確率的ブロックモデル（SBM）に着目

② LPとSBMの理論的なつながりを示す• これを示すために “Partially-Labeled SBM” を提案

③ ネットワーク生成モデルの見地から、LPがうまくいかないケースを解析


SBM｜アイデア


「クラスタ構造を持つグラフ」がどうやって生成されるかを記述するモデル

SBMパラメータ入力生成

どういうパラメータを入力するとどういうグラフが生成されるかが分かる

パラメータは３つ


g

P

スカラー。クラスタ数を表す。K

K 次元ベクトル。γk は k 番目のクラスタに属すノードの割合を表す。

K x K 行列。Πij は i 番目のクラスタに属すノードとj 番目に属すノード間にエッジが生成される確率を表す。

グラフ生成例（K=2）


（例1）g = 0.8 0.2( ) P =0.8 0.1

0.1 0.8

æ

èç

ö

ø÷ （例2）g = 0.5 0.5( ) P =

0.1 0.8

0.8 0.1

æ

èç

ö

ø÷

LPとSBMの関係を示したいが、難しい


ラベルとクラスタ割り当て両方の概念を持つモデルを作って、それを使ってLPとSBMの関係を示す

LP SBM PLSBM（提案）

ラベル ✓ ✓

クラスタ割り当て ✓ ✓

Partially-Labeled SBM｜アイデア


「ラベルとクラスタ構造を持つグラフ」がどう生成されるかを記述するモデル

PLSBMパラメータ入力生成

B

B

R

ラベルは部分的に生成

Partially-Labeled SBM｜グラフ生成例


（例1）g = 0.8 0.2( ) P =

0.8 0.1

0.1 0.8

æ

èç

ö

ø÷

（例1）g = 0.8 0.2( ) P =

0.8 0.1

0.1 0.8

æ

èç

ö

ø÷

a =1.0 a = 0.7

BR

B

RR

B

（新パラメータ）0に近いほど

クラスタとラベルが異なる

定理１：SBMはPLSBMの特殊ケース（自明）


ラベル付けするノード数を０とすると、PLSBMとSBMは等価

定理２：（離散型）LPは（ある条件下において）PLSBMの特殊ケース


１．

２．

３．

( 4． )

PLSBMのパラメータをこうセットするとPLSBMと（離散型）LPは等価

0 £ m £1

0 £ n £1

ただし、

系１：（離散型）LPは「ラベルの割合が一定」だと仮定している


定理２の条件１から言える

（全てのラベル k について、ラベル割合 γk が同じ）

多少

仮定に反している

系２：（離散型）LPは「ラベル間のエッジ密度は全て同じ」と仮定している


定理２の条件２から言える

（エッジ密度を決めるパラメータΠの対角成分は全て同じ）

密疎


系３：（離散型）LPは「同じラベル同士が繋がりやすい」と仮定している


定理２の条件３から言える

（エッジ密度を決めるパラメータΠの対角成分は、非対角成分より大きい）


まとめ

• LPがうまくいかないケースについて、何故そうなるのかをネットワーク生成モデルの見地から説明した

• それを説明するためにPLSBMを導入し、SBMとLPが特殊ケースであることを示した• → つまりLPとSBMの理論的つながりを示した

• 理論的結果をサポートするために実験をした• 理論通りの結果が出た




ページランク

パーソナライズドページランク

ラベル伝搬法

確率的ブロックモデル行列分解

テンソル分解

（一般化行列分解） Tensor Decompositionwith Missing Indices

[YY+ IJCAI’17]


Karnighan-Lin法



行列分解

テンソル分解

Tensor Decompositionwith Missing Indices

[YY+ IJCAI’17]

行列分解が解く問題例

Given Find


購買履歴データ新たなリンク

商品推薦

Matrix Factorization｜アイデア


「似た商品を買う人」が買った商品を買う

Matrix Factorization｜アイデア


つまり、エッジが密なところにはもっとエッジがあるはず

密密

Matrix Factorization ｜アイデア


1 1 0

1 0 0

0 0 1

1 1 0

1 1 0

0 0 0

0 0 0

0 0 0

0 0 1

≈ + =1 1 01

1

0

0 0 10

0

1

x x

+

ランク１行列（＝エッジが密なところ）

エッジが密なところにはもっとエッジがあるはず

行列を、”ランク１行列の和”で近似する

行列からテンソルへ


X , =1

X , =1, 夏

いままで

インデックスが一つ増えた

夏冬

テンソル（階数＝3）

テンソル分解（CP分解）


テンソルを、”ランク１テンソルの和“ で近似する

X≈ + +

a1 a2

b1 b2

c2c1

…

ランク１テンソル

定理３：CP分解とMFの関係（自明）


階数が２のとき、CP分解はMFになる

じゃあこういうケースは？


（Aさん、本1、夏）（Aさん、本2、冬）（Bさん、本1、冬）（Cさん、本1、夏）（Cさん、本2、夏）

（Aさん、本1）（Aさん、本2）（Bさん、本1）（Cさん、本1）（Cさん、本2）

（Aさん、本1、？）（Aさん、本2、冬）（Bさん、本1、冬）（Cさん、本1、？）（Cさん、本2、夏）

本を買った時に観測されるデータ

行列分解で扱えるテンソル分解で扱える・・・？

Tensor Decomposition with Missing IndicesYuto Yamaguchi, Kohei Hayashi

IJCAI 2017


概要

• インデックスが欠損した場合でもテンソル分解できる手法を提案

• これによりテンソルの階数が k と k-1 の間みたいなデータも扱えるようになる• 行列分解とテンソル分解が

• 実データで実験• それなりに良い精度が出た


提案手法｜アイデア


（Aさん、本1、冬？）（Aさん、本2、冬）（Bさん、本1、冬）（Cさん、本1、夏？）（Cさん、本2、夏）

テンソル分解結果

②テンソル分解

③欠損インデックス推定

（Aさん、本1、？）（Aさん、本2、冬）（Bさん、本1、冬）（Cさん、本1、？）（Cさん、本2、夏）

データ

①適当に初期化

繰り返す

提案手法｜詳細


・確率的生成モデルとしてモデル化（欠損値を扱うときの定石？）

グラフィカルモデル・パラメータ推定は Variational EM algo.・欠損値推定の部分はEステップ・テンソル分解の部分はMステップ

・テンソルのインデックスも確率変数とするのが従来との差

定理４：インデックスが全て観測されている時階数kの提案手法と階数kのテンソル分解は等価



（Aさん、本1、？）（Aさん、本2、？）（Bさん、本1、？）（Cさん、本1、？）（Cさん、本2、？）

（Aさん、本1）（Aさん、本2）（Bさん、本1）（Cさん、本1）（Cさん、本2）


階数３の提案手法

階数３のテンソル分解

階数２のテンソル分解＝行列分解

・・・

欠損多欠損少

実験


データ：３階のテンソルTwitterデータ（ユーザが、単語を、場所でツイート）場所のみが欠損しうる設定

比較手法赤：提案手法黒：場所は全て捨てて単に行列分解をする手法その他：省略

結果（右図）欠損インデックスの割合が少ないうちは提案手法は良い欠損インデックスの割合が多くなると良くない

まとめ

• インデックスが欠損したデータに対してもテンソル分解できる手法を提案

• 提案手法は階数 k-1 のテンソル分解と階数 k のテンソル分解をスムースにつなぐことを示した

• 実験で（それなりに）いい結果が出ることを示した


Technology

Bridging Relational Learning Algorithms@ビッグデータ基盤勉強会