18
Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion by M. Hammar, R. Karlsson and B. Nilsson 担当:Quasi_quant2010 KDD2014勉強会 1 【KDD2014勉強会】

Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

Embed Size (px)

DESCRIPTION

KDD2014読み会 Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

Citation preview

Page 1: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

by M. Hammar, R. Karlsson and B. Nilsson

担当:Quasi_quant2010

KDD2014勉強会 1

【KDD2014勉強会】

Page 2: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

本論文を読んだ動機 -潜在層を広げたい:集客・消費層の増加を狙う-

KDD2014勉強会 2

DisplayやSearch等、機械学習では 効率的な集客層の刈り取りに関するリサーチが多数

ダイレクトマーケティングの観点では、人手によりユーザーを カバーしきれない為、機械で情報推薦する以外、手段はない。

CTR(集客層刈り取り)・CV(消費層刈り取り)予測など

潜在層を増やすアプローチも定量的に評価出来ないか

評価出来れば、マス広告とインターネット広告の協業も可能

潜在層 集客層 消費層

CTR予測 ? CV予測

Page 3: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

研究背景 - 情報に感染するユーザー数はどの様に増えるか -

KDD2014勉強会 3

命題

twitterが持つ会話ネットワークと特定出来ない何かに影響される情報感染についての理解

貢献

twitterが持つ会話ネットワークに影響を受ける情報感染

あるユーザーとその近接ユーザー間が会話ネットワーク内で情報感染 すると仮定し、そのダイナミクスをブラウン運動で近似

特定出来ない何かに影響をうける情報感染

会話ネットワーク外で情報感染する数と仮定し その数をポアソン分布で仮定

感想

予測ではなくデータフィッティングし、情報感染の考察を行っている

Page 4: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

アイディア - マス媒体による感染と会話ネットワーク -

KDD2014勉強会 4

部分コミュニティA 部分コミュニティB

あるイベントで機械学習のイベントがあったとする

会話ネットワークを通じて情報感染する

口コミなど特定できない影響でユーザーが情報感染する

twitter会話ネットワーク

特定できない影響で 情報に感染したユーザー

情報感染したユーザーの近接ユーザーが感染

twitter

情報感染したユーザーの親ノード

Page 5: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

アイディア - 会話ネットワーク内外の時系列図 -

KDD2014勉強会 5

b a

c

会話ネットワーク内

会話ネットワーク外

a

c

会話ネットワーク内

会話ネットワーク外 b

時刻

t

時刻

t+

1

Page 6: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

twitterの会話ネットワーク - ノード・エッジ・ユーザー間距離の定義 -

KDD2014勉強会 6

G(V,E)

v∈V : ノードはtwitterユーザー

e∈E : vi がvjにツイートした時の有効エッジ

wij

viがvjに会話した数(wij ≠ wji)

N(vi)

viが会話した全ての近接ユーザー

ηij = | N(vi) ∩ N(vj) |

viとvjが共有した近接ユーザーの数

dij = 1 / (wij+1)(wji+1)ɤ(ηij+1) ɤ

ɤ≧1を満たす固定パラメータ

w12=0, w21=5, N(v1)={v3, v4, v5} N(v4)={v1, v3, v5}

η14=2

会話数

G(V,E)

明示的な親密さ 暗示的な親密さ

Page 7: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

モデル - 近接ユーザー間の情報感染:幾何ブラウン運動-

KDD2014勉強会 7

モデル上の親密さが観測上の親密さを超えると情報に感染

If log(Stij) ≧ dij,

then vjはviにより情報感染、感染数 += 1

近接ユーザー間の親密さをGBMと仮定

ただし、不等式ではStのパラメータを推定できないので、 log(St

ij) ≡ dij と仮定する

Ck

Ck Ck

Ck

Page 8: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

モデル - 何かより情報感染したユーザー数:ポアソン分布 -

KDD2014勉強会 8

シミュレーション総時間のtwitterデータを15分間隔で分割

イベントトピックをtweetしたユーザーを情報感染したとみなす

会話ネットワーク外のtweet回数をカウント(=k)

kがポアソン分布に従うと仮定

会話ネットワーク外のユーザー数をM0の時、 15分間隔で ユーザーが感染する情報数を

λ / M0

Page 9: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

データ - マスデータとtwitterデータの整理 -

KDD2014勉強会 9

Gold Standard Report(GSR)

位置情報, 日付, イベントの業種, ハシュタグ, etc

ハシュタグ:40種類のイベントで、64ユニークハシュタグ

twitter(2012/5~2013/9)

Sample JSON(https://gist.github.com/edstenson/1206391)

観測期間の内、GSRイベントに無関係なtweetは除去

除外条件はハシュタグ

位置情報はほぼ記録されていない為、推定(http://archive.is/srm8P)

GSRに含まれる2000の位置情報に関する固有名詞を抽出

前述にない表現・品詞ならば、ユーザー属性情報・tweetテキストに基づきユーザー位置情報やtweet内容の位置情報を推定。

Page 10: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

実験 - 会話ネットワークで情報に感染するとは? -

KDD2014勉強会 10

情報感染したユーザー数 = 近接ユーザー間の情報感染ユーザー数 + 何かより情報感染したユーザー数

近接ユーザー間の情報感染ユーザー数:幾何ブラウン運動

初期値、すべてのユーザーは感染していない

t番目繰り返し時、会話ネットワークG(V,E)とdijが観測値として与えられ、部分コミュニティパラメータμ、σを推定

何かより情報感染したユーザー数:ポアソン分布

ポアソンパラメータλはシミュレーション時間中、一定

t番目繰り返し時、会話ネットワーク外のユーザー数をM0t

Page 11: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

結果 - 部分コミュニティを考慮するしない -

KDD2014勉強会 11

会話ネットワークに部分コミュニティを考慮することで フィッティング精度が高まっている

感染数の予測は78%~95%なので、fittingとしてはOK

Page 12: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

結果 - 推定・実現グラフは異なる性質を持つ -

KDD2014勉強会 12

推定・実現グラフは、平均クラスタ数が1/10と大きく異なる

実現グラフは疎(平均クラスタ数)だが、 経路長・直径が推定グラフより大きい。

結果として平均次数は1%の誤差、連結ノード数は10%の誤差

推定・実現グラフは異なる性質を持っている?

ただし、グラフ密度は一致

推定・実現グラフは異なる性質を持つ?

Page 13: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

感想 - 発想は面白かった。が、改善点も多い? -

発想

twitterトピックが推定できれば、会話ネットワーク内・外で 情報感染するユーザー数を考慮でき、 会話ネットワークの外力(マス,etc)による影響を分解した

Twitterのフォロー・フォロワー関係で会話ネットワークが生成されると考えてもよいのでは?

改善点

推定・実現グラフは異なっていると考えてよいはずで、会話ネットワークの近接度合をブラウン距離で測る意味を再考した方が?

リンク優先接続・ノード生成消滅を加味したネットワークってない?

実現グラフはスケールフリー性が強く、スモールワールド性が低い?この性質を再現できるリンク予測の生成モデルを使った方が?

KDD2014勉強会 13

Page 14: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

附録

KDD2014勉強会 14

Page 15: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

アイディア - 会話ネットワーク内外の時系列図 -

KDD2014勉強会 15

b a

c

会話ネットワーク内

会話ネットワーク外

a

c

会話ネットワーク内

会話ネットワーク外 b

時刻

t

時刻

t+

1

このエッジが フォロー・フォロワー関係で生成

Page 16: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

twitterの会話ネットワーク - ユーザー間の親密さ、dijの解釈 -

KDD2014勉強会 16

wij → 大 ⇔ dij → 小

会話数が多ければ、viが感じるvjへの親密さを明示的に観測

wji → 大 ⇔ dij → 小

会話数が多ければ、vjが感じるviへの親密さを明示的に観測 ただしɤ乗なので、ユーザー間の親密さに差が生じる

ηij → 大 ⇔ dij → 小

viとvjがより多くのユーザーを共有すれば、暗示的に親密と観測

wij > wji (ɤ=1)

vjのviへの親近感の方がviのvjへの親近感より強い

Page 17: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

スモールワールド性

KDD2014勉強会 17

誰に対しても少ない人数で到達できる(隣接距離が小さい)

親コードが子ノードを共有し易い(クラスタ性が高い)

[出典]mixiのスモールワールド性の検証(http://alpha.mixi.co.jp/entry/2008/10643/)

[出典]図:スモールワールド・ネットワーク(http://japan.cnet.com/sp/column_ncompany/20130167/)

Page 18: Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

スケールフリー性

KDD2014勉強会 18

次数kiの分布関数がベキ関数

[出典]矢久保考介、トポロジー理工学特別講義I、複雑ネットワークの統計的性質