Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion

by M. Hammar, R. Karlsson and B. Nilsson

担当：Quasi_quant2010

KDD2014勉強会 1

【KDD2014勉強会】

本論文を読んだ動機 -潜在層を広げたい:集客・消費層の増加を狙う-

KDD2014勉強会 2

DisplayやSearch等、機械学習では効率的な集客層の刈り取りに関するリサーチが多数

ダイレクトマーケティングの観点では、人手によりユーザーをカバーしきれない為、機械で情報推薦する以外、手段はない。

CTR(集客層刈り取り)・CV(消費層刈り取り)予測など

潜在層を増やすアプローチも定量的に評価出来ないか

評価出来れば、マス広告とインターネット広告の協業も可能

潜在層集客層消費層

CTR予測？ CV予測

研究背景 - 情報に感染するユーザー数はどの様に増えるか -

KDD2014勉強会 3

命題

twitterが持つ会話ネットワークと特定出来ない何かに影響される情報感染についての理解

貢献

twitterが持つ会話ネットワークに影響を受ける情報感染

あるユーザーとその近接ユーザー間が会話ネットワーク内で情報感染すると仮定し、そのダイナミクスをブラウン運動で近似

特定出来ない何かに影響をうける情報感染

会話ネットワーク外で情報感染する数と仮定しその数をポアソン分布で仮定

感想

予測ではなくデータフィッティングし、情報感染の考察を行っている

アイディア - マス媒体による感染と会話ネットワーク -

KDD2014勉強会 4

部分コミュニティA 部分コミュニティB

あるイベントで機械学習のイベントがあったとする

会話ネットワークを通じて情報感染する

口コミなど特定できない影響でユーザーが情報感染する

twitter会話ネットワーク

特定できない影響で情報に感染したユーザー

情報感染したユーザーの近接ユーザーが感染

twitter

情報感染したユーザーの親ノード

アイディア - 会話ネットワーク内外の時系列図 -

KDD2014勉強会 5

b a

c

会話ネットワーク内

会話ネットワーク外

a

c


会話ネットワーク外 b

時刻

t

時刻

t+

1

twitterの会話ネットワーク - ノード・エッジ・ユーザー間距離の定義 -

KDD2014勉強会 6

G(V,E)

v∈V : ノードはtwitterユーザー

e∈E : vi がvjにツイートした時の有効エッジ

wij

viがvjに会話した数(wij ≠ wji)

N(vi)

viが会話した全ての近接ユーザー

ηij = | N(vi) ∩ N(vj) |

viとvjが共有した近接ユーザーの数

dij = 1 / (wij+1)(wji+1)ɤ(ηij+1) ɤ

ɤ≧1を満たす固定パラメータ

w12=0, w21=5, N(v1)={v3, v4, v5} N(v4)={v1, v3, v5}

η14=2

会話数

G(V,E)

明示的な親密さ暗示的な親密さ

モデル - 近接ユーザー間の情報感染：幾何ブラウン運動-

KDD2014勉強会 7

モデル上の親密さが観測上の親密さを超えると情報に感染

If log(Stij) ≧ dij,

then vjはviにより情報感染、感染数 += 1

近接ユーザー間の親密さをGBMと仮定

ただし、不等式ではStのパラメータを推定できないので、 log(St

ij) ≡ dij と仮定する

Ck

Ck Ck

Ck

モデル - 何かより情報感染したユーザー数：ポアソン分布 -

KDD2014勉強会 8

シミュレーション総時間のtwitterデータを15分間隔で分割

イベントトピックをtweetしたユーザーを情報感染したとみなす

会話ネットワーク外のtweet回数をカウント(=k)

kがポアソン分布に従うと仮定

会話ネットワーク外のユーザー数をM0の時、 15分間隔でユーザーが感染する情報数を

λ / M0

データ - マスデータとtwitterデータの整理 -

KDD2014勉強会 9

Gold Standard Report(GSR)

位置情報, 日付, イベントの業種, ハシュタグ, etc

ハシュタグ：40種類のイベントで、64ユニークハシュタグ

twitter(2012/5~2013/9)

Sample JSON(https://gist.github.com/edstenson/1206391)

観測期間の内、GSRイベントに無関係なtweetは除去

除外条件はハシュタグ

位置情報はほぼ記録されていない為、推定(http://archive.is/srm8P)

GSRに含まれる2000の位置情報に関する固有名詞を抽出

前述にない表現・品詞ならば、ユーザー属性情報・tweetテキストに基づきユーザー位置情報やtweet内容の位置情報を推定。

https://gist.github.com/edstenson/1206391



http://archive.is/srm8P

実験 - 会話ネットワークで情報に感染するとは？ -

KDD2014勉強会 10

情報感染したユーザー数 = 近接ユーザー間の情報感染ユーザー数 + 何かより情報感染したユーザー数

近接ユーザー間の情報感染ユーザー数：幾何ブラウン運動

初期値、すべてのユーザーは感染していない

t番目繰り返し時、会話ネットワークG(V,E)とdijが観測値として与えられ、部分コミュニティパラメータμ、σを推定

何かより情報感染したユーザー数：ポアソン分布

ポアソンパラメータλはシミュレーション時間中、一定

t番目繰り返し時、会話ネットワーク外のユーザー数をM0t

結果 - 部分コミュニティを考慮するしない -

KDD2014勉強会 11

会話ネットワークに部分コミュニティを考慮することでフィッティング精度が高まっている

感染数の予測は78%~95%なので、fittingとしてはOK

結果 - 推定・実現グラフは異なる性質を持つ -

KDD2014勉強会 12

推定・実現グラフは、平均クラスタ数が1/10と大きく異なる

実現グラフは疎(平均クラスタ数)だが、経路長・直径が推定グラフより大きい。

結果として平均次数は1%の誤差、連結ノード数は10%の誤差

推定・実現グラフは異なる性質を持っている？

ただし、グラフ密度は一致

推定・実現グラフは異なる性質を持つ？

感想 - 発想は面白かった。が、改善点も多い? -

発想

twitterトピックが推定できれば、会話ネットワーク内・外で情報感染するユーザー数を考慮でき、会話ネットワークの外力(マス,etc)による影響を分解した

Twitterのフォロー・フォロワー関係で会話ネットワークが生成されると考えてもよいのでは？

改善点

推定・実現グラフは異なっていると考えてよいはずで、会話ネットワークの近接度合をブラウン距離で測る意味を再考した方が？

リンク優先接続・ノード生成消滅を加味したネットワークってない？

実現グラフはスケールフリー性が強く、スモールワールド性が低い？この性質を再現できるリンク予測の生成モデルを使った方が？

KDD2014勉強会 13

附録

KDD2014勉強会 14

アイディア - 会話ネットワーク内外の時系列図 -

KDD2014勉強会 15

b a

c


会話ネットワーク外

a

c


会話ネットワーク外 b

時刻

t

時刻

t+

1

このエッジがフォロー・フォロワー関係で生成

twitterの会話ネットワーク - ユーザー間の親密さ、dijの解釈 -

KDD2014勉強会 16

wij → 大 ⇔ dij → 小

会話数が多ければ、viが感じるvjへの親密さを明示的に観測

wji → 大 ⇔ dij → 小

会話数が多ければ、vjが感じるviへの親密さを明示的に観測ただしɤ乗なので、ユーザー間の親密さに差が生じる

ηij → 大 ⇔ dij → 小

viとvjがより多くのユーザーを共有すれば、暗示的に親密と観測

wij > wji (ɤ=1)

vjのviへの親近感の方がviのvjへの親近感より強い

スモールワールド性

KDD2014勉強会 17

誰に対しても少ない人数で到達できる(隣接距離が小さい)

親コードが子ノードを共有し易い(クラスタ性が高い)

[出典]mixiのスモールワールド性の検証(http://alpha.mixi.co.jp/entry/2008/10643/)

[出典]図：スモールワールド・ネットワーク(http://japan.cnet.com/sp/column_ncompany/20130167/)

http://alpha.mixi.co.jp/entry/2008/10643/



スケールフリー性

KDD2014勉強会 18

次数kiの分布関数がベキ関数

[出典]矢久保考介、トポロジー理工学特別講義Ｉ、複雑ネットワークの統計的性質

Documents

Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion