Upload
quasiquant2010
View
239
Download
4
Embed Size (px)
DESCRIPTION
KDD2014読み会 Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion
Citation preview
Modeling Mass Protest Adoption in Social Network Communities using Geometric Brownian Motion
by M. Hammar, R. Karlsson and B. Nilsson
担当:Quasi_quant2010
KDD2014勉強会 1
【KDD2014勉強会】
本論文を読んだ動機 -潜在層を広げたい:集客・消費層の増加を狙う-
KDD2014勉強会 2
DisplayやSearch等、機械学習では 効率的な集客層の刈り取りに関するリサーチが多数
ダイレクトマーケティングの観点では、人手によりユーザーを カバーしきれない為、機械で情報推薦する以外、手段はない。
CTR(集客層刈り取り)・CV(消費層刈り取り)予測など
潜在層を増やすアプローチも定量的に評価出来ないか
評価出来れば、マス広告とインターネット広告の協業も可能
潜在層 集客層 消費層
CTR予測 ? CV予測
研究背景 - 情報に感染するユーザー数はどの様に増えるか -
KDD2014勉強会 3
命題
twitterが持つ会話ネットワークと特定出来ない何かに影響される情報感染についての理解
貢献
twitterが持つ会話ネットワークに影響を受ける情報感染
あるユーザーとその近接ユーザー間が会話ネットワーク内で情報感染 すると仮定し、そのダイナミクスをブラウン運動で近似
特定出来ない何かに影響をうける情報感染
会話ネットワーク外で情報感染する数と仮定し その数をポアソン分布で仮定
感想
予測ではなくデータフィッティングし、情報感染の考察を行っている
アイディア - マス媒体による感染と会話ネットワーク -
KDD2014勉強会 4
部分コミュニティA 部分コミュニティB
あるイベントで機械学習のイベントがあったとする
会話ネットワークを通じて情報感染する
口コミなど特定できない影響でユーザーが情報感染する
twitter会話ネットワーク
特定できない影響で 情報に感染したユーザー
情報感染したユーザーの近接ユーザーが感染
情報感染したユーザーの親ノード
アイディア - 会話ネットワーク内外の時系列図 -
KDD2014勉強会 5
b a
c
会話ネットワーク内
会話ネットワーク外
a
c
会話ネットワーク内
会話ネットワーク外 b
時刻
t
時刻
t+
1
twitterの会話ネットワーク - ノード・エッジ・ユーザー間距離の定義 -
KDD2014勉強会 6
G(V,E)
v∈V : ノードはtwitterユーザー
e∈E : vi がvjにツイートした時の有効エッジ
wij
viがvjに会話した数(wij ≠ wji)
N(vi)
viが会話した全ての近接ユーザー
ηij = | N(vi) ∩ N(vj) |
viとvjが共有した近接ユーザーの数
dij = 1 / (wij+1)(wji+1)ɤ(ηij+1) ɤ
ɤ≧1を満たす固定パラメータ
w12=0, w21=5, N(v1)={v3, v4, v5} N(v4)={v1, v3, v5}
η14=2
会話数
G(V,E)
明示的な親密さ 暗示的な親密さ
モデル - 近接ユーザー間の情報感染:幾何ブラウン運動-
KDD2014勉強会 7
モデル上の親密さが観測上の親密さを超えると情報に感染
If log(Stij) ≧ dij,
then vjはviにより情報感染、感染数 += 1
近接ユーザー間の親密さをGBMと仮定
ただし、不等式ではStのパラメータを推定できないので、 log(St
ij) ≡ dij と仮定する
Ck
Ck Ck
Ck
モデル - 何かより情報感染したユーザー数:ポアソン分布 -
KDD2014勉強会 8
シミュレーション総時間のtwitterデータを15分間隔で分割
イベントトピックをtweetしたユーザーを情報感染したとみなす
会話ネットワーク外のtweet回数をカウント(=k)
kがポアソン分布に従うと仮定
会話ネットワーク外のユーザー数をM0の時、 15分間隔で ユーザーが感染する情報数を
λ / M0
データ - マスデータとtwitterデータの整理 -
KDD2014勉強会 9
Gold Standard Report(GSR)
位置情報, 日付, イベントの業種, ハシュタグ, etc
ハシュタグ:40種類のイベントで、64ユニークハシュタグ
twitter(2012/5~2013/9)
Sample JSON(https://gist.github.com/edstenson/1206391)
観測期間の内、GSRイベントに無関係なtweetは除去
除外条件はハシュタグ
位置情報はほぼ記録されていない為、推定(http://archive.is/srm8P)
GSRに含まれる2000の位置情報に関する固有名詞を抽出
前述にない表現・品詞ならば、ユーザー属性情報・tweetテキストに基づきユーザー位置情報やtweet内容の位置情報を推定。
実験 - 会話ネットワークで情報に感染するとは? -
KDD2014勉強会 10
情報感染したユーザー数 = 近接ユーザー間の情報感染ユーザー数 + 何かより情報感染したユーザー数
近接ユーザー間の情報感染ユーザー数:幾何ブラウン運動
初期値、すべてのユーザーは感染していない
t番目繰り返し時、会話ネットワークG(V,E)とdijが観測値として与えられ、部分コミュニティパラメータμ、σを推定
何かより情報感染したユーザー数:ポアソン分布
ポアソンパラメータλはシミュレーション時間中、一定
t番目繰り返し時、会話ネットワーク外のユーザー数をM0t
結果 - 部分コミュニティを考慮するしない -
KDD2014勉強会 11
会話ネットワークに部分コミュニティを考慮することで フィッティング精度が高まっている
感染数の予測は78%~95%なので、fittingとしてはOK
結果 - 推定・実現グラフは異なる性質を持つ -
KDD2014勉強会 12
推定・実現グラフは、平均クラスタ数が1/10と大きく異なる
実現グラフは疎(平均クラスタ数)だが、 経路長・直径が推定グラフより大きい。
結果として平均次数は1%の誤差、連結ノード数は10%の誤差
推定・実現グラフは異なる性質を持っている?
ただし、グラフ密度は一致
推定・実現グラフは異なる性質を持つ?
感想 - 発想は面白かった。が、改善点も多い? -
発想
twitterトピックが推定できれば、会話ネットワーク内・外で 情報感染するユーザー数を考慮でき、 会話ネットワークの外力(マス,etc)による影響を分解した
Twitterのフォロー・フォロワー関係で会話ネットワークが生成されると考えてもよいのでは?
改善点
推定・実現グラフは異なっていると考えてよいはずで、会話ネットワークの近接度合をブラウン距離で測る意味を再考した方が?
リンク優先接続・ノード生成消滅を加味したネットワークってない?
実現グラフはスケールフリー性が強く、スモールワールド性が低い?この性質を再現できるリンク予測の生成モデルを使った方が?
KDD2014勉強会 13
附録
KDD2014勉強会 14
アイディア - 会話ネットワーク内外の時系列図 -
KDD2014勉強会 15
b a
c
会話ネットワーク内
会話ネットワーク外
a
c
会話ネットワーク内
会話ネットワーク外 b
時刻
t
時刻
t+
1
このエッジが フォロー・フォロワー関係で生成
twitterの会話ネットワーク - ユーザー間の親密さ、dijの解釈 -
KDD2014勉強会 16
wij → 大 ⇔ dij → 小
会話数が多ければ、viが感じるvjへの親密さを明示的に観測
wji → 大 ⇔ dij → 小
会話数が多ければ、vjが感じるviへの親密さを明示的に観測 ただしɤ乗なので、ユーザー間の親密さに差が生じる
ηij → 大 ⇔ dij → 小
viとvjがより多くのユーザーを共有すれば、暗示的に親密と観測
wij > wji (ɤ=1)
vjのviへの親近感の方がviのvjへの親近感より強い
スモールワールド性
KDD2014勉強会 17
誰に対しても少ない人数で到達できる(隣接距離が小さい)
親コードが子ノードを共有し易い(クラスタ性が高い)
[出典]mixiのスモールワールド性の検証(http://alpha.mixi.co.jp/entry/2008/10643/)
[出典]図:スモールワールド・ネットワーク(http://japan.cnet.com/sp/column_ncompany/20130167/)
スケールフリー性
KDD2014勉強会 18
次数kiの分布関数がベキ関数
[出典]矢久保考介、トポロジー理工学特別講義I、複雑ネットワークの統計的性質