Information Network or Social Network?

  • View
    285

  • Download
    4

  • Category

    Science

Preview:

DESCRIPTION

2014.6.2.修正済み (ver. 1.1)

Citation preview

Information Network or Social Network?

The Structure of the Twitter Follow Graph

Seth A. Myers, Aneesh Sharma, Pankaj Gupta, and Jimmy LinTwitter, Inc.

東京大学大学院工学系研究科システム創成学専攻大橋・鳥海研福井 思佳

2014/5/31  とりらぼ輪読会1

目標• Twitter フォロー・グラフのトポロジー的解析か

ら、• Twitter はソーシャル・ネットワークなのか、あ

るいは情報ネットワークなのか ? という疑問に答える

2

定義• ソーシャル・ネットワーク• 次数相関  degree assortativity :高• 最短経路長 shortest path length :短• 連結成分 connected components :大• クラスタ係数 clustering coefficients :大• 相互性 reciprocity :高

• 情報ネットワーク• 次数 vertex degrees :高• 相互性 : 低• 2 ホップで連結しているノード数 two-hop

neighborhoods :多3

使用データ• Twitter フォロー・グラフ全データ( 2012 年後

半)• アクティブ・ユーザ数: 175,000,000• 有向リンク数: 20,000,000,000

• 双方向リンク: 42%  →無向リンク: 4bl.• 単方向リンク: 58%

• 国別データ• ブラジル• 日本• アメリカ

4

比較対象• Facebook• ノード数: 721,000,000• 無向リンク数: 68,700,000,000

• MSN メッセンジャー• ノード数: 180,000,000• 無向リンク数: 1,300,000,000

5

分析項目1. 次数分布 degree distributions2. 連結成分 connected components3. 最短経路長 shortest path lengths4. クラスタ係数 clustering coefficient5. 2 ホップで連結しているノード数 two-hop

neighborhoods6. 次数相関 degree assortativity

6

1. 次数分布• 【定義】• Inbound degree (in-degree) :フォロワー数• Outbound degree (out-degree) :フォローイング

数• 【分析対象】• 全ノード/国別ノードそれぞれに対して• In-degree distribution• Out-degree distribution• Mutual degree distribution

7

8

・べき分布・ヘビーテール( Out-degree よりもヘビー)

9

次数分布に関する考察• Out-degree の方が上限が高い:直感に反する• ∵ フォロワーをフォローし返す著名人の存在• “non-social” な特徴 : 社会的関係を維持可能な上限

150[1]

10

・ Out-degree2000にピーク

11

次数分布に関する考察• Out-degree の方が上限が高い:直感に反する• ∵ フォロワーをフォローし返す著名人の存在• “non-social” な特徴 : 社会的関係を維持可能な上限

150[1]

• Out-degree2,000 にピーク:スパム防止• 2,200 フォロワー未満のアカウントへの上限数

12

高次数多い

国別はいずれも全体と似た特徴

13

次数分布に関する考察• Out-degree の方が上限が高い:直感に反する• ∵ フォロワーをフォローし返す著名人の存在• “non-social” な特徴 : 社会的関係を維持可能な上限

150[1]

• Out-degree2,000 にピーク:スパム防止• 2,200 フォロワー未満のアカウントへの上限数

• Mutual は in-degree, out-degree に比べると小さいものの高次数• 国別の特徴は全体とほとんど変わらない

14

15

統計的な考察• フィッティング:• In-degree, Mutual degree :べき分布• Out-degree :対数正規分布

• Out-degree と他を比較:• パーセンタイルごとの次数:高• 最大次数:小• → 典型的なユーザのフォローイング数 > フォ

ロワー数16

Social graph or Info graph?         -- 次数分布から

• ソーシャル・グラフの特徴からは外れる• Out-degree 大きすぎる• → 個人が維持可能な社会的関係数を超えている

17

2. 連結成分• 【定義】• 強連結 strongly connected graph• :有向グラフにおいて、相異なる全ての頂点間

に経路が存在• 弱連結 weakly connected graph :強連結でない

18

19

連結成分に関する考察• 最大成分に含まれるユーザの割合:• 弱連結: 92.9%• 最大成分以外の成分はほとんどがただ 1 つのノード

から構成• それらを除くと 99.94% が最大成分に含まれる

• 強連結: 68.7%• 他のソーシャル・メディア( 99% )より少ない• 30% 以上のユーザは 1 つも双方向リンクを持たない• → 情報発信/受信一方に特化

20

Social graph or Info graph?         -- 連結成分から

• ソーシャル・グラフの特徴からは外れる• リンクの双方向性が低すぎる

21

3. 最短経路長• 【計算手法】• 2 ノード間に考えられる経路数: N(N-1)=2.6*• 双方向でも 7.3*• 計算量大きすぎるため近似解• Hyper ANF algorithm[2]

• HyperLogLog counter[3] ( cardinality estimation algo )で種類の数を推定

• The number of shortest paths of length n through which a user is connected can be approximated as the change in her neighborhood size after the nth jump.

• ( N 回目のジャンプ後の、リンク数の変化として、経路長 n の数を推定する) 22

23

24

平均経路長に関する考察( 1/3 )• 平均経路長:• 双方向グラフ: 4.17• 有向グラフ: 4.05• 他のソーシャル・ネットワークとの比較:• MSN メッセンジャー: 6.6• Facebook : 4.74• FB の方が 平均次数:高、分岐因子:大 にもかかわ

らず、最短経路長の方は Twitter の方が短い• → ソーシャル・ネットワークはリンク数が大きくな

るほど平均経路長が小さくなる、という先行研究 [5]と反する 25

平均経路長に関する考察( 2/3 )• 国別の特徴:• 全体の特徴から大きく外れない中で、• ブラジルの平均経路長:短• アメリカの平均経路長:長• → 先行研究と矛盾するというより

は、 connectivity ( 連結性、人間関係を指す ?) の違いでは

26

平均経路長に関する考察( 3/3 )• Spid:• Spid = 平均経路長分布の分散/分布の平均値• ソーシャル・ネットワーク: spid < 1• ウェブ・グラフ: spid > 1

• 双方向グラフの spid : 0.115• 有向グラフの spid : 0.108• → ソーシャル・ネットワークの特徴を持つ• FB の spid : 0.09 より大• →Twitter の方が分布がやや大きい

27

Social graph or Info graph?         -- 平均経路長から

• ソーシャル・グラフの特徴を示す• 平均経路長、 spid いずれも満たす

28

4. クラスタ係数• ソーシャル・ネットワークの特徴:クラスタ係

数高

29

次数が高くなる→ クラスタ係数小さくな

30

クラスタ係数に関する考察( 1/2 )• 次数が高くなるとクラスタ係数が小さくなる• 他のソーシャル・ネットワークとの比較:• クラスタ係数は Facebook より小さい

• MSN メッセンジャーより大きい• K=5: MSN*1.5=Twitter• K-20: MSN*1.9=Twitter

/次数 5 20 100

Twitter (mutual) 0.4 0.3 0.14Facebook 0.23 0.19 0.14

31

日本のみ異なる特徴

32

クラスタ係数に関する考察( 2/2 )• 日本の特異性:• クラスタ係数:高• 双方向性:高• → 双方向グラフはノード数に対してリンク数多• 次数 200-1000 の範囲にピーク• → 高次数・高クラスタ係数のユーザらによ

る” cliques”

33

Social graph or Info graph?         -- クラスタ係数から

• ソーシャル・グラフの特徴を示す• 高いクラスタ係数を持つ

34

5. 2 ホップで連結しているノード数• 2 ホップで連結しているノード:新規リンク予測 [6]• 【定義】• Inbound two-hop :ノードのフォロワーのフォロワー

• このユーザから情報を受け取るポテンシャルを持つ• Outbound two-hop: ノードのフォローイングのフォロー

イング• このユーザに情報を伝えるポテンシャルを持つ

• Non-unique two-hop neighborhoods :ユーザのフォロワーの inbound degrees の和• Unique two-hop neighborhoods

35

36

2 ホップで連結しているノード数に関する考察

• 次数 3000 以下では、 2 ホップで連結しているノード数は次数の 2乗を上回る• → 情報収集/伝播いずれにも効率的• 次数 100 以下では、 unique と non-unique が同様の挙動• ユーザ数が少ないうちは、新規 two-hop neighborhoods の

ほとんどが unique

• Facebook との比較:• 友達 100 人のユーザ:平均 27,500 人の友達の友達• フォロワー数 100 人のユーザ : Unique inbound two-hop

neighborhoods : 497,000• フォローイング数 100 人のユーザ : Unique outbound two-

hop neighborhoods : 367,000

• → 次数の 2乗より多いが、 Twitter より少ない37

Social graph or Info graph?  --2 ホップで連結しているノードから

• 情報ネットワークとして効率的な構造• 情報収集/伝播を拡散

38

6. 次数相関• ソーシャル・ネットワークと他の大規模ネット

ワークを区別する最大の指標 [4]• ソーシャルネットワーク: 0.1 - 0.4• Facebook : 0.226

• 【定義】

39

次数相関に関する考察( 1/2 )• SOD – DOD : 0.272• “ 自分のフォローイング数が多いほど、フォローイ

ングのフォローイング数も増加する”• Social user が他の social user を刺激• → ソーシャル・ネットワークの相互性を示す

• SID – DOD : 0.241• “ 自分のフォロワー数が多いほど、フォローイング

のフォローイング数も増加する”• 有名になるほど他のユーザをソーシャルにする• →social network theory と一致

40

次数相関に関する考察( 2/2 )• SOD – DID : -0.118• “ 自分のフォローイング数が多いほど、フォローイ

ングのフォロワー数は減少する”• Since the fact that the edge is present increases both

the SOD and the DID by one, (SOD, DID 個別で見るといずれも増加しているので ?) 正の相関となるはずで、予想外の結果

• SID – DID : -0.296• “ 自分のフォロワー数が多いほど、フォローイング

のフォロワー数は減少する”• 先行研究 [7,8] と合致しない

41

Social graph or Info graph?         -- 次数相関から

• ソーシャル・グラフの特徴を示す部分とそうでない部分がみられる• 矛盾する、直感に反する結果

42

考察( 1/3 )• 個別のユーザにとって、 Twitter は• 情報ネットワークからスタート• 有名なユーザをフォロー: preferential attachment

• →徐々にソーシャル・ネットワークとしての要素強まる• 有名かどうか以外の基準でフォロー• 所属コミュニティを発見(現実のつながり、共通の興味

など)

• → リンクが追加された順序を考慮した分析へ43

考察( 2/3 )

•利用時間が増えるにつれフォロワー数は増加•新規ユーザと古参ユーザが混在

new

experienced

44

考察( 3/3 )• 次数相関への説明• SID – DOD, SOD – DOD の正の相関 :•利用時間が増えるにつれフォローイング数は増加• Figure7 (b) より

• SOD – DID の負の相関 :• フォロー数の多いユーザは、フォローイング数

の少ないユーザをフォローする傾向• Figure7 (c) より

• → 著名人よりも社会的つながりを優先45

今後の展望、結論• Twitter はソーシャル・グラフの特徴を示す部分と

そうでない部分がみられる• Twitter における行動に 2 つの流れがあるのでは ?•①情報収集•②双方向的な社会的つながり

• ソーシャル・ネットワークなのか、あるいは情報ネットワークなのか、特徴を精査• 直感的には、ユーザの混在が要因か ?

46

参考文献• [1] R. Dunbar. Neocortex size as a constraint on group size in primates.

Journal of Human Evolution, 1992.• [2] P. Boldi, M. Rosa, S. Vigna. HyperANF: approximating the neighborhood

function of very large graphs on a budget. WWW 2011.• [3] P. Flajolet, C. Fusy, O. Gandouet, and F. Meunier. HyperLogLog: the

analysis of a near-optimal cardinality estimation algorithm Analysis of Algorithms, 2007.

• [4] M. Newman and J. Park. Why social networks are different from other types of networks. Physical Review, 2003.

• [5] J. Leskovec, J. Kleinberg, and C. Faloutsos. Graphs over time: densification laws, shrinking diameters and possible explanations. KDD 2010.

• [6] P. Gupta, A. Goel, J. Lin, A. Sharma, D. Wang, and R. Zadeh. WTF: The Who to Follow service at Twitter. WWW 2013.

• [7] M. Newman. Mixing patterns in networks. Physical Review, 2003. • [8] M. Newman and J. Park. Why social networks are different from other

types of networks. Physical Review, 2003. 47

Recommended