47
Information Network or Social Network? The Structure of the Twitter Follow Graph Seth A. Myers, Aneesh Sharma, Pankaj Gupta, and Jimmy Lin Twitter, Inc. 東東東東東東東東東東東東東東東東東東東東東東 東東 東東東 東東 東東 2014/5/31 東東東東東東東 1

Information Network or Social Network?

Embed Size (px)

DESCRIPTION

2014.6.2.修正済み (ver. 1.1)

Citation preview

Page 1: Information Network or Social Network?

Information Network or Social Network?

The Structure of the Twitter Follow Graph

Seth A. Myers, Aneesh Sharma, Pankaj Gupta, and Jimmy LinTwitter, Inc.

東京大学大学院工学系研究科システム創成学専攻大橋・鳥海研福井 思佳

2014/5/31  とりらぼ輪読会1

Page 2: Information Network or Social Network?

目標• Twitter フォロー・グラフのトポロジー的解析か

ら、• Twitter はソーシャル・ネットワークなのか、あ

るいは情報ネットワークなのか ? という疑問に答える

2

Page 3: Information Network or Social Network?

定義• ソーシャル・ネットワーク• 次数相関  degree assortativity :高• 最短経路長 shortest path length :短• 連結成分 connected components :大• クラスタ係数 clustering coefficients :大• 相互性 reciprocity :高

• 情報ネットワーク• 次数 vertex degrees :高• 相互性 : 低• 2 ホップで連結しているノード数 two-hop

neighborhoods :多3

Page 4: Information Network or Social Network?

使用データ• Twitter フォロー・グラフ全データ( 2012 年後

半)• アクティブ・ユーザ数: 175,000,000• 有向リンク数: 20,000,000,000

• 双方向リンク: 42%  →無向リンク: 4bl.• 単方向リンク: 58%

• 国別データ• ブラジル• 日本• アメリカ

4

Page 5: Information Network or Social Network?

比較対象• Facebook• ノード数: 721,000,000• 無向リンク数: 68,700,000,000

• MSN メッセンジャー• ノード数: 180,000,000• 無向リンク数: 1,300,000,000

5

Page 6: Information Network or Social Network?

分析項目1. 次数分布 degree distributions2. 連結成分 connected components3. 最短経路長 shortest path lengths4. クラスタ係数 clustering coefficient5. 2 ホップで連結しているノード数 two-hop

neighborhoods6. 次数相関 degree assortativity

6

Page 7: Information Network or Social Network?

1. 次数分布• 【定義】• Inbound degree (in-degree) :フォロワー数• Outbound degree (out-degree) :フォローイング

数• 【分析対象】• 全ノード/国別ノードそれぞれに対して• In-degree distribution• Out-degree distribution• Mutual degree distribution

7

Page 8: Information Network or Social Network?

8

Page 9: Information Network or Social Network?

・べき分布・ヘビーテール( Out-degree よりもヘビー)

9

Page 10: Information Network or Social Network?

次数分布に関する考察• Out-degree の方が上限が高い:直感に反する• ∵ フォロワーをフォローし返す著名人の存在• “non-social” な特徴 : 社会的関係を維持可能な上限

150[1]

10

Page 11: Information Network or Social Network?

・ Out-degree2000にピーク

11

Page 12: Information Network or Social Network?

次数分布に関する考察• Out-degree の方が上限が高い:直感に反する• ∵ フォロワーをフォローし返す著名人の存在• “non-social” な特徴 : 社会的関係を維持可能な上限

150[1]

• Out-degree2,000 にピーク:スパム防止• 2,200 フォロワー未満のアカウントへの上限数

12

Page 13: Information Network or Social Network?

高次数多い

国別はいずれも全体と似た特徴

13

Page 14: Information Network or Social Network?

次数分布に関する考察• Out-degree の方が上限が高い:直感に反する• ∵ フォロワーをフォローし返す著名人の存在• “non-social” な特徴 : 社会的関係を維持可能な上限

150[1]

• Out-degree2,000 にピーク:スパム防止• 2,200 フォロワー未満のアカウントへの上限数

• Mutual は in-degree, out-degree に比べると小さいものの高次数• 国別の特徴は全体とほとんど変わらない

14

Page 15: Information Network or Social Network?

15

Page 16: Information Network or Social Network?

統計的な考察• フィッティング:• In-degree, Mutual degree :べき分布• Out-degree :対数正規分布

• Out-degree と他を比較:• パーセンタイルごとの次数:高• 最大次数:小• → 典型的なユーザのフォローイング数 > フォ

ロワー数16

Page 17: Information Network or Social Network?

Social graph or Info graph?         -- 次数分布から

• ソーシャル・グラフの特徴からは外れる• Out-degree 大きすぎる• → 個人が維持可能な社会的関係数を超えている

17

Page 18: Information Network or Social Network?

2. 連結成分• 【定義】• 強連結 strongly connected graph• :有向グラフにおいて、相異なる全ての頂点間

に経路が存在• 弱連結 weakly connected graph :強連結でない

18

Page 19: Information Network or Social Network?

19

Page 20: Information Network or Social Network?

連結成分に関する考察• 最大成分に含まれるユーザの割合:• 弱連結: 92.9%• 最大成分以外の成分はほとんどがただ 1 つのノード

から構成• それらを除くと 99.94% が最大成分に含まれる

• 強連結: 68.7%• 他のソーシャル・メディア( 99% )より少ない• 30% 以上のユーザは 1 つも双方向リンクを持たない• → 情報発信/受信一方に特化

20

Page 21: Information Network or Social Network?

Social graph or Info graph?         -- 連結成分から

• ソーシャル・グラフの特徴からは外れる• リンクの双方向性が低すぎる

21

Page 22: Information Network or Social Network?

3. 最短経路長• 【計算手法】• 2 ノード間に考えられる経路数: N(N-1)=2.6*• 双方向でも 7.3*• 計算量大きすぎるため近似解• Hyper ANF algorithm[2]

• HyperLogLog counter[3] ( cardinality estimation algo )で種類の数を推定

• The number of shortest paths of length n through which a user is connected can be approximated as the change in her neighborhood size after the nth jump.

• ( N 回目のジャンプ後の、リンク数の変化として、経路長 n の数を推定する) 22

Page 23: Information Network or Social Network?

23

Page 24: Information Network or Social Network?

24

Page 25: Information Network or Social Network?

平均経路長に関する考察( 1/3 )• 平均経路長:• 双方向グラフ: 4.17• 有向グラフ: 4.05• 他のソーシャル・ネットワークとの比較:• MSN メッセンジャー: 6.6• Facebook : 4.74• FB の方が 平均次数:高、分岐因子:大 にもかかわ

らず、最短経路長の方は Twitter の方が短い• → ソーシャル・ネットワークはリンク数が大きくな

るほど平均経路長が小さくなる、という先行研究 [5]と反する 25

Page 26: Information Network or Social Network?

平均経路長に関する考察( 2/3 )• 国別の特徴:• 全体の特徴から大きく外れない中で、• ブラジルの平均経路長:短• アメリカの平均経路長:長• → 先行研究と矛盾するというより

は、 connectivity ( 連結性、人間関係を指す ?) の違いでは

26

Page 27: Information Network or Social Network?

平均経路長に関する考察( 3/3 )• Spid:• Spid = 平均経路長分布の分散/分布の平均値• ソーシャル・ネットワーク: spid < 1• ウェブ・グラフ: spid > 1

• 双方向グラフの spid : 0.115• 有向グラフの spid : 0.108• → ソーシャル・ネットワークの特徴を持つ• FB の spid : 0.09 より大• →Twitter の方が分布がやや大きい

27

Page 28: Information Network or Social Network?

Social graph or Info graph?         -- 平均経路長から

• ソーシャル・グラフの特徴を示す• 平均経路長、 spid いずれも満たす

28

Page 29: Information Network or Social Network?

4. クラスタ係数• ソーシャル・ネットワークの特徴:クラスタ係

数高

29

Page 30: Information Network or Social Network?

次数が高くなる→ クラスタ係数小さくな

30

Page 31: Information Network or Social Network?

クラスタ係数に関する考察( 1/2 )• 次数が高くなるとクラスタ係数が小さくなる• 他のソーシャル・ネットワークとの比較:• クラスタ係数は Facebook より小さい

• MSN メッセンジャーより大きい• K=5: MSN*1.5=Twitter• K-20: MSN*1.9=Twitter

/次数 5 20 100

Twitter (mutual) 0.4 0.3 0.14Facebook 0.23 0.19 0.14

31

Page 32: Information Network or Social Network?

日本のみ異なる特徴

32

Page 33: Information Network or Social Network?

クラスタ係数に関する考察( 2/2 )• 日本の特異性:• クラスタ係数:高• 双方向性:高• → 双方向グラフはノード数に対してリンク数多• 次数 200-1000 の範囲にピーク• → 高次数・高クラスタ係数のユーザらによ

る” cliques”

33

Page 34: Information Network or Social Network?

Social graph or Info graph?         -- クラスタ係数から

• ソーシャル・グラフの特徴を示す• 高いクラスタ係数を持つ

34

Page 35: Information Network or Social Network?

5. 2 ホップで連結しているノード数• 2 ホップで連結しているノード:新規リンク予測 [6]• 【定義】• Inbound two-hop :ノードのフォロワーのフォロワー

• このユーザから情報を受け取るポテンシャルを持つ• Outbound two-hop: ノードのフォローイングのフォロー

イング• このユーザに情報を伝えるポテンシャルを持つ

• Non-unique two-hop neighborhoods :ユーザのフォロワーの inbound degrees の和• Unique two-hop neighborhoods

35

Page 36: Information Network or Social Network?

36

Page 37: Information Network or Social Network?

2 ホップで連結しているノード数に関する考察

• 次数 3000 以下では、 2 ホップで連結しているノード数は次数の 2乗を上回る• → 情報収集/伝播いずれにも効率的• 次数 100 以下では、 unique と non-unique が同様の挙動• ユーザ数が少ないうちは、新規 two-hop neighborhoods の

ほとんどが unique

• Facebook との比較:• 友達 100 人のユーザ:平均 27,500 人の友達の友達• フォロワー数 100 人のユーザ : Unique inbound two-hop

neighborhoods : 497,000• フォローイング数 100 人のユーザ : Unique outbound two-

hop neighborhoods : 367,000

• → 次数の 2乗より多いが、 Twitter より少ない37

Page 38: Information Network or Social Network?

Social graph or Info graph?  --2 ホップで連結しているノードから

• 情報ネットワークとして効率的な構造• 情報収集/伝播を拡散

38

Page 39: Information Network or Social Network?

6. 次数相関• ソーシャル・ネットワークと他の大規模ネット

ワークを区別する最大の指標 [4]• ソーシャルネットワーク: 0.1 - 0.4• Facebook : 0.226

• 【定義】

39

Page 40: Information Network or Social Network?

次数相関に関する考察( 1/2 )• SOD – DOD : 0.272• “ 自分のフォローイング数が多いほど、フォローイ

ングのフォローイング数も増加する”• Social user が他の social user を刺激• → ソーシャル・ネットワークの相互性を示す

• SID – DOD : 0.241• “ 自分のフォロワー数が多いほど、フォローイング

のフォローイング数も増加する”• 有名になるほど他のユーザをソーシャルにする• →social network theory と一致

40

Page 41: Information Network or Social Network?

次数相関に関する考察( 2/2 )• SOD – DID : -0.118• “ 自分のフォローイング数が多いほど、フォローイ

ングのフォロワー数は減少する”• Since the fact that the edge is present increases both

the SOD and the DID by one, (SOD, DID 個別で見るといずれも増加しているので ?) 正の相関となるはずで、予想外の結果

• SID – DID : -0.296• “ 自分のフォロワー数が多いほど、フォローイング

のフォロワー数は減少する”• 先行研究 [7,8] と合致しない

41

Page 42: Information Network or Social Network?

Social graph or Info graph?         -- 次数相関から

• ソーシャル・グラフの特徴を示す部分とそうでない部分がみられる• 矛盾する、直感に反する結果

42

Page 43: Information Network or Social Network?

考察( 1/3 )• 個別のユーザにとって、 Twitter は• 情報ネットワークからスタート• 有名なユーザをフォロー: preferential attachment

• →徐々にソーシャル・ネットワークとしての要素強まる• 有名かどうか以外の基準でフォロー• 所属コミュニティを発見(現実のつながり、共通の興味

など)

• → リンクが追加された順序を考慮した分析へ43

Page 44: Information Network or Social Network?

考察( 2/3 )

•利用時間が増えるにつれフォロワー数は増加•新規ユーザと古参ユーザが混在

new

experienced

44

Page 45: Information Network or Social Network?

考察( 3/3 )• 次数相関への説明• SID – DOD, SOD – DOD の正の相関 :•利用時間が増えるにつれフォローイング数は増加• Figure7 (b) より

• SOD – DID の負の相関 :• フォロー数の多いユーザは、フォローイング数

の少ないユーザをフォローする傾向• Figure7 (c) より

• → 著名人よりも社会的つながりを優先45

Page 46: Information Network or Social Network?

今後の展望、結論• Twitter はソーシャル・グラフの特徴を示す部分と

そうでない部分がみられる• Twitter における行動に 2 つの流れがあるのでは ?•①情報収集•②双方向的な社会的つながり

• ソーシャル・ネットワークなのか、あるいは情報ネットワークなのか、特徴を精査• 直感的には、ユーザの混在が要因か ?

46

Page 47: Information Network or Social Network?

参考文献• [1] R. Dunbar. Neocortex size as a constraint on group size in primates.

Journal of Human Evolution, 1992.• [2] P. Boldi, M. Rosa, S. Vigna. HyperANF: approximating the neighborhood

function of very large graphs on a budget. WWW 2011.• [3] P. Flajolet, C. Fusy, O. Gandouet, and F. Meunier. HyperLogLog: the

analysis of a near-optimal cardinality estimation algorithm Analysis of Algorithms, 2007.

• [4] M. Newman and J. Park. Why social networks are different from other types of networks. Physical Review, 2003.

• [5] J. Leskovec, J. Kleinberg, and C. Faloutsos. Graphs over time: densification laws, shrinking diameters and possible explanations. KDD 2010.

• [6] P. Gupta, A. Goel, J. Lin, A. Sharma, D. Wang, and R. Zadeh. WTF: The Who to Follow service at Twitter. WWW 2013.

• [7] M. Newman. Mixing patterns in networks. Physical Review, 2003. • [8] M. Newman and J. Park. Why social networks are different from other

types of networks. Physical Review, 2003. 47