27
NodeXL Chapter 10: Twitter NodeXL Chapter 10: Twitter 노노노노노 노노노 노노노 노노노노 노노 노노노노노 노노노 노노노 노노노노 노노 * * 이 이이이이이 이 이이이이이 Marc Smith, Analyzing Social Media Marc Smith, Analyzing Social Media Networks with NodeXL Networks with NodeXL 10 10 이이 이이이 이이 이이이이이 이이 이이이 이이 이이이 이이 이이이이이 이이 이이이 이이 이이이 이 이이이 이이 이이이이 이이 이이이 이 이이이 이이 이이이이 . . 이이이이 이이 이이이 이이이이이 이이 이이 이이이이 이이 이이이 이이이이이 이이 이이 이이이 이이이 이이이 이이이 . . * This slide was made by Han Woo Park and his students to help Koreans to use the NodeXL

Node xl korean_twitter

Embed Size (px)

Citation preview

Page 1: Node xl korean_twitter

NodeXL Chapter 10: Twitter NodeXL Chapter 10: Twitter 노드엑셀을 이용한 트위터 네트워크 분석노드엑셀을 이용한 트위터 네트워크 분석

* * 이 슬라이드는 이 슬라이드는 Marc Smith, Analyzing Social Media Marc Smith, Analyzing Social Media Networks with NodeXLNetworks with NodeXL 의 의 1010 장을 기초로 한국 이용자들이 장을 기초로 한국 이용자들이 노드 엑셀을 쉽게 사용할 수 있도록 만든 매뉴얼임노드 엑셀을 쉽게 사용할 수 있도록 만든 매뉴얼임 . . 노드엑셀 노드엑셀 최근 버전을 사용했으며 사례 또한 원제와 상이함최근 버전을 사용했으며 사례 또한 원제와 상이함 ..

* This slide was made by Han Woo Park and his students to help Koreans to use the NodeXL

Page 2: Node xl korean_twitter

*Twitter

• 2006 년 샌프란시스코 , Odeo 사의 Podcasting 의 서브 프로젝트로 시작함 .

• API 를 공개함으로써 다양한 3rd party 서비스를 확보하고 , 이를 통해 많은 개발자들과 사용자들이 유입됨 .

• 트위터는 지난 몇 년 사이 가장 유명하고 , 논란의 중심에 있으며 , 다재다능한 소셜미디어 플랫폼중의 하나임 .

What`s happening?What`s happening?

Page 3: Node xl korean_twitter

2007 년 3 월과 2009 년 4 월 사이에 트위터는 급격한 성장을 보이는데 , 이는 2009 년 SXSW 페스티벌 기간중 트위터를 통해 새로운 제품정보를 공유했기 때문이다 . 또한 오프라 윈프리 및 셀러브리티들의 트위터 유입의 영향이 크다 .

*Twitter

* 다양한 트위터 클라이언트

Page 4: Node xl korean_twitter

• 트위터는 모바일폰에 최적화된 형태로 디자인되어 , 140 자로 글자수가 제한된 마이크로 블로깅서비스 .

Weblogs TwitterSubscribers Followers

Subscriptions Friends = Following

Posts Tweets

블로그와의 차이점

*Twitter

source: http://dioceseoftrenton.typepad.com

Page 5: Node xl korean_twitter

*Twitter

Retweet 다른 사람의 트윗에 동의하거나 또 다른 사람 ( 나의 팔로워 ) 에게 알려 주고 싶은 트윗을 전할때 사용 . tweet starts off with “RT @ASAnews.” RT stands for “retweet,” and is followed by an @mention of the ASAnews account * 모든 RT 는 모든 @reply 를 포함하지만 , 모든 @reply 가 모든 RT 를 포함하지는 않음 .

@replies and@mentions트위터에서 서로간에 나누는 대화의 방식 . 트윗의 시작을 @user`s name 하면 reply 로 인식 . 트윗 사이에 @user`s name 이 들어가면 mention으로 인식함 .

- @ebertchicago: I was just reading in John Waters' new book "Role Models“- I was just reading in John Waters' new book "Role Models“ @ebertchicago how about it?

* 모든 @replies 는 모든 @mentions, 그러나 모든 @mentions 은 모든 @replies 가 아님 . #Hashtag

한 가지 주제로 이야기할 때 검색하기 쉽게 해주는 트위터 고유의 태그 . 사람들의 공통의 관심사를 표현한다 .

#robotpickuplines “If I could rearrange the qwerty keyboard, I'd put u and i .. oh, wait, nevermind”

Page 6: Node xl korean_twitter

트위터의 Following, Follower 관계 분석 네트워크의 두 종류 .

<Attention Network (Following)> Attention, Importance and Eigenvector Centrality attention network 는 웹과 비슷한 형태를 지닌다 . 트위터에서 어떤 유저를

팔로잉하는것은 웹 페이지가 다른 페이지를 링크하는것과 비슷하다 . Eigenvector Centrality 는 네트워크내에서 특정 요소가 얼마나 중요한 위치를

차지하는지 측정한다 . ( 이는 구글의 PageRank 알고리즘에서 ‘중요한’ 웹페이지를 측정하는 방식과 같다 )

즉 , 트위터의 경우 , 어떤 ‘ 영향력있는’ 사용자가 다른 많은 사용자들로부터 주목받는지를 측정한다 .

*Twitter

Eigenvector Centrality 는 스패머를 찾아내기에 유용하다 . 스패머는 자신의 정보를 퍼트리기 위해 많은 팔로워를 확보하려고 많은 팔로잉을 한다 . 스패머의 많은 팔로잉을 보고 그가 영향력있는 유저라고 착각할 수 있다 . 하지만 Eigenvector Centrality 를 확인하면 , 스패머를 팔로잉하는 많은 사람들이 ‘영향력 없는’ 유저이거나 , 소수의 팔로워를 가진 사람들이란 사실을 확인할 수 있다 .

Page 7: Node xl korean_twitter

트위터의 Following, Follower 관계 분석 네트워크의 두 종류 .

<Information Network (Follower)> Information, Advantage and Betweenness Centrality Information Network 는 네트워크내에서 중요한 정보를 얻기에 얼마나 가까운 거리에 있는가를

측정한다 . 즉 , 아래 그림에서 E 는 두 그룹 1(A-B-C-D) & 2(F-G-H-J) 의 다리 역할을 하며 , 둘 사이의 정보를 가장 빨리 얻고 , E 를 통해서만 두 그룹간의 정보가 전해질 수 있다 . A,B,D 의 경우는 정보가 자신들의 공간에서만 머무른다 .

반면에 , Eigenvector Centrality 의 경우 , E 는 가장 낮은 수치를 나타내며 , C & G 가 가장 높다 .

*Twitter

Red : eigenvector centralityBlue : betweenness centrality

Page 8: Node xl korean_twitter

• NodeXL 에서 제공하는 트위터 네트워크 수집 옵션은 2 가지임 .

• - Search Network • - User`s Network

*Twitter 네트워크

Page 9: Node xl korean_twitter

• Trending Topic- 트위터상에 언급되는 엄청나게 많은 메시지들중 가장

많이 언급되는 주제어들을 분류해서 제공해준다 . 트위터는 이를 검색할 수 있는 인터페이스를 제공하며 이를 trending topic 이라 한다 .

- 우리는 “ 소녀시대” 를 검색어로 사용하여 트위터상에서 이루어지는 대화의 흐름을 분석하였다 .

*Twitter _search network

Page 10: Node xl korean_twitter

“Search Keyword” 따옴표 안의 내용이 포함된 트윗만을 수집한다 .

‘Follows relationship’ 만 체크할 경우 , 검색 키워드를 언급한 사용자들간의 follow 관계만을 수집한다 . 즉 , 검색 키워드가 포함된 reply, mention 트윗 사용자들간의 관계는 제외시키므로 모두 체크하는 것이 좋다 . 그러나 , 세 박스를 모두 체크했음에도 , follow 관계만 수집되는 경우가 존재한다 . 즉 , 각각의 사용자들간의 reply, menton 관계가 없는 경우이다 .

*Twitter _search network

Page 11: Node xl korean_twitter

한명의 트윗 유저의 데이터를 수집하는데 대략 10-30 초가 소요되므로 , 검색 키워드가 포함된 트윗 양에 따라 몇시간에서 하루이상의 시간이 소요될 수 있다 . 그러므로 , ‘Limit to’ 를 체크해 샘플수를 줄이기를 권하지만 , 이 경우 적은 데이터를 수집하는 한계점을 지닌다 .

“Search Keyword” 따옴표 안의 내용이 포함된 트윗만을 수집한다 .

*Twitter _search network

Page 12: Node xl korean_twitter

Twitter 계정이 있을 경우 인증을 받고 , 계정이 없어도 사용이 가능하다 . 하지만 , Twitter 홈페이지에서 계정 인증을 받으면 더 많은 데이터를 수집할 수 있다 .

*Twitter _search network

Page 13: Node xl korean_twitter

소수의 그룹과 수많은 고립된 노드들이 나타남 .

*Twitter _search network

The raw output from the search

Page 14: Node xl korean_twitter

1. Automate 을 이용하면 , 다양한 분석을 한꺼번에 할 수 있다 .

2. 자신이 원하는 스타일에 맞게 그래픽을 조정할 수 있다 .

3. Autofill > Edges, Vertex 들 즉 , 노드와 선들을 자신이 원하는 스타일에 맞게 조정할 수 있다 .

12

3

*Twitter _search network

Page 15: Node xl korean_twitter

*Twitter _search network

‘star’ 형을 가지는 세 개의 중심적인 노드가 나타남 .

@snsd_news, @tangpa and @dc_taeyeon

Page 16: Node xl korean_twitter

Relationship에서 관계들 , 즉 Follower, Following, Mention, Reply 을 각각 분류해서 확인 할 수 있다 .

@tanga 의 follower 만 분류함 .

*Twitter _search network

Page 17: Node xl korean_twitter

*Twitter _search network

@tangpa 의 follower 들이 Retweet 한 메시지들을 분류해서 볼 수 있다 . ↓ @tangpa 의 follower 관계만을 분류한 그래프

Example>

Becomingkim: RT RT @Tangpa: [TangPa Data] [101016-7] 소녀시대 1st Asia Tour 'Into The New World' in Taiwan http://tangpa.com/667334 #SNSDJapan #sone_

Page 18: Node xl korean_twitter

*Twitter _search network

@tangpa, @snsd_news, dc_taeyeon, @lylinot 은 ‘소녀시대’ 네트워크의 “ seed” 로 나타남 .

Page 19: Node xl korean_twitter

Estimate the reach

*Twitter _search network

• AutoFill >

- 녹색일수록 많은 트윗- 노드가 클수록 많은 팔로워를 가짐 - @tangpa 는 ‘소녀시대’ 트렌딩토픽에서 중심적인 위치를

차지하지만 , 그러나 트위터상에서 인기있는 유저는 아님 . 즉 많은 팔로워를 가지지 않음

Page 20: Node xl korean_twitter

Captured on Nov 29th 2010

*Twitter _ego network

@tangpa and @snsd_news 의 트위터 비교

Page 21: Node xl korean_twitter

• Ego Network• 트위터 사용자들은 트위터상에서 가족 , 직장동료 및

지인들과 개인적인 네트워크뿐만 아니라 전혀 모르는 사람들과도 네트워크관계를 맺는다 .

• 특정 트위터 사용자의 following, follower 네트워크를 분석을 통해 트위터상에서 실제 그를 둘러싼 네트워크환경을 분석할 수 있다 . 많은 egocentric network 가 강한 연결과 약한 연결의 중첩적인 형태를 띈다 .

*Twitter _ego network

Page 22: Node xl korean_twitter

한명의 트윗 유저의 데이터를 수집하는데 대략 10-30 초가 소요되므로 , 검색 키워드가 포함된 트윗 양에 따라 몇시간에서 하루이상의 시간이 소요될 수 있다 . 그러므로 , ‘Limit to’ 를 체크해 샘플수를 줄이기를 권하지만 , 이 경우 적은 데이터를 수집하는 한계점을 지닌다 .

Ego network 를 찾고자 하는 사용자 아이디와 , 관계를 체크한다 . Following, Follower 관계중 하나만 선택하거나 둘 다 선택할 수 있다 .

*Twitter _ego network

Page 23: Node xl korean_twitter

*Twitter _ego network기본 데이터 수집시 화면 . 네트워크 형태가 드러나지 않음 .

Graph Metrics > degree 값을 구함 . In-degree & out-degree 값을 구한후 , 두 값을 더해서 1 이하의 값은 가시화시키지 않음 ( 일방적인 관계를 맺고 있으므로 , egocentric network 에서 의미가 없음 )

Page 24: Node xl korean_twitter

*Twitter _ego network

Groups > Finding clusters@heytree 의 경우 11 개의 그룹으로 egocentric network 가 나타남 . 핑크 – 진보성향의 대화를 자주 나누는 이들노랑 , 주황 – 친구 및 지인들그린 – 음악관련자들파랑 – 사회 이슈를 자주 나누는 이들

!! 그룹을 찾고 난 후에는 autofill 을 통한 노드 색 변경이 되지 않으므로 , Graph Element > Group 을 비활성화 시켜준다

Page 25: Node xl korean_twitter

*Twitter _ego network

Graph Metrics > Betweeness and closeness centralities, Eigenvector centrality 값 구함 .

녹색일수록 높은 eigenvector centrality값을 가짐 노드가 클수록 높은 betweenness centrality 값을 가짐 선의 굵기는 @reply 관계를 가진 사람을 굵게 나타냄 .

즉 , @heytree 의 ego network 는 진보성향 및 사회 이슈를 자주 나누는 사람들이 영향력을 가지는것으로 나타나지만 , 실질적으로 관계 (reply) 를 맺는 이는 트위터상에서 영향력있는 이들이 아님 .

Page 26: Node xl korean_twitter

REST API and Whitelisting an account

• Representational State Transfer (REST) Application Programming Interface (API) are used by Twitter to provide data in XML or JSON to third party clients like TweetDeck, Twhirl, and also NodeXL

• Regular account is limited to 150 queries per hour.

• For data intensive tasks, one might need to whitelisting his/her account.

*Twitter

Page 27: Node xl korean_twitter

Whitelisting an account

• To do this visit:– http://twitter.com/help/request_whitelisting– Fill in the form and once whitelisted use the ID into

NodeXL Twitter import interface.

*Twitter