Download ppt - Node xl korean_twitter

Transcript
Page 1: Node xl korean_twitter

NodeXL Chapter 10: Twitter NodeXL Chapter 10: Twitter 노드엑셀을 이용한 트위터 네트워크 분석노드엑셀을 이용한 트위터 네트워크 분석

* * 이 슬라이드는 이 슬라이드는 Marc Smith, Analyzing Social Media Marc Smith, Analyzing Social Media Networks with NodeXLNetworks with NodeXL 의 의 1010 장을 기초로 한국 이용자들이 장을 기초로 한국 이용자들이 노드 엑셀을 쉽게 사용할 수 있도록 만든 매뉴얼임노드 엑셀을 쉽게 사용할 수 있도록 만든 매뉴얼임 . . 노드엑셀 노드엑셀 최근 버전을 사용했으며 사례 또한 원제와 상이함최근 버전을 사용했으며 사례 또한 원제와 상이함 ..

* This slide was made by Han Woo Park and his students to help Koreans to use the NodeXL

Page 2: Node xl korean_twitter

*Twitter

• 2006 년 샌프란시스코 , Odeo 사의 Podcasting 의 서브 프로젝트로 시작함 .

• API 를 공개함으로써 다양한 3rd party 서비스를 확보하고 , 이를 통해 많은 개발자들과 사용자들이 유입됨 .

• 트위터는 지난 몇 년 사이 가장 유명하고 , 논란의 중심에 있으며 , 다재다능한 소셜미디어 플랫폼중의 하나임 .

What`s happening?What`s happening?

Page 3: Node xl korean_twitter

2007 년 3 월과 2009 년 4 월 사이에 트위터는 급격한 성장을 보이는데 , 이는 2009 년 SXSW 페스티벌 기간중 트위터를 통해 새로운 제품정보를 공유했기 때문이다 . 또한 오프라 윈프리 및 셀러브리티들의 트위터 유입의 영향이 크다 .

*Twitter

* 다양한 트위터 클라이언트

Page 4: Node xl korean_twitter

• 트위터는 모바일폰에 최적화된 형태로 디자인되어 , 140 자로 글자수가 제한된 마이크로 블로깅서비스 .

Weblogs TwitterSubscribers Followers

Subscriptions Friends = Following

Posts Tweets

블로그와의 차이점

*Twitter

source: http://dioceseoftrenton.typepad.com

Page 5: Node xl korean_twitter

*Twitter

Retweet 다른 사람의 트윗에 동의하거나 또 다른 사람 ( 나의 팔로워 ) 에게 알려 주고 싶은 트윗을 전할때 사용 . tweet starts off with “RT @ASAnews.” RT stands for “retweet,” and is followed by an @mention of the ASAnews account * 모든 RT 는 모든 @reply 를 포함하지만 , 모든 @reply 가 모든 RT 를 포함하지는 않음 .

@replies and@mentions트위터에서 서로간에 나누는 대화의 방식 . 트윗의 시작을 @user`s name 하면 reply 로 인식 . 트윗 사이에 @user`s name 이 들어가면 mention으로 인식함 .

- @ebertchicago: I was just reading in John Waters' new book "Role Models“- I was just reading in John Waters' new book "Role Models“ @ebertchicago how about it?

* 모든 @replies 는 모든 @mentions, 그러나 모든 @mentions 은 모든 @replies 가 아님 . #Hashtag

한 가지 주제로 이야기할 때 검색하기 쉽게 해주는 트위터 고유의 태그 . 사람들의 공통의 관심사를 표현한다 .

#robotpickuplines “If I could rearrange the qwerty keyboard, I'd put u and i .. oh, wait, nevermind”

Page 6: Node xl korean_twitter

트위터의 Following, Follower 관계 분석 네트워크의 두 종류 .

<Attention Network (Following)> Attention, Importance and Eigenvector Centrality attention network 는 웹과 비슷한 형태를 지닌다 . 트위터에서 어떤 유저를

팔로잉하는것은 웹 페이지가 다른 페이지를 링크하는것과 비슷하다 . Eigenvector Centrality 는 네트워크내에서 특정 요소가 얼마나 중요한 위치를

차지하는지 측정한다 . ( 이는 구글의 PageRank 알고리즘에서 ‘중요한’ 웹페이지를 측정하는 방식과 같다 )

즉 , 트위터의 경우 , 어떤 ‘ 영향력있는’ 사용자가 다른 많은 사용자들로부터 주목받는지를 측정한다 .

*Twitter

Eigenvector Centrality 는 스패머를 찾아내기에 유용하다 . 스패머는 자신의 정보를 퍼트리기 위해 많은 팔로워를 확보하려고 많은 팔로잉을 한다 . 스패머의 많은 팔로잉을 보고 그가 영향력있는 유저라고 착각할 수 있다 . 하지만 Eigenvector Centrality 를 확인하면 , 스패머를 팔로잉하는 많은 사람들이 ‘영향력 없는’ 유저이거나 , 소수의 팔로워를 가진 사람들이란 사실을 확인할 수 있다 .

Page 7: Node xl korean_twitter

트위터의 Following, Follower 관계 분석 네트워크의 두 종류 .

<Information Network (Follower)> Information, Advantage and Betweenness Centrality Information Network 는 네트워크내에서 중요한 정보를 얻기에 얼마나 가까운 거리에 있는가를

측정한다 . 즉 , 아래 그림에서 E 는 두 그룹 1(A-B-C-D) & 2(F-G-H-J) 의 다리 역할을 하며 , 둘 사이의 정보를 가장 빨리 얻고 , E 를 통해서만 두 그룹간의 정보가 전해질 수 있다 . A,B,D 의 경우는 정보가 자신들의 공간에서만 머무른다 .

반면에 , Eigenvector Centrality 의 경우 , E 는 가장 낮은 수치를 나타내며 , C & G 가 가장 높다 .

*Twitter

Red : eigenvector centralityBlue : betweenness centrality

Page 8: Node xl korean_twitter

• NodeXL 에서 제공하는 트위터 네트워크 수집 옵션은 2 가지임 .

• - Search Network • - User`s Network

*Twitter 네트워크

Page 9: Node xl korean_twitter

• Trending Topic- 트위터상에 언급되는 엄청나게 많은 메시지들중 가장

많이 언급되는 주제어들을 분류해서 제공해준다 . 트위터는 이를 검색할 수 있는 인터페이스를 제공하며 이를 trending topic 이라 한다 .

- 우리는 “ 소녀시대” 를 검색어로 사용하여 트위터상에서 이루어지는 대화의 흐름을 분석하였다 .

*Twitter _search network

Page 10: Node xl korean_twitter

“Search Keyword” 따옴표 안의 내용이 포함된 트윗만을 수집한다 .

‘Follows relationship’ 만 체크할 경우 , 검색 키워드를 언급한 사용자들간의 follow 관계만을 수집한다 . 즉 , 검색 키워드가 포함된 reply, mention 트윗 사용자들간의 관계는 제외시키므로 모두 체크하는 것이 좋다 . 그러나 , 세 박스를 모두 체크했음에도 , follow 관계만 수집되는 경우가 존재한다 . 즉 , 각각의 사용자들간의 reply, menton 관계가 없는 경우이다 .

*Twitter _search network

Page 11: Node xl korean_twitter

한명의 트윗 유저의 데이터를 수집하는데 대략 10-30 초가 소요되므로 , 검색 키워드가 포함된 트윗 양에 따라 몇시간에서 하루이상의 시간이 소요될 수 있다 . 그러므로 , ‘Limit to’ 를 체크해 샘플수를 줄이기를 권하지만 , 이 경우 적은 데이터를 수집하는 한계점을 지닌다 .

“Search Keyword” 따옴표 안의 내용이 포함된 트윗만을 수집한다 .

*Twitter _search network

Page 12: Node xl korean_twitter

Twitter 계정이 있을 경우 인증을 받고 , 계정이 없어도 사용이 가능하다 . 하지만 , Twitter 홈페이지에서 계정 인증을 받으면 더 많은 데이터를 수집할 수 있다 .

*Twitter _search network

Page 13: Node xl korean_twitter

소수의 그룹과 수많은 고립된 노드들이 나타남 .

*Twitter _search network

The raw output from the search

Page 14: Node xl korean_twitter

1. Automate 을 이용하면 , 다양한 분석을 한꺼번에 할 수 있다 .

2. 자신이 원하는 스타일에 맞게 그래픽을 조정할 수 있다 .

3. Autofill > Edges, Vertex 들 즉 , 노드와 선들을 자신이 원하는 스타일에 맞게 조정할 수 있다 .

12

3

*Twitter _search network

Page 15: Node xl korean_twitter

*Twitter _search network

‘star’ 형을 가지는 세 개의 중심적인 노드가 나타남 .

@snsd_news, @tangpa and @dc_taeyeon

Page 16: Node xl korean_twitter

Relationship에서 관계들 , 즉 Follower, Following, Mention, Reply 을 각각 분류해서 확인 할 수 있다 .

@tanga 의 follower 만 분류함 .

*Twitter _search network

Page 17: Node xl korean_twitter

*Twitter _search network

@tangpa 의 follower 들이 Retweet 한 메시지들을 분류해서 볼 수 있다 . ↓ @tangpa 의 follower 관계만을 분류한 그래프

Example>

Becomingkim: RT RT @Tangpa: [TangPa Data] [101016-7] 소녀시대 1st Asia Tour 'Into The New World' in Taiwan http://tangpa.com/667334 #SNSDJapan #sone_

Page 18: Node xl korean_twitter

*Twitter _search network

@tangpa, @snsd_news, dc_taeyeon, @lylinot 은 ‘소녀시대’ 네트워크의 “ seed” 로 나타남 .

Page 19: Node xl korean_twitter

Estimate the reach

*Twitter _search network

• AutoFill >

- 녹색일수록 많은 트윗- 노드가 클수록 많은 팔로워를 가짐 - @tangpa 는 ‘소녀시대’ 트렌딩토픽에서 중심적인 위치를

차지하지만 , 그러나 트위터상에서 인기있는 유저는 아님 . 즉 많은 팔로워를 가지지 않음

Page 20: Node xl korean_twitter

Captured on Nov 29th 2010

*Twitter _ego network

@tangpa and @snsd_news 의 트위터 비교

Page 21: Node xl korean_twitter

• Ego Network• 트위터 사용자들은 트위터상에서 가족 , 직장동료 및

지인들과 개인적인 네트워크뿐만 아니라 전혀 모르는 사람들과도 네트워크관계를 맺는다 .

• 특정 트위터 사용자의 following, follower 네트워크를 분석을 통해 트위터상에서 실제 그를 둘러싼 네트워크환경을 분석할 수 있다 . 많은 egocentric network 가 강한 연결과 약한 연결의 중첩적인 형태를 띈다 .

*Twitter _ego network

Page 22: Node xl korean_twitter

한명의 트윗 유저의 데이터를 수집하는데 대략 10-30 초가 소요되므로 , 검색 키워드가 포함된 트윗 양에 따라 몇시간에서 하루이상의 시간이 소요될 수 있다 . 그러므로 , ‘Limit to’ 를 체크해 샘플수를 줄이기를 권하지만 , 이 경우 적은 데이터를 수집하는 한계점을 지닌다 .

Ego network 를 찾고자 하는 사용자 아이디와 , 관계를 체크한다 . Following, Follower 관계중 하나만 선택하거나 둘 다 선택할 수 있다 .

*Twitter _ego network

Page 23: Node xl korean_twitter

*Twitter _ego network기본 데이터 수집시 화면 . 네트워크 형태가 드러나지 않음 .

Graph Metrics > degree 값을 구함 . In-degree & out-degree 값을 구한후 , 두 값을 더해서 1 이하의 값은 가시화시키지 않음 ( 일방적인 관계를 맺고 있으므로 , egocentric network 에서 의미가 없음 )

Page 24: Node xl korean_twitter

*Twitter _ego network

Groups > Finding clusters@heytree 의 경우 11 개의 그룹으로 egocentric network 가 나타남 . 핑크 – 진보성향의 대화를 자주 나누는 이들노랑 , 주황 – 친구 및 지인들그린 – 음악관련자들파랑 – 사회 이슈를 자주 나누는 이들

!! 그룹을 찾고 난 후에는 autofill 을 통한 노드 색 변경이 되지 않으므로 , Graph Element > Group 을 비활성화 시켜준다

Page 25: Node xl korean_twitter

*Twitter _ego network

Graph Metrics > Betweeness and closeness centralities, Eigenvector centrality 값 구함 .

녹색일수록 높은 eigenvector centrality값을 가짐 노드가 클수록 높은 betweenness centrality 값을 가짐 선의 굵기는 @reply 관계를 가진 사람을 굵게 나타냄 .

즉 , @heytree 의 ego network 는 진보성향 및 사회 이슈를 자주 나누는 사람들이 영향력을 가지는것으로 나타나지만 , 실질적으로 관계 (reply) 를 맺는 이는 트위터상에서 영향력있는 이들이 아님 .

Page 26: Node xl korean_twitter

REST API and Whitelisting an account

• Representational State Transfer (REST) Application Programming Interface (API) are used by Twitter to provide data in XML or JSON to third party clients like TweetDeck, Twhirl, and also NodeXL

• Regular account is limited to 150 queries per hour.

• For data intensive tasks, one might need to whitelisting his/her account.

*Twitter

Page 27: Node xl korean_twitter

Whitelisting an account

• To do this visit:– http://twitter.com/help/request_whitelisting– Fill in the form and once whitelisted use the ID into

NodeXL Twitter import interface.

*Twitter


Recommended