Upload
nick-lee
View
1.013
Download
3
Embed Size (px)
DESCRIPTION
이 슬라이드는 빅데이터와 관련된 기술 트렌드를 설명한다. 또 소셜미디어 분석 기술의 실용적 예를 들기위하여 싸이의 "강남스타일"의 트윗과 트위터를 분석한다.
Citation preview
1
빅데이터와 기술 트렌드 그리고
“ 강남스타일”과 타겟마케팅
Youngwhan Lee, Ph. D.전화 : 010-7997-0345
이메일 : [email protected]: Youngwhan Nick Lee
Twitter: nicklee002
1-2
Internet Today
2012:• Social Media: Facebook (1 Billion Monthly Active Users) • 문자 발명후 2003 년까지 5 엑사 바이트 2012 년 현재 매일 7 엑사바이트 데이터
생성 중 • Is “big data” a big pile of garbage?
빅데이터 상에서의 마케팅은 ?
목차
1. 웹의 진화– 지식 / 정보 추출 기술
2. 롱테일 현상과 산업3. 데이터의 웹 : Linked Open Data (LOD)4. 큐레이션5. 소셜미디어 분석
– 예 : 강남스타일과 시사점
빅 데이터 생성
• 개인 정보– 크레딧 카드 사용– 스마트 폰
• 위치 기반 서비스 앱– 의료 센서– 인터넷 사용
• 게임 • 검색 • 소셜 미디어 – Facebook, Twitter, Pinterest, …
• 공공 정보 – 각종 공공 센서– 각종 정부 기관의 활동
웹의 진화
Modified, based on Gene Bellinger, Durval Castro, Anthony Mills http://www.systems-thinking.org/dikw/dikw.htm , http://yjhyjh.egloos. -com/39721
NoSQL 데이터 마이닝MapRe-
duce
큐레이션
Aggregation
Understand-ing
Cloud Comput-ing
R-DBMS
빅데이터 처리와 정보 / 지식 추출 기술
SPARQL
RDF
지식구조화
OWL
RIF
XML
LOD
정보 / 지식 추출 기술• 정보 검색
– SEO(Search Engine Optimization) PageRank, EdgeRank
• Data Mining: 프로그램에 의한 정보 ( 지식 ) 추출 가능– 통계분석 , Rule-based Analysis, 신경망 분석– Visualization
• 지식공학 이용– RDF/OWL 사용한 온톨로지 (Ontology) 연결– Raw Data 연결하고 분석 가능하도록 개방 (Linked Open Data; LOD)– 프로그램에 의한 논리분석 가능한 지식 추출
• SPARQL• RIF(Rule-based Interface Framework)
• 인간의 힘 이용 : 큐레이션– 인간의 눈과 지식을 이용하여 정보에 의미를 부여하고 필터하고 종합하는
작업• 예 : blog, pinterest.com, videocooki.com, storify.com, scoop.it, curat-
ed.by
롱테일 현상과 산업
Pareto’s Law
Bighead
Longtail
Longtail Phenomena in IT
Bighead Applications
Longtail Application Universe
Popu
larit
y
The Long Tail by Chris Anderson (Wired, Oct. ´04) adopted to in-formation domains
… …
…
…
Mobile Apps iPhone Apps Android Apps
SNS Apps Facebook Apps Twitter Apps
LOD Apps Medical Apps 공공 정보 활용 Apps …
The Birth of New Industries
• “In fact, we get the standards right, we believe this can be a big engine for the economic growth of the country.”
- White House CIO
(http://www.whitehouse.gov/blog/2009/12/08/promoting-transparency-government)
President Obama’s big hopes
• 공개정보 계획안 : Open Government Initiative (2009)
• 빅데이터 R&D 계획안 : Big Data R&D Initiative (2012)
Linked Open Data (LOD) 프로젝트
What are the Problems with the Web?
• Not easy to find information– “Data Mining” gives an answer of 30 Million Pages
• No way to find the information that I want– How can you find the pianist name of a song that is
being played in the radio?
• Search results cannot be connected– Companies that got venture capital investment more
than $1 Billions that is related Pyramidal Neurons– Landlocked countries the population more than 10 Mil-
lions
• Vocabulary sensitive– River that flows into Atlantic ocean?
• Data, information or knowledge that I am interested does not find me real-time
The Web of Data
• 기술의 변화– 하이퍼 텍스트에서 하이퍼데이터로– 시맨틱 웹 레이어의 개발
• LOD – Tim Berners-Lee’s 4 Principles– LOD clouds began exploding
• Giant Global Graph (GGG)
Linking Open Data (LOD) is to connect and to open data to public
1. Use URIs as names for things2. Use HTTP URIs 3. When someone looks up a URI, provide useful information4. Include links to other URIs
4 Principlesof LOD
Linked Open Data (LOD) Principles
A little history of LOD Project Tim Berners-Lee proposed LOD(Linking Open Data) project (2006) Since the proposal, numerous countries and organizations participated,
caused LOD to explode in terms of the number of data Wikipedia DBpedia (www.dbpedia.org) Bio2RDF project opened in 27 fields of Biology, Genetics, Medical-re-
lated, of which the data sets are about 2.3 billions (Bio2RDF.org) (2008.10)
BBC announced to participate LOD project (www.bbc.org), now one of the institutes actively utilizing the data
US Data.gov released 5 billion data triples US Library of Congress announced to join LOD project. (http://
id.loc.gov/authorities/sh85042531#concept) NY Times ( data.nytimes.com) release their data of 150 years of publica-
tion (2009.10) US Whitehouse release a plan to open data in RDF (2009.11)
Linked Open Data (LOD) Principles
Change of Web Structure
17
인간을 위한웹 페이지 연결 웹페이지 연결 버스
유저 인터페이스
웹데이터 연결 버스
매쉬업 매쉬업
인간을 위한웹 페이지 연결
컴퓨터를 위한웹 데이터 연결
웹페이지 연결 버스
유저 인터페이스
May, 2007Mar., 2008
Sep., 2008
July, 2009
SPARQL Example: To Query Wikipedia
DBPedia SPARQL Endpoint
SPARQL Example: To Query Neuro Com-mons
큐레이션
Curation Services
Social Data Curation
Video Curation
소셜미디어 분석
Gloor’s Coolhunting
Gloor’s Coolhunting
소셜네트워크 분석을 통하여 트렌드 분석 (Coolhunting) 뿐만이 아니고 트렌드 창출 (Coolfarming) 도 가능하다
29
전희주 : 텔레콤 이탈고객 분석
■ 양방향 해지자 네트워크 분석
< 그림 1> 102 명 해지자들 간의 네트워크
• Color: 해지일자 별 표현 ( 빨간색 -> 보라색 : 해지일자 선 -> 후 )
• Shape: 십자가 모양 ( 이탈유발자 )
- Connector 및 Broker 역할 점수가 평균점수보다 모두 높은 고객
• Size: 연령 (20 대 ~ 50 대 분포 )
• Label: 해지일자
출처 : 2012 하계 통계학회 2012-11
소셜 네트워크 분석을 통하여 해지유발자를 찾아낼 수 있다
예 : 강남스타일과 시사점
오빤 강남 스타일• 8 억 클릭 육박 중 .
•2012 년 7 월 15 일 뮤직비디오 공개
• 2012 년 8 월 24 일 , 40(+40) 일 경과 : 5000 만 뷰
• 2012 년 9 월 4 일 , 52 (+11) 일 경과 : 1 억 뷰
• 2012 년 9 월 12 일 , 60 (+8) 일 경과 : 1.5 억 뷰
• 2012 년 9 월 18 일 , 66(+6) 일 경과 : 2 억 뷰
• 2012 년 9 월 26 일 , 74 일 경과 : 3 억 뷰
• 2012 년 10 월 20 일 , 98 일 경과 : 5 억 284 만 뷰
• 2012 년 11 월 20 일 , 128 일 경과 : 7 억 704 만 뷰
• 참고 ) 역대 유투브 조회수
– 1 위 : 저스틴 비버의 ‘ Baby’ 7 억 9105 만 건
– 2 위 : 제니퍼 로페즈의 ‘ On the floor’ 6 억 1072 만 건
SM Town 트위팅 3/3 ~ 3/9
트위터 id Betweenness
allkpop 0.14915 icontaec 0.05684 mama_risaa 0.04227 yeolbong 0.03491 mikcat39 0.03056 ponponn91 0.01750
bigbangupdates 0.02072
dunia_kpopers 0.01920 ariearien 0.01875 2ne1global 0.01850 instiz_ichart 0.01446 taeccool 0.01137
soompi_bigbang 0.01060
yuuuukaap 0.00903 su_sunshine 0.00947 soompi 0.00948 koreanchingu 0.01063 lovelytaec 0.01034 younggirls97 0.00753
소녀시대 트위팅 3/3 ~ 3/9트위터 id
Between-ness
smtown_snsd 0.18733 soshified 0.08696
soal_kpop 0.08263 yurui912 0.06552
dunia_kpopers 0.03794 ggkwonyuri_ 0.03667 we_lovekorea 0.03364 ccpacilli 0.02858 oniontaker 0.02562
allkpop 0.02676 abckpop_ 0.02306 egghead0 0.02190
diiahottest 0.01963 youtube 0.01661
mikifujisaki 0.01597 processic 0.01546 kpopers_family 0.01478 snsd_news 0.01222 niakanyaa 0.01280
강남스타일 트위팅 11/3 ~ 11/5
트위터 idBetween-ness
psy 0.40147 ellemca 0.15645 only5guysonly1d 0.10259
duckbelieber97 0.08064 davtinmodel 0.06590
laura_stubbsx 0.06070 laraheleno 0.05797 fernandoponcejr 0.04981
delylachen_ii 0.04234 kayliesimmons 0.03671 geekstoremx 0.03172 timeswagbiebs 0.02865 itsmaylinsofia_ 0.02664
youtube 0.02585 ultrakpop 0.02335 justinbieber 0.02329 conqueruniverse 0.02321 taylorswift13 0.02292
staystronghope 0.02130
“ 강남 스타일” Twitters
기술 수용 주기와 캐즘 이론
VISIONARIES“Follow their own dictates”
VISIONARIES“Follow their own dictates”
PRAGMATISTS“Stay with the
herd”
PRAGMATISTS“Stay with the
herd”
소녀시대 / SM Town Twitters
강남 스타일 Twitters
향후 연구
• 소셜네트워크 분석과 LOD 의 접목– 사용 단어 분석에 온톨로지를 사용하여 분석의
정밀성 제고– Foaf 등을 이용한 소셜 네트워크 관계성 정밀 분석
• 강남스타일 및 한류스타 트윗 정밀 분석– 트윗 패턴 및 트위터 성향 분석
감사합니다