75
데이터의 홍수 속에서 길을 찾는다한국언론진흥재단 2014 언론인 전문화교육 <저널리즘의 미래, 데이터 활용하기> rainygirl 2014.9.23 [email protected]

한국언론진흥재단 빅데이터저널리즘 과정

Embed Size (px)

DESCRIPTION

2014. 9. 23. 한국언론진흥재단 2014 언론인 전문화교육 교육과정 슬라이드 자료

Citation preview

Page 1: 한국언론진흥재단 빅데이터저널리즘 과정

“데이터의  홍수  속에서  길을  찾는다”  

!한국언론진흥재단 2014 언론인 전문화교육!

<저널리즘의 미래, 빅 데이터 활용하기>!

!rainygirl!

2014.9.23!

[email protected]

Page 2: 한국언론진흥재단 빅데이터저널리즘 과정

rainygirl.com  [email protected]

Page 3: 한국언론진흥재단 빅데이터저널리즘 과정

Software  Engineer  Web  Developer  Big  Data  Analyst  

!2007  NCSOFT  2011  NAVER  

2012  SK  Planet  !

2014  indistreet.com            boooki.com                      news.coroke.net    fun.coroke.net                      ilwar.com  …

Page 4: 한국언론진흥재단 빅데이터저널리즘 과정

운영중인  서비스들  중  일부입니다….  많네요

Page 5: 한국언론진흥재단 빅데이터저널리즘 과정

데이터를  다루는  서비스는  대표적으로  세가지가  있습니다

Page 6: 한국언론진흥재단 빅데이터저널리즘 과정

Data

데이터는  IT산업의  기반이고  개발자의  친구입니다

Page 7: 한국언론진흥재단 빅데이터저널리즘 과정

Data  Analyst?

사실  데이터애널리스트는  보통  금융권에  많이  있었습니다

Page 8: 한국언론진흥재단 빅데이터저널리즘 과정

Big  Data

다량의  데이터를  확보한  IT산업도  데이터  애널리스트를  찾기  시작했습니다.  이게  빅데이터

Page 9: 한국언론진흥재단 빅데이터저널리즘 과정

Journalism

사회  전반에  공개되는  데이터가  쏟아지면서,  저널리즘이  나서야  할  역할이  생긴  것

Page 10: 한국언론진흥재단 빅데이터저널리즘 과정

Data  Journalism

그렇게  저널리즘도  데이터를  다루어야  할  시대가  되었습니다

Page 11: 한국언론진흥재단 빅데이터저널리즘 과정

11헌데  사실  데이터가  웹에  떠다니고  있으니,  웹도  아셔야  합니다

Page 12: 한국언론진흥재단 빅데이터저널리즘 과정

데이터수집가공처리에는  프로그래밍이  쓰이니  프로그래밍도  알아야하네요

Page 13: 한국언론진흥재단 빅데이터저널리즘 과정

데이터를  아주  빠르게  확보해야하니  외주로는  해결되지  않습니다

Page 14: 한국언론진흥재단 빅데이터저널리즘 과정

손빠르고  감각있는  개발자와  친해지세요

Page 15: 한국언론진흥재단 빅데이터저널리즘 과정

Excellent  knowledge  of  machine  learning,  data  mining,  data  structures,  algorithms  and  design  patterns  !Excellent  knowledge  of  data  structures,  algorithms  and  design  patterns  Experience  with  distributed  data  processing  system,  such  as  Hadoop/MapReduce,  Hive,  Pig  and  SQL/NoSQL  databases  Experience  in  building  web  applications  in  a  Linux  environment  and  handling  or  analyzing  large  volumes  of  data.  Experience  in  JavaScript  and  other  client-­‐side  technologies…

뉴욕타임즈  데이터  엔지니어  요구사항은  이렇습니다.  머신러닝.  데이터마이닝,  알고리즘…

Page 16: 한국언론진흥재단 빅데이터저널리즘 과정

HowTo

데이터,  어떻게  접근해야할지  살펴봅시다

Page 17: 한국언론진흥재단 빅데이터저널리즘 과정

hot.coroke.net

화제의  충격  고로케

Page 18: 한국언론진흥재단 빅데이터저널리즘 과정

기사  제목에  충격,  경악  등의  낚시단어를  달아둔  기사만  집계

Page 19: 한국언론진흥재단 빅데이터저널리즘 과정

주간  생산량,  가장  많이  쓰는  언론사  순위등을  매김

Page 20: 한국언론진흥재단 빅데이터저널리즘 과정

최근  온라인  커뮤니티도  수집

Page 21: 한국언론진흥재단 빅데이터저널리즘 과정

네티즌들은….등의  반응을  보였다  도  수집

Page 22: 한국언론진흥재단 빅데이터저널리즘 과정

네티즌들은….등의  반응을  보였다  도  수집

Page 23: 한국언론진흥재단 빅데이터저널리즘 과정

25일  기준으로  1등  언론사에게  상장도  수여했습니다

Page 24: 한국언론진흥재단 빅데이터저널리즘 과정

연말에  총결산하여  최종  순위도  매겼습니다.  예상과  달리  메이저언론이  순위권이네요.

Page 25: 한국언론진흥재단 빅데이터저널리즘 과정

say.coroke.net

빅데이터  버즈분석의  기초사례.  트위터  분석

Page 26: 한국언론진흥재단 빅데이터저널리즘 과정

많은  사람들이  트위터에  저마다의  감정상태를  토해내고  있습니다.  흔적을  남기는거죠

Page 27: 한국언론진흥재단 빅데이터저널리즘 과정

이걸  단어별로  수집한뒤  시간대별로  집계하면  시간대별  감정변화를  알  수  있을겁니다

Page 28: 한국언론진흥재단 빅데이터저널리즘 과정

집계되는  단어로는  이런게  있습니다.  함께  볼까요,  

Page 29: 한국언론진흥재단 빅데이터저널리즘 과정

심심해  say.coroke.net/bored

한국인은  밤에  잠들기전  가장  심심해하고

Page 30: 한국언론진흥재단 빅데이터저널리즘 과정

졸려  say.coroke.net/sleep

아침에  기상하여  출근할때  가장  졸려하고

Page 31: 한국언론진흥재단 빅데이터저널리즘 과정

배고파  say.coroke.net/hungry

밥때가  되면  배고픈데,  밤12시에도  배고파합니다.  한국  야식산업의  기반이  확인됩니다.

Page 32: 한국언론진흥재단 빅데이터저널리즘 과정

はらがへった  say.coroke.net/hungry/ja

일본은  그렇지  않습니다.  밤에  배고파하지  않아요.  한국만  야식을  찾습니다.

Page 33: 한국언론진흥재단 빅데이터저널리즘 과정

배아파  say.coroke.net/dung

아침마다  화장실  사로가  꽉차는데에는  이유가  있죠.  기상  직후  출근때에  다들  배아파합니다.

Page 34: 한국언론진흥재단 빅데이터저널리즘 과정

腹が痛い  say.coroke.net/dung/ja

일본도  아침  출근시간대에  배아파합니다.  헌데  한국과는  좀  다르네요.

Page 35: 한국언론진흥재단 빅데이터저널리즘 과정

배아파

腹が痛い한국보다  느긋하게  출근한다는  이야기입니다.

Page 36: 한국언론진흥재단 빅데이터저널리즘 과정

결코  인생의  낭비가  아니라,  라이프사이클을  관찰할  수  있는  귀한  데이터들입니다

Page 37: 한국언론진흥재단 빅데이터저널리즘 과정

radiation.coroke.net

방사능고로케,  한중일  3개국  공간방사선량을  지도에  펼치는  사이트입니다

Page 38: 한국언론진흥재단 빅데이터저널리즘 과정

38각  국가별로  발표하는  자료는  있지만  3개국을  비교할  방법은  없었습니다

Page 39: 한국언론진흥재단 빅데이터저널리즘 과정

39그래서  모두  모아서  동일단위로  변환하여  지도에  시각화했더니

Page 40: 한국언론진흥재단 빅데이터저널리즘 과정

40도리어  한국이  일본보다  높게나옵니다.  사고지역  외엔  일본이  더  낮죠.

Page 41: 한국언론진흥재단 빅데이터저널리즘 과정

0

32.5

65

97.5

130

한국  부산

일본  오사카

2014.5.7  ~  2014.6.29  /    단위:  nSv/h꾸준한  기록에도  역시  일본이  한국보다  낮게  나옵니다

Page 42: 한국언론진흥재단 빅데이터저널리즘 과정

data

데이터는  그저  하나의  데이터로만  존재할때보다,

Page 43: 한국언론진흥재단 빅데이터저널리즘 과정

metadata

그  데이터를  모아  분석하고  재가공했을때  더  큰  가치를  지닙니다

Page 44: 한국언론진흥재단 빅데이터저널리즘 과정

데이터저널리즘에서  이야기하는  데이터는  이미  타  분야에서  광범위하게  활용중입니다

Data  Science  Data  Engineering  Data  Analytics  

Data  Visualization

Page 45: 한국언론진흥재단 빅데이터저널리즘 과정

Data  Science  Data  Engineering  Data  Analytics  

Data  Visualization어떻게  데이터에  접근하고  수집하며  처리할지의  문제는  IT기술  전문영역입니다

Page 46: 한국언론진흥재단 빅데이터저널리즘 과정

이들을  가지고  어떤  이야기를  할  것인지는  저널리즘과  IT기술이  결합되어  움직입니다

Data  Science  Data  Engineering  Data  Analytics  

Data  Visualization

Page 47: 한국언론진흥재단 빅데이터저널리즘 과정

무엇을  분석할  것인가?  에  따라  접근해야  하는  데이터가  다양할  것입니다

Page 48: 한국언론진흥재단 빅데이터저널리즘 과정

데이터를  다룰때엔  먼저  데이터  접근방법부터  찾아내야  합니다

Page 49: 한국언론진흥재단 빅데이터저널리즘 과정

접근된  정보는  API로  내려받거나,  Crawling,  Parsing  을  거쳐  확보한  뒤  저장해야합니다

Page 50: 한국언론진흥재단 빅데이터저널리즘 과정

저장된  데이터를  가공하기  위해,  정보  모델링을  한  뒤  그  안에  담아야합니다

Page 51: 한국언론진흥재단 빅데이터저널리즘 과정

0

32.5

65

97.5

130

한국  부산

일본  오사카

어떻게  시각화할것인지에  대해  동시에  고민하며  분석해야합니다.  그래프는  재미없고,

Page 52: 한국언론진흥재단 빅데이터저널리즘 과정

52지도에  색칠하니  한눈에  의미를  확인할  수  있습니다.  Data  Visualization.  데이터시각화

Page 53: 한국언론진흥재단 빅데이터저널리즘 과정

데이터시각화는  단순시각화부터  인포그래픽,  인터렉티브  웹까지  다양한  방법이  있습니다

Page 54: 한국언론진흥재단 빅데이터저널리즘 과정

충격고로케,  수집된  데이터에서  낚시단어만  빨갛게  색칠하여  펼쳐놓았습니다

Page 55: 한국언론진흥재단 빅데이터저널리즘 과정

언론사  순위를  매겼습니다.  순위는  소비자들이  원하는  메타데이터였습니다

Page 56: 한국언론진흥재단 빅데이터저널리즘 과정

ilwar.com/trollreport

Page 57: 한국언론진흥재단 빅데이터저널리즘 과정

커뮤니티사이트  일간워스트에는  불량악플도배를  자동  탐지하는  방충망  시스템이  있습니다

Page 58: 한국언론진흥재단 빅데이터저널리즘 과정

일간워스트  트롤밭  리포트,  정보를  가장  쉽게  전달할  형식에  맞추어  구성

Page 59: 한국언론진흥재단 빅데이터저널리즘 과정

데이터시각화  Data  Visualization은  정보가  가장  쉽게  전달될  수  있는  형식이면  됩니다

Page 60: 한국언론진흥재단 빅데이터저널리즘 과정

Data  Science  Data  Engineering  Data  Analytics  

Data  Visualization어떻게  데이터에  접근하고  수집하며  처리할지는  기술  영역

Page 61: 한국언론진흥재단 빅데이터저널리즘 과정

신속한  데이터  확보

신속한  데이터  확보는  1분  1초가  무척  중요합니다

Page 62: 한국언론진흥재단 빅데이터저널리즘 과정

https://twitter.com/coogi1113/status/174375300631773184

2012  대선개입사건  트위터  추적  사례

Page 63: 한국언론진흥재단 빅데이터저널리즘 과정

트위터  웹에서는  보이지  않지만,  트위터  API  호출을  통해  GeoTag  확보  가능

Page 64: 한국언론진흥재단 빅데이터저널리즘 과정

이  데이터를  통해  트윗  작성위치를  역추적해보면

Page 65: 한국언론진흥재단 빅데이터저널리즘 과정

.  .  .

Page 66: 한국언론진흥재단 빅데이터저널리즘 과정

이들을  가지고  어떤  이야기를  할  것인지는  저널리즘과  기술의  결합이  필요합니다

Data  Science  Data  Engineering  Data  Analytics  

Data  Visualization

Page 67: 한국언론진흥재단 빅데이터저널리즘 과정

어떻게  표현할지에  대해서도  기술과의  결합이  절실합니다.  d3js.org  를  참조하세요!

Page 68: 한국언론진흥재단 빅데이터저널리즘 과정

Data  Metadata  Story  

Contents어느것  하나라도  빠지면  구현이  불가능합니다

Page 69: 한국언론진흥재단 빅데이터저널리즘 과정

Data

Page 70: 한국언론진흥재단 빅데이터저널리즘 과정

Metadata

Page 71: 한국언론진흥재단 빅데이터저널리즘 과정

Story

Page 72: 한국언론진흥재단 빅데이터저널리즘 과정

Contents

Page 73: 한국언론진흥재단 빅데이터저널리즘 과정

Data  Metadata  Story  

Contents

Page 74: 한국언론진흥재단 빅데이터저널리즘 과정

데이터  접근  데이터  확보  데이터  분석  스토리텔링  구성  컨텐츠화  

Page 75: 한국언론진흥재단 빅데이터저널리즘 과정

rainygirl.com  [email protected]