한국언론진흥재단 빅데이터저널리즘 과정

Preview:

DESCRIPTION

2014. 9. 23. 한국언론진흥재단 2014 언론인 전문화교육 교육과정 슬라이드 자료

Citation preview

“데이터의  홍수  속에서  길을  찾는다”  

!한국언론진흥재단 2014 언론인 전문화교육!

<저널리즘의 미래, 빅 데이터 활용하기>!

!rainygirl!

2014.9.23!

!r@coroke.net

rainygirl.com  r@coroke.net

Software  Engineer  Web  Developer  Big  Data  Analyst  

!2007  NCSOFT  2011  NAVER  

2012  SK  Planet  !

2014  indistreet.com            boooki.com                      news.coroke.net    fun.coroke.net                      ilwar.com  …

운영중인  서비스들  중  일부입니다….  많네요

데이터를  다루는  서비스는  대표적으로  세가지가  있습니다

Data

데이터는  IT산업의  기반이고  개발자의  친구입니다

Data  Analyst?

사실  데이터애널리스트는  보통  금융권에  많이  있었습니다

Big  Data

다량의  데이터를  확보한  IT산업도  데이터  애널리스트를  찾기  시작했습니다.  이게  빅데이터

Journalism

사회  전반에  공개되는  데이터가  쏟아지면서,  저널리즘이  나서야  할  역할이  생긴  것

Data  Journalism

그렇게  저널리즘도  데이터를  다루어야  할  시대가  되었습니다

11헌데  사실  데이터가  웹에  떠다니고  있으니,  웹도  아셔야  합니다

데이터수집가공처리에는  프로그래밍이  쓰이니  프로그래밍도  알아야하네요

데이터를  아주  빠르게  확보해야하니  외주로는  해결되지  않습니다

손빠르고  감각있는  개발자와  친해지세요

Excellent  knowledge  of  machine  learning,  data  mining,  data  structures,  algorithms  and  design  patterns  !Excellent  knowledge  of  data  structures,  algorithms  and  design  patterns  Experience  with  distributed  data  processing  system,  such  as  Hadoop/MapReduce,  Hive,  Pig  and  SQL/NoSQL  databases  Experience  in  building  web  applications  in  a  Linux  environment  and  handling  or  analyzing  large  volumes  of  data.  Experience  in  JavaScript  and  other  client-­‐side  technologies…

뉴욕타임즈  데이터  엔지니어  요구사항은  이렇습니다.  머신러닝.  데이터마이닝,  알고리즘…

HowTo

데이터,  어떻게  접근해야할지  살펴봅시다

hot.coroke.net

화제의  충격  고로케

기사  제목에  충격,  경악  등의  낚시단어를  달아둔  기사만  집계

주간  생산량,  가장  많이  쓰는  언론사  순위등을  매김

최근  온라인  커뮤니티도  수집

네티즌들은….등의  반응을  보였다  도  수집

네티즌들은….등의  반응을  보였다  도  수집

25일  기준으로  1등  언론사에게  상장도  수여했습니다

연말에  총결산하여  최종  순위도  매겼습니다.  예상과  달리  메이저언론이  순위권이네요.

say.coroke.net

빅데이터  버즈분석의  기초사례.  트위터  분석

많은  사람들이  트위터에  저마다의  감정상태를  토해내고  있습니다.  흔적을  남기는거죠

이걸  단어별로  수집한뒤  시간대별로  집계하면  시간대별  감정변화를  알  수  있을겁니다

집계되는  단어로는  이런게  있습니다.  함께  볼까요,  

심심해  say.coroke.net/bored

한국인은  밤에  잠들기전  가장  심심해하고

졸려  say.coroke.net/sleep

아침에  기상하여  출근할때  가장  졸려하고

배고파  say.coroke.net/hungry

밥때가  되면  배고픈데,  밤12시에도  배고파합니다.  한국  야식산업의  기반이  확인됩니다.

はらがへった  say.coroke.net/hungry/ja

일본은  그렇지  않습니다.  밤에  배고파하지  않아요.  한국만  야식을  찾습니다.

배아파  say.coroke.net/dung

아침마다  화장실  사로가  꽉차는데에는  이유가  있죠.  기상  직후  출근때에  다들  배아파합니다.

腹が痛い  say.coroke.net/dung/ja

일본도  아침  출근시간대에  배아파합니다.  헌데  한국과는  좀  다르네요.

배아파

腹が痛い한국보다  느긋하게  출근한다는  이야기입니다.

결코  인생의  낭비가  아니라,  라이프사이클을  관찰할  수  있는  귀한  데이터들입니다

radiation.coroke.net

방사능고로케,  한중일  3개국  공간방사선량을  지도에  펼치는  사이트입니다

38각  국가별로  발표하는  자료는  있지만  3개국을  비교할  방법은  없었습니다

39그래서  모두  모아서  동일단위로  변환하여  지도에  시각화했더니

40도리어  한국이  일본보다  높게나옵니다.  사고지역  외엔  일본이  더  낮죠.

0

32.5

65

97.5

130

한국  부산

일본  오사카

2014.5.7  ~  2014.6.29  /    단위:  nSv/h꾸준한  기록에도  역시  일본이  한국보다  낮게  나옵니다

data

데이터는  그저  하나의  데이터로만  존재할때보다,

metadata

그  데이터를  모아  분석하고  재가공했을때  더  큰  가치를  지닙니다

데이터저널리즘에서  이야기하는  데이터는  이미  타  분야에서  광범위하게  활용중입니다

Data  Science  Data  Engineering  Data  Analytics  

Data  Visualization

Data  Science  Data  Engineering  Data  Analytics  

Data  Visualization어떻게  데이터에  접근하고  수집하며  처리할지의  문제는  IT기술  전문영역입니다

이들을  가지고  어떤  이야기를  할  것인지는  저널리즘과  IT기술이  결합되어  움직입니다

Data  Science  Data  Engineering  Data  Analytics  

Data  Visualization

무엇을  분석할  것인가?  에  따라  접근해야  하는  데이터가  다양할  것입니다

데이터를  다룰때엔  먼저  데이터  접근방법부터  찾아내야  합니다

접근된  정보는  API로  내려받거나,  Crawling,  Parsing  을  거쳐  확보한  뒤  저장해야합니다

저장된  데이터를  가공하기  위해,  정보  모델링을  한  뒤  그  안에  담아야합니다

0

32.5

65

97.5

130

한국  부산

일본  오사카

어떻게  시각화할것인지에  대해  동시에  고민하며  분석해야합니다.  그래프는  재미없고,

52지도에  색칠하니  한눈에  의미를  확인할  수  있습니다.  Data  Visualization.  데이터시각화

데이터시각화는  단순시각화부터  인포그래픽,  인터렉티브  웹까지  다양한  방법이  있습니다

충격고로케,  수집된  데이터에서  낚시단어만  빨갛게  색칠하여  펼쳐놓았습니다

언론사  순위를  매겼습니다.  순위는  소비자들이  원하는  메타데이터였습니다

ilwar.com/trollreport

커뮤니티사이트  일간워스트에는  불량악플도배를  자동  탐지하는  방충망  시스템이  있습니다

일간워스트  트롤밭  리포트,  정보를  가장  쉽게  전달할  형식에  맞추어  구성

데이터시각화  Data  Visualization은  정보가  가장  쉽게  전달될  수  있는  형식이면  됩니다

Data  Science  Data  Engineering  Data  Analytics  

Data  Visualization어떻게  데이터에  접근하고  수집하며  처리할지는  기술  영역

신속한  데이터  확보

신속한  데이터  확보는  1분  1초가  무척  중요합니다

https://twitter.com/coogi1113/status/174375300631773184

2012  대선개입사건  트위터  추적  사례

트위터  웹에서는  보이지  않지만,  트위터  API  호출을  통해  GeoTag  확보  가능

이  데이터를  통해  트윗  작성위치를  역추적해보면

.  .  .

이들을  가지고  어떤  이야기를  할  것인지는  저널리즘과  기술의  결합이  필요합니다

Data  Science  Data  Engineering  Data  Analytics  

Data  Visualization

어떻게  표현할지에  대해서도  기술과의  결합이  절실합니다.  d3js.org  를  참조하세요!

Data  Metadata  Story  

Contents어느것  하나라도  빠지면  구현이  불가능합니다

Data

Metadata

Story

Contents

Data  Metadata  Story  

Contents

데이터  접근  데이터  확보  데이터  분석  스토리텔링  구성  컨텐츠화  

rainygirl.com  r@coroke.net