83
신문 26310기사의 뉴스 빅데이터 시각화로 신문의 역사 한국언론진흥재단 미디어연구센터 선임연구위원 1

Newspapers 26 years: the history of newspapers by visualizing 3.1 million news articles

Embed Size (px)

Citation preview

신문 26년 310만 건 기사의 뉴스 빅데이터 시각화로 본 신문의 역사

박 대 민

한국언론진흥재단 미디어연구센터

선임연구위원

1

뉴스 빅데이터

뉴스 의미연결망 분석

목차

뉴스 자연어처리

신문 26년: 310만 건 기사의

뉴스 빅데이터 시각화로 본 신문의 역사

신문 26년

부록

2

뉴스 빅데이터: 개념

3

Computational Social Science

A “social supercollider”would combine multiple streams of data about individual behavior and identity while retaining the benefits of massive scale.

4

VS

News Big Data → Data Driven Services

5

Centrality

A) Betweenness centrality, B) Closeness centrality, C) Eigenvector centrality, D) Degree centrality, E) Harmonic centrality and F) Katz centrality of the same graph.

https://en.wikipedia.org/wiki/Centrality

6

Burst

7

Three Degrees of Influence Rule

8

Network Dynamics

9

Opinion Dynamics

10

뉴스 빅데이터: 개발사

11

개발史: 2010 뉴스정보원 연결망 분석 알고리즘

12

개발史: 2012 프로토타입

13

개발사: 2013 뉴스소스 베타

14

개발史: 2015 IBM WATSON

15

개발史: 2016 빅카인즈

16

뉴스 자연어처리

17

Morpheme 對 Concepts

형태소 단위의 단어클라우드 개념 단위의 단어클라우드

18

뉴스 NLP

토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화

문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한글 표기), 개체명 인식

대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명동인)

분류, 군집, 중복, 요약, 가중치, 순위화, 평판분석, 감성분석, 토픽 모델링, 이슈 트래킹, 복합논증분석

형태소분석

구문분석

의미분석

담론분석

박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.

19

NLP 예시

형태소분석 예문) 초고속열차를 타보았다. 초/접두어+고속/명사+열차/명사+를/목적격조사; 가장 적합한 형태소 분석 후보(1) 초고/명사+속/명사+열차/명사+를/목적격조사; 형태소 분석 후보(2)

예문) 그가 산 사과를 다시 샀다. (((그가/주어 산/술어) 사과를)/목적어 다시 샀다/술어) – 가장 적합한 구문구조 (1) ((그가/주어 (산 사과를)/목적어) (다시 샀다)/술어) – 구문구조 후보

구문분석

예문) 그가 산 사과를 다시 샀다. 산: buy, live/alive, mountain 사과: apple, apology

의미분석

예문) 삼성 햅틱폰은 전면 풀터치와 와이드 LCD가 시원시원해서 맘에 듭니다. <object:햅틱폰, feature:풀터치와 와이드 LCD, expr:시원시원하다, polarity:positive>;

담론분석

SK플래닛 기술 블로그 README (http://readme.skplanet.com/?p=3749)

20

기존 뉴스 NLP 한계

형태소분석 성능 의미분석 여부

분석 단위

개체명 인식 성능

구문분석 범위

KrKwic 등 외국 형태소분석기에 바탕을 둔 형태소분석기의 형태소분석 성능 문제

대용어 해소, 의미 중의성 해결 없이 빈도와 중앙성을 계산할 때 과대/과소평가 문제

언론학의 내용분석/비판적 담론분석의 연구 목적에 부합하는 중위 수준의 문장 중심 분석 필요

인명, 장소, 기관, 외국어 한글표기 등 개체명 인식의 성능 문제와 재현율, 정확도의 미표기

언어학적 관점의 완전 구문분석이 아닌 저널리즘 영역 지식을 활용한 최소한의 구문분석 필요

01 02 03

04 05

‘기업’, ‘지역’, ‘이노’, ‘육성’, ‘비즈’, ‘부산’, ‘중기청’, ‘울산’, ‘600’

부산•울산지방중소기업청은 2일 “최근 중국경제 부상 이후 중소기업이 원자재난과 인력난, 사회적 인식저하 등으로 침체위기를 겪고 있는 가운데 이를 극복하고 지역경제에 활력을 불어넣기 위해 부산•울산지역의 이노비즈 기업 600여 곳을 발굴해 집중 육성할 것”이라고 밝혔다.

출처: 2004년 8월 3일 조선일보 ‘기술혁신형 중소기업 육성’

21

News Semantic Network Service

차세대융합기술원(2013.12.). <빅데이터 기술을 활용하여 스마트 뉴스를 제공하는 모바일 앱 개발>. 서울: 한국정보화진흥원. 박대민, 김기남, 강남용, 서봉원, 하효지, 온병원(2014). 저널리즘 가치에 기초한 알고리즘을 이용한 뉴스의 시각화. <한국HCI학회 논문지>, 9권 2호, 5-12.

- 정보원(성+이름, 소속, 직함), 문장, 기사를 식별하여 사실 중심으로 중복을 제거해 요약 - 정보원, 문장, 기사 검색 결과를 의미연결망분석을 통해 산출된 가중치에 따라 제시 - 질의에 대한 검색 결과를 정보원과 인용문 중심으로 주제별로 대조 - 연구자를 위해 시계열 뉴스정보원 연결망의 시각화와 정형화 자료 다운로드 제공

22

뉴스 소스 베타 아키텍처

박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.

23

NER 성능

재현율, 87.4

50.9

75

정확도, 90.3 92.7 97.8

0

20

40

60

80

100

인명 기관 직함

박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.

24

대용어 해소

‘성+직함’만 나온 경우 인용문으로부터 앞으로 거슬러 올라가서 발견된 ‘인명+기관+직함’ 중 ‘성+직함’이 일치하는 경우 해당 인용문의 발화자인 개인실명정보원이다. 이 때 인용문의 ‘성+직함’과 인용문 앞에서 발견된 ‘성+이름+기관+직함’의 문자열에 대해 SVM(support vector machine)를 수행해 일치 여부를 확인한다.

형태소분석 결과 인용문의 주어가 인칭대명사로 나타난 경우, 인용문으로부터 앞으로 거슬러 올라가서 처음으로 나타난 ‘인명+기관+직함’이 해당 인용문의 발화자인 개인실명정보원이다.

인용문 내에서 ‘인명+기관+직함’, 또는 ‘기관’의 개체명이 인식된 경우, 해당 인용문의 발화자는 인식된 개인실명정보원 또는 집단정보원이다.

NER 성+직함에 대한 SVM 인칭대명사 매칭

01

02

03 박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를

중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.

25

의미 중의성 해결

같은 날짜에 이명동인, 즉 이름 소속 직함이 같은 서로 다른 두 사람은 존재할 수 없다. 다른 날짜에 인명이 다른 경우 이름을 바꾸는 드문 경우가 아닌 한 동일인이 아니기 때문에 이름이 다르면 근사적으로 다른 인물이다.

인명은 같지만 기관과 직함이 다르면서도 실제로 동일인일 경우에도 조작적으로 다른 정보원으로 정의한다. . 예) ‘홍길동 XX그룹 회장’과 ‘OO당 국회의원 홍길동’은 설사 동일 인물일지라도 다른 소속이기 때문에 다른 출입기자가 담당을 맡아 서로 다른 주제로 인용하는 기능적으로 다른 정보원이다.

인명, 기관, 직함이 같은 정보원은 근사적으로 동일 인물로 볼 수 있다. - 단기적으로 다른 매체 다른 기사에 등장했어도 동일인 - 장기적으로도 동명이인 드묾

동명동인, 동명이인 이명이인 이명동인

01

02

03 박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를

중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.

26

문장/기사 유사도

기사/문장에 대해 전체 기사에 출현하는 n개의 단어(명사, 수치, 동사)로 이루어진 n차원 벡터 공간을 가정한 뒤 각 기사/문장를 해당 단어가 출현하는지 여부에 따라 값을 부여한 단어벡터로 나타낸다.

비교 대상인 두 기사의 단어벡터 간 각도를 θ라고 할 때, 이 각도에 대한 코사인 값을 계산하여 유사도를 계산한다. 임계값을 정하여 이 값을 넘으면 유사한 것으로, 그렇지 않으면 유사하지 않은 것으로 판정한다.

비교 대상 기사 전체에 등장하는 횟수(IDF)에 비해 특정 기사에 등장하는 빈도(TF)가 높다면 그 단어는 다른 단어에 비해 그 문서를 더 많이 대표하므로 더 높은 가중치를 부여 받는다.

전체 기사 각각에 어떤 주요 단어, 즉 색인어가 있는지를 나타내는 색인 작업과, 각 색인어가 어느 기사에 있는지, 즉 역색인 작업을 함께 수행한다.

01

02

03

04

Inverted Indexing Vector Space Model TD-IDF Cosine Similarity

박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션

이론>, 12권 1호, 4-52.

27

분류, 군집화

15개 카인즈 지면 분류를 정치/경제/사회(종합)/문화/국제로 사상 기계학습(단순 베이지안), 75% 정확도

단어 유사도에 따라 기사 군집화 (유사 문장 여부로 수정 필요)

개인 실명 정보원을 노드로 하고, 공기 여부에 따라 엣지를 부여한 뉴스 정보원 연결망

개체명 분류에 따른 문장 분류 - 대분류: 인용문, 수치문, 기타문 - 인용문 다중 분류: 개인실명/집단/익명

01

02

03

04

문장분류 기사분류 정보원연결망분석 기사 군집화

박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.

28

순위화

규칙 - 정보원 순위에 따른 문장 순위 - 같은 소속 분류 정보원은 순위 하락

뉴스 기사 연결망 분석 -공동 정보원을 중심으로 연결망 그린 뒤 연결정도 중앙성 계산 (유사 문장 기준으로 수정 필요)

규칙과 NSNA - 개인실명>집단>익명 - NSNA: 개인실명정보원 내에서는 연결정도 중앙성에 따른 순위

정보원 순위화 문장 순위화 기사 순위화

01

02

03

박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.

29

뉴스 소스 베타 다운로드

박대민(2016). 뉴스 기사의 자연어처리: <뉴스소스 베타>를 중심으로. <커뮤니케이션이론>, 12권 1호, 4-52.

30

컴퓨터 보조 담론분석

박대민(2014) <담론의 금융화: 서민주택담론을 통해 본 한국 금융통치성의 대두>. 서울대학교 사회과학대학원 박사학위논문.

31

뉴스 의미연결망 분석: 개요

32

Nouns 對 Sources

단어연결망 정보원 연결망

33

News Semantic Network

박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.

34

결점(node)

개체명: PLOT(인명, 장소, 기관명, 특수용어), 직함, 직업명, 상품명 등, 주제 결점이 너무 많으면 하위유목으로 분석, 너무 적으면 상위유목으로 종합

연결선(edge) 기사 공동출현에 의한 관련도(relevance) 연결 강도를 정의 완전연결망이 과도하게 나타나면 관련도를 보다 엄격하게 정의

절대적 연결정도 중앙성 (degree centrality)

CD(v)=deg(v), 공동인용된 정보원 /기관 수 또는 함께 거론된 주제 수, 논쟁성 결점 속성

결점

연결선

순위화

News Semantic Network

박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.

35

named entity recognition coreference elimination

data cleansing

결점 속성 부여 강한 연결 표현

수작업 보정

Transpose Diagonal

Dichotomize Degree centrality

구조(scale free network)

해석

01

02

03

04

Crawling NLP, Data cleansing 뉴스 의미 연결망 분석 Visualization

수작업, Crawler, 계약 자료는 충분히 많아야 함

News Semantic Network Analysis

박대민 등(2015) <뉴스 빅데이터 분석 시스템 연구>. 서울: 한국언론진흥재단.

36

뉴스 의미연결망 분석: 개체명

37

News Source Network

박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261.

2

1

1

2 3

1

4 5

2 3

1

4 5

38

Adjacent Matrix & Attribute Matrix

박대민(2013). 뉴스 기사의 빅데이터 분석 방법으로서 뉴스정보원연결망분석. <한국언론학보>, 57권 6호, 233-261.

39

Biases by Bursts in Topics & Media

연결정도(x축)에 따른 연결정도지수(y축)의 추이 연결정도(x축)와 정보원 수(y축) 간의 관계

박대민(2014). 뉴스 정보원 인용에서의 폭발성과 언론의 편향성. <커뮤니케이션 이론>, 10권 1호, 295-324. 연결정도(x축)에 따른 연결정도지수(y축)의 추이 연결정도(x축)와 정보원 수(y축) 간의 관계

40

RANKING

41

News Source Network

Park, D.M., Kim, G.N., & On, B.W.(under review). Understanding the network fundamentals of the news sources associated with a specific topic. Information Sciences..

39 Barack Obama 22 Jay Carney 15 Ban Kimoon 13 John Kerry 12 Victoria Nuland 10 Kim Hyunwook 10 Susan Rice

42

News Source Network: Four Major Rivers Project

한겨레 동아

박대민(2015). 사실기사의 직접인용에 대한 이중의 타당성 문제의 검토: 동아일보와 한겨레신문의 4대강 추진 논란 기사에 대한 뉴스 정보원 연결망 및 인용문 분석. <한국언론학보>, 59권 5호, 121-151.

43

News Comment Topic Ego Network: Youth Unemployment

김선호, 박대민(2015.9.). 청년실업 언론보도와 국민인식. <미디어이슈>, 1권 14호. 서울: 한국언론진흥재단.

44

뉴스 의미연결망 분석: 문장

45

News Sentence Network

박대민(2016). 토론기계를 향하여: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안. 한국HCI학회 학술대회. 하이원리조트 컨벤션센터, 정선.

검색어: ‘분단’ 분석매체: 경향, 국민, 문화, 서울, 세계, 한겨레, 한국, 동아 분석기간: 2011년 1년치 인용문 수: 인용문 949개(중복 포함, 기사 405건)

main component

46

Diameter & Extended Path

박대민(2016). 토론기계를 향하여: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안. 한국HCI학회 학술대회. 하이원리조트 컨벤션센터, 정선.

47

Rule Based News Sentence Network Matrix

인용문 연결=기사 공동출현+동일 정보원 발언=QA×QAT+QS×QST

48

Rule Based News Sentence Network Ranking

q4>q2=q3=q5=q6=q7>q1

49

뉴스 의미연결망 분석: 매체

50

Originality Algorithm Media & Originality Matrix

Originality = 1 – (Σ(Cosine Similarity-1)) / (number of media-1)

박대민(2015). News media network analysis: Comparing media systems mathematically by news sources. 사이버커뮤니케이션 가을철 정기학술대회. 서울대학교, 서울.

51

News Media Network

Media Uniqueness = 1 – (Σ(Cosine Similarity-1)) / (number of media-1)

박대민(2015). News media network analysis: Comparing media systems mathematically by news sources. 사이버커뮤니케이션 가을철 정기학술대회. 서울대학교, 서울.

검색어: 4대강 매체: 국민, 경향, 동아, 문화, 서울, 세계, 한겨레, 한국(<KINDS> 수록 8대 중앙지) 분석기간: 2008.11.28.-12.31., 2009.6.2.-7.30., 2009.11.13.-12.31. 자연어처리: <뉴스소스 베타>

52

뉴스 의미연결망 분석: 2원 연결망

53

News Source-Topic Network: Thoughtless Comments

박대민(2015.8). 망언의 네트워크: 신문뉴스 빅데이터 분석으로 본 일본 망언보도 10년사. <미디어이슈>, 1권 12호. 서울: 한국언론진흥재단.

54

News Organization-Topic Network: Youth

김선호, 박대민(2015.9.). 청년실업 언론보도와 국민인식. <미디어이슈>, 1권 14호. 서울: 한국언론진흥재단.

55

신문 26년: 뉴스 정보원 연결망 분석

56

Visualization: http://goo.gl/I7PZdp

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

57

정치: 대변인 → 대통령

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

58

1995년 세계일보 정치-박지원 대변인 2003년 서울신문 정치-노무현 대통령

정치: 1995 박지원 vs. 2003 노무현

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

59

사회: 정치인 → 교육부

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

60

2007년 경향신문 사회-교육부 1994년 한겨레신문 사회-장석화 의원

사회: 1994 장석화 vs. 2007 교육부

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

61

경제: 재정 금융 관료 vs. 재태크

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

62

2007년 동아일보 경제-한국투자증권 김학균 연구원 2008년 한국일보 경제-강만수 기획재정부 장관

경제: 2007 김학균 vs. 2008 강만수

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

63

신문 26년: 뉴스 주제 연결망

64

정치: 보수정당 → 미국

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

65

1992년 한겨레신문 정치-민자당 2003년 국민일보 정치-미국

정치: 1992 민자당 vs. 2003 미국

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

66

사회: 노동자 vs. 공무원

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

67

2008년 한겨레신문 사회-노동자 2015년 세계일보 사회-메르스

사회: 2008 노동자, 2015 메르스

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

68

경제: 미국, 중소기업 → 중국, 소비자

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

69

2001년 동아일보 경제-미국 2015년 세계일보-중국

경제: 2001 미국 vs. 2015 중국

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

70

신문 26년: 기사 수, 정보원 수, 주제 수

71

기사 수

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

72

정보원 수, 주제 수

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

73

기사당 정보원 수, 기사 당 주제수

박대민(2016.4.). 신문 26년: 뉴스 빅데이터 시각화로 본 신문 보도의 역사. <News Big Data Analytics & Insights>, 1권 1호. 서울: 한국언론진흥재단.

74

부록: 향후 과제

75

방송 뉴스 빅데이터 분석

박대민, 오세욱(2016.4.). 방송 뉴스 빅데이터 분석의 가능성. 봄철한국방송학회 정기학술대회.

76

Debating Machine

박대민(2016). 토론기계를 향하여: 유사도와 공동출현에 기초한 뉴스 문장 연결망 분석 알고리즘 제안. 한국HCI학회 학술대회. 하이원리조트 컨벤션센터, 정선. 박대민(2015c). 토론 기계는 가능한가: 규칙 기반 뉴스 문장 연결망 분석 모형의 제안. 한국방송학회 가을철 정기학술대회. 단국대학교 죽전캠퍼스, 용인.

77

사회체계 행렬

박대민(2014). 하버마스, 루만, 들뢰즈, 가타리의 이론을 통한 일반 대중매체 체계이론의 제안. <한국언론정보학보>, 67호, 119-151.

78

사회 자유주의 통치성 연구

박대민(2014). 시장 자유주의 통치성의 계보학: 1980년대 이후 선호하는 인간의 통치로서 금융통치성의 대두. <커뮤니케이션이론>, 10권 4호, 224-262.

79

부록: 참고문헌

80

읽어보기

81

프로그램

82

Q & A

83