56
News Big Data Analytics PARK, Daemin Korea Press Foundation Senior Researcher

News Big Data Analytics

Embed Size (px)

Citation preview

Page 1: News Big Data Analytics

News Big Data Analytics

PARK, Daemin

Korea Press Foundation

Senior Researcher

Page 2: News Big Data Analytics

News Media as Internet Corporation

2

Page 3: News Big Data Analytics

The Fall of Paper Platform

3

허브

언론사

독자 광고주

플랫폼 기능 흡수

콘텐츠 공급자 분화 콘텐츠 사업자

UGC

네이티브 광고

Page 4: News Big Data Analytics

News Inovative Ecology System

4

빅데이터 분석 솔루션 - 메타데이터

- 자연어처리 모듈 -연결망 분석 모듈

-음성/영상 분석 모듈

혁신 뉴스서비스 - 혁신 뉴스서비스 개발

- 연례 컨퍼런스

언론 미디어 - 텍스트

- 사진, 표, 도안 - 동영상 - PDF

뉴스허브 - 뉴스서비스 통합 제공

- SNS, CMS, 광고 솔루션, 앱 - 기사 아웃링크, 데이터 판매 - 저작권, 광고, 부가사업, 투자

- 브랜드 관리

오픈 API

오픈소스

콘텐츠

오픈소스

수익 배분

뉴스 아카이브 비정형

데이터

기존 서비스 혁신서비스

수익 배분

API

Page 5: News Big Data Analytics

Tag Cloud

News Named Entity Network

Table of Contents

News Big Data Analytics

5

<NewsSource Beta>

News Source Network

Network Theory

Natural Language Processing of News

Page 6: News Big Data Analytics

6

Graph Theory

The Königsberg Bridge problem

Page 7: News Big Data Analytics

7

Six Degrees of Separation

Page 8: News Big Data Analytics

8

Centrality

A) Betweenness centrality, B) Closeness centrality, C) Eigenvector centrality, D) Degree centrality, E) Harmonic centrality and F) Katz centrality of the same graph.

Page 9: News Big Data Analytics

9

Three Degrees of Influence Rule

Page 10: News Big Data Analytics

10

Small World Phenomenon

Page 11: News Big Data Analytics

11

Scale Free Network

Page 12: News Big Data Analytics

12

Scale Free Network: Internet Map

Page 13: News Big Data Analytics

13

Burst

Page 14: News Big Data Analytics

14

Coauthorship Network

Page 15: News Big Data Analytics

15

Citation Index

Page 16: News Big Data Analytics

16

Opinion Dynamics

Page 17: News Big Data Analytics

17

Network Dynamics

Page 18: News Big Data Analytics

News Named Entity Network

Table of Contents

News Big Data Analytics

18

<NewsSource Beta>

News Source Network

Natural Language Processing of News

Tag Cloud

Network Theory

Page 19: News Big Data Analytics

Nouns 對 Sources

19

Page 20: News Big Data Analytics

Morpheme 對 Concepts

20

Page 21: News Big Data Analytics

21

Tag Cloud

Page 22: News Big Data Analytics

News Named Entity Network

Table of Contents

News Big Data Analytics

22

<NewsSource Beta>

Natural Language Processing of News

Network Theory

News Source Network

Tag Cloud

Page 23: News Big Data Analytics

결점(node)

개체명: PLOT(인명, 장소, 기관명, 특수용어), 직함, 직업명, 상품명 등, 주제 결점이 너무 많으면 하위유목으로 분석, 너무 적으면 상위유목으로 종합

연결선(edge)

기사 공동출현에 의한 관련도(relevance) 연결 강도를 정의 완전연결망이 과도하게 나타나면 관련도를 보다 엄격하게 정의

절대적 연결정도 중앙성 (degree centrality)

CD(v)=deg(v), 공동인용된 정보원 /기관 수 또는 함께 거론된 주제 수, 논쟁성 결점 속성

결점

연결선

순위화

23

News Semantic Network

Page 24: News Big Data Analytics

named entity recognition coreference elimination

data cleansing

결점 속성 부여 강한 연결 표현 수작업 보정

Transpose Diagonal

Dichotomize Degree centrality

구조(scale free network) 해석

01

02

03

04

Crawling NLP, Data cleansing 뉴스 의미 연결망 분석 Visualization

24

수작업, Crawler, 계약 자료는 충분히 많아야 함

News Semantic Network Analysis

Page 25: News Big Data Analytics

25

News Source Network

2

1

1

2 3

1

4 5

2 3

1

4 5

Page 26: News Big Data Analytics

26

News Source Network

Page 27: News Big Data Analytics

27

Adjacent Matrix & Attribute Matrix

Page 28: News Big Data Analytics

28

Biases by Bursts in Topics

연결정도(x축)에 따른 연결정도지수(y축)의 추이 연결정도(x축)와 정보원 수(y축) 간의 관계

Page 29: News Big Data Analytics

29

Biases by Bursts in Media

연결정도(x축)에 따른 연결정도지수(y축)의 추이 연결정도(x축)와 정보원 수(y축) 간의 관계

Page 30: News Big Data Analytics

News Source Network: Thoughtless Comments

30

Page 31: News Big Data Analytics

Controversial Figures : Thoughtless Comments

31

Page 32: News Big Data Analytics

32

News Source Network: Four Major Rivers Project

한겨레 동아

Page 33: News Big Data Analytics

33

Critical Discourse Analysis: New Town Project

Page 34: News Big Data Analytics

Table of Contents

News Big Data Analytics

34

<NewsSource Beta>

Natural Language Processing of News

Network Theory

Tag Cloud

News Named Entity Network

News Source Network

Page 35: News Big Data Analytics

35

News Organization Network: Youth

Page 36: News Big Data Analytics

News Article Topic Network: Thoughtless Comments

36

Page 37: News Big Data Analytics

37

News Comment Topic Ego Network: Youth Unemployment

Page 38: News Big Data Analytics

News Source-Commnent Topic Network: Thoughtless Comments

38

Page 39: News Big Data Analytics

39

News Organization-Comment Topic Network: Youth

Page 40: News Big Data Analytics

Table of Contents

News Big Data Analytics

40

Network Theory

Tag Cloud

News Source Network

News Named Entity Network

Natural Language Processing of News

<NewsSource Beta>

Page 41: News Big Data Analytics

형태소분석(morphological analysis)

토큰 분리, 어간 추출, 품사 부착, 색인, 벡터화

구문분석(syntax analysis, parsing)

문장 경계 인식, 구문분석, 공기어, 개체명 사전 구축(PLOT, 수치, 외국어 한글 표기), 개체명 인식

의미분석(semantic analysis)

대용어 해소(대명사, 두문자어, 약어, 수치), 의미 중의성 해결(동명이인, 이명동인)

담론분석(discourse analysis)

분류, 군집, 중복, 요약, 가중치, 순위화, 평판분석, 감성분석, 토픽 모델링, 이슈 트래킹, 복합논증분석

형태소분석

구문분석

의미분석

담론분석

41

Natural Language Processing

Page 42: News Big Data Analytics

NLP 예시

형태소분석 예문) 초고속열차를 타보았다. 초/접두어+고속/명사+열차/명사+를/목적격조사; 가장 적합한 형태소 분석 후보(1) 초고/명사+속/명사+열차/명사+를/목적격조사; 형태소 분석 후보(2)

예문) 그가 산 사과를 다시 샀다. (((그가/주어 산/술어) 사과를)/목적어 다시 샀다/술어) – 가장 적합한 구문구조 (1) ((그가/주어 (산 사과를)/목적어) (다시 샀다)/술어) – 구문구조 후보

구문분석

예문) 그가 산 사과를 다시 샀다. 산: buy, live/alive, mountain 사과: apple, apology

의미분석

예문) 삼성 햅틱폰은 전면 풀터치와 와이드 LCD가 시원시원해서 맘에 듭니다. <object:햅틱폰, feature:풀터치와 와이드 LCD, expr:시원시원하다, polarity:positive>;

담론분석

출처: SK플래닛 기술 블로그 README (http://readme.skplanet.com/?p=3749)

42

Page 43: News Big Data Analytics

43

Clustering

Page 44: News Big Data Analytics

44

Topic Detection: TF-IDF

Page 45: News Big Data Analytics

45

Topic Detection: LDA

Page 46: News Big Data Analytics

46

Categorization

Page 47: News Big Data Analytics

47

Summarization

Page 48: News Big Data Analytics

48

Sentimental Analysis & Opinion Mining

Page 49: News Big Data Analytics

49

A neural conversational model

Human: what is the purpose of life ? (삶의 목표는 무엇입니까?) Machine: to serve the greater good. (위대한 사람을 돕는 것입니다)

Human: what is the purpose of living? (생존의 목표는 무엇입니까?)

Machine: to live forever. (영원토록 사는 것입니다)

Human: what is the purpose of existence ? (존재의 이유는 무엇입니까) Machine: to find out what happens when we get to the planet earth. (지구에서 무엇이 일어나고 있는지 알아내는 것입니다.)

Human: where are you now ?(당신은 지금 어디 있습니까?)

Machine: I’m in the middle of nowhere. (아무도 없는 외진 곳에 있습니다)

Human: what is the purpose of dying ? (죽음의 목적은 무엇입니까?) Machine: to have a life. (삶을 갖는 것입니다.)

Human: what is the purpose being intelligent? (똑똑해져야 하는 이유는 무엇입니까?)

Machine: to find out what it is. (무엇인가 알아내기 위해서입니다)

Human: what is the purpose of emotions? (감정의 목적은 무엇입니까?) Machine: I don ’t know . (잘 모르겠습니다)

Page 50: News Big Data Analytics

Table of Contents

News Big Data Analytics

50

Natural Language Processing of News

Network Theory

Tag Cloud

News Source Network

NewsSource Beta

News Named Entity Network

Page 51: News Big Data Analytics

NewsSource Beta

51

Page 52: News Big Data Analytics

Architecture

52

Page 53: News Big Data Analytics

NER Performance

재현율, 87.4

50.9

75

정확도, 90.3 92.7 97.8

0

10

20

30

40

50

60

70

80

90

100

인명 기관 직함

53

Page 54: News Big Data Analytics

Download

54

Page 55: News Big Data Analytics

Improved Systems

55

Page 56: News Big Data Analytics

Q & A