18
MODULE 3 REVIEW FINDING STORY IDEA WITH DATA ANALYSIS 뉴뉴뉴뉴 뉴뉴뉴

[데이터저널리즘 세미나] LLG in Seoul Module 3 Review

Embed Size (px)

DESCRIPTION

Doing Journalism with Data 강좌의 모듈3 리뷰세미나 슬라이드 파일

Citation preview

Page 1: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

MODULE 3 REVIEW

FINDING STORY IDEA WITH DATA ANALYSIS

뉴스젤리 김재옥

Page 2: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

목차

1. 개념 소개2. 분석 툴3. 데이터 분석 사례

Page 3: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

스토리를 위해 데이터 속에서 찾아야 할 것 .

•패턴 (PATTERN)

Page 4: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

스토리를 위해 데이터 속에서 찾아야 할 것 .

•아웃라이어 (OUTLIER)

Page 5: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

1. 개념 소개

Page 6: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

•증감률

•비율

•평균 VS 중앙값

•최빈값

1. 개념 소개

= (New – Old) / Old

= 인구 x 명 당 (per)

= Average vs. Median

= 가장 빈번히 나타난 값

캐나다환율13.6.13 1CAD : 1,112.15 원14.6.13 1CAD : 938.82 원인구수가 다른 두 도시 비교

LA 다저스 연봉평균값 : $778 만중앙값 : $430 만 *Ryu $350 만

-15.6% ↓

Page 7: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

•최고값 / 최저값

•사분위수

•표준편차

1. 개념 소개

= 내림차순 / 오름차순

= 25% / 50% / 75% / 100%

= to find outliers

Page 8: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

•상관관계

•회귀분석

1. 개념 소개

= 인과관계 분석

= A 와 B 가 상관관계에 있으면 A 와 B 가 인과관계에 있다 ?

상관관계 ( 아이스크림 : 강력범죄 )

Page 9: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

2. 분석 툴

Page 10: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

• 엑셀

2. 분석 툴

• 오픈 리파인 http://openrefine.org/

• R 통계프로그램http://www.r-project.org/

• 하둡

Page 11: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

• 엑셀

• Freeze( 틀고정 )• Sort & Filter ( 정렬 & 필터 )• 계산식• 함수• 피벗테이블

2. 분석 툴

Page 12: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

• 오픈리파인 (Openrefine)

• 데이터 정제 툴• Facet 기능

2. 분석 툴

Page 13: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

• R

• 오픈소스 통계 패키지• 성능• 그래픽 가능• R 언어

2. 분석 툴

Page 14: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

• 하둡

• 오픈소스• 빅데이터 처리• 분산시스템

2. 분석 툴

Page 15: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

3. 데이터 분석 사례

Page 16: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

3. 데이터 분석 사례

• 비만도

• Freeze / 정렬 기능• 최고 / 최저값• 증감률• 비율활용 (per 값 )• 평균 , 중앙값• 상관관계

• 월드컵 H 조 득실점

• 최빈값• 피벗 테이블

Page 17: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

• Discussion Points (Module 3)

Main Points• 주제 선정 후 , 스토리 설정이 먼저 ?

데이터 분석이 먼저 ?

• 수집한 데이터를 어떻게 분석할지 생각해봅시다 .

(optional)• 데이터 분석의 깊이는 어느 정도까지 되어야 할까요 ?

( 보도 수준 / 보고서 수준 / 논문 수준 )

Page 18: [데이터저널리즘 세미나] LLG in Seoul Module 3 Review

THANK YOU

[email protected]