60
Data which is not understand has no value Big Data and Predictive Analytics 김김김 , Open Knowledge Foundation Korea, 201

Haklae talk-data-0128

Embed Size (px)

Citation preview

Page 1: Haklae talk-data-0128

Data which is not understand has no valueBig Data and Predictive Analytics

김학래 , Open Knowledge Foundation Korea, 2013

Page 2: Haklae talk-data-0128

데이터를 사랑하는 사람들을 위한 튜토리얼Agenda

2

332211 아름답게 만들기 하지만 피할 수 없는 .. 데이터 생태계

Facebook

Gephi

Google Refine

UciNet

Fusion Tables

GapMinder

Quick

Page 3: Haklae talk-data-0128

Inverted Pyramid of Data JournalismIntroduction

3Source: http://onlinejournalismblog.com/2011/07/07/the-inverted-pyramid-of-data-journalism/

Page 4: Haklae talk-data-0128

데이터를 사랑하는 사람들을 위한 튜토리얼Content

4

332211 아름답게 만들기 하지만 피할 수 없는 .. 데이터 생태계

Facebook

Gephi

Google Refine

UciNet

Fusion Tables

GapMinder

Quick

Page 5: Haklae talk-data-0128

5

목표 : 아름다운 그래프를 그립니다 .

Page 6: Haklae talk-data-0128

네트워크 데이터 편집Gephi

myFnetwork_*.txt 파일을 node/edge 로 구분한 후 파일을 각각 저장

6

11

22

“node.csv” 으로 저장

“edge.csv” 으로 저장

원본파일

“ Id, Label”

“Source, Target”

Page 7: Haklae talk-data-0128

파일 불어오기Gephi

7

11Import Spreadsheet 클릭

22 node.csv 파일 선택

33Nodes table 선택 (As table: )

44 edge.csv 파일 선택

55Edges table 선택 (As table: )

66 “Next” 클릭

Page 8: Haklae talk-data-0128

그래프 편집하기Gephi

8

11Overview 클릭 ( 왼쪽 상단 )

22 Hairball 보기

Page 9: Haklae talk-data-0128

Layout 변경Gephi

9

11Layout 탭 : Force Atlas 선택

22 Run 클릭

33 Stop 클릭

44 Adjust by size 선택

55 Run Stop 클릭

Page 10: Haklae talk-data-0128

Ranking 변경Gephi

10

11 Ranking 탭

22 Degree 선택

33Apply 클릭 (gradient 적용됨 )

Page 11: Haklae talk-data-0128

노드 크기 변경Gephi

11

11Ranking 탭에서 다이아몬드 선택

33 Apply 클릭

22 Min size: 5, Max size: 50

Page 12: Haklae talk-data-0128

Layout 에서 노드 크기 변경Gephi

목표 : 네트워크 파일 열기

12

11 Adjust by size 선택

22 Run Stop 클릭

Page 13: Haklae talk-data-0128

통계 값 확인Gephi

13

11Statistics 탭 : Avg. Path Length

Page 14: Haklae talk-data-0128

그래프의 노드에 글자 보이기Gephi

14

Show Node Labels

Edge weight scale

Size mode(node size 선

택 )

Color mode(Unique 선택 )

Font size scale

Page 15: Haklae talk-data-0128

군집화 (Modularity)Gephi

15

11Statistics 탭 : Modularity 클릭

22Modularity Setting: 모두 선택

33Partition 탭 : Refresh Arrows 클릭 후 Modularity Class 선택

Page 16: Haklae talk-data-0128

그래프 색깔 변경Gephi

16

11Ranking 탭 : Color 선택 후 적용

Page 17: Haklae talk-data-0128

Preview 및 그래프 Export 하기Gephi

17

11Preview 탭 : Show Labels 선택

22 Refresh & Export

Page 18: Haklae talk-data-0128

요약 : 이제 , 우리도 아름답게 데이터를 표현할 수 있습니다 .Gephi

18

데이터 시각화 준비 데이터 분석 아름다운 시각화

Page 19: Haklae talk-data-0128

데이터를 사랑하는 사람들을 위한 튜토리얼Content

19

332211 아름답게 만들기 하지만 피할 수 없는 .. 데이터 생태계

Facebook

Gephi

Google Refine

UciNet

Fusion Tables

GapMinder

Quick

Page 20: Haklae talk-data-0128

20

목표 : 데이터를 설계합니다 .

Page 21: Haklae talk-data-0128

이것이 무엇인가요 ?Introduction

21

Page 22: Haklae talk-data-0128

태그 (tag): 사람이 특정한 리소스에 부여하는 키워드Introduction

22

Eiffel

Tower

Paris

Brain?

?

Page 23: Haklae talk-data-0128

태그를 부여하는 것은 인간의 인지적 활동을 반영Introduction

23

What you think about it?

You tag those words

0.1 seconds

Eiffel

Tower

Paris

Brain?

Page 24: Haklae talk-data-0128

소셜 미디어와 나Introduction

24

Breslin, 2007

Page 25: Haklae talk-data-0128

Social Object: 소셜 미디어 사이의 연결 고리Introduction

25

Breslin, 2007

Page 26: Haklae talk-data-0128

Object-centered Sociality: Social Object 중심의 네트워크Introduction

26

“Social network theory fails to recognise such real-world dynamics because its notion of sociality is limited to just people.” - Jyri Engestrom, 2005

Page 27: Haklae talk-data-0128

관심사 키워드 - 원본관심사 분석 실습

27

조명대 김학래 이종완 한상우 전희주 이명진 이영환 류자현 윤영민 이민아linked data / linked open data 시맨틱웹 1. 여론조사 social learning

소셜네트워크 분석 (SNA) 빅데이터

Big Data Analysis 집단지성 정보사회학 인포그래픽

semantic web 링크드데이터 2. 인터넷전화 facebook 빅데이터 시맨틱웹 Semantic Web 지식형성사회조사방법 빅데이터

dereferencing uri 오픈데이터 3. 콜센터 HTML 5

CRM(고객관계관리 ) 링크드데이터 Open Data 소셜미디어 빅데이터 웹 3.0

public data 커뮤니티 4. LTE information science 보험 인공지능

Open Government Data

소셜네트워크서비스 소셜미디어 시멘틱웹

open government initiative 협업 5. 빅데이터분석 cool hunting 통계 고급분석 Market Analysis 플랫폼

사회연결망분석

데이터사이언스

open knowledge foundation 인공지능 6. 유전 알고리즘 cool farming 마케팅 소셜네트워크 Web Mining 페이스북 공감 인문학digital library 온톨로지 7. 인공지능 information literacy 마케팅 채널 시맨틱웹서비스 Data Mining 위키피디아 정치참여 철학social semantic digital library 빅데이터 8. 시뮬레이션 metadata 웹

Artificial Intelligence 의례 전자정부 사회학

sioc 사회9. 한 . 중 . 일 고대사

knowledge management 분산컴퓨팅

Technology Trend 선물경제 미래학 정보사회

rdf 스마트폰 10. 불교 ontology 플랫폼 Web Technology 상호작용시나리오플래닝 소셜미디어

connectionism okf 11. 전략기획 linked data 건강식품 Informatics ethnography미디어의 역사

컨텐츠큐레이션

link and node 소셜네트워크 12. 컴퓨터음악information architecture 시맨틱검색 SNA 협력 소셜그래프

modeling 웹 13. 양극화해소 semantic web 온톨로지 사회학 사회변동 SNS 마케팅추상 플랫폼 14. 여가 information ecology 추론 정보사회학 사회불평등 스타트업

predictive analytics 소셜미디어 15. 뉴에이지음악 knowledge sourcing 소셜검색 집단행동

공동체(community) 크라우드펀딩

Page 28: Haklae talk-data-0128

관심사 키워드 - 수정본관심사 분석 실습

28

조명대 김학래 이종완 한상우 전희주 이명진 이영환 류자현 윤영민 이민아

링크드데이터 시맨틱웹 1. 여론조사 사회적학습소셜네트워크 분석 (SNA) 빅데이터 빅데이터 분석 집단지성 정보사회학 인포그래픽

시맨틱웹 링크드데이터 2. 인터넷전화 페이스북 빅데이터 시맨틱웹 시맨틱 웹 지식형성 사회조사방법 빅데이터dereferencing uri 오픈데이터 3. 콜센터 HTML 5

CRM(고객관계관리 ) 링크드데이터 오픈 데이터 소셜미디어 빅데이터 웹 3.0

공공데이터 커뮤니티 4. LTE 정보과학 보험 인공지능

Open Government Data

소셜네트워크서비스 소셜미디어 시멘틱웹

open government initiative 협업 5. 빅데이터분석 cool hunting 통계 고급분석 시장분석 플랫폼 사회연결망분석

데이터사이언스

open knowledge foundation 인공지능 6. 유전 알고리즘 cool farming 마케팅 소셜네트워크 웹마이닝 페이스북 공감 인문학

디지털도서관 온톨로지 7. 인공지능 information literacy 마케팅 채널 시맨틱웹서비스 데이터마이닝 위키피디아 정치참여 철학social semantic digital library 빅데이터 8. 시뮬레이션 메타데이터 웹 인공지능 의례 전자정부 사회학

sioc 사회9. 한 . 중 . 일 고대사 지식관리 분산컴퓨팅 기술트렌드 선물경제 미래학 정보사회

rdf 스마트폰 10. 불교 온톨로지 플랫폼 웹기술 상호작용 시나리오플래닝 소셜미디어

connectionism okf 11. 전략기획 링크드데이터 건강식품 Informatics ethnography 미디어의 역사컨텐츠큐레이션

link and node 소셜네트워크 12. 컴퓨터음악 정보아키텍처 시맨틱검색 SNA 협력 소셜그래프

modeling 웹 13. 양극화해소 시맨틱웹 온톨로지 사회학 사회변동 SNS 마케팅

추상 플랫폼 14. 여가 information ecology 추론 정보사회학 사회불평등 스타트업

예측분석 소셜미디어 15. 뉴에이지음악 knowledge sourcing 소셜검색 집단행동공동체(community)

크라우드펀딩

Page 29: Haklae talk-data-0128

관심사 키워드 매트릭스관심사 분석 실습

29

1-mode / unimodal matrix

11 Adjacency Matrix

22 Affiliation Matrix

2-mode / bimodal matrix

Page 30: Haklae talk-data-0128

매트릭스 만들기관심사 분석 실습

30

11 수집된 데이터를 개인별로 구분하여 붙여넣기

22 개인별 키워드의 값에 1 입력 ( 키워드 사용 )

22 모든 사용자의 키워드를 같은 방법으로 입력

프로그래밍 언어를 사용하지 않고더 좋은 방법이 있으면 꼭 알려주세요 !

조명대 김학래링크드데이터 1시맨틱웹 1dereferencing uri 1공공데이터 1open government initiative 1open knowledge foundation 1디지털도서관 1social semantic digital library 1sioc 1rdf 1connectionism 1link and node 1modeling 1추상 1예측분석 1빅데이터 1small analysis 1데이터사이언스 1데이터통합 1데이터시각화 1시맨틱웹 1링크드데이터 1

Page 31: Haklae talk-data-0128

매트릭스 파일 불어오기Google Refine

31

11Create Project: This Computer

Page 32: Haklae talk-data-0128

입력된 데이터 확인Google Refine

32

11 Create Project 클릭

수리수리마하수리

Page 33: Haklae talk-data-0128

빈 항목에 0 입력Google Refine

33

11 셀 편집 : 셀에 마우스 포커스

22셀에 0 입력 , 컬럼마다 반복 수행

33 컬럼명 왼쪽 Dropbox 선택

Edit cells -> Fill Down 실행

Page 34: Haklae talk-data-0128

매트릭스 완성Google Refine

34

11 Affiliation Matrix 완성

Page 35: Haklae talk-data-0128

키워드 정제하기Google Refine

35

11 컬럼명 왼쪽 Dropbox 선택

Facet -> Text Facet 실행

Page 36: Haklae talk-data-0128

키워드 정제를 통한 매트릭스 변경Google Refine

36

11 동일 키워드 탐색

22 키워드 변경

33 컬럼명 왼쪽 Dropbox 선택

(okf = open knowledge foundation)

빈도는 2 로 변경됨44키워드 “ open knowledge foundation” 클릭

Page 37: Haklae talk-data-0128

값이 반영된 Row 는 Blank row 로 변환Google Refine

37

55 첫번째 Row 의 0 을 1 로 수정

66 컬럼명 왼쪽 Dropbox 선택

Edit cells -> Blank down 실행

Page 38: Haklae talk-data-0128

Blank rows 삭제하기Google Refine

38

77Blank down 실행 후 1 개의 Row 에 1 값이 매핑됨

88 Blank node 는 하단에 축적됨

All-> Edit rows->Remove all matching rows

88 Blank node 삭제하기

Page 39: Haklae talk-data-0128

데이터 ExportGoogle Refine

39

11Export 메뉴 : Comma-separated value 클릭

Page 40: Haklae talk-data-0128

Ucinet 실행하기Ucinet

40

11 메인화면

Page 41: Haklae talk-data-0128

Ucinet 형식으로 데이터 변환하기Ucinet

41

11파일 열기(interest-keyword-by-refine.xls)

22Save As: Ucinet 4-6 dataset 선택

33 .##d & .##h 파일 생성됨

Page 42: Haklae talk-data-0128

Affiliation Network 을 Adjacent Matrix 로 변환Ucinet

42

11데이터 변환 (2-mode to 1-mode)

22Interest-keyword-by-refine.##h파일 선택

33 Mode 상자 : Rows ( 키워드 )

Data->Affiliations (2-mode to 1-mode)

선택

44 Mode 상자 : Columns ( 사람 )

Page 43: Haklae talk-data-0128

NetDraw

43

Network Visualisation - 사람

Page 44: Haklae talk-data-0128

Network Visualisation - 키워드NetDraw

44

Page 45: Haklae talk-data-0128

Network Visualization - 2-Mode Network

NetDraw

45

Page 46: Haklae talk-data-0128

요약 : 이제 데이터를 설계하여 분석할 수 있습니다 .데이터 설계

46

데이터 수집 데이터 정제 분석 및 시각화

Page 47: Haklae talk-data-0128

데이터를 사랑하는 사람들을 위한 튜토리얼Content

47

332211 아름답게 만들기 하지만 피할 수 없는 .. 데이터 생태계

Facebook

Gephi

Google Refine

UciNet

Fusion Tables

GapMinder

Quick

Page 48: Haklae talk-data-0128

오픈 데이터와 구글 맵을 통한 시각화Google Fusion Tables

48

11파일 선택 (population-by-city.csv)

https://www.google.com/fusiontables/DataSource?dsrcid=implicit&redirectPath=data&usp=apps_start&hl=en

22 Next 선택

http://ko.wikipedia.org/wiki/ 설치순 _ 대한민국의 _ 도시 _ 목록

Page 49: Haklae talk-data-0128

위키피디아에서 데이터 수집하기Google Spreadsheet

49

11

22

33

=ImportHtml("http://ko.wikipedia.org/wiki/%EC%84%A4%EC%B9%98%EC%88%9C_%EB%8C%80%ED%95%9C%EB%AF%BC

%EA%B5%AD%EC%9D%98_%EB%8F%84%EC%8B%9C_%EB%AA%A9%EB%A1%9D"; "table";1)

Create New: Speadsheet

위키피디아 : 국내 도시별 인구http://ko.wikipedia.org/w iki/설치순_대한민국의 _도시 _목록

빈 셀에서 importhtml 실행

44 빈 셀에서 importhtml 실행

https://docs.google.com/spreadsheet/ccc?key=0AoGswzvw-8nLdElWREM1Z3VESS1JcnVFN0daU1NES3c

Page 50: Haklae talk-data-0128

위키피디아에서 데이터 수집하기Google Spreadsheet

50

11 메뉴에서 spreadsheet 선택

22파일 선택 : population-by-city

33 외부 파일을 URL 로 검색 가능

( 파일 읽기 허가 필요 )

Page 51: Haklae talk-data-0128

오픈 데이터와 구글 맵을 통한 시각화Google Fusion Tables

51

11 Import 테이블 확인

22 Next 선택

Page 52: Haklae talk-data-0128

오픈 데이터와 구글 맵을 통한 시각화Google Fusion Tables

52

11 데이터 설명 추가

22 Next 선택

Page 53: Haklae talk-data-0128

오픈 데이터와 구글 맵을 통한 시각화Google Fusion Tables

53

노란색 Location 으로 변환할 수 있는 컬럼

Page 54: Haklae talk-data-0128

오픈 데이터와 구글 맵을 통한 시각화Google Fusion Tables

54

11 Geocode 변환

22 File-> Geocode 메뉴 선택

33 변환 컬럼 선택 : “ 도시명”

44변환 시작 : “Start” 선택 -> Close

Page 55: Haklae talk-data-0128

오픈 데이터와 구글 맵을 통한 시각화Google Fusion Tables

55

11 새 탭 추가 (+ 기호 선택 )

22 맵 스타일 변경

33 맵 아이콘 선택

Page 56: Haklae talk-data-0128

오픈 데이터와 구글 맵을 통한 시각화Google Fusion Tables

56

11 아이콘 선택

22 테이블에 있는 테이터 출력

Page 57: Haklae talk-data-0128

GapMinder또다른 방법

57

GapMinder Motion Chart

Page 58: Haklae talk-data-0128
Page 59: Haklae talk-data-0128

오픈 , 움직임 , 그리고 실천하고 싶은 말

59

Source: http://www.sott.net/image/image/s6/127394/full/AaronSwartz4.jpg

Page 60: Haklae talk-data-0128

이제 우리도 더 멋진 데이터 생태계를 만들 수 있습니다하고 싶은 말

60

http://thedatahub.kr

http://kr.okfn.org

2 월 23 일 개최