50
데데데 데데데데 데데데데 , 데데데 (Tableau) 데데데데 데데데데데데 데데데 데데데데데데 데데데 데데데데데데 데데데

5장 태블로 활용하기

  • Upload
    jiunzz

  • View
    136

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 5장 태블로 활용하기

데이터 시각화의 스위스칼 , 태블로 (Tableau) 활용하기

언론정보학과 김예경 언론정보학과 김선지 문화인류학과 이지언

Page 2: 5장 태블로 활용하기

태블로는 -1999 년 미 스탠포드 컴퓨터 과학 연구실의 교내 벤처회사에서 개발한 데이터 베이스 관리 기술 을 기반으로 만든 소프트 웨어

- 별도의 학습 없이도 누구나 효과적이고 다양한 깊이 있는 시각화 분석이 가능하다 .

- 데이터 항목을 마우스로 끌어다가 중앙 창에 던져놓아 표나 그래프를 만드는 Drag and Drop 방식

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

Page 3: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

5.1 엑셀파일 태블로형 데이터로 변환하기

태블로 홈페이지에서 tableau add-in 설치

Page 4: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

5.2 Tableau Public 을 설치

- 엑셀 파일 열기

Page 5: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

- 파일 불러오기

- Columns 와 Rows

Page 6: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

- Show Me 사용하기

Tooltip 활용

Page 7: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

5.3 타블로의 데이터 분류 방식

청색커버는 ‘분리형’ , 녹색커버는 ‘연속형’

분리형 (Discrete): 각 데이터를 분절된 형태로 처리 . 막대 그래프 그릴 때 ‘연도’는 분리형으로 , ‘ 실업률’은 연속형으로 설정

연속형 (Continuos):각 데이터 사이에 자릿수 , 소수점 상관없이 또 다른 측정값이 존재할 수 있다고 가정 . 선그래프 그릴 때는 ‘실업률’과 ‘연도’ 모두 연속형으로 설정

Page 8: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

5.4 그래프 정렬하기

Page 9: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

- 그래프 필터링하기

Page 10: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

5.5 버블 차트 만들기 ( 연령대별 실업률 )

Page 11: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

- 지역별 실업률 버블 차트

Page 12: 5장 태블로 활용하기

아웃라이어 : 통계학적으로 평균에서 크게 벗어난 수치 , 정상적인 분포를 벗어난 데이터를 말한다 . 이상치 라고도 한다 .

아웃라이어 파악하는 방법 : 여러 가지가 있다 . 대표적으로는 평균을 중심으로 표준편차의 2 배나 3 배 정도의 범위를 벗어난 값을 아웃라이어로 잡는 방법이다 . 혹은 사분위수를 활용할 수도 있다 . 사분 위는 자료를 크기 순으로 배열하여 4 등분한 값을 말한다 .

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

5.6 Box Plot 으로 데이터 분포 파악하기

Page 13: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

지역별 연령대별 실업률 평균치 중에서 특히 튀는 데이터 골라내기

Ctrl 을 누른 상태에서 ‘시도’ ,’ 연도’ ,’ 연령대’ ,’ 실업률’을 클릭한 뒤 , Show me 박스에서 Whisker Plot 을 선택해 차트를 그린다 .

Page 14: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

아웃라이어가 한 눈에 들어온다 .상자를 넘어 양측 경계선을 넘은 점들이바로 아웃라이어이다 .

Page 15: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

5.7 피벗 테이블에 날개 달기 : 하이라이트 테이블

스프레드 시트의 각 셀을 데이터에 연동해 색상 농담으로각기 다르게 표시한 ‘하이라이트 테이블’도 데이터 분포를한 눈에 파악하는 데 매우 효과적이다 .

Page 16: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

‘ 시도’를 Columns 선반에 , ‘ 연령대’와 ‘연도’를 각각 Rows 선반에 넣고 , 색상마크와 라벨 ( 텍스트 ) 마크에 각각 ‘실업률’ 데이터를 집어넣은 뒤 Marks 유형을 Automatic 에서 Square 로 변경하면 된다 .

Page 17: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

Ctrl 키를 누른 상태에서 4 가지 데이터 항목을 다 선택하고 Show Me 박스의오른편 맨 위의 하이라이트 테이블 유형을 클릭하면 위와 같이 바로 시각화가 된다 .

Page 18: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

실업률을 끌어다가 라벨 마크에 넣으면 이렇게 라벨이 붙어진다 .

Page 19: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

하이라이트 테이블은 피벗 테이블을 좀 더 이해하기 쉽도록 추가로 색상을 입힌 것이다 . 색상농담의 변화가 급격한 부분과 짙은 색상이 뭉쳐 나타난 부분은 어디인지 살펴보자 .

Page 20: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

5.8 관심 데이터 표시하기 : 피벗 테이블 Spotlighting 기법

한발 더 나아가 일정 기준 이상의 데이터만 골라 차별화된 색상으로 표시할 수 있는 방법이다 .

실업률을 오른쪽 클릭하여 Create Calculated Field 메뉴에서이와 같이 조건식을 입력한다 .

Page 21: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

생성된 ‘실업률 스폿라이트’ 필드를 색상 마크에 집어넣고 ,Columns 엔 ‘시도’ , Rows 에는 ‘연령대’와 ‘연도’를 이동시킨상태에서 표를 만든다 .

Page 22: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

또 필터로 연령대를 ‘ 15-29 세’만 걸러낸다 .그 후 원하는 대로 연도 또한 필터링 할 수 있다 .그러면 위와 같이 특정 범위 데이터가 붉은색으로 스폿라이팅된다 .

Page 23: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

5.9 셀 색상 + 크기로 데이터 파악하기 : 히트맵 작성

하이라이트 테이블을 변형해 각 셀의 색상뿐 아니라 크기로도 데이터 분포를살펴볼 수 있도록 한 것이 히트맵이다 .

Page 24: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

TIP: 태블로의 필터와 마크 작업창의 활용법

마크의 각 상자에 데이터 항복을 끌어다 넣으면 그래프나 표는 새롭게 변신한다 .Color 는 특정 기호의 위치나 크기에 추가해 색상으로 표현하는 방법이다 .Size 역시 X, Y축의 좌푯값이 아닌 특정 기호의 크기로서 데이터를 표시한다 .Text 는 그래프나 표에 데이터값을 표시하는 기능이다 .Page 상자는 필터와 유사하나 , X, Y축 상의 데이터 표시에 변화를 주지 않는 필터 기능이라고 생각하면 된다 . 이 때문에 각 연도별로 그래프의 변화 추이를 동적으로 시각화하는 데 편리하게 이용할 수 있다 .

Page 25: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

5.10 데이터 쪼개고 묶어 새롭게 배열하기

태블로는 시각화뿐 아니라 다양한 데이터 편집과 분석이 가능한 것도 강점이다 .대표적으로 Field calculator 기능과 그룹과 세트 , 빈 생성 기능을 꼽을 수 있다 .데이트를 일정 범주로 다시 나누고 묶어 배열해 새로운 시각으로 조명해 보는 기술이다 . 편집 기능과 논리계산식으로 데이터를 가공하는 방법을 살펴보자 .

Page 26: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

아래와 같이 그래프 상에서 지역별실업률 평균 데이터에서 축상의 서울과 경기 , 인천을 클릭해 클립 모양의 기호를 누르면그룹이 만들어진다 .

Page 27: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

마우스 우클릭한 뒤Edit Alias 기능을 선택하여이름을 ‘수도권’으로 바꿔준다 .

Page 28: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

수도권이라는 새 그룹을 생성한 데 이어 호남 , 영남 등 또 다른 그룹도 같은 방식으로 만들 수 있다 . 그 밖에는 논리식으로 그룹을 만드는 방법이 있는데 이 때는 Calculated Field 를 이용한다 .

위와 같이 IF 조건식을 입력하는 방식이다 .서울과 경기도와 인천은 수도권으로 설정하고 , 나머지는 ‘시도’ 필드 그대로 두라는의미이다 . IF 문에서 AND 를 사용하지 않고 OR 을 연산자로 쓴 점을 기억하자 .

Page 29: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

5.11 특정 집단과 다른 집단 비교하기

• 세트 (set) 생성하는 방법 : 왼편 di-mension 창의 ‘시도’ 항목에서 create set 선택

• ‘ 수도권’ set 가 만들어진다

Page 30: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• Columns 선반과 color 마크상자에 ‘수도권’ set 를 넣는다 . • Edit Alias 메뉴로 IN 을 ‘수도권’ OUT 은 ‘다른지역’ 으로 바꾼다 .

Page 31: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• 연도를 Columns 선반으로 이동 시키면 수도권과 다른 지역의 연도별 실업률 그래프가 나온다 .

Page 32: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

12. 태블로에서 지도 시각화 하기

• 태블로에서 한글 주소는 거의 인식하지 못한다 .

• Create Calculated Field 메뉴에서 변환 하면 된다 .

• 인천은 한글로 인식하지 못하므로 In-cheon 으로 바꿔야 한다 .

Page 33: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• Geographic Role 메뉴로 들어가 ‘시도’ 항목을 위치 데이터로 인식시킨다 .

Page 34: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• ‘ 실업률’ 데이터를 각각 Color 와 Size 마크에 넣는다 .

• Show me 에서 지도 항목을 선택하면 각 광역시도의 위치가 시각화 된다 .

• 점 지도 (Point Map) 아이콘 선택

Page 35: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• 광역시도별 실업률 지도 시각화

Page 36: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• Show me 의 두 번째 지도 아이콘을 선택하면 각 광역시도의 실업률에 연동해 영역을 색칠한 지도가 그려질 것이다 .

Page 37: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• Show Quick Filter 로 필터 조정기를 생성한 뒤 , 필터 조정기에서 메뉴를 꺼내 single value slider 를 선택한다 .

• 슬라이더를 움직이면 각 연도별로 색상주제도의 색상이 변하며 시기별 , 지역별 , 실업률의 추이를 볼 수 있다 .

Page 38: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

13. 2 개 이상의 데이터 ‘가로’ 결합하기

• 실업률 데이터를 불러온 상태에서 , 상단 메뉴의 Data → ‘ 지역별 연령별 실업률’ → Edit Data Source 로 가서 결합시킨다 .

Page 39: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• 실업률 , 자살률 데이터 1 차 자동 결합

Page 40: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• 앞의 창에서 보면 ‘연도’는 결합됐지만 , ‘ 시도’와 ‘연령대’는 잘못 붙어있다 .

• 두 데이터 사이의 교집합 표시 기호 클릭한다 .

• 그림의 중간의 두 원을 클릭하면 된다 .

Page 41: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• Inner Join 으로 표시된 상태에서 ‘연도’만 임시로 결합 되어있으므로 ‘ Add new join clause’ 를 눌러 ‘시도’와 ‘연령대’도 결합기준에 추가하면 된다 .

Page 42: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• 여기서는 자살률과 실업률을 블렌딩 메뉴를 활용해 합친다 .

• Data → Connect to Data 로 가서 불러온다 .

• 왼편 위쪽에 자살률 데이터가 새로 표시될 것이다 .

Page 43: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• ‘ 시도’ , ‘ 연도’ , ‘ 연령대’ 3 가지가 모두 Dimensions 창에 있어야 한다 .

• 자동 설정이 되어 있지 않다면 Cus-tom 메뉴로 들어가 수동으로 공통 필드를 지정하면 된다 .

Page 44: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• ‘ 실업률’과 ‘자살률’을 각기 Row 에 옮기고 , ‘ 연도’는 Columns 에 넣는다 .

• 실업률 , 자살률 데이터 차트 나란히 그리기

Page 45: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• 두 데이터 간의 상관 관계를 파악하기 위해 산포도 (Scatter Plot) 를 그려보자 .

• Show Me 상자에서 하단 두 번째 왼편 아이콘 클릭 . (파란색 테두리가 있는 아이콘 )

Page 46: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• 자살률 , 실업률 산포도 ( 상관 관계 불명확 )

Page 47: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• 이번에는 자살률은 색상농담으로 , 실업률은 크기로 표시한 Tree Map 을 그려보자 .

• 그 다음으로는 Heatmap 을 그려보자 .

Page 48: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• 실업률 , 자살률 트리맵 시각화

Page 49: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

• 자살률 , 실업률 트리맵

• 트리맵이나 히트맵은 일반인들에게는 다소 생소하지만 , 데이터의 패턴을 직관적으로 파악하고 취재의 단서를 얻는데 유용하다 .

Page 50: 5장 태블로 활용하기

5 장 데이터 시각화의 스위스칼 , 태블로 (tableau) 활용하기

감사합니다 .