어떻게 하면 데이터 사이언티스트가 될 수 있나요?

Preview:

Citation preview

어떻게����������� ������������������  하면����������� ������������������  ����������� ������������������  데이터����������� ������������������  사이언티스트가����������� ������������������  ����������� ������������������  

될����������� ������������������  수����������� ������������������  있나요?2015/02/07����������� ������������������  

하용호(yongho.ha@gmail.com)

하용호용 호

넌 누구냐?

데이터 사이언티스트

=이게 무슨 설명이야;;

Data Scientist

= 데이터에서

데이터 사이언티스트Data Scientist

+ 패턴을 찾아내어 + 비지니스 기회로

프로그래머 통계학자 컨설턴트

별에서 온 그대SBS (2013)

실제의 나

삽질하는 두 남자빈센트 반 고흐(Two Peasants Digging After Millet )

(1889)

삽질하는 두 남자장프랑수와 밀레(Two Men Turning over the Soil)

(1866)

여러분. 직장 생활은 HELL이에요

그래도 스페셜리스트가 된다면 조금 더 다르긴 합니다.

두가지����������� ������������������  이야기

딸의����������� ������������������  아버지는����������� ������������������  왜����������� ������������������  쇼핑몰로����������� ������������������  쳐들어����������� ������������������  갔나?

: 월마트 같은 미국의 초대형 쇼핑몰

임신 3개월 쯤 로션 취향이 바뀐다!!

은 알아 내었었다!

향있는 로션 향없는 로션

로션 취향이 갑자기 바뀐 따님의 임신을 눈치챔!

오바마는����������� ������������������  어떻게����������� ������������������  선거에서����������� ������������������  이겼을까요?

/7120

스타크래프트 잘하게 생긴 애들이 선거전략짬

/7121

/7122

문구를 바꿔보기도 하고

/7123

그림을 바꿔보기도 하고

/7124

A/B Test

그리고����������� ������������������  또

오 이거 좀 킹왕짱인거 같음

그런데 갑자기 왜 이런 변화가 나타나게 된거지?

패러다임 쉬프트

경쟁은 어디에서 일어나는가?

시대가 흐르며 경쟁력의 핵심이 바뀜

기술 가격 기회➔ ➔

Data

유저의 관심이 가장 소중한 자원

눈길을 받았을 때 원하는 것을 제시해야 함

기회

눈길을 받는 법이 필요

데이터로����������� ������������������  유저를����������� ������������������  알아내야함!

해당 부분이 외국에는 일찍부터 발달했어요

외국

내부 데이터 고객 데이터

잘 정리 됨 입수 어려움

고객 특성

지 맘대로임

외국 :

우리 내부 시스템에 쌓인 고객 관련 데이터를 잘 분석하여 고객 개개인의 특성을 알아내어

새로운 기회를 잡아내자!

여러분 웹사이트 가입할 때 생각해봅시다.

그런데 한국은?

외국 사이트 한국 사이트

이메일 완료 버튼

이름

완료 버튼

주민등록번호

사는 곳 결혼했니

아부지 뭐하시노

동의 동의 동의

한국

내부 데이터 고객 데이터

엉망진창 가입시 다 입력받음

고객 특성

거의 비슷

한국의 기업은 ‘분석’ 이라는 것이 필요가 없어서

익숙하지 않았다.

- 이제서야 기업 내부의 데이터가 제대로 집약되기 시작

- 이제는 주민등록번호 등을 요구할 수 없음

- 대강 분석과 감으론 뭔가 안되겠다고 느끼기 시작

상황 바뀜

- 고객을 분석하더라도 접근할 수 있는 채널이 없었음

- 스마트폰이라는 개인화된 채널이 생김

- 이제서야 개인들의 개성화가 시작 (아직 모자람)

환경 바뀜

현재 한국의 기업 상태

1. 빅데이터를 한다면서 장비를 많이 산다. 2. 회사에 있던 데이터를 끌어 모아본다. 3. 뭔가 마법의 무언가 뾰로롱??? 4. 회사가 잘나가길 바람

3. 뭔가 마법의 무언가 뾰로롱???

- 데이터 사이언티스트가 일할 영역 - 회사에서 산 우당탕 장비를 운용한다. - 기존의 분석팀이랑은 다른 분석을 해야 한다. - 회사가 잘되기 위한 액션을 내놓아야 한다.

데이터 장비 운용

기존 분석을 넘어선 분석

회사에 이득이 되는 액션

데이터 사이언티스트에게 무엇이 필요한지 각이 뜬다!!

거대한 시스템을 마음대로 다루며 데이터를 읽어오고 분석하기 쉬운 형태로 결합, 변환하고 새로 쓸 수 있는 능력 =

+ 프로그래밍(Python, R) + Hadoop (Hive, Pig, MR) + (Spark) + SQL + 시스템 엔지니어링

데이터 장비 운용

Explain VS Predict + 통계 + 머신 러닝 + 프로그래밍(Python, R) + SQL + Hadoop (Hive, Pig, MR)

기존 분석을 넘어선 분석

규모 해상도 도구

기존 분석 데스크 탑샘플,

군집 단위 해상도상용 툴

Data Science컴퓨터 한대를 넘는 크기

전체 사이즈, 개개인 수준 해상도

분석 프로그래밍

분석 결과를 Action으로 변환하고, 비용과 이득을 계산해 다음에 해야할 일을 찾아낼 수 있어야 함 그 결과를 유관 부서들 대상으로 설득해 낼 수 있어야 함

+ 비지니스에 대한 이해 + 마케팅 기초 + UX + 올바른 차트 그리는 법 + 세상의 모든 지식(?) + 말 잘하자.

회사에 이득이 되는 액션

슈퍼맨 맞구만!!?

DJ Patil - Data Scientist 라는 말을 만든 사람

= 줄이자면 “님들 이거 혼자 다 못함”

여러분 이거 팀스포츠 임

현업은 어찌 일하고 있나?

Data Scientist

Data Analyst

Data Engineer

Data Business people

Data Researcher

Data Creative

Data Developer

큰 범주 일반 범주 SKT 케이스

현업, 지망자들 모두 다 과정 속에 있습니다.

‘수련의 세계’

책속에 길이 있다.

그래서 어떻게 해야 하나요?

헤드 퍼스트 데이터 분석 통계의 힘

COURSERA ‘Statistics one’ (유튜브도 있음)

R을 이용한 누구나 하는 통계 분석

R을 활용한 탐색적 자료 분석

집단 지성 프로그래밍

해커 스타일로 배우는 기계학습

웹 데이터 분석학린 분석

데이터 과학 입문

번역자를 위한 우리말 공부

떨지 마라 떨리게 하라

월스트리트 저널 인포그래픽 가이드

R , Python 하나는 확실히

다룰 수 있어야 한다!!!

제일 중요!!

One More Thing!

마인드셋

사람들은 데이터에 대해 생각할 때

기존 기존 기존 추천 타게팅

이게 데이터로 뭐 하는거 아닌감?

이런거 하면 막 우리도 아마존, 넷플릭스처럼 대박 나는거 아냐?

요술봉을 기대하십니다.

그런거 없어요

데이터는 점진적인 개선의 도구

110 X 1.1 = 121121 X 1.1 = 133

데이터란 기본적으로 곱하기

100 X 1.1 = 110기존것에 곱해 나간다.

133 X 1.1 = 146반복해가며 더욱 커져 나간다

‘마법사’보다 ‘조각가’

사람들은 데이터에 대해 생각할 때

기존 기존 기존 추천 타게팅

이게 데이터로 뭐 하는거 아닌감?

실제로 도움이 되게 쓰는 회사

기존 기존 기존

기존의 일을 더 최적화 하는데에 있다.

이런데 추천을 넣는게 아니라

이제까지 그냥 하던 배치순서는 과연 최적이었을까를 살피는 것

이런 방식으로 데이터를 잘쓰는 회사의 예

데이터회사로서의UPS

엔진 센서, 차량 이동 경로, 자동차 각부의 센서,

송장 처리용 모바일 기기 기록

물건 싣고

이동한다

배달하고

사인받고

물건 싣고

이동한다

배달하고

사인받고

가장����������� ������������������  적게����������� ������������������  움직이는����������� ������������������  

배달����������� ������������������  순서����������� ������������������  계산

그날����������� ������������������  물량에����������� ������������������  ����������� ������������������  

따른����������� ������������������  다른����������� ������������������  배분

사인펜은����������� ������������������  왼쪽����������� ������������������  가슴에����������� ������������������  ����������� ������������������  

넣는게����������� ������������������  좋다는����������� ������������������  발견

시동과����������� ������������������  화물칸����������� ������������������  동작����������� ������������������  ����������� ������������������  

한번에����������� ������������������  하게한����������� ������������������  장치

(1분 = 147억원)한사람당 3시간 더 일한 것과 맞먹는 효율성하루 90개 배달 -> 130개 배달

UPS배달기사들의 임금인상, 사고감소

여전히 택배회사이지만기존의 일을 데이터로 더 잘하게 되었다.

데이터로 확인하고 이야기 하는 문화(DATA DRIVEN)

분쟁이 났을때 데이터로 결정하던 습관

“민쯩까봐”

중요한 것은

우리도 있다.

우리는 모든 단계에 파고들 자세를 가져야 한다.

기존 기존 기존

데이터를 내놓아라. 없으면 측정하자. 측정하면 분석하자. 분석했으면 액션하자.

Data

Data

Data

Data

모든 행동은 Data에 기반해서 실행한다.

궁금한거 질문합시다.

하용호 카카오톡 : yonghosee

페이스북 : facebook.com/yonghosee 이메일 : yongho.ha@gmail.com

Recommended