12
K-ICT 빅데이터 센터 기반 빅데이터 교육콘텐츠 개발 빅데이터 교육 콘텐츠 소개 김이환 2015. 11. 21(토) 2 I. 사업 추진 개요 II. 빅데이터 분석실습 콘텐츠 소개 2015 한국경영정보학회 추계통합학술대회 -775-

빅데이터교육콘텐츠소개 · 분석교육콘텐츠고도화방향성(2/2) 기존데이터셋에대한데이터특징및적용가능통계분석검토를하여5개분야(농산물,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 빅데이터교육콘텐츠소개 · 분석교육콘텐츠고도화방향성(2/2) 기존데이터셋에대한데이터특징및적용가능통계분석검토를하여5개분야(농산물,

K-ICT 빅데이터 센터 기반 빅데이터 교육콘텐츠 개발

빅데이터 교육 콘텐츠 소개

김이환

2015. 11. 21(토)

2

I. 사업 추진 개요

II. 빅데이터 분석실습 콘텐츠 소개

2015 한국경영정보학회 추계통합학술대회

-775-

Page 2: 빅데이터교육콘텐츠소개 · 분석교육콘텐츠고도화방향성(2/2) 기존데이터셋에대한데이터특징및적용가능통계분석검토를하여5개분야(농산물,

ChapterChapter 사업 추진 개요사업 추진 개요I.I.

4

사업 추진 배경 및 목적

‘14년부터 분석 및 기술 교육 콘텐츠 개발, 기구축된 분석 실습 교육 콘텐츠 고도화, 빅데이터 분석전문가의 저변확대를 위한 빅데이터 페스티벌을 사업범위로 하고 있습니다.

산업계에서 요구되는 데이터 과학자급 전문 인력 부족

대학(원)에서 활용할 수 있는 빅데이터 교육실습을 위한실용적 데이터와 분석사례 부족

대학(원) 내 실무 중심의데이터 과학자 양성전문과정 운영 지원

“사업기회가 넘치는데 일할 사람이 없네!!!”

분석을 위한 데이터 셋, 분석 모델 및 기법 등분석 툴킷 개발/제공

데이터 분석에 대한 사회적관심과 활성화를 높일 수 있는빅데이터 페스티벌활성화

빅데이터산업발전 전략

미래부 중점추진 사업 정부 3.0 주요 핵심 사업 데이터 전문인력 양성 및

일자리 연계 필요인력

개방

연계

R&D

거버넌스

산업예측

빅데이터 산업연 평균 28.8%씩 성장 예상

출처 : KISTI

우리현실

정책

2015 한국경영정보학회 추계통합학술대회

-776-

Page 3: 빅데이터교육콘텐츠소개 · 분석교육콘텐츠고도화방향성(2/2) 기존데이터셋에대한데이터특징및적용가능통계분석검토를하여5개분야(농산물,

5

사업 내용

빅데이터 전문인력 양성을 위해 빅데이터 분석 교육·기술 콘텐츠 개발 및 고도화를 통한대학(원) 실습교육을 지원하고, 저변확대를 위한 빅데이터 페스티벌을 수행 중에 있습니다.

빅데이터 저변확대대학(원) 대상빅데이터 실습 교육 지원

빅데이터 분석 프로세스 기반교육·기술콘텐츠 개발 및 고도화

• 한국통계학회 추계논문 발표회- 한국정보화진흥원 기획세션

• 강원창조경제혁신센터- 빅데이터 분석 전문가 멘토

(One-Day Job fair 개최)

K-ICT의 빅데이터 분석 실습인프라 및 콘텐츠를 활용하여빅데이터 전문강사를 통한

대학(원) 대상약 650명의

분석 실습 교육 실시

• UniBiG 협의체 구성- 교육지원 협력을 위한 산학연공동 협약

농산물

소비

소셜

교통

제조

교육·기술 교육콘텐츠 개발

분석 실습 교육콘텐츠 고도화

기본/응용 단계 구분데이터 셋 기반 활용시나리오활용 가능한 실무 기술가이드

데이터 전처리 강화다양한 방법론 적용분석 스토리텔링 강화

실습 매뉴얼 및웹 매뉴얼 제작

전문 강사

6

빅데이터 분석 전문가 교육 수요조사 결과

빅데이터 분석교육 수요조사 결과를 보면, 빅데이터 학과 및 과정의 수요는 꾸준히 증가하고있으며, 실습강사, 실습인프라, 데이터 셋 및 실습 커리큘럼에 대한 니즈가 있습니다.

실습 지원 필요 부분

실습강사와 실습 인프라에 대한 지원이 우선적으로필요한 것으로 나타남

본 사업을 통해 실습강사, 인프라, 데이터 세트 제공함

실습 커리큘럼은 빅데이터 역량모델을 통해 제공 가능

93점 91점79점

64점

실습 강사 실습 인프라 데이터 세트 실습 컬리큘럼

※가중치: 1순위(5점), 2순위(4점), 3순위(3점), 4순위(2점), 5순위(1점)

조사결과 2012년 1학기부터 개설되어 운영되고 있으며, 과정/과목 수강생은 지속적으로 증가하고 있음

전년도의 동일학기와 비교하면, 수강생 수가 약 3.4배로급격히 증가함

빅데이터 학과·과정(과목)의 수강생수

10841

204 168

490

271

0

200

400

600

800

1000 (명)

1학기 2학기 1학기 2학기 1학기 2학기 2학기

2012년 2013년 2014년 2015년

917

2015 한국경영정보학회 추계통합학술대회

-777-

Page 4: 빅데이터교육콘텐츠소개 · 분석교육콘텐츠고도화방향성(2/2) 기존데이터셋에대한데이터특징및적용가능통계분석검토를하여5개분야(농산물,

7

추진 일정

본 사업은 총 5개월의 일정으로 금년 12월 말에 종료 예정입니다.

착수보고 중간보고 완료보고

교육 콘텐츠〮기술교육 콘텐츠 개발

분석실습 교육 콘텐츠 고도화

빅데이터 전문가 과정 운영 지원 및 빅데이터 저변확대

빅데이터 교육지원 계획 수립 및 수요조사

데이터 분석 프로세스별 교육콘텐츠 개발

분석 툴킷 및 교육 지원 피드백 수렴

교육 실습 지원

실습운영 일정확정

UniBiG 협의체 구성

빅페스티발 기획한국통계학회추계학술대회(11/6~7)

강원창조혁신센터빅페스티발(11/17)

데이터 분석 프로세스별 기술 교육콘텐츠 개발

기존 데이터를 기반으로 한 고급분석기법 개발

기존 매뉴얼 개선

UniBiG협의체 구성

현재시점

8

빅데이터 분석전문가 실습 프로세스

준비, 실시, 사후관리 단계별로 실습 교육이 진행될 예정이며, 정확한 지원 일정은 각 대학의교수님과 협의 후 확정합니다.

사전 준비 교육 실시 사후 관리

실습교육지원

대학(원)

사업단

K-ICT 빅데이터

센터

실습교육 지원희망일정 제공

실습교육 지원일정 조율&확정

K-ICT 빅데이터센터

홈페이지 가입 및ID 목록 제공

K-ICT 빅데이터 센터분석 실습 매뉴얼사용권한 부여(VM 계정생성)

실습교육실시

실습 완료 후VM계정 회수

전문 강사지원

만족도 조사 결과분석

실습교육 진행 후교육 만족도 조사

(실습 or 사전 협의 일정에 따라 권한 부여)

2015 한국경영정보학회 추계통합학술대회

-778-

Page 5: 빅데이터교육콘텐츠소개 · 분석교육콘텐츠고도화방향성(2/2) 기존데이터셋에대한데이터특징및적용가능통계분석검토를하여5개분야(농산물,

ChapterChapter빅데이터 분석실습

콘텐츠 소개빅데이터 분석실습

콘텐츠 소개II.II.

10

빅데이터 분석 교육 콘텐츠 개발

2014년 10개 산업군의 데이터를 활용하여 수준별 총 30종의 실습 교육 콘텐츠를 제작 〮활용하였습니다.

1차 2차 3차

10개 산업군 데이터

실습 교육 데이터실습 교육 데이터

활용 데이터 셋 범위중급 고급

초급

매뉴얼매뉴얼

활용 데이터 셋 범위

2015 한국경영정보학회 추계통합학술대회

-779-

Page 6: 빅데이터교육콘텐츠소개 · 분석교육콘텐츠고도화방향성(2/2) 기존데이터셋에대한데이터특징및적용가능통계분석검토를하여5개분야(농산물,

11

빅데이터 교육 콘텐츠 개발 및 고도화 방향성과 원칙

가설도출 및 시나리오 기반 교육, 연관성 중심의 분석 이론 교육, 복잡한 데이터도가공/처리/분석할 수 있는 실습병행 교육을 통해 진정한 빅데이터 분석 전문가 양성을목표로 하고 있습니다.

• 비즈니스 문제를 해결하기위한 분석방법은무엇인가?

• 문제해결을 위한 가설은무엇인가?

비즈니스 목적에 부합하는분석 결과 도출 능력

스토리를 만드는분석 접근 능력

데이터 특성에 따른최적의 방법론 선택능력

• 분석방법의 근본적장단점은 무엇인가?

• 해당 방법의 제공 결과의특징은 무엇인가?

• 그래서 우리문제에적절한가?

Data기반

분석이론이해

능력 강화

시나리오기반

빅데이터 분석전문가 양성을 위한

교육 방향성

• 문제 해결을 위한 필요 데이터는 무엇인가?• 데이터 시각화 혹은 고급분석을 위한 데이터의 형태는무엇인가?• 적절한 R 분석 방법은 무엇인가?

12

분석 교육 콘텐츠 고도화 방향성(1/2)

기존 데이터 셋에 대한 데이터 특징 및 적용가능 통계분석 검토를 하여 5개 분야(농산물, 소비, 소셜, 교통, 제조)의 교육 콘텐츠를 고도화 합니다.

No. 데이터셋 개요 분석을 고려한 데이터 특징적용 가능통계분석

제외여부 제외사유

1 농산물

- 분석 목적을 달성할 수 있는 한도 내에서품목, 지역 및 마트의 농산물 가격정보임

- 부류는 식량작물, 채소작물, 특용작물, 과일류, 축산물 항목을 의미

- 품목은 쌀, 배추, 상추 호박 등 작물을 의미

- 시기별, 지역별, 마트별 농산물 가격비교가능

- 동일 품목에 따른 가격의 시계열적변화분석

- 가격변화 특징의 품목별 변화 비교 등

- 시계열 분석- Smoothing - 유의성 검증

고도화 대상

2 소비

- 카드사에서 제공한 개인별 소비지출 정보인소비(가계부 정보) 데이터임

- 개인이 분야별 지출한 비용 중 2013년데이터 정보로, 거래정보 /사용자구분/결제코드 /사용처 /금액 /거래 일시로데이터가 구성됨

- 개인들간의 소비특성 혹은 소비패턴의변화 분석 가능

- 개인 소비패턴에 따른 군집분석 등을통해 고객 세그멘테이션 적용

- 군집분석 (K-means, SOM)

- 계절별소비패턴변화 분석

고도화 대상

3 소셜

- 소셜 미디어 데이터는 솔트룩스에서 제공해준 트위터 데이터

- 트위터 text 데이터로 현재는 JSON으로제공되고 있음

- JSON에서 Text만 추출 후, R에서 인식할수 있는 코퍼스(말뭉치) 작성이 필요함

- 감성사전 작성- 제외단어 적용- 감성 scoring- Topic에 따른

시각화

고도화 대상

4 쇼핑

- 국내 남성 의류 온라인 쇼핑몰 2010~2012년남성 쇼핑몰 판매 거래 데이터

- 상품명/수량/판매가/합계(단가 및합계)/배송료/지불수단/배송일자

- 다품목으로 품목별 분류체계가 없어집계성 작업 외에는 데이터 분석을적용하기에는 데이터에 대한 설명 부족 제외

- 단순 트랜잭션 데이터- 다품목이라 발생

빈도가 극히 낮음

5 교통

- 서울도시철도공사에서 제공받은2009~2013년 5~8호선 역별 승하차 정보데이터

- 역명/일자/시간대별 승차 및 하차인원

- 호선별, 역별, 시간별 데이터로 다양한통계량으로 여러 가설을 확인할 수 있음

- 그러나 단순 데이터이므로 좀더 다양한데이터 분석을 위해서는 지역 데이터, 날씨 데이터 등의 외부 데이터와의결합으로 흥미 있는 데이터 분석스토리를 만들어야 할 것임

- 통계적 가설검정- 시계열 분석- 지도와 결합한

위치분석- 외부데이터와의

결합- 역별 승하차

패턴분석

고도화 대상

2015 한국경영정보학회 추계통합학술대회

-780-

Page 7: 빅데이터교육콘텐츠소개 · 분석교육콘텐츠고도화방향성(2/2) 기존데이터셋에대한데이터특징및적용가능통계분석검토를하여5개분야(농산물,

13

분석 교육 콘텐츠 고도화 방향성(2/2)

기존 데이터 셋에 대한 데이터 특징 및 적용가능 통계분석 검토를 하여 5개 분야(농산물, 소비, 소셜, 교통, 제조)의 교육 콘텐츠를 고도화 합니다.

No. 데이터셋 개요 분석을 고려한 데이터 특징적용 가능통계분석

제외여부 제외사유

6 유통

- 대한상공회의소에서 제공 받은 2013년 서울주요 소매점(대형 마트, 편의점, 슈퍼 등) 유통 공급 정보 데이터

- 매장/지역/매장형태(마트)/품목(모드)/공급금

- 품목이 코드만 제공되어 어떤 품목인지구체적으로 알 수 없음

제외

- 데이터의 대한 절대적설명 부족

- 소매점 위치 등에 대한추가 정보 없음

- 데이터 분석을 위한스토리 작성이 용이치않음

7 관광

- 제주시 통합자료센터로부터 2010년~2012년제주도 내외국인 입도 관광객 수 및 주요관광지 관광 수입 통계 데이터

- 월별 내국인관광객수/ 외국인관광객수/ 주요관광지 관광수입

- 월별 내/외국인의 방문 데이터로 햇수는3년이지만 월별이라는 점에서 소규모데이터이고

- 방문 수 트렌드 정도 알 수 있는데이터임 제외

- 단순 데이터로 데이터시각화를 통한 추세분석

- 혹은 거시경제데이터와의 결합을통한 방문객 수의 증감원인 분석 정도 가능할것임

8 제조

- 자동차 부품 연구원에서 제공해 준 자동차부품의 생산 데이터

- 제품번호/제품번호/각종 계측 정보... C두께

- 10개 데이터 셋중 다양한 실습이 가능한최고의 데이터임

- 다변량 회귀분석이 가능하나, 기준치설정에 의한 제품 합격/불합격 변수를만들어 분류분석도 가능함

- 회귀분석- (문제 변형에 의한)

분류분석- 상관분석

고도화 대상

9 패션

- 국가 통계 포털로부터 추출한 2010년 ~ 2012년 시장 경기 동향 지수 통계 데이터

- 매출전망지수 및 실적지수

- 어떻게 산출되었는지 알 수 없는지표만으로 데이터로 구성됨

- 지표 산출방법을 알더라도 산출에필요한 원 데이터 확보 필요함

제외

- 함축된 지표 데이터로의미에 비해 단순한형태의 데이터임

- 예측과 실제의 차이정도만 분석 가능함

10 글로벌- 크롤링에 의해 수집된 데이터 - 집계성 데이터

- 원재료(raw data)라고 할 수 없음 제외- 집계성 데이터- 원재료(raw data)라고

할 수 없음

14

빅데이터 분석 전문가 교육 콘텐츠 개발 경과

총 5개 분야에 대해 수준별로 기술·교육 콘텐츠의 개발 및 고도화 작업이 진행 중입니다.

농산물

소비

소셜

교통

제조

• 탐색적 자료 분석 및 변환• 기초 자료 분석을 통한 Topic 발견(상관분석, 공적분 분석)

• 데이터 시각화• 가격 연관성 있는 농산물의 시계열(+/-)

• 데이터 탐색• 군집 분석 적용• 분석 시각화(기초 통계량 요약 및 시각화)• 날씨 데이터와 결합- 계절별 소비 패턴 변화 파악

• 문제의 발견(corpus 구축)• 검색을 통한 Topic 발견• 특정 단어 데이터 색출(string R package)• Word Cloud 구축• 실제 기사 확인

• 자료 탐색 및 정제• 수치요약 및 경향 파악(정량화)• Aggregate(), xtabs() 등 관련함수 사용• 수치결과의 시각화- barplot, pie, matplot, high-level plot

• 자료 탐색(자료성격 및 변수 속성 파악)• 각 변수별 특성 파악(분포, 요약통계량)• 이상치 및 결측치 처리• 변수간 연관성 파악- 2차적 산점도, 상관분석

초 급 중 급

• 농축산물 가격 연관성 탐색(clustering)• 지역별 돈육 가격 연관성 탐색(clustering)• 데이터 시각화- 지역별 돈육 가격 시계열- 날씨 및 뉴스 자료의 가격 변화 요인

• 대응 일치 분석- 분석 결과를 통한 카드사 포지셔닝 분석

• 범주형 자료분석 기법- 카이제곱 검정, 피셔의 exact검정 등- 모자이크 플롯 시각화

• 사전 만들기 및 구성• 개발 사전 적용 후 Term Document Matrix 구성

• 각 뉴스별 어떤 Topic 언급했는지 파악- clustering, 시각화

• 지도 맵핑• 특정 질문에 대응하는 지하철역 및수치를 지도상에 시각화- Google Map, 공공데이터 활용 등

고 급

고급 수준의분석 문제 제공

• 불량률 분석- 로지스틱 회귀, 의사결정나무 적합- 분석결과 시각화

• 분류 분석- 로지스틱 회귀, 랜덤포레스트- ROC 커브 적용 모형 평가

2015 한국경영정보학회 추계통합학술대회

-781-

Page 8: 빅데이터교육콘텐츠소개 · 분석교육콘텐츠고도화방향성(2/2) 기존데이터셋에대한데이터특징및적용가능통계분석검토를하여5개분야(농산물,

15

교육 콘텐츠 작성 도구로 강의교재 셋 구성

R의 사용자 환경인 Rstudio를 활용한 reproducible research 개념을 근간으로 데이터 분석프로세스별 교육 컨텐츠를 작성 배포할 예정입니다.

compile

R코드 및 마크다운 텍스트

MS Word 기반의 문서생성

HTML5 기반의 문서생성

MS PowerPoint로 일부 가공 생성

16

교육 콘텐츠 고도화 > 교통 sample

교육 콘텐츠는 스토리 기반의 분석 시나리오를 기반으로 데이터의 가공, 시각화 기반의 기초분석 및 각종 방법의 적용 등 다양하게 구성되어 있습니다.

“ 다양한 데이터에 대하여 시나리오를 구성하여Story 기반으로 데이터를 분석하도록 콘텐츠를 작성함 ”

콘텐츠의 인덱스 도입

R코드와 해당 결과물 공개 및 연결

상세한 설명

2015 한국경영정보학회 추계통합학술대회

-782-

Page 9: 빅데이터교육콘텐츠소개 · 분석교육콘텐츠고도화방향성(2/2) 기존데이터셋에대한데이터특징및적용가능통계분석검토를하여5개분야(농산물,

17

교육 콘텐츠 고도화 > 고도화 결과

본 고도화 사업을 통한 결과물을 현재의 결과와 비교해 도면 다음과 같은 특징이 있습니다.

현재 콘텐츠 매뉴얼 고도화 후 콘텐츠 매뉴얼

인프라 사용위주

화면 캡쳐 중심

일방적인 R 코드 제공

분석결과에 대한 해석방법 미제공

단순 분석방법 제공

스토리텔링이 가능한 시나리오 구성

R코드와 결과의 1:1 매칭

상세설명기반의 R코드 제공

분석결과에 대한 전문가 해석방법 제공

다양한 분석방법 제공

18

교육 콘텐츠 고도화 > 농산물

여러 품목과 지역에서 생산되는 농축산물의 시계열적 생산량 데이터에 대하여 유사패턴혹은 인과관계를 찾기 위한 분석 시나리오로 구성하였습니다.

농산물

상관분석을 통한지역별 돼지고기가격 연관성 분석

공적분 검정을 통한농축산물 소매가격 연관성 분석

클러스터링 기법을 이용한농축산물 데이터 분석

날씨자료와 농산물 자료의인과관계 분석

2015 한국경영정보학회 추계통합학술대회

-783-

Page 10: 빅데이터교육콘텐츠소개 · 분석교육콘텐츠고도화방향성(2/2) 기존데이터셋에대한데이터특징및적용가능통계분석검토를하여5개분야(농산물,

19

교육 콘텐츠 고도화 > 소비

소비 데이터에서는 기본적인 R 명령어 학습과 split-apply-combine 개념의 데이터 먼징 및집계성 분석, 시계열 그래프 그리기 및 대응일치 분석을 적용하였습니다.

R 기초 학습 dplyr 패키지를 활용한데이터 먼징

ts 오브젝트 개념 하에 시계열 분석 대응일치 분석

소비

20

교육 콘텐츠 고도화 > 소셜

일정 기간의 뉴스데이터로부터 텍스트 마이닝을 통해 특정 주제를 찾아가는 시나리오로구상하였으며, 사전의 중요성 및 키워드 중심의 연관관계 분석을 소개하였습니다.

사전구성 및 적용

단어 세기주요 키워드 연관관계 분석

및 네트워크 분석

Wordcloud 그리기 및 의미탐색

소셜

2015 한국경영정보학회 추계통합학술대회

-784-

Page 11: 빅데이터교육콘텐츠소개 · 분석교육콘텐츠고도화방향성(2/2) 기존데이터셋에대한데이터특징및적용가능통계분석검토를하여5개분야(농산물,

21

교육 콘텐츠 고도화 > 교통

서울시 지하철역의 승하차 데이터를 중심으로 시계열 분석, 이용현황에 대한 데이터 시각화, 구글 맵과의 연동 및 뉴스분석을 통한 특이한 이용패턴의 원인 분석을 실시하였습니다.

지하철역 수치요약및 시각화

텍스트데이터 전처리

구글맵과의 연동뉴스분석을 통한 지하철 이용패턴 분석

교통

22

교육 콘텐츠 고도화 > 제조

제조 공정과정 중 취합된 공정조건 및 측정 데이터와 최종 생산품의 불량 여부에 대하여회귀분석 및 불량 예측과 같은 분류모형, 즉 supervised learning을 적용하였습니다.

의사결정나무에 의한불량원인분석

회귀분석데이터 시각화 기반기초 데이터 분석

모형성능 측정

제조

2015 한국경영정보학회 추계통합학술대회

-785-

Page 12: 빅데이터교육콘텐츠소개 · 분석교육콘텐츠고도화방향성(2/2) 기존데이터셋에대한데이터특징및적용가능통계분석검토를하여5개분야(농산물,

2015 한국경영정보학회 추계통합학술대회

-786-