41
빅빅빅빅 빅빅 2013.10.10 전전전전전 / 전전전전전전전 전전전

Big Data Analytics and Data Mining

  • Upload
    -

  • View
    1.478

  • Download
    9

Embed Size (px)

DESCRIPTION

http://onoffmix.com/event/19596 2013.10.10(목) '빅 데이터 활용을 위한 오픈소스 프레임워크 기술 세미나'에 중 '빅데이터 분석 알고리즘 소개 및 사례' 대한 발표자료입니다.

Citation preview

Page 1: Big Data Analytics and Data Mining

빅데이터 분석

2013.10.10

전략사업팀 / 빅데이터사업부송원문

Page 2: Big Data Analytics and Data Mining

CONTENTS

빅데이터 분석 - 데이터 마이닝과 사례Ⅰ

빅데이터 분석 예 – 1. 군집 분석Ⅲ

빅데이터 분석 예 – 2. 추천 분석Ⅳ

빅데이터 분석 도구 - AnkusⅤ

빅데이터 분석 기술 : MapReduceⅡ

Page 3: Big Data Analytics and Data Mining

Ⅰ. 데이터 분석 – 데이터 마이닝

Page 4: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

빅데이터가 아닌 빅앤서I. 빅데이터 분석 – 데이터 마이닝과 사례

Page 5: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

빅데이터와 데이터 마이닝I. 빅데이터 분석 – 데이터 마이닝과 사례

SYSTEM / MANAGEMENT ANALYSIS / APPLICATION

Hadoop and Ecosystem/ MapReduce

Data Mining andMachine Learning

빅데이터 분석 MapReduce 기반의 데이터 분석

Page 6: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

데이터 마이닝I. 빅데이터 분석 – 데이터 마이닝과 사례

• Description• 대량의 데이터로부터 그 안에 숨어있는 (implicit) 새롭고 (previously unknown), 가치 있고 (non-

trivial), 의사결정에 유용한 (potentially useful) 정보를 찾는 작업

Page 7: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

데이터 마이닝을 위한 접근I. 빅데이터 분석 – 데이터 마이닝과 사례

DataData Minin

g

질문 어떤 사람들이 신용불량자 ( 잠재 ) 일까 ?

[ 가설의 생성 ]* 직업이 자영업 , 무직 등에 속한 사람들* 수입이 233 만원 이하이고 , 지역이 A 지역에 거주하는 경우 신용불량 확률 높음

학습

( 가설 )

검증 모델 저장소

가설

Data검증

고객의 직업과 수입 정도가신용불량 여부와 관련이 많다 .

질의도구

시각화도구

OLAP도구

기존 – 가설 확인 중심 데이터 분석

데이터 마이닝 - 가설 발견 중심 프로세스

Page 8: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

데이터 마이닝 수행 방법I. 빅데이터 분석 – 데이터 마이닝과 사례

Mining / Training

Test/Evaluation/Verification

Prediction/Application

Data Set (DB, DW)

Training Data Test(Evaluation) Data

New Data

Training Model

Data Mining Process

Page 9: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

데이터 마이닝 기법의 분류I. 빅데이터 분석 – 데이터 마이닝과 사례

Data Mining

Predictive

Classification(Supervised)

Descriptive

Clustering(Unsupervised)

Association

Recommenda-tion

k-NNDecision TreeNeural NetworksSVMRegressionBayes Networkk-meansEMDensity BasedSOMHierarchical

AprioriFP-Growth

Collaborative FilteringContents BasedAssociation Rule Based

MachineLearning

Text MiningSocial Analysis, ….

Page 10: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

분류 및 군집 문제의 예I. 빅데이터 분석 – 데이터 마이닝과 사례

Classification ( 분류 ) Clustering ( 군집 )

• Supervised Learning (Predictive DM)• 데이터 ( 레코드 ) 들을 미리 지정된 부류나

등급으로 나누는 작업• 예 ) 신용 등급에 따라 고객을

분류 하는 모델을 구축하고 ,

신규 고객의 정보에 따라 신용 등급을 예측

• Unsupervised Learning (Descriptive DM)• 데이터 ( 레코드 ) 들을 유사한 성격을 가지는

그룹으로 분할하는 작업• 예 ) 고객을 특징이 유사한

그룹으로 분할하고 그룹별특징을 분석

• 스팸 메일 자동 분류• 문서의 카테고리 자동 분류• 인터넷 중독 진단 시스템

• 학업 성취도 / 능력에 따른 학생 특징 분석• 특정 질병에 대한 유전자 발현 특징 분석• 구매 패턴 유사 고객 특징 분석

ID 월소득 직업 나이 학력 지역 기대출금 연체여부 … 신용등급1 500 개발 45 대졸 강남 2,000 No … A

2 300 영업 30 고졸 은평 0 No … B

.. .. .. .. .. .. .. .. .. ..

특징 (features)/ 속성 (attributes) 목표 클래스 (target class)

- 350 영업 40 대졸 구로 1,000 No .. ?

Page 11: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

연관 분석I. 빅데이터 분석 – 데이터 마이닝과 사례

• 장바구니 분석 ( 마트 등에서의 구매 상품 목록 )• 금융 상품 구매 분석• 영화 /VOD 등 디지털 콘텐츠 구매 분석

Walmart

• Association• 거래 ( 구매 ) 데이터에서 자주 함께 판매되는 상품들간의 연관성에 대한 규칙을 찾아내는 분석

vs.

Page 12: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

추천 분석I. 빅데이터 분석 – 데이터 마이닝과 사례

• Recommendation (Personalization)• 사용자가 좋아할 만한 콘텐츠 / 아이템을 선별해 내어 사용자에게 권유 / 소비를 유도 하는 것

[ 협력적 추천 – 사용자 기반 ]

나와 선호 ( 시청 ) 성향이 유사한 사용자들이 좋다고 한 아이템 ( 영화 ) 를 나에게 추천한다 .

Amazon, Netflix, MovieLens, Watcha

Page 13: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

공공데이터 분석의 주요 사례 분류I. 빅데이터 분석 – 데이터 마이닝과 사례

해외 사례 국내 사례도로 / 교통 기상 / 교통 예측 ( 브라질 )

심야버스 노선 결정 ( 서울시 )

기상 / 재해 / 재난치안 범죄 예방 시스템 ( 미국 )

복지 맞춤형 복지 사회 ( 싱가포르 ) 수요자 중심 복지 서비스 ( 보건복지부 )

기타 탈세 방지 시스템 ( 미국 ) 민원 정보 분석 ( 국민권익위원회 )

• 국내 및 해외의 공공 부분 ( 지자체 및 정부 기관 등 ) 빅데이터 분석 활용 주요 사례• 다양한 사례들 중 공공 분야별로 비교적 잘 알려졌거나 성공적으로 운영된 사례 중심

Page 14: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

범죄 예방 시스템 / 미국 샌프란시스코I. 빅데이터 분석 – 데이터 마이닝과 사례

• 범죄 발생 지역 및 발생 시각을 예측하여 범죄를 미연에 방지하기 위한 시스템• 범죄 발생 지역 및 시각을 예측하여 필요한 곳에 경찰 인력을 배치 , 범죄를 예방• 과거 발생한 범죄 패턴을 분석하여 후속 범죄 가능성 예측• 과거 데이터에서 범죄자 행동을 분석하여 사건 예방을 위한 해법 제시

Page 15: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

탈세 방지 시스템 / 미국 국세청I. 빅데이터 분석 – 데이터 마이닝과 사례

• 빅데이터 분석을 활용하여 탈세 및 사기 범죄 예방 시스템 구축• 사기 방지 솔루션 , 소셜 네트워크 분석 , 데이터 통합 및 마이닝 등 활용• 방대한 데이터로부터 탈세 / 사기 징후를 찾아내어 감시• 연간 3,450 억 달러의 세금 누락 및 불필요한 세금 환급 절감 효과 발생

Page 16: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

맞춤형 복지사회 / 싱가포르I. 빅데이터 분석 – 데이터 마이닝과 사례

• 데이터 분석을 통한 지역사회의 화합 및 맞춤형 복지사회 구현• 다양한 인종 , 나이 , 문화 , 소득 , 연령에 따른 주민의 데이터를 수집 / 분석하여 맞춤형 서비스 제공

가능한 플랫폼 구현• 1,800 개 이상의 주민위원회 센터를 네트워크로 연결하고 서비스 수요와 경험 데이터를 분석• 주요 서비스 니즈별 ( 인종 , 문화 , 소득 , 연령을 고려한 ) 세분화를 통한 맞춤식 서비스 및 캠페인

Page 17: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

기상 및 교통 예측 / 브라질 리우데자네이루I. 빅데이터 분석 – 데이터 마이닝과 사례

• 환경 , 교통 , 치안 등 도시에서 발생하는 모든 정보를 통합한 똑똑해지는 도시 구현• 강 유역의 지형 측량 자료 , 강수량 통계 , 레이더 사진 등의 데이터와 교통 체증 , 정전 사태 등 30 여

개의 시 / 정부 산하 부서 및 기관 공유 자료를 통합하여 도시에 영향을 미치는 데이터를 분석• 48 시간 전에 기상 ( 폭우 및 홍수 ) 및 교통 상황을 예측하는 지능형 운영 센터 운영• 정보를 시민들에게 제공하고 공무원 및 관련 팀에 내용 전달

Page 18: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

심야버스 노선 결정 / 서울시I. 빅데이터 분석 – 데이터 마이닝과 사례

• 이통사의 콜로그를 바탕으로 한 유동인구 정보를 기반으로 최적의 심야 버스 노선 결정• 심야 시간대에 발생하는 콜 로그와 청구지 주소 등의 연관 분석을 통한 유동인구와 출발 / 목적지 예측• 구역별 유동인구 밀집도 및 노선 / 시간 / 요일별 패턴을 분석하여 최적 노선 정보를 추출• 정류장 단위 통행량 추정과 요일별 배차 간격 조정을 통한 최적 노선 운영

Page 19: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

민원정보분석 / 국민권익위원회I. 빅데이터 분석 – 데이터 마이닝과 사례

• 월별 , 지역별 , 주요 민원을 캘린더로 제작하여 민원의 사전 예방과 대책 마련이 가능하도록 중앙 행정 기관 및 지방 자치 단체 등에 제공

• 주요 민원 캘린더와 주요 민원 지도를 토대로 민원 사전 예방과 대책 마련• 지역별 , 계절별 주요 민원을 체계적으로 분석• 불필요한 행정력 낭비 방지와 신뢰 행정 구현이 가능한 시스템으로 발전• 온라인국민소통시스템의 홈페이지를 통한 민원 제안 콜센터 상당 등 분석

Page 20: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

수요자 중심 복지 서비스 / 보건복지부I. 빅데이터 분석 – 데이터 마이닝과 사례

• 지자체 공무원들의 복지 행정 처리를 지원하는 정보 시스템• 지방 자치 단체에서 집행하는 120 여가지 복지 급여 및 서비스 이력 데이터 이용• 복지대상자 선정이 정확하고 효율적으로 이루어져 복지 행정의 획기적인 변화 기대• 다양한 복지 사업별 유사 / 중복 서식을 통합하고 데이터를 공유하여 행정 효율 및 민원 편의 증대• 지자체의 복지급여 및 서비스 이력을 통합 관리하여 복지 대상자 선정 , 사후 관리 등의 업무를 지원

Page 21: Big Data Analytics and Data Mining

Ⅱ. 빅데이터 분석 기술 : MapRe-duce

Page 22: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

빅데이터 처리를 위한 분산 프로세스 구조II. 빅데이터 분석 기술 : MapReduce

• In Wikipedia• MapReduce is a programming model for processing large data sets with a parallel,

distributed algorithm on a cluster.• A MapReduce program comprises a Map() procedure that performs filtering and

sorting and a Reduce() procedure that performs a summary operation.

• Hadoop 으로 대표되는 빅데이터 플랫폼에서의 데이터 처리 프로세스

• Map/Reduce : Key, Value 구조를 기반으로 하는 데이터 분산 처리 구조( 프레임워크 )

• Google 에서 2004 년 최초 발표

Page 23: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

MapReduce 프레임워크의 프로세스 예시II. 빅데이터 분석 기술 : MapReduce

< Map >라인 단위입력 내용을 Key 와 Value 로 구분하여 표기

< Reduce >동일 Key 의 Value 를 List 로 전달받아 일괄 처리

파일 내 출현 단어들의 횟수를 확인하는 Map/Reduce 프레임워크 구조

Page 24: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

MapReduce 프레임워크의 프로세스 예시 : Mapper

II. 빅데이터 분석 기술 : MapReduce

Deer Beer RiverCar Car River

Mapper Key (Line Offset) Value (String)

Mapper – 1 ?????? Deer Beer River

Mapper - 2 ?????? Car Car River

Data File Mapper Input from Data File

ex) Split Words Set Word as “Key” Set 1 as “Value” for count

Mapper

Value Processing: Key Value Setting

Mapper Key Value

Mapper – 1

Deer 1

Beer 1

River 1

Mapper - 2

Car 1

Car 1

River 1

Mapper Output for Reducer

6 Key-Value Pairs

the number of mappers= the number of lines

Page 25: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

MapReduce 프레임워크의 프로세스 예시 : Reducer

II. 빅데이터 분석 기술 : MapReduce

Key ValueDeer 1

Beer 1

River 1

Car 1

Car 1

River 1

Input from Mapper(6 key-Value Pair)

Key ValueDeer 1

Sort / Shuffle

Key ValueRiver 1

River 1

Key ValueBeer 1

Key ValueCar 1

Car 1

Reducer Key Value (List)

Reducer-1 Beer {1}

Reducer-2 Car {1, 1}

Reducer-3 Deer {1}

Reducer-4 River {1, 1}

Reducer Input

Reducer

Value Processing (Iterative): Key Value Writing

ex) Compute Value Sum Set Key as “Key” Set Sum as “Value”

Beer 1Car 2Deer 1River 2

Result File

the number of reducers= the number of distinct keys

Reducer Output

Page 26: Big Data Analytics and Data Mining

Ⅲ. 빅데이터 분석 예- 1. 군집 분석

Page 27: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

K-means 군집 분석의 개념III. 빅데이터 분석 예 – 1. 군집 분석

• 군집 분석 – 데이터를 속성이 유사한 데이터들끼리 그룹을 만드는 것• K-means – 데이터를 가장 가까운 군집에 할당 시키고 , 동일 소속 데이터들의 정보에 따라

군집의 중심을 업데이트 해 가는 과정을 반복하여 군집을 형성 하는 것

(a) 초기 군집 중심 설정 (b) 데이터에 군집 할당 (c) 군집 중심 업데이트

(b 반복 ) 데이터에 군집 할당

(c 반복 ) 군집 중심이 변경되지 않을 때 까지 b 와 c를 반복 수행 군집 중심이 변경되지 않으면 종료

Page 28: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

K-means 군집 분석의 MapReduce 수행 설계III. 빅데이터 분석 예 – 1. 군집 분석

1. 군집의 초기 중심을 설정 한다 .

2. 모든 데이터에 대해 다음을 수행 ( 반복 )- 데이터 자신과 각 군집 중심과의 거리를 측정한다 .- 가장 가까운 군집 중심에 데이터 자신을 할당한다 .

3. 모든 군집에 대해 다음을 수행 ( 반복 ) - 군집에 할당된 모든 데이터의 평균을 계산한다 .- 계산된 평균을 군집의 중심 정보로 업데이트 한다 .

4. 업데이트 된 군집 중심 정보와 업데이트 이전의 군집 중심을 비교 한다- 만약 , 군집 중심이 달라졌다면 , 다시 2 번 과정부터 반복 한다 .- 만약 군집 중심이 변경되지 않았다면 , 군집을 종료 한다 .

K-means 군집 프로세스와 MapReduce 변환

모든 데이터에 대해 동일 과정 반복 수행 Mapper

각 군집별 데이터를 이용하여 군집별로 수행 Reducer

Page 29: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

K-means 군집 분석의 MapReduce 수행 설계 : MapReduce

III. 빅데이터 분석 예 – 1. 군집 분석

Map1, 1 1, (1, 1)2, 2 2, (2, 2)9, 9 2, (9, 9)

10, 10 2, (10, 10)

Reduce1, {(1, 1)} (1, 1)

2, {(2, 2), (9, 9), (10, 10)}

(7, 7)동일 Key 로셔플 / 정렬

Cluster ID Cluster Info

1 1, 1

2 2, 2

XX

XX

Map1, 1 1, (1, 1)2, 2 1, (2, 2)9, 9 2, (9, 9)

10, 10 2, (10, 10)

MapReduce 반복Reduce

1, {(1, 1), (2, 2)}

(1.5, 1.5)

2, {(9, 9), (10, 10)}

(9.5, 9.5)

XX

X

X

Page 30: Big Data Analytics and Data Mining

Ⅳ. 빅데이터 분석 예- 2. 추천 분석

Page 31: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

추천 분석 – 협력적 추천 (Collaborative Filtering based Recommendation)

IV. 빅데이터 분석 예 – 2. 추천 분석

Process - 1 Users Extraction having Similar Preference

Process - 2

Recommenda-tion based on Similar User’s Preferences

[ 협력적 추천 – 사용자 기반 ]

나와 선호 ( 시청 ) 성향이 유사한 사용자들이 좋다고 한 아이템 ( 영화 ) 를 나에게 추천

Page 32: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

유사 사용자 정보와 협력적 추천IV. 빅데이터 분석 예 – 2. 추천 분석

Iiwiw

Iiuiu

Iiwiwuiu

RRRR

RRRRwuPCC

2,

2,

,,

)()(

))((),(

U2 = {I2=1, I3=-1, I4=-1}U5 = {I1=1, I2=1, I3=-1} PCC(U2, U5) = 1

PCC (Pearson Correlation Coefficient): 두 벡터간 공통 항목 값의 상관 관계 , -1~1 사이의 실수 - 1 인 경우 두 벡터는 음의 상관관계 , 1 인 경우 양의 상관관계 , 0 인 경우 특별한 관계가 없음

U1

U2

U3

U4

U5

I1 I2 I3 I4

U2 와 U5 의 pcc 가 1 양의 상관 관계 U2 의 I4 값이 -1 이므로 U5 의 I4 값 또한 -1 일 것

협력적 추천의 핵심

Page 33: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

실제 데이터에 PCC 계산을 적용한 예IV. 빅데이터 분석 예 – 2. 추천 분석

uid item-1 item-2 item-3 item-4 item-5 item-6 item-7 item-8

u 5 3 1 2 1 4 5 3

w 4 3 2 1 2 5 4 3

Iiwiw

Iiuiu

Iiwiwuiu

RRRR

RRRRwuPCC

2,

2,

,,

)()(

))((),(

82.0),( wuPCCuid item-100

u 5

w ? 4 or 5

서로 동일한 성향인 정도가 0.82( 최대값 1)

• Netflix(DVD 대여 회사 ) 평가 데이터의 PCC 계산 예• 사용자들이 대여한 DVD 에 대해 1~5 점 사이로 평점을 표기한 데이터

Page 34: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

Netflix 데이터의 MapReduce 기반의 PCC 계산IV. 빅데이터 분석 예 – 2. 추천 분석

Alice, Matrix, 5Alice, Alien, 1Alice, Inception, 4

Bob, Alien, 2Bob, Inception, 5

Peter, Matrix, 4Peter, Alien, 3Peter, Inception, 2

Netflix 데이터 예 ( 사용자 , 영화 , 평점 )

PCC(Alice, Bob) = ?PCC(Alice, Peter) = ?PCC(Bob, Peter) = ?

Matrix Alien Inception

Alice 5 1 4

Bob 2 5

Peter 4 3 2

2 번의 Map/Reduce 작업을 통해 사용자간의 PCC 계산 가능

Sequential 프로그래밍이 아닌 Map/Reduce 구조에 기반한 PCC 계산 로직 설계 / 개발 필요

• 1 단계 Map/Reduce – 동일 영화를 본 사용자 쌍 정보를 추출• 2 단계 Map/Reduce – 사용자 쌍 ( 동일 영화에 대한 평점 목록 ) 에 대하여 PCC 를 계산

Page 35: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

Netflix 데이터의 MapReduce 기반의 PCC 계산 – 1st MapReduce

IV. 빅데이터 분석 예 – 2. 추천 분석

MapAlice, Matrix, 5 Matrix (Alice, 5)Alice, Alien, 1 Alien (Alice, 1)Alice, Inception, 4 Inception (Alice, 4)Bob, Alien, 2 Alien (Bob, 2)Bob, Inception, 5 Inception (Bob, 5)Peter, Matrix, 4 Matrix (Peter, 4)Peter, Alien, 3 Alien (Peter, 3)Peter, Inception, 2 Inception (Peter, 2)

ReduceMatrix {(Alice, 5) , (Peter, 4)} (Alice, Peter) (Matrix) (5, 4)

Alien {(Alice, 1) , (Bob, 2) , (Peter, 3)}

(Alice, Bob) (Alien) (1, 2)(Alice, Peter) (Alien) (1, 3)(Bob, Peter) (Alien) (2, 3)

Inception {(Alice, 4) , (Bob, 5) , (Peter, 2)}

(Alice, Bob) (Inception) (4, 5)(Alice, Peter) (Inception) (4, 2)(Bob, Peter) (Inception) (5, 2)

동일 Key 로 셔플 / 정렬

Page 36: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

Netflix 데이터의 MapReduce 기반의 PCC 계산 – 2nd MapReduce

IV. 빅데이터 분석 예 – 2. 추천 분석

MapAlice, Peter, Matrix, 5, 4 (Alice, Peter) (5, 4)Alice, Bob, Alien, 1, 2 (Alice, Bob) (1, 2)Alice, Peter, Alien, 1, 3 (Alice, Peter) (1, 3)Bob, Peter, Alien, 2, 3 (Bob, Peter) (2, 3)Alice, Bob, Inception, 4, 5 (Alice, Bob) (4, 5)Alice, Peter, Inception, 4, 2 (Alice, Peter) (4, 2)Bob, Peter, Inception, 5, 2 (Bob, Peter) (5, 2)

Reduce

(Alice, Peter) {(5, 4) , (1, 3) , (4, 2)}

(Alice, Peter) (0.24)

(Alice, Bob) {(1, 2) , (4, 5)} (Alice, Bob) (1.00)

(Bob, Peter) {(2, 3) , (5, 2)} (Bob, Peter) (-1.00)

Matrix Alien Inception

Alice 5 1 4

Bob 2 5

Peter 4 3 2

동일 Key 로 셔플 / 정렬

Iiwiw

Iiuiu

Iiwiwuiu

RRRR

RRRRwuPCC

2,

2,

,,

)()(

))((),(

Page 37: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

Netflix 데이터의 MapReduce 기반의 PCC 계산 – Summary

IV. 빅데이터 분석 예 – 2. 추천 분석

Alice, Matrix, 5Alice, Alien, 1Alice, Inception, 4

Bob, Alien, 2Bob, Inception, 5

Peter, Matrix, 4Peter, Alien, 3Peter, Inception, 2

PCC(Alice, Bob) = 0.24PCC(Alice, Peter) = 1.00PCC(Bob, Peter) = -1.00

Mapper

Reducer

Mapper

Reducer

영화를 키로 , 사용자와 점수를 추출

동일 영화를 함께 본 사용자 점수 쌍을 생성

사용자 쌍을 키로 , 함께 본 영화의 점수 쌍을 추출

동일 사용자 쌍에 대해 함께 본 영화의 점수 쌍을취합하여 PCC 를 계산

Page 38: Big Data Analytics and Data Mining

Ⅴ. 빅데이터 분석 도구 - AnkusMapReduce based Data Mining and Machine Learning Algorithms

for Intelligent Big Data Analysis in Hadoop Framework

http://www.openankus.org

Page 39: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

지능형 빅데이터 분석 라이브러리V. 빅데이터 분석 도구 - Ankus

• Ankus: Intelligent Big Data Analyzer• 빅 데이터 분석 / 활용 통합 프레임워크 환경을 제공을 위한 Hadoop 기반 분산 빅데이터

환경에서의 데이터 마이닝 및 기계학습 기반의 데이터 분석 라이브러리

• 오픈 소스 기반의 SW 이며 , Java 라이브러리 형태로 배포됨

Ankus 와 통합 프레임워크 Flamingo Hadoop Manager & Appliance

지능형 분석을 위한

Ankus 의 요소 기술

기초 통계 분석 및 데이터 전처리 데이터 유사 / 상관 분석 분류 / 군집 등 기계학습 분석 맞춤형 콘텐츠 추천 분석

Page 40: Big Data Analytics and Data Mining

Copyright © Korea ONYCOM CO. Ltd. 2013, All Rights Reserved.

지능형 빅데이터 분석 라이브러리V. 빅데이터 분석 도구 - Ankus

• Ankus: Intelligent Big Data Analyzer

빅데이터 기반 의사 결정 지원을

위한 데이터 마이닝 및 기계학습

기반 분석

Apache Hadoop 과 의 연 동 을

통 한 Mahout 대 체 국 내 공 개

SW 기술

활용 분야

분산 빅데이터 환경을 위한 MapReduce 기반의 분산 분석 알고리즘 제공

기초 통계 및 전처리 등 패턴 분석과 분류 / 군집 분석 등의 기계학습 기반 분석 제공

기업 실무 적용 / 활용을 위한 개인 맞춤형 추천 분석 모듈 제공

빅데이터 활용 통합을 위한 Flamingo Hadoop Manager/Appliance 와의 연동 제공 예정

주요 특징

개발 마일스톤

Page 41: Big Data Analytics and Data Mining

감사합니다송원문

[email protected]