데이터마이닝의 소개 Data Mining Introduction

데이터마이닝의 소개Data Mining Introduction

숭실대학교 마이닝 연구실김완섭 ([email protected])

2006 년 11 월 22 일 , 인공지능 수업

mailto:[email protected]

2

구성

• 데이터마이닝의 소개

• 분석기법 소개 및 적용 사례– 분류 기법 (Classification, Supervised Learning)– 군집 기법 (Clustering, Unsupervised Learning)– 연관규칙 탐사 기법 (Association Rule Discovery)– 개인화 추천 기법 (Personalized Recommendation)

• 데이터마이닝 솔루션의 소개

• 엘도라도를 통한 간단한 Demo

3

1. 데이터마이닝의 소개 < 등장 배경 >

• 데이터의 축적 (OLTP)– 거대한 양의 데이터를 축적하게 됨 ( 데이터의 홍수 )

• 데이터의 통합 및 분석 (OLAP)– 분산된 데이터를 통합하고 분석하여 의미있는 정보를 찾음

• 데이터마이닝의 출현– 자동화된 시스템을 통한 지식 (Knowledge) 의 추출과 활용

인공지능 통계학

60 년대 70 년대

MIS 출현- 데이터 축적

DB 통합- 데이터의 통합

80 년대

대용량 DB- 통합 데이터 베이스 발전

90 년대

대용량 DB- DW 발전

마이닝

4

1. 데이터마이닝의 소개 < 정의 >

• 데이터마이닝이란 무엇인가 ?

대량의 데이터로부터 그 안에 숨어있는 (implicit) 새롭고(previously unknown), 가치있고 (non-trivial), 의사결정에 유용한 (potentially useful) 정보를 찾는 작업

대량의 데이터로부터 그 안에 숨어있는 (implicit) 새롭고(previously unknown), 가치있고 (non-trivial), 의사결정에 유용한 (potentially useful) 정보를 찾는 작업

Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) information or patterns from data in large databases

Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) information or patterns from data in large databases

대용량의 데이터(Large Database)

Data Mining

5

1. 데이터마이닝의 소개 < 데이터 예 : 백화점>• 거래데이터 (Transaction DB)

– 고객 ID, 구매일 , 거래점 , 거래파트 , 브랜드명 , 상품명 , 가격 .

• 고객 프로파일 데이터 (User Profile DB)– 성별 , 나이 , 주소 , 거주형태 , 자택여부 , 결혼여부 , 회원타입 , 가입일 , 가입점

6

1. 데이터마이닝의 소개 < 데이터 예 : 웹로그>• 웹로그 데이터

7

1. 데이터마이닝의 소개 < 어떻게 정보를 찾는가 ?>

• 대용량의 데이터가 여러분에게 주어졌다고 생각하자 . • 그 데이터에서 어떠한 방법으로 정보를 찾을 것인가 ?

• 매우 다양한 방법들이 있을 수 있다 . – Query– Visualization– OLAP– Statistics– Decision Tree– Neural Network– Genetic Algorithm– K-Means Clustering

8

1. 데이터마이닝의 소개 < 기존방법과의 차이점 >• 가설확인 중심의 기존 방식

• 가설 발견 중심의 데이터마이닝 방식

질의도구

시각화도구

OLAP도구

DATA

가설

고객의 직업과 수입정도가 신용불량 여부와 관련이 많다 .

데이터마이닝

DATA

어떤 사람들이 신용불량자 ( 잠재 )일까 ?가설

* 직업이 자영업 ,무직등에 속한 사람들

* 수입이 233만원이하이고 , 지역이 A 지역에 거주하는 경우 신용불량 확률높음

검증 정보

9

1. 데이터마이닝의 소개 < 프로세스 모델 >

Data Cleaning

Data Integration

Databases

Data Warehouse

Task-relevant Data

Selection

Data Mining

Pattern Evaluation

10

1. 데이터마이닝의 기법 및 알고리즘

기법의 종류 설명 및 알고리즘

분류 분석(Classfication)

레코드를 부류나 등급으로 나누는 작업-Decision Tree : ID3, C4.5 Algorithm-Neural Network, Bayesian …

군집 분석(Clustering)

레코드들을 유사한 성격을 가지는 소그룹으로 구분하는 작업-K-Means Algorithm-EM Algorithm-Cobweb Algorithm

연관규칙 탐사(Association

Rule Discovery)

구매데이터에서 상품 간의 판매 연관성을 파악하는 작업- Apriori Algorithm

개인화 추천(Personalized

Recommedation)

각 고객별로 선호정보를 파악하여 그 고객에게 적합한 상품을 추천해 주는 작업-Collaborative Filtering Algorithm-Content based Method

11

1. 데이터마이닝의 적용 분야

분야 적용 사례

소매 /마케팅 고객의 구매패턴과 선호도 발견 고객분류 , 그룹별 특성 발견

은행 /카드 신용평가 모형 우수 고객 선정 및 특성 분석 , 카드 부정사용 적발

보험 고객 분류를 통한 보험료 가격정책 수립

통신 우수고객 선정 및 특성 분석 장거리 전화 / 무선 전화의 부정한 이용패턴 추적 이탈고객 모델 선정 및 타겟마케팅

제조 제품 수용 예측 최종 생산품의 품질에 영향을 미치는 요인 발견

유통 매장 진열 전략 상품 카다로그 디자인

의료 환자 특성에 따른 의약품의 부작용 분석

12

2. 분석방법 < 분류 : 의사결정트리 >

• 분류 (Classification) 의 정의

• 의사결정나무 알고리즘의 특징

– 이해하기 쉬운 모델을 제공한다 . – 즉 , 다른 방법 ( 신경망 , 통계방법 ) 에 비해 이해하기가 쉽다 .– 현업에서 의사결정에 가장 많이 사용되는 기법이다 .

– 범주형 (Categorical) 속성을 대상으로 분석할 수 있다 . – 즉 , 주식 데이터에서 주가 예측하는데에는 사용할 수 없다 .

데이터집합이 주어졌을 때 그 데이터들을 분석하여 특정 속성 ( 범주형 )의 값 ( 범주값 ) 을 분류하는 트리 형태의 모델을 생성하는 분석기법이다 .

데이터집합이 주어졌을 때 그 데이터들을 분석하여 특정 속성 ( 범주형 )의 값 ( 범주값 ) 을 분류하는 트리 형태의 모델을 생성하는 분석기법이다 .

13

2. 분석방법 < 분류 : 의사결정트리 >

• 신용상태에 대한 분석 결과– 신용상태가 < 좋음 , 나쁨 > 의 두개의 범주값을 갖음– 과거의 데이터를 통하여 신용상태의 분류 모델을 생성– 새로운 고객에 대하여 앞으로의 신용상태를 분류

: C , D , E , F직 업 143 90.5%나 쁨 15 9.5%좋 음

158 (48.9% )계

: A, B직 업 0 0.0%나 쁨 7 100.0%좋 음

7 (2. 2% )계

: 213 월 소 득 만 원 미 만 143 86.7%나 쁨 22 13.3%좋 음

165 (51.1% )계

: D , E , F직 업 5 55.5%나 쁨 4 45.5%좋 음

9 (2.8% )계

: A, B , C직 업 19 47.3%나 쁨 21 52.7%좋 음

39 (12.4% )계

: 25 연 령 세 미 만 24 49.0%나 쁨 25 51.0%좋 음

49 (15.2% )계

: 25 연 령 세 이 상 1 0.9%나 쁨 108 99.1%좋 음

109 (33.8% )계

: 213 월 소 득 만 원 이 상 25 15.8%나 쁨 133 84.2%좋 음

158 (48.9% )계

신 용 상 태 168 52.0%나 쁨 155 48.0%좋 음

323 (100.0% )계

14

2. 분석방법 < 분류 : 의사결정트리 적용 예>• B 은행의 사례 분석

– 고객의 대출 신청 서류와 신용 정보를 관리– 수익 : 대출금의 이자 , 고객 만족– 손해 : 대출금 미상환 , 상환 독촉 비용

유용한 대출심사모델 존재 ? 안전한 대출만 승인 상환 비율 향상

수익율 증가

YES

15

2. 분석방법 < 분류 : 의사결정트리 적용 예>

• 분석작업 : 대출금 상환에 대한 분류 모델 생성• 분석목표 및 기대 효과

대출심사모델생성

Mining

상환예상고객만대출

대출 심사 비용 감소

상환 독촉 비용 감소

상환 비율의 증가

대출 신청 정보

고객 신용 정보

+

+

수익율 증가

16

2. 분석방법 < 분류 : 의사결정트리 적용 예>• 입력데이터 설명

• 입력 데이터– Record 의 수 : 5,960 개 , Field 수 : 13 개– 대출 신청 서류 , 신용기관의 신용 정보 , 목표 변수

대출 신청 서류 신용 기관의 신용 정보

REASON 대출 사유 ( 채무 정리 , 주택개량 ) DEROG 불량 거래 보고수

JOB직업 ( 노동자 , 사무원 , 판매원 ) ( 자영업 , 숙련기술자 , 기타 )

CLNO 금융 거래의 수

LOAN 대출액 DELINQ 체납 회수

MORTDUE 저당 금액 CLAGE 최장 대출 기간

VALUE 자산금액 NINQ 최근 신용 조회 수

DEBTINC 대출금 대 수입 비율 분석 목표 변수

YOJ 근무년수 BAD 대출금 상환여부

17

2. 분석방법 < 분류 : 의사결정트리 적용 예>• 모델의 시각화 결과 ( 트리 보기 )

REASON JOB LOAN

DebtCon Office 14,900

MORTDUE VALUE DEBTINC

58,204 71,257 43.76293

YOJ DEROG CLNO

3 3 50

DELINQ CLAGE NINQ

2 207 1

노드를 따라 내려 간

단말 노드의 Class : 1

∴ 대출 미승인

18


생성 규칙IF DELINQ <= 4.0 AND 43.910046 < DEBTINC AND REASON = DebtCon

THEN BAD = 1 (88.4%)

분류 조건 체납회수가 4회 이하 대출금대 수입의 비율이 43.910046 이상 대출 사유가채무 정리인 고객

결론 위조건에 해당되는 고객에게는 대출을승인하지않는다. (88.4%)

19


고객

• Case 1 – 모델이 없는 보통의 경우

신용 기관

접수 및 대출 심사

3,364 명

신용정보대출 승인 : 3,364

비승인 : 0

미상환 : 300금액 : 5,420,900

상환 : 3,064 이자 : 5,901,450

순이익 : 480,500

20


고객

• Case 2 – 모델 이용

신용 기관

접수 및 대출 심사

3,364 명

신용정보대출 승인 : 3,254

비승인 : 110

미상환 : 200금액 : 3,452,200

상환 : 3,064 이자 : 5,887,590

순이익 : 2,435,390

대출심사 분류 모델

21


모델 이용 X 모델 이용 O

대출 총액 \64,435,400 \62,328,100

반환 \59,014,500 \58,875,900

미수 -\5,420,900 -\3,452,200

이자 \5,901,450 \5,887,590

실제 이익 \480,500 \2,435,390

• 기대효과 : 5 배 이상의 순이익 증대– 대출 심사 /상환 독촉 비용을 고려시 훨씬 더 높은 순이익을 기대

22

2. 분석방법 < 분류 : 의사결정트리 활용 예 >• 의사결정트리를 이용한 이탈 고객 분석 선정

Server

Operational DB

ETL Server

Domain

Mining & Campaign DB

PowerMinerTM

마케팅솔루션

마케팅솔루션

Mining Server

이탈 고객 정보 입력

이탈 고객 예측 모델 생성

고객 정보 입력

모델을 통한 이탈 고객 예측

결과 저장

이탈 고객 예측 모델

23

2. 분석방법 < 분류 : 의사결정트리 활용 예 >

거주지

나이 이탈 유지 성별

이탈 유지 유지 결혼 여부

이탈 유지

북구 달서구수성구

중구

남성 여성

미혼 기혼

27 세 이하 28 세 이상

100% 78.57%

94.11% 95.23%

100%

100% 100%

24


거주지



이탈 유지


중구

남성 여성

미혼 기혼


IF “ 거주지 = 북구 and 나이 <=28” THEN “ 유지”(78.57%)

북구에 사는 28 세 이상의 고객은 이탈하지 않음 (78.57%).

100% 78.57%

94.11% 95.23%

100%

100% 100%

25


거주지



이탈 유지


중구

남성 여성

미혼 기혼


IF “ 거주지 = 중구 and 성별 = 여성 and 결혼여주 = 미혼” THEN “ 이탈”(100%)

중구에 사는 미혼 여성은 이탈 (100%).

100% 78.57%

94.11% 95.23%

100%

100% 100%

26

2. 분석방법 < 군집 >

• 군집 (Clustering) 의 정의

• 적용분야– 고객 세분화를 통한 타겟마케팅

• 적용 알고리즘– K-Means – EM(Expectation Maximization)

주어진 레코드 ( 고객 , 상품 ) 들을 여러가지 속성들을 고려하여 특성이 비슷한 레코드들로 묶어주는 분석 기법

주어진 레코드 ( 고객 , 상품 ) 들을 여러가지 속성들을 고려하여 특성이 비슷한 레코드들로 묶어주는 분석 기법

27


• 군집 기법의 적용 예 : IRIS 데이터

28


• EM 군집 ( 백화점 고객 데이터 )– 군집 0: 30,40 대 , 서울 , APT, 본인소유 ( 주택 ), 기혼 . – 군집 1: 10,20 대 , 서울 , 단독주택 , 미혼 . – 군집 2: 10-30 대 , 경기 , APT.

29

2. 분석방법 < 연관규칙 >

• 연관규칙 (Association) 의 정의

• 알고리즘– Apriori

• 적용 예– 오프라인 판매점에서의 분석을 통한 상품 배치– 온라인 쇼핑몰에서의 자동화 된 연관 상품 추천

거래 데이터에서 자주 함께 판매되는 상품들간의 연관성에 대한 규칙(AB) 을 찾아내는 분석기법이다 . (AB: A 상품을 구매하는 고객들은 B 상품도 함께 구매하는 경향이 있다 .)

거래 데이터에서 자주 함께 판매되는 상품들간의 연관성에 대한 규칙(AB) 을 찾아내는 분석기법이다 . (AB: A 상품을 구매하는 고객들은 B 상품도 함께 구매하는 경향이 있다 .)

30


• 쇼핑몰에서의 적용 예

Example of Association Rules from www.global-reach.comExample of Association Rules from www.global-reach.com

31


• 규칙 (Rule) 에 대한 분석 결과

지지도 : 전체 고객중 2% 의 고객이 ‘미소패구두’와 ‘지오다노진케쥬얼’을 같이 구매함

신뢰도 : ‘ 미소패구두’를 구매한 고객 중 57% 의 고객이 ‘지오다노진케쥬얼’을 구매함

향상도 : 전체 고객 중 ‘지오다노진케쥬얼’을 구입한 고객의 비율보다

‘미소패구두’를 구매한 고객 중 ‘지오다노진케쥬얼’을 구매한 고객의 비율이 2.81 배 높음

※ 활용의 예

1. ‘ 미소패구두’를 구매한 고객에게 ‘지오다노진케쥬얼’을 추천

2. ‘ 지오다노진케쥬얼’의 마케팅 대상 고객으로 ‘미소패구두’를 구매한 고객 선정

3. ‘ 미소패구두’와 ‘지오다노진케쥬얼’을 패키지 상품으로 구성

32


• 은행 서비스 이용에 대한 연관규칙

33


• 생성 규칙의 해석 및 적용선행항목 후행항목 지지도 신뢰도 개선도

SVG ATM CKING 0.1162 0.9928 1.3262

• 지지도 → 0.1162 : 저축 예금 계정과 현금 카드 , 당좌 예금 계정을

모두 사용하고 있는 고객이 0.1162%, 즉 2,700 명 이상

• 신뢰도 → 0.9928 : 저축 예금 계정과 현금 카드를 사용하는 고객들 중

99% 는 당좌 예금 계정을 사용

• 적용 : 저축 예금 계정과 현금 카드를 사용하는 고객에게

당좌 예금 계정을 추천

34

35


• 생성 규칙의 해석 및 적용선행항목 후행항목 지지도 신뢰도 개선도

MMDA CKING 0.1080 0.7639 1.098

CKING MMDA 0.1080 0.1553 1.098

신뢰도 1

신뢰도 2• 지지도 → 0.1080 : 금융시장 예탁 계정과 당좌 예금 계정을

모두 사용하고 있는 고객이 0.1080%, 즉 2,500 명 이상

• 신뢰도 1 → 0.7639 : 금융시장 예탁 계정을 사용하는 고객 중 76% 는 당좌 예금 계정을 사용

• 신뢰도 2 → 0.1553 : 당좌 예금 계정을 사용하는 고객 중 16% 는 금융시장 예탁 계정을 사용

• 결론 1 : 금융시장 예탁 계정 사용 고객에게 당좌 예금 계정을 추천

• 결론 2 : 당좌예금 사용하는 고객에게 금융시장 예탁 계정은 추천 안함

36

2. 분석방법 < 개인화추천 >

• 추천 (Recommendation) 의 정의

• 알고리즘– 협력적 추천 (Collaborative Filtering)– 내용 기반 추천 (Content-based Method)

• 적용 예– 오프라인 판매점에서의 분석을 통한 상품 배치– 온라인 쇼핑몰에서의 자동화 된 추천– A 상품을 구매한 고객에게 B 상품을 추천할 수 있다 .

각 고객에게 그 고객이 아직 구매하지 않은 상품 중에서 구매할 가능성이 높은 상품 ( 아이템 ) 의 리스트를 제공하여 주는 것 .

각 고객에게 그 고객이 아직 구매하지 않은 상품 중에서 구매할 가능성이 높은 상품 ( 아이템 ) 의 리스트를 제공하여 주는 것 .

37


• 협력적 추천 (Collaborative Filtering)– 대상 고객과 유사한 성향을 갖는 이웃 고객이 공통적으로 선호하는 상품을

추천함 .

• 협력적 추천의 과정– STEP1. 유사도 계산

• 대상 고객과 다른 고객들간의 유사도를 구한다 .• 대표적 유사도 계산식 Correlation( 식 ) Cosine( 식 )

– STEP2. 예측 선호도 계산• 목표 고객과 다른 고객과의 유사도를 가중치로 하여 각 상품에 대한 선호도를

예측한다 .

ua

uaua rr

rruaw

),cos(,

38


• 협력적 여과 (Collaborative Filtering)– 패턴이 유사한 고객들이 선호한 상품 ( 아이템 ) 를 추천하는 시스템

– 추천식

A

C

B

A B

highcorrelation

like

like

Recommend

NItemsallSimilar Ni

NrItemsallSimilla NuNiiu

SRS

P, ,

, ,,,

|)(|

)*(

39


• 아이템 기반 협력적 여과– 아이템 간의 유사도를 고려하여 추천하는 방법

• 활용 사례– http://www.amazon.com (쇼핑몰 )– http://citeseer.nj.nec.com (논문검색 )

Ahigh

correlation

Liked by

Liked by

B

AA BB CC DD

AA BB CC DD EE

40


• http://citeseer.nj.nec.com 선호도 기입선호도 기입

41


• http://www.amazon.com 의 적용

선택 상품선택 상품

유사 아이템유사 아이템

패키지 판매 패키지 판매 유도유도

42


• http://www.cdnow.com 의 적용

선택 비디오선택 비디오

유사 아이템유사 아이템

과거 선택 아이템과거 선택 아이템

43


고객 A (7647)

시청 제목

1 영웅

2 이웃집 토토로

유사 영화 수치

반지의 제왕 0.141

캐치미 이프유켄

0.116

동갑내기 과외하기 0.112

색즉시공 0.106

살인의 추억 0.098

해리포터와 비밀의 방

0.096

Inter-Item Cosine Similarity

유사영화 수치

바람계곡의 나우시카

0.894

마녀배탈부 키키

0.516

귀를 기울이면 0.365

센과치히로의 행방불명

0.316

붉은돼지 0.316

폼포코너구리대작전

0.258

Weighted Sum FunctionWeighted Sum Function

A 를 위한 추천추천 영화 수치

바람의 계곡의 나우시카

0.632

마녀배달비키키 0.365

귀를 기울이면 0.258

센과히치로의 행방불명

0.223

A 의 과거 구매 내역

‘ 영웅’ ‘ 이웃집 토토로’

44

3. 데이터마이닝 솔루션의 소개

• SPSS Clementine

• SAS Enterprise Miner

• Eldorado

45


• Clementine

Stream Canvas

Palettes

Managers

Projects

46


• SAS Enterprise Miner

47


• Eldorado

Data Mining Stream DesignData Mining Stream Design

ProjectInformationProjectInformation

Data Mining NodeData Mining Node

Result orModel ObjectResult orModel Object

Batch Execution ButtonBatch Execution Button

48


• Eldorado 기능

전처리

레코드 선택

레코드 병합

레코드 그룹핑

필드 선택

필드 병합

새필드 생성

정 렬

정규화

결측치 처리

값 매핑

탐색

통계 탐색

테이블 보기

마이닝

의사결정트리

베이지안

신경망

K- 평균

SEM

연관규칙

CF

RFM

선형 회귀

모델 활용

분류 활용

군집 활용

데이터 입력

파일 입력

DB 입력

전처리 출력

Documents

데이터마이닝의 소개 Data Mining Introduction