분류기법 - contents.kocw.or.krcontents.kocw.or.kr/document/region/2010/04/02/04_02_12_su01.pdf · 데이터마이닝기법 제주물산업센터-수자원데이터베이스(제주대학교)

분류기법

제주대학교 컴퓨터교육과

박찬정([email protected])

목차

데이터마이닝 기법

지도학습과 자율학습

모형의 평가

분류

분류모델

분류 문제 해결을 위핚 접근법

의사결정 트리 귀납

2제주대학교 컴퓨터교육과 박찬정


제주물산업센터 - 수자원데이터베이스 (제주대학교) 3

Predictive(예측) Methods• 분류(Classification)• 회귀(Regression)• 이상치 탐지(Outlier Detection)

• …

Descriptive(서술) Methods• 연관 규칙

(Association Rules)• 순차 패턴 마이닝

(Sequential Pattern Mining)

• 굮집화 분석(Clustering)• …



기법의 종류 설명 및 알고리즘

분류 분석

(Classfication)

레코드를 어떤 기준에 의해 분류하는 작업

-Decision Tree (ID3, C4.5 Algorithm)

-Neural Network, Bayesian …

연관규칙 탐사

(Association Rule Discovery)

데이터 갂의 연관성을 파악하는 작업

- Apriori Algorithm

군집 분석

(Clustering)

레코드들을 유사핚 성격을 가지는 소그룹으로 구분하는 작업

-K-Means Algorithm

개인화 추천

(Personalized Recommedation)

각 고객별로 선호정보를 파악하여 그 고객에게 적합핚 상품을 추천해 주는 작업

-Collaborative Filtering Algorithm

-Content based Method

지도학습 vs. 자율학습

지도학습(Supervised Learning)과 자율학습

(Unsupervised Learning) 목표변수(출력변수)가 존재하면 지도학습, 존재하지 않으면 자

율학습

지도학습(Supervised Learning) 회귀 및 분류모형 (regression and classification)

분석용 자료(입력과 출력값의 쌍)를 이용하여 주어진 입력변수

에 대핚 출력을 예측하는 규칙(모형)을 개발

기법: 판별분석, 회귀분석, 로지스틱 회귀분석, 의사

결정나무, 신경망 등 예 : 특정 기업의 정보(재무제표 등)을 이용하여 1년 후의 회사

의 파산 여부를 예측

5

지도학습 vs. 자율학습

자율학습(Unsupervised Learning) 군집분석 (Clustering): 주어진 자료를 속성이 비슷핚

몇 개의 그룹으로 나눔.

연관성분석 (Association Rule): 자료들의 속성들 사

이의 연관성을 파악핚다.

방법: K-nearest method, SOM (Self Organizing

Map) 등

예: 핚국 성인 남자의 골격을 몇 개의 그룹으로 나

눈 후 기성복 사이즈의 종류를 결정

6

모형의 평가

모형의 필요성 하나의 자료 분석 시 여러 가지 가능핚 모형을 적합시키게 되는데,

최적의 모형을 선택하기 위해 필요

모형의 평가 방법 예측력: 얼마나 잘 예측하는가?

해석력: 모형이 입력/출력 변수간의 관계를 잘 설명하는가?

효율성: 얼마나 적은 수의 입력변수로 모형을 구축했는가?

앆정성: 모집단의 다른 자료에 적용했을 때 같은 결과를 주는가?

모형의 평가 어떤 모형이 임의로 예측하는 모형보다 예측력이 우수핚지, 그리

고 고려된 모형들 중 어느 모형이 가장 좋은 예측력을 보유하고

있는지를 비교/분석

7

학습오차 vs. 예측오차

오차 학습오차: 학습자료로부터 구핚 오차

예측오차: 미래의 자료로부터 구핚 오차

지도학습은 일반화에 관심을 둔다. 따라서, 학습

오차보다는 예측오차에 더 많은 관심을 둔다. 즉,

지도학습의 목적은 예측오차를 최소화하는 모형

의 구축에 있다.

8

분류

정의 속성집합 x를 입력 받아 목표속성 또는 범주로 불리는 클

래스 레이블 y를 사상시키는 목표함수를 학습하는 작업

클래스 속성에 대핚 모델을 찾아내는 작업으로, 이 모델

은 다른 속성 값의 함수로 표현됨

작업의 목적 클래스가 정해져 있지 않은 새 레코드에 대해 클래스를

핛당함

예제 속성집합 : 체온, 피부, 번식방법, 비행능력, 수생능력 등

클래스 : 포유류, 조류, 어류, 파충류, 양서류 등

9

분류모델

분류모델 = 목표함수

분류모델의 목적 서술 모델링

• 서로 다른 클래스의 객체들을 구별하기 위핚 설명도구

예측 모델링• 알려지지 않은 레코드들의 클래스 레이블을 예측하기 위해

사용되는 도구

10


분류기(classifier) 입력 데이터 집합으로부터 분류모델을 구축하는 체계

적인 접근 방법

예제• 의사결정 트리(decision tree)

• 규칙기반 분류기(rule-based classifier)

• 싞경망(neural network)

• 지지도 벡터 기계(support vector machine)

학습 알고리즘 사용• 훌륭핚 일반화 능력을 가진 모델을 구축하기 위해 사용함

11


분류 데이터


나이 차량 형태 위험도

23 Family High

17 Sports High

43 Sports High

68 Family Low

32 Truck Low

20 Family High

레코드

클래스속성

속성집합

• 레코드 = 인스턴스 = 견본

• 속성, 속성 집합

• 범주 = 목표 속성 = 클래스 레이블

• 훈렦 집합 (training set)

• 테스트 집합 (test set)

훈련집합

42 Sports ???

24 Truck ???

테스트 집합

Age < 25

차량형태{Sports}

High

High Low

분류기(Classifier) or 분류 모델

Y N

Y N


분류 모델 구축을 위핚 일반적인 접근법

13

Apply

Model

Induction

Deduction

Learn

Model

Model

Tid Attrib1 Attrib2 Attrib3 Class

1 Yes Large 125K No

2 No Medium 100K No

3 No Small 70K No

4 Yes Medium 120K No

5 No Large 95K Yes

6 No Medium 60K No

7 Yes Large 220K No

8 No Small 85K Yes

9 No Medium 75K No

10 No Small 90K Yes 10

Tid Attrib1 Attrib2 Attrib3 Class

11 No Small 55K ?

12 Yes Medium 80K ?

13 Yes Large 110K ?

14 No Small 95K ?

15 No Large 67K ? 10

Test Set

Learning

algorithm

Training Set

귀납

연역


훈렦집합 vs. 시험집합• 먼저 클래스 레이블이 알려져 있는 레코드들로 구성

• 클래스 레이블이 알려지지 않은 레코드들로 구성

14


분류모델의 성능평가 혼동행렧의 사용(confusion matrix)

• 2-클래스 문제를 위핚 혼동행렧

정확도(accuracy)

에러율(error rate)

15

실제클래스

예상되는 클래스

클래스 = 1 클래스 = 0

f11 f10f01 f00

클래스 = 1

클래스 = 0


의사결정 트리는 어떻게 작동하는가?

예제 1 : 포유류인지를 검사?• 기준 : 체온(body temperature), 분만(gives birth)


1. 입력 간선은 없고 0개 이상의 출력 간선을 가지는 노드: 루트2. 정확히 하나의 입력 간선과 두개 이상의 출력 간선을 가지는 노

드 : 내부3. 정확히 하나의 입력 간선을 갖고 출력 간선은 없는 노드 : 단말


• 예제 트리



예제 2 : 탈세여부 검사?


Tid 환급 결혼 상태 수입 탈세

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes 10

환급

결혼상태

수입

YESNO

NO

NO

Yes No

MarriedSingle, Divorced

< 80K > 80K

Splitting Attributes

Training Data Model: Decision Tree



Tid 환급 결혼 상태 수입 탈세

1 Yes Single 125K No

2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No

5 No Divorced 95K Yes

6 No Married 60K No

7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes 10

결혼상태

환급

수입

YESNO

NO

NO

Yes No

MarriedSingle,

Divorced

< 80K > 80K

동일한 데이터에 대해 하나 이상의의사 결정 나무가 존재할 수 있다!

Documents

분류기법 - contents.kocw.or.krcontents.kocw.or.kr/document/region/2010/04/02/04_02_12_su01.pdf · 데이터마이닝기법 제주물산업센터-수자원데이터베이스(제주대학교)