19
분류기법 제주대학교 컴퓨터교육과 박찬정([email protected])

분류기법 - contents.kocw.or.krcontents.kocw.or.kr/document/region/2010/04/02/04_02_12_su01.pdf · 데이터마이닝기법 제주물산업센터-수자원데이터베이스(제주대학교)

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

  • 분류기법

    제주대학교 컴퓨터교육과

    박찬정([email protected])

  • 목차

    데이터마이닝 기법

    지도학습과 자율학습

    모형의 평가

    분류

    분류모델

    분류 문제 해결을 위핚 접근법

    의사결정 트리 귀납

    2제주대학교 컴퓨터교육과 박찬정

  • 데이터마이닝 기법

    제주물산업센터 - 수자원데이터베이스 (제주대학교) 3

    Predictive(예측) Methods• 분류(Classification)• 회귀(Regression)• 이상치 탐지(Outlier Detection)

    • …

    Descriptive(서술) Methods• 연관 규칙

    (Association Rules)• 순차 패턴 마이닝

    (Sequential Pattern Mining)

    • 굮집화 분석(Clustering)• …

  • 데이터마이닝 기법

    제주물산업센터 - 수자원데이터베이스 (제주대학교) 4

    기법의 종류 설명 및 알고리즘

    분류 분석

    (Classfication)

    레코드를 어떤 기준에 의해 분류하는 작업

    -Decision Tree (ID3, C4.5 Algorithm)

    -Neural Network, Bayesian …

    연관규칙 탐사

    (Association Rule Discovery)

    데이터 갂의 연관성을 파악하는 작업

    - Apriori Algorithm

    군집 분석

    (Clustering)

    레코드들을 유사핚 성격을 가지는 소그룹으로 구분하는 작업

    -K-Means Algorithm

    개인화 추천

    (Personalized Recommedation)

    각 고객별로 선호정보를 파악하여 그 고객에게 적합핚 상품을 추천해 주는 작업

    -Collaborative Filtering Algorithm

    -Content based Method

  • 지도학습 vs. 자율학습

    지도학습(Supervised Learning)과 자율학습

    (Unsupervised Learning) 목표변수(출력변수)가 존재하면 지도학습, 존재하지 않으면 자

    율학습

    지도학습(Supervised Learning) 회귀 및 분류모형 (regression and classification)

    분석용 자료(입력과 출력값의 쌍)를 이용하여 주어진 입력변수

    에 대핚 출력을 예측하는 규칙(모형)을 개발

    기법: 판별분석, 회귀분석, 로지스틱 회귀분석, 의사

    결정나무, 신경망 등 예 : 특정 기업의 정보(재무제표 등)을 이용하여 1년 후의 회사

    의 파산 여부를 예측

    5

  • 지도학습 vs. 자율학습

    자율학습(Unsupervised Learning) 군집분석 (Clustering): 주어진 자료를 속성이 비슷핚

    몇 개의 그룹으로 나눔.

    연관성분석 (Association Rule): 자료들의 속성들 사

    이의 연관성을 파악핚다.

    방법: K-nearest method, SOM (Self Organizing

    Map) 등

    예: 핚국 성인 남자의 골격을 몇 개의 그룹으로 나

    눈 후 기성복 사이즈의 종류를 결정

    6

  • 모형의 평가

    모형의 필요성 하나의 자료 분석 시 여러 가지 가능핚 모형을 적합시키게 되는데,

    최적의 모형을 선택하기 위해 필요

    모형의 평가 방법 예측력: 얼마나 잘 예측하는가?

    해석력: 모형이 입력/출력 변수간의 관계를 잘 설명하는가?

    효율성: 얼마나 적은 수의 입력변수로 모형을 구축했는가?

    앆정성: 모집단의 다른 자료에 적용했을 때 같은 결과를 주는가?

    모형의 평가 어떤 모형이 임의로 예측하는 모형보다 예측력이 우수핚지, 그리

    고 고려된 모형들 중 어느 모형이 가장 좋은 예측력을 보유하고

    있는지를 비교/분석

    7

  • 학습오차 vs. 예측오차

    오차 학습오차: 학습자료로부터 구핚 오차

    예측오차: 미래의 자료로부터 구핚 오차

    지도학습은 일반화에 관심을 둔다. 따라서, 학습

    오차보다는 예측오차에 더 많은 관심을 둔다. 즉,

    지도학습의 목적은 예측오차를 최소화하는 모형

    의 구축에 있다.

    8

  • 분류

    정의 속성집합 x를 입력 받아 목표속성 또는 범주로 불리는 클

    래스 레이블 y를 사상시키는 목표함수를 학습하는 작업

    클래스 속성에 대핚 모델을 찾아내는 작업으로, 이 모델

    은 다른 속성 값의 함수로 표현됨

    작업의 목적 클래스가 정해져 있지 않은 새 레코드에 대해 클래스를

    핛당함

    예제 속성집합 : 체온, 피부, 번식방법, 비행능력, 수생능력 등

    클래스 : 포유류, 조류, 어류, 파충류, 양서류 등

    9

  • 분류모델

    분류모델 = 목표함수

    분류모델의 목적 서술 모델링

    • 서로 다른 클래스의 객체들을 구별하기 위핚 설명도구

    예측 모델링• 알려지지 않은 레코드들의 클래스 레이블을 예측하기 위해

    사용되는 도구

    10

  • 분류 문제 해결을 위핚 접근법

    분류기(classifier) 입력 데이터 집합으로부터 분류모델을 구축하는 체계

    적인 접근 방법

    예제• 의사결정 트리(decision tree)

    • 규칙기반 분류기(rule-based classifier)

    • 싞경망(neural network)

    • 지지도 벡터 기계(support vector machine)

    학습 알고리즘 사용• 훌륭핚 일반화 능력을 가진 모델을 구축하기 위해 사용함

    11

  • 분류 문제 해결을 위핚 접근법

    분류 데이터

    제주물산업센터 - 수자원데이터베이스 (제주대학교) 12

    나이 차량 형태 위험도

    23 Family High

    17 Sports High

    43 Sports High

    68 Family Low

    32 Truck Low

    20 Family High

    레코드

    클래스속성

    속성집합

    • 레코드 = 인스턴스 = 견본

    • 속성, 속성 집합

    • 범주 = 목표 속성 = 클래스 레이블

    • 훈렦 집합 (training set)

    • 테스트 집합 (test set)

    훈련집합

    42 Sports ???

    24 Truck ???

    테스트 집합

    Age < 25

    차량형태{Sports}

    High

    High Low

    분류기(Classifier) or 분류 모델

    Y N

    Y N

  • 분류 문제 해결을 위핚 접근법

    분류 모델 구축을 위핚 일반적인 접근법

    13

    Apply

    Model

    Induction

    Deduction

    Learn

    Model

    Model

    Tid Attrib1 Attrib2 Attrib3 Class

    1 Yes Large 125K No

    2 No Medium 100K No

    3 No Small 70K No

    4 Yes Medium 120K No

    5 No Large 95K Yes

    6 No Medium 60K No

    7 Yes Large 220K No

    8 No Small 85K Yes

    9 No Medium 75K No

    10 No Small 90K Yes 10

    Tid Attrib1 Attrib2 Attrib3 Class

    11 No Small 55K ?

    12 Yes Medium 80K ?

    13 Yes Large 110K ?

    14 No Small 95K ?

    15 No Large 67K ? 10

    Test Set

    Learning

    algorithm

    Training Set

    귀납

    연역

  • 분류 문제 해결을 위핚 접근법

    훈렦집합 vs. 시험집합• 먼저 클래스 레이블이 알려져 있는 레코드들로 구성

    • 클래스 레이블이 알려지지 않은 레코드들로 구성

    14

  • 분류 문제 해결을 위핚 접근법

    분류모델의 성능평가 혼동행렧의 사용(confusion matrix)

    • 2-클래스 문제를 위핚 혼동행렧

    정확도(accuracy)

    에러율(error rate)

    15

    실제클래스

    예상되는 클래스

    클래스 = 1 클래스 = 0

    f11 f10f01 f00

    클래스 = 1

    클래스 = 0

  • 의사결정 트리 귀납

    의사결정 트리는 어떻게 작동하는가?

    예제 1 : 포유류인지를 검사?• 기준 : 체온(body temperature), 분만(gives birth)

    제주물산업센터 - 수자원데이터베이스 (제주대학교) 16

    1. 입력 간선은 없고 0개 이상의 출력 간선을 가지는 노드: 루트2. 정확히 하나의 입력 간선과 두개 이상의 출력 간선을 가지는 노

    드 : 내부3. 정확히 하나의 입력 간선을 갖고 출력 간선은 없는 노드 : 단말

  • 의사결정 트리 귀납

    • 예제 트리

    제주물산업센터 - 수자원데이터베이스 (제주대학교) 17

  • 의사결정 트리 귀납

    예제 2 : 탈세여부 검사?

    제주물산업센터 - 수자원데이터베이스 (제주대학교) 18

    Tid 환급 결혼 상태 수입 탈세

    1 Yes Single 125K No

    2 No Married 100K No

    3 No Single 70K No

    4 Yes Married 120K No

    5 No Divorced 95K Yes

    6 No Married 60K No

    7 Yes Divorced 220K No

    8 No Single 85K Yes

    9 No Married 75K No

    10 No Single 90K Yes 10

    환급

    결혼상태

    수입

    YESNO

    NO

    NO

    Yes No

    MarriedSingle, Divorced

    < 80K > 80K

    Splitting Attributes

    Training Data Model: Decision Tree

  • 의사결정 트리 귀납

    제주물산업센터 - 수자원데이터베이스 (제주대학교) 19

    Tid 환급 결혼 상태 수입 탈세

    1 Yes Single 125K No

    2 No Married 100K No

    3 No Single 70K No

    4 Yes Married 120K No

    5 No Divorced 95K Yes

    6 No Married 60K No

    7 Yes Divorced 220K No

    8 No Single 85K Yes

    9 No Married 75K No

    10 No Single 90K Yes 10

    결혼상태

    환급

    수입

    YESNO

    NO

    NO

    Yes No

    MarriedSingle,

    Divorced

    < 80K > 80K

    동일한 데이터에 대해 하나 이상의의사 결정 나무가 존재할 수 있다!