26
분류 기법 제주대학교 컴퓨터교육과 박찬정([email protected])

분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

분류 기법

제주대학교 컴퓨터교육과

박찬정([email protected])

Page 2: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

목차

의사결정 트리의 종료 조건

의사결정 트리기법의 장점

모델과잉적합

제주물산업센터 - 수자원데이터베이스 (제주대학교) 2

Page 3: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

의사결정 트리 귀납

의사결정 트리의 종료 조건 모든 레코드들이 같은 클래스에 속핚 경우 중단

모든 레코드가 유사핚 속성값을 가지는 경우 트리 확

장 중단

제주물산업센터 - 수자원데이터베이스 (제주대학교) 3

Page 4: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

의사결정 트리 귀납

장점 구성비용이 저렴

알려지지 않은 레코드 분류가 매우 빠름

작은 크기의 트리에 대핚 해석이 용이

다른 분류기법에 비해 단순핚 데이터 집합에 대해서

는 정확함

제주물산업센터 - 수자원데이터베이스 (제주대학교) 4

Page 5: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

모델과잉적합

Overfitting vs. Underfitting

제주물산업센터 - 수자원데이터베이스 (제주대학교) 5

Underfitting : 트리가 매우 단순하여 훈렦데이터 및 실험데이터에 대핚 오류가매우 큰 현상

Page 6: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

모델과잉적합

Underfitting과 Overfitting의 정의 모델이 아직 데이터의 짂정핚 구조를 학습하지 못해

서 발생

훈렦오류는 적어지나 트리가 지나지게 훈렦데이터에

적합하여 일반화 오류가 증가하는 현상

원인 대표적인 견본부족

잡음

의사결정트리 귀납에서 과잉적합 다루기 사젂 가지치기(pre-pruning)

사후 가지치기(post-pruning)

제주물산업센터 - 수자원데이터베이스 (제주대학교) 6

Page 7: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

웨카(Weka)

제주대학교 컴퓨터교육과

박찬정([email protected])

Page 8: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

개요

사이트 http://www.cs.waikato.ac.nz/ml/weka/

정의 자바 기반의 기계학습 도구

데이터 젂처리 도구

입력 파일 형식 ARFF 파일

단순히 데이터 집합을 제공함

@attribute• 속성 부분을 정의

@data• 데이터 부분을 정의

제주물산업센터 - 수자원데이터베이스 (제주대학교) 8

Page 9: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

개요

형식

@attribute attrName {numeric, string, <nominal>, date}

numeric: a number

nominal: a (finite) set of strings, e.g.

{Iris-setosa,Iris-versicolor, Iris-virginica}

string: <arbitrary strings>

date: (default ISO-8601) yyyy-MM-dd’T’HH:mm:ss

제주물산업센터 - 수자원데이터베이스 (제주대학교) 9

Page 10: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

개요

예제

제주물산업센터 - 수자원데이터베이스 (제주대학교) 10

% 1. Title: Iris Plants Database %

@RELATION iris

@ATTRIBUTE sepallength NUMERIC

@ATTRIBUTE sepalwidth NUMERIC

@ATTRIBUTE petallength NUMERIC

@ATTRIBUTE petalwidth NUMERIC

@ATTRIBUTE class {Iris-setosa,Iris-versicolor, Iris-virginica}

@DATA

5.1,3.5,1.4,0.2,Iris-setosa

4.9,3.0,1.4,0.2,Iris-setosa

4.7,3.2,1.3,0.2,Iris-setosa

Page 11: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

동작 순서

1.Run weka GUI

2.Click 'Explorer'

3.'Open file...'

4.Select 'Classify' tab

5.'Choose' a classifier

6.Confirm options

7.Click 'Start'

8.Wait...

제주물산업센터 - 수자원데이터베이스 (제주대학교) 11

Page 12: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

웨카 시작하기

Weka GUI Chooser

제주물산업센터 - 수자원데이터베이스 (제주대학교) 12

클릭하기

Page 13: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

웨카 시작하기

Weka Explorer

제주물산업센터 - 수자원데이터베이스 (제주대학교) 13

클릭

Page 14: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

웨카 입력 파일 열기

iris.arff 다운 받아 저장하기

제주물산업센터 - 수자원데이터베이스 (제주대학교) 14

http://archive.ics.uci.edu/ml/

Page 15: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

입력파일에 대한 기본 화면

제주물산업센터 - 수자원데이터베이스 (제주대학교) 15

클릭

Page 16: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

아이리스 종별 분포보기

제주물산업센터 - 수자원데이터베이스 (제주대학교) 16

Page 17: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

Weka 분류분석 하기

분류 알고리즘 선택하기

제주물산업센터 - 수자원데이터베이스 (제주대학교) 17

클릭

Page 18: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

Weka 분류분석 하기

의사결정나무 알고리즘 방식 중에서 J48 선택

제주물산업센터 - 수자원데이터베이스 (제주대학교) 18

Page 19: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

Weka 분류분석 하기

옵션 설정하기

제주물산업센터 - 수자원데이터베이스 (제주대학교) 19

클릭

Page 20: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

Weka 분류분석 하기

옵션들

제주물산업센터 - 수자원데이터베이스 (제주대학교) 20

Page 21: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

Weka 분류분석 하기

분석 시작하기

제주물산업센터 - 수자원데이터베이스 (제주대학교) 21

클릭

Page 22: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

Weka 분류분석 하기

제주물산업센터 - 수자원데이터베이스 (제주대학교) 22

마우스의 오른쪽 버튼 클릭하기

Page 23: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

Weka 분류분석 하기

트리 가시화

제주물산업센터 - 수자원데이터베이스 (제주대학교) 23

클릭

Page 24: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

Weka 분류분석 하기

의사결정나무 보기

제주물산업센터 - 수자원데이터베이스 (제주대학교) 24

Page 25: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

Weka 분류분석 하기

J48 pruned tree------------------petalwidth <= 0.6: Iris-setosa (50.0)petalwidth > 0.6| petalwidth <= 1.7| | petallength <= 4.9: Iris-versicolor (48.0/1.0)| | petallength > 4.9| | | petalwidth <= 1.5: Iris-virginica (3.0)| | | petalwidth > 1.5: Iris-versicolor (3.0/1.0)| petalwidth > 1.7: Iris-virginica (46.0/1.0)Number of Leaves : 5Size of the tree : 9Time taken to build model: 0.03 seconds

제주물산업센터 - 수자원데이터베이스 (제주대학교) 25

Page 26: 분류기법contents.kocw.or.kr/document/region/2010/04/02/04_02_13...의사결정트리귀납 장점 구성비용이저렴 알려지지않은레코드분류가매우빠름 작은크기의트리에대핚해석이용이

Weka 분류분석 하기

=== Summary ===Correctly Classified Instances 144 96 %Incorrectly Classified Instances 6 4 %Kappa statistic 0.94 Mean absolute error 0.035 Root mean squared error 0.1586Relative absolute error 7.8705 %Root relative squared error 33.6353 %Total Number of Instances 150

=== Confusion Matrix ===

a b c <-- classified as49 1 0 | a = Iris-setosa0 47 3 | b = Iris-versicolor0 2 48 | c = Iris-virginica

제주물산업센터 - 수자원데이터베이스 (제주대학교) 26