Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
목차
의사결정 트리의 종료 조건
의사결정 트리기법의 장점
모델과잉적합
제주물산업센터 - 수자원데이터베이스 (제주대학교) 2
의사결정 트리 귀납
의사결정 트리의 종료 조건 모든 레코드들이 같은 클래스에 속핚 경우 중단
모든 레코드가 유사핚 속성값을 가지는 경우 트리 확
장 중단
제주물산업센터 - 수자원데이터베이스 (제주대학교) 3
의사결정 트리 귀납
장점 구성비용이 저렴
알려지지 않은 레코드 분류가 매우 빠름
작은 크기의 트리에 대핚 해석이 용이
다른 분류기법에 비해 단순핚 데이터 집합에 대해서
는 정확함
제주물산업센터 - 수자원데이터베이스 (제주대학교) 4
모델과잉적합
Overfitting vs. Underfitting
제주물산업센터 - 수자원데이터베이스 (제주대학교) 5
Underfitting : 트리가 매우 단순하여 훈렦데이터 및 실험데이터에 대핚 오류가매우 큰 현상
모델과잉적합
Underfitting과 Overfitting의 정의 모델이 아직 데이터의 짂정핚 구조를 학습하지 못해
서 발생
훈렦오류는 적어지나 트리가 지나지게 훈렦데이터에
적합하여 일반화 오류가 증가하는 현상
원인 대표적인 견본부족
잡음
의사결정트리 귀납에서 과잉적합 다루기 사젂 가지치기(pre-pruning)
사후 가지치기(post-pruning)
제주물산업센터 - 수자원데이터베이스 (제주대학교) 6
개요
사이트 http://www.cs.waikato.ac.nz/ml/weka/
정의 자바 기반의 기계학습 도구
데이터 젂처리 도구
입력 파일 형식 ARFF 파일
단순히 데이터 집합을 제공함
@attribute• 속성 부분을 정의
@data• 데이터 부분을 정의
제주물산업센터 - 수자원데이터베이스 (제주대학교) 8
개요
형식
@attribute attrName {numeric, string, <nominal>, date}
numeric: a number
nominal: a (finite) set of strings, e.g.
{Iris-setosa,Iris-versicolor, Iris-virginica}
string: <arbitrary strings>
date: (default ISO-8601) yyyy-MM-dd’T’HH:mm:ss
제주물산업센터 - 수자원데이터베이스 (제주대학교) 9
개요
예제
제주물산업센터 - 수자원데이터베이스 (제주대학교) 10
% 1. Title: Iris Plants Database %
@RELATION iris
@ATTRIBUTE sepallength NUMERIC
@ATTRIBUTE sepalwidth NUMERIC
@ATTRIBUTE petallength NUMERIC
@ATTRIBUTE petalwidth NUMERIC
@ATTRIBUTE class {Iris-setosa,Iris-versicolor, Iris-virginica}
@DATA
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
동작 순서
1.Run weka GUI
2.Click 'Explorer'
3.'Open file...'
4.Select 'Classify' tab
5.'Choose' a classifier
6.Confirm options
7.Click 'Start'
8.Wait...
제주물산업센터 - 수자원데이터베이스 (제주대학교) 11
웨카 시작하기
Weka GUI Chooser
제주물산업센터 - 수자원데이터베이스 (제주대학교) 12
클릭하기
웨카 시작하기
Weka Explorer
제주물산업센터 - 수자원데이터베이스 (제주대학교) 13
클릭
웨카 입력 파일 열기
iris.arff 다운 받아 저장하기
제주물산업센터 - 수자원데이터베이스 (제주대학교) 14
http://archive.ics.uci.edu/ml/
입력파일에 대한 기본 화면
제주물산업센터 - 수자원데이터베이스 (제주대학교) 15
클릭
아이리스 종별 분포보기
제주물산업센터 - 수자원데이터베이스 (제주대학교) 16
Weka 분류분석 하기
분류 알고리즘 선택하기
제주물산업센터 - 수자원데이터베이스 (제주대학교) 17
클릭
Weka 분류분석 하기
의사결정나무 알고리즘 방식 중에서 J48 선택
제주물산업센터 - 수자원데이터베이스 (제주대학교) 18
Weka 분류분석 하기
옵션 설정하기
제주물산업센터 - 수자원데이터베이스 (제주대학교) 19
클릭
Weka 분류분석 하기
옵션들
제주물산업센터 - 수자원데이터베이스 (제주대학교) 20
Weka 분류분석 하기
분석 시작하기
제주물산업센터 - 수자원데이터베이스 (제주대학교) 21
클릭
Weka 분류분석 하기
제주물산업센터 - 수자원데이터베이스 (제주대학교) 22
마우스의 오른쪽 버튼 클릭하기
Weka 분류분석 하기
트리 가시화
제주물산업센터 - 수자원데이터베이스 (제주대학교) 23
클릭
Weka 분류분석 하기
의사결정나무 보기
제주물산업센터 - 수자원데이터베이스 (제주대학교) 24
Weka 분류분석 하기
J48 pruned tree------------------petalwidth <= 0.6: Iris-setosa (50.0)petalwidth > 0.6| petalwidth <= 1.7| | petallength <= 4.9: Iris-versicolor (48.0/1.0)| | petallength > 4.9| | | petalwidth <= 1.5: Iris-virginica (3.0)| | | petalwidth > 1.5: Iris-versicolor (3.0/1.0)| petalwidth > 1.7: Iris-virginica (46.0/1.0)Number of Leaves : 5Size of the tree : 9Time taken to build model: 0.03 seconds
제주물산업센터 - 수자원데이터베이스 (제주대학교) 25
Weka 분류분석 하기
=== Summary ===Correctly Classified Instances 144 96 %Incorrectly Classified Instances 6 4 %Kappa statistic 0.94 Mean absolute error 0.035 Root mean squared error 0.1586Relative absolute error 7.8705 %Root relative squared error 33.6353 %Total Number of Instances 150
=== Confusion Matrix ===
a b c <-- classified as49 1 0 | a = Iris-setosa0 47 3 | b = Iris-versicolor0 2 48 | c = Iris-virginica
제주물산업센터 - 수자원데이터베이스 (제주대학교) 26