18
(1) 정보통계학과 권세혁 SAS E-Minor 맛보기

SAS E-Minor 맛보기 - wess.hannam.ac.krwess.hannam.ac.kr/lecture/Spring03/Mining2.pdf정보통계학과 권세혁 (3) SAS/ Enterprise Miner 는 마이닝의 전과정을 GUI 환경으로

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

(1) 정보통계학과 권세혁

SAS E-Minor 맛보기

(2) 정보통계학과 권세혁

사용자는 SAS/Enterprise Miner가 기본적으로 제공하는 기능별 작업 툴을 작업의 순서와

동일하게 늘어 놓음으로써 PFD(Process Flow Diagram)를 구성하고 작업의 전체 과정을 한

화면에서 제어/관리 할 수 있다.

기본적으로 제공되는 작업 툴 이외의 별도작업이 필요한 경우 사용자 정의 프로그램을

부분적으로 삽입할 수 있다.

Neural Networks, Decision Trees, Regression, Forecasting 등의 전통적인 통계분석방법 뿐만

아니라 최근에 등장한 다양한 Mining 기법을 제공한다.

Mining과정에서 구축된 두개이상의 모형을 그래프화하여 시각적으로 비교, 평가할 수 있는 Lift

Chart, ROI Chart, Profit Chart를 제공한다. 이를 이용하여, 구축한 모형 중 성능이 가장 좋은

모형을 손쉽게 선택할 수 있다.

대용량 데이터 모형화(Modeling)을 위한 원격지 수행(Remote Processing) 가능

다양한 DB(DB2, Informix, Oracle, Sybase, DB2 등)를 SAS/ACCESS, SAS/Warehouse

Administrator, SAS의 Query Window를 통하여 추출, 사용 가능

SAS/Enterprise Miner 특징

(3) 정보통계학과 권세혁

SAS/ Enterprise Miner 는

마이닝의 전과정을 GUI 환경으로 수행

SAS/ Enterprise Miner 는

다양한 RDBMS 접근 및 다양한 플랫폼에 탑재,

C/S 환경으로 마이닝 작업 수행,

산출물들을 target DB에 쉽게 반영

SAS/Enterprise Miner 는

DATA Management 능력이 우수,

파생 데이터들을 쉽게 생성

SAS/Enterprise Miner는

막강한 분석기법 제공 및 각 분석기법에 따른

다양한 옵션 활용가능

SAS/Enterprise Miner는

모델 평가기능이 내장,

모델의 유용성이 쉽게 파악

SAS/ Enterprise Miner 는

데이터 추출에서 결과반영까지의 전과정이

프로그램 코드로 생성되어 언제든지 재실행이 가능

초기 샘플화일 생성

분석 대상용

샘플화일

완성

변수 특성 파악

모형화 작업

모형 평가 선정 최종모형 구축단계

선정된 모형 적용 모형 적용

분석주제 설정 , 필요 데이터확인

마케팅 전략 계획/실행/평가

파생 변수 생성

SAS/Enterprise Miner 특징 : 요약

(4) 정보통계학과 권세혁

• Hardware : Any Hardware(Client, NT, UNIX, Mainframe)

• DataBase : Any DBMS

Oracle

Informix

DB2 ….

Unix

Data Warehouse Server(UNIX)

SAS/Base

SAS/STAT

SAS Enterprise Miner

Data Mining Server(UNIX, NT)

SAS/Base

SAS/STAT

SAS Enterprise Miner

Data Mining Client

1. 목표데이터 선정

2. 마이닝 절차 설계

3. 데이터

마이닝

작업 4. 결과 반영

SAS/Enterprise Miner 특징 : 사용 환경

(5) 정보통계학과 권세혁

< SAS/Enterprise Miner : PFD >

(6) 정보통계학과 권세혁

< SAS/Enterprise Miner : Any DB Access >

(7) 정보통계학과 권세혁

< SAS/Enterprise Miner : Source Data 선택 >

(8) 정보통계학과 권세혁

문제 정의

Model OK ?

Good ?

DM 절차

필요 Data 확인

OLTP

Data Warehouse

Data Mart

SEMMA

결과 해석 문제 수정

DB Update

Test Marketing

적용 결과 평가 확대 적용

및 반응 평가

28

NO

NO

YES

YES

(9) 정보통계학과 권세혁

S A M P L E

E X P L O R E

M O D I F Y

SAMPLING ?

M O D E L

A S S E S S

VISUAL

EXPLORATION

CLUSTERING;

FACTOR;

CORRESPONDENCE

VARIABLE

GROUPING

SUBSETTING

ADDING OR

SUBSETTING

OF RECORDS

NEURAL

NETWORKS

TREE-BASED

MODELS

STATISTICAL

TECHNIQUES

TIME SERIES

ANALYSIS

DATA UPDATE?

NEW QUESTIONS?

SAS Data Mining 방법론 : SEMMA

(10) 정보통계학과 권세혁

분 류 작업 툴 기 능

Sample Input Data Source Mining에 필요한 데이터 입력

변수의 역할(설명/반응변수)지정

Sample 다양한 Sampling 기법 지원

- Simple Random Sampling(Default)

- Sampling Every Nth Observation

- Stratified Sampling

- Sampling the first n observation

- Cluster Sampling

Explore/ Filter Outlier 변수별로 히스토그램을 이용하여

Modify 시각적으로 이상치를 판별, 제거하는

기능

SAS Data Mining 방법론 : SEMMA

(11) 정보통계학과 권세혁

분류 작업 툴 기능 Explore/ Transform Variables 분산안정화, 정규화 등을 위한 변수변환 실시

Modify - Exponential

- Inverse

- Log

- Square

- Square Root

Bar Chart 변수의 분포를 막대그래프 형태로 시각화

- 최대 3차원 그래프까지 가능

- 이상치 판단가능

Data Mining Database 분석에 입력되는 데이터 셋에 대한 정보를 가진 형태

(DMDB) - 각 변수들의 역할, 형태(연속형/이산형)등의 정보 포함

- 이산형 변수의 경우 레코드의 길이(Length)를 줄여서

기억함으로써 작업공간을 효율적으로 이용

SAS Data Mining 방법론 : SEMMA

(12) 정보통계학과 권세혁

분류 작업 툴 기능 Explore/ Variable Selection 3가지 기준에 의한 자동적인 변수선택

Modify - 반응변수와의 연관성이 적은 변수 제거

- 설명 변수간의 종속관계 제거

- 결측치가 많은 변수 제거

Model Regression 반응변수의 형태에 따라 연결함수 자동 지정

일반화선형모형 적합

- 선형회귀

- 로지스틱 회귀

- 프로빗 회귀

- 보 로그-로그(Complementary Log-Log) 회귀

Data Splits 목표집단의 Segmentation이나 Profiling에 이용

의사결정의 기준을 제공

다양한 설명변수 중 중요변수선정에 유리

CHAID, CART 알고리즘지원

SAS Data Mining 방법론 : SEMMA

(13) 정보통계학과 권세혁

분류 작업 툴 기능 Model Data Splits 각 알고리즘에 따른 분류기준지정 가능 - CHAID : Chi-Square test, F test

- CART : Entropy Reduction, Gini Reduction,

Variance Reduction

Neural Network 복잡한 비선형 구조에 관한 예측모형생성

설명변수의 정보를 조합하는 능력이 우수

다양한 아키텍쳐 제공

- Generalized Linear Model(GLIM)

- Multilayer Perceptron(MLP)

- Radial Basis Function(RBF)

- Equal -Width RBF, Normized RBF,

Normalized Equal-Width RBF

Neural Network Optimization 기능

- 설명변수 개수, Hidden Layer 개수, 각 Layer의

Neuron의 수, Activation/Combination Function,

Training 방법 등을 추천

SAS Data Mining 방법론 : SEMMA

(14) 정보통계학과 권세혁

분류 작업 툴 기능 Assess Assessment 그래프를 통한 두개이상의 모형 성능 비교

- Lift Chart, ROI Chart, Profit Chart

각 모형의 적합도를 측정 할 수 있는 관련 통계치를

테이블과 리스트형태로 제공

기타 Association 관측치 간의 연관성을 측정하여 Rule을 발견

상품진열 , 카탈로그 발송, 소프트웨어 Bundling,

Cross-Selling등에 유용하게 적용

Clustering K-means 알고리즘을 이용한 관측치의 그룹화

Tool 3차원 막대그래프를 이용한 결과 확인

- 그룹화에 주요한 요인으로 작용한 변수 확인가능

파이그림을 이용한 각 그룹의 기여도 측정

Utilities SAS Code 작업 툴로써 지원되지 않는 분석 Procedure, 혹은 데이

터의 관리등, 별도의 SAS 프로그램 삽입기능

SAS Data Mining 방법론 : SEMMA

(15) 정보통계학과 권세혁

기존 카드사 들과의 경쟁 심화 및 다수의 신생카드업체의 등장 예고

신용카드의 분실 , 도난 혹은 위조에 의한 각종 범죄의 피해 증가

상당한 손실의 발생에 따른 수익의 막대한 지장

보다 체계적이고 효과적인 방지책 요구

효율적인 리스크 관리를 통한 수익성 지향의 방안

승인요청 시 , 분실도난에 의한 부정사용여부를

판단하는 시스템 - 분실도난 조기 검색 시스템 - 개발

적용 사례: Fraud Detection 목적

(16) 정보통계학과 권세혁

분실도난 조기검색 모형

- 통계적 방법론에 의한 주요요인 검색

- 과거 부정사용의 패턴 인식

- 신경망 이론의 적용

- 미래 부정사용 여부의 예측

분실도난 조기검색 모델링 시스템

- 모델링에 사용될 데이터 구비의 용이성

- 데이터탐색 작업의 용이성

- 시간경과에 따른 모형변경의 용이성

- 다양한 모형 시도의 가능성

- 신시스템으로의 이식 용이성

- 확률값 조정에 따른 도용 의심 건수 조절의 용이성(ROI 확인)

적용 사례: Fraud Detection 개요

(17) 정보통계학과 권세혁

승인요청

승인여부

분실도난

조기

검색

시스템

기존승인심사

YES

승인거절

NO

검색대상

모형적용

부정?

NO

YES

승인

• 가맹점 단말기

• ARS

• 전화

Action (확인)

YES

NO

사고카드

사고가맹점

한도초과...

적용 사례: Fraud Detection 시스템 흐름

(18) 정보통계학과 권세혁

데이터

Query

데이터 탐색

/변환

신경망

모델링 샘플링 평가

비즈니스 경험

데이터 정리

샘플단위 기초요약

빈도분포

(Chi-Square Test)

그래프

군집화

Scaling

다양한

아키텍처에 의한

신경망 모델링

실시

다양한

확률값에 따른

검출효율과

검출력 비교

적용 사례: Fraud Detection 구축 과정