통계청 단기 연수 교육 강의 노트 Data Miningwess.hannam.ac.kr/lecture/spring03/data_mining.pdf용어 정리 [OLAP: On-Line Analytical Process] 사용자로 하여금 대용량

통계청 단기 연수 교육 강의 노트 Data Mining

Sehyug Kwon, Dept. of Statistics, HANNAM University http://wolfpack.hannam.ac.kr June 16, 2003 copyright © all rights reserved. 1

1장. Data Mining 개요

1.1. Data mining 정의

· DM is a process of identifying and/or extracting previously unknown, non-trivial, unanticipated, important

information from large sets of data. -Wolfgang Martin-

· DM is the exploration and analysis, by automatic or semiautomatic means, of large quantities of data to

discover meaningful patterns or rules.

· DM is one of application tools for Data Warehousing to end-users for information.

· DM is a modern Exploratory Data Analysis.

누가 DM 전문가인가?

컴퓨터 공학 : Data-Warehousing (데이터를 잘 저장, Data integration)

통계학: Data Mining 기법 (Reg., Logistic, Decision Tree, Neural Network, Clustering, Discriminant)

경영정보(MIS): 의사 결정 및 경영학적 마인드

언제 DM이 가능한가?

대용량 데이터가 있어야 한다. DW 혹은 Database 데이터풍부, 정보 빈약

DM 관련 전문가 (통계학자, 마케팅, 고객 관련 경영 전문가)

DM은 무엇을 할 수 있나?

대용량 데이터 정리 (표, 그래프) Database Query 기능 수행



제품 군집: 함께 구매하는 제품들을 그룹화 (Market Basket Analysis: beer & diaper 예제)

고객에 대한 분류: 기업에서 우량, 불량 고객 분류 및 판별

고객 관련 정보 모형화: 추정 및 예측

DM 을 이용한 사례를 들어 보자. 미국 Grocery Safeway (고객 관련 정보를 건당 5.5 cent 받고

Pepsi에 판매), FBI(유사 범죄 판별 분석을 통한 범인 검거), IRS (탈세자 판단), 은행 (개인 대출), 신용

카드사 (불량 고객 미리 진단)

1.2. 왜 Data Mining인가?

DM은 기업 경쟁력 강화를 위한 비밀 병기이다.

· 고객은 기업과 직접 만날 수 없어도 자신들의 요구, 선호도, 만족도, 하물며 개인 사정까지도 알아

주기 원한다. 예전 구멍 가게 주인으로부터 받았던 그 관심으로… CRM (Customer Relationship

Management 고객 관리 경영)

· 고객들이 함께 사는 품목들을 조사하여 구매 동선을 줄인다.

· 좋은 고객을 유지하고, 불량 고객은 정리하고, 불량 고객이 될 가능성이 보이는 고객을 미리

탐지하여 비용을 절감하고 이윤을 높인다. (예)신용 카드 회사

· 떠나는 고객 원인 분석, 새로운 고객 창출 방법에 대한 정보를 얻는다. (예) AT&T 50$ 쿠폰

DM 관련 Technology 발전

· 컴퓨터 대용량, 초고속화

· OLTP과 Data warehouse 발달

[On-Line Transaction Process] 은행이나, 항공사, 온라인 쇼핑, 기업 등을 포함한 많은 산업체에서 데

이터 입력이나 거래조회 등을 위한 트랜잭션 지향의 업무를 쉽게 관리해주는 프로그램으로 IBM의

CICS가 가정 널리 사용되는 프로그램이다.

[Data Warehouse] 회사의 각 사업부문에서 수집된 모든 데이터에 관한 중앙 창고라 할 수 있다.

(용어 W.H. Inmon). DW는 회사의 메인 프레임 서버에 구축되며, 다양한 온라인 거래처리 프로그램



들이나 기타 다른 출처로부터 모아진 데이터들은 분석적인 용도나 사용자 질의에 사용되기 위하여

선택적으로 추출되고 조직화되어 DW 데이터 베이스에 저장된다.

· DM 관련 소프트웨어 발달: SAS E-minor, SPSS Clementine

· 데이터 마이닝을 넘어 Text mining이다. (예) 소비자 불만 처리 관련 게시판, 인터넷 연구 자료 수집

1.3. 데이터로부터 정보 흐름 Architecture

DM 은 DW 데이터로부터 정보를 얻기 위하여 만들어진 Data Mart 로부터 다양한 분석 기법을

이용하여 원하는 고객 관련 정보(Business information)를 얻는 통계 분석 방법으로 현대적 의미의

탐색적 자료 분석(Exploratory Data Analysis) 기법이다.



1.3.1. 탐색적 자료 분석

고전적 데이터(자료) 분석은 연구 목적이 설정되면 그에 맞는 1)통계적 가설(statistical hypothesis),

모형(model)을 설정하고 2)데이터 수집하여 3)가설 혹은 모형의 유의성(significance)을 검정하였다.

이를 Confirmatory(확증적) Data Analysis 라 한다. 이와는 달리 1977 년 John W. Tukey (Princeton

University Bell Lab)가 제안한 탐색적 데이터 분석(EDA: Exploratory Data Analysis) 방법은 이미 수집된

데이터로부터 정보를 얻어내는 일련의 방법이다. (1)이미 수집된 데이터가 가진 정보를 숫자

요약(중앙값, 사분위, 범위)과 그래프 (stem-leaf plot, box plot, scatter plot)를 이용하여 찾아내거나

(2)데이터를 보다 유용하게 (정규분포 혹은 대칭인 분포) 만들기 위하여 데이터를 재표현(re-expression

= data transformation 예: log 변환) 하는 일련의 방법이다. 아래 항목 제목은 Tukey 의 EDA 책에

나오는 EDA 정의이다.

1) EDA is about looking at data to see what it seems to say

데이터가 가진 정보를 데이터의 탐색만으로 얻는 방법이다. 이전 통계학이 추론 통계에 의존했다면

EDA는 통계학이 기술 통계학(descriptive statistics)임을 강조하고 있고 통계적 가설 설정 과정 없다.

2) EDA is a detective work.

여러 도구(tools: 기술 통계량, 관련 그림)와 직감(intuition: 데이터 분석 경험에서 얻는 분석 know-

how) 이용하여 정보(결론)를 유추하는 분석 방법이다. CDA는 판사(judge)의 작업이라면 EDA는 여러

정황을 고려하여 사건을 분석하는 탐정과 같은 역할이다.

3) To learn about data analysis, it is right that each of us try many things that do not work.

데이터로부터 정보를 얻기 위하여 다양한 시도를 해야 한다. 데이터를 다루는 풍부한 경험(비록 성

공하지 못하더라도)으로부터 올바른 데이터분석이 가능하기 때문이다.

4) EDA can never be the whole story, but nothing else can be served as the first step.

탐색적 데이터 분석은 분석의 모든 것은 아니지만 첫 단계가 된다. 탐색적 데이터 분석을 통해 얻은

정보를 이용하여 통계적 가설이나 모형을 설정하여 연구하기도 하고 의사 결정에 이용하여 정보의



정확 정도를 측정하기도 한다.

5) EDA is a paper-pencil method.

컴퓨터(소프트웨어)가 보편화 되지 못한 초기에는 데이터의 수가 적었으므로 그래프나 통계량들을

직접 그리거나 계산하기에 편리하게 제안된 방법이기 때문에 이런 별명을 가지고 있다. 요즈음은 통

계 소프트웨어의 발달로 쉽게 그리거나 구할 수 있으므로 정보 얻는 방법, 해석 방법을 이해하는 것

이 중요하다.

6) Data Mining is a modern EDA.

OLTP에 의해 수집된 대용량 데이터를 Data Warehousing가 체계적으로 저장하고 이 데이터가 가진

정보를 발견해가는 DM도 탐색적 자료 분석이다.

1.3.2. 용어 정리

[OLAP: On-Line Analytical Process] 사용자로 하여금 대용량 데이터로부터 원하는 정보를 한 눈에

파악할 수 있도록 표나 그래프를 제공한다. 예를 들어 2002 년 A 제품 월 매출액과 B 제품 월

매출액 을 한꺼번에 볼 수 있게 한다. 이러한 종류의 분석을 쉽게 하기 위해 OLAP 데이터는

다차원 데이터베이스 내에 저장된다. 관계형 데이터베이스가 2 차원이라고 생각할 수 있는데 반해

다차원 데이터베이스란 각 데이터 속성(제품명, 매출지역, 기간, 고객 정보 등)이 각기 별개의

차원으로서 간주되는 것이다. OLAP 소프트웨어는 차원들 간의 교점을 찾아내어 그것들을

표현하거나 데이터 항목들 간의 상관관계를 찾아내는 일 등에 활용될 수 있다. ODBC [Open

Database Connectivity: database 를 액세스하기 위한 표준 개방형 응용 프로그램 인터페이스이다.

프로그램 내에 ODBC 문장을 사용하면 MS-Access, dBase, DB2, Exce 등 여러 가지 종류의

데이터베이스에 액세스 가능]를 사용하면 기존의 관계형 데이터베이스로부터 OLAP 위한 다차원

데이터베이스로 가져올 수 있다. Arbor Software 의 Essbase, Oracle 의 Express Server 가 예이다.

[Data Mart] 전사적인 데이터베이스 혹은 자사 DW 다른 회사로부터 넘겨 받은 database 로부터

원하는 정보를 얻기 위한 분석을 목적으로 변형시킨 데이터를 의미한다. Data Mart 데이터가

갖추어야 할 조건은 분석이나, 내용물, 표현 및 사용의 용이성 등의 측면에서 분석자의 명확한



요구에 부합되는 데에 있다. Data Mart 와 DW 는 유사해 보이지만 Data Mart 설계는 사용자 요구

분석으로부터 시작하고 DW 는 이미 존재하는 데이터가 어떤 것인지 그러한 것들이 어떻게 수집될

수 있는지에 대한 분석으로부터 시작된다.

[DBMS: DataBase Management Server] 데이터베이스 관리 시스템. 다수의 컴퓨터 사용자들이

데이터베이스 안에 데이터를 기록하거나 접근할 수 있도록 해주는 프로그램이다. DBMS 는 사용자

요구 사항들이나 다른 프로그램의 요구사항들을 관리함으로써 사용자들이나 다른 프로그램들이

실제로 그 데이터가 저장매체의 어느 곳에 저장되어 있는지를 이해하지 않고서도 다중

사용자환경의 그 누구라도 데이터를 이용할 수 있도록 해준다. 사용자 요구사항들을 처리함에

있어 데이터의 무결성(데이터베이스가 계속해서 접근이 가능하며, 또한 의도한대로 조직화되어

있다는 사실을 확인해주는 것)과 오직 허가된 사용자들만이 데이터에 접근할 수 있게 하는

보안성을 보장해야 한다. 가장 일반적인 형태의 DBMS 가 관계형 데이터베이스 관리 시스템

(RDBMS)이다. DBMS 는 데이터베이스 내의 데이터를 관리하는 파일 관리자라고 생각할 수도 있다.

PC 에서는 MS-Access 가 단일사용자 및 소규모 사용자용 DBMS 의 대표적인 예이며 SQL

Server 는 다중 사용자들의 데이터베이스 요구를 지원하는 DBMS 의 한 예이다. IBM 의 DB2,

Oracle 의 DBMS 등이 있다.

[Database] 사용자가 데이터에 쉽게 접근하여 원하는 작업을 처리할 수 있도록 구성된 데이터의

집합체이다. 가장 널리 보급된 데이터베이스는 데이터를 다양한 방법으로 접근하고 재구성할 수

있도록 정의한 테이블 형 database 인 RDBS 이다. 분산 데이터 베이스는 네트워크 상의 여러

다른 지점에 분산되어 있거나 중복되어 있는 데이터베이스를 말하며 객체 지향(object-oriented)

데이터 베이스는 객체 클래스와 서브 클래스로 정의된 데이터가 서로 일치하는 데이터베이스이다.

SQL 은 IBM 의 DB2, 마이크로소프트의 Access 와 Oracle, Sybase, Informix 등의 데이터베이스를

대화 형식으로 직접 조회하거나 갱신할 수 있도록 만들어진 표준 언어이다.

RDBDS[Relational DBMS 관계형 데이터베이스] 1970 년에 IBM 의 E. F. Codd 가 개발하였다. 관계형

데이터베이스는 일련의 정형화된 테이블로 구성된 데이터 항목들의 집합체로서 테이블을

재구성하지 않아도 데이터에 다양한 방법으로 접근하거나 조합될 수 있다. 사용자와 관계형

데이터베이스를 연결시켜주는 표준 검색언어를 SQL(Structured Query Language)이라고 하는데,



SQL 문장은 관계형 데이터베이스에 있는 데이터를 직접 조회하거나 또는 보고서를 추출하는데

사용된다. 관계형 데이터베이스는 만들거나 이용하기가 비교적 쉽고 확장이 용이하다는 장점을

가지고 있다. 관계형 데이터베이스는 미리 정의된 내용에 따라 테이블들이 구성되는데 각

테이블은 데이터 종류나 성격에 따라 여러 개의 열(column)이 포함될 수 있다. 예를 들어

주문거래 데이터베이스에는 성명, 주소, 전화번호 등의 열 항목으로 구성된 테이블과 또한 주문

내용(제품, 고객, 일자, 판매가격 등)을 나타내는 테이블이 포함될 것이며 사용자는 필요에 맞는

형태로 데이터베이스의 내용을 볼 수 있다. 관계형 데이터베이스를 정의하게 되면 그 테이블이나

열, 도메인 및 제한사항에 대한 내용을 가진 메타 데이터(metadata) 테이블이 함께 만들어진다.

[Metadata] "메타"란, "근원적인 정의 또는 설명"을 의미하는 접두사인데 메타 데이터란 데이터에 대한

정의나 설명이 되고, 메타 언어란 언어에 대한 정의나 설명이 되는 것이다.

[CRM] 기업이 잘 정리된 방법으로 고객 관계를 관리해 나가기 위해 필요한 방법론이나 소프트웨어

등을 지칭하는 정보산업계 용어로서 대개 인터넷 서비스 기능을 가지고 있다. CRM 을 위해서는

경영 계층이나 판매 사원들이 고객에게 양질의 서비스를 제공할 수 있을 정도로 자기 고객들에

대한 정보와 관계를 설명해줄 수 있을 정도의 데이터베이스가 구축되어 있어야 한다. (1)고객

만족과 이익의 극대화를 꾀하고 회사에 가장 도움이 되는 고객들을 식별해내며 그들에게 최상의

서비스를 제공하는 등, 고객들마다 선별적인 관계의 형성을 허용한다. (2)고객에 관해 알아야 하고

고객들의 요구가 무엇인지를 이해하고 회사와 고객기반 그리고 배송 파트너들과의 관계를

효과적으로 구축하기 위해 꼭 필요한 정보와 처리절차를 직원들에게 제공한다.

용어 개념

Statistics RDB Data Mining

Data set Table, Database Data set

Case Row, Record Record

Variable Column, Field Field

Independent Column, Field Predictor

Dependent Column, Field Prediction

Observation Value Value



1.4. The virtuous cycle of Data Mining

Data 는 사업 프로세스의 심장이다. 자료는 기업의 모든 거래를 통해 수집되므로 고객에 대한 정보와

(구매 패턴, 행동 패턴) 이를 근거로 어떤 의사 결정이 바람직한지를 결정하는데 기업에게는 필수적인

자원이다. 컴퓨터와 네트워크의 발달로 수집되는 자료의 양은 엄청나다. 그 자료들의 패턴을 분석하여

자료로부터 actionable (실행 가능한) 의사결정에 필요한 정보를 얻는 방법이 DM이다.

모든 기업이 겪고 있는 attrition(고객 감소) 문제를 해결하는 방법으로 DM 이 어떻게 이용되는지

살펴보기로 하자.

Attrition 문제

은행의 새로운 고객 유치, 기존 고객 유지 이자율 높이고, 대출 이자 낮추고, 수표 발행 수수료

없음

새로운 고객을 불러올 수 있겠지만 비용이 든다. 기존의 고객이 새로운 제도에 상관없이 남는 습성

이 있다면…

은행은 수지가 맞지 않는다는 이유로 무료 서비스를 중단할 경우 고객이 떠나 더 큰 손실을 겪게

된다.

은행의 의사결정이 어떤 한 부분에 국한된 정보만 가지고 의사 결정을 한다면 고객 감소는 (=경쟁

력 약화) 피할 수 없을 것이다.

DM 기법에 의한 문제 해결

(1) 문제를 정의한다. 고객 감소는 경영 악화로 이어지므로 고객 감소의 원인을 알 필요가 있다.

떠난 고객을 대상으로 설문조사? => 이전 고객 찾기 어려움, 응답의 신뢰성, 다양한 이유

고객 해지 시 떠나는 이유를 물어보거나 현재 고객을 대상으로 떠난다면 어떤 이유로 떠날지

물어보는 것이 유리

(2) 정의된 문제를 해결할 방안을 찾기 위한 자료분석 Data Mining

이탈 고객의 속성에 (인구학적 특성) 의한 분류 (clustering, decision tree)

(3) Data Mining 기법에 의해 속성에 의한 군집을 나누더라도 이탈 고객을 방지하기 위한 의사결정은

actionable 해야 한다. => 이탈 고객의 속성을 근거해 적절한 의사 결정이 필요하다.

(4) 의사 결정이 이루어진 후에는 결과에 대한 평가가 필요하다. 이를 토대로 문제를 재 정의하고 DM

Actionable 결정 결과 평가의 순환이 이루어진다,



Virtuous cycle

(1)문제 정의 business issue

(2)DM 이용하여 자료로부터 실행 가능한 의사 결정을 도출 statistical issue

(3)의사 결정 시행 business issue

(4)결과 평가



1.5. Data Mining System

1.5.1. 데이터 분석 흐름도

1.5.2. Data Mining 흐름도



1.6. DM 소프트웨어 (SAS E-minor 중심)

1.6.1. SAS

SAS 의 역사는 미국 North Carolina 주 Raleigh 에 있는 NCSU(North Carolina

State University) 통계학과 대학원 과정 학생들이 주축이 되어 Statistical Analysis System 을 완성하던

1966년으로 거슬러 올라간다. 1972년 SAS72가 각 대학에 Shareware 버전으로 제공되어 사용되다가,

1976 년 Cary (NCSU 에서 15 분 거리의 도시)에 SAS Institute 를 설립하면서 SAS 제품을 판매되기

시작했다. 초기에는 자료를 검색하고 통계 분석 및 해석을 위한 소프트웨어였으나 제품이 개발되면서

통합 응용패키지(SAS 약어 바꿈: Strategic Application System)로 발전하였다. 현재 SAS 는 전세계

118 개국 (미국, 57 개국 지사), 40,000 업체(기업, 정부, 연구소, 학교)에서 사용되고 있으며, Fortune

500 기업 중 90%가 SAS를 사용하고 있다. 현재 SAS version 8이 주로 사용 (version 9가 출시)

주요기능 제 품 명

데이터 추출/변형 SAS/ACCESS, BASE SAS

데이터 전송 SAS/CONNECT, SAS/SHARE(SHARE*NET)

다차원 OLAP용 데이터 서버 SAS/MDDB Server

대용량 DSS 서버 Scalable Performance, Data Server

QUERY & REPORTING Enterprise Reporter

데이터 조회 및 관리 SAS/FSP

데이터 추출 및 메타데이터관리 SAS/Warehouse Administrator

데이터마이닝 Enterprise Miner

분석 지원 모듈 SAS/STAT, SAS/IML, SAS/OR, SAS/ETS, SAS/INSIGHT, SAS/LAB, SAS/CALC,

시각화 SAS/GRAPH, SAS/SPECTRAVIEW

대화형 어플리케이션 개발툴 SAS/AF

웹 어플리케이션 개발 SAS/IntrNet

IT 서비스 통합 평가 툴 IT SERVICE VISION

통합 재무 재표 관리 CFO VISION

지리정보시스템 구축 SAS/GIS

편리한 사용자 인터페이스 지원 SAS/ASSIST

통계적 공정 관리 SAS/QC

품질관리를 위한 실험계획 도구 JMP



1.6.2. SAS E-minor

특징

사용자는 SAS/Enterprise Miner 가 기본적으로 제공하는 기능별 작업 툴을 작업의 순서와 동일하게

늘어 놓음으로써 PFD(Process Flow Diagram)를 구성하고 작업의 전체 과정을 한 화면에서 제어

/관리 할 수 있다. 다음은 PDF 에제이다.

기본적으로 제공되는 작업 툴 이외의 별도작업이 필요한 경우 사용자 정의 프로그램을 부분적으로

삽입할 수 있다.

Neural Networks, Decision Trees, Regression, Forecasting 등의 전통적인 통계분석방법 뿐만 아니라

최근에 등장한 다양한 Mining 기법을 제공한다.

Mining 과정에서 구축된 두 개 이상의 모형을 그래프화하여 시각적으로 비교, 평가할 수 있는 Lift

Chart, ROI Chart, Profit Chart를 제공한다. 이를 이용하여, 구축한 모형 중 성능이 가장 좋은 모형을

손쉽게 선택할 수 있다.

대용량 데이터 모형화(Modeling)을 위한 원격지 수행(Remote Processing) 가능

다양한 DB(DB2, Informix, Oracle, Sybase, DB2 등)를 SAS/ACCESS, SAS/Warehouse Administrator,

SAS의 Query Window를 통하여 추출, 사용 가능



DM 흐름도에서 SAS 사용 실례

1.6.3. SEMMA

SAS 에서는 데이터 마이닝을 대량의 데이터에서 알려지지 않은, 비즈니스에 유용한 데이터의 패턴을

선택(selecting), 탐색(exploring), 변형(modifying), 모형화(modeling)하는 과정이라 정의한다. 데이터

마이닝은 다양한 산업에 적용되고 사기검출(fraud detection), households, customer retention, attrition,

데이터베이스 마케팅, 시장 분석, 위험 분석(risk analysis), affinity analysis, 고객 만족도, 파산예측,

포트폴리오 분석 등과 같은 분야의 비즈니스 문제에 대한 방법을 제공한다. Enterprise Miner는 데이터

마이닝에 대한 모든 비지니스 솔루션을 제공하는 통합적 상품이다. 아래의 데이터 마이닝 프로세스,

SEMMA에 관해 Graphical user interface(GUI) 환경으로 친근하게 접근할 수 있게 한다.

•Sample : 데이터를 하나 또는 그 이상의 데이터 테이블에서 추출한다. 표본들은 유의한 정보를 포

함할 수 있도록 충분히 커야 한다.

•Explore : 데이터를 이해하고 아이디어를 얻기 위하여 기대되는 관계, 기대되지 않는 경향,

anomalies를 살펴보며 데이터를 탐색한다.

•Modify : 모형을 선택하기 위해 변수들을 만들고 선택, 변형한다.

•Model : 분석도구를 이용하여 데이터의 믿을만한 예측 값을 생성하는 데이터의 조합을 찾아 데이터

를 모형화한다.

•Assess : 데이터 마이닝 프로세스에 대한 유용성과 신뢰성을 통해 데이터를 검토한다.



분석과정에서 위의 모든 과정을 모두 포함하지 않을 수도 있으며 만족할 만한 결과를 얻기 위해 위의

과정을 여러 번 반복할 수도 있다. SEMMA 에서 Assess 과정을 마친 후 선택된 모형에 대해 target 을

포함할 수도 포함하지 않을 수도 있는 새로운 데이터를 넣고 scoring formula 를 적용해 보아야 한다.

새로운 데이터의 점수화는 모형 training 과정에서는 가능하지 않지만 대부분의 데이터 마이닝의

마지막 과정이다.

SEMMA 데이터 마이닝 프로세스는 flow diagram 프로세서에서 얻어지며 변형과 저장이 가능하다.

통계적 경험이 거의 없는 경영 기술자가 쉽게 사용할 수 있도록 GUI 환경으로 만들어져 있다.

Enterprise Miner 는 일반 사용자가 쉽게 다변량 모형을 사용하고 비교할 수 있도록 특화된 분석

도구를 제공한다. 군집분석, self-organizing maps, 변수선택, trees, linear and logistic regression, Neural

network 등이 포함한다. Data preparation tools 은 outlier detection, 변수변환, 데이터 imputation,

임의추출, train, test, validate, subset 만들기 등을 포함한다. Advanced visualization tools 는 다량의

데이터를 빠르고 쉽게 그래프로 모형의 결과를 비교할 수 있도록 다차원 그래프를 제공한다.







1.7. DM 분석 기법



2장. Project 준비 (SAS E-minor 사용)

Project Preliminaries (프로젝트의 등록과 분석흐름도 작성) Predictive Model 중심으로 설명 한다.

2.1. 시작하기

2.1.1. 탐색기에서 폴더 만들기

2.1.2. E-minor 열기

Desktop 에서 Enterprise Miner 를 시작하기 위해서는 Enterprise Miner shortcut icon 에서 왼쪽

마우스버튼을 두 번 누르시오. 또한 SAS Display Manager 의 command dialog box 에서 “miner” 쳐도

시작된다. SAS Enterprise Miner 창이 열리면 다음과 같다 :



•Project Navigator

projects와 diagrams를 다루고, diagram workspace에 도구를 추가하고, Reporter node에 의해 만들어

진 HTML reports를 보는데 사용된다. 일단

❏ Diagrams -현재 프로젝트와 프로젝트 간의 diagrams를 리스트 한다. Enterprise Miner는 기본적

으로, useid를 이름으로 하는 local project를 만들고 프로세스는 Untitled라고 이름 붙여진

diagram을 그린다. Enterprise Miner를 다시 열 때는 최근에 작업한 project가 열린다.

❏ Tools - process flow diagrams을 만드는데 유용한 Enterprise Miner tools의 도구 팔레트를 포함

한다. 이 도구는 SEMMA 데이터 마이닝 방법에 의하여 묶어진다.

❏ Reports -Reporter node에 의한 생성된 project에 대해 HTML report entries를 포함한다.

• Diagram Workspace

process flow diagrams를 작성하고 편집, 실행, 저장하는데 사용된다.

• Tool Bar

diagram workspace에서 process flow diagrams를 만드는데 자주 사용되는 Enterprise Miner 도구의 부

분집합을 포함한다. Tool bar에서 도구의 추가, 삭제가 가능하다.

• Process Indicator

Enterprise Miner 작업의 진행 정도를 나타내는 process indicator bar를 보여준다.

• Message Panel

Enterprise Miner 작업의 수행에 대한 메시지를 보여준다.

• Connection Status Indicator

가까운 호스트의 이름과 client server project에서 연결이 되어있는지의 여부를 보여준다.



2.2. SAS에서 새로운 Project 만들기

새로운 Project가 만들어지면 PFD을 만들기 시작한다.

적절한 Node 종류를 마우스로 선택한 후 PMD 창으로 끌어 옮긴다.

Node 의 기능

Node는 E-Minor의 Mining 각 단계를 (Sample, Explore, Modify, Model, Assess) 담당하는 기능

적절한 Node를 사용하여 PFD 작성한다.

Node 종류



(1) Sample Node 자료 선택 및 모델 평가를 위해 자료 분할

• Input Data Source •Sampling •Data Partition

(2) Explore Node 자료 탐색

•Insight •Variable Selection •Association

(3) Modify Node 자료 속성 변형 및 변수 군집

•Data Attributes •Data Replacement •Clustering

(4) Explore/Modify Node 자료 탐색 (결측치, 이상치) 및 자료 변환

•Bar Chart •Transform Variables •Filter Outliers

(5) Modify Node 모형화

•Regression •Decision Tree •Neural Network •User Defined Model

(6) Assess Node 평가

•Assessment •Score

(7) Utility Node

•Group Processing •Data Mining Database •SAS code •Control point •Sub-diagram



2.3. 분석 데이터 가져 오기

Input Data Source Node 선택한 후 오른쪽 마우스 Pop-up 메뉴를 선택하여 Open을 선택한다

분석 데이터가 저장된 Library 와 자료 이름을 지정한다. 지정이 끝나면 오른쪽 위의 X

아이콘을 눌러 저장하고 빠져나간다.

sub-폴더에 가면 분석 데이터 변수에 대한 속성을 알 수 있고 변형이 가능하다.



2.4. 데이터 분할

자료를 3 개의 자료 세트로 나누기 위하여 (Train, Validation. Test) 자료 분할한다. Node Type 창에서

Data Partition Node 선택한 후 PMD 창으로 이동 시켜 위치를 고정한 후 Input Data Source node 와

Data Partition node를 선으로 연결한다.



Data partition node 를 선택한 후 오른쪽 마우스를 눌러 Pop-up 메뉴에서 Open 을 선택하여 자료를

분할한다. 지정이 끝나면 오른쪽 위의 X 아이콘을 눌러 저장하고 빠져나간다.

자료를 분할한 후 분석을 위해 Node Type 창의 Model 에서 Regression node 를 선택했다고 하자.

Regression node를 선택한 후 끌어 PMD 창에 놓고 Data Partition Node와 연결한다.



2.5. 분석 모형 설정

Regression 모형을 설정하기 위하여 Regression 을 눌러 Open 을 선택하면 target 변수를 선택하지

않았다는 에러 Message 가 나타난다. Target 변수는 종속변수다. Data Input Node 를 선택하여 Open

메뉴를 눌러 Variables의 Weight 변수를 Model Role의 속성을 바꾼다.

Regression Node의 Open 메뉴를 선택하여 모형 환경을 설정한다.



모형 설정이 끝나면 오른쪽 위의 X 아이콘을 눌러 저장하고 빠져나간다.



현재까지의 작업이 끝나면 PROJ1, DATA1 폴더를 살펴보자.





3장. 군집 분석 예제

Decision Tree의 특징

의사결정규칙을 나무구조로 도표화하여 분류와 예측을 수행하는 분석방법

나무구조로 표현되기 때문에 신경망, 회귀분석 등의 다른 방법보다 이해가 쉽다.

복잡한 input/target 관계들을 모형화 할 수 있고, 결측치를 하나의 범주로 간주하여 모형화 과정에

처리할 수 있다.

target variable의 형태에 따른 군집 분석: interval 변수는 logistic regression tree, categorical 변수는

classification tree (본 장에서는 이것을 중심)를 살펴 본다.

3.1. 분석 목적 및 데이터

3.1.1. 목적

한 은행의 신용평가부서에서 대출승인에 대한 의사결정과정을 자동화하기 위해 각 고객에 대한

신용평가점수모형을 만들고자 한다.

3.1.2. 데이터

총 5,960명 대출 관련 고객 정보 포함, 데이터에 포함된 대출금 미상환 고객은 1,189명(20%)

목표변수 BAD는 고객이 대출금을 상환하였는지의 여부를 나타내는 변수, 설명 변수 12개

범주 변수 설명

목표변수 BAD 대출금 상환 여부 (1=미상환, 0=상환)

대출신청서 REASON 대출 사유

JOB 직업의 종류 (6개의 범주)

LOAN 대출금액

MORTDUE 저당금액

VALUE 현재의 자산 가치

DEBTINC 수입에 대한 부채 비율

YOJ 현재 직장에서의 근무 연수



신용정보기관 DEROG 주요 부실거래의 수(파산, 반환권 상실 등)

CLNO 금융거래의 수

DELINQ 부실거래의 수

CLAGE 가장 오래된 거래의 개월 수

NINQ 최근의 신용상태 조회수

3.2. 입력 변수에 대한 분포 보기

(1) Input data source node 를 열고 HMEQ data set 을 선택한다. (2)BAD 에 대한 Model role 을

target으로 고정하고 (3)입력 변수를 선택한다. 다음은 DEBTINC 변수 분포 보기.



3.3. Decision Tree 작성하기

(1) Data partition node: data partition node 를 열고 Training , Validation, Test 를 각각 67, 33, 0 으로

지정한 후 저장

(2)Regression & Decision Tree node : 디폴트 사용

(3)Assessment node 설정: (1)Assessment node 로부터 diagram 을 실행시키고, 결과를 본다. (2)두

모형(Regression과 Decision tree)을 선택한다. (3)menu bar의 Tools Lift chart 선택

Cumulative 이익도표

- Decision tree 모형이 Regression 모형 위에 있다.

- Decision tree의 상위 10%는 80%이상의 bad(부실대출자)를 포함한다.

- Regression의 상위 10%는 66%의 bad를 포함한다.



%Captured Response

- decision tree의 결과 : 모든 신청서들의 가장 나쁜 30%에게 대출을 거절함으로써 bad loan(부실 대

출)의 80%이상을 제거하게 된다.

- Regression 모형 결과 : 80%정도의 부실대출을 방지하기 위해 50%를 거절해야 한다.

- 두 모형을 비교했을 때 decision tree 모형(default )이 보다 좋은 선택이다.

- 회귀모형에 비해 Decision Tree 의 우수성 – 입력변수(input)들과 목표변수(target)간의 비선형 관계들

을 다룰 수 있다.



3.4. Neural Network Node를 추가한 PFD

1. Neural network node에서 초기값을 611로 고정시킨다.

2. Assessment node로부터 diagram을 실행시키고 결과들을 본다

3. 세 개의 모형을 선택한다.

4. Menu bar의 Tools에서 Lift chart 선택

neural network 모형은 regression 모형보다는 다소 나은 결과를 수행하지만 decision Tree가 여전히

가장 좋은 결과를 제시한다.



3.5. 결과 창 보기

(1)menu bar의 View에서 Tree를 선택한다.

(2)Tools -> tree option 선택한다.

(3)Tree depth down field에 6이라고 입력한다. 완벽한 tree 구조가 나타남

<Decision Tree 결과 창> - 7개의 잎을 취하는 트리 구조

<Assessment table> - 88.97%의 validation accuracy를 제공한다.



Tree ring diagram과 decision tree 구조에서 색깔은 node의 순수도(purity)를 나타낸다.

만약 node가 모두 0이거나 모두 1을 포함하면 node 색깔은 red, 만약 node가 1과 0이 혼합되었다

면 node의 색깔은 yellow

purify 대신에 target proportion을 나타내기 위해 coloring scheme을 바꿀 수 있다.

1. decision Tree-Result 창을 선택한다.

2. menu bar에서 tool Define colors…를 선택한다. Data Splits-Color Palette가 열린다.

3. Proportion of a Target value를 선택

4. Target value table에서 0을 선택

red : bad의 높은 비율

yellow : bad와 good의 균형된 혼합

green : goods의 높은 비율을 나타내도록 update된다.

- 첫 번째 split 은 신청자를 good 들의 집합(applicant 들의 약 3/4)과 good 과 bad 의 혼합집합

(applicant 들의 약 1/4)으로 구분된다.

- 혼합된 집합은 bad의 집합과 또 다른 혼합된 집합으로 분리

- bad 부분들은 더 이상 분리되지 않는다.

- 혼합된 부분들은 good의 집합과 다른 혼합된 집합으로 분리한다.



Split에 대한 정보 : tool bar의 view info tool 을 사용

1. (view information about point)을 선택한다.

2. 부분들을 정의하는데 사용된 변수를 보기위해 tree ring의 원하는 부분에서 클릭

예를 들어 첫번째 split에 의해 생성된 혼합된 부분을 선택해 보자.

- 수입대비 부채비율이 약 45이상이거나 결측값을 갖는 신청자들로 이루어져 있다.

- 대부분의 applicant 들이 missing value를 갖고 있음을 의미한다.

1. menu bar에서 Tools probe Tree rings statistics를 선택

2. 첫번째 split에 의해 생성된 혼합된 부분을 다시 선택



이 노드의 약 64%는 부실대출자로 이루어져 있으므로 수입대비 부채비율이 높거나 결측값을 가진

신청자들에 대한 부실대출에 대한 위험확률이 매우 높을 것으로 보인다.

decision tree node의 view path feature

tree ring과 관련된 decision rule 이해에 유용

1. decision tree –result window를 선택한다.

2. selection arrow tool 을 선택한다.

3. menu bar의 view path 선택

4. tree ring diagram에서 세 시 방향의 위치에서 bad 부분선택

training data에서 323명의 신청자들의 부실대출위험확률이 약 83%이다.



3.6. 의사결정나무의 수정

3.6.1. 다지 분리

의사결정나무에서 tree 가 다른 형태로 성장하도록 조정할 수 있다. 다지 분리의 기본 목적은 마지막

결과의 해석을 증가시키는 것이다.

1. workspace에 Decision tree node를 추가한다.

2. decision tree node를 열고 basic tab을 선택한다.

3. maximum number of branches from a node에 4라고 친다. 이 옵션은 2, 3, 4진 분리가 고려되도록

수행하게 된다.

4. decision tree node를 닫고 저장

5. decision tree node를 실행시키고 결과들을 본다.

- 선택된 tree에서 잎들의 수가 7에서 12로 증가한다.

- 잎의 수의 증가하면 포함되는 정도가 낮아진다.

- tree validation 정확도는 88.87%에서 88.97%로 약간 상승

- tree diagram을 보면 소수의 신청자들을 포함하는 많은 node들이 생성된다.



3.7. Tree Deployment

Tree Deployment

- 대출 신청 거절에 대한 적당한 경계를 선택

- 최적 경계(optimal threshold)

positivefalseoftnegativefalseoft

coscos1

1

+=θ

Credit-scoring example

모든 대출된 2 달러들은 결과적으로 3 달러로 돌아온다고 가정한다. 2 달러에 대한 좋은 대출을

거절하는 것은 기대되는 이익을 버리게 된다.

optimal threshold : 31

211

=+

예측 확률이 predictive probability가 0.33을 초과하는 모든 신청을 거절한다.



Assessment node를 사용한 최적 경계

1. 원래의 이진분리 decision tree 모형선택

2. menu bar로부터 Tools Lift chart 선택

3. profit vector를 정의하기 위해 define…을 선택

4. Target level 1에 –2를 친다.

5. Target level 0에 1을 친다.

6. Target level cost에 0을 친다.

target level 1 에 –2 를 입력하는 것은 한 고객에게 대출해주는 경우 –2 만큼의 이익이 든다는 것을

지정하는 것이고, target level 0에 1을 입력하는 것은 1만큼의 이익이 생긴다는 것이다.



7. profit vector definition 창을 닫는다.

8. Apply를 선택한다.

9. profit 버튼을 선택한다.

10. Non-cumulative 버튼을 선택한다.

plot 은 첫 20%에 대해서 음의 기대이익을 가지고 있음을 보여주고 있다. 즉, 부실점수가 높은 20%에

대해서 대출을 거절함으로써 양의 기대이익을 얻을 수 있다는 것을 의미한다.

1. menu bar의 format horizontal scale을 2%로 고정

2. command line에 vt tmplift를 입력하고 선택한다.

상위 20%에 해당하는 절단 값(cutoff value)이 약 0.31 이라는 것을 알 수 있다. 즉, 양의 기대이익을

얻기 위해서는 부실 점수가 0.31이상인 고객에 대해 대출을 거절해야 한다는 것을 의미한다.



4장. CRM 적용 예제

http://www.sas.com/offices/asiapacific/korea/profiles/bankcard/index.htm

Bank of America

CRM 구축배경

Bank of America 는 CRM, Data Warehousing, Data Mining을 구축한 세계최고의 금융기관으로 Data

Warehouse 구축을 기반으로 하여 CRM 솔루션을 도입, 그 효과를 보고 있다는 측면에서 주목할 수

있다. Bank America Corp는 NationsBank Corp.와 합병으로 규모가 거의 두 배로 확대되었다. 합병 이

후 새로운 BankAmerica는 22개 주에 4200개 지점을 갖추어 규모가 2배로 증가하였고 거래가구수도

3천만 가구로 증대되었다. 그러나 고객들은 은행의 합병으로 인해 은행에 대한 불신과 불안감이 높

아지게 되었으며 다른 은행으로 거래를 바꾸는 경우가 발생할 여지가 높았다. 이에 은행은 고객들을

진정시킴과 동시에 고객들에 대한 세분화를 통해 단계적으로 고객 유지(Customer Retention)에 대한

노력을 집중하게 되었다. 고객유지 프로그램은 가장 수익성이 높은 고객들을 유지하고, 수익성이 적

거나 예금이 적은 계좌들로부터 수익을 증대시키는 것이 주요 목적이었다.

“충성도가 높은 고객 전략을 개발하기 위하여 고객들의 가치를 향상시켜야 한다.”고 Bank of America

의 부회장 Christopher Kelly는 말했다. 그리고 나서 3천8백만 이상의 고객 데이터를 40여개 이상의

시스템으로부터 Data Warehouse로 끌어내렸다. 많은 변수들을 사용하여 현재 수익성, 거주지별, 행

동 특성별, 인구 통계학적별, 각 채널별(지점을 사용하는 것과 E-mail, PC통신 등을 이용하는 것)로

고객을 세분화하고, 비즈니스별로 고객을 분류하였다. 즉, 고객을 일반고객과 비즈니스고객으로 분류

하였다. 고객세분화의 주요 주제는 현재 수익성을 기반으로 한 고객가치인 것이다.

새로운 표준에 의한 고객세분화

고객세분화를 위해 측정 가능한 목표를 세우고 고객을 세분화해야 한다 그리고 진정한 고객세분화

효과를 얻기 위해, 고객들을 어떠한 기준에 의해 측정할 필요가 있었다. 즉, 고객을 측정한다는 것은

고객들을 기존에 세운 표준이 아닌 새로운 표준에 의해 확인할 필요가 있다는 것이다. 예를 들어, 개

인수표 계좌를 개설하는 소매 고객들 중 단지 50%만이 수익성이 있다는 것을 밝혀내기도 하였다.

이는 은행에 뜻하지 않는 고급정보를 제공하게 된다.



전형적인 소매은행은 아니지만 BankAmerica 고객들의 상위 20%는 은행수익의 100%를 제공한다고

말할 수 있다. Bank of America는 유지가 어려운 고객들과, 유지가 쉬운 고객들을 중심으로 97년에

운영된 5개보다 더 많은 12개의 고객유지 프로그램을 구성하였다. 수익에 의한 분류를 통해 2000여

금융매니저들은 상위 10%에 속하는 고객들을 더욱 자주 접촉하게 되었다. 이는 가치가 높은 고객들

에 대한 정보를 더욱 자세하고 세밀하게 구할 수 있게 된 계기가 된 것이다. 또한 Bank of America

는 결혼, 양육, 홈쇼핑, 퇴직, 적정대출, 투자상품 등과 같은 생활형태에서 정보를 수집하게 되었다.

97년에 실시된 Pilot 프로그램에서 33000명의 고객들을 대상으로 예측 모델링기법을 사용하였다. 이

러한 분석은 1400여명의 고객 중에서 2000여 계좌와 1250만$ 부채를 발견해내는데 도움을 주었다.

이러한 프로그램은 매달 실시하게 되었고 이를 통해 Bank of America는 Phone banking에 의해 대출

을 받는 고객들이 가장 수익성이 높다는 것을 알게 되었다. 이는 Bank of America가 target화 하는

고객이 누구인가에 대한 해답을 제공해주게 되었다.

고객세분화 : 새로운 기회의 제공

Bank of America의 성공은 새로운 고객들을 모집하기 보다는 기존 고객들을 유지하는데 그 촛점이

맞추어져 있다. 고객들의 30% 이상이 1년도 채우지 못하고 은행과의 거래를 끝내는 것을 잘 알고

있기에, 고객에 대해 탐색을 하면 할수록 세분화를 재조정할 수 있었고 고객세분화의 재조정은 새로

운 고객들과 새로운 시장을 제공해 주었다.

Bank of America는 SAS의 Data Warehousing과Data Mining 제품을 이용하여 고객을 유지하려는 노력

을 지원하였다. 특히 고객세분화 전략을 위해 SAS는 세계최고의 Reference 사이트를 만들기 위해

수많은 노력을 다하였다. 이러한 고객유지전략은 고객세분화를 통해 가능하게 되었고, 고객에 대한

정보취득 및 고객에 대한 분석 모두를 가능하게 한다.

Bank of America와 같은 사례는 국내에서도 충분히 적용될 수 있다. 국내 은행들의 합병바람도 이제는

막을 내리고 있고 합병이 끝난 뒤에는 고객유지를 위해 많은 준비를 해야 할 것이다. 이에 대한

해답이 바로 Bank of America 와 같은 CRM 솔루션인 것이다. 고객은 은행에 대해 너무나 많은 것을

알고 있다. 그러나 은행들은 아직 고객에 대해 많은 것을 알지 못하고 있다. 아주 기본적인 정보에

의존하고 있을 뿐이다. 은행이 살기 위해서는 고객에 대해 알아야 한다. 고객들의 모든 것을 알고,

이해하고, 고객들을 위해 행동해야 한다. 이것이 바로 CRM 이다.

Documents

통계청 단기 연수 교육 강의 노트 Data Miningwess.hannam.ac.kr/lecture/spring03/data_mining.pdf용어 정리 [OLAP: On-Line Analytical Process] 사용자로 하여금 대용량