数据挖掘软件 CLEMENTINE 介绍

数据挖掘软件 CLEMENTINE介绍

Clementine产品介绍 Clementine 是 ISL(Integral Solutions Limited) 公司开发的数据挖掘工具平台 1999 年 SPSS 公司收购了 ISL 公司对 Clementine 产品进行重新整合和开发现在 Clementine已经成为 SPSS 公司的又一亮点作为一个数据挖掘平台 Clementine 结合商业技术可以快速建立预测性模型进而应用到商业活动中帮助人们改进决策过程强大的数据挖掘功能和显著的投资回报率使得 Clementine 在业界久负盛誉同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比 Clementine 其功能强大的数据挖掘算法使数据挖掘贯穿业务流程的始终在缩短投资回报周期的同时极大提高了投资回报率

Clementine 中的 Data Mining 的方法

bull Classificationbull Clusteringbull Estimationbull Predictionbull Market Basket Analysisbull Description

预测和分类推估类似不同在于是预測未來將新资料带入既有资料建立的模型预见結果銀行新申请信用卡的客戶要給多少额度

估计和分类的不同在於目标变量为连续值常和分类配合用分类判断为会贷款客户后再推估会贷款的金額

聚类非监督式未知有几类将性质类似的资料加以区分把顾客资料分群对不同群体采用不同推销手法

购物篮分析找出哪些事件会一起发生超級市场发現男性客戶会一起购买啤酒跟尿布

描述增进对于资料的认识图形视觉化呈现或规則决策树等

相关技术决策树规则

各类图表等等

分类目标变量（因变量反应变量数）为类別的狀況信用卡公司將既有资料分为「伪卡」「非伪卡」找出伪

卡的模式

数据挖掘应用数据挖掘应用 -------- 业务建摸业务建摸

Debtlt10 of Income Debt=0

GoodCreditRisks

BadCreditRisks

GoodCreditRisks

YesYes

Incomegt$40K

factor 1 factor 2factor n

神经网络 Neural Networks聚类分析 Clustering

OpenAccnrsquot

Add NewProduct

DecreaseUsage

序列分析 Sequence Analysis决策树 Decision Treesbull 倾向性分析

bull 客户保留bull 客户生命周期管理bull 目标市场bull 价格弹性分析

bull 客户细分bull 市场细分

bull 倾向性分析bull 客户保留bull 目标市场bull 欺诈检测

关联分析 Associationbull 市场组合分析bull 套装产品分析bull 目录设计bull 交叉销售

Clementine面板

Clementine的使用bull 1 打开一个流文件

bull 2执行流文件中的某一流程

bull 3 得到结果

bull 4 浏览结果 1

Clementine流文件的建立bull 1 读取数据文件 1

在节点区双击文件读入节点在流区出现其图标

再在流工作区双击文件读入节点读入所需数据文件

bull 读取数据文件 2

bull 对数据进行处理

6 去掉两个变量 Na K3 增加新变量 Na_to_K=NaK

bull 定义变量的方向在节点区双击 Type 节点使之在流区中出现

把 Drug 的Direction从 in( 输入 )改为 out( 输出 )

bull 作分类处理

bull 保存流文件

读取文本数据与查看数据bull Clementine 可以读入的数据文件

文本格式数据

SPSSSAS 数据

Excel Access dBase Foxpro Oracle

SQL Server DB2 等数据库

用户输入数据

文件读入节点

读取文本数据与查看数据bull 查看数据 1

点击 Data 和 Types 出现数据的属性

bull 查看数据 2

点击 Table 使之出现在流工作区再点击 Execute( 执行 ) 得到右面图表

Clementine中的字段类

离散型二分 eg sex mf 多分 eg 等级好中差 1048707 离散 eg 连续型整数实数日期时间其它

数据理解之数据质量bull缺失值的检查 quality 节点

点击 Quality 节点使之出现在工作区再执行Quality 出现数据质量表从中可以看出数据 100有效一共有 200 个有效数据

bull Distribution 节点 ----初步理解字符型字段的分布

简单数据整理bull Derive节点介绍

2 增加新变量Na_to_K=NaK

根据原有字段值生成新字段值

bull Filter 节点介绍对某些字段进行重命名或丢弃某些无意义的字段

去掉两个变量 Na K

数据理解之数据间简单关系bull Web节点 ----研究字符型字段间关系 1

bull Web节点 ----研究字符型字段间关系 2执行后得到字符间的网状连系其中粗线条表示字符之间的强联系

bull Statistics节点 ----研究连续型字段间线性相关关系

得到 Na_to_K 的统计属性及它与 Age 的线性关系

bull 2 规则归纳模型规则归纳模型 c50

bull 3 crt 决策树

bull 4 kohonen 聚类

bull 5 k--means 聚类

bull 6 two step 聚类

bull 7 apriori关联规则模型

Clementine产品介绍 Clementine 是 ISL(Integral Solutions Limited) 公司开发的数据挖掘工具平台 1999 年 SPSS 公司收购了 ISL 公司对 Clementine 产品进行重新整合和开发现在 Clementine已经成为 SPSS 公司的又一亮点作为一个数据挖掘平台 Clementine 结合商业技术可以快速建立预测性模型进而应用到商业活动中帮助人们改进决策过程强大的数据挖掘功能和显著的投资回报率使得 Clementine 在业界久负盛誉同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比 Clementine 其功能强大的数据挖掘算法使数据挖掘贯穿业务流程的始终在缩短投资回报周期的同时极大提高了投资回报率

等等

Documents

数据挖掘软件 CLEMENTINE 介绍