18
LOGO www.nordridesign.com 1 数数数数数数数 SPSS Clementine 数数数数 数数数 数数 数 数 数数数 数数数 数数 数数数数数数数

数据挖掘原理与 SPSS Clementine 应用宝典 元昌安 主编  邓 松 李文敬 刘海涛 编著

Embed Size (px)

DESCRIPTION

数据挖掘原理与 SPSS Clementine 应用宝典 元昌安 主编  邓 松 李文敬 刘海涛 编著 电子工业出版社. 数据挖掘的对象 选择建模数据 构造建模数据集. 第 4 章 数据选择. 双击添加主标题. 4.1 数据挖掘的对象. 4.1.1 数据库 一个数据库系统也称为数据库管理系统( DBMS ),由一些相关数据组成,并通过软件程序管理和存储这些数据。 - PowerPoint PPT Presentation

Citation preview

Page 1: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 11

数据挖掘原理与 SPSS Clementine 应用宝典

元昌安 主编  邓 松 李文敬 刘海涛 编著

电子工业出版社

Page 2: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

数据挖掘的对象选择建模数据构造建模数据集

Page 3: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 33

4.1 数据挖掘的对象 4.1.1 数据库 一个数据库系统也称为数据库管理系统( DBMS ),由一些相关

数据组成,并通过软件程序管理和存储这些数据。 DBMS 提供数据库结构定义,数据检索语言( SQL 等),数据存储,

并发、共享和分布式机制,数据访问授权等功能。 关系数据库由表组成,每个表有一个唯一的表名,属性(列或域)

集合组成表结构,表中数据按行存放,每一行称为一个记录。记录间通过键值加以区别。关系表中的一些属性域描述了表间的联系,这种语义模型就是实体关系( ER )模型。

关系数据库是当前最流行、最常见的数据库之一,为数据挖掘研究工作提供了丰富的数据源。

Page 4: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 44

4.1.1 数据库目前研究的主要问题有: 超大数据量。 动态变化的数据。 噪声。 数据不完整。 冗余信息。 数据稀疏。

Page 5: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 55

4.1.2 数据仓库 数据仓库( Data Warehouse )的一个综合性的定义是:它是

一个集成的,面向主题的、设计用语决策支持功能( DSF )的数据库的集合,数据中的每一个数据单元在时间上都是和某个时刻相关的。

联机操作数据库系统的主要任务是执行联机事务和查询处理。这种系统称为联机事务处理( OLTP)系统。它们涵盖了一个组织的大部分日常操作,如购买、库存、制造、银行、工资、注册、记帐等。

Page 6: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 66

4.1.2 数据仓库 OLTP 处理一个行业或组织的日常操作所必须的数据。

事务型数据库中的数据记录总是被多用户访问和不断更新。相反,数据存在于数据仓库中的部分原因是由于 OLTP 环境不再使用这些数据。大多数数据仓库中的数据是历史性的,有时间戳的,并且不再改变(只读)。

粒度是一个用于描述存储信息的详细程度的术语。操作数据代表了最低的粒度,因为每个数据项包含一个单个事务的信息。数据仓库中数据的粒度是一个设计要点,它依赖于客户的需要以及所采集数据的数量。

Page 7: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 77

4.1.2 数据仓库 数据仓库同时也可以看作是一个采集、存储、管理和分析数据的

过程( Gardner , 1998 )。数据仓库最有效的数据挖掘工具是多维分析方法( Multidimensional Data Analysis ),也称为联机分析处理( OLAP , Online Analytical Processing )。下图显示了仓储过程的关键组件。

外部数据

依赖数据

ETL 例程( 提 取 / 变 换 / 加载) 数据仓库

决策支持系统

报告

提取 / 汇总数据

操 作 型数据库

独立数据集市数据仓库过程模型

Page 8: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 88

4.1.3 文本 文本数据一般存放在文本数据库中。文本数据库中存

放的内容均为文字,这些文字并不是简单的关键词,而是长句、段落甚至全文,文本数据库多数为非结构化的,也有些是半结构化的(如,题录数据加全文、 HTML 、Email 邮件等)。 Web 网页也是文本信息,把众多的 Web 网页组成数据库就是最大的文本数据库。

Page 9: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 99

4.1.3 文本针对文本数据库的数据挖掘,内容包括:

文本的主题特征提取 文本分类 文本聚类

Page 10: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 1010

4.1.4 Web 信息 Web 数据挖掘是指从众多 Web 网站、网页上挖掘出有用数

据和知识的过程。

Web 上的信息完全可以视为一个异构的数据库环境。对这些数据进行挖掘,首先解决站点之间异构数据的集成问题,为用户提供一个统一的视角来看待Web资源。其次,对于集成的 Web 数据至少应提供两个方面的挖掘功能:网络信息与数据的查询;Web 数据的分析处理和知识发现。

Page 11: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 1111

4.1.4 Web 信息

由于 Web 数据除了相互间异构外,大量的数据还是半结构、无结构的文本和多媒体信息,所以面向 Web 的数据挖掘远比关系数据库或数据仓库的数据挖掘复杂得多。目前迫切要解决的是构造一个模型(标准)来清晰地描述 Web资源,开发适合 Web资源的数据挖掘功能。

Page 12: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 1212

4.1.5 空间数据 所谓空间数据挖掘就是指抽取空间关系知识,或其他没

有在空间数据库明确存放的有意义的模式。 空间数据库存放着大量与空间相关的数据,例如地图、遥感数据或医疗图像数据、大规模集成电路设计数据等。空间数据包含空间属性和非空间属性,尽管有的空间属性经过处理可以转化为一般的属性要素参与分析。

Page 13: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 1313

4.1.5 空间数据

空间数据挖掘可以帮助理解空间数据、发现空间关系和空间与非空间数据间关系、构造空间知识库、重组空间数据库,以及优化空间查询等。目前广泛应用与地理信息系统、地理市场、遥感、图像数据库探索、医疗成像、导航、交通控制、环保等许多其他利用空间数据的领域。

Page 14: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 1414

4.2 选择建模数据

根据所构建模型类型的不同,需要的数据也不相同。选择建模数据,就要在相关领域和专家知识的指导下,搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据,亦即辨别出需要进行分析的数据集合,缩小挖掘范围,避免盲目搜索,提高数据挖掘的效率和质量。

Page 15: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 1515

4.2 选择建模数据以下是构建发现潜在用户模型的数据选择: 户外运动用品商向运动爱好者销售服装。为了发现潜

在的用户,户外运动用品商从 Power 列表公司购买了潜在用户列表。列表包含了姓名、地址和 35 个人口统计学和心理学属性。户外运动用品商使用选择策略后仅选择了 30~55岁的男性,给他们寄去了可跟踪的用品目录。经过三个月的运作,响应和销售额与原始记录一起生成一个建模数据集。

Page 16: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 1616

4.2 选择建模数据 提示:列表销售商出售的是列表。根据业务类型,它们

通常收集和销售姓名、地址和电话号码、以及人口统计学数据、行为数据和 / 或心理数据。

提示:人口统计学数据包括性别、年龄、婚姻状况、收入、住房所有权、居住类型、教育水平、种族、子女等数据。人口统计学数据具有许多优点,这类数据非常稳定,这使其可以在预测建模上获得应用。

Page 17: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 1717

4.2 选择建模数据

数据分析/选择

销售

网络

产品完成额

企业内部数据

报纸媒介

数据仓库

数据挖掘

……

现实世界各种数据源从各种数据源中选择建模数据

Page 18: 数据挖掘原理与 SPSS Clementine 应用宝典        元昌安  主编         邓 松 李文敬 刘海涛 编著

LOGO

www.nordridesign.com 1818