65
第 1 第 第第第第第第 1.1 第第第第第第第第第第第第 1.2 第第第第第第 1.3 第第第第第第第第 1.4 第第第第第 第第第第 第 1 第 第第第第第第

第 1 章 数据挖掘综述

  • Upload
    inara

  • View
    176

  • Download
    0

Embed Size (px)

DESCRIPTION

第 1 章 数据挖掘综述. 1.1 数据挖掘的研究历史和现状 1.2 数据挖掘定义 1.3 数据挖掘研究内容 1.4 数据挖掘系统工作原理. 第 1 章 数据挖掘综述. 1.1 数据挖掘的研究历史和现状. 数据挖掘演变的过程 电子数据处理的初期,人们试图通过某些方法来实现自动决策支持,机器学习成为人们关心的焦点。 神经网络技术形成和发展,人们将注意力转向知识工程,直接给计算机输入已被代码化的规则。 80年代人们在新的神经网络理论指导下,又回到机器学习方法上,并将其成果应用于处理大型商业数据库。 - PowerPoint PPT Presentation

Citation preview

Page 1: 第 1 章 数据挖掘综述

第 1 章 数据挖掘综述

1.1 数据挖掘的研究历史和现状1.2 数据挖掘定义1.3 数据挖掘研究内容1.4 数据挖掘系统工作原理

第 1 章 数据挖掘综述

Page 2: 第 1 章 数据挖掘综述

1.1 数据挖掘的研究历史和现状 数据挖掘演变的过程数据挖掘演变的过程 电子数据处理的初期,人们试图通过某些方法来实现自动

决策支持,机器学习成为人们关心的焦点。 神经网络技术形成和发展,人们将注意力转向知识工程,

直接给计算机输入已被代码化的规则。

80 年代人们在新的神经网络理论指导下,又回到机器学习方法上,并将其成果应用于处理大型商业数据库。

随着数据库技术的发展及数据库管理系统的广泛应用 ,数据挖掘概念从商业角度被开发出来。

第 1章 数据挖掘综述

Page 3: 第 1 章 数据挖掘综述

进化阶段 时间段 技术支持 生产厂家 产品特点

数据搜集 60 年代 计算机,磁带等 IBM, CDC

提供静态历史数据

数据访问 80 年代关系数据库,结构化查询语言 SQL

OracleSybase, Informix,IBM, Microsoft

在纪录中动态历史数据信息

数据仓库 90 年代 联机分析处理,多维数据库

Pilot, Comshare, Arbor,Cognos, Microstrategy

在各层次提供回溯的动态的历史数据

数据挖掘 正在流行高级算法,多处理系统,海量算法

Pilot,Lockheed, IBM, SGI,其他初创公司

可提供预测性信息

数据进化的阶段数据进化的阶段表 1-1 数据进化的四个阶段

第 1 章 数据挖掘综述

Page 4: 第 1 章 数据挖掘综述

发现知识(发现知识( KDDKDD ))

1989 年举行的第十一届国际联合人工智能学术会议上首次出现知识( KDD )一词。

目前为止,由美国人工智能协会主办的 KDD 国际研讨会已经召开 8 次,研究重点逐渐从发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学科之间的相互渗透。

并行计算、计算机网络和信息工程等其他领域的国际学会、学刊也把数据挖掘和知识发现列为专题和专刊讨论。

与国外相比,国内对 DMKD 的研究稍晚,尚未形成整体力量。 1993 年国家自然科学基金首次支持该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究 。

第 1 章 数据挖掘综述

Page 5: 第 1 章 数据挖掘综述

1.2 数据挖掘定义1.2.1 技术角度的定义 数据挖掘( Data Mining )就是从大量的、不完全的、

有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

这个定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的; 发现的是用户感兴趣的知识; 发现的知识要可接受、可理解、可运用; 并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

第 1 章 数据挖掘综述

Page 6: 第 1 章 数据挖掘综述

其中何谓知识?其中何谓知识? 从广义上理解,数据、信息也是知识的表现形式,但是人

们把概念、规则、模式、规律和约束等看作知识,原始数据可以是结构化的、半结构化的,甚至是分布在网络上的异构型数据。

发现知识的方法可以是数学的、非数学的、演绎的、归纳的。发现的知识可以被用于信息管理、查询优化、决策支持和过程控制以及数据自身的维护。

这里所说的知识发现,是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。

第 1 章 数据挖掘综述

Page 7: 第 1 章 数据挖掘综述

1.2.2 商业角度的定义

数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。

数据挖掘是一类深层次的数据分析方法。现在,由于各行业 业 务 自 动 化 的 实 现 , 商 业 领 域 由 于 纯 机 会 的( Opportunistic )商业运作而产生大量的业务数据,经过深层分析,获得有利于商业运作、有竞争力的信息。

数据挖掘可以描述为:一种按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。

第 1 章 数据挖掘综述

Page 8: 第 1 章 数据挖掘综述

1.2.3 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析的本质区别是: 数据挖掘是在没有明确假设的前提下去挖掘信息、

发现知识。数据挖掘所得到的信息应具有先前未知、有效和可实用三个特征。

数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信息越是出乎意料,就可能越有价值。

第 1 章 数据挖掘综述

Page 9: 第 1 章 数据挖掘综述

1.2.4 数据挖掘和数据仓库 大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据

挖掘库或数据集市中(见图 1-1 )。

图 1-1 数据挖掘从数据库中得出

如果数据在导入数据仓库时已经清理过,很可能在做数据挖掘时就没必要再清理一次,而且所有的数据不一致的问题都已经被解决了。

第 1 章 数据挖掘综述

Page 10: 第 1 章 数据挖掘综述

数据仓库数据仓库

建立一个巨大的数据仓库,把各个不同源的数据统一在一起,解决所有的数据冲突问题,然后把所有的数据导到一个数据仓库内,是一项巨大的工程。

图 1-2 数据挖掘从事物数据库中得出

第 1 章 数据挖掘综述

Page 11: 第 1 章 数据挖掘综述

1.2.5 数据挖掘和在线分析处理( OLAP )

OLAP 是决策支持领域的一部分。 OLAP分析是建立一系列的假设,然后通过 OLAP 来证实或推翻这些假设来最终得到自己的结论,本质是演绎推理的过程。

数据挖掘和 OLAP具有一定的互补性。

第 1 章 数据挖掘综述

Page 12: 第 1 章 数据挖掘综述

1.2.6 数据挖掘、机器学习和统计

数据挖掘利用了人工智能( AI )和统计分析的进步所带来的好处。这两门学科都致力于模式发现和预测。

数据挖掘不是为了替代传统的统计分析技术,而是统计分析方法学的延伸和扩展。

一些新兴的技术同样在知识发现领域取得了很好的效果,如神经元网络和决策树,在足够多的数据和计算能力下,几乎不用人的关照自动就能完成许多有价值的功能。

第 1 章 数据挖掘综述

Page 13: 第 1 章 数据挖掘综述

1.2.7 软硬件发展对数据挖掘的影响

计算机性能价格比的巨大进步使数据挖掘这件事情成为可能的关键。

• 基于并行系统的数据库管理系统也给数据挖掘技术的应用带来了便利

第 1 章 数据挖掘综述

Page 14: 第 1 章 数据挖掘综述

1.3 数据挖掘研究内容

基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。

第 1 章 数据挖掘综述

Page 15: 第 1 章 数据挖掘综述

1.3.1 数据挖掘所发现的知识1.广义知识( Generalization ) 广义知识指类别特征的概括性描述知识。2.关联知识( Association ) 它反映一个事件和其他事件之间依赖或关联的知识。3.分类知识( Classification& Clustering ) 它反映同类事物共同性质的特征型知识和不同事物之间的差异型 特征知识。4.预测型知识( Prediction ) 它根据时间序列型数据,由历史的和当前的数据去推测未来的数据。5.偏差型知识( Deviation ) 它是对差异和极端特例的描述,用来揭示事物偏离常规的异常现象。 第 1 章 数据挖掘综述

Page 16: 第 1 章 数据挖掘综述

1.3.2 数据挖掘的功能

• 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。目标是从数据库中发现隐含的、有意义的知识。

数据挖掘主要有以下 5类功能: 自动预测趋势和行为 关联分析 聚类分析 概念描述 偏差检测

第 1 章 数据挖掘综述

Page 17: 第 1 章 数据挖掘综述

1.3.3 数据挖掘常用技术1.3.3.1 人工神经网络

神经网络常用于两类问题:分类和回归。在结构上,可以把一个神经网络划分为输入层、输出层和隐含层

图 1-3 一个神经网络

输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变量,可有多个。在输入层和输出层之间是隐含层(对神经网络使用者来说不可见),隐含层的层数和每层节点的个数决定了神经网络的复杂度。

第 1 章 数据挖掘综述

Page 18: 第 1 章 数据挖掘综述

除输入层的节点外,神经网络的每个节点都与它前面的很多节点(称为此节点的输入节点)连接在一起,每个连接对应一个权重 Wxy,此节点的值由通过它的所有输入节点的值与对应连接权重乘积的和作为一个函数的输入得到。

图 1-4 带权重 Wxy的神经元网络

第 1 章 数据挖掘综述

人工神经网络人工神经网络如图 1-4 中节点 4 输出到节点 6 的值可通过下式计算得到 * * 214 24W W1节点 的值 节点 的值

Page 19: 第 1 章 数据挖掘综述

神经网络设计神经网络设计

决定神经网络拓扑结构(或体系结构)的是隐含层及其所含节点的个数,以及节点之间的连接方式。

最常用的是前向传播式神经网络 用前向传播得到输出值,如果发生错误,则用回馈

法进行学习。当把训练集中的每一条记录都运行过一遍之后,我们称完成一个训练周期 。要完成神经网络的训练可能需要很多个训练周期。训练完成之后得到的神经网络就是在通过训练集发现的模型,描述了训练集中响应变量受预测变量影响的变化规律。

第 1 章 数据挖掘综述

Page 20: 第 1 章 数据挖掘综述

训练过度 的“模型”对训练集会有很高的准确率,而一旦离开训练集应用到其他数据,很可能准确度急剧下降。为了防止这种训练过度的情况,必须知道在什么时候要停止训练。

图 1-5 中的曲线可以帮我们理解为什么利用测试集能防止训练过度的出现。在图 1-5 中可以看到训练集和测试集的错误率在一开始都随着训练周期的增加不断降低,而测试集的错误率在达到一个谷底后反而开始上升,这个开始上升的时刻就是应该停止训练的时刻。

第 1 章 数据挖掘综述

人工神经网络人工神经网络

Page 21: 第 1 章 数据挖掘综述

第 1 章 数据挖掘综述

图 1-5  神经网络在训练周期增加时准确度的变化

人工神经网络人工神经网络

Page 22: 第 1 章 数据挖掘综述

使用神经网络时需要注意使用神经网络时需要注意 ::

神经网络很难解释,目前还没有能对神经网络做出显而易见解释的方法学。

神经网络会学习过度,在训练神经网络时一定要恰当的使

用一些能严格衡量神经网络的方法,如前面提到的测试集方法和交叉验证法等。

除非问题非常简单,训练一个神经网络可能需要相当可观

的时间才能完成。

建立神经网络需要做的数据准备工作量很大。要想得到准确度高的模型必须认真的进行数据清洗、整理、转换、选择等工作。

第 1 章 数据挖掘综述

Page 23: 第 1 章 数据挖掘综述

支持向量机以严格的统计学理论为基础,可以不依赖于设计者的经验。它与神经网络的学习方法相比,具有以下特点 :

支持向量机是基于结构风险最小化 (SRM) 原则,保证学习机器具有良好的泛化能力。

解决了算法复杂度与输入向量密切相关的问题。

通过引用核函数,将输入空间中的非线性问题映射到高维特征空间中在高维空间中构造线性函数判别

1.3.3.2 支持向量机

第 1 章 数据挖掘综述

Page 24: 第 1 章 数据挖掘综述

支持向量机的特点支持向量机的特点 支持向量机以统计学理论为基础,主要针对小样本情况,且最优解是基于有限的样本信息,而不是样本数趋于无穷大时的最优解。

算法可最终转化为凸优化问题 , 因而可保证算法的全局最优性,避免了神经网络无法解决的局部最小问题。

支持向量机有严格的理论和数学基础,避免了神经网络实现中的经验成分。

第 1 章 数据挖掘综述

Page 25: 第 1 章 数据挖掘综述

1.3.3.3决策树

决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法比如,在贷款申请中,如何对申请的风险大小做出判断?

图 1-6 是为了解决这个问题而建立的一棵决策树,从中可以看到决策树的基本组成部分:决策节点、分支和叶子。

决策树的每个节点子节点的个数与决策树在用的算法有关。

决策树每个节点有两个分支,这种树称为二叉树。允许节点含有多于两个子节点的树称为多叉树。

第 1 章 数据挖掘综述

Page 26: 第 1 章 数据挖掘综述

本例中根节点是“收入 >¥ 40,000” ,对此问题的不同回答产了了“是”和“否”两个分支。

第 1 章 数据挖掘综述

图 1-6  一棵简单的决策树

决策树决策树

Page 27: 第 1 章 数据挖掘综述

假如负责借贷的银行官员利用上面这棵决策树来决定支持哪些贷款和拒绝哪些贷款,他可以 : 用贷款申请表来运行这棵决策树,判断风险的大小。“年收入 >

¥ 40,00” 和“高负债”的用户被认为是“高风险” ;

“收入 <¥ 40,000” 但“工作时间 >5 年”的申请,则被认为“低风险”而建议贷款给他 /她。

决策树决策树

第 1 章 数据挖掘综述

Page 28: 第 1 章 数据挖掘综述

• 数据挖掘中决策树是一种经常要用到的技术,可用于分析数据,同样也可用来作预测。常用的算法有 CHAID 、 CART 、 Quest 和 C5.0 。

BACON 发现行星的运转周期随着距太阳的距离增加而增加,为求出它们之间的比例关系,它便分别构成,,等数据项,并进行检查。结果发现:

在这种知识发现方法中,关键是新数据项如何产生,BACON 系统提供了新数据项的产生方法。

第 1 章 数据挖掘综述

决策树决策树

Page 29: 第 1 章 数据挖掘综述

1.3.3.4 知识发现方法1 .数据驱动知识发现方法 例如要发现开普勒定律,即行星绕太阳转动的周期与其相距太阳的距离之间存在常数。训练数据如表 1-2的前 4 列所示。

表 1-2 开普勒定律的训练实例

实例 行星 p dI1 水星 1 1 1.0 1.0 1

I2 金星 8 4 0.5 2.0 1

I3 地球 27 9 0.33 3.0 1

2dp

dp

32

dp

第 1 章 数据挖掘综述

Page 30: 第 1 章 数据挖掘综述

2 .数据关系的抽取 典型的关系抽取方法有以下 4 种:依赖关系分析分类概念描述偏差检测

第 1 章 数据挖掘综述

知识发现方法知识发现方法

Page 31: 第 1 章 数据挖掘综述

1.3.3.5 粗糙集方法

1 .信息的不确定性和含糊性• ( 1 )数据动态变化。• ( 2 )噪声。• ( 3 )数据不完整。• ( 4 )冗余信息。• ( 5 )数据稀疏。

第 1 章 数据挖掘综述

Page 32: 第 1 章 数据挖掘综述

第 1 章 数据挖掘综述

2 .粗糙集的定义 粗糙集( rough set )理论是由 Pawlak 于 1982 年提出的,是处理上述信息的不确定性和含糊性的有力工具。下面结合关系数据库中的实例来介绍粗糙集的概念。 在关系数据库系统中,信息系统模型用二维表格表示,如表 1-3所示。

粗糙集理论粗糙集理论

Page 33: 第 1 章 数据挖掘综述

粗糙集理论粗糙集理论

记录(Record)

属 性 (Attribute)

a1

(姓名 )

a2

(性别)A3

( 年龄 )

A4

(出生地)

R1 张三 男 20 北京 R2 李四 女 21 上海 R3 王五 男 20 北京R4 赵六 女 23 广州 R5 刘七 男 19 重庆

第 1 章 数据挖掘综述

表 1-3  关系数据库实例

Page 34: 第 1 章 数据挖掘综述

对于以上信息系统,也可以用集合论的方法表示 即用一个二元式 S=(U, A) 来表示 ,U 为记录集合 ,U={R1,R2,..R5};A为属性的集合 ,A=(a1,a2,a3,a4) 。

在这个信息系统中,只看某些属性,一些记录(个体)是无法区分的,即不同的个体在被考虑的属性集上有相同的值例如,只考虑属性集 (a1,a2,a3), 则 U 中的个体和是无法区分的。因此,中的任何一个属性子集都可对进行分类。

第 1 章 数据挖掘综述

粗糙集理论粗糙集理论U

Page 35: 第 1 章 数据挖掘综述

【定义 1.1】在信息系统 中,对于一个属性子集 ,定义二元关系 为不分明关系(或称等价关系)。即如果元素 和

属于集合 ,并且如果只考虑属性集 , 和 无法区分,则 与 的这种关系可以表示为 ,称个体 与 在 中的属性上具有等价关系。

【定义 1.2】 设有信息系统 , 是 的 子集, 是 的 子集, 是 上的等价关系, (其中)是按等价关系 得到的包含 的等价类, 称为 - 基本集。用属性集 对 进行划分,即 获得的是一个等价类集。

v

u

ind( )BB

U B

u vu v

ind( )u vB

uB

ind( )B

( )uB

( , )S U A X U B AU U ( )uB

ind( )B

BB

U U B

第 1 章 数据挖掘综述

S

u v

粗糙集理论粗糙集理论

Page 36: 第 1 章 数据挖掘综述

将子集 的下近似集 和上近似集 分别定义如下 :

由定义 1.2可知, 是所有元素都都包含在 中的, 上关于 的等价类的联合;而 是有元素包含在 中的。显然 关于 上的近似集 中的元素数,大于或等于 关于 的下近似集 中的元素数。

X ( )B X ( )B X

( ) { , ( ) }u u u 且 是 的子集B X U B X

( ) { , ( ) }u u u 且B X U B X

( )B X XU B ( )B X

X X B ( )B XX B ( )B X

第 1 章 数据挖掘综述

粗糙集理论粗糙集理论

Page 37: 第 1 章 数据挖掘综述

以表 1-3所示的信息系统为例

2{ }aB 2 3 4{ , , }R R RX

1 3 5 1 3 5( ) ( ) ( ) { , , }R R R R R R B B B

2 4 2 4( ) ( ) { , }R R R R B B

1 3 5 2 4{{ , , },{ , }}R R R R RU P

令则

2 4 2 4( ) ( ) ( ) { , }R R R R B X B B

2 3 4 1 2 3 4 5( ) ( ) ( ) ( ) { , , , , }R R R R R R R R B X B B B

粗糙集理论粗糙集理论

第 1 章 数据挖掘综述

Page 38: 第 1 章 数据挖掘综述

【定义 1.3 】 关于 的边界区域为X B

( ) ( ) ( )Bnd B X B X B X

如果 , 则称集合 为 上可定义集合;否则,称 为 上不可定义集合,或称粗糙集。

3 .含糊性与不确定性的表示粗糙集理论提供了处理含糊性和不确定性的工具。根据这一理论,可以考察某一概念(论域中的子集 )在一个近似空间(属性子集 )中的含糊性。

( )Bnd B X X B X

B

X

B

第 1 章 数据挖掘综述

粗糙集理论粗糙集理论

Page 39: 第 1 章 数据挖掘综述

【定义 1.4 】 含糊性系数

( ) ( ) ( )a B X B X B X

即等于 中的元素数与 中的元素数之比。( )B X ( )B X

显然, 是一个 [0 1] 区间的数值当 ,即 为 1 时,概念是清晰的; 越小,概念越含糊。

( )aB X ( ) ( ) B X B X

( )aB X ( )aB X

粗糙集理论粗糙集理论

第 1 章 数据挖掘综述

Page 40: 第 1 章 数据挖掘综述

如在表 1-3 的例子中,个体的任意一个子集关于性别这个属性来说概念上可能是含糊的,如集合 而这种论域子集关于属性子集的概念上的含糊性可以通过定义 1.4 来计算。

在粗糙集理论中,元素隶属于粗糙集的程度用隶属度函数来描述。

如果元素在 中,其隶属度函数值为 ;如果在边界区域,为 ;如果不在 中,为 。

2 3 4{ , , }R R RX

( )B X

11 2

( )B X

0

第 1 章 数据挖掘综述

粗糙集理论粗糙集理论

Page 41: 第 1 章 数据挖掘综述

4 .应用 由于粗糙集理论能够描述数据库中的含糊性和

不确定性问题,因此为数据采掘和知识发现提供了有效的工具。这种理论在信息系统中属性依赖关系的发掘,冗余的消除以及概念的获取中具有很大的应用价值。

粗糙集理论粗糙集理论

第 1 章 数据挖掘综述

Page 42: 第 1 章 数据挖掘综述

1.3.3.6 模糊集方法:利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。

1.3.3.7 遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。

1.3.3.8 近邻算法:将数据集合中每个记录进行分类的方法。1.3.3.9 规则推导 :从统计意义上对数据中的“如果-那么” 规则进行寻找和推导 .

1.3.3.10 覆盖正例排斥反例方法:利用覆盖所有正例、排斥所有反例的思想来寻找规则。

1.3.3.11 统计分析方法:利用统计学原理对数据库中的信息进行分析。

第 1 章 数据挖掘综述

粗糙集理论粗糙集理论

Page 43: 第 1 章 数据挖掘综述

1.3.4 数据挖掘中的数据仓库

数据仓库与数据采掘之间有非常密切的关系。将数据采掘扩充到它的数据仓库系统环境中,可以增强用户的决策支持能力。

用户从数据仓库中采掘信息时的方式: 验证驱动数据采掘 :较低层次上的由用户制导的被动方式。 验证型采掘的策略是,用户首先提出自己的假设,然后利用各种工具通过递归的检索查询以验证或否定自己的假设。

发现驱动数据采掘 :高层次上的主动式自动发现方法。 发现型的采掘策略是,机器自动地从大量数据中发现

未知的、有用的模式。

第 1 章 数据挖掘综述

Page 44: 第 1 章 数据挖掘综述

1.3.4.1 数据仓库的定义

对于数据仓库的概念可以从两个层次予以理解:

数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库

数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。

第 1 章 数据挖掘综述

Page 45: 第 1 章 数据挖掘综述

数据仓库的特点数据仓库的特点

( 1 )面向主题( 2 )集成的( 3 )相对稳定的( 4 )反映历史变化 企业数据仓库的建设,是以现有企业业务系统和大量

业务数据的积累为基础。把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。

第 1 章 数据挖掘综述

Page 46: 第 1 章 数据挖掘综述

图 1-7 数据仓库系统体系结构

第 1 章 数据挖掘综述

数据仓库系统体系结构数据仓库系统体系结构

Page 47: 第 1 章 数据挖掘综述

如上图 1-7所示,整个数据仓库系统是包含四个层次的体系结构 :

( 1 )数据源( 2 )数据的存储与管理( 3 ) OLAP服务器( 4 )前端工具

第 1 章 数据挖掘综述

数据仓库系统数据仓库系统

Page 48: 第 1 章 数据挖掘综述

1.3.4.2 建立高效数据仓库的关键问题

( 1 )逐步建立、及时应用( 2 )注重易用性和可管理性 ( 3 )发挥工具的作用( 4 )高度的伸缩性( 5 )开放的运行平台( 6 )存储管理问题

第 1 章 数据挖掘综述

Page 49: 第 1 章 数据挖掘综述

1.4 数据挖掘系统工作原理

1.4.1 数据挖掘系统结构

图 1-8 数据挖掘与其他学科的关系

第 1 章 数据挖掘综述

Page 50: 第 1 章 数据挖掘综述

第 1 章 数据挖掘综述

数据挖掘是指从大量数据中提取或“挖掘”知识。该术语实际上有点用词不当。注意,从矿石或砂子挖掘黄金称作黄金挖掘,而不是砂石挖掘。因此,数据挖掘应当更正确地命名为“从数据中挖掘知识”,遗憾的是这个词有点长。 “知识挖掘”是一个较短的术语,但不能反映从大量数据中挖掘。毕竟,挖掘是一个很生动的术语,它抓住了从大量的、未加工的材料中发现少量宝贵金块这一过程的特点,如图 1-9所示。

数据挖掘系统数据挖掘系统

Page 51: 第 1 章 数据挖掘综述

图 1-9 数据挖掘:在数据中搜索知识(有趣的模式)

第 1 章 数据挖掘综述

数据挖掘系统数据挖掘系统

Page 52: 第 1 章 数据挖掘综述

还有一些术语具有和数据挖掘类似但稍微不同的含义,如从数据中挖掘知识、知识提取、数据/模式分析、数据考古和数据捕捞。许多人把数据挖掘视为另一个常用的术语数据中的知识发现或 KDD 的同义词,而另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。知识发现过程如图 1-10所示。

第 1 章 数据挖掘综述

数据挖掘系统数据挖掘系统

Page 53: 第 1 章 数据挖掘综述

图 1-10 数据挖掘作为知识发现过程的一个步骤

第 1 章 数据挖掘综述

数据挖掘系统数据挖掘系统

Page 54: 第 1 章 数据挖掘综述

知识发现过程步骤知识发现过程步骤 1 数据清理(消除噪声和不一致数据)。 2 数据集成(多种数据源可以组合在一起)。 3 数据选择(从数据库中提取与分析任务相关的数据)。 4 数据变换(数据变换或统一成适合挖掘的形式,如通

过汇总或聚集操作)。 5 数据挖掘(基本步骤,使用智能方法提取数据模式 ) 。 6 模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式 ) 。

7 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识 ) 。

第 1 章 数据挖掘综述

Page 55: 第 1 章 数据挖掘综述

步骤( 1 )~( 4 )是数据预处理的不同形式,为挖掘准备数据。数据挖掘步骤可能与用户或知识库交互。有趣的模式提供给用户,或作为新的知识存放在知识库中。注意,根据这种观点,数据挖掘只是整个过程中的一个步骤,尽管是最重要的步骤,因为它发现用来评估的隐藏的模式。

第 1 章 数据挖掘综述

数据挖掘系统数据挖掘系统

Page 56: 第 1 章 数据挖掘综述

• 注意,数据挖掘只是整个过程中的一个步骤,尽管是最重要的步骤,因为它发现用来评估的隐藏的模式。

本书选用数据挖掘功能的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息库中的大量数据中发现有趣知识的过程。基于这种观点,典型的数据挖掘系统具有以下主要成分,如图 1-11所示。

第 1 章 数据挖掘综述

数据挖掘系统数据挖掘系统

Page 57: 第 1 章 数据挖掘综述

图 1-11 典型数据挖掘系统的结构

第 1 章 数据挖掘综述

数据挖掘系统数据挖掘系统

Page 58: 第 1 章 数据挖掘综述

典型的数据挖掘系统主要成分:典型的数据挖掘系统主要成分:

( 1 )数据库、数据仓库、万维网或其他信息库。( 2 )知识库。( 3 )数据挖掘引擎。( 4 )模式评估模块。( 5 )用户界面。

第 1 章 数据挖掘综述

Page 59: 第 1 章 数据挖掘综述

1.4.2 数据挖掘流程

1 .数据挖掘环境 数据挖掘是指一个完整的过程 , 该过程从大型数据库中挖掘先

前未知的 , 有效的 , 可实用的信息 , 并使用这些信息做出决策或丰富知识。数据挖掘环境如图 1-12所示。

图 1-12 数据挖掘环境

第 1 章 数据挖掘综述

Page 60: 第 1 章 数据挖掘综述

2 .数据挖掘主要步骤

图 1-13 数据挖掘主要步骤

第 1 章 数据挖掘综述

数据挖掘流程数据挖掘流程

Page 61: 第 1 章 数据挖掘综述

数据挖掘过程工作量数据挖掘过程工作量

图 1-14给出了各步骤在整个过程中的工作量之比。可以看到, 60%的时间用在数据准备上 , 这说明了数据挖掘对数据的严格要求,而后挖掘工作仅占总工作量的 10%。

0

10

20

30

40

50

60

图 1-14 数据挖掘过程工作量比例

第 1 章 数据挖掘综述

Page 62: 第 1 章 数据挖掘综述

小结小结

本章对数据挖掘的研究历史和现状进行了叙述。从技术角度和商业角度对数据挖掘进行了定义,对数据挖掘与传统数据分析方法、数据挖掘和数据仓库、数据挖掘和在线分析处理( OLAP )、数据挖掘、机器学习和统计、软硬件发展对数据挖掘的影响之间的关系进行了讨论。探讨了数据挖掘所发现的知识类型、数据挖掘的功能、数据挖掘常用技术、数据挖掘中的数据仓库等内容。阐述了数据挖掘系统的工作原理,其中包括数据挖掘系统结构和数据挖掘流程。

第 1 章 数据挖掘综述

Page 63: 第 1 章 数据挖掘综述

习 题 习 题 11

1.什么是数据挖掘?在你的回答中,强调以下问题:• ( 1 )它是又一个骗局吗?• ( 2 )它是一种从数据库、统计学和机器学习发展的技术

的简单转换吗?• ( 3 )解释数据库技术发展如何导致数据挖掘。• ( 4 )当把数据挖掘看作知识发现进程时,描述数据挖掘所涉及的步骤。

• 2.举例说明数据挖掘对于一种商务的成功是至关重要的。这种商务需要什么数据挖掘功能?它们能够由数据查询处理或简单的统计分析来实现吗?

第 1 章 数据挖掘综述

Page 64: 第 1 章 数据挖掘综述

• 3.试设计一所大学数据挖掘系统中的课程数据库。该数据库包括如下信息:每个学生的姓名、地址、状态(例如,本科生或研究生)、所修课程,以及他们累积的 GPA (学分平均),描述你要选取的结构并说明该结构中每个成分的作用。

• 4.数据仓库和数据库有何不同?它们有哪些相似之处?• 5.简述以下高级数据库系统和应用:面向对象数据库、空

间数据库、文本数据库、多媒体数据库和 WWW 。• 6.定义下列数据挖掘功能:特征化、区分、关联、分类、预测、聚类和演变分析。使用你熟悉的现实生活中的数据库,给出每种数据挖掘功能的例子。

习 题 习 题 11

第 1 章 数据挖掘综述

Page 65: 第 1 章 数据挖掘综述

• 7.区分和分类的差别是什么?特征化和聚类的差别是什么?分类和预测呢?对于每一对任务,它们有何相似之处?

• 8.根据你的观察,描述一种可能的知识类型,它需要由数据挖掘方法发现,但未在本章中列出。它需要一种不同于本章列举的数据挖掘技术吗?

• 9.描述关于数据挖掘方法和用户交互问题的三个数据挖掘的挑战。

• 10.描述关于性能问题的两个数据挖掘的挑战。

习 题 习 题 11

第 1 章 数据挖掘综述