信息管理专题 —— 数据挖掘 (Data Mining)

1

信息管理专题——数据挖掘 (Data Mining)

2

啤酒与尿布问题• 美国加州某个超级连锁店通过数据挖掘发

现：该超市啤酒与尿布的销售量成正相关关系。后来发现，在下班后，来购买婴儿尿片的多数是男性，他们在购买婴儿尿片的同时往往也购买啤酒。于是连锁店经理当机立断重新布置货架，把啤酒与尿布放置在邻近的货架上，并且在两者之间放上土豆片之类的佐酒小吃，这样一来，上述几种商品的销量几乎马上成倍上涨。

3

信息管理专题——数据挖掘

数据挖掘基本功能聚类分析关联挖掘互联网数据挖掘

4

数据丰富与知识匮乏• 据粗略估计， 20 世纪 80 年代，全球信息

量每隔 20 个月就要增加一倍。而进入 90年代，全球所拥有的数据库及其所存储的数据规模增长更快。据估计， 1993 年全球数据存储容量为 2000TB ， 2000 年增加到 300 万 TB 。但是目前一个大型企业数据库中的数据，约只有 7% 得到很好的应用。

5

数据库数据

库

数据仓库

特定数据

集清洗与集成

选择

与转换数据挖掘

评估与表示

模式知识

数据清洗是指消除数据噪音

将多个数据源中的相关数据组合

到一起

数据挖掘模式有用性、确定性、简洁性、新颖性将数据转换成易

于进行数据挖掘的描述形式

利用智能方式挖掘智能模式或规律知识

处理

数据

预

模式

评估

规则

挖掘

6

数据仓库• 数据仓库是用以支持企业和组织的决策分

析处理、面向主题、集成的、不可更新、随时间变化的数据集合

7

数据泛化• 将数据抽象到更高的层次概念来取代低层

次的数据。如：某个客户的地址（安徽省合肥市桐城南路 375号），这样的数据可以泛化到“安徽省”。如年龄属性，可以映射到青年、中年、老年。

8

数据挖掘功能1、概念描述：定性与对比2、关联分析★★★★★3 、分类分析4 、聚类分析★★★★★5 、异类分析6 、演化分析

对所分析数据进行概要总结

对两类所分析数据的特点进行对比并对对比结果给出概要性总

结从给定的数据集中发现频繁出现的关联规

则找出一组能够描述数据集合典型特性的模型，以便能够识别未

知数据的归属

聚类基本思路：“各聚集（ clusters ）内部数据之间的相似程度最大化，各聚集对象间相似程度最小

化”。聚类与分类的不同之处在于，后者所学习获取分类模型所使用的数据是已知类别归属，属于有教师监督学习，而聚类所分析处理的数据无归属类别

不符合大多数数据对象所构成的规律的数据对象称为异类。在一些场合，如商业欺诈行为的自动检测，小概率发生的事件往往比经常发生的事件更具价值对随时间变化的数据对象的变化规律和趋势进行建

模描述

9

概要描述示例• 【示例 1 】一个数据挖掘系统需要从我校职工数据库中，挖掘出我校讲师情况的概要总结，并给出我校讲师概念描述 :“62%（ age<30） and (age>24)”

10

概要描述示例• 【示例 2 】一个数据挖掘系统需要从我校职工数据库中，针对我校副教授情况（对比数据集），对我校讲师情况（目标数据集）进行对比概要总结，并给出我校讲师对比概念描述：“讲师： 78%（papers<3） and (teachi

ng course<2)”，而“副教授： 66%（papers>=3） and (teaching course>=2)”

11

关联分析• 【示例 3 】一个数据挖掘系统可以从一个

商场的销售记录数据中，挖掘出如下所示的关联规则：buy(X，” computer”) =>buy (X，” sof

tware”) [支持度 =1%,信任度 =60%]

12

支持度和信任度

X Y

X Y

X

同时购买商品和的交易数支持度

总交易数同时购买商品和的交易数

信任度购买了商品的交易数

有用性

确定性

13

分类分析- 第一步：学习建模

姓名年龄收入信用评估汪明 <30 低一般王敏 <30 低良好李勇 30 ～ 40 高良好… … … …

分类算法

分类规则训练样本If age=30 to 40 and income =高则信用评估 = 良好

14

分类分析- 第二步：分类测试

姓名年龄收入信用评估张丰 >40 高？王敏 <30 低？李勇 30 ～ 40 高？… … … …

测试数据

分类规则

新数据：李勇， 30 ～ 40 ，收入高，信用评估

如何？良

15

异类分析• 【示例 4 】异类分析可以用于从大量商品

购买记录中，依据各账户平常所发生的购买行为，发现正在进行信用卡诈骗的购买行为（异类行为）。例如：可以根据购买的发生地点、购买商品类型和购买频率等发现属于信用卡诈骗的购买行为（异类数据）

16

演化分析• 【示例 5 】利用演化分析方法可对股市主

要股票交易数据（时序数据， time series data）进行分析，以便获得整个股票市场的股票演化规律，以及一个特定股票的变化规律

17



18

聚类分析- κ均值（ κ-means ）算法

• 聚类基本思想：将数据集划分成若干组，并使得同一个组内的数据对象具有较高的相似度，而不同组中的数据对象则不相似。相似不相似通常利用各对象间的距离来描述。

• 聚类分析是人类活动中的一个重要内容，早在儿童时期，一个人就是通过不断完善潜意识中的分类模式，来学会识别不同的物体，如猫跟狗；动物和植物等。

• 在商业方面，聚类分析可以帮助市场人员发现客户群众所存在的不同组群。

19

聚类分析- 距离表示

2 2 21 1 2 2

1 1 2 2

1 1 2 2

( , ) ( ) ( ) ... ( )

( , ) | | | | ... | |

( , ) | | | | ... | |

i j i j ip jp

i j i j ip jp

q q qi j i j ip jp

d i j x x x x x x

d i j x x x x x x

Minkowski

d i j x x x x x x

欧氏距离：

马氏距离：

距离：

20


• κ-means 算法思想：首先从 n 个数据对象中任选 κ个对象作为初始聚类中心，而对所剩下的对象，则根据它们与这些聚类中心的距离，分别将它们分配给与其最相似的聚类；然后再计算每个新聚类的聚类中心（该聚类对象中所有对象的均值），不断循环直到标准测度函数开始收敛为止。

2

1

| |i

k

ii p c

E p m

标准测度函数：

21


+

++

+

++

+

++

22



23

关联挖掘• 【示例 6 】挖掘常在一起被购买的商品（关联知识）将帮助商家制定有针对性的市场营销策略。比如：顾客在购买牛奶时，是否也可能同时购买面包，显然能够回答这些问题将会帮助商家进行合适的货架商品摆放。

牛奶果酱面包

糖鸡蛋

面包黄油牛奶

牛奶鸡蛋面包糖

…

顾客 1 顾客 2 顾客 3 顾客 n

24

关联挖掘-相关概念

• 项集：一个数据项的集合，如 {面包、黄油、牛奶 }

• κ 项集：一个包含 κ 个数据项的项集。如集合 { 电脑，金融软件 }就是一个 2项集

• 频繁项集：若一个项集出现频度大于最小支持阈值 (threshold)（最小支持度）乘以交易记录集中的记录数

25

关联挖掘-相关概念

• Apriori 性质：1) 一个频繁项集中任一子集也是频繁项集2) 如果一个集合不是频繁项集，则其所有超

集也不可能是频繁项集

26

关联挖掘- 步骤

I. 发现所有的频繁项集II. 根据所获得的频繁项集，产生强关联规

则，这些规则必须满足最小信任度阈值

27

单维布尔关联规则挖掘-Apriori算法

• 【示例 7 】基于数据和 Apriori算法进行数据挖掘。Tid 交易记录中各商品列表

T1 G1 、 G2 、 G5

T2 G2 、 G4

T3 G2 、 G3

T4 G1 、 G2 、 G4

T5 G1 、 G3

T6 G2 、 G3

T7 G1 、 G3

T8 G1 、 G2 、 G3 、 G5T9 G1 、 G2 、 G3

交易数据库

28


• 假设最小支持度为 22% ,则最小支持频度为 22%*9=2

• 第一步：项集支持频度{G1} 6

{G2} 7

{G3} 6

{G4} 2

{G5} 2

项集支持频度{G1} 6

{G2} 7

{G3} 6

{G4} 2

{G5} 2

候选 1- 项集 C1 频繁 1- 项集 L1

扫描数据库

与最小支持度相比获得频繁

项集

29


• 第二步：连接步骤2 1 1

{{ 1}{ 2}{ 3}{ 4}{ 5}}

{{ 1}{ 2}{ 3}{ 4}{ 5}}

{{ 1 2}{ 1 3}{ 1 4}{ 1 5}

{ 2 3}{ 2 4}{ 2 5}

{ 3 4}{ 3 5}

{ 4 5}}

C L L

G G G G G

G G G G G

G G G G G G G G

G G G G G G

G G G G

G G

, , , ,

, , , ,

, , , , , , , ,

, , , , , ,

, , , ,

,

30


• 第二步：频繁项集 L2产生项集支持频度

{G1 、 G2} 4

{G1 、 G3} 4

{G1 、 G4} 1

{G1 、 G5} 2

{G2 、 G3} 4

{G2 、 G4} 2

{G2 、 G5} 2

{G3 、 G4} 0

{G3 、 G5} 1

{G4 、 G5} 0频繁 2- 项集 L2

根据频繁项集L1产生 C2


项集

项集支持频度{G1 、 G2} 4

{G1 、 G3} 4

{G1 、 G5} 2

{G2 、 G3} 4

{G2 、 G4} 2

{G2 、 G5} 2

31


• 第三步：连接步骤3 2 2

{{ 1 2}{ 1 3}{ 1 5}{ 2 3}{ 2 4}{ 2 5}}

{{ 1 2}{ 1 3}{ 1 5}{ 2 3}{ 2 4}{

{ 1, , 4} { , 5}

{ , 3, 4} { , 3,

2 5}}

{{ 1, 2, 3},{ 1, 2, 5}, , 1 ,

2 , 2 , 2 }

{{ 1, 2, 3

5} { , 4

},

, 5}

C L L

G G G G G G G G G G G G

G G G G G G G G G G G G

G G G G G G G G G GG G

G G G

G

G G

G

G G

G

G G

, , , , , , , , , , ,

, , , ,

3

, , , , , , ,

,2

{ 1, 2, 5}}G G G

32


• 第三步：频繁项集 L3产生

项集支持频度

{G1 、 G2、 G3}

2

{G1 、 G2、 G5}

2

频繁 3- 项集 L3



项集项集支持频

度{G1 、 G2

、 G3}2

{G1 、 G2、 G5}

2

候选 3- 项集 C3

33


• 第四步：连接步骤

4 3 3

{{ 1, 2, 3},{ 1, 2, 5}}

{{ 1, 2, 3},{

{{ 2,

1, 2, 5}}

1, 3, 5}}

C L L

G G G G G G

G G G G G

G G G

G

G

34


• 第四步：频繁项集 L4产生

项集支持频度0

频繁 4- 项集 L4



项集项集支持频

度0

候选 4- 项集 C4

35


• 挖掘结果： {G1 、 G2 、 G3}支持频度为 2 ，满足最小支持度阈值，是频繁项集； {G1 、G2 、 G5}支持频度为 2；满足最小支持度阈值，是频繁项集。

• 信任度如何计算？（课后作业）

36



37

互联网数据挖掘-挖掘难度

• 互联网过大而无法有效的构造数据仓库和进行数据挖掘

• 网页的复杂性要远远大于任何传统的文本文档

• 互联网是一个高度动态的信息源• 互联网所服务用户群体的多样性• 互联网上的信息只有一小部分是真正有用

或相关的

38

互联网数据挖掘 -Google搜索引擎功能模块

• 自动搜索 web网页模块 :

• 网页分析索引模块：

• 网页检索查询模块：

根据用户具体检索要求，以及所建立的网页索引，从网页数据库中快速检索出满足用户查询要求的所有网页

将网页数据库中的网页用相应的特征向量来描述，然后建立索引文件，以便能从网页数据库中快速检索出网页

该模块根据一定的网页搜索策略和规划，调度运行网页自动搜索软件（ crawler），以便能够快速有效的搜集大量的不重复的网页，并将它们存储到搜索引擎的网页数据库中。

39

Google搜索引擎功能模块- 常用搜索策略

• 根据所提供的种子“ URL”开始搜索，并从所搜索出的网页中抽取下一步搜索所需要的 URLs，不断重复“搜索 -抽取”这一过程以完成整个网页库的搜索工作

• 根据各网站受欢迎程度，规划一组 URLs，然后不断重复“搜索 -抽取”过程以完成访问频率高的网页集的搜索工作

• 根据网址名称或国家编码，将WEB空间化分成若干块，并将其分配给若干 ROBOTS，使其在各自的空间完成穷尽搜索工作

40

互联网数据挖掘-搜索引擎评价

• 网页覆盖率• 网页检索速度• 网页检索质量• 网页更新率

41

思考题• 假设你有一个万能的数据挖掘工具，你最希望用它来解决一个什么问题？说出你的理由？

Documents

信息管理专题 —— 数据挖掘 (Data Mining)