第 7 课数据挖掘的高级主题

第 7 课数据挖掘的高级主题徐从富，副教授

浙江大学人工智能研究所

浙江大学本科生《数据挖掘导论》课件

内容提纲 Web挖掘隐私保护数据挖掘

一．Web 挖掘

Knowledge

WWW

I. Web 挖掘简介II. Web 日志挖掘

I. Web Mining 简介1. 产生原因2. 应用3. 分类4. 过程

1. 产生原因网络信息搜集的需求与收集结果低效性的矛盾迫切需要对网络资源的整序与检索。传统数据挖掘和文本挖掘技术的不断完善和应用。

2. 应用查询相关信息从Web 数据发现潜在的未知信息了解用户的兴趣爱好信息个性化

3. Web 挖掘分类Web Mining

Web Content Mining

Web Usage Mining

Web Structure

Mining

① Web 内容挖掘 Web 内容挖掘是从文档内容或其描述中抽取知识的过程。 Web 内容挖掘策略

直接挖掘文档的内容在其它工具搜索的基础上进行改进

Web 内容挖掘（续）提取文字、图片或者其他组成网页内容成分的信息，即通过有效的内容挖掘能告诉我们哪些页面是德文或者法文的？哪些站点卖我们喜欢的东西？哪些页面介绍了我们感兴趣的知识？搜索引擎、智能代理和一些推荐引擎都使用内容挖掘来帮助客户在浩瀚的网络空间中寻找所需的内容。

② Web 结构挖掘 Web 结构挖掘研究的是 Web 文档的链接结构，揭示蕴含在这些文档结构中的有用模式，处理的数据是 Web 结构数据。是从

WWW 的组织结构和链接关系中推导知识。由于文档之间的互连， WWW 能够提供除文档内容之外的有用信息。利用这些信息，可以对页面进行排序，发现重要的页面。

Web 结构挖掘（续）提取网络的拓扑信息――网页之间的链接信息，即通过有效的结构挖掘能告诉我们哪些页面被其他页面所链接？哪些页面指向了其他页面？哪些页面的集合构成了一个独立的整体？

③ Web 日志挖掘 Web 日志挖掘的主要目标则是从 Web 的访问记录中（ Web 服务器 log 日志）抽取感兴趣的模式。 WWW 中的每个服务器都保留了访问日志（ Web access log ），记录了用户访问和交互的信息。分析这些数据可以帮助理解用户的行为，从而改进站点的结构，或为用户提供个性化的服务。

Web 日志挖掘（续）一般的访问模式跟踪

通过分析日志数据来了解用户的访问模式和倾向，以改进站点的组织结构个性化的使用记录跟踪

倾向于分析单个用户的偏好，其目的是根据不同用户的访问模式，为每个用户提供定制的站点。

Web 日志挖掘（续）提取关于客户如何运用浏览器浏览和使用这些链接的信息，即通过有效的日志挖掘能告诉我们那些客户访问了哪些页面？在每一页上待了多长时间？下一步单击了什么？在站点中是按照怎样的访问路线通向检查计数器，又是通过怎样的路线直接退出的？

Web 内容挖掘 Web 结构挖掘 Web 日志挖掘处理数据类型

IR方法：无结构数据、半结构数据数据库方法：半结构化数据 Web 结构数据用户访问 Web数据

主要数据自由化文本、 HTML 标记的超文本HTML 标记的超文本 Web 文档内及文档间的超链

Serverlog,Proxy serverlog,Client log

表示方法词集、段落、概念、 IR 的三种经典模型对象关系模型图关系表、图处理方法统计、机器学习、自然语言理解数据库技术机器学习、专有算法统计、机器学习、关联规则主要应用分类、聚类、模式发现

模式发现、数据向导、多层数据库、站点创建与维护页面权重分类聚类模式发现

Web 站点重建，商业决策

4. Web 挖掘过程资源发现：在线或离线检索 Web 的过程，例如用爬虫（ crawler ）或（ spider ）在线收集 Web 页面信息选择与预处理：对检索到的 Web 资源的任何变换都属于此过程。

词干提取高低频词的过滤汉语词的切分

综合过程：自动发现 Web 站点的共有模式分析过程：对挖掘到的模式进行验证和可视化处理

II. Web 日志挖掘1. Web 日志挖掘数据类型2. Web 日志挖掘应用3. Web 日志挖掘过程

服务器日志

数据类型 Client IP: 128.101.228.20 Authenticated User ID: - - Time/Date: [10/Nov/1999:10:16:39 -0600] Request: "GET / HTTP/1.0" Status: 200 Bytes: - Referrer: “-” Agent: "Mozilla/4.61 [en] (WinNT; I)"

2. Web 日志挖掘应用 Applications

电子商务中发现潜在客户增强终端用户信息获取的质量提高 Web 服务器的性能合理放置广告提高站点设计欺诈和入侵检测预测用户行为

3. Web 日志挖掘过程

服务器日志数据库

访问序列数据库

事务数据库

关联规则序列模式聚类与分类

模式分析

用户访问源数据处理数据预处理模式挖掘

访问者注册用户

各类网站

Web数据库

Web日志处理文件

过滤模块

挖掘综合模块

Web使用模式挖掘算法库

关联分析

序列分析

新方法分析

页面访问情况

客户生活模式

商品销售特点

客户群规律

评估界面

方法驱动模块

方法选择专家系统及知识库

挖掘结果报表输出

Web 日志挖掘过程① 预处理② 数据挖掘③ 模式分析

① 数据预处理数据清理用户对话识别页面视图识别路径完整

数据清理根据一组原始的日志项，完成一系列基本任务，如归并日志、解析日志等。对于一些网站，需要过滤掉图象文件，这可以通过检查文件后缀实现。一般地，我们需要对日志中的状态码（ status code ）进行检查。

清理后的 Sample Log

IP Address Time/Date Method/URI Referrer Agent202.120.224.415:30:01/2-Jan-01GET Index.htm http://ok.edu/link.htm Mozilla/4.0(IE5.0W98)202.120.224.415:30:01/2-Jan-01GET 1.htm http://ex.edu/index.htmMozilla/4.0(IE5.0W98)202.120.224.415:30:01/2-Jan-01GET A.htm http://ex.edu/index.htmMozilla/4.0(IE5.0W98)

202.120.224.415:37:09/2-Jan-01GET E.htm http://ex.edu/C.htm Mozilla/4.0(IE5.0W98)

202.120.224.415:33:04/2-Jan-01GET Index.htm http://ok.edu/res.php Mozilla/4.0(IE4.0NT)202.120.224.415:33:04/2-Jan-01GET 1.htm http://ex.edu/index.htmMozilla/4.0(IE4.0NT)202.120.224.415:33:04/2-Jan-01GET A.htm http://ex.edu/index.htmMozilla/4.0(IE4.0NT)

202.120.224.415:35:11/2-Jan-01GET B.htm http://ex.edu/A.htm Mozilla/4.0(IE4.0NT)202.120.224.415:35:11/2-Jan-01GET C.htm http://ok.edu/A.htm Mozilla/4.0(IE5.0W98)

用户对话识别 1.IP Address & Agent 2.Embedded Session ID 3.Registration(User Profile) 4.Cookie 5.Software Agent (Applet&Scrtipt) 6.Modified Browser

用户对话识别（续）方法说明隐私性保护优点缺点

IP地址 / 代理服务器假定每个独立 IP地址 / 代理服务器组是独立用户

低通常可用，无需附加技术。无法保证唯一性，在随机或者轮换 IP情况下失效

嵌入式对话 ID 通过动态形成页面将 ID加入每个链接

低 / 中等通常可用，不需依赖于 IP地址无法了解重复访问，需要完全动态站点。注册用户确切地登陆站点中等可以跟踪单个用户，而不仅仅是浏览器

不是全部用户都愿意注册Cookie 在客户端机器上保留标识符中等 / 高可以跟踪重复访问能被禁止。不为大众接收

软件代理服务器程序载入浏览器从而将日志数据返回高可以得到单个

Web 站点的确切日志数据很可能被拒绝。不为大众接收

改进型浏览器浏览器记录日志数据非常高可以得到关于整个Web 的日志数据

用户必须确切地得到软件

用户对话识别

15:33:04/2-Jan-01GET Index.htm http://ok.edu/res.php15:33:04/2-Jan-01GET 1.htm http://ex.edu/index.htm15:33:04/2-Jan-01GET A.htm http://ex.edu/index.htm15:35:11/2-Jan-01GET B.htm http://ex.edu/A.htm

15:30:01/2-Jan-01GET Index.htm http://ok.edu/link.htm15:30:01/2-Jan-01GET 1.htm http://ex.edu/index.htm15:30:01/2-Jan-01GET A.htm http://ex.edu/index.htm

15:37:09/2-Jan-01GET E.htm http://ex.edu/C.htm15:35:11/2-Jan-01GET C.htm http://ok.edu/A.htm

Mozilla/4.0(IE5.0W98)202.120.224.4

User1:

202.120.224.4Mozilla/4.0(IE4.0NT)User2:

页面视图识别

1-A http://ok.edu/res.phpB A.htm

1-A http://ok.edu/link.htm

E C.htm1-C A.htm

Mozilla/4.0(IE5.0W98)202.120.224.4

User1:

202.120.224.4Mozilla/4.0(IE4.0NT)User2:

路径补全解决由于 Cache带来的问题路径不全的问题

数据挖掘统计分析频繁项集和关联规则聚类分析和分类序列模式

统计分析主要用于改进系统的性能、设计等包括：

1) 最频繁访问的页面2) 每个页面的平均访问时间3) 通过一个站点的平均时间

频繁项集和关联规则可以寻找出经常频繁访问的 page 组，可用于修改 Web 站点的设计或提前缓冲页面，改进系统的性能。

包括两方面的应用：•*user 用于 Market segmentation( 市场分割 )和个人内容定制•*page(content)后者主要用于 IR 和冲浪辅助

聚类和分类

序列模式可用于用户的 visit pattern. 包括：1. 趋势分析2. 拐点检测

模式分析目的是根据实际应用，通过用户的选择和观察，把发现的规则、模式和统计规律转换为知识。

Visualization

二．隐私保护数据挖掘隐私保护数据挖掘简介隐私保护数据挖掘面向企业信用评估的分布式隐私保护数据挖掘研究

一、隐私保护数据挖掘简介 What Why Who Goal How An Example

什么是数据挖掘数据挖掘是从大量数据中提取或“挖掘”知识的过程。数据挖掘以客观、有效的数据源为物质基础。数据挖掘得到的知识是一种数据归纳的结果，是一种统计的知识。

什么是隐私针对不同的应用环境，隐私定义不同。在信息时代，隐私指用户隐藏个人信息的权利和控制自己的信息给其他人的能力。

什么是隐私保护数据挖掘 “getting valid data mining results without

learning the underlying data values”噪声背景的数据挖掘受限制的数据挖掘

数据挖掘可能会违反用户的隐私数据挖掘以准确的数据为数据源，进行数据归纳分析。个体隐私

记录级和属性级上的隐私组织隐私

结果级上的隐私，统计分析后的结果

什么人需要隐私保护数据挖掘？政府和公用事业部门

疾病控制中心保险公司

工商业组织跨国公司

每个国家的法律是不同的军事情报分析犯罪行为分析反恐分析

隐私的限制不会阻止数据挖掘数据挖掘的目标是结果的总结

关联规则分类聚类

结果本身不会违反隐私不包含个人身份信息反映的是整个数据的归纳统计结果，而不是针对每个单位

The problem is computing the results without access to the data!

隐私保护数据挖掘的目标 PPDM encompasses the dual goal of meeting privacy

requirements and providing valid data mining results. 保护隐私和满足安全性要求（安全性）产生正确的数据挖掘归纳结果（准确性）提供高效的数据挖掘算法（高效性）

Accuracy

Efficiency

Privacy

如何进行隐私保护数据挖掘转变数据库原始数据库

数据挖掘存取控制

可以存取进行挖掘

数据挖掘

不允许存取进行挖掘

计算频繁项集： ABC ≥ 5%?

2ABC=9

DBSize=200

1ABC=18

DBSize=300

3ABC=5

DBSize=100

ABC: R+count-freq.*DBSize

R=17

ABC: 17+5-.05*100ABC: 17ABC: 17+9-.05*200ABC: 12

ABC: 12+18-.05*300ABC: 19 ABC: 19 ≥ R?

ABC: YES!

二、隐私保护数据挖掘隐私保护数据挖掘分类

保护个体用户隐私保护组织用户隐私

研究方法数据隐藏安全多方计算

保护个体用户隐私这是一种记录和属性级上的隐私保护。在原始数据库中，类似于标识符、姓名、地址和喜好等用户数据作为用户的隐私应该被保护。保护敏感的原始数据的隐私保护数据挖掘方法应该能够使得用户的敏感的原始数据被修改，以便数据的使用者不能对用户的原始数据进行直接存储，不能查看用户的隐私，以此保护用户的私有数据。

个体隐私 : 保护记录每个项都不允许泄漏记录的一部分是可以泄漏的

个人身份信息

个人身份信息删除标识符但是我们无法保证身份不能被推断

候选码一些个体特有的属性

Data Mining enables such tracing!

保护组织用户隐私这是一种结果级上的隐私保护，这里的目标不仅是保护个体用户的不被泄漏，而且一些重要的策略模式和数据挖掘之后的结果同样不能泄漏，在商业领域，这些模式被认为是能够提供有竞争力好处的知识，隐私必须被很好地保护。在数据挖掘的统计模型中，有很多挖掘出的知识也会泄漏用户的隐私。保护敏感的挖掘知识的隐私保护数据挖掘方法能够保护用户的敏感知识，以便不会被泄漏用作其他的目的，造成用户重要信息的泄密。

组织隐私保护个体隐私是不够的保护从组织中获得的敏感知识

策略模式数据挖掘的结果

目标：身份信息不能泄漏数据挖掘之后的模式和知识同样不能泄漏

Database

用户

数据挖掘挖掘得到的知识

变换后数据库隐藏敏感的知识

P3P

发布的隐私策略协同达成的一致策略

隐私保护数据挖掘架构 B2B 的架构中，具体的事务分布在几个不同的站点。每个站点拥有一个包含大量事务的私有数据库。这里用到的主要计算技术是安全多方计算（ Secured multiparty computation ）及其变种。

B2C 的架构中，一个系统包含一个数据挖掘站点和众多的数据提供者。在线调查表是这种 B2C架构的一个典型的例子。其中包含一个调查表收集器和分析器以及众多的数据提供者。

解决方法分类数据隐藏 (Data Obfuscation)

对数据进行挖掘时，不能看到真实的数据安全多方计算

仅仅可信的结点可以看到数据

数据隐藏目标 : 隐藏被保护信息

私有数据可用噪声较大真实值不能确定得到

主要技术匿名技术随机的数据转换 (random data perturbation)阻塞技术 (blocking)聚集或融合技术 (aggregation or merging)交换技术 (swapping)采样技术 (sampling)

基于阻塞的技术 (blocking)

AA BB CC DD11 11 11 0011 00 11 1100 00 00 1111 11 11 0011 00 11 11

AA BB CC DD11 11 11 0011 00 ?? 11?? 00 00 1111 11 11 0011 00 11 11

BlockingAlgorithm

Initial DatabaseInitial Database New DatabaseNew Database

主要用于组织隐私的保护

随机的数据转换 (random data perturbation)

A B C D

1 1 1 0

1 0 1 1

0 0 0 1

1 1 1 0

1 0 1 1

Sample DatabaseSample DatabaseA B C D

1 1 1 0

1 0 00 1

0 0 0 1

1 1 1 0

1 0 00 1

Distorted DatabaseDistorted Database

DistortionAlgorithm

随机的数据转换目标

统计属性可以较精确得到个体数据不能得到

离散型变量转换布尔型变量分类型 (Category) 变量

连续型变量转换布尔型变量转换分类型变量转换连续型变量转换

布尔型变量转换购物篮问题数据位以概率 p 被翻转对经过变化的数据进行挖掘

1T DC M C1

0

1,

1Cp p

M CCp p

分类型变量转换 Select-a-size Randomization Cut and Paste Randomization

Select-a-size Randomization

给定大小为 t 的事务 , 构造 t’:选择 j 属于 0 到 m

P[j 被选择的概率 ]= pm[j]把事务加入 t 的 j 个项加入事务 ·t’;其它不在事务 t 的属性以概率 pm 加入事务 t’

参数 pm[j]和 pm 的选择基于需要的隐私度

Cut and Paste Randomization

给定大小为 t 的事务 , 构造 t’:在 0到 Km 间选择 j把事务 t 的 j 个项加入 t’;事务 t 的其它项以概率 pm加入 t’

参数 Km和 pm 的选择基于所需要的隐私度

连续型变量隐私保护挖掘方法 Agrawal and Srikant, SIGMOD’00

Bayes’ rule 改进 by Agrawal and Aggarwal, SIGMOD’01

Expectation Maximization (EM)

Bayes’ rule

Agrawal and Srikant (2000) Decision Trees Perturb Data with Value Distortion

用户提供 xi+r 代替 xi

r 是一个随机变量，服从分布平均分布 [-a, a] 高斯分布 (u, σ)

Bayes’ rule

x1,x2,…,xn 是 n 个独立同分布的随机变量 y1,y2,…,yn 是 n 个独立同分布的随机变量 W=X+Y给定 FY和W ，估计 FX

安全多方计算 Motivation: 分布式隐私保护数据挖掘目标：

结果公布每个用户只知道自己的数据

A

B C

中心

A B C

随机方法安全多方计算方法

比较数据隐藏安全多方计算复杂性一般高

计算、通信安全性较高高

主要问题安全性和准确性的折衷效率适用领域较广

Web, Corporate小规模分布式

Corporate

分布式隐私保护数据挖掘的目标安全性分析

知道自己的数据和最终的结果不清楚其它用户的数据

避免相互勾结通信分析

分布式隐私保护数据挖掘方法 Semi-Honest Model Malicious

分类水平分布型数据 (Horizontal Partitioning)垂直分布型数据 (Vertical Partitioning)

水平型分布数据

垂直分布型数据

Documents

第 7 课 数据挖掘的高级主题

第 7 课数据挖掘的高级主题