84
第7第 第第第第第第第第第 第第第第第第 第第第第第第第第第第第 第第第第第第第第第第第第第第第

第 7 课 数据挖掘的高级主题

  • Upload
    hazina

  • View
    190

  • Download
    2

Embed Size (px)

DESCRIPTION

浙江大学本科生 《 数据挖掘导论 》 课件. 第 7 课 数据挖掘的高级主题. 徐从富, 副教授 浙江大学人工智能研究所. 内容提纲. Web 挖掘 隐私保护数据挖掘. Web 挖掘. WWW. Knowledge. Web 挖掘简介 Web 日志挖掘. Web Mining 简介. 产生原因 应用 分类 过程. 产生原因. 网络信息搜集的需求与收集结果低效性的矛盾迫切需要对网络资源的整序与检索。 传统数据挖掘和文本挖掘技术的不断完善和应用。. 应用. 查询相关信息 从 Web 数据发现潜在的未知信息 了解用户的兴趣爱好 信息个性化. - PowerPoint PPT Presentation

Citation preview

Page 1: 第 7 课  数据挖掘的高级主题

第 7 课 数据挖掘的高级主题 徐从富,副教授

浙江大学人工智能研究所

浙江大学本科生《数据挖掘导论》课件

Page 2: 第 7 课  数据挖掘的高级主题

内容提纲 Web挖掘隐私保护数据挖掘

Page 3: 第 7 课  数据挖掘的高级主题

一.Web 挖掘

Knowledge

WWW

Page 4: 第 7 课  数据挖掘的高级主题

I. Web 挖掘简介II. Web 日志挖掘

Page 5: 第 7 课  数据挖掘的高级主题

I. Web Mining 简介1. 产生原因2. 应用3. 分类4. 过程

Page 6: 第 7 课  数据挖掘的高级主题

1. 产生原因 网络信息搜集的需求与收集结果低效性的矛盾迫切需要对网络资源的整序与检索。 传统数据挖掘和文本挖掘技术的不断完善和应用。

Page 7: 第 7 课  数据挖掘的高级主题

2. 应用 查询相关信息从Web 数据发现潜在的未知信息 了解用户的兴趣爱好 信息个性化

Page 8: 第 7 课  数据挖掘的高级主题

3. Web 挖掘分类Web Mining

Web Content Mining

Web Usage Mining

Web Structure

Mining

Page 9: 第 7 课  数据挖掘的高级主题

① Web 内容挖掘 Web 内容挖掘是从文档内容或其描述中抽取知识的过程。 Web 内容挖掘策略

直接挖掘文档的内容在其它工具搜索的基础上进行改进

Page 10: 第 7 课  数据挖掘的高级主题

Web 内容挖掘(续) 提取文字、图片或者其他组成网页内容成分的信息,即通过有效的内容挖掘能告诉我们哪些页面是德文或者法文的?哪些站点卖我们喜欢的东西?哪些页面介绍了我们感兴趣的知识?搜索引擎、智能代理和一些推荐引擎都使用内容挖掘来帮助客户在浩瀚的网络空间中寻找所需的内容。

Page 11: 第 7 课  数据挖掘的高级主题

② Web 结构挖掘 Web 结构挖掘研究的是 Web 文档的链接结构,揭示蕴含在这些文档结构中的有用模式,处理的数据是 Web 结构数据。是从

WWW 的组织结构和链接关系中推导知识。由于文档之间的互连, WWW 能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序,发现重要的页面。

Page 12: 第 7 课  数据挖掘的高级主题

Web 结构挖掘(续) 提取网络的拓扑信息――网页之间的链接信息,即通过有效的结构挖掘能告诉我们哪些页面被其他页面所链接?哪些页面指向了其他页面?哪些页面的集合构成了一个独立的整体?

Page 13: 第 7 课  数据挖掘的高级主题

③ Web 日志挖掘 Web 日志挖掘的主要目标则是从 Web 的访问记录中( Web 服务器 log 日志)抽取感兴趣的模式。 WWW 中的每个服务器都保留了访问日志( Web access log ),记录了用户访问和交互的信息。分析这些数据可以帮助理解用户的行为,从而改进站点的结构,或为用户提供个性化的服务。

Page 14: 第 7 课  数据挖掘的高级主题

Web 日志挖掘(续) 一般的访问模式跟踪

通过分析日志数据来了解用户的访问模式和倾向,以改进站点的组织结构 个性化的使用记录跟踪

倾向于分析单个用户的偏好,其目的是根据不同用户的访问模式,为每个用户提供定制的站点。

Page 15: 第 7 课  数据挖掘的高级主题

Web 日志挖掘(续) 提取关于客户如何运用浏览器浏览和使用这些链接的信息,即通过有效的日志挖掘能告诉我们那些客户访问了哪些页面?在每一页上待了多长时间?下一步单击了什么?在站点中是按照怎样的访问路线通向检查计数器,又是通过怎样的路线直接退出的?

Page 16: 第 7 课  数据挖掘的高级主题

Web 内容挖掘 Web 结构挖掘 Web 日志挖掘处理数据类型

IR方法:无结构数据、半结构数据数据库方法:半结构化数据 Web 结构数据 用户访问 Web数据

主要数据 自由化文本、 HTML 标记的超文本HTML 标记的超文本 Web 文档内及文档间的超链

Serverlog,Proxy serverlog,Client log

表示方法 词集、段落、概念、 IR 的三种经典模型 对象关系模型 图 关系表、图处理方法 统计、机器学习、自然语言理解 数据库技术 机器学习、专有算法 统计、机器学习、关联规则主要应用 分类、聚类、模式发现

模式发现、数据向导、多层数据库、站点创建与维护页面权重分类聚类模式发现

Web 站点重建,商业决策

Page 17: 第 7 课  数据挖掘的高级主题

4. Web 挖掘过程 资源发现:在线或离线检索 Web 的过程,例如用爬虫( crawler )或( spider )在线收集 Web 页面 信息选择与预处理:对检索到的 Web 资源的任何变换都属于此过程。

词干提取 高低频词的过滤汉语词的切分

综合过程:自动发现 Web 站点的共有模式 分析过程:对挖掘到的模式进行验证和可视化处理

Page 18: 第 7 课  数据挖掘的高级主题

II. Web 日志挖掘1. Web 日志挖掘数据类型2. Web 日志挖掘应用3. Web 日志挖掘过程

Page 19: 第 7 课  数据挖掘的高级主题

服务器日志

Page 20: 第 7 课  数据挖掘的高级主题

数据类型 Client IP: 128.101.228.20 Authenticated User ID: - - Time/Date: [10/Nov/1999:10:16:39 -0600] Request: "GET / HTTP/1.0" Status: 200 Bytes: - Referrer: “-” Agent: "Mozilla/4.61 [en] (WinNT; I)"

Page 21: 第 7 课  数据挖掘的高级主题

2. Web 日志挖掘应用 Applications

电子商务中发现潜在客户增强终端用户信息获取的质量提高 Web 服务器的性能合理放置广告提高站点设计欺诈和入侵检测预测用户行为

Page 22: 第 7 课  数据挖掘的高级主题

3. Web 日志挖掘过程

Page 23: 第 7 课  数据挖掘的高级主题

服务器日志数据库

访问序列数据库

事务数据库

关联规则序列模式聚类与分类

模式分析

用户访问 源数据处理 数据预处理 模式挖掘

Page 24: 第 7 课  数据挖掘的高级主题

访问者 注册用户

各类网站

Web数据库

Web日志处理文件

过滤模块

挖掘综合模块

Web使用模式挖掘算法库

关联分析

序列分析

新方法分析

页面访问情况

客户生活模式

商品销售特点

客户群规律

评估界面

方法驱动模块

方法选择专家系统及知识库

挖掘结果报表输出

Page 25: 第 7 课  数据挖掘的高级主题

Web 日志挖掘过程① 预处理② 数据挖掘③ 模式分析

Page 26: 第 7 课  数据挖掘的高级主题

① 数据预处理 数据清理 用户对话识别 页面视图识别路径完整

Page 27: 第 7 课  数据挖掘的高级主题
Page 28: 第 7 课  数据挖掘的高级主题

数据清理 根据一组原始的日志项,完成一系列基本任务,如归并日志、解析日志等。对于一些网站,需要过滤掉图象文件,这可以通过检查文件后缀实现。一般地,我们需要对日志中的状态码( status code )进行检查。

Page 29: 第 7 课  数据挖掘的高级主题

清理后的 Sample Log

IP Address Time/Date Method/URI Referrer Agent202.120.224.415:30:01/2-Jan-01GET Index.htm http://ok.edu/link.htm Mozilla/4.0(IE5.0W98)202.120.224.415:30:01/2-Jan-01GET 1.htm http://ex.edu/index.htmMozilla/4.0(IE5.0W98)202.120.224.415:30:01/2-Jan-01GET A.htm http://ex.edu/index.htmMozilla/4.0(IE5.0W98)

202.120.224.415:37:09/2-Jan-01GET E.htm http://ex.edu/C.htm Mozilla/4.0(IE5.0W98)

202.120.224.415:33:04/2-Jan-01GET Index.htm http://ok.edu/res.php Mozilla/4.0(IE4.0NT)202.120.224.415:33:04/2-Jan-01GET 1.htm http://ex.edu/index.htmMozilla/4.0(IE4.0NT)202.120.224.415:33:04/2-Jan-01GET A.htm http://ex.edu/index.htmMozilla/4.0(IE4.0NT)

202.120.224.415:35:11/2-Jan-01GET B.htm http://ex.edu/A.htm Mozilla/4.0(IE4.0NT)202.120.224.415:35:11/2-Jan-01GET C.htm http://ok.edu/A.htm Mozilla/4.0(IE5.0W98)

Page 30: 第 7 课  数据挖掘的高级主题

用户对话识别 1.IP Address & Agent 2.Embedded Session ID 3.Registration(User Profile) 4.Cookie 5.Software Agent (Applet&Scrtipt) 6.Modified Browser

Page 31: 第 7 课  数据挖掘的高级主题

用户对话识别(续)方法 说明 隐私性保护 优点 缺点

IP地址 / 代理服务器 假定每个独立 IP地址 / 代理服务器组是独立用户

低 通常可用,无需附加技术。 无法保证唯一性,在随机或者轮换 IP情况下失效

嵌入式对话 ID 通过动态形成页面将 ID加入每个链接

低 / 中等 通常可用,不需依赖于 IP地址 无法了解重复访问,需要完全动态站点。注册 用户确切地登陆站点 中等 可以跟踪单个用户,而不仅仅是浏览器

不是全部用户都愿意注册Cookie 在客户端机器上保留标识符 中等 / 高 可以跟踪重复访问 能被禁止。不为大众接收

软件代理服务器 程序载入浏览器从而将日志数据返回高 可以得到单个

Web 站点的确切日志数据很可能被拒绝。不为大众接收

改进型浏览器 浏览器记录日志数据 非常高 可以得到关于整个Web 的日志数据

用户必须确切地得到软件

Page 32: 第 7 课  数据挖掘的高级主题

用户对话识别

15:33:04/2-Jan-01GET Index.htm http://ok.edu/res.php15:33:04/2-Jan-01GET 1.htm http://ex.edu/index.htm15:33:04/2-Jan-01GET A.htm http://ex.edu/index.htm15:35:11/2-Jan-01GET B.htm http://ex.edu/A.htm

15:30:01/2-Jan-01GET Index.htm http://ok.edu/link.htm15:30:01/2-Jan-01GET 1.htm http://ex.edu/index.htm15:30:01/2-Jan-01GET A.htm http://ex.edu/index.htm

15:37:09/2-Jan-01GET E.htm http://ex.edu/C.htm15:35:11/2-Jan-01GET C.htm http://ok.edu/A.htm

Mozilla/4.0(IE5.0W98)202.120.224.4

User1:

202.120.224.4Mozilla/4.0(IE4.0NT)User2:

Page 33: 第 7 课  数据挖掘的高级主题

页面视图识别

1-A http://ok.edu/res.phpB A.htm

1-A http://ok.edu/link.htm

E C.htm1-C A.htm

Mozilla/4.0(IE5.0W98)202.120.224.4

User1:

202.120.224.4Mozilla/4.0(IE4.0NT)User2:

Page 34: 第 7 课  数据挖掘的高级主题

路径补全 解决由于 Cache带来的问题路径不全的问题

Page 35: 第 7 课  数据挖掘的高级主题

数据挖掘 统计分析频繁项集和关联规则聚类分析和分类 序列模式

Page 36: 第 7 课  数据挖掘的高级主题

统计分析主要用于改进系统的性能、设计等包括:

1) 最频繁访问的页面2) 每个页面的平均访问时间3) 通过一个站点的平均时间

Page 37: 第 7 课  数据挖掘的高级主题

频繁项集和关联规则可以寻找出经常频繁访问的 page 组,可用于修改 Web 站点的设计或提前缓冲页面,改进系统的性能。

Page 38: 第 7 课  数据挖掘的高级主题

包括两方面的应用:•*user 用于 Market segmentation( 市场分割 )和个人内容定制•*page(content)后者主要用于 IR 和冲浪辅助

聚类和分类

Page 39: 第 7 课  数据挖掘的高级主题

序列模式可用于用户的 visit pattern. 包括:1. 趋势分析2. 拐点检测

Page 40: 第 7 课  数据挖掘的高级主题

模式分析 目的是根据实际应用,通过用户的选择和观察,把发现的规则、模式和统计规律转换为知识。

Visualization

Page 41: 第 7 课  数据挖掘的高级主题

二.隐私保护数据挖掘隐私保护数据挖掘简介隐私保护数据挖掘 面向企业信用评估的分布式隐私保护数据挖掘研究

Page 42: 第 7 课  数据挖掘的高级主题

一、隐私保护数据挖掘简介 What Why Who Goal How An Example

Page 43: 第 7 课  数据挖掘的高级主题

什么是数据挖掘 数据挖掘是从大量数据中提取或“挖掘”知识的过程。 数据挖掘以客观、有效的数据源为物质基础。 数据挖掘得到的知识是一种数据归纳的结果,是一种统计的知识。

Page 44: 第 7 课  数据挖掘的高级主题

什么是隐私针对不同的应用环境,隐私定义不同。 在信息时代,隐私指用户隐藏个人信息的权利和控制自己的信息给其他人的能力。

Page 45: 第 7 课  数据挖掘的高级主题

什么是隐私保护数据挖掘 “getting valid data mining results without

learning the underlying data values”噪声背景的数据挖掘受限制的数据挖掘

Page 46: 第 7 课  数据挖掘的高级主题

数据挖掘可能会违反用户的隐私 数据挖掘以准确的数据为数据源,进行数据归纳分析。 个体隐私

记录级和属性级上的隐私 组织隐私

结果级上的隐私,统计分析后的结果

Page 47: 第 7 课  数据挖掘的高级主题

什么人需要隐私保护数据挖掘? 政府和公用事业部门

疾病控制中心 保险公司

工商业组织 跨国公司

每个国家的法律是不同的 军事情报分析 犯罪行为分析 反恐分析

Page 48: 第 7 课  数据挖掘的高级主题

隐私的限制不会阻止数据挖掘 数据挖掘的目标是结果的总结

关联规则 分类聚类

结果本身不会违反隐私 不包含个人身份信息反映的是整个数据的归纳统计结果,而不是针对每个单位

The problem is computing the results without access to the data!

Page 49: 第 7 课  数据挖掘的高级主题

隐私保护数据挖掘的目标 PPDM encompasses the dual goal of meeting privacy

requirements and providing valid data mining results. 保护隐私和满足安全性要求(安全性) 产生正确的数据挖掘归纳结果(准确性) 提供高效的数据挖掘算法(高效性)

Accuracy

Efficiency

Privacy

Page 50: 第 7 课  数据挖掘的高级主题

如何进行隐私保护数据挖掘转变数据库原始数据库

数据挖掘存取控制

可以存取进行挖掘

数据挖掘

不允许存取进行挖掘

Page 51: 第 7 课  数据挖掘的高级主题

计算频繁项集: ABC ≥ 5%?

2ABC=9

DBSize=200

1ABC=18

DBSize=300

3ABC=5

DBSize=100

ABC: R+count-freq.*DBSize

R=17

ABC: 17+5-.05*100ABC: 17ABC: 17+9-.05*200ABC: 12

ABC: 12+18-.05*300ABC: 19 ABC: 19 ≥ R?

ABC: YES!

Page 52: 第 7 课  数据挖掘的高级主题

二、隐私保护数据挖掘隐私保护数据挖掘分类

保护个体用户隐私保护组织用户隐私

研究方法数据隐藏安全多方计算

Page 53: 第 7 课  数据挖掘的高级主题

保护个体用户隐私 这是一种记录和属性级上的隐私保护。在原始数据库中,类似于标识符、姓名、地址和喜好等用户数据作为用户的隐私应该被保护。保护敏感的原始数据的隐私保护数据挖掘方法应该能够使得用户的敏感的原始数据被修改,以便数据的使用者不能对用户的原始数据进行直接存储,不能查看用户的隐私,以此保护用户的私有数据。

Page 54: 第 7 课  数据挖掘的高级主题

个体隐私 : 保护记录 每个项都不允许泄漏 记录的一部分是可以泄漏的

个人身份信息

Page 55: 第 7 课  数据挖掘的高级主题

个人身份信息删除标识符但是我们无法保证身份不能被推断

候选码一些个体特有的属性

Data Mining enables such tracing!

Page 56: 第 7 课  数据挖掘的高级主题

保护组织用户隐私 这是一种结果级上的隐私保护,这里的目标不仅是保护个体用户的不被泄漏,而且一些重要的策略模式和数据挖掘之后的结果同样不能泄漏,在商业领域,这些模式被认为是能够提供有竞争力好处的知识,隐私必须被很好地保护。在数据挖掘的统计模型中,有很多挖掘出的知识也会泄漏用户的隐私。保护敏感的挖掘知识的隐私保护数据挖掘方法能够保护用户的敏感知识,以便不会被泄漏用作其他的目的,造成用户重要信息的泄密。

Page 57: 第 7 课  数据挖掘的高级主题

组织隐私 保护个体隐私是不够的 保护从组织中获得的敏感知识

策略模式数据挖掘的结果

目标:身份信息不能泄漏数据挖掘之后的模式和知识同样不能泄漏

Page 58: 第 7 课  数据挖掘的高级主题

Database

用户

数据挖掘挖掘得到的知识

变换后数据库隐藏敏感的知识

Page 59: 第 7 课  数据挖掘的高级主题

P3P

发布的隐私策略协同达成的一致策略

Page 60: 第 7 课  数据挖掘的高级主题

隐私保护数据挖掘架构 B2B 的架构中,具体的事务分布在几个不同的站点。每个站点拥有一个包含大量事务的私有数据库。这里用到的主要计算技术是安全多方计算( Secured multiparty computation )及其变种。

B2C 的架构中,一个系统包含一个数据挖掘站点和众多的数据提供者。在线调查表是这种 B2C架构的一个典型的例子。其中包含一个调查表收集器和分析器以及众多的数据提供者。

Page 61: 第 7 课  数据挖掘的高级主题

解决方法分类 数据隐藏 (Data Obfuscation)

对数据进行挖掘时,不能看到真实的数据安全多方计算

仅仅可信的结点可以看到数据

Page 62: 第 7 课  数据挖掘的高级主题

数据隐藏 目标 : 隐藏被保护信息

私有数据可用噪声较大真实值不能确定得到

Page 63: 第 7 课  数据挖掘的高级主题

主要技术匿名技术 随机的数据转换 (random data perturbation)阻塞技术 (blocking)聚集或融合技术 (aggregation or merging)交换技术 (swapping)采样技术 (sampling)

Page 64: 第 7 课  数据挖掘的高级主题

基于阻塞的技术 (blocking)

AA BB CC DD11 11 11 0011 00 11 1100 00 00 1111 11 11 0011 00 11 11

AA BB CC DD11 11 11 0011 00 ?? 11?? 00 00 1111 11 11 0011 00 11 11

BlockingAlgorithm

Initial DatabaseInitial Database New DatabaseNew Database

主要用于组织隐私的保护

Page 65: 第 7 课  数据挖掘的高级主题

随机的数据转换 (random data perturbation)

A B C D

1 1 1 0

1 0 1 1

0 0 0 1

1 1 1 0

1 0 1 1

Sample DatabaseSample DatabaseA B C D

1 1 1 0

1 0 00 1

0 0 0 1

1 1 1 0

1 0 00 1

Distorted DatabaseDistorted Database

DistortionAlgorithm

Page 66: 第 7 课  数据挖掘的高级主题

随机的数据转换 目标

统计属性可以较精确得到 个体数据不能得到

离散型变量转换布尔型变量 分类型 (Category) 变量

连续型变量转换布尔型变量转换 分类型变量转换 连续型变量转换

Page 67: 第 7 课  数据挖掘的高级主题

布尔型变量转换 购物篮问题 数据位以概率 p 被翻转 对经过变化的数据进行挖掘

1T DC M C1

0

1,

1Cp p

M CCp p

Page 68: 第 7 课  数据挖掘的高级主题

分类型变量转换 Select-a-size Randomization Cut and Paste Randomization

Page 69: 第 7 课  数据挖掘的高级主题

Select-a-size Randomization

给定大小为 t 的事务 , 构造 t’:选择 j 属于 0 到 m

P[j 被选择的概率 ]= pm[j]把事务加入 t 的 j 个项加入事务 ·t’;其它不在事务 t 的属性以概率 pm 加入事务 t’

参数 pm[j]和 pm 的选择基于需要的隐私度

Page 70: 第 7 课  数据挖掘的高级主题
Page 71: 第 7 课  数据挖掘的高级主题

Cut and Paste Randomization

给定大小为 t 的事务 , 构造 t’:在 0到 Km 间选择 j把事务 t 的 j 个项加入 t’;事务 t 的其它项以概率 pm加入 t’

参数 Km和 pm 的选择基于所需要的隐私度

Page 72: 第 7 课  数据挖掘的高级主题

连续型变量隐私保护挖掘方法 Agrawal and Srikant, SIGMOD’00

Bayes’ rule 改进 by Agrawal and Aggarwal, SIGMOD’01

Expectation Maximization (EM)

Page 73: 第 7 课  数据挖掘的高级主题

Bayes’ rule

Agrawal and Srikant (2000) Decision Trees Perturb Data with Value Distortion

用户提供 xi+r 代替 xi

r 是一个随机变量,服从分布平均分布 [-a, a] 高斯分布 (u, σ)

Page 74: 第 7 课  数据挖掘的高级主题

Bayes’ rule

x1,x2,…,xn 是 n 个独立同分布的随机变量 y1,y2,…,yn 是 n 个独立同分布的随机变量 W=X+Y给定 FY和W ,估计 FX

Page 75: 第 7 课  数据挖掘的高级主题
Page 76: 第 7 课  数据挖掘的高级主题

安全多方计算 Motivation: 分布式隐私保护数据挖掘 目标:

结果公布每个用户只知道自己的数据

Page 77: 第 7 课  数据挖掘的高级主题

A

B C

中心

A B C

随机方法 安全多方计算方法

Page 78: 第 7 课  数据挖掘的高级主题

比较 数据隐藏 安全多方计算复杂性 一般 高

计算、通信安全性 较高 高

主要问题 安全性和准确性的折衷 效率适用领域 较广

Web, Corporate小规模分布式

Corporate

Page 79: 第 7 课  数据挖掘的高级主题
Page 80: 第 7 课  数据挖掘的高级主题

分布式隐私保护数据挖掘的目标安全性分析

知道自己的数据和最终的结果不清楚其它用户的数据

避免相互勾结 通信分析

Page 81: 第 7 课  数据挖掘的高级主题

分布式隐私保护数据挖掘方法 Semi-Honest Model Malicious

Page 82: 第 7 课  数据挖掘的高级主题

分类水平分布型数据 (Horizontal Partitioning)垂直分布型数据 (Vertical Partitioning)

Page 83: 第 7 课  数据挖掘的高级主题

水平型分布数据

Page 84: 第 7 课  数据挖掘的高级主题

垂直分布型数据