25
基基 基基 SQLServer2000 SQLServer2000 基基基基基 基基基基基 SQL Server 2000 SQL Server 2000 基基基基 基基基基

基于 SQLServer2000 的数据挖掘

  • Upload
    von

  • View
    88

  • Download
    0

Embed Size (px)

DESCRIPTION

基于 SQLServer2000 的数据挖掘. SQL Server 2000 分析服务. 微软分析服务. 数据挖掘和 OLAP 都是微软分析服务 (Analysis Service) 的组成服务,都是决策工具,但他们为不同的目的设计。在 SQL SERVER 7.0 中被称为 OLAP SERVICE, 只包括 OLAP 功能。 OLAP 主要是允许客户端设计汇总表用来存储数据便于数据的修复和导航。 数据挖掘主要是自动的发现可以应用到预测未来结果的新的模式和规则。. 分析服务服务器体系结构. MMC. 自定义 Add-in. Add-in Manager. - PowerPoint PPT Presentation

Citation preview

Page 1: 基于 SQLServer2000 的数据挖掘

基于基于 SQLServer2000SQLServer2000 的数据挖的数据挖掘掘

SQL Server 2000SQL Server 2000 分析服务分析服务

Page 2: 基于 SQLServer2000 的数据挖掘

微软分析服务微软分析服务数据挖掘和 OLAP 都是微软分析服务 (Analysis Servi

ce) 的组成服务,都是决策工具,但他们为不同的目的设计。在 SQL SERVER 7.0 中被称为 OLAP SERVICE,只包括 OLAP 功能。

OLAP 主要是允许客户端设计汇总表用来存储数据便于数据的修复和导航。

数据挖掘主要是自动的发现可以应用到预测未来结果的新的模式和规则。

Page 3: 基于 SQLServer2000 的数据挖掘

分析服务服务器体系结构

Pivot Table Service

DTS

分析服务

决策支持对象

MMC

客户端应用程序

Analysis Manager

Add-in Manager

自定义 Add-in

用户应用程序

元数据库数据源立方体挖掘模型

Page 4: 基于 SQLServer2000 的数据挖掘

分析服务客户机体系结构用于 OLAP 或数据

挖掘的客户端应用程序

扩展支持 OLAP和数据挖掘的 OLEDB2.5 或更新版本

扩展支持 OLAP和 ASO2.5 或更新版本

用于 OLAP 或数据挖掘的客户端应用程序

用于 OLAP 或数据挖掘的客户端应用程序

扩展支持 OLAP和 ADO2.0 或更新版本

用于 OLAP 的客户端应用程序

扩展支持 OLAP和数据挖掘的 OLEDB2.5 或更新版本

Analysis Server

PivotTable Service

用于本地数据挖掘模型的数

据源

用于本地立方体的

数据源

本地数据挖掘模型

本地立方体

Page 5: 基于 SQLServer2000 的数据挖掘

分析服务 C/S构架• 服务器端的 Analysis service 体系结构提供可以建立和操纵 OLAP

立方体,数据挖掘模型的核心程序。存储提供各种功能和服务的引擎。

• 客户机部分– 透视表服务 (PivotTable Service): 内置于 Analysis 服务器客户机,它

的作用相当于一个多维数据和数据挖掘操作的 OLE DB 的提供者。它被置于服务器引擎与其他客户程序之间。

– OLE DB :以提供者的身份向不同的数据源提供一个共同的接口:• OLE DB For OLAP

• OLE DB For Data Mining

– 决策支持对象 (Dicision Support Objects,DSO)

– 多维表达式 (MultiDimension expressions,MDX)

Page 6: 基于 SQLServer2000 的数据挖掘

OLAPOLAP 介绍介绍在线分析处理 (Online analytical processing,OLAP) 是

一项允许用户分析大型数据库从而对其包含信息深入洞察的技术。 OLAP 的存储方式是多维的,为了区别于表,被称为立方体 (Cube)

使 OLAP 独具特色的是,可以按章层次结构存储汇总的数据,允许以维的特性来训练或累计数据。

比起关系型数据库来说,它倾向于需要一个数据结构更为稳定的定义。通常, OLAP 的信息来自于为数据查询和分析构建的数据仓库。

从报表的角度来说, OLAP 显示数据时并不考虑其建立立方体时内部存储选项的选择。

Page 7: 基于 SQLServer2000 的数据挖掘

OLAPOLAP 概念概念 ::维维

7 月

第一季度

2003

第二季度

All

第四季度第三季度

8 月 9 月140018001500

4700

14607

2342300

Page 8: 基于 SQLServer2000 的数据挖掘

OLAPOLAP 概念概念 :: 立方体立方体

时间

区域

部门

2003 年 2 月,上海,手机事业部: 200,000.00

2003 年一季度,华东 19 , 200,000.00

2003 年,全部, 197,600,000.00

Page 9: 基于 SQLServer2000 的数据挖掘

OLAPOLAP 立方体立方体OLAP 提供立方体的维作为输入源,而不用传统的平面表

Select

company, ShippedData, ProductName,

Count(1) as qty

From Tofu_Purchases_Aprial_2002

Group By

CompanyName

ShippedDate

OLAP 存储的优点: 速度、导航简单、语义严密,防止不合格维… ..

Page 10: 基于 SQLServer2000 的数据挖掘

OLAPOLAP 类型介绍类型介绍• MOLAP

• ROLAP

• HOLAP

MOLAP数据库 用户查询

ROLAP数据库 用户查询

聚集

HOLAP数据库 用户查询

Page 11: 基于 SQLServer2000 的数据挖掘

数据挖掘物理结构数据挖掘物理结构

操作数据 PC 文件 PC 挖掘工具

1 、客户(单层)体系结构

2 、客户(单层)体系结构

3 、三层体系结构

下载

操作数据

挖掘客户机

挖掘客户机

数据仓库 数据挖掘挖掘客户机

挖掘客户机

Page 12: 基于 SQLServer2000 的数据挖掘

数据挖掘的方法数据挖掘的方法• 直接数据挖掘直接数据挖掘 (Direct Data Mining) 直接数据挖掘采用了当今比较流行的数据挖掘技术和运算法则,比如

决策树。他对原始数据进行分类,以得出目标值。许多行业都使用这一方法。

• 间接数据挖掘间接数据挖掘 (Undirect Data Mining) 间接数据挖掘不用于预测,因此不受目标值的约束。这种方式只是对

数据进行整理,发觉整个数据集的结构和数据组织形式,以便于理解和利用。

Page 13: 基于 SQLServer2000 的数据挖掘

数据挖掘方法分析问题

校验数据 DLAP

数据挖掘数据挖掘模型维护 分析问题

数据数据仓库

创建和训练模型

Page 14: 基于 SQLServer2000 的数据挖掘

数据挖掘方法过程• 分析问题分析问题• 提取和清洗数据提取和清洗数据• 校验数据校验数据• 创建和调试模型创建和调试模型• 查询数据挖掘模型数据查询数据挖掘模型数据• 维护数据挖掘模型的有效性维护数据挖掘模型的有效性

Page 15: 基于 SQLServer2000 的数据挖掘

为挖掘进行优化数据为挖掘进行优化数据

• 数据结构数据结构• 选择列(该字段中内容的分布)选择列(该字段中内容的分布)• 输入列输入列• 目标列(要预测的结果)目标列(要预测的结果)• 键列键列• 值列(包含了精确的数字值值列(包含了精确的数字值 ))

• 要避免的列要避免的列 (( 重复的列,空列)重复的列,空列)• 选择行选择行• 计算及推导数据计算及推导数据• 决定数据粒度决定数据粒度

大多数的数据源不相同,为了得到最佳的预测和性能,尽可能以一个简单的格式组织数据。

Page 16: 基于 SQLServer2000 的数据挖掘

数据挖掘和统计学数据挖掘和统计学数据挖掘数据挖掘 不等于不等于 统计学+销售学统计学+销售学共同术语: 数据种群 (population) 、样本 (sample) 、值域( Range) 、偏差 (Bias) 、均值 (mean) 、中值 (Median) 、分布 (distribute)…

分析过去 影响分析法 (确定各因素和变量如何对一项评估产生影响) 变化分析法(寻找数据集中的变化,并试图找出对评估可能产生影响的任何因素)

比较分析法 因果分析法(确定某个事件的影响) 趋势分析法(分析的是某项评估的值在特定时期的变化) 偏差分析法(找出正常范围外的数据)

预测未来 概率估算 模拟与假定推测方案

Page 17: 基于 SQLServer2000 的数据挖掘

模型的评估及错误的避免模型的评估及错误的避免• 数据过密数据过密 解决方法:

– 决策树修建法– X 平方分析法– 交叉验证法

• 数据过疏数据过疏• 测试数据模型的数据准备测试数据模型的数据准备

训练用数据集测试用数据集评估用数据集

Page 18: 基于 SQLServer2000 的数据挖掘

微软决策树微软决策树• 创建模型• 使模型可视化• 推导预测结果

Page 19: 基于 SQLServer2000 的数据挖掘

微软决策树微软决策树 ~~ 创建模型

• 创建数据库• 挖掘模型向导• 创建数据源• 选择实例表• 选择数据挖掘算法• 创建并编辑关联• 选择关键列• 选择输入和预测列• 结束

Page 20: 基于 SQLServer2000 的数据挖掘

微软决策树微软决策树 ~~ 模型可视化模型可视化

• 相关网络浏览器• 决策树算法

– CART– CHAID– C4.5

Page 21: 基于 SQLServer2000 的数据挖掘

推导预测结果推导预测结果• 导航树

Page 22: 基于 SQLServer2000 的数据挖掘

关于微软分析服务的参考信息关于微软分析服务的参考信息

• SQL Server 2000 Analysis Service学习指南• 中文 SQL Server 2000 关系型数据库系统管理与开发• SQL Server OLAP 开发指南

Microsoft OLAP Unleashed

参考的数据库 :

www.ics.uci.edu/~mlearn/MLRepository.html

Page 23: 基于 SQLServer2000 的数据挖掘

微软数据转换服务微软数据转换服务 (DTS)(DTS)

DTS任务:1 、转换2 、批录入3 、数据驱动查询4 、执行包(包括 FTP等)

Page 24: 基于 SQLServer2000 的数据挖掘

使用 DTS

Dtsrun 如:Dtsrun /Ffilename /Uusername /Ppassword

/Npackage_name /Mpackage_password

Dtsrun /Sservername /Uusername /Ppassword

/Npackage_name /Mpackage_password /Rrepository_name

Page 25: 基于 SQLServer2000 的数据挖掘

使用 COM 接口编程

www.www

Wwwwwwwwwwwww

Wwww