39
基基 SQLServer2000 基基基基基 Sql Server 2000 基基基基

基于 SQLServer2000 的数据挖掘

  • Upload
    gram

  • View
    128

  • Download
    9

Embed Size (px)

DESCRIPTION

基于 SQLServer2000 的数据挖掘. Sql Server 2000 分析服务. 部分术语. 数据挖掘 ( Data Mining) 数据仓库 ( Data Warehouse) 挖掘模型 ( Mining Models ) 模式 ( Pattern ) 实例 ( Cases ) 模型挖掘算法 ( Data-Mining algorithms ). 数据挖掘方法. 分析问题. 数据仓库. 数据. 创建和训 练模型. 校验数据. DLAP. 数据挖掘 模型维护. 数据挖掘. 分析问题. 数据挖掘方法过程. 分析问题 - PowerPoint PPT Presentation

Citation preview

Page 1: 基于 SQLServer2000 的数据挖掘

基于 SQLServer2000 的数据挖掘Sql Server 2000 分析服务

Page 2: 基于 SQLServer2000 的数据挖掘

部分术语• 数据挖掘 ( Data Mining)• 数据仓库 ( Data Warehouse)• 挖掘模型 ( Mining Models )• 模式 ( Pattern )• 实例 ( Cases )• 模型挖掘算法 ( Data-Mining algorithms )

Page 3: 基于 SQLServer2000 的数据挖掘

数据挖掘方法分析问题

校验数据 DLAP

数据挖掘数据挖掘模型维护 分析问题

数据数据仓库

创建和训练模型

Page 4: 基于 SQLServer2000 的数据挖掘

数据挖掘方法过程• 分析问题• 提取和清洗数据• 校验数据• 创建和调试模型• 查询数据挖掘模型数据• 维护数据挖掘模型的有效性

Page 5: 基于 SQLServer2000 的数据挖掘

微软分析服务的体系结构OLAP 介绍

– MOLAP:多维在线分析系统– ROLAP:关系型在线分析系统– HOLAP:混合型在线分析系统

服务器体系结构客户机体系结构

Page 6: 基于 SQLServer2000 的数据挖掘

OLAP 介绍• MOLAP• ROLAP• HOLAP

MOLAP数据库 用户查询

ROLAP数据库 用户查询聚集

HOLAP数据库 用户查询

Page 7: 基于 SQLServer2000 的数据挖掘

分析服务服务器体系结构

Pivot Table Service

DTS

分析服务决策支持对象

MMC

客户端应用程序

Analysis Manager

Add-in Manager

自定义 Add-in

用户应用程序

元数据库数据源立方体挖掘模型

Page 8: 基于 SQLServer2000 的数据挖掘

分析服务客户机体系结构用于 OLAP 或数据挖掘的客户端应用程序

扩展支持 OLAP和数据挖掘的 OLEDB2.5 或更新版本

扩展支持 OLAP和 ASO2.5 或更新版本

用于 OLAP 或数据挖掘的客户端应用程序

用于 OLAP 或数据挖掘的客户端应用程序

扩展支持 OLAP和 ADO2.0 或更新版本

用于 OLAP 的客户端应用程序

扩展支持 OLAP和数据挖掘的 OLEDB2.5 或更新版本

Analysis Serveer

PivotTable Service

用于本地数据挖掘模型的数据源用于本地立方体的数据源

本地数据挖掘模型 本地立方体

Page 9: 基于 SQLServer2000 的数据挖掘

为挖掘进行优化数据为挖掘进行优化数据• 数据结构数据结构• 选择列选择列• 输入列输入列• 目标列目标列• 键列键列• 值列值列• 要避免的列要避免的列• 选择列选择列• 计算及推导数据计算及推导数据• 决定数据粒度决定数据粒度

Page 10: 基于 SQLServer2000 的数据挖掘

数据挖掘物理结构数据挖掘物理结构操作数据 PC 文件 PC 挖掘工具

1 、客户(单层)体系结构

2 、客户(单层)体系结构

3 、三层体系结构

下载

操作数据挖掘客户机

挖掘客户机

数据仓库 数据挖掘挖掘客户机挖掘客户机

Page 11: 基于 SQLServer2000 的数据挖掘

OLAPOLAP 立方体立方体OLAP 提供立方体的维作为输入源,而不用传统的平面表Select company, ShippedData, ProductName, Count(1) as qtyFrom Tofu_Purchases_Aprial_2002Group By CompanyName ShippedDate

Page 12: 基于 SQLServer2000 的数据挖掘

数据挖掘的方法数据挖掘的方法• 直接数据挖掘 (Direct Data Mining) 直接数据挖掘采用了当今比较流行的数据挖掘技术和运算法则,比如决策树。他对原始数据进行分类,以得出目标值。许多行业都使用这一方法。• 间接数据挖掘 (Undirect Data Mining) 间接数据挖掘不用于预测,因此不受目标值的约束。这种方式只是对数据进行整理,发觉整个数据集的结构和数据组织形式,以便于理解和利用。

Page 13: 基于 SQLServer2000 的数据挖掘

数据挖掘和统计学数据挖掘和统计学数据挖掘数据挖掘 不等于不等于 统计学+销售学统计学+销售学共同术语: 数据种群 (population) 、样本 (sample) 、值域( Range) 、偏差 (Bias) 、均值 (mean) 、中值 (Median) 、分布 (distribute)… 从历史数据中学习

影响分析法 变化分析法 比较分析法 因果分析法 趋势分析法 偏差分析法

预测未来 概率估算 模拟与假定推测方案

Page 14: 基于 SQLServer2000 的数据挖掘

模型的评估及错误的避免模型的评估及错误的避免• 数据过密数据过密 解决方法:

– 决策树修建法– X 平方分析法– 交叉验证法

• 数据过疏数据过疏• 测试数据模型的数据准备测试数据模型的数据准备

训练用数据集测试用数据集评估用数据集

Page 15: 基于 SQLServer2000 的数据挖掘

SQL Server SQL Server 数据挖掘数据挖掘 1. 微软决策树2. OLAP 决策树3. 微软聚类

Page 16: 基于 SQLServer2000 的数据挖掘

微软决策树微软决策树 决策树是一种作为商业挖掘工具而广为使用的算法。决策算法主要用于完成预测任务,这种算法首先需要一个分类导向的模型,这样就可以把一个部分分成几个部分分别加以解决。 通常步骤:•创建模型•使模型可视化•推导预测结果

Page 17: 基于 SQLServer2000 的数据挖掘

创建模型步骤• 创建数据库• 挖掘模型向导• 创建数据源• 选择实例表• 选择数据挖掘算法• 创建并编辑关联• 选择关键列• 选择输入和预测列• 结束

Page 18: 基于 SQLServer2000 的数据挖掘

分析服务管理界面分析服务管理界面

Page 19: 基于 SQLServer2000 的数据挖掘

新建挖掘模型新建挖掘模型

Page 20: 基于 SQLServer2000 的数据挖掘

数据挖掘向导数据挖掘向导

Page 21: 基于 SQLServer2000 的数据挖掘

选择数据源类型选择数据源类型

Page 22: 基于 SQLServer2000 的数据挖掘

选择实例表选择实例表

Page 23: 基于 SQLServer2000 的数据挖掘

选择数据挖掘算法选择数据挖掘算法

Page 24: 基于 SQLServer2000 的数据挖掘

选择关键列选择关键列

Page 25: 基于 SQLServer2000 的数据挖掘

选择输入、输出列选择输入、输出列

Page 26: 基于 SQLServer2000 的数据挖掘

命名挖掘模型命名挖掘模型

Page 27: 基于 SQLServer2000 的数据挖掘

关系型挖掘模型编辑器关系型挖掘模型编辑器

Page 28: 基于 SQLServer2000 的数据挖掘

模型可视化模型可视化• 相关网络浏览器相关网络浏览器 (Dependency NetWork Browser)

• 模型浏览器模型浏览器 (Data Mining Browser)

Page 29: 基于 SQLServer2000 的数据挖掘

数据挖掘模型浏览器数据挖掘模型浏览器

Page 30: 基于 SQLServer2000 的数据挖掘

相关网络浏览器相关网络浏览器

Page 31: 基于 SQLServer2000 的数据挖掘

相关网络浏览器相关网络浏览器 ((续续 ))

Page 32: 基于 SQLServer2000 的数据挖掘

相关网络浏览器相关网络浏览器 ((续续 ))

Page 33: 基于 SQLServer2000 的数据挖掘

相关网络浏览器相关网络浏览器 ((续续 ))

Page 34: 基于 SQLServer2000 的数据挖掘

OLAPOLAP 决策树决策树 OLAP 是一种结构优化的格式,主要为优化聚合数据存储而设计的。利用 OLAP 可以沿某种层次结构的维创建连续的聚合,并快速地访问根据各个维汇总的值,并提供了一种表达数字之间关系的途径。 步骤同微软决策树相同之处较多:1 、创建模型2 、模型可视化3 、推导预测结果

Page 35: 基于 SQLServer2000 的数据挖掘

关于微软分析服务的参考信息关于微软分析服务的参考信息• SQL Server 2000 Analysis Service 学习指南• 中文 SQL Server 2000 关系型数据库系统管理与开发• SQL Server OLAP 开发指南Microsoft OLAP Unleashed

参考的数据库 :www.ics.uci.edu/~mlearn/MLRepository.html

Page 36: 基于 SQLServer2000 的数据挖掘
Page 37: 基于 SQLServer2000 的数据挖掘

微软数据转换服务微软数据转换服务 (DTS)(DTS)

DTS 任务:1 、转换2 、批录入3 、数据驱动查询4 、执行包(包括 FTP 等)

Page 38: 基于 SQLServer2000 的数据挖掘

使用 DTS

Dtsrun 如:Dtsrun /Ffilename /Uusername /Ppassword /Npackage_name /Mpackage_password

Dtsrun /Sservername /Uusername /Ppassword /Npackage_name /Mpackage_password /Rrepository_name

Page 39: 基于 SQLServer2000 的数据挖掘

使用 COM 接口编程正在制作~~