第 9 章 数据仓库应用实例

Preview:

DESCRIPTION

第 9 章 数据仓库应用实例. 9.1 数据仓库的数据加载与钻取 9.2 数据挖掘模型的设计 9.3 SQL Server 中的数据挖掘工具 9.4 数据仓库客户端界面的设计. 9.1 数据仓库的数据加载与钻取. 9.1.1 数据仓库的数据加载 1.SQL Server 的数据复制工具与应用 5 个有关复制的向导工具:创建和管理发布、强制其它服务器订阅、请求订阅、禁用发布和分布、配置发布、订阅服务器和分发. SQL Server 数据复制向导. 2. 创建发布向导. - PowerPoint PPT Presentation

Citation preview

第 9章 数据仓库应用实例 9.1数据仓库的数据加载与钻取

9.2数据挖掘模型的设计 9.3SQL Server中的数据挖掘工具

9.4数据仓库客户端界面的设计

9.1 数据仓库的数据加载与钻取 9.1.1 数据仓库的数据加载 1.SQL Server 的数据复制工具与应用5 个有关复制的向导工具:创建和管理发布、强制其它服务器订阅、请求订阅、禁用发布和分布、配置发布、订阅服务器和分发

SQL Server 数据复制向导

2. 创建发布向导利用发布向导可以完成这样一些操作:选择发布数据库。使用发布模板。选择发布类型。选择可更新的订阅。可传送的订阅(快照复制或事务复制可使用的选项)。指定订阅服务器类型。指定要发布的数据和数据库对象项目。选择发布名称和描述。自定义发布属性,包括筛选列、筛选行、启用动态筛选器、验证订阅信息、优化同步、允许匿名订阅以及设置快照代理调度,以完成数据发布的创建。数据发布的开始需要在数据发布服务器上打开 SQL Server 企业管理器,展开一个服务器组,展开复制文件夹,右击发布文件夹,然后单击“新建发布”命令,按照向导提示完成数据的分布创建。

3. 创建强制新订阅向导在强制订阅中,集中的分发服务器将建立调度,按照此调度与远程的、偶尔连接的订阅服务器进行连接。使用强制订阅,分发代理程序(用于快照发布和事务发布)或合并代理程序(用于合并发布)可以运行于分发服务器。建立订阅时要考虑的因素是需要订阅的类型(强制、请求或匿名)以及运行复制代理程序的位置。为了创建订阅,发布服务器上必须有发布,订阅服务器上也必须有订阅数据库。可以在创建订阅之前创建订阅数据库,或在创建强制订阅向导中指定新的订阅数据库。可以为任何在发布服务器和分发服务器的属性中启用的订阅服务器创建强制订阅。

3. 创建强制新订阅向导

4. 创建请求订阅向导

5. 禁用发布或分布向导在 SQL Server 的企业管理器中的“工具”菜单中打开向导菜单项,调出“选择向导”对话框,选择其中的“复制”节点,选择“禁用发布或分布向导”菜单项。,进入“欢迎使用禁用发布或分布向导”对话框。利用该向导可以完成“除去所选服务器上的所有发布”或“除去对应已除去发布的所有订阅”这些设置不会影响到该服务器从其它发布服务器接受到的订阅。

9.1.2 超市数据仓库系统的数据加载数据仓库的数据导入

9.1.2 超市数据仓库系统的数据加载DTS数据导入/导出向导

9.1.2 超市数据仓库系统的数据加载

数据导入源的选择

9.1.2 超市数据仓库系统的数据加载

数据导入源的确定

9.1.2 超市数据仓库系统的数据加载数据导入目的库选择

9.1.2 超市数据仓库系统的数据加载

数据导入方式选择

9.1.2 超市数据仓库系统的数据加载导入数据表和视图的选择

9.1.2 超市数据仓库系统的数据加载数据导入源和目的的映射确定

9.1.2 超市数据仓库系统的数据加载数据导入的转换语言

9.1.2 超市数据仓库系统的数据加载数据导入任务包的保存与调度

9.1.2 超市数据仓库系统的数据加载

任务包的作业调度

任务包的保存

任务包完成提示

任务包的浏览

9.1.3 多维数据集的更新DTS调度包的建立

处理任务框架

选择处理对象

调度任务处理选项确定

任务的建立

任务工作流确定

任务工作流属性设置

DTS 包的保存

任务包的调度设置

任务包的运行时间设置

9.1.4 数据仓库的钻取访问1.数据钻取的进入

2. 数据钻取选项的确定

3. 钻取数据列的选择

4. 数据钻取角色的管理

在进行数据钻取前,还需要利用与编辑命令同一菜单中的“管理角色”命令确定可以进行数据钻取的管理人员。

5. 钻取数据的选择

6. 钻取结果显示

9.1.5 数据仓库的多维表达式 MDX 应用MDX 启动顺序:开始→程序→ Microsoft SQL Server→Analysis Services→MDX 示例应用程序。启动 MDX 以后将出现 Connect 对话框,在 Server 输入框中输入 Analysis Services 服务器名称, Provider 输入框中输入 MSOLAP ,单击“ OK” 按钮后,出现示例应用程序窗口

MDX 新查询建立

MDX 查询结果显示

MDX 的立方体旋转显示

9.2 数据挖掘模型的设计9.2.1 数据挖掘对象的分析数据挖掘项目组成员 超市营销策略评价主要通过门市、商品、营销策略、日期和客户五个维度。要分析的则是商品的销售量、销售额、商品的成本和商品销售的利润等度量信息。商品销售量增长率 =(实施促销策略后商品销售量 /实施促销策略前商品销售量 -1)×100%商品销售额增长率 =(实施促销策略后商品销售额 /实施促销策略前商品销售额)×100%商品利润增长率 =(实施促销策略后商品利润 /实施促销策略前商品利润)×100%商品促销策略门市影响率 =不同门市相同促销策略商品利润增长率之比商品促销策略时间影响率 =不同时间相同促销策略商品利润增长率之比等各种新的变量。

9.2.2 数据挖掘模型与相关数据的准备1 .挖掘模型的确定在过去的若干年中的业务趋势是什么?在业务的不同分类中有哪些最活跃的因素?不同的元素之间是否存在相关性?最感兴趣的分类存在哪些地方?不同的分类有哪些层次?客户分成“接收促销”、“不接收促销”两个分类。 将客户分成三个不同的聚类,它们的特征分别有哪些?销售额前 10 个商品聚类是什么?它们彼此之间有哪些不同之处?有时为了解决一些较大的业务问题,可能还需要对业务问题进行分解,将业务问题分解成多个较小的问题。如果这些问题能够使用分类、估计、关联分组、聚类、细分或预测等挖掘方法来解决。那么这一较大的问题也就可以用数据挖掘方法解决。

9.2.2 数据挖掘模型与相关数据的准备

将客户流失问题分解成这样一些问题:①那些已经或正在流失的客户具有哪些特征?②能否建立一个预测正在流失客户的模型,预测客户流失行为的发生?③能否建立一个模型,进一步预测那些将要流失的客户会在什么时候流失?④能否建立一个模型解释这些流失客户为什么流失?对这些分解以后的问题就可以使用不同的数据挖掘方法来解决。

9.2.2 数据挖掘模型与相关数据的准备

① 可以使用聚类方法将流失的客户分成不同的组,这就能够很好地说明那些流失客户的特征。对问题②,则可以将所有客户划分到“流失”和“不流失”两个客户类中,这就可以预测那些可能流失的客户。同时,这种分类也可以用来解释问题④。而对于问题③则可以变换一下角度来考虑,即开发一个预测模型,预测客户会在“近期”、“中期”、“远期”流失,这样就可以将所有客户分成“近期”、“中期”、“远期”三个流失类。

9.2.2 数据挖掘模型与相关数据的准备确定挖掘模型的分析目标或挖掘成功的度量值 度量值的确定步骤:收集企业的关键战略领域报表、识别企业信息量化的度量指标、对这些度量指标进行编码、识别数据挖掘解决业务问题的度量指标、对度量指标设定基线。例如,在超市数据挖掘中经常进行度量的指标有:购买商品的客户百分比、对促销策略响应的客户数、客户购买商品的平均量、某一时间段购买商品的总量或总金额、商品销售的利润率。在确定了度量值以后,还要确定这些度量值的当前值,以便在数据挖掘以后,采取相应对策后的比较。

2 .挖掘数据的准备

建立数据挖掘库:选择业务数据、转换业务数据、验证业务数据。 为数据挖掘工作准备训练数据集与数据验证集:确定数据质量、准备适当的数据、为目标变量确定初值、确定数据挖掘变量的格式。

9.2.3 数据挖掘模型的应用

注意多目标变量之间的相互关系 确定多目标变量最终的分析顺序 剔除那些对目标变量具有强相关性的变量 挖掘模型的维护和完善将所获得挖掘结果存储进多维数据集

9.3 SQL Server 中的数据挖掘工具

MS SQL Server2000 中的 Analysis Services 可以对关系数据库和多维数据源中的数据进行挖掘,因此任何利用 OLE DB 可以访问的关系数据源数据以及通过 Analysis Services 创建的多维数据集的数据都可以训练挖掘模型。而且 SQL Server系统的可扩展性使第三方工具能够与 SQL Server 的数据挖掘工具组装使用,提高了系统的性能与灵活性。 Analysis Services 中所提供的数据挖掘模型主要是两种: Microsoft决策树模型和 Microsoft 数据聚集模型。

Recommended