56
秘秘 Proprietary Confidential▲ 秘秘秘秘秘秘秘 - 秘秘秘秘

云计算业务应用 - 数据挖掘

Embed Size (px)

DESCRIPTION

云计算业务应用 - 数据挖掘. 目录. 数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结. 目录. 数据挖掘基本概念和技术 数据挖掘基本概念 数据挖掘典型流程 数据挖掘常用技术 数据挖掘业界工具 数据挖掘可用资源 本章小结 数据挖掘在电信行业中的应用 总结. 如果你遇到下面的问题,你会怎么做?. 数据挖掘的原动力 —— 怎样借助数据制定合适的决策?. 数据挖掘是应实际需求而出现的技术. 什么是数据挖掘?. - PowerPoint PPT Presentation

Citation preview

Page 1: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

云计算业务应用 - 数据挖掘

Page 2: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

目录

数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结

Page 3: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

目录

数据挖掘基本概念和技术 数据挖掘基本概念 数据挖掘典型流程 数据挖掘常用技术 数据挖掘业界工具 数据挖掘可用资源 本章小结

数据挖掘在电信行业中的应用 总结

Page 4: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

如果你遇到下面的问题,你会怎么做?

Page 5: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

数据挖掘的原动力——怎样借助数据制定合适的决策?

数据挖掘是应实际需求而出现的技术

Page 6: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

什么是数据挖掘?

Data mining is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns from huge volume of data.

derived from U. Fayyad, et al. ’s definition of KDD at KDD96

数据挖掘是从巨量数据中获取正确的、新颖的、潜在 有用的、最终可理解的模式的非平凡过程。

Page 7: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

数据挖掘?

能否找出以下数据挖掘的“身影”?

Page 8: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

数据挖掘的前景如何?

云计算移动应用和媒体平板社交和协作视频下一代分析社交分析上下文感知计算存贮级内存普适计算基于结构的基础设施和

电脑

云计算高级分析客户端计算绿色 IT重塑数据中心社交化计算安全 - 活动监控闪存虚拟化的可用性无限应用

平板电脑与未来产品行动为主的应用程式

与介面情境与社群使用经验物联网App 商店与市集次时代分析技术大数据内存计算超低耗能服务器云端计算

2010 十大技术趋势

2011 十大技术趋势

2012 十大技术趋势

Page 9: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

目录

数据挖掘基本概念和技术 数据挖掘基本概念 数据挖掘典型流程 数据挖掘常用技术 数据挖掘业界工具 数据挖掘可用资源 本章小结

数据挖掘在电信行业中的应用 总结

Page 10: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

数据挖掘的标准过程: CRISP-DM (CRoss-Industry Standard Process for Data Mining)

Page 11: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

可以被挖掘的数据源有哪些? 普通文件

excel , txt , csv,arff 等格式的文件;

传统数据库 关系数据库 , 事务型数据库,数据仓库 ,

高级数据库 文本数据库 Web 数据库 多媒体数据库 空间及时空数据 异构数据库

其他类型数据 流数据 (data streams) ,如传感数据; 时序数据 (time-series data), 如生产监控数据; 图结构数据 (structure data), 如社交网络数据等

Page 12: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

数据挖掘的研究体系:以结构化数据为基础,叠加数据形态的特殊处理

结构化数据

(基础)

流式数据( + 实时处理)

( +音视频处理)

多媒体数据

文本数据

( +自然语言处理)数据库

数据文件…

文本文件新闻 / 博客

微博客 / 论坛 / 短信…

图片音频视频

流媒体…

网络流量话单流传感流

Page 13: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

结构化数据挖掘( KDD ):整体流程

Page 14: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

结构化数据挖掘( KDD ) :数据准备

数据采集 根据挖掘的目标,对可能涉及的数

据进行全方位的收集、整理; 数据预处理

对错误数据、不完整数据、冗余数据、不一致的数据等等进行统一处理;

数据选择 结合数据大小、数据质量、数据挖

掘目标、可用资源等等,采用采样、降维、规约等手段选取最终要实施挖掘的数据对象;

数据质量的好坏决定了最终结果的正确与否,数据准备占据整个工作量的 70%

Page 15: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

结构化数据挖掘( KDD ) :数据建模

在理解业务背景、熟知数据状况、明确数据挖掘任务的前提下,利用可用的资源(技术 / 工具),选择合适的数据挖掘算法,获取满意的结果;

—— 知识和经验的集中体现

Page 16: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

结构化数据挖掘( KDD ) :模型评估 知识

满足用户兴趣度和置信度的模式——用高级语言表示的表达一定逻辑含义的信息;

置信度 知识在某一数据域上为真的量度。

兴趣度 在一定数据上为真的知识被用户关注的程度。

有效性 知识的发现过程必须能够有效地在

计算机上实现。

Page 17: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

目录

数据挖掘基本概念和技术 数据挖掘基本概念 数据挖掘典型流程 数据挖掘常用技术 数据挖掘业界工具 数据挖掘可用资源 本章小结

数据挖掘在电信行业中的应用 总结

Page 18: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

数据挖掘是一门面向应用的综合性技术

数据库 数据仓库

数据可视化

OLTP OLAP

机器学习 统计分析 模式识别 粗糙集

并行计算 高性能计算 流计算

信息检索 推荐引擎 商务智能

支撑技术:重在运用

理论基础

特定应用

Page 19: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

数据处理与建模方法库

方法库

高级分析

分类预测

属性筛选

回归分析

聚类分析

关联分析

时间序列

属性筛选 属性重要性打分

基于增益率属性 主成分分析

决策树 分类回归树

支持向量机分类神经网络分类

线性回归 支持向量机回归

神经网络回归 组合模型

K均值聚类 分布估计聚类

层次K均值聚类

序列模式分析

购物篮分析 属性关联分析

自回归 自回归移动平均

统计分析

相关分析 波动分析 归纳分析

方差分析 因子分析 函数拟合

分布估计 异常检测 层次聚类

Page 20: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

数据挖掘十大经典算法

http://www.cs.uvm.edu/~icdm/algorithms/index.shtml

Page 21: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

数据挖掘的任务及基本方法

因素 3

因素 2

因素 4

因素 1

常用方法

关联规则挖掘 分类分析

聚类分析 预测分析

发现大量数据中项集之间有趣的关联或相关联系。

将未知数据划分到给定的类别中——通过训练样本建立分类模型,根据模型对未知数据进行分类。

将物理或抽象对象集合分组成为由类似的对象组成的多个类的过程。

相比于分类,聚类是无监督的(没有已知的类标号)

预测未来的数据趋势; 相比于“分类分析”来说,“预测分析”是建立连续函数模型 。

描述

预测

Page 22: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

数据分类三个步骤

Page 23: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

数据挖掘的经典模式及应用

Page 24: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

目录

数据挖掘基本概念和技术 数据挖掘基本概念 数据挖掘典型流程 数据挖掘常用技术 数据挖掘业界工具 数据挖掘可用资源 本章小结

数据挖掘在电信行业中的应用 总结

Page 25: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

数据挖掘相关技术及工具发展

报表 OLAP引擎 数据仓库 ETL

模型评估 数据建模 数据预处理

数据挖掘

数据管理技术

数据分析技术

学术界及部分企业推动 数据库厂商推动

Page 26: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

业界主流数据挖掘工具名称 主要功能 是否开源 编程语言

SPSS统计分析、机器学习 否

SAS统计分析、机器学习 否 SAS

Matlab统计分析、机器学习

否 matlab

Weka 以机器学习为主 是 java

R以统计分析为主、图形展示较丰富

是 R

Orange以机器机器学习为主、图形展示较丰富

是 java

Page 27: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

Weka 工具概览

Page 28: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

业界主流数据挖掘相关的数据管理工具

产品系列 Oracle Microsoft IBM Sybase

ETL 工具ODI/OWB

( ODI 可选) SSIS DataStageReplication

Server PowerStage

数据库管理工具

Enterprise Manager SQL Server

Visual Warehouse

(或 Cognos )Warehouse

Studio

OLAP 工具 Essbase SSASOLAP Server

(或 cognos )Warehouse Analyzer

数据挖掘工具ODM

(可选) SSASIntelligent Miner

(可选) 无

报表工具 BIEE SSRSInsight&Quick

view(或 Cognos )

InfoMaker ,后期会整合 BO

Page 29: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

目录

数据挖掘基本概念和技术 数据挖掘基本概念 数据挖掘典型流程 数据挖掘常用技术 数据挖掘业界工具 数据挖掘可用资源 本章小结

数据挖掘在电信行业中的应用 总结

Page 30: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

扩展学习参考书籍

工具应用

理论介绍

Page 31: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

目录

数据挖掘基本概念和技术 数据挖掘在电信行业中的应用

云计算环境下的数据挖掘需求 海量数据分析与挖掘系统简介 海量电信级数据挖掘应用实践 本章小结

总结

Page 32: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

什么是大数据?

“ 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合”

—维基百科

三大特征( 3 V ) Volume :数量大( Twitter1.75亿用户每天创建 9500万条微博;

Facebook每天在 30万台服务器上处理 25Tb 数据; YouTube每天上传 168Tb 视频)

Velocity :时效性要求高(搜索引擎要求几分钟前的新闻能够被用户查询到)

Variety :种类和来源多样化(结构化 /半结构化 /非结构化;关系数据库 / 数据仓库 /互联网网页等)

Page 33: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲大数据的出现、数据结构的改变,对电信行业数据管理及分析带来挑战 传统数据仓库无法有效存储日益增长的业务数据

随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量导致了数据存储和处理压力; 数据仓库无法线性扩容,管理难度加大,成本高扩容压力大,效率下降等

传统数据仓库无法有效处理新型的业务数据 公司在移劢互联网和物联网上需要有新领域的突破,不同于传统通信业务分

析特点,需要对内容等非结构化、大容量信息进行有效分析,传统的架构处理吃力 ;

Page 34: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

电信行业大数据分析与处理的需求

Page 35: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

大数据分析与处理的行业现状

BI 级数据的离线分析产品已经成熟;

海量级数据的离线分析是目前的一个热点;

借助内存数据库的实时分析会在未来大放异彩;

StormS4

Streambase…

SASSPSSWeka

R…

Rhadoop MahoutBCPDM

BI 级( GB-

TB )

内存级( GB 以

下)

海量级( PB )

离线分析

实时分析

空间域

时间域

Page 36: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

目录

数据挖掘基本概念和技术 数据挖掘在电信行业中的应用

云计算环境下的数据挖掘需求 海量数据分析与挖掘系统简介 海量电信级数据挖掘应用实践 本章小结

总结

Page 37: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

Page 38: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

海量数据分析与挖掘系统功能架构应用层

分析层

支撑层

分布式文件系统 HDFS 分布式数据库 HBASE

分布式计算 / 并行计算 / 流计算

IT 基础设施

内存数据库 Redis分布式数据仓库 Hive

网页解析

中文分词 实体识别

网页爬取 网页净化 网页索引

文本建模关键词提取

多媒体分割多媒体采集

多媒体特征提取 多媒体建模 特征提取数据抽样 数据规约

数据集成 数据清洗 数据转换

分类分析

聚类分析

关联规则分析

时间序列分析

语义分析情感分析

摘要生成主题发现

统计分析

实时查询

流程可视化 结果可视化 可视化数据探测

文本数据采集与处理 结构化数据采集与处理多媒体数据采集与处理

数据分析与挖掘算法

数据可视化

用户分析 产品优化 业务推荐 信息检索 安全监控 ….

并行数据挖掘平台 PDMP 并行数据分析平台 PDAP 实时分析平台 RTDAP

Page 39: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

海量数据分析与挖掘系统逻辑架构

全局数据

块数据

流数据

RDMSNoSQL

结果缓存流计算

触发的事件

实时计算结果

离线计算结果

全局计算

块计算

数据源

数据采集

Page 40: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

海量数据分析与挖掘系统适应的应用场景

Page 41: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

目录

数据挖掘基本概念和技术 数据挖掘在电信行业中的应用

云计算环境下的数据挖掘需求 海量数据分析与挖掘系统简介 海量电信级数据挖掘应用实践 本章小结

总结

Page 42: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

Hadoop Hbase Hive Pig FlumeMahout

Hadoop 生态系统

相关定制化产品

结合具体业务需求,开展相关产品的定制化实践

并行数据处理与挖掘

并行文本处理与挖掘

海量数据统计分析

海量数据实时搜索

数据抽取与分发中心

个性化推荐引擎 …..

…..

基于Hbase 和MapReduce ,提供结构化数据的海量数据并行处理与挖掘

基于HDFS 和MapReduce ,提供非结构化数据的海量文本并行处理与挖掘

基于 hive和 Pig,提供Web页面的海量数据可视化统计

分析

基于Hbase 和

Solr 集成 ,提供千亿级别数据实时查询和全

文检索

基于Mahout等,提供个性化的业务推荐

服务

基于Flume 等提供批量数据抽取和转载 ,同时提供准实时消息、日志的分发

Page 43: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

基于分布式数据库的海量数据分析平台

Page 44: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

面向Web访问的海量数据统计分析

Page 45: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

面向具体业务的个性化推荐引擎

Page 46: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

电信业务大数据分析与挖掘典型应用

接触时机分析

营销渠道分析

上网行为分析

业务关联分析营销效果分析

生活圈分析

终端特征分析 垃圾短信识别与监控生活形态分析

精细化营销专题

流失预警分析

Page 47: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲应用案例 1 :利用统计分析用户上网行为,优化网络及业务质量

用户偏好分析

终端类型分析

终端流量分析

应用类型分析

应用流量分析

Page 48: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲应用案例 2 :利用聚类分析实现用户生活形态分群,指导营销方案设计

Page 49: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

应用案例 3 :利用聚类及关联,进行定向营销

Page 50: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

应用案例 4 :利用时序分析和社交网络,进行垃圾短信识别,提升服务品质

t

短信流垃圾短信发送者怀疑名单

________

模式分类发送时序行为 “ 空间行为指纹”

,,,, 21 MaaaA

“ 社会网络行为指纹”

1 2, , , MA a a a

社会网络行为分析

社会网络图

原始话单库

在线监测引擎

模式分类

离线监测引擎

模式分类“ 社会网络行为指纹”

1 2, , , MA a a a

Page 51: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

目录

数据挖掘基本概念和技术 数据挖掘在电信行业中的应用

云计算环境下的数据挖掘需求 海量数据分析与挖掘系统简介 海量电信级数据挖掘应用实践 本章小结

总结

Page 52: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

本章小结

云计算环境下数据挖掘需求 大数据(数据量大、数据异构、处理时效性)对传统数据分析及管

理工具提出了挑战,需要重新构建适应大数据的海量数据分析与挖掘系统;

海量数据分析与挖掘系统简介 借助云计算提供的分布式计算模式、分布式数据存贮,构建新的、、

异构性的、适合多种业务需求的海量数据分析与挖掘系统; 电信行业数据挖掘应用实践

结合电信的具体业务需求,对海量数据分析与挖掘系统进行定制化实践,并给出部分应用案例以供参考。

Page 53: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

目录

数据挖掘基本概念和技术 数据挖掘在电信行业中的应用 总结

Page 54: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

内容回顾

1 、什么是数据挖掘? 2 、 CRISP-DM 具体包含哪些步骤? 3 、数据挖掘与哪些技术相关?请列举出 3-5个 4 、数据挖掘的基本任务是什么? 5 、数据挖掘常用的方法各有哪些?请列举 3-4个 6 、数据挖掘的工具有哪些?开源的与非开源的各举一个 7 、什么是大数据? 8 、大数据的三大特征是什么? 9 、云计算环境下,大数据分析与挖掘系统的支撑技术有哪些?请列举 2-3个

10 、电信业务大数据分析与挖掘的典型应用有哪些?请列举 2-3个

Page 55: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲

讨论:搜集哪些数据?使用哪些方法?

Page 56: 云计算业务应用 - 数据挖掘

秘密 Proprietary Confidential▲