28
BI系统 应对BIG DATA 方法及 互联网行为分析技术方案

242258115 big-data及互联网行为分析方案培训-pdf

Embed Size (px)

DESCRIPTION

big-data及互联网行为分析方案

Citation preview

Page 1: 242258115 big-data及互联网行为分析方案培训-pdf

BI系统 应对BIG DATA 方法及互联网行为分析技术方案

Page 2: 242258115 big-data及互联网行为分析方案培训-pdf

电信运营商定位于“智能管道”

在移动互联网的大势所趋下,如何摆脱沦为单纯的“数据传

送管道”角色,如何依靠基础网络挖掘更多的价值,是摆在

所有网络运营商面前的一道难题。要扭转这一局面,网络运

营商必须转变过去简单粗放型的网络经营方式。近年来,全

球主要电信业领袖和专家都呼吁,运营商构建“智能管道”已

刻不容缓。

既然智能管道是必不可少的,那么智能管道是什么样的?简

单来说,智能管道就是要做到用户可识别、业务可区分、流

量可调控、网络可管理,而且能够承载丰富的应用。因此,

我们需要将现有的互联网访问数据、增值业务使用信息加以

整合,充分发挥数据价值,通过对数据的理解整体把握自有

产品、业务发展情况,并掌握用户差异化的使用行为习惯。

用于指导产品创新、营销维系活动等方面。

Page 3: 242258115 big-data及互联网行为分析方案培训-pdf

BIG DATA的定义

数据结构的多样化,不仅

包含关系型数据而且包含

日志,原始文本等半结构

化和非结构化数据

流数据和大容量数据的移

TB级扩增到ZB级

Variety:

Velocity:

Volume:

Gartner 定义: Big Data 是指由于数据量巨大,已经不能被现有软件系统在可以容忍的时限内,及时获取、管理、处理的数据集

Page 4: 242258115 big-data及互联网行为分析方案培训-pdf

在原有oracle数据库外,需新增分析型数据库与非关系型数据库

分析型数据库分析型数据库分析型数据库分析型数据库

通用型数据库通用型数据库通用型数据库通用型数据库 非关系型非关系型非关系型非关系型数据库数据库数据库数据库

Page 5: 242258115 big-data及互联网行为分析方案培训-pdf

电信级BIG DATA开始被关注──处理面临挑战

Data Analytics, Data Operations & Model Building

Database &Warehouse At-Rest Data Analytics

Traditional / Relational

Data SourcesTraditional / Relational

Data Sources

Non-Traditional / Non-Relational Data Sources

Non-Traditional / Non-Relational Data Sources

Non-Traditional/Non-RelationalData Sources

Non-Traditional/Non-RelationalData Sources

Traditional/Relational Data Sources

Traditional/Relational Data Sources

Internet Scale

传统数据仓库

实时数据

互联网非结构化数据

市场、客户、产品分析等

网络状态实时分析和监控

客户洞察分析

BillingCRMLocation10000CDRsNetwork Devices

InternetBlogs, e-Mail开始关注互联网日志数据和互联网站内容数据 处理速度要求更快 存储容量要求更高网络带宽要求更高

传统数据仓库无法满足存储和处理的要求

Page 6: 242258115 big-data及互联网行为分析方案培训-pdf

集团《增值业务及互联网数据整合规范》-- ---数据视图

原文:有条件省份,要求在2012年完成移动互联网数据的整合,同时启动宽带上网数据整合,2013年完成宽带数据整合。无条件的省要保证2012年完成移动互联网数据的整合。

Page 7: 242258115 big-data及互联网行为分析方案培训-pdf

集团《增值业务及互联网数据整合规范》--数据接口范围● 4.1 数据接口 20

● 4.1.1 增值业务数据 20

● 4.1.1.1 天翼视讯 20

● 4.1.1.2 天翼阅读 22

● 4.1.1.3 天翼空间 24

● 4.1.1.4 爱音乐 25

● 4.1.1.5 爱游戏 27

● 4.1.1.6 爱动漫 29

● 4.1.1.7 VSOP 31

● 4.1.1.8 爱优惠 32

● 4.1.1.9 天翼导航 33

● 4.1.1.10 168声讯 34

● 4.1.2 互联网行为数据 35

● 4.1.2.1 宽带上网 36

● 4.1.2.2 手机上网 36

● 4.1.2.3 互联星空 37

● 4.1.2.4 ITV 38

● 4.1.2.5 网上营业厅 40

● 4.1.2.6 网址和分类数据 42

● 4.1.

● 4.1.3 手机终端数据 44

● 4.1.3.1 终端自注册平台 44

● 4.1.4 号百业务数据 47

● 4.1.4.1 114平台 47

● 4.1.5 行业应用数据 48

● 4.1.5.1 协同通讯 48

● 4.1.5.2 翼机通 50

● 4.1.6 移动位置数据 52

● 4.1.6.1 核心网网管 52

● 4.1.6.2 无线网管 52

Page 8: 242258115 big-data及互联网行为分析方案培训-pdf

集团《增值业务及互联网数据整合规范》--总体架构

Page 9: 242258115 big-data及互联网行为分析方案培训-pdf

承载Big Data的EDA系统新数据架构

EDA业务网管 ODS 明细数据

计费、CRM等BSS, OSS系统

EDW 基础数据层(小型机)

EDW 基础数据层(oracle或一体机)

数据服务总线

门户平台

元数据

数据质量

决策分析 专题分析 客户洞察系统

增值业务及互联网分析

自助分析平台

全业务详单查询库

计费

互联网行为数据(hadoop)直

客户洞察集市(Oracle/GP)决策视窗

一线看数增值业务及

互联网数据集市

指标层

固定报表专题分析

聚焦财务集团上传

临时统计

(小型机) (小型机)

手机门户

Page 10: 242258115 big-data及互联网行为分析方案培训-pdf

大纲

● 互联网行为分析业务目标和定位● 业务目标● 在EDA中的定位

● 互联网行为分析业务架构及技术架构● 互联网行为分析平台开发最新进展

Page 11: 242258115 big-data及互联网行为分析方案培训-pdf

业务目标1-面向前端市场支撑分析只有深入的了解客户,才能精确的掌握用户信息和当前所需,才能做到“想之所想,急之所急”,从而赢得客户。只有全方位剖析产品和市场,才能全面洞悉并获取最真实的信息反馈,才能真切掌握电信主体业务和自身品牌优缺点,从而以取长补短、不断创新的方式去把握住市场。让自己在市场中处于领先地位。互联网行为系统将全方位提升市场和业务分析能力。

用户

营销

市场

产品

业务分析支撑

服务

业务

用户群归类管理用户群归类管理用户行为透视用户行为透视

客户流失预分析客户流失预分析提高用户特征精确度提高用户特征精确度

提供数据服务提供数据服务产品改良与竞争分析产品改良与竞争分析

促进主体业务发展促进主体业务发展

推动携号转网等业务推动携号转网等业务

Page 12: 242258115 big-data及互联网行为分析方案培训-pdf

业务目标2-面向行业分析和后向运营价值提升语言资费不断下调,以及移动正逐步代替固网,运营商对于行业合作的重视程度达到了前

所未有的高度,行业客户作为稀缺资源,运营商之间为其争夺也是趋向于白热化。所以如果为行业用户提供更好的营销及企业信息化服务将成为较量的核心,所以必须切实掌握行业客户需求和变化趋势,以提供 “一站式”全业务解决方案,提供权威的行业报告和行业资讯服务,改善行业运营模式,提升后向价值!

打造综合信息化商城提供全业务咨询服务提供营销解决方案

�为行业用户分析品牌关注度;�为其挖掘其潜在客户;提供关注度差异分析;�提供广告投放、广告增收等营销方案。

�分析用户访问(号码百事通)行为,获取客户类型及需求信息,为其挖掘潜在客户。�分析后向客户关注度等,提供宣传及业务改良等营销方案;从而提高“号百”品牌影响力!吸收更多合作伙伴!提升后向运营价值,打造权威的综合信息服务化商城。

�获取不同行业的个性化应用和移动化、信息化需求;�提供服务提供商业务产品创新改良的方案等;�提供行业报告和行业资讯服务利用电信自身的优势资源,为行业及合作商提供全业务解决方案。

Page 13: 242258115 big-data及互联网行为分析方案培训-pdf

业务目标3- 促进网络服务质量分析

系统将全方位分析异常行为、业务热点及发展趋势等互联网全业务资源分析,为营销决策人员在全局网络监管、业务健康运营、热点业务推荐提供权威的营销决策支撑

监测高流量区域监测高流量区域监测高流量区域监测高流量区域

为网络维护部门提供扩为网络维护部门提供扩为网络维护部门提供扩为网络维护部门提供扩

容决策支撑容决策支撑容决策支撑容决策支撑

非法站点监控非法站点监控非法站点监控非法站点监控

业务热点评估业务热点评估业务热点评估业务热点评估

业务关注度分析业务关注度分析业务关注度分析业务关注度分析

支撑运营监管部门保证支撑运营监管部门保证支撑运营监管部门保证支撑运营监管部门保证

网络健康运营网络健康运营网络健康运营网络健康运营

决策支撑决策支撑决策支撑决策支撑

Page 14: 242258115 big-data及互联网行为分析方案培训-pdf

信息流:1.,收集URL;2.从Int网页分词、建立站点树; 3. 萃取出用户与行业、专业关系;4.收集搜索关键字,建立用户与行业及专业的关系;5.依据客户与各行业和专业的关系,提供给三类应用

业务流与数据流

-14

URL

搜索关键字

流量经营 各行业分析网络质量分析

客户行为与行业、专业的关系

网页

搜索网站/消费网站社会各行业及专业关键词库 Internet各网页

站点树互联网用户

1

3

2

4

1

2

3

4

55

5

业务流:1.用户输入或点击URL,访问网页;2.用户从网页获取到某行业及其下某专业的信息,并进行交互;3.用户在搜索网站/消费输入搜索关键字;4.用户访问搜索结果网站

Page 15: 242258115 big-data及互联网行为分析方案培训-pdf

大纲

● 互联网行为分析业务目标和定位● 互联网行为分析技术架构

● 技术架构● 关键技术介绍

● 互联网行为分析平台开发最新进展

Page 16: 242258115 big-data及互联网行为分析方案培训-pdf

电信级BIG DATA开始被关注──处理面临挑战

Data Analytics, Data Operations & Model Building

Database &Warehouse At-Rest Data Analytics

Traditional / Relational

Data SourcesTraditional / Relational

Data Sources

Non-Traditional / Non-Relational Data Sources

Non-Traditional / Non-Relational Data Sources

Non-Traditional/Non-RelationalData Sources

Non-Traditional/Non-RelationalData Sources

Traditional/Relational Data Sources

Traditional/Relational Data Sources

Internet Scale

传统数据仓库

实时数据

互联网非结构化数据

市场、客户、产品分析等

网络状态实时分析和监控

客户洞察分析

BillingCRMLocation10000CDRsNetwork DevicesInternetBlogs, e-Mail开始关注互联网日志数据和互联网站内容数据 处理速度要求更快 存储容量要求更高网络带宽要求更高

传统数据仓库无法满足存储和处理的要求

Page 17: 242258115 big-data及互联网行为分析方案培训-pdf

解决方案

网络带宽

要求更高

处理速度

要求更快

存储容量

要求更高

传统以太网千

兆升级到万兆

传统以太网升级到

Infiniband,单端口带宽最大可达到20Gbps

采用集群计算

并优化每点计

算算法和效率

采用Hadoop分布式文件系统

容量可扩展到ZB级

序号 项目 性能指标1用户数量(3000万) 300000002文件采集时限(2分钟) 1203文件处理时限(2分钟) 1204文件入库时限(5分钟) 3005每天日志量(3T) 3*1024*10246采集需要网络带宽 242.8MB/s7所需存储空间(全备份保存30天) 150T

Page 18: 242258115 big-data及互联网行为分析方案培训-pdf

MapReduce

Big Data 技术落地──分布式文件管理系统及组件

HIVE HBASE

Hadoop 分布式文件系统(HDFS)

基于分布式文件的关系数据库

基于分布式文件的非结构化数据库

大规模并行处理引擎MapReduce 技术

• 有较强容错性• 可在通用的机器上运行,降低总体成本• 可扩展,能构建大规模应用

Page 19: 242258115 big-data及互联网行为分析方案培训-pdf

关键技术--互联网信息萃取互联网信息萃取处理流程:

关键技术点:网络爬虫:我们采用Heritrix框架的网络爬虫技术获取常规站点的网页内容分词和文本挖掘技术:采用最优算法进行文本分词,基于关键字排序算法进行网页分类

非结构化存储hadoop

结构化存储ODS

Page 20: 242258115 big-data及互联网行为分析方案培训-pdf

Hadoop 分布式文件系统(HDFS)分布式文件系统优点:• 有较强容错性• 可在通用的机器上运行,降低总体成本• 可扩展,能构建大规模应用

Page 21: 242258115 big-data及互联网行为分析方案培训-pdf

基于分布式文件的关系数据库(HIVE)HIVE优点:• 表定义是基于HDFS文件,不必复制数据• 表查询采用与兼容的语句查询数据• 自动调用分布式处理引擎,查询处理速度快2011/12/27 16:35:11 [debug] 243385#0: *11 LatnId=5512011/12/27 16:35:11 [debug] 243385#0: *11 avscFileName=3504.avsc2011/12/27 16:35:11 [debug] 243385#0: *11 svcName:DPRINT will be called.2011/12/27 16:35:11 [debug] 243385#0: *11 BeginWrite:ret=12011/12/27 16:35:11 [debug] 243385#0: *11 sim tpcall success!--------------------------- --------- ------------------- --------------------------

log_time, log_level, thread_info, log_detail用语句定义表对应的文件,字段对应的位置,就将表与字段建立了关联查询时按数据库一样查询:Select log_time, log_detail from log_table where log_level=‘error’

Page 22: 242258115 big-data及互联网行为分析方案培训-pdf

网站 内容

news.sina.com

要闻 国内24个省份调整最低工资标准[我国明年将推进公务员聘任制坚持凡进必考]新疆警方击毙7名恐怖团伙成员详情披露国内多家银行否认

春运火车票开售订票网站被指扣钱不出票湖北襄阳公务员酒驾撞人逃逸致4死获刑4年半陕西河北安徽等今日有大雾 天气查询组图中海油注册成立海洋环境与生态保护基金会湖南考生起诉省地勘局拒录色盲考生索赔5万

基于分布式文件的非结构化数据库(HBASE)HBASE优点:• 基于列存储模式,节省存储空间

• 适合存放文本、网页等互联网内容。

Page 23: 242258115 big-data及互联网行为分析方案培训-pdf

实例:计算各月总收入假如5000万用户号码,12个月,分布在10台机器上,在分布式处理模式下,1.2秒得到统计结果

(201110, 40.27 )(201110, 149 )(201110, 25.15 )(201110, 138.05)(201111, 197.5 )(201111, 128.25)(201111, 302.74)(201111, 156.45)(201112, 277.39)(201112, 129 )(201112, 156.17)(201112, 130 )

(201110, 40.27, 149, 25.15, 138.05)(201111, 197.5, 128.25, 302.74, 156.45)(201112, 277.39, 129, 156.17, 130)

Map

Reduce

(201110, 352.47)(201111, 784.94)(201112, 692.56)

某个DataNode下的数据:

汇集所有DataNode的结果

大规模并行处理引擎MapReduce 技术

.

.

.其他DataNode

MapRecude将复杂的统计任务拆分成各节点能独立处理的小任务,然后Master节点再将各节点的结果汇总得到最终统计结果。

Page 24: 242258115 big-data及互联网行为分析方案培训-pdf

大纲

● 互联网行为分析业务目标和定位● 互联网行为分析业务架构及技术架构● 互联网行为分析平台最新进展

Page 25: 242258115 big-data及互联网行为分析方案培训-pdf

已完成访问日志清洗保存流程ETL完全监控化

原始日志 去不完整URL;去图片、广告 筛选掉后台

API调用URL 规范URL保存到HADOOP中完全过滤掉噪声数据 后续处理高效精准

节省存储保存更久历史

关联用户资料关联URL分类库客户行为特征库

Page 26: 242258115 big-data及互联网行为分析方案培训-pdf

已建资源库──互联网URL分类库/手机应用分类库/影视资料库

Page 27: 242258115 big-data及互联网行为分析方案培训-pdf

20111018102340-723938881 | 20111018102250-601149905 | 20111018102340 | 189xxxxxxxx | 221.179.193.19 | 80 | weibo.cn | http://weibo.cn/dpool/ttt/home.php?uid=1285846970&gsid=3_5bc65ef7862f7c9a315084e6aa8204391a29bf2f0d4bbc5645 | http://weibo.cn/dpool/ttt/msg.php?uid=1285846970&gsid=3_5bc65ef7862f7c9a315084e6aa8204391a29bf2f0d4bbc5645 | 200 | text/vnd.wap.wml | wap浏览 | 550 | 19823 | 10114 | 14021 | BREW-Applet/0x20068888(BREW/3.1.5.20;DeviceId:180027;Lang:zhcn)ucweb-squid | 3 | WAP2.0 | GET | CTWAP27

自我特征工作: 找工作 办公一族学习: 自学 高考 高校学生 中小学生家庭休闲娱乐: 影视迷 音乐迷 曲艺迷 K歌一族 游戏迷 博客达人购物: 购房一族 装修一族 购车一族 购手机 团购达人 网购达人理财: 炒股 基金 保险 信用卡族医疗保健: 看病 健身 美容体育运动: 足球 篮球 羽毛球 高尔夫 。。。商旅: 公务旅行 驴友 。。。餐饮: 美食一族生活: 交友 婚姻 家政 。。。

社会特征 位置: 生活区 工作区作息时间:朝九晚五 昼伏夜出 夜生活族交往圈: 交际广泛 交际狭小 。。。消费能力: 高消费 小资一族 精打细算。。。。。。商业区活跃。。。。。。

电信消费特征天翼产品: 语音高值 语音沉默e家产品: 语音不足 语音过量 带宽依赖宽带互联网: 网迷 超时上网 大流量固话: 语音高值 语音沉默 主叫活跃市话潜力 长途潜力 漫游潜力 短信种子Itv潜力 手机玩家异网手机用户市话潜力 长途潜力增值业务:爱音乐潜力 天翼视讯潜力 通信助理潜力 爱游戏潜力 手机报潜力

互联网URL分类库关联上网日志和客户资料──形成客户标签库

+

Page 28: 242258115 big-data及互联网行为分析方案培训-pdf

讨论时间Q&A