Upload
others
View
20
Download
0
Embed Size (px)
Citation preview
大数据历史
• 1980年美国威斯康星大学华裔学者陈炳藻教授将《红楼梦》120回分为三组,每组40回,从每组中任取8万字,挑出名词、动词、形容词、副词、虚词这5种词,然后运用统计学方法算出各组之间用词的相关程度,结果发现:《红楼梦》前80回与后40回所用词汇的相关程度远远超过《红楼梦》与《儿女英雄传》所用词汇的相关程度,并由此推断:前80回与后40回均为曹雪芹一人所作。
• 华东师范大学陈大康教授,复旦大学李贤平,台湾成功大学王三庆教授用类似办法得出相反的结论。
通过词频、聚类、相关性等数据分析方法从非结构化数据中得出有价值的结论
大数据时代来临
• 当前全世界数据量快速增长,新产生数据量年增长率达40%。如果把2011年获得的全世界数据量装到iPod上的话,可装满575亿个iPod。把这些iPod当砖用,可垒起两座中国长城。
• 对中国来讲,大数据是机会也是挑战。中国人口总量位居世界首位,但数据量仅为日本的60%和北美的7%,其中一半数据未获保护。
----中国工程院院士、中国互联网协会理事长
邬贺铨
中国大数据的市场
• IDC 2012年发布了其关于中国大数据技术和服务市场的首份报告《中国大数据技术与服务市场2012-2016年预测与分析》(文档号#CN2670201U),显示该市场规模将会从2011年的7760万美元增长到2016年的6.17亿美元,未来5年的复合增长率达51.4%,市场规模增长近7倍。
大数据是什么
抽象:大数据是什么
云计算、物联网等新技术催生大数据
涉及数据仓库、数据分析、数据挖掘等技术
大数据的特点
数据量大(volume):TB级以上
种类多(variety):文本、多媒体、数据库等
价值密度低(value):有效信息分散在海量数据中
处理速度快(velocity):要求实时、准实时获得结
果
2012-2014年IT技术的主旋律
Gartner 2012-2014年十大战略技术
2012年 2013年 2014年
1 平板媒体 (media tablet)
移动产品 移动设备的多样性和管理 移动应用
2 移动为核心的应用和接口 移动应用&HTML 5
移动应用和应用程序 云技术
3 语境和社交用户体验 私有云 万物互联 (Internet of Everything)
大数据
4 物联网 物联网 混合云和IT成为服务经纪人 物联网
5 应用商店 混合IT和云计算 云/客户端架构
6 下一代分析 战略大数据 个人云时代
7 大数据 可行性分析学 软件定义一切(SDx)
8 内存计算 主流内存计算 Web-scale IT
9 极低能耗服务器 集成化生态系统 智能机器
10 云计算 企业应用商店 3D打印
对大数据的理解
象提炼稀土矿一样提取大数据中的价值
有价值的信息量密度很低,蕴藏总量很大
要有足够的技术条件才能提取出来
硬件条件:足够的存储容量、并行运算性能
要求能够快速获得计算结果
时间:流感爆发之后才算出结果就晚了
软件条件:算法技术水平、具体业务水平
大数据分析必须技术与业务结合在一起
大数据体现的价值高低
与数据源有关,也和信息提炼水平有关
要把有价值的信息从大量数据中分离出来
信息提炼水平不够,大数据只是无用的垃圾
提炼水平越高,能够提取出的价值越高
类比:铀矿浓缩技术
天然铀矿:约0.7%
核电站用低浓缩铀:3%
核武器用高浓缩铀:90%
有效利用大数据中的价值
棱镜门:监听有价值的信息
数据来源:电信部门、网络设备
关键问题:如何筛选出有价值的信息
背景噪音:大量无关的数据
相关技术举例:要求速度快
模式匹配算法:找出敏感词、句之类
概率分析算法:发现异常(小概率事件)
相关性分析算法:找到高度相关情况
信息化技术的发展趋势
技术层面 发展趋势
个性化配置 面向移动性和大数据
决策系统 基于大数据
业务应用 移动性,业务互通,网络业务
基础应用 基于虚拟化云、软件定义
数据 数据共享、交换,大数据
虚拟资源 虚拟机,虚拟网络设备,虚拟存储
基础设施 物联网,无线接入,云计算,SDN, 三网融合,大容量存储系统
大数据在广东省教育信息化的定位
基础设施
虚拟资源
数据
业务应用
决策系统
基础平台
个性设置
无线通信
有线通信
互联网
智能感知
虚拟化
存储技术
先进计算
多媒体
学科与技术类别
技术层面
学科交叉
华南理工
中山大学
教育技术中心
腾讯
机制健全 创新 设施完善
网络畅通
资源丰富
应用高效
信息化与教育的深度融合
融合
大网络
大数据
大平台
大服务
大教育
大数据推动数字化校园走向智慧校园
大数据是智慧校园的基础
(1)建立统一数据标准;
(2)建设公共数据交换平台;
(3)建立数据仓库系统;
(4)建设智能数据分析系统;
(5)建设智能决策系统.
管理变革:
• 由经验管理到数据管理。
• 粗放式管理迈向精细化管理
• 数据的知识,将成为个人知识结构中的必备要素和基础
通信网
物联网
互联网
智慧校园
无线通信
管理体系
智慧校园
关键点一: 互联 关键点二: 技术的综合应用 关键点三:可持续
云计算
大数据
云计算 SDN
虚拟化 三网融合
应用系统
传感器技术
无源光通信
智慧校园整体框架------技术驱动的信息化新形态
平台层
IT能力 CT能力 数据中心
网络层
通信网 互联网 物联网
手机 PC 摄像头 RFID 传感器网络 视频电话 internet 呼叫中心 无线网关 云计算 感知层
应急指挥 应用层 数字监管 平安校园 校园热线 数字医疗 环境监控 数字物流 智能交通
数据层 科研数据 教务数据 网管数据 校务数据 元数据管理 一卡通数据 视频数据
数据交换引擎 数据分析工具 数据挖掘工具
• 互联网和云计算推动大数据技术发展,大数据日益体现出重要的信息价值,同时又对网络构成巨大的压力。
• 构成大数据的大部分数据实际上是非结构化数据。结构化数据可以通过传统数据库架构来处理,但对非结构化数据的调度和处理对底层网络提出了新的挑战。
大数据处理过程中的通信瓶颈
• Facebook连续阶段之间的数据传输占33%的总运行时间,在
很多情况下,通信阶段占总运行时间的50%以上。
• 由于传统的最短路径计算方案
导致链路资源利用率低,广域链路利用率较低。如:腾讯每年20
亿的运营商线路租用费用,但是链路利用率<30%。
数据流量的模型正在发生改变
Client – Server Architecture Service Oriented Architecture
Server Server
Server
Server
Server
Server
95% 25%
Client Client
数据流量的模型正在发生改变
A
D
C
B
DB
75%
A
D
C
B
DB
问题的实质 • 可见,驱动大数据发展和处理大数据的云计算技
术采取按需分配资源的架构,但支撑数据传输的传统互联网架构不支持网络拓扑结构和全网资源的动态调整,因此很难实现全网按需分配资源,因此造成了大数据的调度和处理的瓶颈,需要网络层具备按需动态分配资源的能力。
• 为了解决大数据的调度和处理的瓶颈,需要网络层具备按需动态分配资源的能力。
• SDN技术的发展为解决这个问题提供了可能。
A Service Oriented Model
Software Defined
Network
Applications / Services
Control Plane with
Networking Action
Service Oriented-
Virtual Network
End-Users
SDN-----业务独立于资源
SDN Controller
Configuration Analytics
Control
Virtualized
Server VM VM VM
Virtualized
Server VM VM VM IP fabric
(underlay network)
Juniper Qfabric/QFX/EX
or 3rd party underlay switches
Juniper MX
or 3rd party gateway routers
Tenant VMs
BGP
Federation
Horizontally
scalable
Highly available
Federated
BGP
Clustering
JunosV Contrail Controller
KVM Hypervisor +
JunosV Contrail Agent (L2 & L3)
REST
XMPP
SDN
CONTROLLER
Control
Orchestrator
XMPP BGP +
Netconf
JUNOSV CONTRAIL SDN CONTROLLER
ARCHITECTURE OVERVIEW
基于SDN网络质量及安全自动感知及智能调度
精确问题定位 自动质量感知
您体验不好/我能感觉到
等待
>90%
默默忍受
>70%
无法定位
100% 隐患消除
问题重复发生
体验持续受损
传统网络
SDN
手工问题定位:
数小时~数天
用户体验受损
而网络不知道
上网慢
云桌面反应慢
图像马赛克
语音听不清
通知管理员
问题精确位置
问题发生
全国高校第一届SDN比赛华为平台
• 1)统一网络平台:DC与园区交换机混合组网,统一的物理网络平台
• 2)编程环境和开放API:控制器提供eclips编程环境,拓扑获取及路径控制等丰富的restful北向编程API供用户使用
• 3)案例应用:控制器提供带有GUI的案例应用
第三方应用程序
带有约束条件的转发控制等……
北向Restful API
南向控制接口 BGP
拓扑获取 路径控制 SDN控制器
CORE
CE128
S127
CE58
CE58
Eclips编程环境
北向API QOS/ACL/GRE…
Netconf
CE58
S57
OF…
副本动态调度策略 • 通过监控用户对数据的需求及相关参数对数据资源
进行动态规划和调整。使得用户可以就近访问云服
务的数据资源,从而减少对区域云跨地域节点间骨
干网络的带宽消耗,提高数据访问的效率。
• 基于时间局限性定义文件远程请求热度、文件平均
请求跨度的概念,使得跨地域节点请求较多的热点
数据能够动态的、快速的在区域云内扩散,
1、全网安全事件采集 网络、安全设备日志、终端用户行为及iPCA
流量异常数据等
2、大数据关联分析 Campus Controller对海量数据进行关联分析,发现安全隐患
3、全网安全策略下发 Campus Controller下发调整后的安全策略至全网相关设备
4、安全资源动态分配 Campus Controller将全网的安全设备虚拟为资源池,并根据
区域、用户、安全事件动态分配安全资源
基于大数据分析的全网安全策略
有效信息量与个性化教育
同样的教育,对不同的学生效果不同
每个学生特点不一样,需要因材施教
尝试大数据计算教育资源对每人的有效信息量
以英语学习为例
内容太难,一句都听不懂:有效信息量=0
内容太浅,全都是知道的:有效信息量=0
内容适中,学到新的知识:有效信息量>0
基于大数据的学习行为设计
大数据:进行统计分析的基础
来源于校园中采集到的各种信息
与校园信息化水平密切相关
学习行为设计 快速将每个学生具体情况与大量
资源进行匹配
根据学习进度和成效,计算学生学习特征曲线
根据学习曲线,对学生进行预测评估
根据概率预测作动态教育资源调度