54
大数据在智慧校园的应用 陆以勤

大数据在智慧校园的应用gjzx.cumt.edu.cn/_upload/article/files/19/80/f47a7... · 5 应用商店 混合IT和云计算 云/客户端架构 6 下一代分析 战略大数据

  • Upload
    others

  • View
    20

  • Download
    0

Embed Size (px)

Citation preview

大数据在智慧校园的应用

陆以勤

提纲

• 大数据----技术驱动的革命

• 大数据与教育信息化

• 大数据驱动数字校园向智慧校园发展

• 大数据在智慧校园的若干应用

大数据历史

• 1980年美国威斯康星大学华裔学者陈炳藻教授将《红楼梦》120回分为三组,每组40回,从每组中任取8万字,挑出名词、动词、形容词、副词、虚词这5种词,然后运用统计学方法算出各组之间用词的相关程度,结果发现:《红楼梦》前80回与后40回所用词汇的相关程度远远超过《红楼梦》与《儿女英雄传》所用词汇的相关程度,并由此推断:前80回与后40回均为曹雪芹一人所作。

• 华东师范大学陈大康教授,复旦大学李贤平,台湾成功大学王三庆教授用类似办法得出相反的结论。

通过词频、聚类、相关性等数据分析方法从非结构化数据中得出有价值的结论

大数据时代来临

• 当前全世界数据量快速增长,新产生数据量年增长率达40%。如果把2011年获得的全世界数据量装到iPod上的话,可装满575亿个iPod。把这些iPod当砖用,可垒起两座中国长城。

• 对中国来讲,大数据是机会也是挑战。中国人口总量位居世界首位,但数据量仅为日本的60%和北美的7%,其中一半数据未获保护。

----中国工程院院士、中国互联网协会理事长

邬贺铨

大数据时代来临

• 如果把这些资料量全都装在32GB版本的iPad里,这些iPad可以堆出一座比富士山高25倍的山,或是建造一道高6.1公尺的围墙,足以环绕整个南美洲。

中国大数据的市场

• IDC 2012年发布了其关于中国大数据技术和服务市场的首份报告《中国大数据技术与服务市场2012-2016年预测与分析》(文档号#CN2670201U),显示该市场规模将会从2011年的7760万美元增长到2016年的6.17亿美元,未来5年的复合增长率达51.4%,市场规模增长近7倍。

美国2013年高薪技术排行:大数据居首

大数据是什么

抽象:大数据是什么

云计算、物联网等新技术催生大数据

涉及数据仓库、数据分析、数据挖掘等技术

大数据的特点

数据量大(volume):TB级以上

种类多(variety):文本、多媒体、数据库等

价值密度低(value):有效信息分散在海量数据中

处理速度快(velocity):要求实时、准实时获得结

2012-2014年IT技术的主旋律

Gartner 2012-2014年十大战略技术

2012年 2013年 2014年

1 平板媒体 (media tablet)

移动产品 移动设备的多样性和管理 移动应用

2 移动为核心的应用和接口 移动应用&HTML 5

移动应用和应用程序 云技术

3 语境和社交用户体验 私有云 万物互联 (Internet of Everything)

大数据

4 物联网 物联网 混合云和IT成为服务经纪人 物联网

5 应用商店 混合IT和云计算 云/客户端架构

6 下一代分析 战略大数据 个人云时代

7 大数据 可行性分析学 软件定义一切(SDx)

8 内存计算 主流内存计算 Web-scale IT

9 极低能耗服务器 集成化生态系统 智能机器

10 云计算 企业应用商店 3D打印

泛在网

大数据---技术驱动的革命

移动互联网

物联网

先进计算平台

云计算

高性能计算

云存储

数据采集与传输

数据分析挖掘

数据集中存储与高效处理

大数据

11

大数据的发展趋势

2012年分析:2016,全球大数据 相关产业规模达2320亿元,数据成为经济社会的引擎

中国计算机学会大数据专家委员会预测

对大数据的理解

象提炼稀土矿一样提取大数据中的价值

有价值的信息量密度很低,蕴藏总量很大

要有足够的技术条件才能提取出来

硬件条件:足够的存储容量、并行运算性能

要求能够快速获得计算结果

时间:流感爆发之后才算出结果就晚了

软件条件:算法技术水平、具体业务水平

大数据分析必须技术与业务结合在一起

大数据体现的价值高低

与数据源有关,也和信息提炼水平有关

要把有价值的信息从大量数据中分离出来

信息提炼水平不够,大数据只是无用的垃圾

提炼水平越高,能够提取出的价值越高

类比:铀矿浓缩技术

天然铀矿:约0.7%

核电站用低浓缩铀:3%

核武器用高浓缩铀:90%

有效利用大数据中的价值

棱镜门:监听有价值的信息

数据来源:电信部门、网络设备

关键问题:如何筛选出有价值的信息

背景噪音:大量无关的数据

相关技术举例:要求速度快

模式匹配算法:找出敏感词、句之类

概率分析算法:发现异常(小概率事件)

相关性分析算法:找到高度相关情况

提纲

• 大数据----技术驱动的革命

• 大数据与教育信息化

• 大数据驱动数字校园向智慧校园发展

• 大数据在智慧校园的若干应用

17

信息化技术的发展趋势

技术层面 发展趋势

个性化配置 面向移动性和大数据

决策系统 基于大数据

业务应用 移动性,业务互通,网络业务

基础应用 基于虚拟化云、软件定义

数据 数据共享、交换,大数据

虚拟资源 虚拟机,虚拟网络设备,虚拟存储

基础设施 物联网,无线接入,云计算,SDN, 三网融合,大容量存储系统

大数据在广东省教育信息化的定位

基础设施

虚拟资源

数据

业务应用

决策系统

基础平台

个性设置

无线通信

有线通信

互联网

智能感知

虚拟化

存储技术

先进计算

多媒体

学科与技术类别

技术层面

学科交叉

华南理工

中山大学

教育技术中心

腾讯

机制健全 创新 设施完善

网络畅通

资源丰富

应用高效

信息化与教育的深度融合

融合

大网络

大数据

大平台

大服务

大教育

粤教云示范应用试点

提纲

• 大数据----技术驱动的革命

• 大数据与教育信息化

• 大数据驱动数字校园向智慧校园发展

• 大数据在智慧校园的若干应用

大数据推动数字化校园走向智慧校园

大数据是智慧校园的基础

(1)建立统一数据标准;

(2)建设公共数据交换平台;

(3)建立数据仓库系统;

(4)建设智能数据分析系统;

(5)建设智能决策系统.

管理变革:

• 由经验管理到数据管理。

• 粗放式管理迈向精细化管理

• 数据的知识,将成为个人知识结构中的必备要素和基础

通信网

物联网

互联网

智慧校园

无线通信

管理体系

智慧校园

关键点一: 互联 关键点二: 技术的综合应用 关键点三:可持续

云计算

大数据

云计算 SDN

虚拟化 三网融合

应用系统

传感器技术

无源光通信

智慧校园整体框架------技术驱动的信息化新形态

平台层

IT能力 CT能力 数据中心

网络层

通信网 互联网 物联网

手机 PC 摄像头 RFID 传感器网络 视频电话 internet 呼叫中心 无线网关 云计算 感知层

应急指挥 应用层 数字监管 平安校园 校园热线 数字医疗 环境监控 数字物流 智能交通

数据层 科研数据 教务数据 网管数据 校务数据 元数据管理 一卡通数据 视频数据

数据交换引擎 数据分析工具 数据挖掘工具

提纲

• 大数据----技术驱动的革命

• 大数据与教育信息化

• 大数据驱动数字校园向智慧校园发展

• 大数据在智慧校园的若干应用

大数据在智慧校园的若干应用

基于大数据的SDN

基于数据的网络质量及安全感知和智能调度

教育资源个性化推送技术的研发

大数据压缩与混沌加密核心引擎的研制

• 互联网和云计算推动大数据技术发展,大数据日益体现出重要的信息价值,同时又对网络构成巨大的压力。

• 构成大数据的大部分数据实际上是非结构化数据。结构化数据可以通过传统数据库架构来处理,但对非结构化数据的调度和处理对底层网络提出了新的挑战。

大数据处理过程中的通信瓶颈

• Facebook连续阶段之间的数据传输占33%的总运行时间,在

很多情况下,通信阶段占总运行时间的50%以上。

• 由于传统的最短路径计算方案

导致链路资源利用率低,广域链路利用率较低。如:腾讯每年20

亿的运营商线路租用费用,但是链路利用率<30%。

数据流量的模型正在发生改变

Client – Server Architecture Service Oriented Architecture

Server Server

Server

Server

Server

Server

95% 25%

Client Client

数据流量的模型正在发生改变

A

D

C

B

DB

75%

A

D

C

B

DB

问题的实质 • 可见,驱动大数据发展和处理大数据的云计算技

术采取按需分配资源的架构,但支撑数据传输的传统互联网架构不支持网络拓扑结构和全网资源的动态调整,因此很难实现全网按需分配资源,因此造成了大数据的调度和处理的瓶颈,需要网络层具备按需动态分配资源的能力。

• 为了解决大数据的调度和处理的瓶颈,需要网络层具备按需动态分配资源的能力。

• SDN技术的发展为解决这个问题提供了可能。

A Service Oriented Model

Software Defined

Network

Applications / Services

Control Plane with

Networking Action

Service Oriented-

Virtual Network

End-Users

SDN-----业务独立于资源

SDN Controller

Configuration Analytics

Control

Virtualized

Server VM VM VM

Virtualized

Server VM VM VM IP fabric

(underlay network)

Juniper Qfabric/QFX/EX

or 3rd party underlay switches

Juniper MX

or 3rd party gateway routers

Tenant VMs

BGP

Federation

Horizontally

scalable

Highly available

Federated

BGP

Clustering

JunosV Contrail Controller

KVM Hypervisor +

JunosV Contrail Agent (L2 & L3)

REST

XMPP

SDN

CONTROLLER

Control

Orchestrator

XMPP BGP +

Netconf

JUNOSV CONTRAIL SDN CONTROLLER

ARCHITECTURE OVERVIEW

SDN实践-骨干网流量工程

骨干网流量工程APP

SDN控制器

90%

30% 30%

基于SDN网络质量及安全自动感知及智能调度

精确问题定位 自动质量感知

您体验不好/我能感觉到

等待

>90%

默默忍受

>70%

无法定位

100% 隐患消除

问题重复发生

体验持续受损

传统网络

SDN

手工问题定位:

数小时~数天

用户体验受损

而网络不知道

上网慢

云桌面反应慢

图像马赛克

语音听不清

通知管理员

问题精确位置

问题发生

网络质量及安全感知

从大量数据流中快速筛选出指定

特征数据包

算法:PPM概率预测、模式匹

利用GPU硬件对数据处理作并

行加速

掌握相关核心技术,就可以防范“棱镜门”窥探

采用双层虚拟网络架构

支撑层:由真实设备组成

业务层:由虚拟机及软件网络组成

全国高校第一届SDN比赛平台

云服务器、SDN设备、千兆交换机、联邦网关组成

云平台子层:生成、运行、控制各种虚拟机

SDN子层:构建软件定义网络

支撑层

云平台与SDN相连

每台云服务器有4块网卡多路连接

支撑层:SDN子层

全国高校第一届SDN比赛华为平台

• 1)统一网络平台:DC与园区交换机混合组网,统一的物理网络平台

• 2)编程环境和开放API:控制器提供eclips编程环境,拓扑获取及路径控制等丰富的restful北向编程API供用户使用

• 3)案例应用:控制器提供带有GUI的案例应用

第三方应用程序

带有约束条件的转发控制等……

北向Restful API

南向控制接口 BGP

拓扑获取 路径控制 SDN控制器

CORE

CE128

S127

CE58

CE58

Eclips编程环境

北向API QOS/ACL/GRE…

Netconf

CE58

S57

OF…

全国高校第一届SDN比赛H3C平台

GUI操作界面展示

副本动态调度策略 • 通过监控用户对数据的需求及相关参数对数据资源

进行动态规划和调整。使得用户可以就近访问云服

务的数据资源,从而减少对区域云跨地域节点间骨

干网络的带宽消耗,提高数据访问的效率。

• 基于时间局限性定义文件远程请求热度、文件平均

请求跨度的概念,使得跨地域节点请求较多的热点

数据能够动态的、快速的在区域云内扩散,

CDN+P2P资源调度

• 各分区采用CDN缓存,分区之间采用P2P调度

• 研发基于UDP的新P2P算法

1、全网安全事件采集 网络、安全设备日志、终端用户行为及iPCA

流量异常数据等

2、大数据关联分析 Campus Controller对海量数据进行关联分析,发现安全隐患

3、全网安全策略下发 Campus Controller下发调整后的安全策略至全网相关设备

4、安全资源动态分配 Campus Controller将全网的安全设备虚拟为资源池,并根据

区域、用户、安全事件动态分配安全资源

基于大数据分析的全网安全策略

大数据在智慧校园的若干应用

基于大数据的SDN

基于数据的网络质量及安全感知和智能调度

教育资源个性化推送技术的研发

大数据压缩与混沌加密核心引擎的研制

有效信息量与大数据计算

通过大数据的统计分析,估算有效信息量

不同的教育资源对不同学生:有效信息量不同

教育资源个性化推送技术

利用GPU进行大数据并行计算和匹配

引入“有效信息量”的概念

同一资源对于不同的人,有效信息量不同

“因材施教”:资源与大量学生之间的匹配

有效信息量与个性化教育

同样的教育,对不同的学生效果不同

每个学生特点不一样,需要因材施教

尝试大数据计算教育资源对每人的有效信息量

以英语学习为例

内容太难,一句都听不懂:有效信息量=0

内容太浅,全都是知道的:有效信息量=0

内容适中,学到新的知识:有效信息量>0

······

知识广度

知识深度

······分类聚类

难易度

需求

推送

匹配

教育资

学生用

学生用户和教育资源之间的关系

基于用户兴趣感知的个性化推送

• 浏览行为收集、量化

• 用户兴趣度评判

• 网页特征提取

• 网页资源匹配与推送

• 具体算法正在测试中

教育资源创作和个性化推送平台

资源孤岛

资源孤岛

教育资源云

资源整合 技术

个性化推送平台

资源 创作平台

资源库

资源特征

资源开发者

资源

资源特征

资源展示

教师 学生

用户特征

用户行为

用户特征挖掘 资源推送

用户行为

用户特征 资源特征 用户特征

有效资源特征

资源选择

有效资源

平台结构

基于大数据的学习行为设计

大数据:进行统计分析的基础

来源于校园中采集到的各种信息

与校园信息化水平密切相关

学习行为设计 快速将每个学生具体情况与大量

资源进行匹配

根据学习进度和成效,计算学生学习特征曲线

根据学习曲线,对学生进行预测评估

根据概率预测作动态教育资源调度

基于大数据分析的学习行为分析

建立资源自动整合和聚合的平台,建立符合个性化学习需求的建设模式,建设有效的个性化推送平台,建立面向第三方开发者开放的架构和平台,建立教育资源开发激励机制和模式,提高资源建设的持续性,