14
2012 年 8 月 愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档 本文介绍了英特尔对于在网络前端的传感器和设备所生成的 大数据进行分析的观点。讨论的主要内容包括: • 在网络前端生成的大数据的重要性,包括某些 “超级庞大” 的 数据 • 大数据与被传统数据管理或 BI 管理的数据的本质区别在哪里, 它为何至关重要 • 新兴技术纵览:包括 Apache Hadoop* 框架和 Apache* MapReduce 分布式框架等 • 四个关于政府、零售、汽车和制造行业的应用案例 — 两个 案例使用 Hadoop* 框架,另外两个案例注重智能系统数据

愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

  • Upload
    others

  • View
    54

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

2012 年 8 月

愿景文件

分布式数据挖掘与大数据英特尔对于网络前端设备的数据的观点

为什么应该阅读本文档

本文介绍了英特尔对于在网络前端的传感器和设备所生成的

大数据进行分析的观点讨论的主要内容包括

bull 在网络前端生成的大数据的重要性包括某些 ldquo超级庞大rdquo 的

数据

bull 大数据与被传统数据管理或 BI 管理的数据的本质区别在哪里

它为何至关重要

bull 新兴技术纵览包括 Apache Hadoop 框架和 Apache

MapReduce 分布式框架等

bull 四个关于政府零售汽车和制造行业的应用案例 mdash 两个

案例使用 Hadoop 框架另外两个案例注重智能系统数据

2012 年 8 月

愿景文件

分布式数据挖掘与大数据英特尔对于网络前端设备的数据的观点

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据2

目录 3

4

5

7

9

12

前端设备数据大数据的新机遇

大数据与新兴技术删节版

前端设备的大数据深入了解

有效利用智能系统和传感设备产生的数据

前端设备数据的应用案例

前端设备数据下一步发展

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据3

前端设备数据大数据的新机遇

大数据的爆炸式增长考验着包括最先进的分析工具的处理能

力IT 正在受到大量复杂的结构化半结构化和非结构化数

据在容量多样性和增长速度方面的挑战 mdash 同时这些数据

也为企业提供了为其业务获取更丰富更深入和更准确洞察

信息的大好机会

对于大多数企业来说能够有大量机会从大数据中获得令人

兴奋的全新价值都是很有吸引力的但是它们也面临着对大

数据进行管理并将之转换为洞察力的挑战这就要求其使用

一种新的对 IT 基础设施具有深远影响的方法来分析大数据

即使他们想使用传统的系统这类系统也无法经济高效地处

理面向大数据的全新动态数据源和多样的环境Hadoop 框

架等新兴技术则全面展示了捕获管理和分析大数据的全新

方法大数据挑战与新技术的结合带来了标志性的转变从

而推动企业重新审视他们的 IT 基础设施和分析能力

英特尔观点前端设备数据的重要性英特尔观点前端设备数据的重要性

英特尔认为要想进行大数据分析就必须在数据存在的位置

对其进行捕获和处理本文解释了为什么在网络前端设备生

成的大数据如此重要包括某些 ldquo超级庞大rdquo 的数据随着传

感器设备以及智能系统应用的持续扩展从来自这些源头

的大量数据中获取洞察力就成为了极具吸引力的新机遇可

以管理前端设备的大数据并挖掘其价值的企业就能够拥有更

为强大的能力从事前所未有的创新并解决之前无法解决的复

杂问题从而超越竞争对手

什么是大数据什么是大数据

对于大数据的描述通常使用以下的前三个特性 mdash 它们有时

衩称之为 ldquo3Vrdquo但是企业需要第四个 V(价值)来让大

数据真正发挥作用

bull 容量比传统存储和分析解决方案所管理的数据大几个

数量级的巨型数据集其以 PB 而不是 TB 为单位

bull 多样性以电子邮件社交媒体视频图像博客

传感器数据以及 ldquo影子数据rdquo(如访问日志和 Web 搜索历

史记录)等不同格式生成的异构复杂和多样化的数据

bull 生成速度数据是生成为一个可实时查询的连续数据流

可根据需求提供有用信息而不是批量生成

bull 价值能够从基于机器学习统计模型以及图算法的深入

复杂的数据分析中获取可对未来趋势和模式提供预测性

分析的重要洞察力这些预测性分析要胜过传统商业智

能查询和报告的结果

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据4

大数据与新兴技术删节版

大数据管理与数据管理或商业智能平台的传统关系型模式有

着本质上的区别而在描述这一区别时通常使用的措辞是

ldquo结构化对阵非结构化rdquo但这样的描述并不够精确例如

日志数据(一个不断增长的大数据源)就具有结构因此

用另一种方式来描述这一区别会更为合适即不同于基于

关系的数据大数据可以管理任意格式的数据而且不需要

首先花费时间和精力创建一个用于捕获处理和分析数据的

模式

一些新技术的出现使得大数据分析成为可能而且经济高效

Apache Hadoop 框架就正在发展为最佳的新方法通过充

分利用计算资源分布式网格的能力Hadoop 框架重新定义

了管理和分析数据的方式

Hadoop 开源框架使用一个简单的编程模型以支持在计算

机集群上对大数据集进行分布式处理其完整的技术堆栈包

含了通用实用程序一个分布式文件系统分析和数据存储

平台以及一个用于管理分布式处理并行计算工作流程与

配置管理的应用层除了提供高可用性外Hadoop 框架还

能比传统方法更为经济高效地处理大型的复杂的或非结构

化的数据集可带来出色的可扩展性与速度

MapReduce 是 Hadoop 堆栈中的软件编程框架能够简化

大型数据集的处理工作并为编程人员在计算机集群中定义

和协调复杂的处理任务提供了一种通用方法MapReduce

应用通过安排任务监控活动和重新执行失败的任务来协

调集群节点的处理任务输入和输出信息均存储在 Hadoop

分布式文件系统(Hadoop Distributed File System简称

HDFS)中这一系统通常在相同的节点上处理和存储数据

从而能够更高效地在数据驻留的节点上安排任务并在节点

间实现更高的聚合带宽有关 Hadoop 框架和 MapReduce

的更多详细信息请访问intelcnbigdata

分布式框架Apache Hadoop 框架和 MapReduce分布式框架Apache Hadoop 框架和 MapReduce

应用 基于关系的数据 大数据

数据处理 可通过更出色的 CPU 进行扩展的单一

计算机平台集中式处理

可扩展至数千节点的集群平台分布式处理

数据管理 关系型数据库(SQL)集中式存储 可管理多种数据类型和格式的非关系型数据

库(NoSQL 和 HBase 数据库)分布式

存储

分析 批量描述中央 实时预测性和直观分布式分析

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据5

前端设备的大数据深入了解

目前大部分对于大数据分析的讨论都注重的是管理和分析企

业和社会资源如电子邮件视频推特Facebook 帖子

评论以及 Web 行为中的非结构化数据虽然这种类型的大数

据分析可以为企业提供重要价值但是在网络前端设备那

些从传感器和其他设备生成的数据则展示了另一个巨大的

未开发的资源其可提供能够转化为公共和私营机构运营与

战略计划的洞察力

前端设备数据是一些拥有最大容量最快流动速度和或最复

杂特性的大数据其数据源散布于整个网络之上其数据信

息是通过各种设备如电表交通和安全摄像头RFID 阅读

器工厂生产线上的传感器健身器械以及医疗设备采集而

来无处不在的连接以及传感器和智能系统的发展开启了这

样一个重要信息的全新仓库与过去相比前端设备数据可

作为拥有巨大潜力的资源能够更快更加经济高效地提供

更深入和更丰富的洞察力从而为公共和私营机构带来重要

价值在许多情形中前端设备数据分析能够帮助企业响应

事件并解决之前无法解决的问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据6

作为前端设备数据大小和范围的示例让我们来看一下来自

波音 喷气式飞机引擎的机器生成型数据其每个引擎每小时

可生成 20TB 传感器数据因此拥有四个引擎的大型喷气式

飞机在飞越大西洋上空时会快速生成 640TB 的数据每天都

有超过 25000 次商业航班运行在美国上空其每一天产生

的传感器数据都可以 EB 来计量1

人类也会生成传感数据麻省理工大学媒体实验室认知机器

小组负责人 Deb Roy 自从儿子出生后就对自己家庭中的活

动和声音进行了为期三年的追踪通过对 90000 多小时视

频和 140000 小时音频的分析他绘制出了他的儿子形成表

达能力的图谱从而为人类如何成长和学习提供了重要洞察

信息2

1 Rogers Shawn ldquoBig Data Is Scaling BI and Analyticsrdquo Information Management(2011 年 9 月 1 日)

information-managementcomissues21_5big-data-is-scaling-bi-and-analytics-10021093-1htmlzkPrintable=true

2 Roy Deb ldquoThe Birth of a Wordrdquo TED talk(2011 年 3 月)tedcomtalksdeb_roy_the_birth_of_a_wordhtml

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据7

显然位于前端设备的大数据的范围极其庞大预计 2015

年时联网设备的数量将达到 150 亿 3从前端设备生成的数

据在容量多样性和增长速度上也将持续增加企业如何管

理和利用这一高速发展的数据流呢

有效利用智能系统和传感设备产生的数据

利用传感数据和电网基础设施利用传感数据和电网基础设施

位于前端设备的大数据是由物理对象中的嵌入式传感器和

致动器生成并通过连接它们的有线或无线网络(通常使

用连接至互联网的同一协议)传输的这一捕获和传输数

据的流程通常被称之为 ldquo物联网rdquo(lnternet of Things简

称为 IoT)

物联网是传感数据的主要来源大量的传感数据通过网络流

向本地计算机或云计算环境来进行分析并生成信息供致

动器在物理环境中实现控制通过使用 MapReduce这些

数据将在网络前端设备其所驻留的位置被捕获和处理然后

将被发送至任何一个需要它的位置如果使用了致动器结

果将提供即时反馈使得设备能够修改自身的活动此外

这些数据还可被聚合并转发以进行更多分析

物联网 (loT) 概述物联网 (loT) 概述

bull 传感设备 bull 智能处理与控制 bull 通信互联

3 ldquoGlobal Internet Traffic Projected to Quadruple by 2015rdquo The Network(新闻稿)(2011 年 6 月 1 日)

httpnewsroomciscocompress-release-contenttype=webcontentamparticleId=324003

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据8

技术含义技术含义

如要在数据驻留的位置对其进行分析计算和存储功能必

须实现 ldquo本地化rdquo置于前端设备并在云中这种本地化的

基础设施必须解决数据特性及相关问题所带来的一系列独

特挑战

bull 传感数据量庞大且还在 24-7 全天候地产生和传输

bull 这些数据杂乱无章需要进行预处理

bull 这些数据具有极强的本地特性也就是说设备需要在本地

运行和使用

bull 数据所有权互操作性安全和隐私性都是大问题

如何将其转化为真实案例此处介绍了一个交通和公共安

全方面的实例

bull 道路上的传感器可能属于不同的部门

bull 某些摄像头为公共安全部门所有而另外一些则属于公共

交通部门

bull 数据则由私家车辆上生成

问题可以将这些来自多个系统的数据进行集成和分析

以生成重要的洞察信息吗谁拥有这些由私家车辆生成的

数据这些数据又够安全吗

这些问题值得去解决多个数据流能够显示内联关系这

在整体上具有重要意义近期对中国某个城市的调查显示

如果你可以从供水子系统检测到人们早晨的洗漱时间那

么你就可以推断出早高峰时间同样的如果你可以检测

到办公室晚间断电时间那么你可以推断出晚高峰时间

了解这些关系可以帮助城市更好地管理高峰时段的交通

并在人们最需要水电资源时提高它们的利用率

对于在前端设备生成的数百 PB 数据将其迁移至集中式的

云环境成本高昂而且效率低下此外集中式的云还面

临着为前端设备提供实时信息的挑战回到我们的道路传

感器实例前端等不及集中式的云来判定是否有汽车闯了

红灯

即时性您需要多快速获得洞察力即时性您需要多快速获得洞察力

所有洞察信息都需要实时提供以供企业从数据中挖掘价

值吗事实上并非所有应用场景都需要实时的分析前

端设备应用可能需要即时反馈以调整设备而基于数据

整合获取洞察力的速度也许并不需要这么快近乎实时

近线(定期批量处理)甚至是批量处理都已足够及时

目前新兴市场中的企业更喜欢实施 Hadoop 框架来处理

基于关系的数据和非结构化数据而在欧洲和美国等更为

成熟的市场传统数据管理系统已经就位它们更喜欢通

过批量处理和近线分析进入大数据分析领域最终一些

公司(甚至是大型互联网公司)将演进为综合使用实时

近乎实时近线和批量处理的方式来应对大数据应用需求

智能联网系统智能联网系统

IDC 将智能系统描述为配备高性能微处理器网络连接能

力和高级操作系统的系统嵌入式处理器不再执行独立的

固定功能而是要将计算性能和集成性融入到支持智能系

统的设备中这些智能系统可结合基于云的应用和分析功

能能够从前端设备数据中获取价值并实现物联网

资料来源ldquoIntelligent Systems Transforming the

Embedded Industry According to IDCrdquo IDC(新闻稿)

(2011 年 9 月 9 日)

idccomgetdocjspcontainerId=prUS23026311

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据9

前端设备数据的应用案例

现在已经有技术能帮助企业构建 ldquo可支持面向大数据的分布式

框架和前端设备数据本地要求的rdquo 架构高性能处理器万兆

位以太网(10GbE)解决方案以及经济的存储选件可以支持

运行 Hadoop 堆栈的集群从独立嵌入式系统到智能互联系

统的演进继续保持强劲发展势头云和大数据分析平台的发

展亦是如此了解前端设备数据使用案例将进一步推动客户

需求标准架构以及可对这些应用情形进行分析的端到端互

操作解决方案的发展这些技术在大多数行业都能够为企业

带来价值以下介绍了来自其中四个行业 mdash 政府零售汽

车和制造业的使用案例

面向大数据的英特尔科学与技术中心 面向大数据的英特尔科学与技术中心 (ISTC)(ISTC)

坐落于麻省理工大学计算机科学与人工智能实验室的最新英

特尔科学与技术中心(ISTC)正在致力于大数据的研究

重点探寻加快大数据创新步伐的方法涉及政府金融服务

医疗卫生与生命科学制造以及零售等多个领域研究以麻

省理工大学为中心其合作方还包括了来自加州大学圣塔芭

芭拉分校波特兰州立大学华盛顿大学和斯坦福大学的教

职员工

智慧城市提升城市的性能智慧城市提升城市的性能

ldquo智慧城市rdquo 这一概念描述了如何使用智能电网基础设施(物

理资本信息和通信技术)提升环境可持续性管理能源

消耗更好地协调公共资源保障城市居民的生活质量以

及规划可持续性增长

英特尔公司目前正在美国欧洲和中国开展智慧城市创新项

目这些项目正在探索如何用处于前端设备的智能系统来改

进城市的环境管理例如公共事业企业和政府正在使用来

自智能电网中的数据了解发电分发和消耗之间的复杂关系

旨在提供可靠的能源并降低运营成本同时消费者也可以

使用来自智能电网的数据更好地管理他们的个人能源需求

例如设定一个 ldquo不在家rdquo 状态可以关上所有灯关闭不使用

的电器以及调节温度

通过在整个电网中实现智能电网设备和计算节点将开启测

量分析和预测功能它们所做出的优化决定更接近于前端

设备而不是仅限于一个集中式的控制中心里设备间的通

信可帮助确定需要在何时及何处生产多少能源也能让消费

者使用家庭管理工具来监控和调整能源消耗

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据10

零售联网商店零售联网商店

如果零售商能够像 Amazoncom 那样了解自己的客户会怎

样传统的商品销售系统可以通过商店行政区地区时

间和商品类别采集销售点数据并将其汇总但在连接至特定

客户时会丢失详细交易可以提供的洞察信息此外数据的

大小详细信息的级别或者成本都可能使零售商在数月内无

法存储库存单位(SKU)的详情Hadoop 框架改变了这一

经济状况它从根本上降低了数据存储的成本并增加了它的

灵活性以获取新的洞察信息规划库存以及更为精确地向

个体消费者而不是群体消费者进行推广

零售商们正在使用各种智能联网系统收集数据和提供即时的

反馈来帮助自身吸引顾客这些系统包括

bull 数字标牌它可以衡量广告效果针对特定受众调整信息

以及提供高度个性化的信息

bull 交易及销售点系统它可以提供产品上市信息建议的优

惠采购机会以及推动追加销售

bull 智能售货机它通过交互式显示屏视频分析数字标牌

吸引路人并通过非现金展示系统分发用于获取新产品创

意反馈意见的样品销售新鲜食品和珠宝的高端配饰

bull 交互式信息亭它是沟通在线与实体商店环境的一个桥

梁可在线或在实体店面中通过购物者特征或其过往的采

购数据针对消费者感兴趣的物口提供建议或指引

bull 数字安全监控它可预防盗窃定位迷路的儿童并收集消费

群体的信息如商店中主要区域的流量以帮助销售产品

从这些系统生成的数据中获取洞察力可助力打造以客户为中

心的 ldquo联网商店rdquo并提供将在线与实体商店运营交织在一起

的 ldquoon-storerdquo 环境为购物者提供在情绪上令其满意的体

验同时优化运营客户可以更快地在多个渠道从其信任的

零售商处找到他们所需的商品并尽享购买流程的每一个阶

段零售商可以将他们的供应链活动与实际的购买者行为相

结合并将所有接触点与特定客户相连接提供出众的购物

体验此外他们还可以为客户提供更多的机会通过更为

丰富的形式客户了解他们的品牌从而加强客户的忠诚度

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据11

汽车行驶中的联网智能汽车行驶中的联网智能

在汽车行业中IT 与消费者体验的融合正在以智能车载系统

的形式快速增长这些系统在汽车与联网设备间(包括消费

电子产品移动设备和传感器)实现了无缝连接正在改变

车内体验除了孩子们喜欢的流视频以外这些系统可以对

多种数据源进行整合和分析提供即时洞察信息 mdash 例如

可以将位置数据与道路施工及其他交通信息相结合来帮助

上班族避开交通阻塞或者选择更为快捷的路线相关的其他

大数据应用可用于帮助

bull 内置摄像头使用了面部识别软件可用于监控驾驶员的精

神状态防止疲劳驾驶系统可以驾驶员读取表情并自动

发布声音警报进行安全停车并根据需要联系紧急服务

bull 驾驶员和乘客的朋友在附近时可通过提供通知提醒其与

朋友联系

bull 提醒驾驶员注意前方的标牌盲点障碍物和道路情况

bull 主动监控汽车运行状况提前预警潜在故障

bull 提供有价值的新型汽车服务和应用改善客户关系管理和

车辆关系管理

bull 使用智能手机遥控解锁汽车或者发出损害或碰撞告警

bull 检测各个方向上的实时交通流量并自动改变交通信号灯

以优化路况

bull 在交通基础设施内通过自动智能实时的决策优化出行

让汽车能够连接道路安全系统和其他车辆

制造智能工厂制造智能工厂

信息技术和操作技术正在以前所未有的方式融入智能工厂

如今大部分工厂都已高度自动化它们专为特定的生产流程

而设计工厂车间里的设备和控制层还无法与业务和帮助公

司运营的数据网络交换信息

而智能工厂可以连接管理层车间和供应链以实现更高级

别的生产控制和效率车间设备中的传感器和致动器(如摄

像头机器人设备和运动控制设备)可生成和使用数据以

提供实时诊断和主动维护进而提升了流程的可视化并增加

了工厂正常运行时间和灵活性

特定使用情形包括

bull 在车间内进行通信并与企业 IT 系统之间实现通信来更

加高效地在工厂资源员工和供应商间进行协调

bull 检测故障情形实现更快的响应速度

bull 实现更出色的环境感知车间的无缝多区域保护本机监

控控制与数据采集(SCADA)支持以及远程设备管理

bull 让机器人可大幅提高生产效率和安全性

bull 监控生产线活动发现产品质量问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据12

前端设备数据下一步发展

大数据将改变企业运营方式而且它已就绪虽然当前大数

据的大部分要素都与社交网络资源有关但是英特尔相信实

现大数据分析必须包括一种可以在网络前端设备利用大数据

潜力的方式

英特尔认为以下的发展趋势对于希望利用前端设备数据源的

企业非常重要

bull 了解使用案例及其含义我们必须了解现有独立数据源如何

演进为一个集成智能和互联系统网络

bull 定义前端设备数据分析的应用模式要求在架构上必须使用

大数据分布式框架将计算迁移至距离数据驻留点更近的位置

并通过智能系统和本地云环境支持前端设备大数据分析

bull 将聚合的数据快速安全地由前端设备分析系统传输至其他

云和分析平台以进行进一步分析

bull 解决与数据所有权互操作性安全性和隐私相关的问题

人们对前端设备数据的兴趣正日益增长而且企业也更好地

了解了如何使用前端设备数据英特尔正处于这一新兴课题

的最前沿并已经在云计算和大数据分析方面处于领先地位

作为开放数据中心联盟(ODCA)(一个由全球 300 多家公

司的 IT 决策者组成的独立 IT 组织)的技术顾问英特尔将在

其新成立的数据服务工作组中发挥主要作用帮助其制定应

用模式要求以支持大数据的安全收集管理和分析推动

Hadoop 框架的性能基准测试的发展以及制定互操作性标

准使大数据框架实现云就绪

此外英特尔不仅能够提供用于智能系统的技术而且其提

供的平台还具备性能出色延迟低吞吐量高的优势能够

处理大型数据集并将其转化为深入的洞察信息

英特尔的技术指南和愿景将能够让大数据为您所用

启动前端设备数据管理和分析启动前端设备数据管理和分析

让您的企业得益于这一高速发展的机遇由此开始做好充分

的准备

bull 保持与时俱进英特尔提供了实践指南来帮助您更快

更安全地部署大数据环境如欲了解更多信息请访问

intelcnbigdata

bull 通过分析前端设备数据发掘商机与业务部门合作了解

现有前端设备系统以及对数据的潜在使用如欲了解更多

信息请访问 intelcomintelligentsystems

如欲了解前端设备数据和大数据分析的更多信息请访问 IT 中心

intelcnbigdata

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001

Page 2: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

2012 年 8 月

愿景文件

分布式数据挖掘与大数据英特尔对于网络前端设备的数据的观点

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据2

目录 3

4

5

7

9

12

前端设备数据大数据的新机遇

大数据与新兴技术删节版

前端设备的大数据深入了解

有效利用智能系统和传感设备产生的数据

前端设备数据的应用案例

前端设备数据下一步发展

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据3

前端设备数据大数据的新机遇

大数据的爆炸式增长考验着包括最先进的分析工具的处理能

力IT 正在受到大量复杂的结构化半结构化和非结构化数

据在容量多样性和增长速度方面的挑战 mdash 同时这些数据

也为企业提供了为其业务获取更丰富更深入和更准确洞察

信息的大好机会

对于大多数企业来说能够有大量机会从大数据中获得令人

兴奋的全新价值都是很有吸引力的但是它们也面临着对大

数据进行管理并将之转换为洞察力的挑战这就要求其使用

一种新的对 IT 基础设施具有深远影响的方法来分析大数据

即使他们想使用传统的系统这类系统也无法经济高效地处

理面向大数据的全新动态数据源和多样的环境Hadoop 框

架等新兴技术则全面展示了捕获管理和分析大数据的全新

方法大数据挑战与新技术的结合带来了标志性的转变从

而推动企业重新审视他们的 IT 基础设施和分析能力

英特尔观点前端设备数据的重要性英特尔观点前端设备数据的重要性

英特尔认为要想进行大数据分析就必须在数据存在的位置

对其进行捕获和处理本文解释了为什么在网络前端设备生

成的大数据如此重要包括某些 ldquo超级庞大rdquo 的数据随着传

感器设备以及智能系统应用的持续扩展从来自这些源头

的大量数据中获取洞察力就成为了极具吸引力的新机遇可

以管理前端设备的大数据并挖掘其价值的企业就能够拥有更

为强大的能力从事前所未有的创新并解决之前无法解决的复

杂问题从而超越竞争对手

什么是大数据什么是大数据

对于大数据的描述通常使用以下的前三个特性 mdash 它们有时

衩称之为 ldquo3Vrdquo但是企业需要第四个 V(价值)来让大

数据真正发挥作用

bull 容量比传统存储和分析解决方案所管理的数据大几个

数量级的巨型数据集其以 PB 而不是 TB 为单位

bull 多样性以电子邮件社交媒体视频图像博客

传感器数据以及 ldquo影子数据rdquo(如访问日志和 Web 搜索历

史记录)等不同格式生成的异构复杂和多样化的数据

bull 生成速度数据是生成为一个可实时查询的连续数据流

可根据需求提供有用信息而不是批量生成

bull 价值能够从基于机器学习统计模型以及图算法的深入

复杂的数据分析中获取可对未来趋势和模式提供预测性

分析的重要洞察力这些预测性分析要胜过传统商业智

能查询和报告的结果

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据4

大数据与新兴技术删节版

大数据管理与数据管理或商业智能平台的传统关系型模式有

着本质上的区别而在描述这一区别时通常使用的措辞是

ldquo结构化对阵非结构化rdquo但这样的描述并不够精确例如

日志数据(一个不断增长的大数据源)就具有结构因此

用另一种方式来描述这一区别会更为合适即不同于基于

关系的数据大数据可以管理任意格式的数据而且不需要

首先花费时间和精力创建一个用于捕获处理和分析数据的

模式

一些新技术的出现使得大数据分析成为可能而且经济高效

Apache Hadoop 框架就正在发展为最佳的新方法通过充

分利用计算资源分布式网格的能力Hadoop 框架重新定义

了管理和分析数据的方式

Hadoop 开源框架使用一个简单的编程模型以支持在计算

机集群上对大数据集进行分布式处理其完整的技术堆栈包

含了通用实用程序一个分布式文件系统分析和数据存储

平台以及一个用于管理分布式处理并行计算工作流程与

配置管理的应用层除了提供高可用性外Hadoop 框架还

能比传统方法更为经济高效地处理大型的复杂的或非结构

化的数据集可带来出色的可扩展性与速度

MapReduce 是 Hadoop 堆栈中的软件编程框架能够简化

大型数据集的处理工作并为编程人员在计算机集群中定义

和协调复杂的处理任务提供了一种通用方法MapReduce

应用通过安排任务监控活动和重新执行失败的任务来协

调集群节点的处理任务输入和输出信息均存储在 Hadoop

分布式文件系统(Hadoop Distributed File System简称

HDFS)中这一系统通常在相同的节点上处理和存储数据

从而能够更高效地在数据驻留的节点上安排任务并在节点

间实现更高的聚合带宽有关 Hadoop 框架和 MapReduce

的更多详细信息请访问intelcnbigdata

分布式框架Apache Hadoop 框架和 MapReduce分布式框架Apache Hadoop 框架和 MapReduce

应用 基于关系的数据 大数据

数据处理 可通过更出色的 CPU 进行扩展的单一

计算机平台集中式处理

可扩展至数千节点的集群平台分布式处理

数据管理 关系型数据库(SQL)集中式存储 可管理多种数据类型和格式的非关系型数据

库(NoSQL 和 HBase 数据库)分布式

存储

分析 批量描述中央 实时预测性和直观分布式分析

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据5

前端设备的大数据深入了解

目前大部分对于大数据分析的讨论都注重的是管理和分析企

业和社会资源如电子邮件视频推特Facebook 帖子

评论以及 Web 行为中的非结构化数据虽然这种类型的大数

据分析可以为企业提供重要价值但是在网络前端设备那

些从传感器和其他设备生成的数据则展示了另一个巨大的

未开发的资源其可提供能够转化为公共和私营机构运营与

战略计划的洞察力

前端设备数据是一些拥有最大容量最快流动速度和或最复

杂特性的大数据其数据源散布于整个网络之上其数据信

息是通过各种设备如电表交通和安全摄像头RFID 阅读

器工厂生产线上的传感器健身器械以及医疗设备采集而

来无处不在的连接以及传感器和智能系统的发展开启了这

样一个重要信息的全新仓库与过去相比前端设备数据可

作为拥有巨大潜力的资源能够更快更加经济高效地提供

更深入和更丰富的洞察力从而为公共和私营机构带来重要

价值在许多情形中前端设备数据分析能够帮助企业响应

事件并解决之前无法解决的问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据6

作为前端设备数据大小和范围的示例让我们来看一下来自

波音 喷气式飞机引擎的机器生成型数据其每个引擎每小时

可生成 20TB 传感器数据因此拥有四个引擎的大型喷气式

飞机在飞越大西洋上空时会快速生成 640TB 的数据每天都

有超过 25000 次商业航班运行在美国上空其每一天产生

的传感器数据都可以 EB 来计量1

人类也会生成传感数据麻省理工大学媒体实验室认知机器

小组负责人 Deb Roy 自从儿子出生后就对自己家庭中的活

动和声音进行了为期三年的追踪通过对 90000 多小时视

频和 140000 小时音频的分析他绘制出了他的儿子形成表

达能力的图谱从而为人类如何成长和学习提供了重要洞察

信息2

1 Rogers Shawn ldquoBig Data Is Scaling BI and Analyticsrdquo Information Management(2011 年 9 月 1 日)

information-managementcomissues21_5big-data-is-scaling-bi-and-analytics-10021093-1htmlzkPrintable=true

2 Roy Deb ldquoThe Birth of a Wordrdquo TED talk(2011 年 3 月)tedcomtalksdeb_roy_the_birth_of_a_wordhtml

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据7

显然位于前端设备的大数据的范围极其庞大预计 2015

年时联网设备的数量将达到 150 亿 3从前端设备生成的数

据在容量多样性和增长速度上也将持续增加企业如何管

理和利用这一高速发展的数据流呢

有效利用智能系统和传感设备产生的数据

利用传感数据和电网基础设施利用传感数据和电网基础设施

位于前端设备的大数据是由物理对象中的嵌入式传感器和

致动器生成并通过连接它们的有线或无线网络(通常使

用连接至互联网的同一协议)传输的这一捕获和传输数

据的流程通常被称之为 ldquo物联网rdquo(lnternet of Things简

称为 IoT)

物联网是传感数据的主要来源大量的传感数据通过网络流

向本地计算机或云计算环境来进行分析并生成信息供致

动器在物理环境中实现控制通过使用 MapReduce这些

数据将在网络前端设备其所驻留的位置被捕获和处理然后

将被发送至任何一个需要它的位置如果使用了致动器结

果将提供即时反馈使得设备能够修改自身的活动此外

这些数据还可被聚合并转发以进行更多分析

物联网 (loT) 概述物联网 (loT) 概述

bull 传感设备 bull 智能处理与控制 bull 通信互联

3 ldquoGlobal Internet Traffic Projected to Quadruple by 2015rdquo The Network(新闻稿)(2011 年 6 月 1 日)

httpnewsroomciscocompress-release-contenttype=webcontentamparticleId=324003

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据8

技术含义技术含义

如要在数据驻留的位置对其进行分析计算和存储功能必

须实现 ldquo本地化rdquo置于前端设备并在云中这种本地化的

基础设施必须解决数据特性及相关问题所带来的一系列独

特挑战

bull 传感数据量庞大且还在 24-7 全天候地产生和传输

bull 这些数据杂乱无章需要进行预处理

bull 这些数据具有极强的本地特性也就是说设备需要在本地

运行和使用

bull 数据所有权互操作性安全和隐私性都是大问题

如何将其转化为真实案例此处介绍了一个交通和公共安

全方面的实例

bull 道路上的传感器可能属于不同的部门

bull 某些摄像头为公共安全部门所有而另外一些则属于公共

交通部门

bull 数据则由私家车辆上生成

问题可以将这些来自多个系统的数据进行集成和分析

以生成重要的洞察信息吗谁拥有这些由私家车辆生成的

数据这些数据又够安全吗

这些问题值得去解决多个数据流能够显示内联关系这

在整体上具有重要意义近期对中国某个城市的调查显示

如果你可以从供水子系统检测到人们早晨的洗漱时间那

么你就可以推断出早高峰时间同样的如果你可以检测

到办公室晚间断电时间那么你可以推断出晚高峰时间

了解这些关系可以帮助城市更好地管理高峰时段的交通

并在人们最需要水电资源时提高它们的利用率

对于在前端设备生成的数百 PB 数据将其迁移至集中式的

云环境成本高昂而且效率低下此外集中式的云还面

临着为前端设备提供实时信息的挑战回到我们的道路传

感器实例前端等不及集中式的云来判定是否有汽车闯了

红灯

即时性您需要多快速获得洞察力即时性您需要多快速获得洞察力

所有洞察信息都需要实时提供以供企业从数据中挖掘价

值吗事实上并非所有应用场景都需要实时的分析前

端设备应用可能需要即时反馈以调整设备而基于数据

整合获取洞察力的速度也许并不需要这么快近乎实时

近线(定期批量处理)甚至是批量处理都已足够及时

目前新兴市场中的企业更喜欢实施 Hadoop 框架来处理

基于关系的数据和非结构化数据而在欧洲和美国等更为

成熟的市场传统数据管理系统已经就位它们更喜欢通

过批量处理和近线分析进入大数据分析领域最终一些

公司(甚至是大型互联网公司)将演进为综合使用实时

近乎实时近线和批量处理的方式来应对大数据应用需求

智能联网系统智能联网系统

IDC 将智能系统描述为配备高性能微处理器网络连接能

力和高级操作系统的系统嵌入式处理器不再执行独立的

固定功能而是要将计算性能和集成性融入到支持智能系

统的设备中这些智能系统可结合基于云的应用和分析功

能能够从前端设备数据中获取价值并实现物联网

资料来源ldquoIntelligent Systems Transforming the

Embedded Industry According to IDCrdquo IDC(新闻稿)

(2011 年 9 月 9 日)

idccomgetdocjspcontainerId=prUS23026311

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据9

前端设备数据的应用案例

现在已经有技术能帮助企业构建 ldquo可支持面向大数据的分布式

框架和前端设备数据本地要求的rdquo 架构高性能处理器万兆

位以太网(10GbE)解决方案以及经济的存储选件可以支持

运行 Hadoop 堆栈的集群从独立嵌入式系统到智能互联系

统的演进继续保持强劲发展势头云和大数据分析平台的发

展亦是如此了解前端设备数据使用案例将进一步推动客户

需求标准架构以及可对这些应用情形进行分析的端到端互

操作解决方案的发展这些技术在大多数行业都能够为企业

带来价值以下介绍了来自其中四个行业 mdash 政府零售汽

车和制造业的使用案例

面向大数据的英特尔科学与技术中心 面向大数据的英特尔科学与技术中心 (ISTC)(ISTC)

坐落于麻省理工大学计算机科学与人工智能实验室的最新英

特尔科学与技术中心(ISTC)正在致力于大数据的研究

重点探寻加快大数据创新步伐的方法涉及政府金融服务

医疗卫生与生命科学制造以及零售等多个领域研究以麻

省理工大学为中心其合作方还包括了来自加州大学圣塔芭

芭拉分校波特兰州立大学华盛顿大学和斯坦福大学的教

职员工

智慧城市提升城市的性能智慧城市提升城市的性能

ldquo智慧城市rdquo 这一概念描述了如何使用智能电网基础设施(物

理资本信息和通信技术)提升环境可持续性管理能源

消耗更好地协调公共资源保障城市居民的生活质量以

及规划可持续性增长

英特尔公司目前正在美国欧洲和中国开展智慧城市创新项

目这些项目正在探索如何用处于前端设备的智能系统来改

进城市的环境管理例如公共事业企业和政府正在使用来

自智能电网中的数据了解发电分发和消耗之间的复杂关系

旨在提供可靠的能源并降低运营成本同时消费者也可以

使用来自智能电网的数据更好地管理他们的个人能源需求

例如设定一个 ldquo不在家rdquo 状态可以关上所有灯关闭不使用

的电器以及调节温度

通过在整个电网中实现智能电网设备和计算节点将开启测

量分析和预测功能它们所做出的优化决定更接近于前端

设备而不是仅限于一个集中式的控制中心里设备间的通

信可帮助确定需要在何时及何处生产多少能源也能让消费

者使用家庭管理工具来监控和调整能源消耗

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据10

零售联网商店零售联网商店

如果零售商能够像 Amazoncom 那样了解自己的客户会怎

样传统的商品销售系统可以通过商店行政区地区时

间和商品类别采集销售点数据并将其汇总但在连接至特定

客户时会丢失详细交易可以提供的洞察信息此外数据的

大小详细信息的级别或者成本都可能使零售商在数月内无

法存储库存单位(SKU)的详情Hadoop 框架改变了这一

经济状况它从根本上降低了数据存储的成本并增加了它的

灵活性以获取新的洞察信息规划库存以及更为精确地向

个体消费者而不是群体消费者进行推广

零售商们正在使用各种智能联网系统收集数据和提供即时的

反馈来帮助自身吸引顾客这些系统包括

bull 数字标牌它可以衡量广告效果针对特定受众调整信息

以及提供高度个性化的信息

bull 交易及销售点系统它可以提供产品上市信息建议的优

惠采购机会以及推动追加销售

bull 智能售货机它通过交互式显示屏视频分析数字标牌

吸引路人并通过非现金展示系统分发用于获取新产品创

意反馈意见的样品销售新鲜食品和珠宝的高端配饰

bull 交互式信息亭它是沟通在线与实体商店环境的一个桥

梁可在线或在实体店面中通过购物者特征或其过往的采

购数据针对消费者感兴趣的物口提供建议或指引

bull 数字安全监控它可预防盗窃定位迷路的儿童并收集消费

群体的信息如商店中主要区域的流量以帮助销售产品

从这些系统生成的数据中获取洞察力可助力打造以客户为中

心的 ldquo联网商店rdquo并提供将在线与实体商店运营交织在一起

的 ldquoon-storerdquo 环境为购物者提供在情绪上令其满意的体

验同时优化运营客户可以更快地在多个渠道从其信任的

零售商处找到他们所需的商品并尽享购买流程的每一个阶

段零售商可以将他们的供应链活动与实际的购买者行为相

结合并将所有接触点与特定客户相连接提供出众的购物

体验此外他们还可以为客户提供更多的机会通过更为

丰富的形式客户了解他们的品牌从而加强客户的忠诚度

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据11

汽车行驶中的联网智能汽车行驶中的联网智能

在汽车行业中IT 与消费者体验的融合正在以智能车载系统

的形式快速增长这些系统在汽车与联网设备间(包括消费

电子产品移动设备和传感器)实现了无缝连接正在改变

车内体验除了孩子们喜欢的流视频以外这些系统可以对

多种数据源进行整合和分析提供即时洞察信息 mdash 例如

可以将位置数据与道路施工及其他交通信息相结合来帮助

上班族避开交通阻塞或者选择更为快捷的路线相关的其他

大数据应用可用于帮助

bull 内置摄像头使用了面部识别软件可用于监控驾驶员的精

神状态防止疲劳驾驶系统可以驾驶员读取表情并自动

发布声音警报进行安全停车并根据需要联系紧急服务

bull 驾驶员和乘客的朋友在附近时可通过提供通知提醒其与

朋友联系

bull 提醒驾驶员注意前方的标牌盲点障碍物和道路情况

bull 主动监控汽车运行状况提前预警潜在故障

bull 提供有价值的新型汽车服务和应用改善客户关系管理和

车辆关系管理

bull 使用智能手机遥控解锁汽车或者发出损害或碰撞告警

bull 检测各个方向上的实时交通流量并自动改变交通信号灯

以优化路况

bull 在交通基础设施内通过自动智能实时的决策优化出行

让汽车能够连接道路安全系统和其他车辆

制造智能工厂制造智能工厂

信息技术和操作技术正在以前所未有的方式融入智能工厂

如今大部分工厂都已高度自动化它们专为特定的生产流程

而设计工厂车间里的设备和控制层还无法与业务和帮助公

司运营的数据网络交换信息

而智能工厂可以连接管理层车间和供应链以实现更高级

别的生产控制和效率车间设备中的传感器和致动器(如摄

像头机器人设备和运动控制设备)可生成和使用数据以

提供实时诊断和主动维护进而提升了流程的可视化并增加

了工厂正常运行时间和灵活性

特定使用情形包括

bull 在车间内进行通信并与企业 IT 系统之间实现通信来更

加高效地在工厂资源员工和供应商间进行协调

bull 检测故障情形实现更快的响应速度

bull 实现更出色的环境感知车间的无缝多区域保护本机监

控控制与数据采集(SCADA)支持以及远程设备管理

bull 让机器人可大幅提高生产效率和安全性

bull 监控生产线活动发现产品质量问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据12

前端设备数据下一步发展

大数据将改变企业运营方式而且它已就绪虽然当前大数

据的大部分要素都与社交网络资源有关但是英特尔相信实

现大数据分析必须包括一种可以在网络前端设备利用大数据

潜力的方式

英特尔认为以下的发展趋势对于希望利用前端设备数据源的

企业非常重要

bull 了解使用案例及其含义我们必须了解现有独立数据源如何

演进为一个集成智能和互联系统网络

bull 定义前端设备数据分析的应用模式要求在架构上必须使用

大数据分布式框架将计算迁移至距离数据驻留点更近的位置

并通过智能系统和本地云环境支持前端设备大数据分析

bull 将聚合的数据快速安全地由前端设备分析系统传输至其他

云和分析平台以进行进一步分析

bull 解决与数据所有权互操作性安全性和隐私相关的问题

人们对前端设备数据的兴趣正日益增长而且企业也更好地

了解了如何使用前端设备数据英特尔正处于这一新兴课题

的最前沿并已经在云计算和大数据分析方面处于领先地位

作为开放数据中心联盟(ODCA)(一个由全球 300 多家公

司的 IT 决策者组成的独立 IT 组织)的技术顾问英特尔将在

其新成立的数据服务工作组中发挥主要作用帮助其制定应

用模式要求以支持大数据的安全收集管理和分析推动

Hadoop 框架的性能基准测试的发展以及制定互操作性标

准使大数据框架实现云就绪

此外英特尔不仅能够提供用于智能系统的技术而且其提

供的平台还具备性能出色延迟低吞吐量高的优势能够

处理大型数据集并将其转化为深入的洞察信息

英特尔的技术指南和愿景将能够让大数据为您所用

启动前端设备数据管理和分析启动前端设备数据管理和分析

让您的企业得益于这一高速发展的机遇由此开始做好充分

的准备

bull 保持与时俱进英特尔提供了实践指南来帮助您更快

更安全地部署大数据环境如欲了解更多信息请访问

intelcnbigdata

bull 通过分析前端设备数据发掘商机与业务部门合作了解

现有前端设备系统以及对数据的潜在使用如欲了解更多

信息请访问 intelcomintelligentsystems

如欲了解前端设备数据和大数据分析的更多信息请访问 IT 中心

intelcnbigdata

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001

Page 3: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据2

目录 3

4

5

7

9

12

前端设备数据大数据的新机遇

大数据与新兴技术删节版

前端设备的大数据深入了解

有效利用智能系统和传感设备产生的数据

前端设备数据的应用案例

前端设备数据下一步发展

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据3

前端设备数据大数据的新机遇

大数据的爆炸式增长考验着包括最先进的分析工具的处理能

力IT 正在受到大量复杂的结构化半结构化和非结构化数

据在容量多样性和增长速度方面的挑战 mdash 同时这些数据

也为企业提供了为其业务获取更丰富更深入和更准确洞察

信息的大好机会

对于大多数企业来说能够有大量机会从大数据中获得令人

兴奋的全新价值都是很有吸引力的但是它们也面临着对大

数据进行管理并将之转换为洞察力的挑战这就要求其使用

一种新的对 IT 基础设施具有深远影响的方法来分析大数据

即使他们想使用传统的系统这类系统也无法经济高效地处

理面向大数据的全新动态数据源和多样的环境Hadoop 框

架等新兴技术则全面展示了捕获管理和分析大数据的全新

方法大数据挑战与新技术的结合带来了标志性的转变从

而推动企业重新审视他们的 IT 基础设施和分析能力

英特尔观点前端设备数据的重要性英特尔观点前端设备数据的重要性

英特尔认为要想进行大数据分析就必须在数据存在的位置

对其进行捕获和处理本文解释了为什么在网络前端设备生

成的大数据如此重要包括某些 ldquo超级庞大rdquo 的数据随着传

感器设备以及智能系统应用的持续扩展从来自这些源头

的大量数据中获取洞察力就成为了极具吸引力的新机遇可

以管理前端设备的大数据并挖掘其价值的企业就能够拥有更

为强大的能力从事前所未有的创新并解决之前无法解决的复

杂问题从而超越竞争对手

什么是大数据什么是大数据

对于大数据的描述通常使用以下的前三个特性 mdash 它们有时

衩称之为 ldquo3Vrdquo但是企业需要第四个 V(价值)来让大

数据真正发挥作用

bull 容量比传统存储和分析解决方案所管理的数据大几个

数量级的巨型数据集其以 PB 而不是 TB 为单位

bull 多样性以电子邮件社交媒体视频图像博客

传感器数据以及 ldquo影子数据rdquo(如访问日志和 Web 搜索历

史记录)等不同格式生成的异构复杂和多样化的数据

bull 生成速度数据是生成为一个可实时查询的连续数据流

可根据需求提供有用信息而不是批量生成

bull 价值能够从基于机器学习统计模型以及图算法的深入

复杂的数据分析中获取可对未来趋势和模式提供预测性

分析的重要洞察力这些预测性分析要胜过传统商业智

能查询和报告的结果

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据4

大数据与新兴技术删节版

大数据管理与数据管理或商业智能平台的传统关系型模式有

着本质上的区别而在描述这一区别时通常使用的措辞是

ldquo结构化对阵非结构化rdquo但这样的描述并不够精确例如

日志数据(一个不断增长的大数据源)就具有结构因此

用另一种方式来描述这一区别会更为合适即不同于基于

关系的数据大数据可以管理任意格式的数据而且不需要

首先花费时间和精力创建一个用于捕获处理和分析数据的

模式

一些新技术的出现使得大数据分析成为可能而且经济高效

Apache Hadoop 框架就正在发展为最佳的新方法通过充

分利用计算资源分布式网格的能力Hadoop 框架重新定义

了管理和分析数据的方式

Hadoop 开源框架使用一个简单的编程模型以支持在计算

机集群上对大数据集进行分布式处理其完整的技术堆栈包

含了通用实用程序一个分布式文件系统分析和数据存储

平台以及一个用于管理分布式处理并行计算工作流程与

配置管理的应用层除了提供高可用性外Hadoop 框架还

能比传统方法更为经济高效地处理大型的复杂的或非结构

化的数据集可带来出色的可扩展性与速度

MapReduce 是 Hadoop 堆栈中的软件编程框架能够简化

大型数据集的处理工作并为编程人员在计算机集群中定义

和协调复杂的处理任务提供了一种通用方法MapReduce

应用通过安排任务监控活动和重新执行失败的任务来协

调集群节点的处理任务输入和输出信息均存储在 Hadoop

分布式文件系统(Hadoop Distributed File System简称

HDFS)中这一系统通常在相同的节点上处理和存储数据

从而能够更高效地在数据驻留的节点上安排任务并在节点

间实现更高的聚合带宽有关 Hadoop 框架和 MapReduce

的更多详细信息请访问intelcnbigdata

分布式框架Apache Hadoop 框架和 MapReduce分布式框架Apache Hadoop 框架和 MapReduce

应用 基于关系的数据 大数据

数据处理 可通过更出色的 CPU 进行扩展的单一

计算机平台集中式处理

可扩展至数千节点的集群平台分布式处理

数据管理 关系型数据库(SQL)集中式存储 可管理多种数据类型和格式的非关系型数据

库(NoSQL 和 HBase 数据库)分布式

存储

分析 批量描述中央 实时预测性和直观分布式分析

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据5

前端设备的大数据深入了解

目前大部分对于大数据分析的讨论都注重的是管理和分析企

业和社会资源如电子邮件视频推特Facebook 帖子

评论以及 Web 行为中的非结构化数据虽然这种类型的大数

据分析可以为企业提供重要价值但是在网络前端设备那

些从传感器和其他设备生成的数据则展示了另一个巨大的

未开发的资源其可提供能够转化为公共和私营机构运营与

战略计划的洞察力

前端设备数据是一些拥有最大容量最快流动速度和或最复

杂特性的大数据其数据源散布于整个网络之上其数据信

息是通过各种设备如电表交通和安全摄像头RFID 阅读

器工厂生产线上的传感器健身器械以及医疗设备采集而

来无处不在的连接以及传感器和智能系统的发展开启了这

样一个重要信息的全新仓库与过去相比前端设备数据可

作为拥有巨大潜力的资源能够更快更加经济高效地提供

更深入和更丰富的洞察力从而为公共和私营机构带来重要

价值在许多情形中前端设备数据分析能够帮助企业响应

事件并解决之前无法解决的问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据6

作为前端设备数据大小和范围的示例让我们来看一下来自

波音 喷气式飞机引擎的机器生成型数据其每个引擎每小时

可生成 20TB 传感器数据因此拥有四个引擎的大型喷气式

飞机在飞越大西洋上空时会快速生成 640TB 的数据每天都

有超过 25000 次商业航班运行在美国上空其每一天产生

的传感器数据都可以 EB 来计量1

人类也会生成传感数据麻省理工大学媒体实验室认知机器

小组负责人 Deb Roy 自从儿子出生后就对自己家庭中的活

动和声音进行了为期三年的追踪通过对 90000 多小时视

频和 140000 小时音频的分析他绘制出了他的儿子形成表

达能力的图谱从而为人类如何成长和学习提供了重要洞察

信息2

1 Rogers Shawn ldquoBig Data Is Scaling BI and Analyticsrdquo Information Management(2011 年 9 月 1 日)

information-managementcomissues21_5big-data-is-scaling-bi-and-analytics-10021093-1htmlzkPrintable=true

2 Roy Deb ldquoThe Birth of a Wordrdquo TED talk(2011 年 3 月)tedcomtalksdeb_roy_the_birth_of_a_wordhtml

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据7

显然位于前端设备的大数据的范围极其庞大预计 2015

年时联网设备的数量将达到 150 亿 3从前端设备生成的数

据在容量多样性和增长速度上也将持续增加企业如何管

理和利用这一高速发展的数据流呢

有效利用智能系统和传感设备产生的数据

利用传感数据和电网基础设施利用传感数据和电网基础设施

位于前端设备的大数据是由物理对象中的嵌入式传感器和

致动器生成并通过连接它们的有线或无线网络(通常使

用连接至互联网的同一协议)传输的这一捕获和传输数

据的流程通常被称之为 ldquo物联网rdquo(lnternet of Things简

称为 IoT)

物联网是传感数据的主要来源大量的传感数据通过网络流

向本地计算机或云计算环境来进行分析并生成信息供致

动器在物理环境中实现控制通过使用 MapReduce这些

数据将在网络前端设备其所驻留的位置被捕获和处理然后

将被发送至任何一个需要它的位置如果使用了致动器结

果将提供即时反馈使得设备能够修改自身的活动此外

这些数据还可被聚合并转发以进行更多分析

物联网 (loT) 概述物联网 (loT) 概述

bull 传感设备 bull 智能处理与控制 bull 通信互联

3 ldquoGlobal Internet Traffic Projected to Quadruple by 2015rdquo The Network(新闻稿)(2011 年 6 月 1 日)

httpnewsroomciscocompress-release-contenttype=webcontentamparticleId=324003

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据8

技术含义技术含义

如要在数据驻留的位置对其进行分析计算和存储功能必

须实现 ldquo本地化rdquo置于前端设备并在云中这种本地化的

基础设施必须解决数据特性及相关问题所带来的一系列独

特挑战

bull 传感数据量庞大且还在 24-7 全天候地产生和传输

bull 这些数据杂乱无章需要进行预处理

bull 这些数据具有极强的本地特性也就是说设备需要在本地

运行和使用

bull 数据所有权互操作性安全和隐私性都是大问题

如何将其转化为真实案例此处介绍了一个交通和公共安

全方面的实例

bull 道路上的传感器可能属于不同的部门

bull 某些摄像头为公共安全部门所有而另外一些则属于公共

交通部门

bull 数据则由私家车辆上生成

问题可以将这些来自多个系统的数据进行集成和分析

以生成重要的洞察信息吗谁拥有这些由私家车辆生成的

数据这些数据又够安全吗

这些问题值得去解决多个数据流能够显示内联关系这

在整体上具有重要意义近期对中国某个城市的调查显示

如果你可以从供水子系统检测到人们早晨的洗漱时间那

么你就可以推断出早高峰时间同样的如果你可以检测

到办公室晚间断电时间那么你可以推断出晚高峰时间

了解这些关系可以帮助城市更好地管理高峰时段的交通

并在人们最需要水电资源时提高它们的利用率

对于在前端设备生成的数百 PB 数据将其迁移至集中式的

云环境成本高昂而且效率低下此外集中式的云还面

临着为前端设备提供实时信息的挑战回到我们的道路传

感器实例前端等不及集中式的云来判定是否有汽车闯了

红灯

即时性您需要多快速获得洞察力即时性您需要多快速获得洞察力

所有洞察信息都需要实时提供以供企业从数据中挖掘价

值吗事实上并非所有应用场景都需要实时的分析前

端设备应用可能需要即时反馈以调整设备而基于数据

整合获取洞察力的速度也许并不需要这么快近乎实时

近线(定期批量处理)甚至是批量处理都已足够及时

目前新兴市场中的企业更喜欢实施 Hadoop 框架来处理

基于关系的数据和非结构化数据而在欧洲和美国等更为

成熟的市场传统数据管理系统已经就位它们更喜欢通

过批量处理和近线分析进入大数据分析领域最终一些

公司(甚至是大型互联网公司)将演进为综合使用实时

近乎实时近线和批量处理的方式来应对大数据应用需求

智能联网系统智能联网系统

IDC 将智能系统描述为配备高性能微处理器网络连接能

力和高级操作系统的系统嵌入式处理器不再执行独立的

固定功能而是要将计算性能和集成性融入到支持智能系

统的设备中这些智能系统可结合基于云的应用和分析功

能能够从前端设备数据中获取价值并实现物联网

资料来源ldquoIntelligent Systems Transforming the

Embedded Industry According to IDCrdquo IDC(新闻稿)

(2011 年 9 月 9 日)

idccomgetdocjspcontainerId=prUS23026311

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据9

前端设备数据的应用案例

现在已经有技术能帮助企业构建 ldquo可支持面向大数据的分布式

框架和前端设备数据本地要求的rdquo 架构高性能处理器万兆

位以太网(10GbE)解决方案以及经济的存储选件可以支持

运行 Hadoop 堆栈的集群从独立嵌入式系统到智能互联系

统的演进继续保持强劲发展势头云和大数据分析平台的发

展亦是如此了解前端设备数据使用案例将进一步推动客户

需求标准架构以及可对这些应用情形进行分析的端到端互

操作解决方案的发展这些技术在大多数行业都能够为企业

带来价值以下介绍了来自其中四个行业 mdash 政府零售汽

车和制造业的使用案例

面向大数据的英特尔科学与技术中心 面向大数据的英特尔科学与技术中心 (ISTC)(ISTC)

坐落于麻省理工大学计算机科学与人工智能实验室的最新英

特尔科学与技术中心(ISTC)正在致力于大数据的研究

重点探寻加快大数据创新步伐的方法涉及政府金融服务

医疗卫生与生命科学制造以及零售等多个领域研究以麻

省理工大学为中心其合作方还包括了来自加州大学圣塔芭

芭拉分校波特兰州立大学华盛顿大学和斯坦福大学的教

职员工

智慧城市提升城市的性能智慧城市提升城市的性能

ldquo智慧城市rdquo 这一概念描述了如何使用智能电网基础设施(物

理资本信息和通信技术)提升环境可持续性管理能源

消耗更好地协调公共资源保障城市居民的生活质量以

及规划可持续性增长

英特尔公司目前正在美国欧洲和中国开展智慧城市创新项

目这些项目正在探索如何用处于前端设备的智能系统来改

进城市的环境管理例如公共事业企业和政府正在使用来

自智能电网中的数据了解发电分发和消耗之间的复杂关系

旨在提供可靠的能源并降低运营成本同时消费者也可以

使用来自智能电网的数据更好地管理他们的个人能源需求

例如设定一个 ldquo不在家rdquo 状态可以关上所有灯关闭不使用

的电器以及调节温度

通过在整个电网中实现智能电网设备和计算节点将开启测

量分析和预测功能它们所做出的优化决定更接近于前端

设备而不是仅限于一个集中式的控制中心里设备间的通

信可帮助确定需要在何时及何处生产多少能源也能让消费

者使用家庭管理工具来监控和调整能源消耗

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据10

零售联网商店零售联网商店

如果零售商能够像 Amazoncom 那样了解自己的客户会怎

样传统的商品销售系统可以通过商店行政区地区时

间和商品类别采集销售点数据并将其汇总但在连接至特定

客户时会丢失详细交易可以提供的洞察信息此外数据的

大小详细信息的级别或者成本都可能使零售商在数月内无

法存储库存单位(SKU)的详情Hadoop 框架改变了这一

经济状况它从根本上降低了数据存储的成本并增加了它的

灵活性以获取新的洞察信息规划库存以及更为精确地向

个体消费者而不是群体消费者进行推广

零售商们正在使用各种智能联网系统收集数据和提供即时的

反馈来帮助自身吸引顾客这些系统包括

bull 数字标牌它可以衡量广告效果针对特定受众调整信息

以及提供高度个性化的信息

bull 交易及销售点系统它可以提供产品上市信息建议的优

惠采购机会以及推动追加销售

bull 智能售货机它通过交互式显示屏视频分析数字标牌

吸引路人并通过非现金展示系统分发用于获取新产品创

意反馈意见的样品销售新鲜食品和珠宝的高端配饰

bull 交互式信息亭它是沟通在线与实体商店环境的一个桥

梁可在线或在实体店面中通过购物者特征或其过往的采

购数据针对消费者感兴趣的物口提供建议或指引

bull 数字安全监控它可预防盗窃定位迷路的儿童并收集消费

群体的信息如商店中主要区域的流量以帮助销售产品

从这些系统生成的数据中获取洞察力可助力打造以客户为中

心的 ldquo联网商店rdquo并提供将在线与实体商店运营交织在一起

的 ldquoon-storerdquo 环境为购物者提供在情绪上令其满意的体

验同时优化运营客户可以更快地在多个渠道从其信任的

零售商处找到他们所需的商品并尽享购买流程的每一个阶

段零售商可以将他们的供应链活动与实际的购买者行为相

结合并将所有接触点与特定客户相连接提供出众的购物

体验此外他们还可以为客户提供更多的机会通过更为

丰富的形式客户了解他们的品牌从而加强客户的忠诚度

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据11

汽车行驶中的联网智能汽车行驶中的联网智能

在汽车行业中IT 与消费者体验的融合正在以智能车载系统

的形式快速增长这些系统在汽车与联网设备间(包括消费

电子产品移动设备和传感器)实现了无缝连接正在改变

车内体验除了孩子们喜欢的流视频以外这些系统可以对

多种数据源进行整合和分析提供即时洞察信息 mdash 例如

可以将位置数据与道路施工及其他交通信息相结合来帮助

上班族避开交通阻塞或者选择更为快捷的路线相关的其他

大数据应用可用于帮助

bull 内置摄像头使用了面部识别软件可用于监控驾驶员的精

神状态防止疲劳驾驶系统可以驾驶员读取表情并自动

发布声音警报进行安全停车并根据需要联系紧急服务

bull 驾驶员和乘客的朋友在附近时可通过提供通知提醒其与

朋友联系

bull 提醒驾驶员注意前方的标牌盲点障碍物和道路情况

bull 主动监控汽车运行状况提前预警潜在故障

bull 提供有价值的新型汽车服务和应用改善客户关系管理和

车辆关系管理

bull 使用智能手机遥控解锁汽车或者发出损害或碰撞告警

bull 检测各个方向上的实时交通流量并自动改变交通信号灯

以优化路况

bull 在交通基础设施内通过自动智能实时的决策优化出行

让汽车能够连接道路安全系统和其他车辆

制造智能工厂制造智能工厂

信息技术和操作技术正在以前所未有的方式融入智能工厂

如今大部分工厂都已高度自动化它们专为特定的生产流程

而设计工厂车间里的设备和控制层还无法与业务和帮助公

司运营的数据网络交换信息

而智能工厂可以连接管理层车间和供应链以实现更高级

别的生产控制和效率车间设备中的传感器和致动器(如摄

像头机器人设备和运动控制设备)可生成和使用数据以

提供实时诊断和主动维护进而提升了流程的可视化并增加

了工厂正常运行时间和灵活性

特定使用情形包括

bull 在车间内进行通信并与企业 IT 系统之间实现通信来更

加高效地在工厂资源员工和供应商间进行协调

bull 检测故障情形实现更快的响应速度

bull 实现更出色的环境感知车间的无缝多区域保护本机监

控控制与数据采集(SCADA)支持以及远程设备管理

bull 让机器人可大幅提高生产效率和安全性

bull 监控生产线活动发现产品质量问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据12

前端设备数据下一步发展

大数据将改变企业运营方式而且它已就绪虽然当前大数

据的大部分要素都与社交网络资源有关但是英特尔相信实

现大数据分析必须包括一种可以在网络前端设备利用大数据

潜力的方式

英特尔认为以下的发展趋势对于希望利用前端设备数据源的

企业非常重要

bull 了解使用案例及其含义我们必须了解现有独立数据源如何

演进为一个集成智能和互联系统网络

bull 定义前端设备数据分析的应用模式要求在架构上必须使用

大数据分布式框架将计算迁移至距离数据驻留点更近的位置

并通过智能系统和本地云环境支持前端设备大数据分析

bull 将聚合的数据快速安全地由前端设备分析系统传输至其他

云和分析平台以进行进一步分析

bull 解决与数据所有权互操作性安全性和隐私相关的问题

人们对前端设备数据的兴趣正日益增长而且企业也更好地

了解了如何使用前端设备数据英特尔正处于这一新兴课题

的最前沿并已经在云计算和大数据分析方面处于领先地位

作为开放数据中心联盟(ODCA)(一个由全球 300 多家公

司的 IT 决策者组成的独立 IT 组织)的技术顾问英特尔将在

其新成立的数据服务工作组中发挥主要作用帮助其制定应

用模式要求以支持大数据的安全收集管理和分析推动

Hadoop 框架的性能基准测试的发展以及制定互操作性标

准使大数据框架实现云就绪

此外英特尔不仅能够提供用于智能系统的技术而且其提

供的平台还具备性能出色延迟低吞吐量高的优势能够

处理大型数据集并将其转化为深入的洞察信息

英特尔的技术指南和愿景将能够让大数据为您所用

启动前端设备数据管理和分析启动前端设备数据管理和分析

让您的企业得益于这一高速发展的机遇由此开始做好充分

的准备

bull 保持与时俱进英特尔提供了实践指南来帮助您更快

更安全地部署大数据环境如欲了解更多信息请访问

intelcnbigdata

bull 通过分析前端设备数据发掘商机与业务部门合作了解

现有前端设备系统以及对数据的潜在使用如欲了解更多

信息请访问 intelcomintelligentsystems

如欲了解前端设备数据和大数据分析的更多信息请访问 IT 中心

intelcnbigdata

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001

Page 4: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据3

前端设备数据大数据的新机遇

大数据的爆炸式增长考验着包括最先进的分析工具的处理能

力IT 正在受到大量复杂的结构化半结构化和非结构化数

据在容量多样性和增长速度方面的挑战 mdash 同时这些数据

也为企业提供了为其业务获取更丰富更深入和更准确洞察

信息的大好机会

对于大多数企业来说能够有大量机会从大数据中获得令人

兴奋的全新价值都是很有吸引力的但是它们也面临着对大

数据进行管理并将之转换为洞察力的挑战这就要求其使用

一种新的对 IT 基础设施具有深远影响的方法来分析大数据

即使他们想使用传统的系统这类系统也无法经济高效地处

理面向大数据的全新动态数据源和多样的环境Hadoop 框

架等新兴技术则全面展示了捕获管理和分析大数据的全新

方法大数据挑战与新技术的结合带来了标志性的转变从

而推动企业重新审视他们的 IT 基础设施和分析能力

英特尔观点前端设备数据的重要性英特尔观点前端设备数据的重要性

英特尔认为要想进行大数据分析就必须在数据存在的位置

对其进行捕获和处理本文解释了为什么在网络前端设备生

成的大数据如此重要包括某些 ldquo超级庞大rdquo 的数据随着传

感器设备以及智能系统应用的持续扩展从来自这些源头

的大量数据中获取洞察力就成为了极具吸引力的新机遇可

以管理前端设备的大数据并挖掘其价值的企业就能够拥有更

为强大的能力从事前所未有的创新并解决之前无法解决的复

杂问题从而超越竞争对手

什么是大数据什么是大数据

对于大数据的描述通常使用以下的前三个特性 mdash 它们有时

衩称之为 ldquo3Vrdquo但是企业需要第四个 V(价值)来让大

数据真正发挥作用

bull 容量比传统存储和分析解决方案所管理的数据大几个

数量级的巨型数据集其以 PB 而不是 TB 为单位

bull 多样性以电子邮件社交媒体视频图像博客

传感器数据以及 ldquo影子数据rdquo(如访问日志和 Web 搜索历

史记录)等不同格式生成的异构复杂和多样化的数据

bull 生成速度数据是生成为一个可实时查询的连续数据流

可根据需求提供有用信息而不是批量生成

bull 价值能够从基于机器学习统计模型以及图算法的深入

复杂的数据分析中获取可对未来趋势和模式提供预测性

分析的重要洞察力这些预测性分析要胜过传统商业智

能查询和报告的结果

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据4

大数据与新兴技术删节版

大数据管理与数据管理或商业智能平台的传统关系型模式有

着本质上的区别而在描述这一区别时通常使用的措辞是

ldquo结构化对阵非结构化rdquo但这样的描述并不够精确例如

日志数据(一个不断增长的大数据源)就具有结构因此

用另一种方式来描述这一区别会更为合适即不同于基于

关系的数据大数据可以管理任意格式的数据而且不需要

首先花费时间和精力创建一个用于捕获处理和分析数据的

模式

一些新技术的出现使得大数据分析成为可能而且经济高效

Apache Hadoop 框架就正在发展为最佳的新方法通过充

分利用计算资源分布式网格的能力Hadoop 框架重新定义

了管理和分析数据的方式

Hadoop 开源框架使用一个简单的编程模型以支持在计算

机集群上对大数据集进行分布式处理其完整的技术堆栈包

含了通用实用程序一个分布式文件系统分析和数据存储

平台以及一个用于管理分布式处理并行计算工作流程与

配置管理的应用层除了提供高可用性外Hadoop 框架还

能比传统方法更为经济高效地处理大型的复杂的或非结构

化的数据集可带来出色的可扩展性与速度

MapReduce 是 Hadoop 堆栈中的软件编程框架能够简化

大型数据集的处理工作并为编程人员在计算机集群中定义

和协调复杂的处理任务提供了一种通用方法MapReduce

应用通过安排任务监控活动和重新执行失败的任务来协

调集群节点的处理任务输入和输出信息均存储在 Hadoop

分布式文件系统(Hadoop Distributed File System简称

HDFS)中这一系统通常在相同的节点上处理和存储数据

从而能够更高效地在数据驻留的节点上安排任务并在节点

间实现更高的聚合带宽有关 Hadoop 框架和 MapReduce

的更多详细信息请访问intelcnbigdata

分布式框架Apache Hadoop 框架和 MapReduce分布式框架Apache Hadoop 框架和 MapReduce

应用 基于关系的数据 大数据

数据处理 可通过更出色的 CPU 进行扩展的单一

计算机平台集中式处理

可扩展至数千节点的集群平台分布式处理

数据管理 关系型数据库(SQL)集中式存储 可管理多种数据类型和格式的非关系型数据

库(NoSQL 和 HBase 数据库)分布式

存储

分析 批量描述中央 实时预测性和直观分布式分析

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据5

前端设备的大数据深入了解

目前大部分对于大数据分析的讨论都注重的是管理和分析企

业和社会资源如电子邮件视频推特Facebook 帖子

评论以及 Web 行为中的非结构化数据虽然这种类型的大数

据分析可以为企业提供重要价值但是在网络前端设备那

些从传感器和其他设备生成的数据则展示了另一个巨大的

未开发的资源其可提供能够转化为公共和私营机构运营与

战略计划的洞察力

前端设备数据是一些拥有最大容量最快流动速度和或最复

杂特性的大数据其数据源散布于整个网络之上其数据信

息是通过各种设备如电表交通和安全摄像头RFID 阅读

器工厂生产线上的传感器健身器械以及医疗设备采集而

来无处不在的连接以及传感器和智能系统的发展开启了这

样一个重要信息的全新仓库与过去相比前端设备数据可

作为拥有巨大潜力的资源能够更快更加经济高效地提供

更深入和更丰富的洞察力从而为公共和私营机构带来重要

价值在许多情形中前端设备数据分析能够帮助企业响应

事件并解决之前无法解决的问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据6

作为前端设备数据大小和范围的示例让我们来看一下来自

波音 喷气式飞机引擎的机器生成型数据其每个引擎每小时

可生成 20TB 传感器数据因此拥有四个引擎的大型喷气式

飞机在飞越大西洋上空时会快速生成 640TB 的数据每天都

有超过 25000 次商业航班运行在美国上空其每一天产生

的传感器数据都可以 EB 来计量1

人类也会生成传感数据麻省理工大学媒体实验室认知机器

小组负责人 Deb Roy 自从儿子出生后就对自己家庭中的活

动和声音进行了为期三年的追踪通过对 90000 多小时视

频和 140000 小时音频的分析他绘制出了他的儿子形成表

达能力的图谱从而为人类如何成长和学习提供了重要洞察

信息2

1 Rogers Shawn ldquoBig Data Is Scaling BI and Analyticsrdquo Information Management(2011 年 9 月 1 日)

information-managementcomissues21_5big-data-is-scaling-bi-and-analytics-10021093-1htmlzkPrintable=true

2 Roy Deb ldquoThe Birth of a Wordrdquo TED talk(2011 年 3 月)tedcomtalksdeb_roy_the_birth_of_a_wordhtml

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据7

显然位于前端设备的大数据的范围极其庞大预计 2015

年时联网设备的数量将达到 150 亿 3从前端设备生成的数

据在容量多样性和增长速度上也将持续增加企业如何管

理和利用这一高速发展的数据流呢

有效利用智能系统和传感设备产生的数据

利用传感数据和电网基础设施利用传感数据和电网基础设施

位于前端设备的大数据是由物理对象中的嵌入式传感器和

致动器生成并通过连接它们的有线或无线网络(通常使

用连接至互联网的同一协议)传输的这一捕获和传输数

据的流程通常被称之为 ldquo物联网rdquo(lnternet of Things简

称为 IoT)

物联网是传感数据的主要来源大量的传感数据通过网络流

向本地计算机或云计算环境来进行分析并生成信息供致

动器在物理环境中实现控制通过使用 MapReduce这些

数据将在网络前端设备其所驻留的位置被捕获和处理然后

将被发送至任何一个需要它的位置如果使用了致动器结

果将提供即时反馈使得设备能够修改自身的活动此外

这些数据还可被聚合并转发以进行更多分析

物联网 (loT) 概述物联网 (loT) 概述

bull 传感设备 bull 智能处理与控制 bull 通信互联

3 ldquoGlobal Internet Traffic Projected to Quadruple by 2015rdquo The Network(新闻稿)(2011 年 6 月 1 日)

httpnewsroomciscocompress-release-contenttype=webcontentamparticleId=324003

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据8

技术含义技术含义

如要在数据驻留的位置对其进行分析计算和存储功能必

须实现 ldquo本地化rdquo置于前端设备并在云中这种本地化的

基础设施必须解决数据特性及相关问题所带来的一系列独

特挑战

bull 传感数据量庞大且还在 24-7 全天候地产生和传输

bull 这些数据杂乱无章需要进行预处理

bull 这些数据具有极强的本地特性也就是说设备需要在本地

运行和使用

bull 数据所有权互操作性安全和隐私性都是大问题

如何将其转化为真实案例此处介绍了一个交通和公共安

全方面的实例

bull 道路上的传感器可能属于不同的部门

bull 某些摄像头为公共安全部门所有而另外一些则属于公共

交通部门

bull 数据则由私家车辆上生成

问题可以将这些来自多个系统的数据进行集成和分析

以生成重要的洞察信息吗谁拥有这些由私家车辆生成的

数据这些数据又够安全吗

这些问题值得去解决多个数据流能够显示内联关系这

在整体上具有重要意义近期对中国某个城市的调查显示

如果你可以从供水子系统检测到人们早晨的洗漱时间那

么你就可以推断出早高峰时间同样的如果你可以检测

到办公室晚间断电时间那么你可以推断出晚高峰时间

了解这些关系可以帮助城市更好地管理高峰时段的交通

并在人们最需要水电资源时提高它们的利用率

对于在前端设备生成的数百 PB 数据将其迁移至集中式的

云环境成本高昂而且效率低下此外集中式的云还面

临着为前端设备提供实时信息的挑战回到我们的道路传

感器实例前端等不及集中式的云来判定是否有汽车闯了

红灯

即时性您需要多快速获得洞察力即时性您需要多快速获得洞察力

所有洞察信息都需要实时提供以供企业从数据中挖掘价

值吗事实上并非所有应用场景都需要实时的分析前

端设备应用可能需要即时反馈以调整设备而基于数据

整合获取洞察力的速度也许并不需要这么快近乎实时

近线(定期批量处理)甚至是批量处理都已足够及时

目前新兴市场中的企业更喜欢实施 Hadoop 框架来处理

基于关系的数据和非结构化数据而在欧洲和美国等更为

成熟的市场传统数据管理系统已经就位它们更喜欢通

过批量处理和近线分析进入大数据分析领域最终一些

公司(甚至是大型互联网公司)将演进为综合使用实时

近乎实时近线和批量处理的方式来应对大数据应用需求

智能联网系统智能联网系统

IDC 将智能系统描述为配备高性能微处理器网络连接能

力和高级操作系统的系统嵌入式处理器不再执行独立的

固定功能而是要将计算性能和集成性融入到支持智能系

统的设备中这些智能系统可结合基于云的应用和分析功

能能够从前端设备数据中获取价值并实现物联网

资料来源ldquoIntelligent Systems Transforming the

Embedded Industry According to IDCrdquo IDC(新闻稿)

(2011 年 9 月 9 日)

idccomgetdocjspcontainerId=prUS23026311

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据9

前端设备数据的应用案例

现在已经有技术能帮助企业构建 ldquo可支持面向大数据的分布式

框架和前端设备数据本地要求的rdquo 架构高性能处理器万兆

位以太网(10GbE)解决方案以及经济的存储选件可以支持

运行 Hadoop 堆栈的集群从独立嵌入式系统到智能互联系

统的演进继续保持强劲发展势头云和大数据分析平台的发

展亦是如此了解前端设备数据使用案例将进一步推动客户

需求标准架构以及可对这些应用情形进行分析的端到端互

操作解决方案的发展这些技术在大多数行业都能够为企业

带来价值以下介绍了来自其中四个行业 mdash 政府零售汽

车和制造业的使用案例

面向大数据的英特尔科学与技术中心 面向大数据的英特尔科学与技术中心 (ISTC)(ISTC)

坐落于麻省理工大学计算机科学与人工智能实验室的最新英

特尔科学与技术中心(ISTC)正在致力于大数据的研究

重点探寻加快大数据创新步伐的方法涉及政府金融服务

医疗卫生与生命科学制造以及零售等多个领域研究以麻

省理工大学为中心其合作方还包括了来自加州大学圣塔芭

芭拉分校波特兰州立大学华盛顿大学和斯坦福大学的教

职员工

智慧城市提升城市的性能智慧城市提升城市的性能

ldquo智慧城市rdquo 这一概念描述了如何使用智能电网基础设施(物

理资本信息和通信技术)提升环境可持续性管理能源

消耗更好地协调公共资源保障城市居民的生活质量以

及规划可持续性增长

英特尔公司目前正在美国欧洲和中国开展智慧城市创新项

目这些项目正在探索如何用处于前端设备的智能系统来改

进城市的环境管理例如公共事业企业和政府正在使用来

自智能电网中的数据了解发电分发和消耗之间的复杂关系

旨在提供可靠的能源并降低运营成本同时消费者也可以

使用来自智能电网的数据更好地管理他们的个人能源需求

例如设定一个 ldquo不在家rdquo 状态可以关上所有灯关闭不使用

的电器以及调节温度

通过在整个电网中实现智能电网设备和计算节点将开启测

量分析和预测功能它们所做出的优化决定更接近于前端

设备而不是仅限于一个集中式的控制中心里设备间的通

信可帮助确定需要在何时及何处生产多少能源也能让消费

者使用家庭管理工具来监控和调整能源消耗

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据10

零售联网商店零售联网商店

如果零售商能够像 Amazoncom 那样了解自己的客户会怎

样传统的商品销售系统可以通过商店行政区地区时

间和商品类别采集销售点数据并将其汇总但在连接至特定

客户时会丢失详细交易可以提供的洞察信息此外数据的

大小详细信息的级别或者成本都可能使零售商在数月内无

法存储库存单位(SKU)的详情Hadoop 框架改变了这一

经济状况它从根本上降低了数据存储的成本并增加了它的

灵活性以获取新的洞察信息规划库存以及更为精确地向

个体消费者而不是群体消费者进行推广

零售商们正在使用各种智能联网系统收集数据和提供即时的

反馈来帮助自身吸引顾客这些系统包括

bull 数字标牌它可以衡量广告效果针对特定受众调整信息

以及提供高度个性化的信息

bull 交易及销售点系统它可以提供产品上市信息建议的优

惠采购机会以及推动追加销售

bull 智能售货机它通过交互式显示屏视频分析数字标牌

吸引路人并通过非现金展示系统分发用于获取新产品创

意反馈意见的样品销售新鲜食品和珠宝的高端配饰

bull 交互式信息亭它是沟通在线与实体商店环境的一个桥

梁可在线或在实体店面中通过购物者特征或其过往的采

购数据针对消费者感兴趣的物口提供建议或指引

bull 数字安全监控它可预防盗窃定位迷路的儿童并收集消费

群体的信息如商店中主要区域的流量以帮助销售产品

从这些系统生成的数据中获取洞察力可助力打造以客户为中

心的 ldquo联网商店rdquo并提供将在线与实体商店运营交织在一起

的 ldquoon-storerdquo 环境为购物者提供在情绪上令其满意的体

验同时优化运营客户可以更快地在多个渠道从其信任的

零售商处找到他们所需的商品并尽享购买流程的每一个阶

段零售商可以将他们的供应链活动与实际的购买者行为相

结合并将所有接触点与特定客户相连接提供出众的购物

体验此外他们还可以为客户提供更多的机会通过更为

丰富的形式客户了解他们的品牌从而加强客户的忠诚度

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据11

汽车行驶中的联网智能汽车行驶中的联网智能

在汽车行业中IT 与消费者体验的融合正在以智能车载系统

的形式快速增长这些系统在汽车与联网设备间(包括消费

电子产品移动设备和传感器)实现了无缝连接正在改变

车内体验除了孩子们喜欢的流视频以外这些系统可以对

多种数据源进行整合和分析提供即时洞察信息 mdash 例如

可以将位置数据与道路施工及其他交通信息相结合来帮助

上班族避开交通阻塞或者选择更为快捷的路线相关的其他

大数据应用可用于帮助

bull 内置摄像头使用了面部识别软件可用于监控驾驶员的精

神状态防止疲劳驾驶系统可以驾驶员读取表情并自动

发布声音警报进行安全停车并根据需要联系紧急服务

bull 驾驶员和乘客的朋友在附近时可通过提供通知提醒其与

朋友联系

bull 提醒驾驶员注意前方的标牌盲点障碍物和道路情况

bull 主动监控汽车运行状况提前预警潜在故障

bull 提供有价值的新型汽车服务和应用改善客户关系管理和

车辆关系管理

bull 使用智能手机遥控解锁汽车或者发出损害或碰撞告警

bull 检测各个方向上的实时交通流量并自动改变交通信号灯

以优化路况

bull 在交通基础设施内通过自动智能实时的决策优化出行

让汽车能够连接道路安全系统和其他车辆

制造智能工厂制造智能工厂

信息技术和操作技术正在以前所未有的方式融入智能工厂

如今大部分工厂都已高度自动化它们专为特定的生产流程

而设计工厂车间里的设备和控制层还无法与业务和帮助公

司运营的数据网络交换信息

而智能工厂可以连接管理层车间和供应链以实现更高级

别的生产控制和效率车间设备中的传感器和致动器(如摄

像头机器人设备和运动控制设备)可生成和使用数据以

提供实时诊断和主动维护进而提升了流程的可视化并增加

了工厂正常运行时间和灵活性

特定使用情形包括

bull 在车间内进行通信并与企业 IT 系统之间实现通信来更

加高效地在工厂资源员工和供应商间进行协调

bull 检测故障情形实现更快的响应速度

bull 实现更出色的环境感知车间的无缝多区域保护本机监

控控制与数据采集(SCADA)支持以及远程设备管理

bull 让机器人可大幅提高生产效率和安全性

bull 监控生产线活动发现产品质量问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据12

前端设备数据下一步发展

大数据将改变企业运营方式而且它已就绪虽然当前大数

据的大部分要素都与社交网络资源有关但是英特尔相信实

现大数据分析必须包括一种可以在网络前端设备利用大数据

潜力的方式

英特尔认为以下的发展趋势对于希望利用前端设备数据源的

企业非常重要

bull 了解使用案例及其含义我们必须了解现有独立数据源如何

演进为一个集成智能和互联系统网络

bull 定义前端设备数据分析的应用模式要求在架构上必须使用

大数据分布式框架将计算迁移至距离数据驻留点更近的位置

并通过智能系统和本地云环境支持前端设备大数据分析

bull 将聚合的数据快速安全地由前端设备分析系统传输至其他

云和分析平台以进行进一步分析

bull 解决与数据所有权互操作性安全性和隐私相关的问题

人们对前端设备数据的兴趣正日益增长而且企业也更好地

了解了如何使用前端设备数据英特尔正处于这一新兴课题

的最前沿并已经在云计算和大数据分析方面处于领先地位

作为开放数据中心联盟(ODCA)(一个由全球 300 多家公

司的 IT 决策者组成的独立 IT 组织)的技术顾问英特尔将在

其新成立的数据服务工作组中发挥主要作用帮助其制定应

用模式要求以支持大数据的安全收集管理和分析推动

Hadoop 框架的性能基准测试的发展以及制定互操作性标

准使大数据框架实现云就绪

此外英特尔不仅能够提供用于智能系统的技术而且其提

供的平台还具备性能出色延迟低吞吐量高的优势能够

处理大型数据集并将其转化为深入的洞察信息

英特尔的技术指南和愿景将能够让大数据为您所用

启动前端设备数据管理和分析启动前端设备数据管理和分析

让您的企业得益于这一高速发展的机遇由此开始做好充分

的准备

bull 保持与时俱进英特尔提供了实践指南来帮助您更快

更安全地部署大数据环境如欲了解更多信息请访问

intelcnbigdata

bull 通过分析前端设备数据发掘商机与业务部门合作了解

现有前端设备系统以及对数据的潜在使用如欲了解更多

信息请访问 intelcomintelligentsystems

如欲了解前端设备数据和大数据分析的更多信息请访问 IT 中心

intelcnbigdata

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001

Page 5: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据4

大数据与新兴技术删节版

大数据管理与数据管理或商业智能平台的传统关系型模式有

着本质上的区别而在描述这一区别时通常使用的措辞是

ldquo结构化对阵非结构化rdquo但这样的描述并不够精确例如

日志数据(一个不断增长的大数据源)就具有结构因此

用另一种方式来描述这一区别会更为合适即不同于基于

关系的数据大数据可以管理任意格式的数据而且不需要

首先花费时间和精力创建一个用于捕获处理和分析数据的

模式

一些新技术的出现使得大数据分析成为可能而且经济高效

Apache Hadoop 框架就正在发展为最佳的新方法通过充

分利用计算资源分布式网格的能力Hadoop 框架重新定义

了管理和分析数据的方式

Hadoop 开源框架使用一个简单的编程模型以支持在计算

机集群上对大数据集进行分布式处理其完整的技术堆栈包

含了通用实用程序一个分布式文件系统分析和数据存储

平台以及一个用于管理分布式处理并行计算工作流程与

配置管理的应用层除了提供高可用性外Hadoop 框架还

能比传统方法更为经济高效地处理大型的复杂的或非结构

化的数据集可带来出色的可扩展性与速度

MapReduce 是 Hadoop 堆栈中的软件编程框架能够简化

大型数据集的处理工作并为编程人员在计算机集群中定义

和协调复杂的处理任务提供了一种通用方法MapReduce

应用通过安排任务监控活动和重新执行失败的任务来协

调集群节点的处理任务输入和输出信息均存储在 Hadoop

分布式文件系统(Hadoop Distributed File System简称

HDFS)中这一系统通常在相同的节点上处理和存储数据

从而能够更高效地在数据驻留的节点上安排任务并在节点

间实现更高的聚合带宽有关 Hadoop 框架和 MapReduce

的更多详细信息请访问intelcnbigdata

分布式框架Apache Hadoop 框架和 MapReduce分布式框架Apache Hadoop 框架和 MapReduce

应用 基于关系的数据 大数据

数据处理 可通过更出色的 CPU 进行扩展的单一

计算机平台集中式处理

可扩展至数千节点的集群平台分布式处理

数据管理 关系型数据库(SQL)集中式存储 可管理多种数据类型和格式的非关系型数据

库(NoSQL 和 HBase 数据库)分布式

存储

分析 批量描述中央 实时预测性和直观分布式分析

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据5

前端设备的大数据深入了解

目前大部分对于大数据分析的讨论都注重的是管理和分析企

业和社会资源如电子邮件视频推特Facebook 帖子

评论以及 Web 行为中的非结构化数据虽然这种类型的大数

据分析可以为企业提供重要价值但是在网络前端设备那

些从传感器和其他设备生成的数据则展示了另一个巨大的

未开发的资源其可提供能够转化为公共和私营机构运营与

战略计划的洞察力

前端设备数据是一些拥有最大容量最快流动速度和或最复

杂特性的大数据其数据源散布于整个网络之上其数据信

息是通过各种设备如电表交通和安全摄像头RFID 阅读

器工厂生产线上的传感器健身器械以及医疗设备采集而

来无处不在的连接以及传感器和智能系统的发展开启了这

样一个重要信息的全新仓库与过去相比前端设备数据可

作为拥有巨大潜力的资源能够更快更加经济高效地提供

更深入和更丰富的洞察力从而为公共和私营机构带来重要

价值在许多情形中前端设备数据分析能够帮助企业响应

事件并解决之前无法解决的问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据6

作为前端设备数据大小和范围的示例让我们来看一下来自

波音 喷气式飞机引擎的机器生成型数据其每个引擎每小时

可生成 20TB 传感器数据因此拥有四个引擎的大型喷气式

飞机在飞越大西洋上空时会快速生成 640TB 的数据每天都

有超过 25000 次商业航班运行在美国上空其每一天产生

的传感器数据都可以 EB 来计量1

人类也会生成传感数据麻省理工大学媒体实验室认知机器

小组负责人 Deb Roy 自从儿子出生后就对自己家庭中的活

动和声音进行了为期三年的追踪通过对 90000 多小时视

频和 140000 小时音频的分析他绘制出了他的儿子形成表

达能力的图谱从而为人类如何成长和学习提供了重要洞察

信息2

1 Rogers Shawn ldquoBig Data Is Scaling BI and Analyticsrdquo Information Management(2011 年 9 月 1 日)

information-managementcomissues21_5big-data-is-scaling-bi-and-analytics-10021093-1htmlzkPrintable=true

2 Roy Deb ldquoThe Birth of a Wordrdquo TED talk(2011 年 3 月)tedcomtalksdeb_roy_the_birth_of_a_wordhtml

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据7

显然位于前端设备的大数据的范围极其庞大预计 2015

年时联网设备的数量将达到 150 亿 3从前端设备生成的数

据在容量多样性和增长速度上也将持续增加企业如何管

理和利用这一高速发展的数据流呢

有效利用智能系统和传感设备产生的数据

利用传感数据和电网基础设施利用传感数据和电网基础设施

位于前端设备的大数据是由物理对象中的嵌入式传感器和

致动器生成并通过连接它们的有线或无线网络(通常使

用连接至互联网的同一协议)传输的这一捕获和传输数

据的流程通常被称之为 ldquo物联网rdquo(lnternet of Things简

称为 IoT)

物联网是传感数据的主要来源大量的传感数据通过网络流

向本地计算机或云计算环境来进行分析并生成信息供致

动器在物理环境中实现控制通过使用 MapReduce这些

数据将在网络前端设备其所驻留的位置被捕获和处理然后

将被发送至任何一个需要它的位置如果使用了致动器结

果将提供即时反馈使得设备能够修改自身的活动此外

这些数据还可被聚合并转发以进行更多分析

物联网 (loT) 概述物联网 (loT) 概述

bull 传感设备 bull 智能处理与控制 bull 通信互联

3 ldquoGlobal Internet Traffic Projected to Quadruple by 2015rdquo The Network(新闻稿)(2011 年 6 月 1 日)

httpnewsroomciscocompress-release-contenttype=webcontentamparticleId=324003

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据8

技术含义技术含义

如要在数据驻留的位置对其进行分析计算和存储功能必

须实现 ldquo本地化rdquo置于前端设备并在云中这种本地化的

基础设施必须解决数据特性及相关问题所带来的一系列独

特挑战

bull 传感数据量庞大且还在 24-7 全天候地产生和传输

bull 这些数据杂乱无章需要进行预处理

bull 这些数据具有极强的本地特性也就是说设备需要在本地

运行和使用

bull 数据所有权互操作性安全和隐私性都是大问题

如何将其转化为真实案例此处介绍了一个交通和公共安

全方面的实例

bull 道路上的传感器可能属于不同的部门

bull 某些摄像头为公共安全部门所有而另外一些则属于公共

交通部门

bull 数据则由私家车辆上生成

问题可以将这些来自多个系统的数据进行集成和分析

以生成重要的洞察信息吗谁拥有这些由私家车辆生成的

数据这些数据又够安全吗

这些问题值得去解决多个数据流能够显示内联关系这

在整体上具有重要意义近期对中国某个城市的调查显示

如果你可以从供水子系统检测到人们早晨的洗漱时间那

么你就可以推断出早高峰时间同样的如果你可以检测

到办公室晚间断电时间那么你可以推断出晚高峰时间

了解这些关系可以帮助城市更好地管理高峰时段的交通

并在人们最需要水电资源时提高它们的利用率

对于在前端设备生成的数百 PB 数据将其迁移至集中式的

云环境成本高昂而且效率低下此外集中式的云还面

临着为前端设备提供实时信息的挑战回到我们的道路传

感器实例前端等不及集中式的云来判定是否有汽车闯了

红灯

即时性您需要多快速获得洞察力即时性您需要多快速获得洞察力

所有洞察信息都需要实时提供以供企业从数据中挖掘价

值吗事实上并非所有应用场景都需要实时的分析前

端设备应用可能需要即时反馈以调整设备而基于数据

整合获取洞察力的速度也许并不需要这么快近乎实时

近线(定期批量处理)甚至是批量处理都已足够及时

目前新兴市场中的企业更喜欢实施 Hadoop 框架来处理

基于关系的数据和非结构化数据而在欧洲和美国等更为

成熟的市场传统数据管理系统已经就位它们更喜欢通

过批量处理和近线分析进入大数据分析领域最终一些

公司(甚至是大型互联网公司)将演进为综合使用实时

近乎实时近线和批量处理的方式来应对大数据应用需求

智能联网系统智能联网系统

IDC 将智能系统描述为配备高性能微处理器网络连接能

力和高级操作系统的系统嵌入式处理器不再执行独立的

固定功能而是要将计算性能和集成性融入到支持智能系

统的设备中这些智能系统可结合基于云的应用和分析功

能能够从前端设备数据中获取价值并实现物联网

资料来源ldquoIntelligent Systems Transforming the

Embedded Industry According to IDCrdquo IDC(新闻稿)

(2011 年 9 月 9 日)

idccomgetdocjspcontainerId=prUS23026311

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据9

前端设备数据的应用案例

现在已经有技术能帮助企业构建 ldquo可支持面向大数据的分布式

框架和前端设备数据本地要求的rdquo 架构高性能处理器万兆

位以太网(10GbE)解决方案以及经济的存储选件可以支持

运行 Hadoop 堆栈的集群从独立嵌入式系统到智能互联系

统的演进继续保持强劲发展势头云和大数据分析平台的发

展亦是如此了解前端设备数据使用案例将进一步推动客户

需求标准架构以及可对这些应用情形进行分析的端到端互

操作解决方案的发展这些技术在大多数行业都能够为企业

带来价值以下介绍了来自其中四个行业 mdash 政府零售汽

车和制造业的使用案例

面向大数据的英特尔科学与技术中心 面向大数据的英特尔科学与技术中心 (ISTC)(ISTC)

坐落于麻省理工大学计算机科学与人工智能实验室的最新英

特尔科学与技术中心(ISTC)正在致力于大数据的研究

重点探寻加快大数据创新步伐的方法涉及政府金融服务

医疗卫生与生命科学制造以及零售等多个领域研究以麻

省理工大学为中心其合作方还包括了来自加州大学圣塔芭

芭拉分校波特兰州立大学华盛顿大学和斯坦福大学的教

职员工

智慧城市提升城市的性能智慧城市提升城市的性能

ldquo智慧城市rdquo 这一概念描述了如何使用智能电网基础设施(物

理资本信息和通信技术)提升环境可持续性管理能源

消耗更好地协调公共资源保障城市居民的生活质量以

及规划可持续性增长

英特尔公司目前正在美国欧洲和中国开展智慧城市创新项

目这些项目正在探索如何用处于前端设备的智能系统来改

进城市的环境管理例如公共事业企业和政府正在使用来

自智能电网中的数据了解发电分发和消耗之间的复杂关系

旨在提供可靠的能源并降低运营成本同时消费者也可以

使用来自智能电网的数据更好地管理他们的个人能源需求

例如设定一个 ldquo不在家rdquo 状态可以关上所有灯关闭不使用

的电器以及调节温度

通过在整个电网中实现智能电网设备和计算节点将开启测

量分析和预测功能它们所做出的优化决定更接近于前端

设备而不是仅限于一个集中式的控制中心里设备间的通

信可帮助确定需要在何时及何处生产多少能源也能让消费

者使用家庭管理工具来监控和调整能源消耗

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据10

零售联网商店零售联网商店

如果零售商能够像 Amazoncom 那样了解自己的客户会怎

样传统的商品销售系统可以通过商店行政区地区时

间和商品类别采集销售点数据并将其汇总但在连接至特定

客户时会丢失详细交易可以提供的洞察信息此外数据的

大小详细信息的级别或者成本都可能使零售商在数月内无

法存储库存单位(SKU)的详情Hadoop 框架改变了这一

经济状况它从根本上降低了数据存储的成本并增加了它的

灵活性以获取新的洞察信息规划库存以及更为精确地向

个体消费者而不是群体消费者进行推广

零售商们正在使用各种智能联网系统收集数据和提供即时的

反馈来帮助自身吸引顾客这些系统包括

bull 数字标牌它可以衡量广告效果针对特定受众调整信息

以及提供高度个性化的信息

bull 交易及销售点系统它可以提供产品上市信息建议的优

惠采购机会以及推动追加销售

bull 智能售货机它通过交互式显示屏视频分析数字标牌

吸引路人并通过非现金展示系统分发用于获取新产品创

意反馈意见的样品销售新鲜食品和珠宝的高端配饰

bull 交互式信息亭它是沟通在线与实体商店环境的一个桥

梁可在线或在实体店面中通过购物者特征或其过往的采

购数据针对消费者感兴趣的物口提供建议或指引

bull 数字安全监控它可预防盗窃定位迷路的儿童并收集消费

群体的信息如商店中主要区域的流量以帮助销售产品

从这些系统生成的数据中获取洞察力可助力打造以客户为中

心的 ldquo联网商店rdquo并提供将在线与实体商店运营交织在一起

的 ldquoon-storerdquo 环境为购物者提供在情绪上令其满意的体

验同时优化运营客户可以更快地在多个渠道从其信任的

零售商处找到他们所需的商品并尽享购买流程的每一个阶

段零售商可以将他们的供应链活动与实际的购买者行为相

结合并将所有接触点与特定客户相连接提供出众的购物

体验此外他们还可以为客户提供更多的机会通过更为

丰富的形式客户了解他们的品牌从而加强客户的忠诚度

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据11

汽车行驶中的联网智能汽车行驶中的联网智能

在汽车行业中IT 与消费者体验的融合正在以智能车载系统

的形式快速增长这些系统在汽车与联网设备间(包括消费

电子产品移动设备和传感器)实现了无缝连接正在改变

车内体验除了孩子们喜欢的流视频以外这些系统可以对

多种数据源进行整合和分析提供即时洞察信息 mdash 例如

可以将位置数据与道路施工及其他交通信息相结合来帮助

上班族避开交通阻塞或者选择更为快捷的路线相关的其他

大数据应用可用于帮助

bull 内置摄像头使用了面部识别软件可用于监控驾驶员的精

神状态防止疲劳驾驶系统可以驾驶员读取表情并自动

发布声音警报进行安全停车并根据需要联系紧急服务

bull 驾驶员和乘客的朋友在附近时可通过提供通知提醒其与

朋友联系

bull 提醒驾驶员注意前方的标牌盲点障碍物和道路情况

bull 主动监控汽车运行状况提前预警潜在故障

bull 提供有价值的新型汽车服务和应用改善客户关系管理和

车辆关系管理

bull 使用智能手机遥控解锁汽车或者发出损害或碰撞告警

bull 检测各个方向上的实时交通流量并自动改变交通信号灯

以优化路况

bull 在交通基础设施内通过自动智能实时的决策优化出行

让汽车能够连接道路安全系统和其他车辆

制造智能工厂制造智能工厂

信息技术和操作技术正在以前所未有的方式融入智能工厂

如今大部分工厂都已高度自动化它们专为特定的生产流程

而设计工厂车间里的设备和控制层还无法与业务和帮助公

司运营的数据网络交换信息

而智能工厂可以连接管理层车间和供应链以实现更高级

别的生产控制和效率车间设备中的传感器和致动器(如摄

像头机器人设备和运动控制设备)可生成和使用数据以

提供实时诊断和主动维护进而提升了流程的可视化并增加

了工厂正常运行时间和灵活性

特定使用情形包括

bull 在车间内进行通信并与企业 IT 系统之间实现通信来更

加高效地在工厂资源员工和供应商间进行协调

bull 检测故障情形实现更快的响应速度

bull 实现更出色的环境感知车间的无缝多区域保护本机监

控控制与数据采集(SCADA)支持以及远程设备管理

bull 让机器人可大幅提高生产效率和安全性

bull 监控生产线活动发现产品质量问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据12

前端设备数据下一步发展

大数据将改变企业运营方式而且它已就绪虽然当前大数

据的大部分要素都与社交网络资源有关但是英特尔相信实

现大数据分析必须包括一种可以在网络前端设备利用大数据

潜力的方式

英特尔认为以下的发展趋势对于希望利用前端设备数据源的

企业非常重要

bull 了解使用案例及其含义我们必须了解现有独立数据源如何

演进为一个集成智能和互联系统网络

bull 定义前端设备数据分析的应用模式要求在架构上必须使用

大数据分布式框架将计算迁移至距离数据驻留点更近的位置

并通过智能系统和本地云环境支持前端设备大数据分析

bull 将聚合的数据快速安全地由前端设备分析系统传输至其他

云和分析平台以进行进一步分析

bull 解决与数据所有权互操作性安全性和隐私相关的问题

人们对前端设备数据的兴趣正日益增长而且企业也更好地

了解了如何使用前端设备数据英特尔正处于这一新兴课题

的最前沿并已经在云计算和大数据分析方面处于领先地位

作为开放数据中心联盟(ODCA)(一个由全球 300 多家公

司的 IT 决策者组成的独立 IT 组织)的技术顾问英特尔将在

其新成立的数据服务工作组中发挥主要作用帮助其制定应

用模式要求以支持大数据的安全收集管理和分析推动

Hadoop 框架的性能基准测试的发展以及制定互操作性标

准使大数据框架实现云就绪

此外英特尔不仅能够提供用于智能系统的技术而且其提

供的平台还具备性能出色延迟低吞吐量高的优势能够

处理大型数据集并将其转化为深入的洞察信息

英特尔的技术指南和愿景将能够让大数据为您所用

启动前端设备数据管理和分析启动前端设备数据管理和分析

让您的企业得益于这一高速发展的机遇由此开始做好充分

的准备

bull 保持与时俱进英特尔提供了实践指南来帮助您更快

更安全地部署大数据环境如欲了解更多信息请访问

intelcnbigdata

bull 通过分析前端设备数据发掘商机与业务部门合作了解

现有前端设备系统以及对数据的潜在使用如欲了解更多

信息请访问 intelcomintelligentsystems

如欲了解前端设备数据和大数据分析的更多信息请访问 IT 中心

intelcnbigdata

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001

Page 6: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据5

前端设备的大数据深入了解

目前大部分对于大数据分析的讨论都注重的是管理和分析企

业和社会资源如电子邮件视频推特Facebook 帖子

评论以及 Web 行为中的非结构化数据虽然这种类型的大数

据分析可以为企业提供重要价值但是在网络前端设备那

些从传感器和其他设备生成的数据则展示了另一个巨大的

未开发的资源其可提供能够转化为公共和私营机构运营与

战略计划的洞察力

前端设备数据是一些拥有最大容量最快流动速度和或最复

杂特性的大数据其数据源散布于整个网络之上其数据信

息是通过各种设备如电表交通和安全摄像头RFID 阅读

器工厂生产线上的传感器健身器械以及医疗设备采集而

来无处不在的连接以及传感器和智能系统的发展开启了这

样一个重要信息的全新仓库与过去相比前端设备数据可

作为拥有巨大潜力的资源能够更快更加经济高效地提供

更深入和更丰富的洞察力从而为公共和私营机构带来重要

价值在许多情形中前端设备数据分析能够帮助企业响应

事件并解决之前无法解决的问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据6

作为前端设备数据大小和范围的示例让我们来看一下来自

波音 喷气式飞机引擎的机器生成型数据其每个引擎每小时

可生成 20TB 传感器数据因此拥有四个引擎的大型喷气式

飞机在飞越大西洋上空时会快速生成 640TB 的数据每天都

有超过 25000 次商业航班运行在美国上空其每一天产生

的传感器数据都可以 EB 来计量1

人类也会生成传感数据麻省理工大学媒体实验室认知机器

小组负责人 Deb Roy 自从儿子出生后就对自己家庭中的活

动和声音进行了为期三年的追踪通过对 90000 多小时视

频和 140000 小时音频的分析他绘制出了他的儿子形成表

达能力的图谱从而为人类如何成长和学习提供了重要洞察

信息2

1 Rogers Shawn ldquoBig Data Is Scaling BI and Analyticsrdquo Information Management(2011 年 9 月 1 日)

information-managementcomissues21_5big-data-is-scaling-bi-and-analytics-10021093-1htmlzkPrintable=true

2 Roy Deb ldquoThe Birth of a Wordrdquo TED talk(2011 年 3 月)tedcomtalksdeb_roy_the_birth_of_a_wordhtml

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据7

显然位于前端设备的大数据的范围极其庞大预计 2015

年时联网设备的数量将达到 150 亿 3从前端设备生成的数

据在容量多样性和增长速度上也将持续增加企业如何管

理和利用这一高速发展的数据流呢

有效利用智能系统和传感设备产生的数据

利用传感数据和电网基础设施利用传感数据和电网基础设施

位于前端设备的大数据是由物理对象中的嵌入式传感器和

致动器生成并通过连接它们的有线或无线网络(通常使

用连接至互联网的同一协议)传输的这一捕获和传输数

据的流程通常被称之为 ldquo物联网rdquo(lnternet of Things简

称为 IoT)

物联网是传感数据的主要来源大量的传感数据通过网络流

向本地计算机或云计算环境来进行分析并生成信息供致

动器在物理环境中实现控制通过使用 MapReduce这些

数据将在网络前端设备其所驻留的位置被捕获和处理然后

将被发送至任何一个需要它的位置如果使用了致动器结

果将提供即时反馈使得设备能够修改自身的活动此外

这些数据还可被聚合并转发以进行更多分析

物联网 (loT) 概述物联网 (loT) 概述

bull 传感设备 bull 智能处理与控制 bull 通信互联

3 ldquoGlobal Internet Traffic Projected to Quadruple by 2015rdquo The Network(新闻稿)(2011 年 6 月 1 日)

httpnewsroomciscocompress-release-contenttype=webcontentamparticleId=324003

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据8

技术含义技术含义

如要在数据驻留的位置对其进行分析计算和存储功能必

须实现 ldquo本地化rdquo置于前端设备并在云中这种本地化的

基础设施必须解决数据特性及相关问题所带来的一系列独

特挑战

bull 传感数据量庞大且还在 24-7 全天候地产生和传输

bull 这些数据杂乱无章需要进行预处理

bull 这些数据具有极强的本地特性也就是说设备需要在本地

运行和使用

bull 数据所有权互操作性安全和隐私性都是大问题

如何将其转化为真实案例此处介绍了一个交通和公共安

全方面的实例

bull 道路上的传感器可能属于不同的部门

bull 某些摄像头为公共安全部门所有而另外一些则属于公共

交通部门

bull 数据则由私家车辆上生成

问题可以将这些来自多个系统的数据进行集成和分析

以生成重要的洞察信息吗谁拥有这些由私家车辆生成的

数据这些数据又够安全吗

这些问题值得去解决多个数据流能够显示内联关系这

在整体上具有重要意义近期对中国某个城市的调查显示

如果你可以从供水子系统检测到人们早晨的洗漱时间那

么你就可以推断出早高峰时间同样的如果你可以检测

到办公室晚间断电时间那么你可以推断出晚高峰时间

了解这些关系可以帮助城市更好地管理高峰时段的交通

并在人们最需要水电资源时提高它们的利用率

对于在前端设备生成的数百 PB 数据将其迁移至集中式的

云环境成本高昂而且效率低下此外集中式的云还面

临着为前端设备提供实时信息的挑战回到我们的道路传

感器实例前端等不及集中式的云来判定是否有汽车闯了

红灯

即时性您需要多快速获得洞察力即时性您需要多快速获得洞察力

所有洞察信息都需要实时提供以供企业从数据中挖掘价

值吗事实上并非所有应用场景都需要实时的分析前

端设备应用可能需要即时反馈以调整设备而基于数据

整合获取洞察力的速度也许并不需要这么快近乎实时

近线(定期批量处理)甚至是批量处理都已足够及时

目前新兴市场中的企业更喜欢实施 Hadoop 框架来处理

基于关系的数据和非结构化数据而在欧洲和美国等更为

成熟的市场传统数据管理系统已经就位它们更喜欢通

过批量处理和近线分析进入大数据分析领域最终一些

公司(甚至是大型互联网公司)将演进为综合使用实时

近乎实时近线和批量处理的方式来应对大数据应用需求

智能联网系统智能联网系统

IDC 将智能系统描述为配备高性能微处理器网络连接能

力和高级操作系统的系统嵌入式处理器不再执行独立的

固定功能而是要将计算性能和集成性融入到支持智能系

统的设备中这些智能系统可结合基于云的应用和分析功

能能够从前端设备数据中获取价值并实现物联网

资料来源ldquoIntelligent Systems Transforming the

Embedded Industry According to IDCrdquo IDC(新闻稿)

(2011 年 9 月 9 日)

idccomgetdocjspcontainerId=prUS23026311

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据9

前端设备数据的应用案例

现在已经有技术能帮助企业构建 ldquo可支持面向大数据的分布式

框架和前端设备数据本地要求的rdquo 架构高性能处理器万兆

位以太网(10GbE)解决方案以及经济的存储选件可以支持

运行 Hadoop 堆栈的集群从独立嵌入式系统到智能互联系

统的演进继续保持强劲发展势头云和大数据分析平台的发

展亦是如此了解前端设备数据使用案例将进一步推动客户

需求标准架构以及可对这些应用情形进行分析的端到端互

操作解决方案的发展这些技术在大多数行业都能够为企业

带来价值以下介绍了来自其中四个行业 mdash 政府零售汽

车和制造业的使用案例

面向大数据的英特尔科学与技术中心 面向大数据的英特尔科学与技术中心 (ISTC)(ISTC)

坐落于麻省理工大学计算机科学与人工智能实验室的最新英

特尔科学与技术中心(ISTC)正在致力于大数据的研究

重点探寻加快大数据创新步伐的方法涉及政府金融服务

医疗卫生与生命科学制造以及零售等多个领域研究以麻

省理工大学为中心其合作方还包括了来自加州大学圣塔芭

芭拉分校波特兰州立大学华盛顿大学和斯坦福大学的教

职员工

智慧城市提升城市的性能智慧城市提升城市的性能

ldquo智慧城市rdquo 这一概念描述了如何使用智能电网基础设施(物

理资本信息和通信技术)提升环境可持续性管理能源

消耗更好地协调公共资源保障城市居民的生活质量以

及规划可持续性增长

英特尔公司目前正在美国欧洲和中国开展智慧城市创新项

目这些项目正在探索如何用处于前端设备的智能系统来改

进城市的环境管理例如公共事业企业和政府正在使用来

自智能电网中的数据了解发电分发和消耗之间的复杂关系

旨在提供可靠的能源并降低运营成本同时消费者也可以

使用来自智能电网的数据更好地管理他们的个人能源需求

例如设定一个 ldquo不在家rdquo 状态可以关上所有灯关闭不使用

的电器以及调节温度

通过在整个电网中实现智能电网设备和计算节点将开启测

量分析和预测功能它们所做出的优化决定更接近于前端

设备而不是仅限于一个集中式的控制中心里设备间的通

信可帮助确定需要在何时及何处生产多少能源也能让消费

者使用家庭管理工具来监控和调整能源消耗

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据10

零售联网商店零售联网商店

如果零售商能够像 Amazoncom 那样了解自己的客户会怎

样传统的商品销售系统可以通过商店行政区地区时

间和商品类别采集销售点数据并将其汇总但在连接至特定

客户时会丢失详细交易可以提供的洞察信息此外数据的

大小详细信息的级别或者成本都可能使零售商在数月内无

法存储库存单位(SKU)的详情Hadoop 框架改变了这一

经济状况它从根本上降低了数据存储的成本并增加了它的

灵活性以获取新的洞察信息规划库存以及更为精确地向

个体消费者而不是群体消费者进行推广

零售商们正在使用各种智能联网系统收集数据和提供即时的

反馈来帮助自身吸引顾客这些系统包括

bull 数字标牌它可以衡量广告效果针对特定受众调整信息

以及提供高度个性化的信息

bull 交易及销售点系统它可以提供产品上市信息建议的优

惠采购机会以及推动追加销售

bull 智能售货机它通过交互式显示屏视频分析数字标牌

吸引路人并通过非现金展示系统分发用于获取新产品创

意反馈意见的样品销售新鲜食品和珠宝的高端配饰

bull 交互式信息亭它是沟通在线与实体商店环境的一个桥

梁可在线或在实体店面中通过购物者特征或其过往的采

购数据针对消费者感兴趣的物口提供建议或指引

bull 数字安全监控它可预防盗窃定位迷路的儿童并收集消费

群体的信息如商店中主要区域的流量以帮助销售产品

从这些系统生成的数据中获取洞察力可助力打造以客户为中

心的 ldquo联网商店rdquo并提供将在线与实体商店运营交织在一起

的 ldquoon-storerdquo 环境为购物者提供在情绪上令其满意的体

验同时优化运营客户可以更快地在多个渠道从其信任的

零售商处找到他们所需的商品并尽享购买流程的每一个阶

段零售商可以将他们的供应链活动与实际的购买者行为相

结合并将所有接触点与特定客户相连接提供出众的购物

体验此外他们还可以为客户提供更多的机会通过更为

丰富的形式客户了解他们的品牌从而加强客户的忠诚度

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据11

汽车行驶中的联网智能汽车行驶中的联网智能

在汽车行业中IT 与消费者体验的融合正在以智能车载系统

的形式快速增长这些系统在汽车与联网设备间(包括消费

电子产品移动设备和传感器)实现了无缝连接正在改变

车内体验除了孩子们喜欢的流视频以外这些系统可以对

多种数据源进行整合和分析提供即时洞察信息 mdash 例如

可以将位置数据与道路施工及其他交通信息相结合来帮助

上班族避开交通阻塞或者选择更为快捷的路线相关的其他

大数据应用可用于帮助

bull 内置摄像头使用了面部识别软件可用于监控驾驶员的精

神状态防止疲劳驾驶系统可以驾驶员读取表情并自动

发布声音警报进行安全停车并根据需要联系紧急服务

bull 驾驶员和乘客的朋友在附近时可通过提供通知提醒其与

朋友联系

bull 提醒驾驶员注意前方的标牌盲点障碍物和道路情况

bull 主动监控汽车运行状况提前预警潜在故障

bull 提供有价值的新型汽车服务和应用改善客户关系管理和

车辆关系管理

bull 使用智能手机遥控解锁汽车或者发出损害或碰撞告警

bull 检测各个方向上的实时交通流量并自动改变交通信号灯

以优化路况

bull 在交通基础设施内通过自动智能实时的决策优化出行

让汽车能够连接道路安全系统和其他车辆

制造智能工厂制造智能工厂

信息技术和操作技术正在以前所未有的方式融入智能工厂

如今大部分工厂都已高度自动化它们专为特定的生产流程

而设计工厂车间里的设备和控制层还无法与业务和帮助公

司运营的数据网络交换信息

而智能工厂可以连接管理层车间和供应链以实现更高级

别的生产控制和效率车间设备中的传感器和致动器(如摄

像头机器人设备和运动控制设备)可生成和使用数据以

提供实时诊断和主动维护进而提升了流程的可视化并增加

了工厂正常运行时间和灵活性

特定使用情形包括

bull 在车间内进行通信并与企业 IT 系统之间实现通信来更

加高效地在工厂资源员工和供应商间进行协调

bull 检测故障情形实现更快的响应速度

bull 实现更出色的环境感知车间的无缝多区域保护本机监

控控制与数据采集(SCADA)支持以及远程设备管理

bull 让机器人可大幅提高生产效率和安全性

bull 监控生产线活动发现产品质量问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据12

前端设备数据下一步发展

大数据将改变企业运营方式而且它已就绪虽然当前大数

据的大部分要素都与社交网络资源有关但是英特尔相信实

现大数据分析必须包括一种可以在网络前端设备利用大数据

潜力的方式

英特尔认为以下的发展趋势对于希望利用前端设备数据源的

企业非常重要

bull 了解使用案例及其含义我们必须了解现有独立数据源如何

演进为一个集成智能和互联系统网络

bull 定义前端设备数据分析的应用模式要求在架构上必须使用

大数据分布式框架将计算迁移至距离数据驻留点更近的位置

并通过智能系统和本地云环境支持前端设备大数据分析

bull 将聚合的数据快速安全地由前端设备分析系统传输至其他

云和分析平台以进行进一步分析

bull 解决与数据所有权互操作性安全性和隐私相关的问题

人们对前端设备数据的兴趣正日益增长而且企业也更好地

了解了如何使用前端设备数据英特尔正处于这一新兴课题

的最前沿并已经在云计算和大数据分析方面处于领先地位

作为开放数据中心联盟(ODCA)(一个由全球 300 多家公

司的 IT 决策者组成的独立 IT 组织)的技术顾问英特尔将在

其新成立的数据服务工作组中发挥主要作用帮助其制定应

用模式要求以支持大数据的安全收集管理和分析推动

Hadoop 框架的性能基准测试的发展以及制定互操作性标

准使大数据框架实现云就绪

此外英特尔不仅能够提供用于智能系统的技术而且其提

供的平台还具备性能出色延迟低吞吐量高的优势能够

处理大型数据集并将其转化为深入的洞察信息

英特尔的技术指南和愿景将能够让大数据为您所用

启动前端设备数据管理和分析启动前端设备数据管理和分析

让您的企业得益于这一高速发展的机遇由此开始做好充分

的准备

bull 保持与时俱进英特尔提供了实践指南来帮助您更快

更安全地部署大数据环境如欲了解更多信息请访问

intelcnbigdata

bull 通过分析前端设备数据发掘商机与业务部门合作了解

现有前端设备系统以及对数据的潜在使用如欲了解更多

信息请访问 intelcomintelligentsystems

如欲了解前端设备数据和大数据分析的更多信息请访问 IT 中心

intelcnbigdata

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001

Page 7: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据6

作为前端设备数据大小和范围的示例让我们来看一下来自

波音 喷气式飞机引擎的机器生成型数据其每个引擎每小时

可生成 20TB 传感器数据因此拥有四个引擎的大型喷气式

飞机在飞越大西洋上空时会快速生成 640TB 的数据每天都

有超过 25000 次商业航班运行在美国上空其每一天产生

的传感器数据都可以 EB 来计量1

人类也会生成传感数据麻省理工大学媒体实验室认知机器

小组负责人 Deb Roy 自从儿子出生后就对自己家庭中的活

动和声音进行了为期三年的追踪通过对 90000 多小时视

频和 140000 小时音频的分析他绘制出了他的儿子形成表

达能力的图谱从而为人类如何成长和学习提供了重要洞察

信息2

1 Rogers Shawn ldquoBig Data Is Scaling BI and Analyticsrdquo Information Management(2011 年 9 月 1 日)

information-managementcomissues21_5big-data-is-scaling-bi-and-analytics-10021093-1htmlzkPrintable=true

2 Roy Deb ldquoThe Birth of a Wordrdquo TED talk(2011 年 3 月)tedcomtalksdeb_roy_the_birth_of_a_wordhtml

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据7

显然位于前端设备的大数据的范围极其庞大预计 2015

年时联网设备的数量将达到 150 亿 3从前端设备生成的数

据在容量多样性和增长速度上也将持续增加企业如何管

理和利用这一高速发展的数据流呢

有效利用智能系统和传感设备产生的数据

利用传感数据和电网基础设施利用传感数据和电网基础设施

位于前端设备的大数据是由物理对象中的嵌入式传感器和

致动器生成并通过连接它们的有线或无线网络(通常使

用连接至互联网的同一协议)传输的这一捕获和传输数

据的流程通常被称之为 ldquo物联网rdquo(lnternet of Things简

称为 IoT)

物联网是传感数据的主要来源大量的传感数据通过网络流

向本地计算机或云计算环境来进行分析并生成信息供致

动器在物理环境中实现控制通过使用 MapReduce这些

数据将在网络前端设备其所驻留的位置被捕获和处理然后

将被发送至任何一个需要它的位置如果使用了致动器结

果将提供即时反馈使得设备能够修改自身的活动此外

这些数据还可被聚合并转发以进行更多分析

物联网 (loT) 概述物联网 (loT) 概述

bull 传感设备 bull 智能处理与控制 bull 通信互联

3 ldquoGlobal Internet Traffic Projected to Quadruple by 2015rdquo The Network(新闻稿)(2011 年 6 月 1 日)

httpnewsroomciscocompress-release-contenttype=webcontentamparticleId=324003

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据8

技术含义技术含义

如要在数据驻留的位置对其进行分析计算和存储功能必

须实现 ldquo本地化rdquo置于前端设备并在云中这种本地化的

基础设施必须解决数据特性及相关问题所带来的一系列独

特挑战

bull 传感数据量庞大且还在 24-7 全天候地产生和传输

bull 这些数据杂乱无章需要进行预处理

bull 这些数据具有极强的本地特性也就是说设备需要在本地

运行和使用

bull 数据所有权互操作性安全和隐私性都是大问题

如何将其转化为真实案例此处介绍了一个交通和公共安

全方面的实例

bull 道路上的传感器可能属于不同的部门

bull 某些摄像头为公共安全部门所有而另外一些则属于公共

交通部门

bull 数据则由私家车辆上生成

问题可以将这些来自多个系统的数据进行集成和分析

以生成重要的洞察信息吗谁拥有这些由私家车辆生成的

数据这些数据又够安全吗

这些问题值得去解决多个数据流能够显示内联关系这

在整体上具有重要意义近期对中国某个城市的调查显示

如果你可以从供水子系统检测到人们早晨的洗漱时间那

么你就可以推断出早高峰时间同样的如果你可以检测

到办公室晚间断电时间那么你可以推断出晚高峰时间

了解这些关系可以帮助城市更好地管理高峰时段的交通

并在人们最需要水电资源时提高它们的利用率

对于在前端设备生成的数百 PB 数据将其迁移至集中式的

云环境成本高昂而且效率低下此外集中式的云还面

临着为前端设备提供实时信息的挑战回到我们的道路传

感器实例前端等不及集中式的云来判定是否有汽车闯了

红灯

即时性您需要多快速获得洞察力即时性您需要多快速获得洞察力

所有洞察信息都需要实时提供以供企业从数据中挖掘价

值吗事实上并非所有应用场景都需要实时的分析前

端设备应用可能需要即时反馈以调整设备而基于数据

整合获取洞察力的速度也许并不需要这么快近乎实时

近线(定期批量处理)甚至是批量处理都已足够及时

目前新兴市场中的企业更喜欢实施 Hadoop 框架来处理

基于关系的数据和非结构化数据而在欧洲和美国等更为

成熟的市场传统数据管理系统已经就位它们更喜欢通

过批量处理和近线分析进入大数据分析领域最终一些

公司(甚至是大型互联网公司)将演进为综合使用实时

近乎实时近线和批量处理的方式来应对大数据应用需求

智能联网系统智能联网系统

IDC 将智能系统描述为配备高性能微处理器网络连接能

力和高级操作系统的系统嵌入式处理器不再执行独立的

固定功能而是要将计算性能和集成性融入到支持智能系

统的设备中这些智能系统可结合基于云的应用和分析功

能能够从前端设备数据中获取价值并实现物联网

资料来源ldquoIntelligent Systems Transforming the

Embedded Industry According to IDCrdquo IDC(新闻稿)

(2011 年 9 月 9 日)

idccomgetdocjspcontainerId=prUS23026311

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据9

前端设备数据的应用案例

现在已经有技术能帮助企业构建 ldquo可支持面向大数据的分布式

框架和前端设备数据本地要求的rdquo 架构高性能处理器万兆

位以太网(10GbE)解决方案以及经济的存储选件可以支持

运行 Hadoop 堆栈的集群从独立嵌入式系统到智能互联系

统的演进继续保持强劲发展势头云和大数据分析平台的发

展亦是如此了解前端设备数据使用案例将进一步推动客户

需求标准架构以及可对这些应用情形进行分析的端到端互

操作解决方案的发展这些技术在大多数行业都能够为企业

带来价值以下介绍了来自其中四个行业 mdash 政府零售汽

车和制造业的使用案例

面向大数据的英特尔科学与技术中心 面向大数据的英特尔科学与技术中心 (ISTC)(ISTC)

坐落于麻省理工大学计算机科学与人工智能实验室的最新英

特尔科学与技术中心(ISTC)正在致力于大数据的研究

重点探寻加快大数据创新步伐的方法涉及政府金融服务

医疗卫生与生命科学制造以及零售等多个领域研究以麻

省理工大学为中心其合作方还包括了来自加州大学圣塔芭

芭拉分校波特兰州立大学华盛顿大学和斯坦福大学的教

职员工

智慧城市提升城市的性能智慧城市提升城市的性能

ldquo智慧城市rdquo 这一概念描述了如何使用智能电网基础设施(物

理资本信息和通信技术)提升环境可持续性管理能源

消耗更好地协调公共资源保障城市居民的生活质量以

及规划可持续性增长

英特尔公司目前正在美国欧洲和中国开展智慧城市创新项

目这些项目正在探索如何用处于前端设备的智能系统来改

进城市的环境管理例如公共事业企业和政府正在使用来

自智能电网中的数据了解发电分发和消耗之间的复杂关系

旨在提供可靠的能源并降低运营成本同时消费者也可以

使用来自智能电网的数据更好地管理他们的个人能源需求

例如设定一个 ldquo不在家rdquo 状态可以关上所有灯关闭不使用

的电器以及调节温度

通过在整个电网中实现智能电网设备和计算节点将开启测

量分析和预测功能它们所做出的优化决定更接近于前端

设备而不是仅限于一个集中式的控制中心里设备间的通

信可帮助确定需要在何时及何处生产多少能源也能让消费

者使用家庭管理工具来监控和调整能源消耗

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据10

零售联网商店零售联网商店

如果零售商能够像 Amazoncom 那样了解自己的客户会怎

样传统的商品销售系统可以通过商店行政区地区时

间和商品类别采集销售点数据并将其汇总但在连接至特定

客户时会丢失详细交易可以提供的洞察信息此外数据的

大小详细信息的级别或者成本都可能使零售商在数月内无

法存储库存单位(SKU)的详情Hadoop 框架改变了这一

经济状况它从根本上降低了数据存储的成本并增加了它的

灵活性以获取新的洞察信息规划库存以及更为精确地向

个体消费者而不是群体消费者进行推广

零售商们正在使用各种智能联网系统收集数据和提供即时的

反馈来帮助自身吸引顾客这些系统包括

bull 数字标牌它可以衡量广告效果针对特定受众调整信息

以及提供高度个性化的信息

bull 交易及销售点系统它可以提供产品上市信息建议的优

惠采购机会以及推动追加销售

bull 智能售货机它通过交互式显示屏视频分析数字标牌

吸引路人并通过非现金展示系统分发用于获取新产品创

意反馈意见的样品销售新鲜食品和珠宝的高端配饰

bull 交互式信息亭它是沟通在线与实体商店环境的一个桥

梁可在线或在实体店面中通过购物者特征或其过往的采

购数据针对消费者感兴趣的物口提供建议或指引

bull 数字安全监控它可预防盗窃定位迷路的儿童并收集消费

群体的信息如商店中主要区域的流量以帮助销售产品

从这些系统生成的数据中获取洞察力可助力打造以客户为中

心的 ldquo联网商店rdquo并提供将在线与实体商店运营交织在一起

的 ldquoon-storerdquo 环境为购物者提供在情绪上令其满意的体

验同时优化运营客户可以更快地在多个渠道从其信任的

零售商处找到他们所需的商品并尽享购买流程的每一个阶

段零售商可以将他们的供应链活动与实际的购买者行为相

结合并将所有接触点与特定客户相连接提供出众的购物

体验此外他们还可以为客户提供更多的机会通过更为

丰富的形式客户了解他们的品牌从而加强客户的忠诚度

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据11

汽车行驶中的联网智能汽车行驶中的联网智能

在汽车行业中IT 与消费者体验的融合正在以智能车载系统

的形式快速增长这些系统在汽车与联网设备间(包括消费

电子产品移动设备和传感器)实现了无缝连接正在改变

车内体验除了孩子们喜欢的流视频以外这些系统可以对

多种数据源进行整合和分析提供即时洞察信息 mdash 例如

可以将位置数据与道路施工及其他交通信息相结合来帮助

上班族避开交通阻塞或者选择更为快捷的路线相关的其他

大数据应用可用于帮助

bull 内置摄像头使用了面部识别软件可用于监控驾驶员的精

神状态防止疲劳驾驶系统可以驾驶员读取表情并自动

发布声音警报进行安全停车并根据需要联系紧急服务

bull 驾驶员和乘客的朋友在附近时可通过提供通知提醒其与

朋友联系

bull 提醒驾驶员注意前方的标牌盲点障碍物和道路情况

bull 主动监控汽车运行状况提前预警潜在故障

bull 提供有价值的新型汽车服务和应用改善客户关系管理和

车辆关系管理

bull 使用智能手机遥控解锁汽车或者发出损害或碰撞告警

bull 检测各个方向上的实时交通流量并自动改变交通信号灯

以优化路况

bull 在交通基础设施内通过自动智能实时的决策优化出行

让汽车能够连接道路安全系统和其他车辆

制造智能工厂制造智能工厂

信息技术和操作技术正在以前所未有的方式融入智能工厂

如今大部分工厂都已高度自动化它们专为特定的生产流程

而设计工厂车间里的设备和控制层还无法与业务和帮助公

司运营的数据网络交换信息

而智能工厂可以连接管理层车间和供应链以实现更高级

别的生产控制和效率车间设备中的传感器和致动器(如摄

像头机器人设备和运动控制设备)可生成和使用数据以

提供实时诊断和主动维护进而提升了流程的可视化并增加

了工厂正常运行时间和灵活性

特定使用情形包括

bull 在车间内进行通信并与企业 IT 系统之间实现通信来更

加高效地在工厂资源员工和供应商间进行协调

bull 检测故障情形实现更快的响应速度

bull 实现更出色的环境感知车间的无缝多区域保护本机监

控控制与数据采集(SCADA)支持以及远程设备管理

bull 让机器人可大幅提高生产效率和安全性

bull 监控生产线活动发现产品质量问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据12

前端设备数据下一步发展

大数据将改变企业运营方式而且它已就绪虽然当前大数

据的大部分要素都与社交网络资源有关但是英特尔相信实

现大数据分析必须包括一种可以在网络前端设备利用大数据

潜力的方式

英特尔认为以下的发展趋势对于希望利用前端设备数据源的

企业非常重要

bull 了解使用案例及其含义我们必须了解现有独立数据源如何

演进为一个集成智能和互联系统网络

bull 定义前端设备数据分析的应用模式要求在架构上必须使用

大数据分布式框架将计算迁移至距离数据驻留点更近的位置

并通过智能系统和本地云环境支持前端设备大数据分析

bull 将聚合的数据快速安全地由前端设备分析系统传输至其他

云和分析平台以进行进一步分析

bull 解决与数据所有权互操作性安全性和隐私相关的问题

人们对前端设备数据的兴趣正日益增长而且企业也更好地

了解了如何使用前端设备数据英特尔正处于这一新兴课题

的最前沿并已经在云计算和大数据分析方面处于领先地位

作为开放数据中心联盟(ODCA)(一个由全球 300 多家公

司的 IT 决策者组成的独立 IT 组织)的技术顾问英特尔将在

其新成立的数据服务工作组中发挥主要作用帮助其制定应

用模式要求以支持大数据的安全收集管理和分析推动

Hadoop 框架的性能基准测试的发展以及制定互操作性标

准使大数据框架实现云就绪

此外英特尔不仅能够提供用于智能系统的技术而且其提

供的平台还具备性能出色延迟低吞吐量高的优势能够

处理大型数据集并将其转化为深入的洞察信息

英特尔的技术指南和愿景将能够让大数据为您所用

启动前端设备数据管理和分析启动前端设备数据管理和分析

让您的企业得益于这一高速发展的机遇由此开始做好充分

的准备

bull 保持与时俱进英特尔提供了实践指南来帮助您更快

更安全地部署大数据环境如欲了解更多信息请访问

intelcnbigdata

bull 通过分析前端设备数据发掘商机与业务部门合作了解

现有前端设备系统以及对数据的潜在使用如欲了解更多

信息请访问 intelcomintelligentsystems

如欲了解前端设备数据和大数据分析的更多信息请访问 IT 中心

intelcnbigdata

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001

Page 8: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据7

显然位于前端设备的大数据的范围极其庞大预计 2015

年时联网设备的数量将达到 150 亿 3从前端设备生成的数

据在容量多样性和增长速度上也将持续增加企业如何管

理和利用这一高速发展的数据流呢

有效利用智能系统和传感设备产生的数据

利用传感数据和电网基础设施利用传感数据和电网基础设施

位于前端设备的大数据是由物理对象中的嵌入式传感器和

致动器生成并通过连接它们的有线或无线网络(通常使

用连接至互联网的同一协议)传输的这一捕获和传输数

据的流程通常被称之为 ldquo物联网rdquo(lnternet of Things简

称为 IoT)

物联网是传感数据的主要来源大量的传感数据通过网络流

向本地计算机或云计算环境来进行分析并生成信息供致

动器在物理环境中实现控制通过使用 MapReduce这些

数据将在网络前端设备其所驻留的位置被捕获和处理然后

将被发送至任何一个需要它的位置如果使用了致动器结

果将提供即时反馈使得设备能够修改自身的活动此外

这些数据还可被聚合并转发以进行更多分析

物联网 (loT) 概述物联网 (loT) 概述

bull 传感设备 bull 智能处理与控制 bull 通信互联

3 ldquoGlobal Internet Traffic Projected to Quadruple by 2015rdquo The Network(新闻稿)(2011 年 6 月 1 日)

httpnewsroomciscocompress-release-contenttype=webcontentamparticleId=324003

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据8

技术含义技术含义

如要在数据驻留的位置对其进行分析计算和存储功能必

须实现 ldquo本地化rdquo置于前端设备并在云中这种本地化的

基础设施必须解决数据特性及相关问题所带来的一系列独

特挑战

bull 传感数据量庞大且还在 24-7 全天候地产生和传输

bull 这些数据杂乱无章需要进行预处理

bull 这些数据具有极强的本地特性也就是说设备需要在本地

运行和使用

bull 数据所有权互操作性安全和隐私性都是大问题

如何将其转化为真实案例此处介绍了一个交通和公共安

全方面的实例

bull 道路上的传感器可能属于不同的部门

bull 某些摄像头为公共安全部门所有而另外一些则属于公共

交通部门

bull 数据则由私家车辆上生成

问题可以将这些来自多个系统的数据进行集成和分析

以生成重要的洞察信息吗谁拥有这些由私家车辆生成的

数据这些数据又够安全吗

这些问题值得去解决多个数据流能够显示内联关系这

在整体上具有重要意义近期对中国某个城市的调查显示

如果你可以从供水子系统检测到人们早晨的洗漱时间那

么你就可以推断出早高峰时间同样的如果你可以检测

到办公室晚间断电时间那么你可以推断出晚高峰时间

了解这些关系可以帮助城市更好地管理高峰时段的交通

并在人们最需要水电资源时提高它们的利用率

对于在前端设备生成的数百 PB 数据将其迁移至集中式的

云环境成本高昂而且效率低下此外集中式的云还面

临着为前端设备提供实时信息的挑战回到我们的道路传

感器实例前端等不及集中式的云来判定是否有汽车闯了

红灯

即时性您需要多快速获得洞察力即时性您需要多快速获得洞察力

所有洞察信息都需要实时提供以供企业从数据中挖掘价

值吗事实上并非所有应用场景都需要实时的分析前

端设备应用可能需要即时反馈以调整设备而基于数据

整合获取洞察力的速度也许并不需要这么快近乎实时

近线(定期批量处理)甚至是批量处理都已足够及时

目前新兴市场中的企业更喜欢实施 Hadoop 框架来处理

基于关系的数据和非结构化数据而在欧洲和美国等更为

成熟的市场传统数据管理系统已经就位它们更喜欢通

过批量处理和近线分析进入大数据分析领域最终一些

公司(甚至是大型互联网公司)将演进为综合使用实时

近乎实时近线和批量处理的方式来应对大数据应用需求

智能联网系统智能联网系统

IDC 将智能系统描述为配备高性能微处理器网络连接能

力和高级操作系统的系统嵌入式处理器不再执行独立的

固定功能而是要将计算性能和集成性融入到支持智能系

统的设备中这些智能系统可结合基于云的应用和分析功

能能够从前端设备数据中获取价值并实现物联网

资料来源ldquoIntelligent Systems Transforming the

Embedded Industry According to IDCrdquo IDC(新闻稿)

(2011 年 9 月 9 日)

idccomgetdocjspcontainerId=prUS23026311

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据9

前端设备数据的应用案例

现在已经有技术能帮助企业构建 ldquo可支持面向大数据的分布式

框架和前端设备数据本地要求的rdquo 架构高性能处理器万兆

位以太网(10GbE)解决方案以及经济的存储选件可以支持

运行 Hadoop 堆栈的集群从独立嵌入式系统到智能互联系

统的演进继续保持强劲发展势头云和大数据分析平台的发

展亦是如此了解前端设备数据使用案例将进一步推动客户

需求标准架构以及可对这些应用情形进行分析的端到端互

操作解决方案的发展这些技术在大多数行业都能够为企业

带来价值以下介绍了来自其中四个行业 mdash 政府零售汽

车和制造业的使用案例

面向大数据的英特尔科学与技术中心 面向大数据的英特尔科学与技术中心 (ISTC)(ISTC)

坐落于麻省理工大学计算机科学与人工智能实验室的最新英

特尔科学与技术中心(ISTC)正在致力于大数据的研究

重点探寻加快大数据创新步伐的方法涉及政府金融服务

医疗卫生与生命科学制造以及零售等多个领域研究以麻

省理工大学为中心其合作方还包括了来自加州大学圣塔芭

芭拉分校波特兰州立大学华盛顿大学和斯坦福大学的教

职员工

智慧城市提升城市的性能智慧城市提升城市的性能

ldquo智慧城市rdquo 这一概念描述了如何使用智能电网基础设施(物

理资本信息和通信技术)提升环境可持续性管理能源

消耗更好地协调公共资源保障城市居民的生活质量以

及规划可持续性增长

英特尔公司目前正在美国欧洲和中国开展智慧城市创新项

目这些项目正在探索如何用处于前端设备的智能系统来改

进城市的环境管理例如公共事业企业和政府正在使用来

自智能电网中的数据了解发电分发和消耗之间的复杂关系

旨在提供可靠的能源并降低运营成本同时消费者也可以

使用来自智能电网的数据更好地管理他们的个人能源需求

例如设定一个 ldquo不在家rdquo 状态可以关上所有灯关闭不使用

的电器以及调节温度

通过在整个电网中实现智能电网设备和计算节点将开启测

量分析和预测功能它们所做出的优化决定更接近于前端

设备而不是仅限于一个集中式的控制中心里设备间的通

信可帮助确定需要在何时及何处生产多少能源也能让消费

者使用家庭管理工具来监控和调整能源消耗

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据10

零售联网商店零售联网商店

如果零售商能够像 Amazoncom 那样了解自己的客户会怎

样传统的商品销售系统可以通过商店行政区地区时

间和商品类别采集销售点数据并将其汇总但在连接至特定

客户时会丢失详细交易可以提供的洞察信息此外数据的

大小详细信息的级别或者成本都可能使零售商在数月内无

法存储库存单位(SKU)的详情Hadoop 框架改变了这一

经济状况它从根本上降低了数据存储的成本并增加了它的

灵活性以获取新的洞察信息规划库存以及更为精确地向

个体消费者而不是群体消费者进行推广

零售商们正在使用各种智能联网系统收集数据和提供即时的

反馈来帮助自身吸引顾客这些系统包括

bull 数字标牌它可以衡量广告效果针对特定受众调整信息

以及提供高度个性化的信息

bull 交易及销售点系统它可以提供产品上市信息建议的优

惠采购机会以及推动追加销售

bull 智能售货机它通过交互式显示屏视频分析数字标牌

吸引路人并通过非现金展示系统分发用于获取新产品创

意反馈意见的样品销售新鲜食品和珠宝的高端配饰

bull 交互式信息亭它是沟通在线与实体商店环境的一个桥

梁可在线或在实体店面中通过购物者特征或其过往的采

购数据针对消费者感兴趣的物口提供建议或指引

bull 数字安全监控它可预防盗窃定位迷路的儿童并收集消费

群体的信息如商店中主要区域的流量以帮助销售产品

从这些系统生成的数据中获取洞察力可助力打造以客户为中

心的 ldquo联网商店rdquo并提供将在线与实体商店运营交织在一起

的 ldquoon-storerdquo 环境为购物者提供在情绪上令其满意的体

验同时优化运营客户可以更快地在多个渠道从其信任的

零售商处找到他们所需的商品并尽享购买流程的每一个阶

段零售商可以将他们的供应链活动与实际的购买者行为相

结合并将所有接触点与特定客户相连接提供出众的购物

体验此外他们还可以为客户提供更多的机会通过更为

丰富的形式客户了解他们的品牌从而加强客户的忠诚度

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据11

汽车行驶中的联网智能汽车行驶中的联网智能

在汽车行业中IT 与消费者体验的融合正在以智能车载系统

的形式快速增长这些系统在汽车与联网设备间(包括消费

电子产品移动设备和传感器)实现了无缝连接正在改变

车内体验除了孩子们喜欢的流视频以外这些系统可以对

多种数据源进行整合和分析提供即时洞察信息 mdash 例如

可以将位置数据与道路施工及其他交通信息相结合来帮助

上班族避开交通阻塞或者选择更为快捷的路线相关的其他

大数据应用可用于帮助

bull 内置摄像头使用了面部识别软件可用于监控驾驶员的精

神状态防止疲劳驾驶系统可以驾驶员读取表情并自动

发布声音警报进行安全停车并根据需要联系紧急服务

bull 驾驶员和乘客的朋友在附近时可通过提供通知提醒其与

朋友联系

bull 提醒驾驶员注意前方的标牌盲点障碍物和道路情况

bull 主动监控汽车运行状况提前预警潜在故障

bull 提供有价值的新型汽车服务和应用改善客户关系管理和

车辆关系管理

bull 使用智能手机遥控解锁汽车或者发出损害或碰撞告警

bull 检测各个方向上的实时交通流量并自动改变交通信号灯

以优化路况

bull 在交通基础设施内通过自动智能实时的决策优化出行

让汽车能够连接道路安全系统和其他车辆

制造智能工厂制造智能工厂

信息技术和操作技术正在以前所未有的方式融入智能工厂

如今大部分工厂都已高度自动化它们专为特定的生产流程

而设计工厂车间里的设备和控制层还无法与业务和帮助公

司运营的数据网络交换信息

而智能工厂可以连接管理层车间和供应链以实现更高级

别的生产控制和效率车间设备中的传感器和致动器(如摄

像头机器人设备和运动控制设备)可生成和使用数据以

提供实时诊断和主动维护进而提升了流程的可视化并增加

了工厂正常运行时间和灵活性

特定使用情形包括

bull 在车间内进行通信并与企业 IT 系统之间实现通信来更

加高效地在工厂资源员工和供应商间进行协调

bull 检测故障情形实现更快的响应速度

bull 实现更出色的环境感知车间的无缝多区域保护本机监

控控制与数据采集(SCADA)支持以及远程设备管理

bull 让机器人可大幅提高生产效率和安全性

bull 监控生产线活动发现产品质量问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据12

前端设备数据下一步发展

大数据将改变企业运营方式而且它已就绪虽然当前大数

据的大部分要素都与社交网络资源有关但是英特尔相信实

现大数据分析必须包括一种可以在网络前端设备利用大数据

潜力的方式

英特尔认为以下的发展趋势对于希望利用前端设备数据源的

企业非常重要

bull 了解使用案例及其含义我们必须了解现有独立数据源如何

演进为一个集成智能和互联系统网络

bull 定义前端设备数据分析的应用模式要求在架构上必须使用

大数据分布式框架将计算迁移至距离数据驻留点更近的位置

并通过智能系统和本地云环境支持前端设备大数据分析

bull 将聚合的数据快速安全地由前端设备分析系统传输至其他

云和分析平台以进行进一步分析

bull 解决与数据所有权互操作性安全性和隐私相关的问题

人们对前端设备数据的兴趣正日益增长而且企业也更好地

了解了如何使用前端设备数据英特尔正处于这一新兴课题

的最前沿并已经在云计算和大数据分析方面处于领先地位

作为开放数据中心联盟(ODCA)(一个由全球 300 多家公

司的 IT 决策者组成的独立 IT 组织)的技术顾问英特尔将在

其新成立的数据服务工作组中发挥主要作用帮助其制定应

用模式要求以支持大数据的安全收集管理和分析推动

Hadoop 框架的性能基准测试的发展以及制定互操作性标

准使大数据框架实现云就绪

此外英特尔不仅能够提供用于智能系统的技术而且其提

供的平台还具备性能出色延迟低吞吐量高的优势能够

处理大型数据集并将其转化为深入的洞察信息

英特尔的技术指南和愿景将能够让大数据为您所用

启动前端设备数据管理和分析启动前端设备数据管理和分析

让您的企业得益于这一高速发展的机遇由此开始做好充分

的准备

bull 保持与时俱进英特尔提供了实践指南来帮助您更快

更安全地部署大数据环境如欲了解更多信息请访问

intelcnbigdata

bull 通过分析前端设备数据发掘商机与业务部门合作了解

现有前端设备系统以及对数据的潜在使用如欲了解更多

信息请访问 intelcomintelligentsystems

如欲了解前端设备数据和大数据分析的更多信息请访问 IT 中心

intelcnbigdata

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001

Page 9: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据8

技术含义技术含义

如要在数据驻留的位置对其进行分析计算和存储功能必

须实现 ldquo本地化rdquo置于前端设备并在云中这种本地化的

基础设施必须解决数据特性及相关问题所带来的一系列独

特挑战

bull 传感数据量庞大且还在 24-7 全天候地产生和传输

bull 这些数据杂乱无章需要进行预处理

bull 这些数据具有极强的本地特性也就是说设备需要在本地

运行和使用

bull 数据所有权互操作性安全和隐私性都是大问题

如何将其转化为真实案例此处介绍了一个交通和公共安

全方面的实例

bull 道路上的传感器可能属于不同的部门

bull 某些摄像头为公共安全部门所有而另外一些则属于公共

交通部门

bull 数据则由私家车辆上生成

问题可以将这些来自多个系统的数据进行集成和分析

以生成重要的洞察信息吗谁拥有这些由私家车辆生成的

数据这些数据又够安全吗

这些问题值得去解决多个数据流能够显示内联关系这

在整体上具有重要意义近期对中国某个城市的调查显示

如果你可以从供水子系统检测到人们早晨的洗漱时间那

么你就可以推断出早高峰时间同样的如果你可以检测

到办公室晚间断电时间那么你可以推断出晚高峰时间

了解这些关系可以帮助城市更好地管理高峰时段的交通

并在人们最需要水电资源时提高它们的利用率

对于在前端设备生成的数百 PB 数据将其迁移至集中式的

云环境成本高昂而且效率低下此外集中式的云还面

临着为前端设备提供实时信息的挑战回到我们的道路传

感器实例前端等不及集中式的云来判定是否有汽车闯了

红灯

即时性您需要多快速获得洞察力即时性您需要多快速获得洞察力

所有洞察信息都需要实时提供以供企业从数据中挖掘价

值吗事实上并非所有应用场景都需要实时的分析前

端设备应用可能需要即时反馈以调整设备而基于数据

整合获取洞察力的速度也许并不需要这么快近乎实时

近线(定期批量处理)甚至是批量处理都已足够及时

目前新兴市场中的企业更喜欢实施 Hadoop 框架来处理

基于关系的数据和非结构化数据而在欧洲和美国等更为

成熟的市场传统数据管理系统已经就位它们更喜欢通

过批量处理和近线分析进入大数据分析领域最终一些

公司(甚至是大型互联网公司)将演进为综合使用实时

近乎实时近线和批量处理的方式来应对大数据应用需求

智能联网系统智能联网系统

IDC 将智能系统描述为配备高性能微处理器网络连接能

力和高级操作系统的系统嵌入式处理器不再执行独立的

固定功能而是要将计算性能和集成性融入到支持智能系

统的设备中这些智能系统可结合基于云的应用和分析功

能能够从前端设备数据中获取价值并实现物联网

资料来源ldquoIntelligent Systems Transforming the

Embedded Industry According to IDCrdquo IDC(新闻稿)

(2011 年 9 月 9 日)

idccomgetdocjspcontainerId=prUS23026311

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据9

前端设备数据的应用案例

现在已经有技术能帮助企业构建 ldquo可支持面向大数据的分布式

框架和前端设备数据本地要求的rdquo 架构高性能处理器万兆

位以太网(10GbE)解决方案以及经济的存储选件可以支持

运行 Hadoop 堆栈的集群从独立嵌入式系统到智能互联系

统的演进继续保持强劲发展势头云和大数据分析平台的发

展亦是如此了解前端设备数据使用案例将进一步推动客户

需求标准架构以及可对这些应用情形进行分析的端到端互

操作解决方案的发展这些技术在大多数行业都能够为企业

带来价值以下介绍了来自其中四个行业 mdash 政府零售汽

车和制造业的使用案例

面向大数据的英特尔科学与技术中心 面向大数据的英特尔科学与技术中心 (ISTC)(ISTC)

坐落于麻省理工大学计算机科学与人工智能实验室的最新英

特尔科学与技术中心(ISTC)正在致力于大数据的研究

重点探寻加快大数据创新步伐的方法涉及政府金融服务

医疗卫生与生命科学制造以及零售等多个领域研究以麻

省理工大学为中心其合作方还包括了来自加州大学圣塔芭

芭拉分校波特兰州立大学华盛顿大学和斯坦福大学的教

职员工

智慧城市提升城市的性能智慧城市提升城市的性能

ldquo智慧城市rdquo 这一概念描述了如何使用智能电网基础设施(物

理资本信息和通信技术)提升环境可持续性管理能源

消耗更好地协调公共资源保障城市居民的生活质量以

及规划可持续性增长

英特尔公司目前正在美国欧洲和中国开展智慧城市创新项

目这些项目正在探索如何用处于前端设备的智能系统来改

进城市的环境管理例如公共事业企业和政府正在使用来

自智能电网中的数据了解发电分发和消耗之间的复杂关系

旨在提供可靠的能源并降低运营成本同时消费者也可以

使用来自智能电网的数据更好地管理他们的个人能源需求

例如设定一个 ldquo不在家rdquo 状态可以关上所有灯关闭不使用

的电器以及调节温度

通过在整个电网中实现智能电网设备和计算节点将开启测

量分析和预测功能它们所做出的优化决定更接近于前端

设备而不是仅限于一个集中式的控制中心里设备间的通

信可帮助确定需要在何时及何处生产多少能源也能让消费

者使用家庭管理工具来监控和调整能源消耗

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据10

零售联网商店零售联网商店

如果零售商能够像 Amazoncom 那样了解自己的客户会怎

样传统的商品销售系统可以通过商店行政区地区时

间和商品类别采集销售点数据并将其汇总但在连接至特定

客户时会丢失详细交易可以提供的洞察信息此外数据的

大小详细信息的级别或者成本都可能使零售商在数月内无

法存储库存单位(SKU)的详情Hadoop 框架改变了这一

经济状况它从根本上降低了数据存储的成本并增加了它的

灵活性以获取新的洞察信息规划库存以及更为精确地向

个体消费者而不是群体消费者进行推广

零售商们正在使用各种智能联网系统收集数据和提供即时的

反馈来帮助自身吸引顾客这些系统包括

bull 数字标牌它可以衡量广告效果针对特定受众调整信息

以及提供高度个性化的信息

bull 交易及销售点系统它可以提供产品上市信息建议的优

惠采购机会以及推动追加销售

bull 智能售货机它通过交互式显示屏视频分析数字标牌

吸引路人并通过非现金展示系统分发用于获取新产品创

意反馈意见的样品销售新鲜食品和珠宝的高端配饰

bull 交互式信息亭它是沟通在线与实体商店环境的一个桥

梁可在线或在实体店面中通过购物者特征或其过往的采

购数据针对消费者感兴趣的物口提供建议或指引

bull 数字安全监控它可预防盗窃定位迷路的儿童并收集消费

群体的信息如商店中主要区域的流量以帮助销售产品

从这些系统生成的数据中获取洞察力可助力打造以客户为中

心的 ldquo联网商店rdquo并提供将在线与实体商店运营交织在一起

的 ldquoon-storerdquo 环境为购物者提供在情绪上令其满意的体

验同时优化运营客户可以更快地在多个渠道从其信任的

零售商处找到他们所需的商品并尽享购买流程的每一个阶

段零售商可以将他们的供应链活动与实际的购买者行为相

结合并将所有接触点与特定客户相连接提供出众的购物

体验此外他们还可以为客户提供更多的机会通过更为

丰富的形式客户了解他们的品牌从而加强客户的忠诚度

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据11

汽车行驶中的联网智能汽车行驶中的联网智能

在汽车行业中IT 与消费者体验的融合正在以智能车载系统

的形式快速增长这些系统在汽车与联网设备间(包括消费

电子产品移动设备和传感器)实现了无缝连接正在改变

车内体验除了孩子们喜欢的流视频以外这些系统可以对

多种数据源进行整合和分析提供即时洞察信息 mdash 例如

可以将位置数据与道路施工及其他交通信息相结合来帮助

上班族避开交通阻塞或者选择更为快捷的路线相关的其他

大数据应用可用于帮助

bull 内置摄像头使用了面部识别软件可用于监控驾驶员的精

神状态防止疲劳驾驶系统可以驾驶员读取表情并自动

发布声音警报进行安全停车并根据需要联系紧急服务

bull 驾驶员和乘客的朋友在附近时可通过提供通知提醒其与

朋友联系

bull 提醒驾驶员注意前方的标牌盲点障碍物和道路情况

bull 主动监控汽车运行状况提前预警潜在故障

bull 提供有价值的新型汽车服务和应用改善客户关系管理和

车辆关系管理

bull 使用智能手机遥控解锁汽车或者发出损害或碰撞告警

bull 检测各个方向上的实时交通流量并自动改变交通信号灯

以优化路况

bull 在交通基础设施内通过自动智能实时的决策优化出行

让汽车能够连接道路安全系统和其他车辆

制造智能工厂制造智能工厂

信息技术和操作技术正在以前所未有的方式融入智能工厂

如今大部分工厂都已高度自动化它们专为特定的生产流程

而设计工厂车间里的设备和控制层还无法与业务和帮助公

司运营的数据网络交换信息

而智能工厂可以连接管理层车间和供应链以实现更高级

别的生产控制和效率车间设备中的传感器和致动器(如摄

像头机器人设备和运动控制设备)可生成和使用数据以

提供实时诊断和主动维护进而提升了流程的可视化并增加

了工厂正常运行时间和灵活性

特定使用情形包括

bull 在车间内进行通信并与企业 IT 系统之间实现通信来更

加高效地在工厂资源员工和供应商间进行协调

bull 检测故障情形实现更快的响应速度

bull 实现更出色的环境感知车间的无缝多区域保护本机监

控控制与数据采集(SCADA)支持以及远程设备管理

bull 让机器人可大幅提高生产效率和安全性

bull 监控生产线活动发现产品质量问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据12

前端设备数据下一步发展

大数据将改变企业运营方式而且它已就绪虽然当前大数

据的大部分要素都与社交网络资源有关但是英特尔相信实

现大数据分析必须包括一种可以在网络前端设备利用大数据

潜力的方式

英特尔认为以下的发展趋势对于希望利用前端设备数据源的

企业非常重要

bull 了解使用案例及其含义我们必须了解现有独立数据源如何

演进为一个集成智能和互联系统网络

bull 定义前端设备数据分析的应用模式要求在架构上必须使用

大数据分布式框架将计算迁移至距离数据驻留点更近的位置

并通过智能系统和本地云环境支持前端设备大数据分析

bull 将聚合的数据快速安全地由前端设备分析系统传输至其他

云和分析平台以进行进一步分析

bull 解决与数据所有权互操作性安全性和隐私相关的问题

人们对前端设备数据的兴趣正日益增长而且企业也更好地

了解了如何使用前端设备数据英特尔正处于这一新兴课题

的最前沿并已经在云计算和大数据分析方面处于领先地位

作为开放数据中心联盟(ODCA)(一个由全球 300 多家公

司的 IT 决策者组成的独立 IT 组织)的技术顾问英特尔将在

其新成立的数据服务工作组中发挥主要作用帮助其制定应

用模式要求以支持大数据的安全收集管理和分析推动

Hadoop 框架的性能基准测试的发展以及制定互操作性标

准使大数据框架实现云就绪

此外英特尔不仅能够提供用于智能系统的技术而且其提

供的平台还具备性能出色延迟低吞吐量高的优势能够

处理大型数据集并将其转化为深入的洞察信息

英特尔的技术指南和愿景将能够让大数据为您所用

启动前端设备数据管理和分析启动前端设备数据管理和分析

让您的企业得益于这一高速发展的机遇由此开始做好充分

的准备

bull 保持与时俱进英特尔提供了实践指南来帮助您更快

更安全地部署大数据环境如欲了解更多信息请访问

intelcnbigdata

bull 通过分析前端设备数据发掘商机与业务部门合作了解

现有前端设备系统以及对数据的潜在使用如欲了解更多

信息请访问 intelcomintelligentsystems

如欲了解前端设备数据和大数据分析的更多信息请访问 IT 中心

intelcnbigdata

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001

Page 10: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据9

前端设备数据的应用案例

现在已经有技术能帮助企业构建 ldquo可支持面向大数据的分布式

框架和前端设备数据本地要求的rdquo 架构高性能处理器万兆

位以太网(10GbE)解决方案以及经济的存储选件可以支持

运行 Hadoop 堆栈的集群从独立嵌入式系统到智能互联系

统的演进继续保持强劲发展势头云和大数据分析平台的发

展亦是如此了解前端设备数据使用案例将进一步推动客户

需求标准架构以及可对这些应用情形进行分析的端到端互

操作解决方案的发展这些技术在大多数行业都能够为企业

带来价值以下介绍了来自其中四个行业 mdash 政府零售汽

车和制造业的使用案例

面向大数据的英特尔科学与技术中心 面向大数据的英特尔科学与技术中心 (ISTC)(ISTC)

坐落于麻省理工大学计算机科学与人工智能实验室的最新英

特尔科学与技术中心(ISTC)正在致力于大数据的研究

重点探寻加快大数据创新步伐的方法涉及政府金融服务

医疗卫生与生命科学制造以及零售等多个领域研究以麻

省理工大学为中心其合作方还包括了来自加州大学圣塔芭

芭拉分校波特兰州立大学华盛顿大学和斯坦福大学的教

职员工

智慧城市提升城市的性能智慧城市提升城市的性能

ldquo智慧城市rdquo 这一概念描述了如何使用智能电网基础设施(物

理资本信息和通信技术)提升环境可持续性管理能源

消耗更好地协调公共资源保障城市居民的生活质量以

及规划可持续性增长

英特尔公司目前正在美国欧洲和中国开展智慧城市创新项

目这些项目正在探索如何用处于前端设备的智能系统来改

进城市的环境管理例如公共事业企业和政府正在使用来

自智能电网中的数据了解发电分发和消耗之间的复杂关系

旨在提供可靠的能源并降低运营成本同时消费者也可以

使用来自智能电网的数据更好地管理他们的个人能源需求

例如设定一个 ldquo不在家rdquo 状态可以关上所有灯关闭不使用

的电器以及调节温度

通过在整个电网中实现智能电网设备和计算节点将开启测

量分析和预测功能它们所做出的优化决定更接近于前端

设备而不是仅限于一个集中式的控制中心里设备间的通

信可帮助确定需要在何时及何处生产多少能源也能让消费

者使用家庭管理工具来监控和调整能源消耗

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据10

零售联网商店零售联网商店

如果零售商能够像 Amazoncom 那样了解自己的客户会怎

样传统的商品销售系统可以通过商店行政区地区时

间和商品类别采集销售点数据并将其汇总但在连接至特定

客户时会丢失详细交易可以提供的洞察信息此外数据的

大小详细信息的级别或者成本都可能使零售商在数月内无

法存储库存单位(SKU)的详情Hadoop 框架改变了这一

经济状况它从根本上降低了数据存储的成本并增加了它的

灵活性以获取新的洞察信息规划库存以及更为精确地向

个体消费者而不是群体消费者进行推广

零售商们正在使用各种智能联网系统收集数据和提供即时的

反馈来帮助自身吸引顾客这些系统包括

bull 数字标牌它可以衡量广告效果针对特定受众调整信息

以及提供高度个性化的信息

bull 交易及销售点系统它可以提供产品上市信息建议的优

惠采购机会以及推动追加销售

bull 智能售货机它通过交互式显示屏视频分析数字标牌

吸引路人并通过非现金展示系统分发用于获取新产品创

意反馈意见的样品销售新鲜食品和珠宝的高端配饰

bull 交互式信息亭它是沟通在线与实体商店环境的一个桥

梁可在线或在实体店面中通过购物者特征或其过往的采

购数据针对消费者感兴趣的物口提供建议或指引

bull 数字安全监控它可预防盗窃定位迷路的儿童并收集消费

群体的信息如商店中主要区域的流量以帮助销售产品

从这些系统生成的数据中获取洞察力可助力打造以客户为中

心的 ldquo联网商店rdquo并提供将在线与实体商店运营交织在一起

的 ldquoon-storerdquo 环境为购物者提供在情绪上令其满意的体

验同时优化运营客户可以更快地在多个渠道从其信任的

零售商处找到他们所需的商品并尽享购买流程的每一个阶

段零售商可以将他们的供应链活动与实际的购买者行为相

结合并将所有接触点与特定客户相连接提供出众的购物

体验此外他们还可以为客户提供更多的机会通过更为

丰富的形式客户了解他们的品牌从而加强客户的忠诚度

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据11

汽车行驶中的联网智能汽车行驶中的联网智能

在汽车行业中IT 与消费者体验的融合正在以智能车载系统

的形式快速增长这些系统在汽车与联网设备间(包括消费

电子产品移动设备和传感器)实现了无缝连接正在改变

车内体验除了孩子们喜欢的流视频以外这些系统可以对

多种数据源进行整合和分析提供即时洞察信息 mdash 例如

可以将位置数据与道路施工及其他交通信息相结合来帮助

上班族避开交通阻塞或者选择更为快捷的路线相关的其他

大数据应用可用于帮助

bull 内置摄像头使用了面部识别软件可用于监控驾驶员的精

神状态防止疲劳驾驶系统可以驾驶员读取表情并自动

发布声音警报进行安全停车并根据需要联系紧急服务

bull 驾驶员和乘客的朋友在附近时可通过提供通知提醒其与

朋友联系

bull 提醒驾驶员注意前方的标牌盲点障碍物和道路情况

bull 主动监控汽车运行状况提前预警潜在故障

bull 提供有价值的新型汽车服务和应用改善客户关系管理和

车辆关系管理

bull 使用智能手机遥控解锁汽车或者发出损害或碰撞告警

bull 检测各个方向上的实时交通流量并自动改变交通信号灯

以优化路况

bull 在交通基础设施内通过自动智能实时的决策优化出行

让汽车能够连接道路安全系统和其他车辆

制造智能工厂制造智能工厂

信息技术和操作技术正在以前所未有的方式融入智能工厂

如今大部分工厂都已高度自动化它们专为特定的生产流程

而设计工厂车间里的设备和控制层还无法与业务和帮助公

司运营的数据网络交换信息

而智能工厂可以连接管理层车间和供应链以实现更高级

别的生产控制和效率车间设备中的传感器和致动器(如摄

像头机器人设备和运动控制设备)可生成和使用数据以

提供实时诊断和主动维护进而提升了流程的可视化并增加

了工厂正常运行时间和灵活性

特定使用情形包括

bull 在车间内进行通信并与企业 IT 系统之间实现通信来更

加高效地在工厂资源员工和供应商间进行协调

bull 检测故障情形实现更快的响应速度

bull 实现更出色的环境感知车间的无缝多区域保护本机监

控控制与数据采集(SCADA)支持以及远程设备管理

bull 让机器人可大幅提高生产效率和安全性

bull 监控生产线活动发现产品质量问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据12

前端设备数据下一步发展

大数据将改变企业运营方式而且它已就绪虽然当前大数

据的大部分要素都与社交网络资源有关但是英特尔相信实

现大数据分析必须包括一种可以在网络前端设备利用大数据

潜力的方式

英特尔认为以下的发展趋势对于希望利用前端设备数据源的

企业非常重要

bull 了解使用案例及其含义我们必须了解现有独立数据源如何

演进为一个集成智能和互联系统网络

bull 定义前端设备数据分析的应用模式要求在架构上必须使用

大数据分布式框架将计算迁移至距离数据驻留点更近的位置

并通过智能系统和本地云环境支持前端设备大数据分析

bull 将聚合的数据快速安全地由前端设备分析系统传输至其他

云和分析平台以进行进一步分析

bull 解决与数据所有权互操作性安全性和隐私相关的问题

人们对前端设备数据的兴趣正日益增长而且企业也更好地

了解了如何使用前端设备数据英特尔正处于这一新兴课题

的最前沿并已经在云计算和大数据分析方面处于领先地位

作为开放数据中心联盟(ODCA)(一个由全球 300 多家公

司的 IT 决策者组成的独立 IT 组织)的技术顾问英特尔将在

其新成立的数据服务工作组中发挥主要作用帮助其制定应

用模式要求以支持大数据的安全收集管理和分析推动

Hadoop 框架的性能基准测试的发展以及制定互操作性标

准使大数据框架实现云就绪

此外英特尔不仅能够提供用于智能系统的技术而且其提

供的平台还具备性能出色延迟低吞吐量高的优势能够

处理大型数据集并将其转化为深入的洞察信息

英特尔的技术指南和愿景将能够让大数据为您所用

启动前端设备数据管理和分析启动前端设备数据管理和分析

让您的企业得益于这一高速发展的机遇由此开始做好充分

的准备

bull 保持与时俱进英特尔提供了实践指南来帮助您更快

更安全地部署大数据环境如欲了解更多信息请访问

intelcnbigdata

bull 通过分析前端设备数据发掘商机与业务部门合作了解

现有前端设备系统以及对数据的潜在使用如欲了解更多

信息请访问 intelcomintelligentsystems

如欲了解前端设备数据和大数据分析的更多信息请访问 IT 中心

intelcnbigdata

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001

Page 11: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据10

零售联网商店零售联网商店

如果零售商能够像 Amazoncom 那样了解自己的客户会怎

样传统的商品销售系统可以通过商店行政区地区时

间和商品类别采集销售点数据并将其汇总但在连接至特定

客户时会丢失详细交易可以提供的洞察信息此外数据的

大小详细信息的级别或者成本都可能使零售商在数月内无

法存储库存单位(SKU)的详情Hadoop 框架改变了这一

经济状况它从根本上降低了数据存储的成本并增加了它的

灵活性以获取新的洞察信息规划库存以及更为精确地向

个体消费者而不是群体消费者进行推广

零售商们正在使用各种智能联网系统收集数据和提供即时的

反馈来帮助自身吸引顾客这些系统包括

bull 数字标牌它可以衡量广告效果针对特定受众调整信息

以及提供高度个性化的信息

bull 交易及销售点系统它可以提供产品上市信息建议的优

惠采购机会以及推动追加销售

bull 智能售货机它通过交互式显示屏视频分析数字标牌

吸引路人并通过非现金展示系统分发用于获取新产品创

意反馈意见的样品销售新鲜食品和珠宝的高端配饰

bull 交互式信息亭它是沟通在线与实体商店环境的一个桥

梁可在线或在实体店面中通过购物者特征或其过往的采

购数据针对消费者感兴趣的物口提供建议或指引

bull 数字安全监控它可预防盗窃定位迷路的儿童并收集消费

群体的信息如商店中主要区域的流量以帮助销售产品

从这些系统生成的数据中获取洞察力可助力打造以客户为中

心的 ldquo联网商店rdquo并提供将在线与实体商店运营交织在一起

的 ldquoon-storerdquo 环境为购物者提供在情绪上令其满意的体

验同时优化运营客户可以更快地在多个渠道从其信任的

零售商处找到他们所需的商品并尽享购买流程的每一个阶

段零售商可以将他们的供应链活动与实际的购买者行为相

结合并将所有接触点与特定客户相连接提供出众的购物

体验此外他们还可以为客户提供更多的机会通过更为

丰富的形式客户了解他们的品牌从而加强客户的忠诚度

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据11

汽车行驶中的联网智能汽车行驶中的联网智能

在汽车行业中IT 与消费者体验的融合正在以智能车载系统

的形式快速增长这些系统在汽车与联网设备间(包括消费

电子产品移动设备和传感器)实现了无缝连接正在改变

车内体验除了孩子们喜欢的流视频以外这些系统可以对

多种数据源进行整合和分析提供即时洞察信息 mdash 例如

可以将位置数据与道路施工及其他交通信息相结合来帮助

上班族避开交通阻塞或者选择更为快捷的路线相关的其他

大数据应用可用于帮助

bull 内置摄像头使用了面部识别软件可用于监控驾驶员的精

神状态防止疲劳驾驶系统可以驾驶员读取表情并自动

发布声音警报进行安全停车并根据需要联系紧急服务

bull 驾驶员和乘客的朋友在附近时可通过提供通知提醒其与

朋友联系

bull 提醒驾驶员注意前方的标牌盲点障碍物和道路情况

bull 主动监控汽车运行状况提前预警潜在故障

bull 提供有价值的新型汽车服务和应用改善客户关系管理和

车辆关系管理

bull 使用智能手机遥控解锁汽车或者发出损害或碰撞告警

bull 检测各个方向上的实时交通流量并自动改变交通信号灯

以优化路况

bull 在交通基础设施内通过自动智能实时的决策优化出行

让汽车能够连接道路安全系统和其他车辆

制造智能工厂制造智能工厂

信息技术和操作技术正在以前所未有的方式融入智能工厂

如今大部分工厂都已高度自动化它们专为特定的生产流程

而设计工厂车间里的设备和控制层还无法与业务和帮助公

司运营的数据网络交换信息

而智能工厂可以连接管理层车间和供应链以实现更高级

别的生产控制和效率车间设备中的传感器和致动器(如摄

像头机器人设备和运动控制设备)可生成和使用数据以

提供实时诊断和主动维护进而提升了流程的可视化并增加

了工厂正常运行时间和灵活性

特定使用情形包括

bull 在车间内进行通信并与企业 IT 系统之间实现通信来更

加高效地在工厂资源员工和供应商间进行协调

bull 检测故障情形实现更快的响应速度

bull 实现更出色的环境感知车间的无缝多区域保护本机监

控控制与数据采集(SCADA)支持以及远程设备管理

bull 让机器人可大幅提高生产效率和安全性

bull 监控生产线活动发现产品质量问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据12

前端设备数据下一步发展

大数据将改变企业运营方式而且它已就绪虽然当前大数

据的大部分要素都与社交网络资源有关但是英特尔相信实

现大数据分析必须包括一种可以在网络前端设备利用大数据

潜力的方式

英特尔认为以下的发展趋势对于希望利用前端设备数据源的

企业非常重要

bull 了解使用案例及其含义我们必须了解现有独立数据源如何

演进为一个集成智能和互联系统网络

bull 定义前端设备数据分析的应用模式要求在架构上必须使用

大数据分布式框架将计算迁移至距离数据驻留点更近的位置

并通过智能系统和本地云环境支持前端设备大数据分析

bull 将聚合的数据快速安全地由前端设备分析系统传输至其他

云和分析平台以进行进一步分析

bull 解决与数据所有权互操作性安全性和隐私相关的问题

人们对前端设备数据的兴趣正日益增长而且企业也更好地

了解了如何使用前端设备数据英特尔正处于这一新兴课题

的最前沿并已经在云计算和大数据分析方面处于领先地位

作为开放数据中心联盟(ODCA)(一个由全球 300 多家公

司的 IT 决策者组成的独立 IT 组织)的技术顾问英特尔将在

其新成立的数据服务工作组中发挥主要作用帮助其制定应

用模式要求以支持大数据的安全收集管理和分析推动

Hadoop 框架的性能基准测试的发展以及制定互操作性标

准使大数据框架实现云就绪

此外英特尔不仅能够提供用于智能系统的技术而且其提

供的平台还具备性能出色延迟低吞吐量高的优势能够

处理大型数据集并将其转化为深入的洞察信息

英特尔的技术指南和愿景将能够让大数据为您所用

启动前端设备数据管理和分析启动前端设备数据管理和分析

让您的企业得益于这一高速发展的机遇由此开始做好充分

的准备

bull 保持与时俱进英特尔提供了实践指南来帮助您更快

更安全地部署大数据环境如欲了解更多信息请访问

intelcnbigdata

bull 通过分析前端设备数据发掘商机与业务部门合作了解

现有前端设备系统以及对数据的潜在使用如欲了解更多

信息请访问 intelcomintelligentsystems

如欲了解前端设备数据和大数据分析的更多信息请访问 IT 中心

intelcnbigdata

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001

Page 12: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据11

汽车行驶中的联网智能汽车行驶中的联网智能

在汽车行业中IT 与消费者体验的融合正在以智能车载系统

的形式快速增长这些系统在汽车与联网设备间(包括消费

电子产品移动设备和传感器)实现了无缝连接正在改变

车内体验除了孩子们喜欢的流视频以外这些系统可以对

多种数据源进行整合和分析提供即时洞察信息 mdash 例如

可以将位置数据与道路施工及其他交通信息相结合来帮助

上班族避开交通阻塞或者选择更为快捷的路线相关的其他

大数据应用可用于帮助

bull 内置摄像头使用了面部识别软件可用于监控驾驶员的精

神状态防止疲劳驾驶系统可以驾驶员读取表情并自动

发布声音警报进行安全停车并根据需要联系紧急服务

bull 驾驶员和乘客的朋友在附近时可通过提供通知提醒其与

朋友联系

bull 提醒驾驶员注意前方的标牌盲点障碍物和道路情况

bull 主动监控汽车运行状况提前预警潜在故障

bull 提供有价值的新型汽车服务和应用改善客户关系管理和

车辆关系管理

bull 使用智能手机遥控解锁汽车或者发出损害或碰撞告警

bull 检测各个方向上的实时交通流量并自动改变交通信号灯

以优化路况

bull 在交通基础设施内通过自动智能实时的决策优化出行

让汽车能够连接道路安全系统和其他车辆

制造智能工厂制造智能工厂

信息技术和操作技术正在以前所未有的方式融入智能工厂

如今大部分工厂都已高度自动化它们专为特定的生产流程

而设计工厂车间里的设备和控制层还无法与业务和帮助公

司运营的数据网络交换信息

而智能工厂可以连接管理层车间和供应链以实现更高级

别的生产控制和效率车间设备中的传感器和致动器(如摄

像头机器人设备和运动控制设备)可生成和使用数据以

提供实时诊断和主动维护进而提升了流程的可视化并增加

了工厂正常运行时间和灵活性

特定使用情形包括

bull 在车间内进行通信并与企业 IT 系统之间实现通信来更

加高效地在工厂资源员工和供应商间进行协调

bull 检测故障情形实现更快的响应速度

bull 实现更出色的环境感知车间的无缝多区域保护本机监

控控制与数据采集(SCADA)支持以及远程设备管理

bull 让机器人可大幅提高生产效率和安全性

bull 监控生产线活动发现产品质量问题

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据12

前端设备数据下一步发展

大数据将改变企业运营方式而且它已就绪虽然当前大数

据的大部分要素都与社交网络资源有关但是英特尔相信实

现大数据分析必须包括一种可以在网络前端设备利用大数据

潜力的方式

英特尔认为以下的发展趋势对于希望利用前端设备数据源的

企业非常重要

bull 了解使用案例及其含义我们必须了解现有独立数据源如何

演进为一个集成智能和互联系统网络

bull 定义前端设备数据分析的应用模式要求在架构上必须使用

大数据分布式框架将计算迁移至距离数据驻留点更近的位置

并通过智能系统和本地云环境支持前端设备大数据分析

bull 将聚合的数据快速安全地由前端设备分析系统传输至其他

云和分析平台以进行进一步分析

bull 解决与数据所有权互操作性安全性和隐私相关的问题

人们对前端设备数据的兴趣正日益增长而且企业也更好地

了解了如何使用前端设备数据英特尔正处于这一新兴课题

的最前沿并已经在云计算和大数据分析方面处于领先地位

作为开放数据中心联盟(ODCA)(一个由全球 300 多家公

司的 IT 决策者组成的独立 IT 组织)的技术顾问英特尔将在

其新成立的数据服务工作组中发挥主要作用帮助其制定应

用模式要求以支持大数据的安全收集管理和分析推动

Hadoop 框架的性能基准测试的发展以及制定互操作性标

准使大数据框架实现云就绪

此外英特尔不仅能够提供用于智能系统的技术而且其提

供的平台还具备性能出色延迟低吞吐量高的优势能够

处理大型数据集并将其转化为深入的洞察信息

英特尔的技术指南和愿景将能够让大数据为您所用

启动前端设备数据管理和分析启动前端设备数据管理和分析

让您的企业得益于这一高速发展的机遇由此开始做好充分

的准备

bull 保持与时俱进英特尔提供了实践指南来帮助您更快

更安全地部署大数据环境如欲了解更多信息请访问

intelcnbigdata

bull 通过分析前端设备数据发掘商机与业务部门合作了解

现有前端设备系统以及对数据的潜在使用如欲了解更多

信息请访问 intelcomintelligentsystems

如欲了解前端设备数据和大数据分析的更多信息请访问 IT 中心

intelcnbigdata

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001

Page 13: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据12

前端设备数据下一步发展

大数据将改变企业运营方式而且它已就绪虽然当前大数

据的大部分要素都与社交网络资源有关但是英特尔相信实

现大数据分析必须包括一种可以在网络前端设备利用大数据

潜力的方式

英特尔认为以下的发展趋势对于希望利用前端设备数据源的

企业非常重要

bull 了解使用案例及其含义我们必须了解现有独立数据源如何

演进为一个集成智能和互联系统网络

bull 定义前端设备数据分析的应用模式要求在架构上必须使用

大数据分布式框架将计算迁移至距离数据驻留点更近的位置

并通过智能系统和本地云环境支持前端设备大数据分析

bull 将聚合的数据快速安全地由前端设备分析系统传输至其他

云和分析平台以进行进一步分析

bull 解决与数据所有权互操作性安全性和隐私相关的问题

人们对前端设备数据的兴趣正日益增长而且企业也更好地

了解了如何使用前端设备数据英特尔正处于这一新兴课题

的最前沿并已经在云计算和大数据分析方面处于领先地位

作为开放数据中心联盟(ODCA)(一个由全球 300 多家公

司的 IT 决策者组成的独立 IT 组织)的技术顾问英特尔将在

其新成立的数据服务工作组中发挥主要作用帮助其制定应

用模式要求以支持大数据的安全收集管理和分析推动

Hadoop 框架的性能基准测试的发展以及制定互操作性标

准使大数据框架实现云就绪

此外英特尔不仅能够提供用于智能系统的技术而且其提

供的平台还具备性能出色延迟低吞吐量高的优势能够

处理大型数据集并将其转化为深入的洞察信息

英特尔的技术指南和愿景将能够让大数据为您所用

启动前端设备数据管理和分析启动前端设备数据管理和分析

让您的企业得益于这一高速发展的机遇由此开始做好充分

的准备

bull 保持与时俱进英特尔提供了实践指南来帮助您更快

更安全地部署大数据环境如欲了解更多信息请访问

intelcnbigdata

bull 通过分析前端设备数据发掘商机与业务部门合作了解

现有前端设备系统以及对数据的潜在使用如欲了解更多

信息请访问 intelcomintelligentsystems

如欲了解前端设备数据和大数据分析的更多信息请访问 IT 中心

intelcnbigdata

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001

Page 14: 愿景文件 分布式数据挖掘与 大数据 - Intel...愿景文件 分布式数据挖掘与 大数据 英特尔对于网络前端设备的数据的观点 为什么应该阅读本文档

英特尔 IT 中心 愿景文件 | 分布式数据挖掘与大数据13

与同事分享

本文件仅用于参考目的本文件不构成对任何知识产权的授权包括明示的暗示的也无论是基于禁止反言的原则或其他除英特尔产品销

售的条款和条件规定的责任外英特尔不承担任何其他责任英特尔在此作出免责声明本文件不构成英特尔关于其产品的使用和或销售的

任何明示或暗示的保证包括不就其产品的(i)对某一特定用途的适用性(ii)适销性以及(iii)对任何专利版权或其他知识产权的侵害

的承担任何责任或作出任何担保

英特尔公司 copy 2012 年版权所有所有权保留英特尔Intel 标识英特尔与你共创明天 和 Intel Sponsors of Tomorrow 标识是英特尔在

美国和或其他国家的商标

其他的名称和品牌可能是其他所有者的资产

0812RFMEPDF-CN 327826-001