20
նඔऌԷᄯഅြᆴնБބႿა༏Ⴊ൝ਵჴ߶ (Leadership Council for Information Advantage) ჴ߶Ӯჴ Rich AdduciڬሹҊ൮༜༏ѯൖ࿐܄Dave Blueఒြඔऌڛༀѯၻ܄Guy Chiarello൮༜༏ଉ۴ն๙܄John ChickeringڬሹҊڶղሧ Dimitris Mavroyiannis൮༜༏ Eurobank EFG Group Sanjay MirchandaniڬሹҊ൮༜༏ EMC Corporation Joe Solimandoಆ౯ᄎႏބڬሹҊ൮༜༏ ൖཨٮ Deirdre WoodsڬჽӉ൮༜༏џ༓مն࿐ അ࿐ჽ หჿለದ Johann Schleier-SmithކԷದ൮༜ඌ Tagged.com Ian Willsonѯၻඌჴ IT ఒြ༢ܒࢲ ѯၻ܄EMC ༏౦Б൙ြᇶϷ၂ཛြ

Bigdata bizoppor

Embed Size (px)

Citation preview

Page 1: Bigdata bizoppor

大数据:创造商业价值的大机遇

报告和建议基于与信息优势领导委员会 (Leadership Council

for Information Advantage) 的讨论

委员会成员

Rich Adduci,副总裁兼首席信息官,波士顿科学公司

Dave Blue,企业数据服务高级经理,波音公司

Guy Chiarello,首席信息官,摩根大通公司

John Chickering,副总裁,富达投资集团

Dimitris Mavroyiannis,集团首席信息官,

Eurobank EFG Group

Sanjay Mirchandani,高级副总裁兼首席信息官,

EMC Corporation

Joe Solimando,全球运营和技术高级副总裁兼首席信息官,迪士尼消费品部

Deirdre Woods,副院长兼首席信息官,宾夕法尼亚大学沃顿商学院

特约撰稿人

Johann Schleier-Smith,联合创始人兼首席技术官,

Tagged.com

Ian Willson,波音技术研究员兼 IT 企业体系结构,

波音公司

由 EMC 信息情报事业部主办的一项行业活动

Page 2: Bigdata bizoppor

2

EMC 诚邀您下载领导委员会的报告并

参与我们的“领先与创新”网站上的

其他首席信息官对话,网址是:

http://www.EMC2.com.cn/leadership。

信息优势定义

信息优势是指培育思维、技能、流程和

技术,旨在利用信息更高效地工作、提

高客户忠诚度、增加市场份额以及创造

商机,做之前所不能做之事。

关于信息优势领导委员会

移动网络、云计算以及新技术的激增催生了不可思议的庞大信息帝国。竞争形

势变幻莫测,数据如洪水般泛滥,这给所有领域的领导者都带来了新的挑战,

他们需要利用信息的力量制定更优越、更适时的决策,确定公司如何做竞争的

优秀弄潮儿,不断成长,并且创造新的价值来源。

信息已成为竞争优势的有力来源 — 可能与组织的资本资产以及人才相当。正

是基于这样的原因,EMC 召集成立了信息优势领导委员会。这是一个由来自多

个行业内“具备信息优势”的企业、组织的全球信息领袖组成的咨询小组,他

们所在的企业或组织成功利用信息变革了自己的竞争和运营方式。我们定期与

委员会成员举行深入访谈,并以系列报告的形式发布他们的观点。这些报告提

供毫无偏见的经验总结、经过实践证明的最佳做法以及有关如何将信息转变为

商业价值的专家指导。

本篇报告是信息优势领导委员会系列报告中的第三篇,其中从执行官的高度指

导组织可以如何开始进行获取“大数据”价值所需的组织变革,即以极具规模

效益的经济方式处理数据的方法和技术。未来报告将探讨利用信息获取业务优

势的其他主题和战略。

Page 3: Bigdata bizoppor

3

目录

大数据:创造商业价值的大机遇

执行摘要 ..............................................................................................................................................................4

什么是大数据? ............................................................................................................................................5

我们的数字世界:新数据集,新发展前景 ...........................................................................................................6

利用大数据增强 BI:实现“高清”业务可见性 ............................................................................................7

重新思考数据的智慧:“多”即是多 ..................................................................................................................8

构建适合大数据的基础架构 .........................................................................................................................8

对 Tagged.com 来说,大数据是产品创新的核心 .................................................................................................9

云中的大数据 ............................................................................................................................................ 10

大数据路线图:成功攻略 ..................................................................................................................................11

思维转变和岗位轮换:信息的民主化 ................................................................................................................15

结论 ...................................................................................................................................................................16

信息优势领导委员会成员和特约撰稿人履历 .....................................................................................................17

Page 4: Bigdata bizoppor

4

执行摘要

当今企业变动的速度以及数字世界所创造的海量数据要求

采用新方法来从数据中提取价值。在结构化和非结构化数

据流背后,蕴藏着一些问题的答案,但企业甚至都没有想

到要问这些问题,或者由于技术限制尚未能提问这些问

题。当今企业变动的速度以及所创造的海量数据迫使组

织寻找接近数据的新方式 — 找出其中蕴藏着什么以及如

何加以利用。存储、网络和计算技术领域的最新发展使得

组织能经济、高效地利用大数据并将其转变为业务优势的

有力来源。

Forrester Research 估计组织仅有效利用了不到 5% 的可用

数据。这是因为要处理其余数据代价不菲。大数据技术和

方法是一项重要进步,因为它们使得组织能经济、高效

地处理目前忽视的那 95% 的数据。想想优点:如果两家

公司以相同的效率利用数据,但其中一家处理 15% 的数

据,而另一家只能处理 5%,哪家公司更有可能胜出?

如果使用正确,大数据可以带来洞察力,从而制定、改善

或重导业务计划;发现运营路障;简化供应链;更好地理

解客户;以及开发新产品、服务和业务模式。

利用大数据的一些示例包括:

• 美国联邦政府从 172 家代理处和分代理处收集了 370,000

多份原始地理空间数据集。它要利用这些数据提供一

个可访问 230 个公民开发的应用程序的入口,以增强

公众对非私有或非分级信息的访问。

• 专业社交网络 LinkedIn 使用来自其 1 亿多用户的数

据,根据用户自己对技能集的定义构建新社交产品。

• Silver Spring Networks 为公用事业客户部署智能、双

向电网,利用数字技术从多个来源向消费者提供更可

靠的能源,并使业主可向公用事业反馈信息,以帮助

管理能源使用和最大化能效。

• Jeffrey Brenner and the Camden Coalition 将城市的犯罪

趋势制成地图,以发现该市医疗保健体系的问题,从

而找出医疗效率低下、医疗费用高的服务。

尽管对大数据的有用性有了清晰的认识,但通往大数据生

产率的道路仍不明确。成功利用大数据洞察力要求在成熟

技术、新式工作人员技能和领导力重心方面具有实际投

入。组织必须结合三个战略层面,即技术、组织、文化,

才能实施适合业务及其目标的大数据平台。

信息优势领导委员会特别制定了一个路线图,以便公司沿

大数据学习曲线上升,更好地利用其信息:

1. 从现有出发。通过集成、标记和其他方法准备现有数

据存储区,收集新数据的压倒性任务应退居二线,首

先应是处理现有数据集。组织需要一个考虑周全的战

略来将大数据集成到他们的信息体系结构中,以便大

数据成为平台的核心部分及其经营方式。委员会成员

建议组织成立一个由业务和技术领导组成的团队,工

作重点放在大数据上,以考虑这些问题并作周密计划

来迎接机遇。

Page 5: Bigdata bizoppor

5

2. 业务线领导和 IT 专业人员应紧密合作,以确定哪个现有数据池具有最大价

值。挑选出新洞察力将带来最大影响的业务领域,然后优先排列相关数据

进行分析,并构建测试用例。找到对业务充满热情的人员,并尽早在这些

人身上投资。

3. 几个测试用例生成结果后,开始探索其他用途和数据组合,以创建新洞察

力。激发业务领导的想像力,提问之前未曾考虑过的问题;并激发 IT 部门

的创造力,以新方式叠加毫不相干的数据类型。

4. 为确保得到的洞察力可操作,请尽早解决任何潜在的安全性、隐私、法规

遵从性或责任问题。考虑大数据方法与传统方法有何不同,并相应审查和

更新数据策略。确保有关数据操作的来源、使用和结果的所有顾虑都已得

到解决。此外,组织还需要创造性地思考如何修改业务流程和工作流,以

充分利用从大数据总结出的经验。

5. 培育人力资本以利用大数据机遇和洞察力可能比培育适当的大数据技术和

流程更具挑战性。组织需要在人才花名册中增加数据科学家 — 这些人具有

敏锐的商业嗅觉,同时又具备分析创造力和技术专长。大数据专家需要在

业务和 IT 之间搭建桥梁,而他们的技能集必须超越传统的 DBMS 和 BI。

最后,组织如何利用大数据洞察力才是带来不同的关键。利用大数据要求组织

在看待数据在企业中的角色上有深刻改变。总监们应重组各部门,以促进数据

推动的决策,确保用于捕获数据的工具到位,并鼓励自由操作数据以获得洞察

力。IT 组织必须能存储和处理大数据,提供可获得、方便使用且与业务流程相

集成的分析工具。

大数据在未来数年将产生巨大的影响。高级执行官们应该开始考虑公司如何才

能从源于大数据的新洞察力受益。

什么是大数据?

大数据并不是一个精确的术语;相

反,它是对各类数据(其中大多数

是非结构化)永不休止的积聚的一

种表征。它用以描述那些呈指数级

增长,并且因太大、太原始或非结

构化程度太高而无法使用关系数据

库方法进行分析的数据集。不论是

数 TB 还是数 PB,数据的精确数量不

如数据的最终结果以及数据如何使

用重要。

“我的看法是,浪费数据是件糟糕

的事。信息具有可贵价值。在经营

我们的公司时,我们希望确保不会

对任何价值视而不见 — 这种价值可

用来创造更好的客户体验或公司的

更佳财务业绩。”

— Johann Schleier-Smith,Tagged.com

Page 6: Bigdata bizoppor

6

我们的数字世界:新数据集,新发展前景

数据增长看不到尽头。随着企业数据量相继冲破 TB 和数十 PB 的大关,业务和

IT 领导面临着利用此类数据获得竞争优势的绝佳时机。调整其流程、运营和公

司文化以拥抱和利用大数据的公司将获得适时、格外突出的洞察力的优势;而

没有这样做的公司将面临被淘汰出局的风险。

根据由 EMC 委托进行的 2011 年 IDC 数字世界研究,本年创造和复制的信息量

将超过 1.8 ZB(1.8 万亿 GB),五年内便增长了 9 倍。值得注意的是,根据该

项研究,个人创造的信息量(文档、照片、音乐文件、博客帖子等)远少于数

字世界中创造的、有关他们的信息量。有关数据的数据,也即元数据,其增长

速度是整个数字世界的两倍。

光网站生成的数据量就让人咋舌。Facebook 有超过 8 亿活动用户,而人们与

之交互的对象(页面、小组、活动和社区页面)超过了 9 亿。Facebook 用户

每个月要花 7 千亿分钟在该网站上,每个月平均创造 90 份内容并共享 300 亿

份内容。Facebook 的数据基础架构团队负责快速分析所有该类数据并以最相

关的方式呈现给用户。他们将偏好、使用和情绪视为发布新产品的基础。

正如 Facebook 所证实的那样,大数据使得创新业务模式、产品和服务成为可

能。它为公司带来了一种超越竞争对手的方法。根据 2011 年 5 月 McKinsey

Global Institute 的报告,迎接大数据的零售商具有将运营利润提高 60% 的潜力。

很多公司都在利用这些数据和其他来源的数据更好地了解其客户、员工、合作

伙伴和运营,目的是改善业务的方方面面。事实上,信息优势领导委员会预期

数据将像 IT 在过去 20 年那样提高企业生产率。大数据具有改进业务的潜能,

认清这一点的公司将成为全球市场的领导者。

“数据增长是所有人都在试图应付的

事。我们看到数据每年都在激增,我

想大家也都这么认为。找出有效方法

控制成本以使其不偏离预算是个问

题。另一个重大挑战是处理非结构化

数据。如何有效管理这类数据?如何

控制这类数据的增长?如何在实际使

用中使这类数据成为信息结构的一部

分,以便人们可利用这一结构来做出

决策或查找信息?”

— Rich Aducci,波士顿科学公司

Page 7: Bigdata bizoppor

7

利用大数据增强 BI:实现“高清”业务可见性

“大数据”一词涵盖的不仅仅是结构化和基于事务的数据。它还包括视

频、RFID 日志、社交网络对话、传感器网络、搜索索引、环境条件、医学检

查、“数据废气”(网络浏览者单击后在 Internet 上留下来的痕迹)等等。任

何可数字化的东西都会生成有关谁在使用它、他们如何使用它、甚至他们为何

使用它的数据。大数据并不总是新数据,有时也指以不同方式看待的现有数

据。目前,生成的数据已超过计算机网络所能传输的数据。

大数据方法是业务智能 (BI) 工具的补充,可从企业信息中开启价值。BI 传统上

执行结构化分析并提供观察业务绩效的后视镜,而大数据分析提供一种前瞻视

野,使组织能预见未来商机并相应展开行动。

简单的报告、电子表格,甚至相对复杂的深入查看分析,已经成为司空见惯的

BI 预期。但是,还有一些 BI 不能处理的分析类型,尤其是当数据集越来越多

样化、粒度更细、变得实时和具有迭代性时,这要求组织可在条件改变之前的

特定时间快速获取深入信息。这些类型的非结构化、数量庞大、且快速变化的

数据(即大数据)打破了关系数据库模型。这类数据要求采用新型技术和分析

方法来提取价值。例如,当组织需要进行预测分析、自然语言处理、图像分析

或高级统计方法(如离散选择建模和数学优化),甚至当他们想要捣烂非结构

化内容并连同其 BI 混合一同分析时,大数据方法非常重要。

利用大数据来增强 BI 的公司必定能获得对其业务更为全面的认识。这就像从只

具有基本网络频道的模拟信号电视过渡到具有付费有线电视频道的高清电视。

组织得到的结果是对业务情况的“高清”可见性,这种可见性能得到丰富、范

围广泛、更精确、更可操作的洞察力,从而帮助应对客户需求、运营风险以及

绩效机会,这不仅在企业内部,还在扩展供应链上。借助大数据分析,公司不

仅可以了解目前发生的情况以及原因,还可以领会到其他可能发生的事情。

Page 8: Bigdata bizoppor

8

重新思考数据的智慧:“多”即是多

传统的思考方式认为数据太多是件坏事,因为不断增加的数据增加了基础架构

成本,而且管理和挖掘起来难以控制。现在,公司渐渐认识到多才是好,因为

大数据提供了营利、提高效率和获得竞争优势的新方式。

全球经济各个领域的公司都开始从大数据受益。但是,有的行业利用大数据

相对来说较为容易。在 IT 方面积极投入的领域在应对技术转变时准备得更充

分。习惯依赖数据获得商业情报的行业将更快适应大数据,并在将数据转化

为洞察力上更老练。委员会成员预期较早采用大数据分析的公司将包括金融服

务、零售业、制造业和 Internet 媒体行业。

最终,大数据的优势体现在适时、深入的业务洞察力。得到这些洞察力需要时

间和新的思维方式,因此企业领导人应开始考虑其组织必须进行的基础架构、

人事和文化变革。

构建适合大数据的基础架构

在全新的数据增长速度条件下,一切都必须重新评估。企业在新基础架构上进

行了大量投入,以捕获、存储、聚合、管理、治理和分析数据 — 这项工作必

须从全盘着手,并考虑大数据分析。要容纳数据本身,IT 基础架构必须能够以

经济的方式存储比以往更大量、类型更多的数据。此外,还必须能适应数据速

度,即数据变化的速度。

数量如此大的数据难以在当今的网络连接条件下快速来回移动。大数据基础架

构必须分布计算能力,以便能在接近用户的位置进行数据分析,避免跨越网络

所固有的延迟。随着组织认识到必需在数据驻留的位置进行分析,分布这类计

算能力以为分析工具提供动力并提供实时响应将带来挑战。委员会成员预见这

样一个趋势:由于数据速度和数据量,来回移动数据进行处理不现实。相反,

计算和分析工具可能会移到数据近旁。而且,委员会成员还认为云计算模式对

大数据项目(参见第 10 页的侧栏)的成功至关重要。

“能查看大数据可缩短您获得信息

的时间,而信息具有即时价值。例

如,假设我想了解某个新产品的发

布情况,我可以分析数百万个社交

媒体对话,立刻得知是否成功,而

不需要像客户满意度调查那样等待

数月。”

— Guy Chiarello,摩根大通公司

“这不仅仅是一场技术转变。思维也

需要转变:即您可以用数据做些什

么。多年来,首席信息官一直需要管

理信息。这无外乎有效管理信息:您

可以压缩多少、消除多少重复数据、

拍摄快照以及展开相应行动。规划大

数据可提高这些工作的效率,因此您

可以非常快速地利用这些数据完成

更多工作。传统 IT 组织对数据仓库

存储和业务智能毫不陌生,其中数据

每月更新一次、两次或可能四次。现

在,我们已经到了可以通过实时、正

常运行时间数据随时访问所有内容的

时代。”

— Sanjay Mirchandani,EMC

Page 9: Bigdata bizoppor

9

对 Tagged.com 来说,大数据是产品创新的核心

Tagged.com 采取了一种新的社交网络方式。与让人联系他们知道的人这一做

法相反,Tagged 让人通过多种产品,如约会服务、游戏、照片分享和聊天,

向他们想要结识的人介绍自己。不像传统企业那样有遗留资产包袱,这家新成

立的公司利用大数据合纵连横,从 2008 年起便开始营利。

由大数据推动的其中一款 Tagged 产品是 Meet Me,这是该网站的约会服务,

提供两个人的照片和简介并询问他们是否愿意会面。如果双方都同意,他们就

可以配对。系统决定从 Tagged 的 1 亿用户档案中向每位用户提供哪些档案。

“我们发现在这方面很有帮助的一件事是研究互动曲线,即谁是谁的朋友,谁

与谁交谈等,”Tagged.com 联合创始人兼首席技术官 Johann Schleier-Smith 说

到。他表示公司增长超过十倍,这其中 Meet Me 的功劳最大。“我们每次都能为

个人、每位用户提供真正的个性化服务,就可能想要结识哪些人提供建议。”

Tagged 每个月要从 50 亿个页面视图上收集 500 亿个日志条目,这相当于约

10 TB 的数据。

Tagged 使用此类数据作出预测 — 见面的人能配对成功吗?— 并运行临时分析

以了解客户行为 — 什么时候游戏玩家愿意付费游戏?这些都超出了传统业务

智能 (BI) 工具的范畴。由于社交网络生成的数据是均一格式的单击流数据,公

司可在系统之间轻松移动数据,以编辑创造性的混杂内容并执行分析。

“我们确实需要具备提出任意问题的能力,这由数据库提供;此外我们还需要

这样一些分析师和智囊团,他们以产品为导向,时时想着客户和业务,并不断

提出问题,”Schleier-Smith 解释到,“对我们来说,关键的是他们能获得这

些问题的答案,并且能非常快速地获得这些答案,然后他们接着提出新的问

题。这是我们很多业务决策过程的关键,我们需要决定要发布哪些类型的产

品、下一款游戏应该是什么样的以及为什么这个能成功?我们确实需要了解客

户在做些什么,哪些对客户来说很重要。”

Page 10: Bigdata bizoppor

10

但是,仅仅存储和提供数据还不够 — 必须以新方式合成、

分析和关联数据,才能提供商业价值。部分大数据方法要

求处理未经数据架构师建模的数据,因此可跨毫不相干的

数据源比较不同类型的数据和进行模式匹配。这使得大数

据分析能以新视角挖掘传统公司数据,并带来传统上未曾

分析过的数据的洞察力。Hadoop 开放源代码等工具非常重

要,因为它们跨多台计算机分布数据分析工作负载,以将

分析分为多个并行工作负载并更快生成结果。商业工具仍

在初期,因为大数据仍是较新的现象。因此,目前用于大

数据分析的大多数软件程序都具有专门用途,并且是采用

由 Apache Software Foundation、Google、Yahoo 等公司创建

的开放源代码工具内部开发的。

较早的一个例子是沃尔玛,去年它推出了 Walmart Labs 来

跟踪社交媒体渠道并收集有关零售巨头的产品和品牌的信

息。处理社交媒体源时规模很重要,没有哪一款现成软件

能满足沃尔玛的需求。因此,沃尔玛构建了一个大体基于

Google 的 MapReduce 的工具来跟踪网页。沃尔玛的这款

工具称为 MapUpdate,让公司可以快速将大量数据制图,

以跟踪 Twitter 用户在某天的兴趣等,并使用该信息来改

进相关功能,如预测客户未来购买等。沃尔玛相信,将使

公司在在线竞争中获得优势的是从社交媒体渠道收集近乎

实时的信息并在未来购买预测中融入该信息,而不是基于

购买历史记录进行预测,因为这并不总能表明未来兴趣。

在可以影响业务时,大数据将产生成果。Progressive

Casualty Insurance Company 最近推出了其 Snapshot 计

划,这项计划基于目前的驾驶行为(而不是以往的驾驶

记录)向安全驾驶员提供优惠。参与计划的客户在网上

登记,并在其汽车上安装一个插件设备,该设备可跟踪

行驶里程、客户在一天中一般的驾驶时间以及他们急刹

车的频率。根据此类信息,Progressive 可向安全驾驶员

提供多达 30% 的优惠。通过以创新方式使用基本驾驶数

据,该公司吸引了对自己的安全驾驶引以为傲并希望尝试

Progressive 汽车保单的新客户。

云中的大数据

云模型在从大数据中提取商业价值的同时也在驯

服它。这种交付模型能为组织提供一种灵活选

项,以实现大数据分析所需的效率、可扩展性、

数据便携性和经济性。

云模型鼓励访问数据并提供弹性资源池来应对巨

大规模,解决了如何存储大量数据以及如何积聚

所需的计算资源来操作数据的问题。在云中,数

据跨多个站点调配和分布,使得数据更接近需要

它的用户,从而缩短响应时间和提高生产率。而

且,由于云能提高 IT 资源的效率和 IT 团队的生

产率,企业资源得以释放出来分配到别处。

特别为大数据分析而设计的云服务开始兴起,可

提供旨在快速、高效执行分析的平台和工具。已

经认识到大数据的重要性但尚没有资源构建所需

基础架构或尚未获得利用大数据的必需工具的公

司可考虑使用这些云服务,他们将从中受益。

“实时数据将继续以更快的速度增长,超过移动

数据的能力。除非我们改变解决问题的方式,否

则我们将发现自己一直在通过极为狭窄的管道来

提取信息。我相信我们终将面临这样的局面:我

们将越来越多地在数据驻留的位置进行分析。与

移动数据进行处理相反,我们会将分析工具移近

数据。”

— Dimitris Mavroyiannis,Eurobank EFG Group

“云将在大数据中扮演重要角色。我认为,能在

家里运行所有这些 [基础架构] 的情况将越来越

少。在某些情况下,为什么要在家里运行呢?”

— Deirdre Woods,宾夕法尼亚大学沃顿商学院

Page 11: Bigdata bizoppor

11

大数据路线图:成功攻略

视组织的“数据成熟度”而定,应对大数据挑战的策略不

尽相同。可采用多大的效率和效用收集数据进行分析?就

此而言,组织是否清楚为了在最大程度上获取洞察力和答

案而应该包括的所有不同数据类型和来源?组织可在多大

程度协调不同数据格式?收集和分析数据的成本如何?这

一成本与结果的预期价值相比如何?

企业领导者开始面临如何以一种适合自身的方式利用大数

据的难题。了解如何积聚和管理大数据集并以一种切实可

行的方式处理数据以获取价值,这个过程需要进行战略规

划和深谋远虑。

信息优势领导委员会成员建议通过采用数据学习曲线来处

理大数据。这意味着使用现有数据存储区来针对新型分析

做好准备,同时在各部门之间合作以确定数据优先级、目

标和限制。它还意味着评估组织内的数据能力程度(在 IT

部门以及业务部门内),并确定能转移或增强技能以利用

大数据的环节。

“我们所处的时代要求数据在人们需要利用时可访

问。要分析某些大数据集,需要在基础架构上下一场

大赌注,即构建出基础架构、将所有数据放在一个位

置、然后向相关用户提供数据,而这些需要时间和资

源。当您完成所有这些时,可能已错过了时间,尤其

是对基于 Internet 的数据,因为这些数据在以闪电速

度变化。您可以使用基于云的服务来快速准备某些可

提供数据访问的应用程序。然后,您可以进行测试并

下一些较小的赌注(在大数据上)。”

— Joe Solimando,迪士尼消费品部

“很明显,存储技术的成本在下降,因此我们作为

行业用户,也能允许数据增长且能够存储它。但

是,当您观察市场中面临竞争的企业时,明显可以

看出赢家是那些降低成本或提高效率或者在价值曲

线上位于这两者之间某个适当点的企业。那些能更

有效运营的企业才会获得成功。因此,内容和流程

管理可帮助确保在适当的时间得到适当的数据,而

且不会降低您的速度或增加您的运营成本。因此,

正确的内容管理可为企业带来竞争优势,从而超越

那些具有同样的大数据但没有正确进行内容管理的

对手。”

— John Chickering,富达投资集团

“我认同这样的说法:分析师将 90% 的时间花在

了收集数据,而不是他们所擅长的分析上以及想出

如何根据分析结果行动。”

— Ian Willson,波音公司

Page 12: Bigdata bizoppor

12

委员会成员建议:

1. 控制数据卫生。从已存储在公司 IT 体系结构内的信息入手,组织可清理

现有数据存储区,以针对这种新形式的分析做好准备。基

本“数据卫生”滑轮组(如压缩、重复数据消除和归档旧

文件等)将简化存储,使过时系统得以退役,并使识别需

要更新的数据存储区更加简单。此外,尽可能集成数据、

实施数据标记系统以及培训 IT 员工进行数据分区也是准

备过程的重要部分。

企业将从探索如何减缓大数据存储增长以及控制复杂性和

成本上受益。例如,编译完成某个产品或服务报告所需的

数据可能意味着在不同层存储数据组件和动态拉入这些组

件,即最昂贵的数据存储于传统的数据仓库,价值较低的

数据存储于商用存储,而其他数据则存储于分析工具中。

2. 准确确定数据价值。让业务线领导和 IT 人员一同确定具有最大价值的数据池。

评估准备好用于分析的数据存储区并考虑可如何扩展或改

善这些数据存储区,以及观察非结构化数据集并优先排列

哪些数据集应转换成更有用的格式。业务领导和 IT 还必须

合作,根据现有业务突出显示数据的使用情形,以确定哪

些方法将在最短的时间生成最多的商业价值。

寻找需要增长的业务领域,并开始询问大数据问题。将重

点放在这些问题的答案而不是结果上,然后利用该类信

息。针对某种情形的答案一旦出现,便将这些答案提供给

业务用户,业务用户可能又有了新的数据用途和新情形。

如此,数据有用性将以有机方式不断增长。随着洞察力增

长,IT 也受到鼓舞来扩展数据集,以新的不同方式交叉引

用这些数据集。如此形成良性循环。

让对业务充满热情并渴望在着手进行时探索新可能的人参

与进来,这样做也很有优势。有志获得成功的人将会提出

一些创造性的、引人深思的大数据问题,而结果也将反映

这一点。成功的大数据分析测试用例将发展一定程度的舒

适感和信心,以后可加以利用。

“由于存储数据变得很容易,而且成本低廉,很多

公司在运营时都抱着这样的想法:‘先将数据存储

起来吧,等我弄清楚如何处理它时再来处理。’

但现在增长速度也在提高。我们使用的存储量在激

增。所有这些都促使我们成立一个业务学科来研究

这一生态系统,帮助我们了解需要保留哪些数据

以及保留多长时间。大数据增加了为什么需要在业

务运营中快速、成功融入内容管理的筹码。这样一

来,内容管理就如同基本记录管理滑轮组一样简

单。”

— John Chickering,富达投资集团

“在目前的计算力量条件下,您不必构建大型表,

然后将它们存储于磁盘上,并在磁盘上保留它们。

您可以动态构建。这大幅减少了数据存储需求。我

想,这是一种智力压缩形式,而不是算法压缩。这

就是智能数据建模和利用您已有的计算能力。”

— Ian Willson,波音公司

“大数据要求在使用数据上更有创造力。您必需更

有创造性地思考从何处寻找商务价值:如果我将这

些数据与这些数据相结合,可以得出什么结论?”

— Joe Solimando,迪士尼消费品部

“与等待大数据停止操作相反,我们应更好地组织

或归档数据,在其生命周期内加以管理并在实际中

摆脱它。从一开始便管理好信息,您可以跳出迁移

模式 — 换句话说,更有效地使用数据。”

— David Blue,波音公司

Page 13: Bigdata bizoppor

13

当然还有经济方面的考虑。在没有预算限制的理想条件下,可收集的每一片数据

都将收集,而且每个字节的数据都可以采用思维能想到的多种方式进行分析。但

在现实生活中,收集、存储和分析数据都会带来成本。公司需要从经济方面制定

有关哪些数据值得收集和分析的决策。而且业务的不同部分需要作出妥协。业务

领导可能倾向于收集和分析更多数据,而 IT 领导则很清楚技术预算限制和人员配

备限制,很可能向另一个方向努力。由于大数据的迭代性质,需要定期重新访问

这些决策,才能确保组织在任何时间点考虑的都是适当的数据。

收集的数据越多,经济问题就越明显。存储和操作更多数据所需的成本更高,

要处理的数据越多,所需的计算能力也越多,这进一步增加了成本。但是,更

多数据产生的是更为明智的决策。通过有限定义应考虑的数据来处理大数据似

乎与预期目标相反,但公司(尤其是刚开始着手大数据项目的公司)需要围绕

应包括哪些数据设定一些参数,然后相应估计结果预期。

3. 为您的数据混合设定维度。随着公司沿这种数据学习曲线发展,他们可开始探索数据的新用途和组合。这

意味着收集新类型的数据,向现有数据集添加新来源的数据,以及组合数据集

以创造新价值和洞察力。

以可口可乐公司为例,其 Freestyle 新一代自动饮料售卖机提供 125 种不同口

味的饮料,并将一天当中哪些时段、哪些品牌最畅销之类的信息发回给公司数

据专家供分析。由于能从不同地点获取此类使用数据并将其与现有库存信息相

组合,可口可乐公司能在一天当中的适当时段配备适当数量的产品,甚至对其

非 Freestyle 自动售卖机也是如此。

应鼓励业务工作人员发挥他们的想像力,以测试假定并在大数据的帮助下验证

预感是对还是错。IT 也应创造性地试验新的数据收集、分区和组合方式,以便

揭示洞察力和采取措施。

“在我们公司,当有人想到一个点

子,当有人认为如果我们在将来使 [流

程] 更加实时他可以做些不同的事情,

或当有人 [变更服务] 而数字上升 10%

时,大家变得非常兴奋。因此,我需

要做的就是创造这种类型的能量和激

情。这正是我希望工作场合中所具有

的主导活力。在这里,我们真正做到

了这一点。这很有意思。人们定期获

得结果,因为我们能确保无障碍访问

数据。”

— Johann Schleier-Smith,Tagged.com

“我们的‘沃顿研究数据服务’经

验向我们展示了组织数据的价值,

因此您可以观察多个数据源,以分

析和得出结论。我们发现多年来,

当人们使用“数据”一词时,他们

希望看到结合了三到四个、现在则

是五到六个的数据集。而且,这一

趋势正在加强。”

— Deirdre Woods,宾夕法尼亚大学

沃顿商学院

Page 14: Bigdata bizoppor

14

4. 事先考虑渐进式数据使用的连串效应。事先解决数据便携性、安全性、隐私、法规遵从性以及责任问题,以便可就生

成的洞察力展开行动,而不引发不良后果。对于受到高度管制的行业内的公

司,还需要重复检查是否遵守相关法规。委员会成员提到了不同国家/地区数

据隐私保护法的不同,认为这是处理来自多个司法辖区的数据集时应该考虑的

一个因素。

由于处理大数据的技术仍在不断发展,委员会成员指出基于标准的方法将变得

尤为重要,以避免在系统之间共享数据或将数据从一个平台转移到另一个平台

时产生问题。公司还必须思考以新方式组合数据可能会引发哪些新的安全性或

隐私问题。在分析项目中集成第三方数据时,会产生哪些重复利用风险和责任

问题?如果使用第三方数据构建商业产品,您是否应对由于此类数据错误而导

致的问题负责?

5. 作好准备,根据所学展开行动。所有信息推动的洞察力都要看其使用方式才能发挥出价值,而不管它是来自管

理顾问团队还是来自大数据分析。大数据为组织提供了提取详细、适时洞察力

以及以前所未有的更高速度和敏捷性相应展开行动的机会。例如,分析社交媒

体数据可能会发现客户行为规律,从而定制针对特定客户群的促销和优惠活

动。要获得对商机的这种类型的实时响应能力,组织需要在管理业务流程和工

作流上变得更加灵活。企业领导者必须设定行动预期,并让经理负责将数据推

动的发现融入其团队的工作中。委员会成员承认,实现组织应变灵活性可能是

最大的一项挑战。

“所有供应商都希望捆绑一切,并

提供一站式服务。这在情理之中,

我对此没有异议,只要供应商不会

将我锁定在特定解决方案就可以。

我认为可避免这种情况的唯一方法

是供应商遵循行业标准。我们已经

进入了标准高于一切的世界,尤其

是在大数据分析领域,其中数据来

自多个来源。提供基于标准的大数

据解决方案的供应商更有可能受到

青睐。”

— Dimitris Mavroyiannis,Eurobank

EFG Group

Page 15: Bigdata bizoppor

15

思维转变和岗位轮换:信息的民主化

委员会成员相信,大多数组织将发现采用大数据分析最难的不在技术本身,而

在培育人力资本来利用大数据分析。几乎所有委员会成员都提到了寻找数据分

析师、数据工程师或数据科学家方面的困难。这些人不仅拥有技术睿智,而且

还具备商业洞察力,只有这种人才能推动大数据项目。数据分析师可能还需要

额外的培训,才能适应采用大数据的新分析环境,但很多 BI 专业人士具有可

移植技能,并将利用使分析和处理大数据更加简便的新兴工具。对此,人们信

心十足。

比熟练数据分析师短缺更为棘手的一个问题是培育组织的集体想像力来利用大

数据获得商业洞察力。多位委员会成员预测,这一障碍比任何技术因素都要顽

固、难以应对。

委员会成员建议,作好思维转变准备,而不仅仅是技术转变。与前几次潮流不

同,采用大数据很有可能被组织中的多个部门同时感受到,而不仅仅是 IT。之

前,分析不过是冲刷少量数据集并对清洗后的数据提出正式查询来找到答案。

而在将来,来自组织各个部门的数据战士将全力应付来自混合来源的数据,以

改进决策。

委员会成员预见有这么一天,大数据工具将部署于组织各处的业务用户身边,

让他们能自行调配数据集并进行查询,而无需 IT 干预。推动向技术自给的转

变的是 IT 消费化。目前有很多业务用户技术熟练,使用新工具也得心应手。IT

部门可以就分析工具培训业务工作人员,以便工作人员自身可以更新报告、控

制面板以及其他信息工具,而让 IT 集中精力放在技术的战略元素上。

这样一来,IT 部门也使业务工作人员可创造自己的知识。当分析在组织各个层

面发生时,公司也能促进自助式解决方案寻找。而且,让更接近一手数据的业

务工作人员生成查询,能带来全新的问题可能性和观点,从而产生更丰富、更

贴合情境的解决方案。

与业务用户合作将扩展 IT 工作人员的能力,使他们更接近协调业务和 IT 的战

略目标。业务工作人员也能更好地了解技术的功能和限制。

“在 EMC,我们发展了称为数据科学

家的角色:这些人具有很强的数据能

力以及信息分区技能集,能使信息更

易于处理。担任这些角色的人员给组

织价值链带来的能力非常巨大。中心

职能是添加核心业务价值和屏蔽(针

对业务用户)IT 幕后的繁重工作。”

— Sanjay Mirchandani,EMC

“最大的挑战在于人。大数据需要

非传统 IT 技能集。我们聘请了更多

博士人才和拥有其他领域专业知识

的人才来帮助我们的业务用户处理

信息。”

— Guy Chiarello,摩根大通公司

Page 16: Bigdata bizoppor

16

结论

大数据是一股席卷所有行业、领域和经济体的破坏性力量。不仅企业 IT 体系

结构需要改变以适应它,几乎公司内的所有部门也需要调整以便大数据能提供

信息和揭示洞察力。数据分析将发生变化,成为业务流程的一部分,而不是仅

由经过培训的专业人员履行的独特职能。赋予组织内各用户通过自助工具处理

多种数据集的能力将提高大数据生产率。

而这仅仅是开始。一旦公司开始利用大数据获得洞察力,他们根据该类洞察力

采取的行动就将具有改进业务的潜能,这一点目前已得到证实。如果营销部门

能通过分析博客评论和社交网络对话获得有关新品牌推广活动的即时反馈,焦

点小组和客户调查是否变得过时?清楚大数据价值的敏捷新公司不仅会给现有

竞争对手带来挑战,还可能开始定义所在行业的经营方式。随着公司努力快速

理解之前所不能捕获的概念,如情绪和品牌认知,客户关系也将发生转变。

发挥大数据的巨大潜能要求对数据管理、分析和信息智能采取引发深思、全盘

考虑的方法。在各个行业,领先于大数据的组织将能开创新的运营效率、新的

收入流、差异竞争优势以及全新的业务模式。企业领导者们应开始从战略角度

考虑如何针对大数据(同时也是大机遇)准备他们的组织。

“几年前,我会说 BI 的价值掩盖了

大数据的价值;但现在,我会说二

者势均力敌,甚至发生了逆转。现

在有更多关于用户行为和外部情况

的外部信息可以数字化,这些信息

可放在结构化数据上面。这种类型

的分析打开了一扇窗,让您不仅可

以了解正在发生的情况和原因,还

能帮助您了解有哪些可能。”

— Guy Chiarello,摩根大通公司

Page 17: Bigdata bizoppor

信息优势领导委员会成员和特约撰稿人履历

Rich Aducci副总裁兼首席信息官

波士顿科学公司

Rich Adduci 于 2006 年以首席信息官身份加入波士顿科学公司,主要负责将多个 IS 组织整合为一个由 IS 专家组成的全

球小组,小组的主要工作是通过创新使用信息和技术实现竞争优势。他同时还是波士顿科学公司运营委员会、质量管

理委员会和资本委员会的成员。在加入波士顿科学公司之前,Adduci 先生是 Accenture 的合作伙伴,负责该公司的医

疗和生命科学业务。他因为开发支持无线技术业务战略和市场准入的建模工具而拥有超过 15 项欧洲专利和两项美国专

利。Adduci 先生拥有美国普渡大学工业工程专业的理学士学位以及芝加哥大学主修金融与经济学的 MBA 学位。

Dave Blue企业数据服务高级经理

波音公司

Dave Blue 主管波音信息技术部门的企业数据服务。他之前曾领导波音信息体系结构,负责制定和交流远景、战略和体

系结构支持信息管理学科以及将该体系结构应用到项目。作为首席架构师委员会 (CAC) 的成员,他帮助确保信息体系结

构集成到整个企业体系结构中。Blue 先生的波音事业扎根于信息技术,职责慢慢延伸到应用程序开发和维护、信息管理

以及体系结构学科。

Guy Chiarello首席信息官

摩根大通公司

Guy Chiarello 负责摩根大通公司的全球信息技术部门。他于 2007 年加入该公司,并且是公司执行委员会的成员。此

前,Chiarello 先生曾在摩根史坦利投资公司担任首席技术官和首席信息官七年,负责全球 IT 组织的战略和执行。他在摩

根史坦利投资公司工作了 23 年之久,期间担任过各种 IT 角色,有两年在董事长办公室服务。Chiarello 先生于 1981 年

供职于新泽西州财政部,从此开始了他的 IT 生涯。Chiarello 先生有十多年是领先公共技术公司的执行顾问,提供业务战

略和技术创新方面的建议,目前仍热情投身于这一领域。他还活跃于新兴技术领域,在风险投资圈的创新路线图和投资

上发挥影响力。Chiarello 先生使摩根大通公司增强了对创新的关注,帮助公司将多项技术大奖收入囊中,包括 2010 年

托管证券服务技术组别“董事长佳选奖”以及《Profit & Loss》2010 年最佳利率平台和最佳公司平台“数字外汇奖”;

此外大通移动付款和金融解决方案也获得多项大奖,包括公司的 iPhone 和 Android 移动金融应用程序、Quick Deposit

功能和即刻行动预警。Chiarello 先生通过各类嘉奖赢得了行业和私营部门的认可,包括由首席信息官论坛评选出的“最

佳金融 IT 执行官”、《计算机世界》的“前百名优秀领导人”、由 NASSCOM 评选出的“年度首席信息官”以及《信息

周刊》的“顶尖创新者”。他是 NPower 董事会副主席、PENCIL 技术顾问、新泽西中部白血病和淋巴瘤学会的执行委员

会领袖以及新泽西州癌症研究所的活跃资金募集者。Chiarello 先生毕业于新泽西大学,并获得了商学理学士学位。他获

得了“杰出校友荣誉奖”,并在最近获得了“学术和运动才能特别荣誉”。

Page 18: Bigdata bizoppor

John Chickering副总裁

富达投资集团

John Chickering 拥有顾问、软件供应商、最终用户和讲师经验,这使得他在应用技术管理信息时拥有独特视角。他是富

达投资集团的副总裁,目前负责客户交流意见的电子交付。Chickering 先生交付过公共事业部门和金融服务领域的解决

方案,并曾在两家人力资源公司担任过首席信息官。他以前是执证商船工程主管,在 American Management Systems 开

始了他的 IT 生涯,当时他是公司成像业务部的创始成员之一。近 10 年后,他花了两年时间改做工作流软件供应商,然

后加入富达。Chickering 先生发表了数篇文章,并多次在行业大会和学术界举行的继续教育研讨会上演讲。他是 AIIM 的

董事会成员,担任 2012 年董事会主席。他还是多个社区服务组织的活跃志愿者。Chickering 先生拥有美国马里兰大学

的 MBA(运营研究)学位以及美国商船学院的理学士学位(商船工程)。

Dimitris Mavroyiannis总经理 — 集团信息官

Eurobank EFG Group

Dimitris Mavroyiannis 负责监管 Eurobank EFG Group 的所有 IT 部门,确保各部门作为一个整体运作,以帮助实现银行的整

体业务目标;此外还负责最大化 IT 投资价值,优化 IT 资源的使用,以及确保信息系统和技术基础架构能够支持公司的创

新业务计划。Mavroyiannis 先生于 1999 年加入该银行,负责制定其 Internet 战略和金融渠道。这一角色慢慢变成由他领

导一个负责希腊市场的专业电子商务咨询和实施子公司。Mavroyiannis 在这个服务组任职首席执行官一直到 2004 年。

随后,他担任了 Eurobank EFG Group 的各种领导角色,包括银行希腊运营部的首席信息官。在加入 Eurobank EFG Group

之前,Mavroyiannis 曾在 IBM 欧洲咨询团队工作。他还在希腊和国外的一些小公司工作过。他拥有英国伦敦大学帝国理

工学院的 MBA 学位、英国伦敦大学学院理学硕士学位以及英国萨塞克斯大学工学士学位。

Sanjay Mirchandani高级副总裁兼首席信息官

EMC Corporation

Sanjay Mirchandani 负责拓展 EMC 的卓越运营以及推动技术创新,以满足 EMC 的目前和未来业务需求。他还领导 EMC 位

于印度、中国、俄罗斯和以色列的全球交付中心网络。这些中心支持 EMC 的全球研发工作,并提供客户支持和共享服

务。Mirchandani 先生最近担任高级副总裁,主管 EMC 全球化办公室。在这一角色中,他认识到全球发展机遇并构建了

EMC 全球扩张所需的流程和基础架构。他还负责向 EMC 的全球联盟计划引进新的战略性国际合作伙伴。在加入 EMC 之

前,Mirchandani 先生曾担任微软亚洲企业服务部的区域副总裁。在此期间,他与该区域最大的客户和合作伙伴合作。

在微软任职期间,他还担任个多种管理职位,包括亚太区总裁、南亚区总裁以及印度的常务董事。Mirchandani 获得了

匹兹堡大学的 MBA 学位和杜尔大学的文学学士学位。

Page 19: Bigdata bizoppor

Johann Schleier-Smith 联合创始人兼首席技术官

Tagged.com

Johann Schleier-Smith 是 Tagged 联合创始人兼首席技术官。他负责构建和扩展社交网络,这个社交网络鼓励和支持人

们结交新朋友。他开发了被数百万人使用的产品,创建并管理了大规模的基础架构,革新了多个软件开发方法,并构建

了推荐引擎和机器学习系统,推动了整个行业向前发展。Schleier-Smith 先生最初是一名校园创业者,他与联合创始人

Greg Tseng 合作发起了十多项业务,然后在 2004 年聚焦于社交网络。他在斯坦福花多年时间攻读了物理学博士学位,

并拥有哈佛大学的物理学和数学文学士学位。

Joe Solimando 全球运营和技术高级副总裁兼首席信息官

迪士尼消费品部

Joe Solimando 确定了迪士尼消费品部 (DCP) 所有业务线的信息技术战略方向,包括玩具、服装和轻工产品;零售店;

全球出版;以及电子商务。他还是 DCP 在沃尔特迪士尼公司 IT 领导委员会的分部代表,负责沃尔特迪士尼公司的信息

技术方向、标准和公司范围内的 IT 计划。Solimando 先生于 1998 年以迪士尼消费品部运营和技术副总裁身份加入迪

士尼。在这个岗位上,他管理 DCP 的共享应用程序服务团队,该团队负责实施和支持共享金融和 HR 业务应用程序。

他还以垂直业务的 IT 业务合作伙伴身份带领多个业务部门运营和技术系统的规划、开发和实施,这些垂直业务包括沃

尔特迪士尼经典艺术、迪士尼直销、沃尔特迪士尼记录以及迪士尼全球出版。在加入迪士尼之前,Solimando 先生曾在

Ernst & Young 的管理咨询业务部担任信息技术高级经理。在他任职该公司的 10 年生涯中,他为多家顶尖消费产品、零

售、娱乐以及制造公司负责过 IT 战略规划、系统评估、选择和实施项目。Solimando 先生还在 Wicke’s Companies 和

Fluor Engineers 担任过信息技术和项目管理职位。他拥有宾夕法尼亚州立大学 MBA 学位和土木工程理学士学位。

Ian Willson数据仓库存储和业务智能技术研究员

波音公司

Ian Willson 之前是一名研究员和航空软件企业家,他创造了首款消费类航空软件和作为商旅分析行业标准的 Travel$ense。

他目前在波音的主要工作是为新型 787 Dreamliner 客机开发通用数据仓库。Willson 先生带领数据库和技术体系结构小组集

成了 50 个内部和外部授权系统,旨在创建一个适用于波音新客机计划方方面面的集成存储库,从概念到交付和支持。Willson

先生之前曾设计了波音公司的第一个在用数据仓库,将其报告效率提高了 9,700%。

Deirdre Woods副院长兼首席信息官

宾夕法尼亚大学沃顿商学院

Deirdre Woods 在 Wharton Computing 部门带领了一个由 120 人组成的组织,负责增强沃顿商学院在研究、知识创造和

教学方面的领先地位。在她于沃顿商学院工作期间,Woods 为提升学员和教员对 IT 服务的满意度发挥了关键作用。她

还是 Wharton Computing 最具创新意义的一些技术的战略推动者。作为副院长兼首席信息官,Woods 负责确保学院的各

类技术计划得到有效执行

Page 20: Bigdata bizoppor

易安信电脑系统(中国)有限公司

中国北京朝阳区霄云路 38 号现代汽车大厦 15 层 邮编:100027电话:(8610) 8438 6000传真:(8610) 8453 8174售前服务热线:400 650 6006网站:www.EMC2.com.cn

EMC2、EMC 和 EMC 徽标是 EMC Corporation 在美国和其他国家/地区的注册商标或商标。本文提到的所有其他商标均为其各自所有者的资产。© 版权所有 2011 EMC Corporation。保留所有权利。中国印刷。11/11 H4959