27
大大大 (big data)

大 数据 (big data)

  • Upload
    teenie

  • View
    139

  • Download
    8

Embed Size (px)

DESCRIPTION

大 数据 (big data). 什么是大数据?. 具有 4V 特性 的数据: Volume ( 巨大的数据量 ): Variety ( 数据类型多 ): 文本 / 图片 / 视频 等非结构化 / 半结构化数据 Velocity ( 处理速度快 ): 要求系统 在短时间内做出反应 Value ( 价值密度低 ): 单条数据无价值 , 无用数据多 , 综合价值大. 3 亿用户 , 每天上亿条微博. 巡天望远镜 , 已收集 140 兆兆字节数据. 2015 年全球移动终端产生的数据量 6300PB. 案例 - PowerPoint PPT Presentation

Citation preview

Page 1: 大 数据 (big data)

大数据 (big data)

Page 2: 大 数据 (big data)

什么是大数据?具有 4V 特性的数据:Volume( 巨大的数据量 ):

Variety( 数据类型多 ):文本 / 图片 / 视频 等非结构化 / 半结构化数据Velocity( 处理速度快 ):要求系统在短时间内做出反应Value( 价值密度低 ):单条数据无价值 , 无用数据多 , 综合价值大

3亿用户 ,每天上亿条微博 .巡天望远镜 , 已收集 140 兆兆字节数据

2015 年全球移动终端产生的数据量 6300PB

案例 两年半前海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。 一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的 SIM 卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国 (UN) 报告所述,此举帮助他们“准确地分析出了逾 60 万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪 SIM 卡把药品投放到正确的地点,阻止了疫情的蔓延。

Page 3: 大 数据 (big data)

非结构化数据相对于结构化数据而言 , 不方便用数据库二维逻辑表来表现的数据即称为非结构化数据 , 包括所有格式的办公文档、文本、图片、 XML 、 HTML 、各类报表、图像和音频 / 视频信息等等。

Page 4: 大 数据 (big data)

作为特指的大数据,其中的“大”是指大型数据集,一般在 10T B 规模左右;多用户把多个数据集放在一起,形成 P B 级的数据量;同时这些数据来自多种数据源,以实时、迭代的方式来实现。

与以往数据处理的区别 ?

数据量极大 ,增大了数据处理的难度的同时 ,庞大数据量所蕴含的价值也极大

数据种类多样 ,更加个性化 ,针对不同来源的数据以多样化的方式处理 , 结果更精确 .

要求及时对数据进行处理并得到结果 ,更完善的用户体验 .

数据成为新的资源 ,掌握有数据就掌握了巨大的财富 .

Page 5: 大 数据 (big data)
Page 6: 大 数据 (big data)

指数型增长的海量数据

所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院( MGI)估计,全球企业 2010年在硬盘上存储了超过 7EB( 1EB等于 10亿 GB)的新数据,而消费者在PC和笔记本等设备上存储了超过 6EB新数据。 1EB数据相当于美国国会图书馆中存储的数据的 4000多倍。事实上,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的 90%的数据(比如手术过程中产生的几乎所有实时视频图像)。

Page 7: 大 数据 (big data)

技术演进历史揭示未来是大数据驱动的智慧型经济模式

Page 8: 大 数据 (big data)

大数据崛起分析大量数据并非是新鲜事物,但近年才有革命性的变化:

网络使用人数逐年递增

硬件成本指数型递减

数据生成速度加快

存储成本指数下降

Page 9: 大 数据 (big data)

云端数据扩增

企业非结构化数据量飞速增长

流动数据大量增加

企业可用数据资源增大

大数据崛起

Page 10: 大 数据 (big data)

大数据崛起

大数据崛起数据生成速度加快

流动数据大量增加存储成本指数下降 企业可用数据资源增大

处理速度指数增长

大数据实际上是对更广泛数据的数据挖掘,以前因为成本、处理速度、数据量不足等问题无法处理,随着软硬件的发展,这些问题如今已不是难以跨越的鸿沟!

Page 11: 大 数据 (big data)

大数据发展脉络

经过大数据改造的 IT不再是一个冷冰冰的系统,而变成了推动业务发展,挖掘客户内心需求的真正推动剂;大数据将催生更多的应用领域需求。

Page 12: 大 数据 (big data)

用途?以上介绍的互联网上的数据看起来数量庞大却用处寥寥,但事实上,只要处理好这些数据,就能给商家带来巨大的利益。举一个简单的例子:商家消费意向

• 通过网页浏览记录• 通过人人、微博等

消费水平• 通过淘宝等消费记录• 通过社交平台信息

消费位置 • 通过手机软件定位客户

针对性地给客户提供

广告与优惠信息

消费服务

Page 13: 大 数据 (big data)

雅虎提供静态的导航信息

Google分析用户搜索信息,满足用户需求

Facebook用户产生内容,创造需求。

前瞻来看,随着互联网对网民的理解,网民对网络的反作用,互联网将变得越来越智能。它在满足你需求的同时,也在创造新的需求。前者的代表是 Google ,后者的典型则是 Facebook 。谷歌的盈利在于所有的软件应用都是在线的。用户在免费使用这些产品的同时,把个人的行为、喜好等信

息也免费的送给了 Google 。因此 Google 的产品线越丰富,他对用户的理解就越深入,他的广告就越精准。广告的价值就越高。

这是正向的循环,谷歌好用的、免费得软件产品,换取对用户的理解;通过精准的广告,找到生财之道。颠覆了微软卖软件拷贝赚钱的模式。成为互联网的巨擘。

互联网越来越智能 Google精确掌握用户行为、获取需求

Page 14: 大 数据 (big data)

政治经济监控手机的使用状况和账单的缴付模式

如果数据突然发生变化,那可能预示着经济困境正在加剧国情调控

对 Twitter 和Facebook 等社交媒体网站的数据筛查

若社交媒体提及粮食或种族冲突,那可能预示爆发了饥荒或者国内骚乱

医疗保卫社交媒体上提到某地区受到感染,是对疫情流行的有效早期预警

Page 15: 大 数据 (big data)

大数据的意义 ---- 为每位用户量身打造

用户在线的每一次点击,每一次评论,每一个视频点播,就是大数据的典型来源。互联网企业之所以取得令人瞩目的成绩,其核心的本质就是包括用户网络操作的大数据,进行记录和分析,比用户自己更了解用户,从而洞悉用户的潜在的、真实的需求,形成预判。这是传统企业花费重金都难以企及的梦想。

Page 16: 大 数据 (big data)

大数据与云计算

Page 17: 大 数据 (big data)

大数据比云计算更为落地

商业模式驱动 应用需求驱动云计算本身也是大数据的一种业务模式

Page 18: 大 数据 (big data)

大数据 ---- 现状

2012 年各行业大数据市场规模2012 年政府、互联网、电信、金融的大数据市场规模较大,四个行业将占据一半市场份额。由于各个行业都存在大数据应用需求,潜在市场空间非常可观。

2011 年是中国大数据市场元年,一些大数据产品已经推出,部分行业也有大数据应用案例的产生。 2012 年 -2016 年,将迎来大数据市场的飞速发展。2012 年中国大数据市场规模将达到 4.7 亿元,2013 年大数据市场将迎来增速为 138.3% 的飞跃,到 2016 年,整个市场规模逼近百亿。

Page 19: 大 数据 (big data)

大数据 ---- 国外已经投资应用

美国国务院采用大数据技术开发新的美国护照系统。 IBM宣布投资 1亿美元用于大数据研究;

美国 IT公司开始意识到大数据技术能够为公司创造价值;大数据公司引入汽车行业高管人员扩展营销业务;

Page 20: 大 数据 (big data)

EMCEMC 的大数据解决方案专注于使组织更有效地使用他们从不同来源产生的数据,包括网络上,网页上,消费者,监控系统和传感器。EMC 的数据计算产品事业部正在开发分析工具以解决大数据现象。EMC 的大数据解决方案包括 40 多个产品。• 2010 年 7月收购数据库软件供应商 Greenplum ,花费 3 亿美元• 2009 年七月收购数据复制解决方案提供商 Data

Domain ,花费 24 亿美元• 不一定和大数据完全相关, EMC从 2009 年起收购了

Archer Technologies, SourceLabs, FastScale Technology, Configuresoft, and Varonis Systems 。

IBMIBM 的策略是提供一个全面的方法来解决前所未有的信息爆炸提出的挑战,因为信息量无论在流量、种类、速度还是活力上都是爆炸式增长IBM 一直致力于扩大对包括数据仓库中的大数据、信息流和结构化数据的分析在过去四年中, IBM已经投入超过 120亿美元进行了 23项相关并购,其中包括:• 2010 年 9月收购数据库分析供应商 Netezza 公司,花费

17 亿美元• 2010 年 10月收购网络分析软件供应商 Coremetrics• 2009 年 10月收购数据分析和统计软件提供商 SPSS, 花费

12 亿美元• 2009 年 1月收购业务规则管理软件供应商 ILOG, 花费 3亿 4千万美元• 2007 年花费 20 亿美元收购商务智能软件供应商 Cognos

微软微软提供了高性能计算能力,并在 2005 年靠Windows Compute Cluster服务器进入相关市场最近,微软的 HPC 部门开发了该公司的 Dryad 并行处理技术社区技术预览 (CTP),第一步是向 Windows HPC Server 的用户提供处理大数据工具

甲骨文甲骨文大数据提供的数据库和数据库软件主要用于配合 Sun的硬件,特别是它的最高端服务• 2009 年 7月收购专注于数据复制和实时数据集成解决方案的私人企业 GoldenGate Software

IBM/Oracle/EMC/Microsoft角力大数据

Page 21: 大 数据 (big data)

大数据中国市场 ----雷声大雨点小中国的大数据领域到底有多少活跃迹象?除了没完没了的研讨会,还有各类公司“宣称”进军大数据领域的决心,似乎无实际之进展。中国的大数据正在呈现这样的状态:投资人最活跃,技术和服务供应商最热心,数字媒体调门最高,而品牌企业最迷惑。不是没有业务需求,而是需求还是不可实现的!

事实上,大数据在中国远没有落地,目前很多问题没有解决。

Page 22: 大 数据 (big data)

大数据 ----问题数据的爆炸式增长为全球各行业均带来了管理上的问题。• 例如,在电信行业的呼叫数据记录管理、金融行业的交易数据和客户资料管理、零售行业的供应链管理以及制造行业的业务绩效管理等等。对于企业用户来说,大数据的来临也无形中增加了他们所需承担的责任以及成本。企业必须保持这些数据在很长一段时间内的可用性,并满足这些庞大数据量在存储方面的需求。这就导致了企业需要采购和维护所需的硬件设备,并且还要不断的进行监督与管理。

大数据处理要求对大数据进行实时分析 .• 现今的分析仅局限在企业的现有数据库还不够,还需要保持数据与当前社会乃至全球的相关性。这意味着企业需要从社交媒体、地理位置、 CRM 系统、政府的公开数据、手机信息等非专有的渠道获取数据,进行额外的分析。对于实时分析来说,当前的移动应用潜力也才刚刚开始出现,其移动分析或将比预期的影响更加深远。

大数据是否侵犯了用户隐私?• 用户面对“不搜即得”的结果是否会有被窥视的感觉?如何消除这种感觉?

Page 23: 大 数据 (big data)

大数据前景 ----互联网互联网行业拥抱大数据的关键因素

网络终端设备•网络技术的升级和终端设备的爆发,使今天的用户能够使用多种设备、从不同位置、通过多种手段来接入互联网,并在这一过程中不断创造新内容

在线应用和服务•越来越丰富的在线应用和服务,不断激励用户创造和分享信息,尤其是社会化媒体业务,带动图片、视频等非结构化数据飞速增长

与各垂直行业的融合•互联网作为一个高渗透力的行业,正在与各垂直行业发生深度的融合,原本隐藏于先下的孤岛信息,源源不断的输入到线上。

互联网行业对数据实时分析要求较高,例如广告监测、 B2C业务,往往要求在数秒内返回上亿行数据的分析,从而达到不影响用户体验和快速准确营销的目的。目前互联网企业面对大数据,会普遍感觉到实时分析能力差、海量数据处理效率低、缺少分析方法、分析软件能力差等问题。

互联网行业大数据分析面临的主要问题

互联网大数据技术的应用,会首先带动社会化媒体、电子商务的快速发展,其他的互联网分支也会紧追其后,整个行业在大数据的推动下将会蓬勃发展。

Page 24: 大 数据 (big data)

医疗行业产生的数据量主要来自于 PACS影像、B超、病理分析等业务所产生的非结构化数据。人体不同部位、不同专科影像的数据文件大小不一,PACS网络存储和传输要采取不同策略。面对大数据,医疗行业遇到前所未有的挑战和机遇。医疗行业大数据应用场景非常多,右图仅以临床操作和研发为例,展示医疗行业大数据应用场景。对于公共卫生部门,可以通过过覆盖全国的患者电子病历数据库,快速检测传染病,进行全面的疫情监测,并通过集成疾病监测和响应程序,快速进行响应。

比较效果研究

临床操作临床决策支持系统

医疗数据透明度

远程病人监控

研发预测建模

提高临床试验设计的统计工具和算法

疾病模式的分析

大数据前景 ----医疗

Page 25: 大 数据 (big data)

大数据前景 ---- 能源能源行业数据特征

能源勘探开发数据的类型众多,不同类型数据包含的信息各具特点,综合各种数据所包含的信息才能得出地下真实的地质状况。

能源行业面临的大数据问题

能源行业企业对大数据产品和解决方案的需求集中体现在:可扩展存储、高带宽、可处理不同格式数据的分析方案。

Page 26: 大 数据 (big data)

大数据前景 ----小结

应用可能性

电信

政府(公共事业)

交通

金融

医疗

教育

能源(电力 /石油)• 纵轴契合度:

表示该用户的 IT 应用特点与大数据特性的契合程度;• 横轴应用可能性:表示该用户出于主客观因素在短期内投资大数据的可能性;• 注:

该位置为分析师访谈的综合印象,为定性分析,图中位置不代表具体数值

High

Mid

Low

Low Mid High

优先关注行业用户应用特点与大数据技术有较高的契合度,在主客观条件上也有较高的应用可能性。

值得关注行业用户应有特点与大数据的契合度及应用可能性综合较高

适当关注行业用户两个维度暂时都不具备优势,可适当给予关注

互联网(电子商务)

契合度

流通零售

制造

Page 27: 大 数据 (big data)