Upload
others
View
32
Download
0
Embed Size (px)
Citation preview
利用 Oracle 信息模型驾驭大数据
Oracle 免责声明
以下内容旨在概述产品的总体发展方向。该内容仅供参考,不可纳入任何合同。本演示不承诺提供任何材料、代码或功能,也不应将其作为购买决策的依据。Oracle
有权自行决定任何产品的特性或功能的开发、发布和时间安排。
Level Example
Structured Relational database
Semi-structured XML data files
Quasi-structured Text documents
Unstructured Images and video
A new class of problems has
emerged which demands an
ability to accept and
manage data without
advanced knowledge of its
structure or format.
Non S
tructu
red
结构化 … 非结构化
大数据在IT行业的发展趋势
企业需求:实时分析
分析: IT的下一个前沿
议题
• 认识大数据
• 采用 EA 方法
• 架构功能
• 案例研究
驾驭
大数据
认识大数据 当前设计点:数据量、多样性、高速度
每天 1 亿次
每年 10 亿名访问者
网络交易
电子商务
每天 100 万次
图片上传
索赔分析
保险
每天 100 亿次
设备同步
消费者
1000 万个仪表
每小时上传
公用事业
每天 2000 万次
监视
医疗卫生
大数据特性
• 巨大的数据量 Volume • 集中储存/集中计算已经无法处理巨大的数据量
• 多结构化数据 Variety • 文本/图片/视频/文档等
• 增长速度很快 Velocity • 海量数据的及时有效分析
• 用户基数庞大/设备数量众多/实时海量/数据指数级别增长
• 价值密度低Value • 单条数据并无太多价值,但庞大的数据量蕴含巨大财富
VOLUME
VELOCITY
VARIETY
SOCIAL
BLOG
SMART
METER
VALUE
10110010100100100
11010101010111001
01010100100101
媒体/娱乐
访问者
通信
呼叫、内容
应用程序
教育与科研
建模
消费品
舆情、地点、
设备
医疗保健
个人传感器
监视
生命科学
临床试验
基因组
工业制造
质量
高科技
制造执行系统
石油与天然气
勘探
金融服务
欺诈
安全性
汽车
传感器
零售
消费者行为
航空与国防
性能
旅游与运输
每小时 20 TB
保险
个性化保险
公共部门
计量经济学
公用事业
智能量表
各行各业的用例
电子商务
网站行为 面临的挑战:
数据量、高速度、多样性
大数据为什么重要?
• 视频和图像
• 文档
• 社交数据
• 机器生成数据
After Big Data
Before Big Data
决策基于交易型数据 决策基于所有的数据
驾驭大数据
当一切数据尽在掌握,
您会有怎样不同的作为?
业务挑战
真正的业务挑战
• “建模有效性”
• 常识还是科学?
– 认知心理学
– 行为心理学
– 计量经济学、统计学
– 决策科学
识别模式 — 预测行为
大数据预测
信息来源:* McKinsey Global Institute:“Big Data – The next frontier for innovation, competition and productivity”(2011 年 5 月)
美国医疗保健
3000 亿
美元
产值每年增长
美国零售
60+%
净利润增长超过
制造
–50%
装配成本降低
全球个人定位数据
1000 亿
美元
服务提供商
收入增加
欧洲公共部门管理
2500 亿
欧元
产值每年增长
表联接复杂性
数据更新模式 模式复杂性
总数据量
响应速度
单位作业
数据量
处理自由 并发作业
大数据
分析
传统
RDBMS
通用数据
处理
1000
结构化 仅追加 非结构化 事务性
100 个表
交互式
批处理
100 PB
10 PB
1 PB
100 TB SQL
100 TB 批处理
10 PB
1 PB
100 PB
识别大数据平衡点
Oracle CEP 大数据,不仅仅只是Hadoop和NoSQL
+
类OLAP
+
ETL
+
Storage
随机存取
+
Storage
狭 义
广 义
Storm
Big Data Connector
Oracle NoSQL
结构化数据的大数据处理
Oracle Exadata,
结构化大数据分布式处理的典范
大数据:挑战转化为机遇
业务价值
→ 高度多样性
→ 大数据量
→ 高速度 大数据
现状
→ 深度分析
→ 高敏捷性
→ 高度可伸缩性
→ 实时
将来
挑战
大数据
平台
20
报表/KPI 分析/挖掘
延时 实时/近实时
部分数据 ‘大’数据
从获取到存储、分析、挖掘、展现
实时集成、即时分析、企业级
结构化与非结构化,海量数据
封闭 开放
数据与能力的开放,新的商业模式
大数据能力创新的方向
大数据将作为 2012 年的下一个
“必备”能力占有一席之地。
IDC(2011 年 12 月)
Oracle 面向大数据的集成解决方案
获取
Oracle NoSQL 数据库
Cloudera
与 Hadoop
组织
Oracle 大数据 连接器
决策
分析应用程序
分析
数据库中的
分
析
数据
仓库
交互式发现 企业 应用
Oracle
Exadata
Oracle
Exalytics
Oracle 大数据平台
汇集 获取 组织 分析和可视化
Oracle
大数据机
Oracle
大数据连接器 针对分析负载
进行了优化
“记录系统”
针对 DW/OLTP 进行了优化
针对 Hadoop、R 和
NoSQL 处理进行了优化
完备的数据管理和处理体系–多结构化
文件数据源 RDBMS数据源 事件数据源 其他数据源 数据源层
分布式文件收集系统 消息/事件系统 数据采集交换系统 数据收集层
集中式文件系统 分布式文件系统 结构化存储 灵活存储 数据存储层
批量计算 (离线处理)
流式计算 (实时/准实时处理)
实时计算 (实时处理)
数据计算层
数据整合 数据整合层
数据库 数据仓库 灵活数据存储系统 数据智慧层
商务智能 报表系统 交互式分析 实时仪表盘 数据洞察层
数据应用消费平台 数据消费层 数据共享、数据服务
数据探索
商务智能 报表系统 交互式分析 实时仪表盘 数据洞察层
最全面最强的Oracle数据管理和处理体系
文件数据源 RDBMS数据源 事件数据源 其他数据源 数据源层
日志收集系统 消息/事件系统 数据采集交换系统 数据收集层
集中式文件系统 分布式文件系统 结构化数据库 灵活存储 数据存储层
批量计算 (离线处理)
流式计算 (实时/准实时处理)
实时计算 (实时处理)
数据计算层
数据整合 数据整合层
数据库 数据仓库 灵活数据存储系统 数据智慧层
数据应用消费平台 数据消费层 数据共享、数据服务
BDA/Flume ODI+GG+SOA WebLogic/OEP
ZFS/Pillar ASM Lustre BDA /HDFS
Oracle NoSQL DB
BDA /HBase
Exadata TimesTen/Coherence
Oracle NoSQL DB
Exadata /ORE
BDA/ Hadoop
MapReduce /R
OEP RTD
TimesTen Coherence
Big Data Connector / ODI / GG / MDM BDA/Sqoop
Exadata/Oracle/Mysql Exadata/Oracle Oracle NoSQl DB
BDA/HBase BDA
/Hive
Exalogic Coherence/SOA/ODI/GG
Exalytics/BIEE/Essbase Oracle BAM
EM12c
IDM
ECM
Web Center
BPM
数据探索 Endeca
Oracle数据收集解决方案
Oracle数据存储解决方案
Oracle数据整合解决方案
Oracle数据智慧解决方案
Oracle数据消费解决方案
Oracle数据洞察解决方案
Ora
cle
数据管理\
协作\
安全\
内容解决方案
Oracle数据处理解决方案
议题
• 认识大数据
• 采用 EA 方法
• 架构功能
• 案例研究
驾驭
大数据
您的企业架构
• 应对风险
– 技能
– 体验
– 投资
架构师的新兴领域之路
• 处理解决方案
– 可行性
– 时间
– 成本
• 实现目标
– 与价值保持一致
– 利用流程
– 利用基础架构
架构师的 企业计划方法
信息架构能力模型
数据种类
• 主数据
• 事务处理
• 参考
• 分析
• 元数据
• 非结构化
• 大数据
多样数据
领域
共享 和交付
BI 和 数据仓库
集成
内容管理
主数据管理
企业 数据模型
治理
安全性
基础架构
挑战: 利用 协同效应
大数据,集成架构。
分析
决策 获取
组织
人员 • 流程 • 产品组合
大数据
架构功能
新增
与结构化数据关联
对您信息架构的影响
新增
针对非常详细的
数据的分析方法
新增
更大的信息量,
多样性处理
• 极度可伸缩
• 硬件便宜
• 动态数据模型
• 统计
• 可视化
• 迭代
• 共享元数据
• 利用现有技能
• 统一信息板
• 实现数据共享 – 通过松耦合实现灵活性
– 清晰的语义和接口
• 管理风险 – 安全
– 质量
实现业务价值– 无竖井
一个关键的信息架构原则
Oracle 大数据架构
事务
管理
安全
、治
理
高级分析
可视发现
DBMS
(OLTP)
主数据和
参考 结构
化
仓库
文本分析和搜索
报告和信息板
实时
机器生成
社交媒体
文本、图像、
视频、音频
NoSQL
非结
构化
半
结构
化
报警
数据库中的
分析
EPM BI 管理软件
基于消息
ETL/ELT
ChangeDC
ODS
流
(CEP 引擎)
获取 组织 分析 决策
Hadoop
(MapReduce)
专业的硬件
HDFS
数据
内存中分析 RDBMS 集群 大数据集群 高速网络
文件
大数据分析发展流程
传统 BI 大数据
要求
数据模型
元数据
集成
报告
信息板
变更请求
选择数据源
探索结果
识别模式
优化模型
新问题
一个问题
假设
大数据的角色和技能
大数据科学家
• 行业专业知识
• 分析技能
大数据工程师
• Hadoop/Java
• 非关系型数据库
敏捷性和对价值的专注
大数据治理
• 明确定义
• 全面
• 一致
• 精确
• 易于理解
对质量和实用性的不断追求
• 及时
• 相关
• 准确
• 可访问
• 可审计
• 可验证
• 经济实惠
人员 • 流程 • 产品组合
大数据架构
案例分析
挑战:
实现低成本的
大量数据挖掘
挑战:
结合实时数据和
历史数据
挑战:
与结构化
数据关联
架构决策案例分析
适用于所有行业的案例分析
数据探索 目的:在线购物的购物车转化率
• 减少购物车丢弃
• 改善搜索响应转化
• 改善推荐引擎
• 增加结账时的追加销售
业务目标
• 每天 2000 万次页面浏览
• 每天的 Web 日志量达 10 TB
挑战
方案 1 Hadoop 技能
数据挖掘 — 概念图解
Hive 工具
方案 1:
• Hive 客户端安装
• 命令行工具
方案 2:
• 通过 DBMS 挂载 HDFS
• 没有客户端
架构考虑因素
• 无数据移动
• 利用数据库功能和性能
• 利用现有 SQL 技能
方案 2 SQL 技能
DBMS
HDFS
SQL 工具
HDFS
数据挖掘 — 逻辑图解
关键组件
• Oracle 大数据机或其他
HDFS 解决方案
• Oracle 大数据连接器
• Oracle 数据库外部表
• SQL Developer
• Oracle BI 企业版
Oracle
大数据机
Oracle
大数据
连接器
OBIEE
(大数据分析)
Oracle SQL
Developer
(任何 SQL 工具)
或者
或者
外部
表
案例研究:金融服务诈骗
实时警报 目的:运行中分析和措施
• 跨多个实时信息流关联复杂的风险标准
• 实时响应
运营目标
• 变更数据源和结构
• 非实时的复杂评估
• 源每日可增加 10 TB 或更多
挑战
源 分析 暂存 查询 结果
实时警报 — 概念图解
技术机遇
• 实时处理大数据量
• 合并历史事务和实时事务
架构决策
• 实时流
• 利用现有分析
• 最大限度地减少数据移动
实时
批处理
流
(CEP 引擎)
警报
• BPEL • 移动 • 信息板 • 数据库
NoSQL
HDFS
实时分析数据流
实时数据源
CEP
RDBMS
NOSQL
外部数据库
黑名单
大型机
历史事务
备份
历史配置文件
RDBMS
事务
历史数据源 计算配置文件
实时位置
实时事务
(基于消息)
Hadoop 集群
事件处理 警报和结果
实时警报 — 逻辑图解
关键组件
• Oracle 大数据机
• Cloudera Manager
• Oracle NoSQL 数据库
• Oracle EDA — CEP
• Oracle SOA — BAM
• Oracle SOA — BPEL
流
(CEP 引擎) BAM 信息板
BAM 警报
BPEL 流程
Oracle
EDA/SOA Suite
Oracle
大数据机
(带 Hadoop 和
NoSQL)
案例研究:保险公司
大数据关联和分析 目的:富有竞争力的创新 — 个性化保险
• 让利消费者行为
• 提供在线透明度
• 备用产品实时风险分析
业务目标
• 2000 万辆汽车
• 每天 10 亿条同步记录
• 开发可靠的统计模型
挑战
汽车保险费
习惯
平稳停车
急刹车
80%
5%
路程
最远 10 英里
11 至 50 英里
50 英里以上
50%
20%
5%
位置
城市
高速公路
75%
25%
事故
近 18 个月
0
对保险费的影响 (2400)
关联和分析 — 概念图解
NoSQL
BI 平台与分析
业务机会
• 个性化保险
技术选择
• 将缩减结果集成到关系数据库
• 构建另一个环境
• 手动关联
架构决策
• 使用集成元数据
• 使用标准 BI 平台
• 最大限度地减少数据移动
数据仓库
数据集市
数据库中的
分析 MapReduce
HDFS
数据流架构图解
关联和分析 — 逻辑图解
关键组件
• Oracle 大数据机
• Cloudera Manager
• Oracle 大数据连接器
• Oracle Exadata
• Oracle Advanced Analytics
• Oracle Exalytics
Oracle
大数据机
HDFS 和 NoSQL
MapReduce
Oracle
大数据连接器
Oracle
Exadata
Oracle
Exalytics
InfiniBand Infini Band
Oracle
Advanced
Analytics
Oracle BI 基础
决策
与结构化
数据关联
要点重述:大数据架构功能
决策
实时警报
决策
挖掘大量数据
• 无数据移动
• 使用 SQL 技能
• EDA 集成
• 最大限度地减少数据移动
• 利用集成
• 就地关联
• 利用 BI 平台
您的大数据规划
挖掘
扩展
利用
• 培养意识
• 选择并确定大数据集的优先级
• 评估并采用最为适合的大数据工具集
• 建立卓越中心
充分利用未来的机遇
识别业务机会
延伸和扩展初步成功
• 沟通成功案例
• 延伸并包含更多大数据集
• 管理并提升性能和可伸缩性
• 继续培训并补充技能集
• 构建以知识为中心的企业文化
• 能够充分吸收和利用新数据
• 对现有集成的大数据工具和新工具随其不断成熟进行监控和评估
利用 Oracle 和大数据的协同效应
• 企业弹性和可伸缩性
• 高性能运营
• 利用数据库内分析
• 利用 BI 投资
• 利用云管理
• 开源支持和分发
Oracle 的企业架构方法
人员
Oracle 企业架构师
流程
Oracle 架构开发流程
产品组合
Oracle EA 框架
下一步 和我们沟通
• Meet our Enterprise Architects
• Visit Oracle EA areas on Oracle.com – www.oracle.com/goto/EA
– www.oracle.com/goto/EA/OEEA
• Use our EA & Architecture Artifacts
– www.oracle.com/goto/ITStrategies
• Learn about Oracle EA Services – www.oracle.com/goto/EA-Services
谢谢!