Upload
shina
View
250
Download
0
Embed Size (px)
DESCRIPTION
基于 R 和 pentaho 的全套开源 BI 平台的实现. 李舰 Mango Solutions China. 目录. BI 和 pentaho 套件 简介 R 和 pentaho 的集成 Hadoop 下的应用 系统选型的建议. 决策支持. 功能. 基础架构. 数据. 展现层. 报表. OLAP 展现. 仪表盘. 动态图形. 统计图形. BI 系统的框架. 业务应用平台. 财务分析. 数据挖掘. 预测. 管理报表. 模拟. 运算引擎. OLAP 引擎. 模型和算法. 多维分析. 数据仓库. ETL 数据获取和交换平台. - PowerPoint PPT Presentation
Citation preview
基于 R 和 pentaho 的全套开源BI 平台的实现
李舰 Mango Solutions China
目录• BI 和 pentaho 套件简介• R 和 pentaho 的集成• Hadoop 下的应用• 系统选型的建议
BI 系统的框架
业务系统 财务系统 HR系统 Office文件 其他格式的数据
数据源
决策支持
功能
基础架构
数据
模型和算法运算引擎
财务分析 数据挖掘 预测
仪表盘 统计图形 OLAP 展现 动态图形业务应用平台
Extraction
ETL数据获取和交换平台Transformation
展现层
Load
报表
模拟管理报表
数据仓库多维分析
OLAP引擎
Pentaho 套件
Pentaho 架构
Pentaho BI Server—— 自由而灵活的平台
Kettle—— 数据整合的利器
Metadata Editor—— 元数据管理
Report Designer—— 方便的报表设计工具
Mondrian—— 强大的开源 OLAP 引擎
Schema Workbench—— 数据仓库的设计
WEKA—— 优秀的数据挖掘平台
Pentaho 套件的演示
目录• BI 和 pentaho 套件简介• R 和 pentaho 的集成• Hadoop 下的应用• 系统选型的建议
R 包 rpentaho 的操作演示
目录• BI 和 pentaho 套件简介• R 和 pentaho 的集成• Hadoop 下的应用• 系统选型的建议
Pentaho 对 Hadoop 的支持• http://www.pentaho.com/hadoop/• Pentaho Business Analytics• Pentaho Data Integration
Hadoop 简史• Apache Nutch
• 2002 年, Lucene 的子项目。• NDFS (Nutch Distributed File System)
• MapReduce• MapReduce :大规模集群上的简单数据处理方式 ( Google )• MapReduce + NDFS
• Hadoop• 2006, 命名为 Hadoop• 2008 , Apache 顶级项目• HDFS (Hadoop Distributed File System)
Hadoop 和 Google
Google云计算MapReduc
e BigTable
GFSChubb
y
GFS-->HDFS MapReduce-->HadoopBigTable-->HBase
Hadoop 项目结构
MapReduce 流程
Hadoop Streaming
• Hadoop 的工具,使用脚本文件当 mapper 或 reducer• $ $HADOOP_HOME/bin/hadoop jar \• > $HADOOP_HOME/contrib/streaming/hadoop-
streaming-*.jar \• > -input /data/airline/test.dat -output /dept-delay-
month \• > -mapper map.R -reducer reduce.R -file map.R -
file reduce.R
hive
• http://cran.r-project.org/web/packages/hive/index.html
• Hadoop InteractiVE (和 Hive 没什么关系)• R 和 Hadoop 的接口
• 提供了存取 HDFS 的函数• 对 Hadoop 进行控制• 直接在 R 中运行 streaming jobs
Rhipe
• http://www.rhipe.org/• 基于 Hadoop streaming• 可以完全在 R 中开发 MapReduce 中的 Jobs• 工作在 R 环境
RHadoop• https://github.com/RevolutionAnalytics/RHadoop• 的开源项目• rmr
• R 和 Hadoop 的 Streaming 连接器• Rhdfs
• 处理 Hadoop Distributed File System• Rhbase
• R 和 Hbase 的连接器
展望• Hama ( http://wiki.apache.org/hama/)
• 矩阵运算• R 函数的分布式开发
• K-Means• lm• ……
目录• BI 和 pentaho 套件简介• R 和 pentaho 的集成• Hadoop 下的应用• 系统选型的建议
建议和讨论