基于 R 和 pentaho 的全套开源 BI 平台的实现

Preview:

DESCRIPTION

基于 R 和 pentaho 的全套开源 BI 平台的实现. 李舰 Mango Solutions China. 目录. BI 和 pentaho 套件 简介 R 和 pentaho 的集成 Hadoop 下的应用 系统选型的建议. 决策支持. 功能. 基础架构. 数据. 展现层. 报表. OLAP 展现. 仪表盘. 动态图形. 统计图形. BI 系统的框架. 业务应用平台. 财务分析. 数据挖掘. 预测. 管理报表. 模拟. 运算引擎. OLAP 引擎. 模型和算法. 多维分析. 数据仓库. ETL 数据获取和交换平台. - PowerPoint PPT Presentation

Citation preview

基于 R 和 pentaho 的全套开源BI 平台的实现

李舰 Mango Solutions China

目录• BI 和 pentaho 套件简介• R 和 pentaho 的集成• Hadoop 下的应用• 系统选型的建议

BI 系统的框架

业务系统 财务系统 HR系统 Office文件 其他格式的数据

数据源

决策支持

功能

基础架构

数据

模型和算法运算引擎

财务分析 数据挖掘 预测

仪表盘 统计图形 OLAP 展现 动态图形业务应用平台

Extraction

ETL数据获取和交换平台Transformation

展现层

Load

报表

模拟管理报表

数据仓库多维分析

OLAP引擎

Pentaho 套件

Pentaho 架构

Pentaho BI Server—— 自由而灵活的平台

Kettle—— 数据整合的利器

Metadata Editor—— 元数据管理

Report Designer—— 方便的报表设计工具

Mondrian—— 强大的开源 OLAP 引擎

Schema Workbench—— 数据仓库的设计

WEKA—— 优秀的数据挖掘平台

Pentaho 套件的演示

目录• BI 和 pentaho 套件简介• R 和 pentaho 的集成• Hadoop 下的应用• 系统选型的建议

R 包 rpentaho 的操作演示

目录• BI 和 pentaho 套件简介• R 和 pentaho 的集成• Hadoop 下的应用• 系统选型的建议

Pentaho 对 Hadoop 的支持• http://www.pentaho.com/hadoop/• Pentaho Business Analytics• Pentaho Data Integration

Hadoop 简史• Apache Nutch

• 2002 年, Lucene 的子项目。• NDFS (Nutch Distributed File System)

• MapReduce• MapReduce :大规模集群上的简单数据处理方式 ( Google )• MapReduce + NDFS

• Hadoop• 2006, 命名为 Hadoop• 2008 , Apache 顶级项目• HDFS (Hadoop Distributed File System)

Hadoop 和 Google

Google云计算MapReduc

e BigTable

GFSChubb

y

GFS-->HDFS MapReduce-->HadoopBigTable-->HBase

Hadoop 项目结构

MapReduce 流程

Hadoop Streaming

• Hadoop 的工具,使用脚本文件当 mapper 或 reducer• $ $HADOOP_HOME/bin/hadoop jar \• > $HADOOP_HOME/contrib/streaming/hadoop-

streaming-*.jar \• > -input /data/airline/test.dat -output /dept-delay-

month \• > -mapper map.R -reducer reduce.R -file map.R -

file reduce.R

hive

• http://cran.r-project.org/web/packages/hive/index.html

• Hadoop InteractiVE (和 Hive 没什么关系)• R 和 Hadoop 的接口

• 提供了存取 HDFS 的函数• 对 Hadoop 进行控制• 直接在 R 中运行 streaming jobs

Rhipe

• http://www.rhipe.org/• 基于 Hadoop streaming• 可以完全在 R 中开发 MapReduce 中的 Jobs• 工作在 R 环境

RHadoop• https://github.com/RevolutionAnalytics/RHadoop• 的开源项目• rmr

• R 和 Hadoop 的 Streaming 连接器• Rhdfs

• 处理 Hadoop Distributed File System• Rhbase

• R 和 Hbase 的连接器

展望• Hama ( http://wiki.apache.org/hama/)

• 矩阵运算• R 函数的分布式开发

• K-Means• lm• ……

目录• BI 和 pentaho 套件简介• R 和 pentaho 的集成• Hadoop 下的应用• 系统选型的建议

建议和讨论