29
基基 R 基 pentaho 基基基基基 BI 基基 基基基 基基 Mango Solutions China

基于 R 和 pentaho 的全套开源 BI 平台的实现

  • Upload
    shina

  • View
    250

  • Download
    0

Embed Size (px)

DESCRIPTION

基于 R 和 pentaho 的全套开源 BI 平台的实现. 李舰 Mango Solutions China. 目录. BI 和 pentaho 套件 简介 R 和 pentaho 的集成 Hadoop 下的应用 系统选型的建议. 决策支持. 功能. 基础架构. 数据. 展现层. 报表. OLAP 展现. 仪表盘. 动态图形. 统计图形. BI 系统的框架. 业务应用平台. 财务分析. 数据挖掘. 预测. 管理报表. 模拟. 运算引擎. OLAP 引擎. 模型和算法. 多维分析. 数据仓库. ETL 数据获取和交换平台. - PowerPoint PPT Presentation

Citation preview

Page 1: 基于 R 和 pentaho 的全套开源 BI 平台的实现

基于 R 和 pentaho 的全套开源BI 平台的实现

李舰 Mango Solutions China

Page 2: 基于 R 和 pentaho 的全套开源 BI 平台的实现

目录• BI 和 pentaho 套件简介• R 和 pentaho 的集成• Hadoop 下的应用• 系统选型的建议

Page 3: 基于 R 和 pentaho 的全套开源 BI 平台的实现

BI 系统的框架

业务系统 财务系统 HR系统 Office文件 其他格式的数据

数据源

决策支持

功能

基础架构

数据

模型和算法运算引擎

财务分析 数据挖掘 预测

仪表盘 统计图形 OLAP 展现 动态图形业务应用平台

Extraction

ETL数据获取和交换平台Transformation

展现层

Load

报表

模拟管理报表

数据仓库多维分析

OLAP引擎

Page 4: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Pentaho 套件

Page 5: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Pentaho 架构

Page 6: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Pentaho BI Server—— 自由而灵活的平台

Page 7: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Kettle—— 数据整合的利器

Page 8: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Metadata Editor—— 元数据管理

Page 9: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Report Designer—— 方便的报表设计工具

Page 10: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Mondrian—— 强大的开源 OLAP 引擎

Page 11: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Schema Workbench—— 数据仓库的设计

Page 12: 基于 R 和 pentaho 的全套开源 BI 平台的实现

WEKA—— 优秀的数据挖掘平台

Page 13: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Pentaho 套件的演示

Page 14: 基于 R 和 pentaho 的全套开源 BI 平台的实现

目录• BI 和 pentaho 套件简介• R 和 pentaho 的集成• Hadoop 下的应用• 系统选型的建议

Page 15: 基于 R 和 pentaho 的全套开源 BI 平台的实现

R 包 rpentaho 的操作演示

Page 16: 基于 R 和 pentaho 的全套开源 BI 平台的实现

目录• BI 和 pentaho 套件简介• R 和 pentaho 的集成• Hadoop 下的应用• 系统选型的建议

Page 17: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Pentaho 对 Hadoop 的支持• http://www.pentaho.com/hadoop/• Pentaho Business Analytics• Pentaho Data Integration

Page 18: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Hadoop 简史• Apache Nutch

• 2002 年, Lucene 的子项目。• NDFS (Nutch Distributed File System)

• MapReduce• MapReduce :大规模集群上的简单数据处理方式 ( Google )• MapReduce + NDFS

• Hadoop• 2006, 命名为 Hadoop• 2008 , Apache 顶级项目• HDFS (Hadoop Distributed File System)

Page 19: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Hadoop 和 Google

Google云计算MapReduc

e BigTable

GFSChubb

y

GFS-->HDFS MapReduce-->HadoopBigTable-->HBase

Page 20: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Hadoop 项目结构

Page 21: 基于 R 和 pentaho 的全套开源 BI 平台的实现
Page 22: 基于 R 和 pentaho 的全套开源 BI 平台的实现

MapReduce 流程

Page 23: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Hadoop Streaming

• Hadoop 的工具,使用脚本文件当 mapper 或 reducer• $ $HADOOP_HOME/bin/hadoop jar \• > $HADOOP_HOME/contrib/streaming/hadoop-

streaming-*.jar \• > -input /data/airline/test.dat -output /dept-delay-

month \• > -mapper map.R -reducer reduce.R -file map.R -

file reduce.R

Page 24: 基于 R 和 pentaho 的全套开源 BI 平台的实现

hive

• http://cran.r-project.org/web/packages/hive/index.html

• Hadoop InteractiVE (和 Hive 没什么关系)• R 和 Hadoop 的接口

• 提供了存取 HDFS 的函数• 对 Hadoop 进行控制• 直接在 R 中运行 streaming jobs

Page 25: 基于 R 和 pentaho 的全套开源 BI 平台的实现

Rhipe

• http://www.rhipe.org/• 基于 Hadoop streaming• 可以完全在 R 中开发 MapReduce 中的 Jobs• 工作在 R 环境

Page 26: 基于 R 和 pentaho 的全套开源 BI 平台的实现

RHadoop• https://github.com/RevolutionAnalytics/RHadoop• 的开源项目• rmr

• R 和 Hadoop 的 Streaming 连接器• Rhdfs

• 处理 Hadoop Distributed File System• Rhbase

• R 和 Hbase 的连接器

Page 27: 基于 R 和 pentaho 的全套开源 BI 平台的实现

展望• Hama ( http://wiki.apache.org/hama/)

• 矩阵运算• R 函数的分布式开发

• K-Means• lm• ……

Page 28: 基于 R 和 pentaho 的全套开源 BI 平台的实现

目录• BI 和 pentaho 套件简介• R 和 pentaho 的集成• Hadoop 下的应用• 系统选型的建议

Page 29: 基于 R 和 pentaho 的全套开源 BI 平台的实现

建议和讨论