16
MapReduce 简简 简简简 2013 6 23 年年年 年年年年年年年年年年年年

MapReduce 简介

  • Upload
    armina

  • View
    134

  • Download
    0

Embed Size (px)

DESCRIPTION

浙江大学计算机学院数字媒体. MapReduce 简介. 贺争盛. 2013 年 6 月 23 日 星期日. Contents 1 · 目录 一. 数据 NCDC. 1. 分析数据 方法. 2. 横向扩展. 3. 气象数据集. 国家气候数据中心. National Climatic Data Center. 半结构化面向对象. 面向行的 ASCII 格式存储. 我们重点讨论基本元素,如气温. 分析数据方法. Unix Tools ( awk ). Hadoop. 使用 Unix Tools 来分析数据. awk. - PowerPoint PPT Presentation

Citation preview

Page 1: MapReduce 简介

MapReduce 简介

贺争盛

2013 年 6 月 23 日 星期日

浙江大学计算机学院数字媒体

Page 2: MapReduce 简介

数据 NCDC

分析数据方法

横向扩展

Contents 1 · 目录一

1

2

3

Page 3: MapReduce 简介

气象数据集

国家气候数据中心

National Climatic Data Center

半结构化面向对象

面向行的 ASCII 格式存储

我们重点讨论基本元素,如气温

Page 4: MapReduce 简介

分析数据方法

Unix Tools ( awk )

Hadoop

Page 5: MapReduce 简介

使用 Unix Tools 来分析数据

awk

awk 是一种优良的文本处理工具。任何环境中现有的功能最强大的数据处理引擎之一。扫描文件中的每一行,查找与命令行中所给定内容相匹配的模式。如果发现匹配内容,则进行下一个编程步骤。如果找不到匹配内容,则继续处理下一行。

Page 6: MapReduce 简介

使用 Unix Tools 来分析数据

awk提取两个字段:气温和质量代码

最大值比较 替换

运行 42 分钟 ( Hadoop 6 分钟)

并行运行 划分块 大小相同

Page 7: MapReduce 简介

使用 Hadoop 进行数据分析

Hadoop

Map 阶段

Map 函数

输入 NCDC 数据

数据准备 建立数据

提取年份和气温

Reduce 阶段

Reduce 函数

Mapreduce 框架处理

Reduce 函数进一步工作

找出每年最高气温

Page 8: MapReduce 简介

使用 Hadoop 进行数据分析

Hadoop

Page 9: MapReduce 简介

横向扩展

Scaling out

MapReduce job: 客户端要执行的一个工作单元,包括 input data 、 mapreduce 程序、配置信息。

有两种节点控制 job 运行,一种是 jobtracker ,一种是 tasktracker 。Jobtracker 通过调度 tasktracker 协调所有工作的执行。 Tasktracker 运行任务并将报告发送给jobtracker , jobtracker 记录所有工作的进度。如果一个任务失败, jobtracker 再重新调度一个不同的 tasktracker 进行工作。

Page 10: MapReduce 简介

横向扩展

输入分片: Hadoop 将输入划分成固定大小的块,这些块就叫 splits 。分块不能太大,也不能太小,一般是 64MB ,也就是 HDFS 默认的块大小。

数据本地化优化 : 在存储有输入数据( HDFS 中的数据)的节点上运行 map 任务,可以获得最佳性能。

Map 将输出写到本地磁盘,没有写到 HDFS 中。只是中年结果,而非最终输出,作业完成后可被删除,不需要写入 HDFS 进行备份。

Page 11: MapReduce 简介

横向扩展

Reduce 任务不具备数据本地化优势。单个 reduce 任务的输入通常来自所有 mapper的输出。

Page 12: MapReduce 简介

横向扩展

Combiner 合并函数Combiner 将 map 出来的中间数据进行处理,减少网络传输量。

Page 13: MapReduce 简介

JAVA

Page 14: MapReduce 简介

Ruby

Page 15: MapReduce 简介

Python

Page 16: MapReduce 简介

THE END Life College of Science & Technology

REPLAY