Upload
armina
View
134
Download
0
Embed Size (px)
DESCRIPTION
浙江大学计算机学院数字媒体. MapReduce 简介. 贺争盛. 2013 年 6 月 23 日 星期日. Contents 1 · 目录 一. 数据 NCDC. 1. 分析数据 方法. 2. 横向扩展. 3. 气象数据集. 国家气候数据中心. National Climatic Data Center. 半结构化面向对象. 面向行的 ASCII 格式存储. 我们重点讨论基本元素,如气温. 分析数据方法. Unix Tools ( awk ). Hadoop. 使用 Unix Tools 来分析数据. awk. - PowerPoint PPT Presentation
Citation preview
MapReduce 简介
贺争盛
2013 年 6 月 23 日 星期日
浙江大学计算机学院数字媒体
数据 NCDC
分析数据方法
横向扩展
Contents 1 · 目录一
1
2
3
气象数据集
国家气候数据中心
National Climatic Data Center
半结构化面向对象
面向行的 ASCII 格式存储
我们重点讨论基本元素,如气温
分析数据方法
Unix Tools ( awk )
Hadoop
使用 Unix Tools 来分析数据
awk
awk 是一种优良的文本处理工具。任何环境中现有的功能最强大的数据处理引擎之一。扫描文件中的每一行,查找与命令行中所给定内容相匹配的模式。如果发现匹配内容,则进行下一个编程步骤。如果找不到匹配内容,则继续处理下一行。
使用 Unix Tools 来分析数据
awk提取两个字段:气温和质量代码
最大值比较 替换
运行 42 分钟 ( Hadoop 6 分钟)
并行运行 划分块 大小相同
使用 Hadoop 进行数据分析
Hadoop
Map 阶段
Map 函数
输入 NCDC 数据
数据准备 建立数据
提取年份和气温
Reduce 阶段
Reduce 函数
Mapreduce 框架处理
Reduce 函数进一步工作
找出每年最高气温
使用 Hadoop 进行数据分析
Hadoop
横向扩展
Scaling out
MapReduce job: 客户端要执行的一个工作单元,包括 input data 、 mapreduce 程序、配置信息。
有两种节点控制 job 运行,一种是 jobtracker ,一种是 tasktracker 。Jobtracker 通过调度 tasktracker 协调所有工作的执行。 Tasktracker 运行任务并将报告发送给jobtracker , jobtracker 记录所有工作的进度。如果一个任务失败, jobtracker 再重新调度一个不同的 tasktracker 进行工作。
横向扩展
输入分片: Hadoop 将输入划分成固定大小的块,这些块就叫 splits 。分块不能太大,也不能太小,一般是 64MB ,也就是 HDFS 默认的块大小。
数据本地化优化 : 在存储有输入数据( HDFS 中的数据)的节点上运行 map 任务,可以获得最佳性能。
Map 将输出写到本地磁盘,没有写到 HDFS 中。只是中年结果,而非最终输出,作业完成后可被删除,不需要写入 HDFS 进行备份。
横向扩展
Reduce 任务不具备数据本地化优势。单个 reduce 任务的输入通常来自所有 mapper的输出。
横向扩展
Combiner 合并函数Combiner 将 map 出来的中间数据进行处理,减少网络传输量。
JAVA
Ruby
Python
THE END Life College of Science & Technology
REPLAY