9
数数数数数 数数数数 数数 数数

数据处理第一阶段工作汇报

Embed Size (px)

DESCRIPTION

数据处理第一阶段工作汇报. 郭鑫. 任务内容. 1. 完成图片,音乐,视频内容的特征提取 可扩展 ---- 具体应用相关 性能 2. 完成 数据挖掘一些 算法 没有明确需求. 第一阶段任务. 完成图片,音乐的特征提取 图片特征: colorlayout , edgehistogram , tamura 音乐特征: MFCC 完成元数据信息的 提取 文件名,大小 文件类型 文件作者 图片缩略图 音频文件长度 最新修改时间. 第一阶段完成情况. 特征提取两个接口 单个文件的特征提取 单机测试完成 读取写入底层文件系统测试完成 - PowerPoint PPT Presentation

Citation preview

Page 1: 数据处理第一阶段工作汇报

数据处理第一阶段工作汇报郭鑫

Page 2: 数据处理第一阶段工作汇报

任务内容 1. 完成图片,音乐,视频内容的特征提取

可扩展 ----具体应用相关 性能

2. 完成数据挖掘一些算法 没有明确需求

Page 3: 数据处理第一阶段工作汇报

第一阶段任务• 完成图片,音乐的特征提取

图片特征: colorlayout, edgehistogram, tamura 音乐特征:MFCC

• 完成元数据信息的提取 文件名,大小 文件类型 文件作者 图片缩略图 音频文件长度 最新修改时间

Page 4: 数据处理第一阶段工作汇报

第一阶段完成情况 特征提取两个接口

单个文件的特征提取 单机测试完成 读取写入底层文件系统测试完成

文件列表的特征提取 单机测试完成 Mapreduce的底层使用失败

元数据提取单机测试完成

Page 5: 数据处理第一阶段工作汇报

第一阶段完成情况• 可扩展性

统一接口: FeatureExtractor

• 性能 使用mapreduce分布式地进行批量特征提取 图片特征: 1000个图片 100s。音乐特征: 1个音乐文件 30s)

Page 6: 数据处理第一阶段工作汇报

遇到的问题特征提取

音频特征的时序问题(需调研)一个文件对应多个特征,如何索引?

视频特征一般的视频特征:一个视频文件,多个图片,多个图片特征

如何存储?如何索引?

Page 7: 数据处理第一阶段工作汇报

遇到的问题特征提取

使用分布式进行特征提取时,遇到各类问题配置, jar包等问题

Semantic的提取??

Page 8: 数据处理第一阶段工作汇报

遇到的问题元数据信息提取

文件作者信息的提取,目前的 jdk不能支持

Page 9: 数据处理第一阶段工作汇报

第二阶段工作视频特征提取

数据挖掘算法(需求??)