Upload
tucker-mcconnell
View
121
Download
0
Embed Size (px)
DESCRIPTION
基于 Hadoop 的关键词行业分类技术 研究. --- 季朋. 基于 Hadoop 的关键词行业分类技术研究. Catalog 目录. 基于 Hadoop 的关键词行业分类技术研究. Content 研究内容. 1. of. 13. 基于 H adoop 的关键词行业分类技术研究. 基于 Hadoop 的关键词行业分类技术研究. Solution 解决方案. 分类 学习训练集,分类未标注的关键词 海量数据 一千多万条数据,处理的数据达 10G 以上. 并行化的 KNN 算法. Hadoop 平台, MapReduce 处理框架. 2. of. 13. - PowerPoint PPT Presentation
Citation preview
基于 Hadoop 的关键词行业分类技术研究
--- 季朋
Catalog 目录
基于 Hadoop 的关键词行业分类技术研究
1. 研究内容
2. 解决方案
3. Hadoop 平台
4. 中文分词
5. 特征权重
6. 相似度距离
7. 并行化 KNN 算法
已知 33 个已定义的类别,目标为从海量的标注样本中,使用高效的学习算法,完成对测试样本的分类。
数据集中有一个文件,其中有标注的关键词(约100 万)和未标注关键词(约 1000 万)
1 of 13 基于 Hadoop 的关键词行业分类技术研究
基于 Hadoop 的关键词行业分类技术研究
Content 研究内容
Solution 解决方案
基于 Hadoop 的关键词行业分类技术研究
• 分类学习训练集,分类未标注的关键词
• 海量数据一千多万条数据,处理的数据达 10G 以上
并行化的 KNN 算法
Hadoop 平台, MapReduce 处理框架
2 of 13 基于 Hadoop 的关键词行业分类技术研究
Hadoop平台
3 of 13 基于 Hadoop 的关键词行业分类技术研究
Secondary NameNode
NameNode
… …
DataNode DataNode DataNode DataNode DataNode
Rack1 Rackn
BlockBlock
Client
Client
HDFS
Hadoop平台
4 of 13 基于 Hadoop 的关键词行业分类技术研究
JobTrackerClient
Client
Task Scheduler
TaskTracker TaskTrackerTaskTracker
Map Task
Reduce Task
Map Task Map Task Map Task
Reduce Task
Map Task Map Task
Reduce Task
MapReduce
5 of 13
中文分词
基于 Hadoop 的关键词行业分类技术研究
准确高效Python中文分词组件
停用词典
天津 / 理工大学
自定义词典
搜索引擎模式
结巴分词
6 of 13
中文分词
基于 Hadoop 的关键词行业分类技术研究
原始数据集eg:天津大学\t7
Streamming process
分词后结果eg:天津大学\t天津/ 大学/ 天津大学/ \t7 ...
Mappercat
Reducer
Reducer
Reducer
...
segment.pystd out
HDFS
原始关键词 关键词分词 分类
网络理财投资排行 网络 理财 投资 排行 22
网络知名吊坠 网络 知名 吊坠 -
网络终端机软件 网络 终端 端机 终端机 软件 -
网络营销方案 范文 网络 营销 网络营销 方案范文 14
网络营销策划案 网络 营销 网络营销 策划 策划案 -
7 of 13
特征权重
基于 Hadoop 的关键词行业分类技术研究
加权熵值: H(w) = 归一化: E(w) =
假如有三个分类 A,B,C ,分别含有 10,15,11 个单词,词 w 在 A,B,C 中出现的次数分别为1,4,3 ,则出现的概率(假设等同于频率)就分别为:,,,则 w 的加权熵值为:
H(w) = = + +
M=
归一化后得到的值越大,越具有区分度
8 of 13
特征权重
基于 Hadoop 的关键词行业分类技术研究
R 语言展示如图:
词的大小和颜色代表权重值大小颜色从红到蓝,权重值逐渐减小形状从大到小,权重值逐渐较小
9 of 13
相似度距离
基于 Hadoop 的关键词行业分类技术研究
扩展杰卡德距离: =
=
10 of 13
并行化 KNN算法
基于 Hadoop 的关键词行业分类技术研究
找出训练集中与待分类文档距离最近的 k 个文档,则待分类的文档属于 k 个文档中占权重最大的那个分类
11 of 13
并行化 KNN算法
基于 Hadoop 的关键词行业分类技术研究
分词
是否标注
开始
分词数据集
NY
计算权重
计算相似度
取距离最小的k个并分类
结束
分离训练集 分离测试集
Reducer
Reducer
Reducer
Reducer
Reducer
...
...
Mapper
Reducer
...
...
...
分类结果
MapReduce
MapReduce
训练集
...
Reducer
Reducer
...
合并结果
...
Mapper
Mapper
Mapper
...
权重值
测试集
12 of 13
系统总流程
基于 Hadoop 的关键词行业分类技术研究
Keyword.txt原始数据集
分词以后数据集
已标注的关键词(训练集)
关键词熵值
每个类中单词数目
KNN分类算法MapReduce结果集
计算熵值算法(MapReduce)
分词算法Hadoop streaming
分离标注的关键词Hadoop streaming
计算类别中单词数目MapReduce
分离未标注的关键词Hadoop streaming
未标注的关键词(测试集)
13 of 13
结果分析
基于 Hadoop 的关键词行业分类技术研究
类别 准确率 类别 准确率
1 90.45% 18 90.98%
2 91.66% 19 89.21%
3 89.51% 20 91.54%
4 90.21% 21 90.65%
5 90.15% 22 91.32%
6 90.34% 23 89.45%
7 90.59% 24 89.32%
8 91.12% 25 90.12%
9 90.76% 26 91.24%
10 89.19% 27 90.43%
11 90.14% 28 88.65%
12 90.43% 29 89.43%
13 89.10% 30 88.52%
14 90.56% 31 89.90%
15 89.54% 32 90.76%
16 88.67% 33 91.16%
17 90.23% 无
宏平均 90.17%
基于 hadoop 的关键词行业分类技术研究