13
多多多多多多多多多多多多多多多多 南南南南 南南南南 2013 多 11 多 18 多 南南南南 南南南南南南南南南南

多策略中文微博细粒度情绪分析研究

Embed Size (px)

DESCRIPTION

南华大学 计算机科学与技术学院. 多策略中文微博细粒度情绪分析研究. 南华大学 欧阳纯萍 2013 年 11 月 18 日. 任务概述 技术要点 实验结果 总结. 评测任务. 微博情绪识别与分类( C lose 测试 ) : 对于输入的整条微博,本任务要求判断出该微博是否包含情绪。 对包含情绪的微博,要求判别其情绪分类输出为 anger 愤怒、 disgust 厌恶、 fear 恐惧、 happiness 高兴、 like 喜好、 sadness 悲伤、 surprise 惊讶中的一种,即单分类输出。. 任务概述 技术要点 实验结果 - PowerPoint PPT Presentation

Citation preview

Page 1: 多策略中文微博细粒度情绪分析研究

多策略中文微博细粒度情绪分析研究

南华大学 欧阳纯萍 2013年 11月 18 日

南华大学 计算机科学与技术学院

Page 2: 多策略中文微博细粒度情绪分析研究

www.nordridesign.com

1.任务概述

2.技术要点

3.实验结果

4.总结

Page 3: 多策略中文微博细粒度情绪分析研究

www.nordridesign.com

评测任务

微博情绪识别与分类( Close 测试):

– 对于输入的整条微博,本任务要求判断出该微博是否包

含情绪。

– 对包含情绪的微博,要求判别其情绪分类输出为 anger

愤怒、 disgust 厌恶、 fear 恐惧、 happiness 高

兴、 like 喜好、 sadness 悲伤、 surprise 惊讶中的一种,

即单分类输出。

Page 4: 多策略中文微博细粒度情绪分析研究

www.nordridesign.com

1.任务概述

2.技术要点

3.实验结果

4.总结

Page 5: 多策略中文微博细粒度情绪分析研究

www.nordridesign.com

技术要点

待分类微博

分词

朴素贝叶斯分类器对训练集进行分析,获取特征属性

计算两类微博在训练集中的出现频率

计算每个特征属性对每个类别的条件

概率

计算匹配成功的待分类微博的特征属性的后验概率与先验概率的乘积

无情感微博

有情感微博分类

特征选择与权重计算

待分类微博的21维向量

训练集的21维向量

向量化 特征表示

KNN分类器

把前K个属于同类情感的值相加,值最高者即为最终的情感类别

SVM分类器

训练SVM分类器,对待分类微博直接进行分类输出

Page 6: 多策略中文微博细粒度情绪分析研究

www.nordridesign.com

技术要点一

朴素贝叶斯分类的特征词选择

)1(1,0ordfreq&&ordfreq

ordfreqi-1

i

i-1 )( inWkW

W

i=0 ,判断某词在有情绪微博中的表征作用。i=1 ,判断某词在无情绪微博中的表征作用。 对有无情绪微博中的词性特征进行分析,筛选出表征能力强的词性特征。最终,经试验取 k=4 , n=20 ,得到了 796 个特征词和 19 种词性,组成了 815 个特征集合。

Page 7: 多策略中文微博细粒度情绪分析研究

www.nordridesign.com

技术要点二

面向细粒度情绪的微博向量化

α=0.9 , β=0.1 , w 表示属于第 m 维情感类的总词数, intension 表示情感强度, polarity 表示情感极性。 对卡方检验的特征词进行情感强度和极性人工标注。(参考大连理工本体库) 根据计算得到的特征词权重值,对分词后的微博进行向量化。

)( 1],1,0[,,21,...,2,1

)()(

m

polarityintensionWeight i

w

iim

Page 8: 多策略中文微博细粒度情绪分析研究

www.nordridesign.com

1.任务概述

2.技术要点

3.实验结果

4.总结

Page 9: 多策略中文微博细粒度情绪分析研究

www.nordridesign.com

实验结果

情绪判别实验结果

Precision Recall F-measure

NB+SVM 0.6626 0.8012 0.7254

NB+KNN 0.6676 0.7982 0.7271

MAX 0.7494 0.9517 0.7271

情绪分类宏平均实验结果

MacroPrecision

MacroRecall

MacroF-measure

NB+SVM 0.2109 0.1996 0.2051

NB+KNN 0.2704 0.3064 0.2873

MAX 0.2844 0.3064 0.2873

Page 10: 多策略中文微博细粒度情绪分析研究

www.nordridesign.com

实验结果

情绪分类微平均实验结果

MicroPrecision

MicroRecall

MicroF-measure

NB+SVM 0.2539 0.3070 0.2779

NB+KNN 0.3133 0.3746 0.3412

MAX 0.3834 0.3976 0.3412

Page 11: 多策略中文微博细粒度情绪分析研究

www.nordridesign.com

1.任务概述

2.技术要点

3.实验结果

4.总结

Page 12: 多策略中文微博细粒度情绪分析研究

www.nordridesign.com

总结

• 分阶段进行微博情绪分析的方案比较理想。

• 无论是情绪分类还是情绪判别,特征词的选择,微博的特征化都是非常重要的环节。

• 本次实验并未对分类算法进行改进,将是下一步工作的重点。

Page 13: 多策略中文微博细粒度情绪分析研究

谢 谢!

南华大学 计算机科学与技术学院