Upload
deanna-juarez
View
33
Download
3
Embed Size (px)
DESCRIPTION
南华大学 计算机科学与技术学院. 多策略中文微博细粒度情绪分析研究. 南华大学 欧阳纯萍 2013 年 11 月 18 日. 任务概述 技术要点 实验结果 总结. 评测任务. 微博情绪识别与分类( C lose 测试 ) : 对于输入的整条微博,本任务要求判断出该微博是否包含情绪。 对包含情绪的微博,要求判别其情绪分类输出为 anger 愤怒、 disgust 厌恶、 fear 恐惧、 happiness 高兴、 like 喜好、 sadness 悲伤、 surprise 惊讶中的一种,即单分类输出。. 任务概述 技术要点 实验结果 - PowerPoint PPT Presentation
Citation preview
多策略中文微博细粒度情绪分析研究
南华大学 欧阳纯萍 2013年 11月 18 日
南华大学 计算机科学与技术学院
www.nordridesign.com
1.任务概述
2.技术要点
3.实验结果
4.总结
www.nordridesign.com
评测任务
微博情绪识别与分类( Close 测试):
– 对于输入的整条微博,本任务要求判断出该微博是否包
含情绪。
– 对包含情绪的微博,要求判别其情绪分类输出为 anger
愤怒、 disgust 厌恶、 fear 恐惧、 happiness 高
兴、 like 喜好、 sadness 悲伤、 surprise 惊讶中的一种,
即单分类输出。
www.nordridesign.com
1.任务概述
2.技术要点
3.实验结果
4.总结
www.nordridesign.com
技术要点
待分类微博
分词
朴素贝叶斯分类器对训练集进行分析,获取特征属性
计算两类微博在训练集中的出现频率
计算每个特征属性对每个类别的条件
概率
计算匹配成功的待分类微博的特征属性的后验概率与先验概率的乘积
无情感微博
有情感微博分类
特征选择与权重计算
待分类微博的21维向量
训练集的21维向量
向量化 特征表示
KNN分类器
把前K个属于同类情感的值相加,值最高者即为最终的情感类别
SVM分类器
训练SVM分类器,对待分类微博直接进行分类输出
www.nordridesign.com
技术要点一
朴素贝叶斯分类的特征词选择
)1(1,0ordfreq&ªreq
ordfreqi-1
i
i-1 )( inWkW
W
i=0 ,判断某词在有情绪微博中的表征作用。i=1 ,判断某词在无情绪微博中的表征作用。 对有无情绪微博中的词性特征进行分析,筛选出表征能力强的词性特征。最终,经试验取 k=4 , n=20 ,得到了 796 个特征词和 19 种词性,组成了 815 个特征集合。
www.nordridesign.com
技术要点二
面向细粒度情绪的微博向量化
α=0.9 , β=0.1 , w 表示属于第 m 维情感类的总词数, intension 表示情感强度, polarity 表示情感极性。 对卡方检验的特征词进行情感强度和极性人工标注。(参考大连理工本体库) 根据计算得到的特征词权重值,对分词后的微博进行向量化。
)( 1],1,0[,,21,...,2,1
)()(
m
polarityintensionWeight i
w
iim
www.nordridesign.com
1.任务概述
2.技术要点
3.实验结果
4.总结
www.nordridesign.com
实验结果
情绪判别实验结果
Precision Recall F-measure
NB+SVM 0.6626 0.8012 0.7254
NB+KNN 0.6676 0.7982 0.7271
MAX 0.7494 0.9517 0.7271
情绪分类宏平均实验结果
MacroPrecision
MacroRecall
MacroF-measure
NB+SVM 0.2109 0.1996 0.2051
NB+KNN 0.2704 0.3064 0.2873
MAX 0.2844 0.3064 0.2873
www.nordridesign.com
实验结果
情绪分类微平均实验结果
MicroPrecision
MicroRecall
MicroF-measure
NB+SVM 0.2539 0.3070 0.2779
NB+KNN 0.3133 0.3746 0.3412
MAX 0.3834 0.3976 0.3412
www.nordridesign.com
1.任务概述
2.技术要点
3.实验结果
4.总结
www.nordridesign.com
总结
• 分阶段进行微博情绪分析的方案比较理想。
• 无论是情绪分类还是情绪判别,特征词的选择,微博的特征化都是非常重要的环节。
• 本次实验并未对分类算法进行改进,将是下一步工作的重点。
谢 谢!
南华大学 计算机科学与技术学院