12
中中中中中中中中中-LTLAB 中中中中中中中中中中中中中中中中中 中中中 中中

中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

  • Upload
    jenn

  • View
    234

  • Download
    1

Embed Size (px)

DESCRIPTION

中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室. 报告人:周霄. 简介. 在本届评测设立的 3 个评测任务中, LTLAB 分别参加了任务 1 (观点句识别)和任务 3 (情感要素抽取)。 对于任务 1 :采用了基于分类器的方案,特征抽取时考虑到了多种词性和句法特征。 对于任务 3 :参评系统结合了基于分类器的抽取和基于模板的抽取两种方案,考虑到了词的统计信息和微博特有的话题信息。. 1. 预处理. 预处理过程主要进行句子的分词、句法分析、以及评价词抽取。 鉴于微博文本的特殊性,预处理不直接对整句操作,而是将每个句子划分成四种不同的成分: URL - PowerPoint PPT Presentation

Citation preview

Page 1: 中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

中文微博情感分析系统 -LTLAB

上海交通大学中德语言技术联合实验室

报告人:周霄

Page 2: 中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

简介 在本届评测设立的3 个评测任务中, LTLAB分别参加了任务1 (观点句识别)和任务3 (情感要素抽取)。

对于任务1 :采用了基于分类器的方案,特征抽取时考虑到了多种词性和句法特征。

对于任务3 :参评系统结合了基于分类器的抽取和基于模板的抽取两种方案,考虑到了词的统计信息和微博特有的话题信息。

Page 3: 中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

1. 预处理 预处理过程主要进行句子的分词、句法分析、以及评价词抽取。 鉴于微博文本的特殊性,预处理不直接对整句操作,而是将每个句子划分成四种不同的成分: URL 用户名及转发标志:变现为:“@ + 用户名”,或“ || @ + 用户名” 话题:即一对“# ”包裹的非空格字符 正常文本信息

分词和句法分析 分词使用了中科院的分词系统 ICTCLAS,句法分析使用了 Stanford

Parser。 为了改善分词效果,评测小组成员从网络和评测样例数据中收集了一部分常用网络用语,加入用户词典中。

Page 4: 中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

1. 预处理 评价词抽取

基于评价词词典对词或词组进行匹配 分为正面评价词词典和负面评价词词典 词典来源由 3 部分构成: Hownet情感词集合、 NTUSD情感词集合、来自网络和评测数据样例的评价词

词典加入正则表达式模板,如“丢 .{1,4}的脸”可以匹配“丢我的脸”

对于抽取出的评价词,首先设定初始评价极性为词典中的极性;然后向前一个范围内寻找是否含有表否定的词语,如“不”、“没有”等,每找到一个词就对当前评价极性进行一次反转。

Page 5: 中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

2. 观点句识别 基于 VFI ( Voting Feature Interval)分类器进行二值分类,正例即为观点句: 人工标注了评测样例数据作为训练数据。 VFI分类器的原理较简单,它假设各维特征独立,每维特征对所有类标识进行投票,每类的得分正比于该类得到的票数。

VFI分类器不显式考虑先验概率。由于训练数据不平衡(正例较少),因此有助于提高结果的召回率。下表是我们在小范围数据上使用各种分类器得到的结果。

准确率 召回率 F值SVM 0.779 0.726 0.7516NB 0.708 0.723 0.7154Tree 0.719 0.689 0.7037VFI 0.748 0.776 0.7617

Page 6: 中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

2. 观点句识别 对于微博中的每一句,抽取如下几种特征:

基于词性的特征。选取了在观点句中常出现的词性或词性组合作为特征,如:连词个数、代词个数、副词 + 形容词个数、“不” + 形容词个数等等

基于标点符号的特征:问号的数量和感叹号的数量 句中评价词的个数 纯粹表达主观意愿词的个数。评测要求纯粹表达主观意愿的句子不算作观点句。针对这一要求,我们人工收集了一些纯粹表达主观意愿词(如“祝愿”),并将句中该类词的数量作为一个特征

根据实验结果,人工调整了个别特征的权重,调低了分类器判分的阈值

Page 7: 中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

3. 情感要素抽取 主要使用基于分类器的方法,辅以基于模板的方法。使用评价对象与评价词间的位置关系判别极性。

分类器同样采用 VFI分类器。对于一条微博,首先抽取其中的候选评价对象,然后对于微博中的每个观点句,分别判断每个候选评价对象是否是其正确评价对象。

Page 8: 中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

3. 情感要素抽取 候选评价对象抽取

有两种情况:句子中长度小于阈值的、句法成分为 NN 、NR 、 NP 、 IP 、 FW 之一的词组;当前话题的关键词之一。

使用了两种方法抽取话题关键词:方法一:使用话题中的名词。如“ # 假和尚搂女子 # ”,则抽取关键词“和尚”、“女子”

方法二:使用话题中的名词词组,以及整个话题。即“假和尚”、“女子”、“假和尚搂女子”

第二种方法的评测结果略好于方法一

Page 9: 中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

3. 情感要素抽取 构建分类实例

对于每一个候选评价对象 t,将其与微博中的每一句 s分别组合构成分类实例<t, s>。系统需要对每个分类实例判断 true/false,对应 t 是 /不是 s的评价对象

每个分类实例抽取以下特征: t的句法成分 t 与 s的距离,即 t 与 s 间隔的字数。若 t 在 s中,则距离为 0 ;若 t

在 s 之前,则为一负值;若 t 在 s 之后,则为一正值 t是否是话题关键词 t是否出现在一对“ # ”之间 t在话题相关微博中出现的频次

Page 10: 中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

3. 情感要素抽取 基于模板的方法

评测小组借鉴了史兴等人在 COAE 2011 论文集中使用的方法,对微博中所有 < 依存关系,评价对象句法成分,评价词句法成分 > 都满足下表的三元组进行抽取

成分 允许的类型依存关系 rcmod, nsubj, amod, assmod, nn,

vmod评价对象 FW, NR, NT, NN评价词 VA, JJ, VV

评价对象的极性判别 对每个评价对象,在一个窗口范围内寻找最近的评价词,若找到则使用该评价词的极性

若窗口内无评价词,则计算句子中正负评价词的个数,以此判断评价对象极性

Page 11: 中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

4. 总结

Page 12: 中文微博情感分析系统 -LTLAB 上海交通大学中德语言技术联合实验室

谢谢!