Upload
shohei-okada
View
81
Download
1
Embed Size (px)
DESCRIPTION
動画 http://youtu.be/w92LhF22JVA?list=UUhwtfJp9l_thFbFDWXoGWEQ
Citation preview
文献情報Bishan Yang and Claire Cardie.Extracting Opinion Expressions with semi-Markov Conditional Random Fields.In Proceedings of the 2012 Joint Conference on EMNLP and CoNLL, pp. 1335-1345. (2012)
2014/6/5 文献紹介 2
※本スライド中の数式,図表はすべて文献より引用
概要• 従来token levelで行われていた意見抽出を
segment levelで行う• semi-CRFモデルを拡張し,任意の長さの表現を扱えるようにした
• 意見抽出手法のstate-of-the-artな手法を上回る結果が出た
2014/6/5 文献紹介 3
背景 | 意見抽出• 2種類の意見表現のラベリング問題として
– direct subjective expressions (DSEs)• 個人の状態の明確な言及や発話事象
– expressive subjective expressions (ESEs)• 感情等を示す表現するが,明確には伝えていない表現
2014/6/5 文献紹介 5
背景 | 意見抽出• The International Committee of the Red
Cross, [as usual][ESE], [has refused to make any statements][DSE].
• The Chief Minister [said][DSE] that [the demon they have reared will eat up their own vitals][ESE].
2014/6/5 文献紹介 6
背景 | CRFs• これまではCRFsによる手法
– token-levelで順次ラベリングを行う–該当tokenと1個前のtokenにより決定– segment basedの素性が利用できない
2014/6/5 文献紹介 7
背景 | semi-CRFs• semi-CRFs (Sarawagi and Cohen, 2004)
– segment level でラベリングが行われる–固有表現抽出で効果あり–意見抽出には適用されてない
Sunita Sarawagi and William W. Cohen. Semi-Markov Conditional Random Fields for Information Extraction. In Proceedings of NIPS 2004. (2004)
2014/6/5 文献紹介 8
Semi-CRFs文 𝑥は連続するsegmentsで表現される
𝑠 = 𝑠1,⋯ , 𝑠𝑛
𝑠𝑖 = (𝑡𝑖 ,𝑢𝑖 ,𝑦𝑖)• 𝑡𝑖 ,𝑢𝑖: segmentの始端・終端位置(1 ≤ 𝑢𝑖 − 𝑡𝑖 + 1 ≤ 𝐿)• 𝑦𝑖: ラベル• 𝐿 :コーパス中で観測された最大の長さ
2014/6/5 文献紹介 11
Semi-CRFs• 素性はsegment levelで生成される
–素性関数は𝑔(𝑖, 𝑥, 𝑠)– 𝑔 𝑥, 𝑡𝑖 ,𝑢𝑖 ,𝑦𝑖 ,𝑦𝑖−1 とも書ける(first-order
Markovian assumptionによる)
𝑝 𝑠 𝑥 =1
𝑍 𝑥exp ��𝜆𝑘𝑔𝑘(𝑖, 𝑥, 𝑠)
𝑘𝑖2014/6/5 文献紹介 12
Semi-CRFs• 正しいsegmentationは抽出すべきentitiesとそうでないsegmentの列で定義される
2014/6/5 文献紹介 13
(The,NONE),(Chief,NONE),(Minister,NONE),(said,DSE),(that,NONE),(the demon they have reared will eat up their own vitals,ESE),(.,NONE)
例
提案手法 | 概説• 𝐿を固定しない
–文全体が意見表現になることもあるため構文解析の情報を利用
– segment unitを構文木に基づいて決定– leaf phrase 又は leaf wordがunitになり得る
2014/6/5 文献紹介 14
提案手法 | segmentation• 訓練データ各文に対して正しい
segmentationを得る
2014/6/5 文献紹介 18
(The Chief Minister,NONE),(said,DSE),(that,NONE),(the demon they have reared will eat up their own vitals,ESE),(.,NONE)
例
提案手法 | 素性• CRF-style features (token-level)
–その単語の文字列,POS,辞書に基づく素性• segment-level features
– segmentの位置,構文に基づく素性
2014/6/5 文献紹介 20
提案手法 | 素性• 辞書に基づく素性
– subjectivity lexicon (Wilson et al. 2005)– strong/weak cues to subjectivity として働き得る単語集合
– token-level 𝑥 is 𝑔𝑔𝑔𝑔𝑡→segment level 𝑠 contains 𝑔𝑔𝑔𝑔𝑡
2014/6/5 文献紹介 21
Theresa Wilson, Janyce Wiebe, and Paul Hoffmann. Recognizing contextual polarity in phrase-level sentiment analysis. In Proceedings of HLT ‘05. (2005)
提案手法 | 素性• VPcluster: verb-cluster structureかどうか• VPpred: predicate• VParg: argument• VPsubj: subjective lexiconのentryを含むか
2014/6/5 文献紹介 28
実験 | 設定• MPQA 1.2 corpus
–ニュース 535記事,11,114文– phrase levelでアノテート済み
• 135記事をdevelopment setとして使用• 残り400記事で10分割交差検定による評価
2014/6/5 文献紹介 30
実験 | 評価尺度• precision, recall, F-measure
–意見表現の境界線は明確ではない Binary-Overlap (Breck et al. 2007) Proportional-Overlap
(Johansson and Moschitti 2010)
2014/6/5 文献紹介 31
Eric Breck, Yejin Choi, and Claire Cardie. Identifying expressions of opinion in context. IJCAI ’07. (2007)
Richard Johansson and Alessandro Moschitti. Syntactic and semantic structure for opinion expression detection. In Proceedings of CoNLL ’10. (2010)
実験 | Baselines• CRF: token-level CRF-based approach• segment-CRF: parsingの結果をsegmentとして利用• syntactic-CRF: token-level CRFにsegment-level の 構文情報を素性として利用• semi-CRF: Sarawagi and Corhenのmodel
2014/6/5 文献紹介 32
実験 | 考察• semi-CRF(-new)のprecisionがCRFより低い
– CRFは正解データの半分程度しか抽出していないため• 事実を述べるときの“said”や”told”をDSEsとして抽出してしまう– 素性の追加によって改善が期待できる
• “enjoy a relative advantage”をESEとして抽出してしまう– 主語(この場合”products”)を考慮することで改善
2014/6/5 文献紹介 36