28
ACL読み会2014 @首都大学東京 首都大学東京 修士2小町研究室 立花竜一 201481

ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

Embed Size (px)

Citation preview

Page 1: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

ACL読み会2014

@首都大学東京首都大学東京修士2年小町研究室 立花竜一

2014年8月1日

Page 2: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

Bilingual Event Extraction: a Case Study

on Trigger Type Determination(Zhu Zhu,

Shoushan Li, Guodong Zhou, Rui Xia; In

Proceedings of ACL-2014, pp.842–847.)

を紹介します

Page 3: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

Event Extractionとは文を定められた形式の一つとして分類することです

● triggerと呼ばれる文をよく表す単語を決定し、それをもとに文をタイプ別に分類していく(triggerがleaveであれば、Transport /

Movementという形式に分類される)

● この論文ではACE2005という分類指標を用いる

Page 4: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

Event Extractionとは4つの主要なサブタスクで構成されています

1.named trigger identification

2.trigger type determination

3.argument identification

4.argument role determination

で構成されている(Chen and NG,

2012)

Page 5: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

Event Extractionとは4つの主要なサブタスクで構成されています

1.named trigger identification

2.trigger type determination

3.argument identification

4.argument role determination

で構成されている(Chen and NG,

2012)

Page 6: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

Trigger Type Determinationとはサブタスクの一つでtriggerをもとに文のタイプを決定するタスクです● triggerがleaveであれば、Transport /

Movementという形式に分類される● この論文ではACE2005という分類指標を用いる

Page 7: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

Event Extractionにおいてdata

sparsenessが問題になっています

● 様々なカテゴリがあるためsparseになる→ACE2005では8つのタイプ、33のサブタイプが存在する。例えば、“Marry/Life” (subtype/type)

● “Nominate/Personnel”や“Convict/Justice”といったサブタイプでは英語と中国語のそれぞれのコーパスにおいてラベル付けされたサンプルが10未満だった。

Page 8: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

Event Extractionにおけるdata

sparsenessを改善する方法の一つは二カ国語の情報を利用することです

● 具体的には二つの異なる言語から得られる訓練データを用いた二カ国語からのevent extractionを行う

Page 9: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

二カ国語の情報を利用することはラベル付けされたデータが別の言語において同様の情報を高度に伝えられることに基づいています

Page 10: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

二カ国語の情報を利用することはラベル付けされたデータが別の言語において同様の情報を高度に伝えられることに基づいています

Page 11: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

本論文の目的は2つの異なる言語からのラベルが付けられたデータで訓練され、両方の言語からのテストデータを分類することができる分類器を設計することです。

Page 12: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

本手法は言語間にあるギャップを取り除くためのテキスト表現とイベントタイプを決定するトリガーを決定する2

つのタスクで構成されています

● テキスト表現ではトリガーに関するラベル付けを行う

● トリガー決定は一カ国語と二カ国語両方の観点から行う

● 翻訳はGoogle Translateを用いる

Page 13: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

テキスト表現のタスクではタイプ分けするための重要な特徴であるトリガーと固有表現を中心にタグ付けを行います● E3ではleftとSaddamは"Transport/Movement"の分類において重要なパラメータになり、E4の中にそれらがあることがわかることが重要となる

Page 14: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

フロー:機械翻訳によって翻訳サンプルを得て、テキスト表現を通して二カ国語の素性を持ったサンプルを作成します● 一カ国語の分類のフロー

Page 15: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

フロー:機械翻訳によって翻訳サンプルを得て、テキスト表現を通して二カ国語の素性を持ったサンプルを作成します● 二カ国語の分類のフロー

Page 16: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

テキスト表現における具体的な素性

● それぞれの素性をxとしてまとめて表す

Page 17: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

二カ国語に対応するためにxを拡張します● cは中国語、eは英語のテキストから生成された素性を示している

Page 18: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

中国語のイベントを英語のものに翻訳する場合、目的は英語のトリガーTrieを得ることです。中国語のトリガーTricは与えられているものとします● 中国語のイベントをScと示す。

● 英語のイベントをSeと示す。

Page 19: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

目的関数は以下のように与えられ、本論文では一カ国語と二カ国語の手法でそれぞれ考えます

Page 20: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

一カ国語のみの手法での関数は以下のように示し、一カ国語のみの情報を用いて求められます

● Reと示される英語の訓練データを利用する

Page 21: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

二カ国語の手法の関数は以下のように示し、翻訳されたテキストSeとSc,Tricを用います。

● アライメントをすれば良いと思われるが、アライメントを学習させるためには大規模なパラレルコーパスが必要になるため今回は不可

Page 22: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

Tricを翻訳したものを用いることで確率を求めます

● 0.9はトリガーの翻訳が翻訳された文で見つかる場合、翻訳確率が支配的な要因になるようにする経験的な値

● αは1をSeで割った小さな値

Page 23: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

最終的に一カ国語と二カ国語の確率によって値を求めます

● またl - kが3以下になるようにトリガーのを小さくすることで計算コストを下げている

Page 24: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

データセット:タイプが8、サブタイプが33を含むACE2005を指標として利用し、サンプルの80%を訓練データに、残りをテストデータに用いました

Page 25: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

二カ国語からの全ての素性を用いた分類器が一カ国語のものや二カ国語の一部の素性を用いたものと比べF値が良くなりました

Page 26: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

Bilingual_locationにおいて、Chinese

Test Dataの方がF値が改善されたのは元々のデータセットの数が原因とされています

Page 27: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

Bilingual_locationにおいて、Chinese

Test Dataの方がF値が改善されたのは元々のデータセットの数が原因とされています

Page 28: ACL2014:Bilingual Event Extraction: a Case Study on Trigger Type Determination

Future Work:二カ国語を利用する手法をイベント抽出においての他のサブタスクに適応することを挙げています

感想

● short paperで既存の手法における部分的な改善が目的な論文だったので他の論文と比べ若干見劣りするが、手法のアイデア自体は面白いと思った。