Upload
kelsie-oneil
View
30
Download
1
Embed Size (px)
DESCRIPTION
. 格交替を考慮した 日本語ゼロ代名詞の先行詞同定. NAIST 飯田 龍 2003 年 10 月 31 日. そこ にいた お年寄りたち は、 ただボーッとしているような 感じ の 人 がほとんどだった。 しかし、 私 が近くに行くと、とてもうれしそうに 話 を ( φ ガ) してくれ 、笑顔を見せてくれた。. 先行詞. ゼロ代名詞. 研究の目的. ゼロ代名詞の照応解析 文章中の省略されている要素( ゼロ代名詞 )を検出し, 指示対象( 先行詞 )を同定する処理 2 つの処理 ゼロ代名詞の検出 / 先行詞の同定. 照応解析の先行研究. - PowerPoint PPT Presentation
Citation preview
格交替を考慮した日本語ゼロ代名詞の先行詞同定格交替を考慮した日本語ゼロ代名詞の先行詞同定
NAIST飯田 龍 2003 年 10 月 31 日
<2003 合同研 >
2
研究の目的
ゼロ代名詞の照応解析 文章中の省略されている要素(ゼロ代名詞)を検出し,
指示対象(先行詞)を同定する処理
2 つの処理 ゼロ代名詞の検出 / 先行詞の同定
そこにいたお年寄りたちは、ただボーッとしているような感じの人がほとんどだった。しかし、私が近くに行くと、とてもうれしそうに話を( φ ガ)してくれ、笑顔を見せてくれた。
そこにいたお年寄りたちは、ただボーッとしているような感じの人がほとんどだった。しかし、私が近くに行くと、とてもうれしそうに話を( φ ガ)してくれ、笑顔を見せてくれた。
先行詞
ゼロ代名詞
3
照応解析の先行研究
2つのタイプの照応解析手法 規則ベースの手法
(Mitkov 97, Baldwin 95, 中岩ら 96, 奥村ら 95, 村田ら , 97)
• 言語学的な知見を人手で規則に取り入れる試み• センタリング理論 (Grosz, 95; Walker et al., 94; Kameyama, 86) に基づ
く• 例外的な現象について規則を書き尽くすことができない
照応タグ付きコーパスを用いた機械学習手法(Aone and Bennett 95, Soon et al. 01, Ng and Cardie 02, 関ら 02, Isozaki et al. 03)
• 照応解析の問題を,与えられた照応詞に対して名詞句が先行詞となるかならないかの 2 値分類問題に分解
• 言語学的な知見を考慮していない
4
2 つの解析手法の利点の統合 (Iida et al. 03)
解析手法の2つの改善 言語学的な知見を考慮した素性の追加
( センタリング素性 ) 先行詞候補間を比較するモデルの提案
( トーナメントモデル )
規則ベースの手法 機械学習の手法
言語学的な知見を考慮
5
トーナメントモデル
考慮したい点は「ドゥダエフ大統領」と「エリツィン・ロシア大統領」においてどちらが先行詞らしいか ?
ドゥダエフ大統領は、正月休戦を提案したが、
エリツィン・ロシア大統領はこれを黙殺し、
行動を (φ ガ ) 開始した。
○勝
○負
○勝
○負
○勝
○負
先行詞
先行詞候補
6
先行詞候補間の比較 「ドゥダエフ大統領」「エリツィン・ロシア大統領」「 (φ
ガ ) 開始する」
品詞:名詞 - 一般助詞:は意味クラス : 人有性性:○選択制限:○距離 :0Diff_Subj( 規則 ):○
品詞 : 名詞 - 一般助詞:は意味クラス : 人有性性:○選択制限:○距離 :0
左側の候補 右側の候補
距離 :0
○負 ○勝
ドゥダエフ大統領は、正月休戦を提案したが、エリツィン・ロシア大統領はこれを黙殺し、行動を (φ ガ ) 開始した。
7
素性
1. 機械学習を用いた照応解析で一般に用いられる素性
2. センタリング素性
3. 2 つの先行詞候補の関係を捉える素性
先行詞らしさの選好選好を捉えるためのヒューリスティックな規則
2 つの候補間での先行詞らしさの選好2 つの候補間での有生性の選好2 つの候補間の距離
品詞 指示詞の情報助詞の情報固有表現意味クラス有生性
選択制限照応詞と先行詞候補間の距離照応されている回数連体節の中かどうかゼロ代名詞と候補の間にある
接続助詞
トーナメントモデルでのみ
導入することができる
ゼロ /主題 ( は ) > 焦点 ( が ) > 間接目的 ( に ) > 直接目的 ( を ) > その他
8
トーナメントモデル ( 学習 ) 学習事例
NP7NP7NP5NP5
NP5NP5NP4NP4
NP5NP5NP1NP1 ANPANP
ANPANP
ANPANP
素性
rightright
クラス
rightright
leftleft
NP8NP8NP5NP5 ANPANP leftleft
トーナメントにおいて,照応詞である NP5は 他の 4 つの候補に勝たなければならない
4 つの学習事例を抽出
抽出された学習事例から分類器を作成
分類器は与えられた 2 つの先行詞候補に対して 右もしくは左 ( どちらが先行詞らしいか ) を分類
NP7NP7
coreferent
coreferent
ANPANPNP6NP6NP5NP5NP4NP4NP3NP3NP2NP2NP1NP1
照応関係 照応詞( ゼロ代名詞 )
NP8NP8
文章の最初
先行詞
与えられたペアのうち,右側が勝利する ( もっとも先行詞らし
い )
9
トーナメントモデル (テスト )
NP7NP7
coreferent
coreferent
ANPANPNP6NP6NP5NP5NP4NP4NP3NP3NP2NP2NP1NP1
照応関係
文章の最初
照応詞
NP8NP8
1. 最初の試合は,もっとも照応詞に近い 2 つ先行詞候補 (NP7 と NP8) で構成
2. 次からの各試合は,前の試合の勝者 (NP8) と新しい挑戦者 (NP5) で構成される
10
トーナメントモデル (テスト )
テスト
NP7NP7
coreferent
coreferent
NP5
先行詞
ANPANPNP6NP6NP5NP5NP4NP4NP3NP3NP2NP2NP1NP1
照応関係
文章の最初
照応詞
NP8NP8
3. 勝者 (NP5) は次の新しい挑戦者 (NP4) と試合が構成される4. この処理を対戦相手がいなくなるま で続ける5. 最後の試合で勝ち残った先行詞候補 を照応詞として同定する
11
ゼロ代名詞の先行詞同定の実験とその結果
GDA タグ付きコーパスから表層ガ格について 2781事例を抽出
使用したモデル 精度Nariyama(02) の解析モデル( 規則ベース )
1269/2781(45.6%)
Ng(02) らのモデル 1827/2781(65.7%)センタリング素性を追加したNg(02) らのモデル
1918/2781(69.0%)
トーナメントモデル 2065/2781(74.3%)センタリング素性を追加したトーナメントモデル
2089/2781(75.1%)
12
誤り事例の分析 人手で先行詞同定を誤った事例を分析 :50事例
数量,集合表現のため人手でふられた照応関係のタグに揺れが存在する 7事例 (14%)
動詞の選択制限のモデルに不備がある 6事例 (12%) 照応詞,もしくは先行詞が埋め込み構造の中にある
22事例 (44%)e.g.)直接引用
埋め込み構造を認識し, この問題を解くための別の機構を加える
……獄に下るモハンメドは妻 i にこう言い残した。「おれが刑務所にいる間、外で(φi ガ )働いてはいけない」。貞節を守れ、という意味だ。さすがに刑務所で新しい子供に恵まれる可能性はないと思ったのだろうか。
13
発表の流れ
1. 研究の背景2. 日本語ゼロ代名詞の先行詞同定の問題点
特に機械学習を用いた先行詞同定のモデルについて
3. 照応タグ付きコーパスの修正4. 実験5. 実験結果と考察6. 今後の課題
14
先行詞らしさの序列 (主題性, salience)
日本語では主題性が高いほど省略されやすい 主題性の高さは以下の序列で与えられる
(Kameyama 86, Walker et al.94, Nariyama 02)
ゼロ /主題 ( は ) > 焦点 ( が ) > 間接目的 ( に ) > 直接目的 ( を ) > その他
エリツィン・ロシア大統領 i はこれを黙殺し、行動を (φi ガ ) 開始した。
表層格の情報が先行詞同定の際,有力な情報となる
先行詞
表層格
■先行詞■先行詞の候補
15
ゼロ代名詞先行詞の同定の問題点
1. 格交替 センタリング理論とゼロ照応タグ付きコーパスの不整
合
2. 直接引用 異なる談話構造に先行詞もしくは照応詞がある場合に
解析が誤りやすい傾向にある
16
1.格交替を伴う際の学習の問題点
主題性とタグ情報の不一致 (Seki et al. 02, Isozaki et al. 03) 先行詞らしさの序列 (表層格 )
タグ情報 (深層格に付与 ) 格交替を伴う場合は誤った学習をする可能性がある
ゼロ /主題 ( は ) > 焦点 ( が ) > 間接目的 ( に ) > 直接目的 ( を ) > その他
捕虜 i が処刑されたりたり,戦闘に (φi ガ )巻き込まれ死傷する可能性が高い.
巻き込むガ [外界 ]ヲ 捕虜 ニ 戦闘
(深層格 )
ヲ格として学習
巻き込む (+れる )ガ 捕虜ニ 戦闘
(表層格 )
Ni ガ Vしたり, (φi ガ )Vする(Nariyama, 02)( 田村ら , 95)
17
1.格交替を伴う際の学習の問題点
選択制限は深層格で引く
表層格と深層格の両方の情報が必要となる
六○年代にニュータウン開発で土地を買収されたり、区画整備の対象となった旧農家の主婦たち i 。「生活再建の場を提供する」という都の方針で毎年九カ月契約で (φi ガ )採用され、 ....
採用するガ格 : <主体 >ヲ格 : < 人 >
選択制限採用するガ格 :ヲ格 :主婦たち
選択制限
18
ゼロ代名詞先行詞の同定の問題点
1. 格交替 センタリング理論とゼロ照応タグ付きコーパスの不整
合
2. 直接引用 異なる談話構造に先行詞もしくは照応詞がある場合に
解析が誤りやすい傾向にある
19
2.直接引用が含まれる場合の問題点
直接引用内の照応詞もしくは先行詞 先行詞らしさの序列 (表層格 )
ゼロ代名詞が直接引用内にある場合……獄に下るモハンメドは妻にこう言い残した。「おれが刑務所にいる間、外で (φi ガ )働いてはいけない」。貞節を守れ、という意味だ。さすがに刑務所で新しい子供に恵まれる可能性はないと思ったのだろうか。
ゼロ /主題 ( は ) > 焦点 ( が ) > 間接目的 ( に ) > 直接目的 ( を ) > その他
ゼロ /ハガ格二格ヲ格その他
モハンメドおれ妻 先行詞NULL外
先行詞
先行詞「妻」が主題性が低い
20
2.直接引用が含まれる場合の問題点
直接引用内の照応詞もしくは先行詞先行詞らしさの序列 (表層格 )
ゼロ代名詞が直接引用の外にある場合
山崎容疑者 i は調べに対し、「関根容疑者は繁殖場のドラム缶で三人の遺体を焼いたのを見た」と (φi ガ )供述、さらに脅されて灰を捨てるのを手伝ったと具体的に供述した。
ゼロ /主題 ( は ) > 焦点 ( が ) > 間接目的 ( に ) > 直接目的 ( を ) > その他
ゼロ /ハガ格二格ヲ格その他
関根容疑者NULL調べ遺体三人
先行詞「山崎容疑者」が主題性が低い
21
発表の流れ
1. 研究の背景2. 日本語ゼロ代名詞の先行詞同定の問題点3. 照応タグ付きコーパスの修正4. 実験5. 実験結果と考察6. 今後の課題
22
照応タグ付きコーパスの修正
関ら (02) のゼロ照応タグ付きコーパスをもとに(京大コーパス 60 文章 ) 深層格に対して
ガ格,ヲ格,二格のゼロ代名詞とその先行詞にタグ付与
格交替を考慮したタグを追加 直接引用とその話者のタグを追加 名詞句照応のタグを追加
23
格交替のタグ付与
表層格と深層格とのリンクを考慮したタグ付け方法を考える
深層格のタグ付けを考えた際の問題点 ある助動詞 (‘せる’,など ) では取り得る格が異なる
彼ガ本ヲ読む 私ガ彼二本ヲ読まセル
※格フレームに存在しないため区別する必要がある
読むガ格 彼ヲ格 本
読む使役ガ格 私ガ格 彼ヲ格 本
24
格交替のタグ付与
深層格と表層格の対応付け
ゼロ照応の解析 深層格 (+助動詞 ) の格フレームに対して格要素を埋める処理
φ ガ彼二本ヲ読まセル
読む使役ガ格 φガ格 彼ヲ格 本
深層格
読む ガ格 φ 二格 彼 ヲ格 本
表層格
25
対象とする助動詞 格の交替の起こる助動詞 ( 補助動詞 ):6種類
受身 ( れる,られる ) 使役 ( せる,させる ) ほしい もらう,いただく くれる,下さる,くださる やる,あげる
26
タグ付けに追加した格要素 (3種類 )
使役ガ
受益ニ
希望ガ
私は彼にリンゴを食べさせる。
私は彼に本を読んでやる。
私は彼にリンゴを食べてほしい。
食べる (+せる )ガ 彼ヲ リンゴ使役ガ 私
読む (+やる )ガ 私ヲ 本受益ニ 彼
食べる (+ほしい )ガ 彼ヲ リンゴ希望ガ 私
深層格 (+助動詞 )
27
直接引用のタグ付与
括弧 ( 「」 ) の文に対して 直接引用か強調の括弧か
直接引用の場合,話者が文脈中に存在するか
話者が文脈中に存在する場合,その話者にタグ付与
しかし、首相は「まったく理解できない」と強い不快感を表明した。
米国の「原爆切手」など国民感情に触れる問題再発を防ぐためにも
直接引用
強調
28
タグ付け作業の進行具合
ゼロ代名詞とその先行詞がタグ付けされた関ら (02) のテキスト (京大コーパス 60テキスト ) に対して 新たに追加した格,深層格と表層格の対応のタグを追加
名詞句照応のタグを追加• 報道 30テキスト (完了 )• 社説 30テキスト (作業中 )
直接引用とその話者についてタグを追加• 報道 30テキスト (完了 )• 社説 30テキスト (完了 )
このタグ付けから得た知見をもとに大規模な
照応タグ付きコーパスを作成予定
29
発表の流れ
1. 研究の背景2. 日本語ゼロ代名詞の先行詞同定の問題点
1. 格交替2. 直接引用
3. 照応タグ付きコーパスの修正4. 実験5. 実験結果と考察6. 今後の課題
30
実験の内容
ゼロ代名詞の先行詞同定の処理 格交替について
• 格交替を考慮した先行詞同定• 選択制限のモデルのみを用いて問題を解く
直接引用について• 直接引用の情報を与えた上で先行詞を同定する
31
格交替を考慮した先行詞同定
深層格を直接解析
表層格で解析して格を交替し先行詞を決定
巻き込むガ格ヲ格 捕虜
深層格
捕 虜 i が 処 刑 さ れ た りた り ,戦闘に (φi ガ )巻き込まれ死傷する可能性が高い.
巻き込むガ格ヲ格 捕虜ニ格
巻き込む (+れる ) ガ格 捕虜 ニ格
深層格 表層格
32
格交替を考慮した先行詞同定
実験の条件 対象とする格要素 : ガ格,ヲ格,ニ格 受動態など助動詞の情報は与える ゼロ代名詞の前方照応 ( 外界照応は扱わない ) 対象としたゼロ代名詞の正解を補完しながら後のゼロ代名詞の問題を解く
• ガ格,二格,ヲ格の順序 10 分割交差検定 ( ガ格,二格,ヲ格についてそれぞれ ) 対象テキスト数 : 報道記事 30 文章
33
実験結果 ( ゼロ代名詞前方照応 )
格交替を考慮しない場合の解析
格交替を考慮した場合の解析
ガ格 ヲ格 ニ格
精度 72.3%(290/401)
51.0%(25/49)
42.5%(17/40)
ガ格 ヲ格 ニ格
精度 69.3%(278/401)
28.6%(14/49)
42.5%(17/40)
34
選択制限のモデルのみを用いた実験
選択制限のモデルのみを用い先行詞同定を行う 対数尤度比を用いた選択制限最も値の大きい候補を正解とした場合( 対数尤度比が引けない場合は最も近い候補を正解に )
格交替を考慮した場合の解析
ガ格 ヲ格 ニ格
精度 58.8%(236/401)
50.0%(24/49)
52.5%(21/40)
a b
c d
N ¬ NV
¬V
ガ格 ヲ格 ニ格
精度 72.3%(290/401)
51.0%(25/49)
42.5%(17/40)
35
実験の内容
ゼロ代名詞の先行詞同定の処理 格交替について
• 格交替を考慮した先行詞同定• 選択制限のモデルのみを用いて問題を解く
直接引用について• 直接引用の情報を与えた上で先行詞を同定する
36
文章中の直接引用の出現
直接引用が含まれることでどの程度先行詞同定に影響がでるかを調べる
直接引用の数 報道記事 30 文章
• 直接引用 : 83個 (19.9%)• 文数 : 417 文
直接引用内のみに先行詞が存在する場合を数える ガ格 :0/345 ヲ格 :0/43 ニ格 :0/35
…「 NP… 」………φ
ゼロ代名詞は直接引用の外
先行詞は直接引用内にのみ出現
37
直接引用を素性に加えた実験結果
直接引用を考慮したモデルの作成 引用かどうか,話者がどの候補であるかがわかった上で
どの程度解析精度が向上するかを見る 直接引用内には候補がないとしてモデルを考えることに
する 表層レベルの解析
ガ格 ヲ格 ニ格
精度 73.3%(294/401)
42.9%(21/49)
37.5%(15/40)
ガ格 ヲ格 ニ格
精度 72.3%(290/401)
51.0%(25/49)
42.5%(17/40)
38
まとめ
関らのゼロ照応タグ付きコーパスをもとに格交替と直接引用を考慮したコーパスを作成
格交替と直接引用を考慮したモデルを作成 格交替を伴う場合に,表層格で先行詞同定を行うことで深層格を直接解析するより解析精度が良いことを示した
引用を考慮した先行詞同定については今回対象とした事例に引用を考慮すべき場合が少なかった
39
今後の課題
解析誤りの分析 選択制限のモデルの誤り 統語的な手がかり語を考慮する
連体修飾句
セルゲイ・コワリョフ氏 i は九日夕、チェルノムイルジン首相 jと電話で会談し、戦死者の遺体運び出しと重傷者の病院輸送のため二日間( φ ガ)休戦するよう (φi ガ )(φjニ ) 要請した。
同府内の親せきが二日に訪問、 [玄関に(男性が)倒れ(男性が)死亡している ]のを見つけた。
調べでは、二人は昨年十二月十三日校内で、授業中に骨折し松葉づえで通学していた中三の男子生徒 i に現金を(二人が)要求したが(二人が)断られたため、頭をコンクリート壁に(二人が)打ちつけたり顔を(二人が)殴るなど(二人が)した疑い。翌日は [(φi ガ )骨折していた ]足をけったりしたという。
40
今後の課題
CaboCha(工藤 02)+NEに照応解析のモジュールをつけて公開予定