Upload
swenbe
View
37
Download
3
Embed Size (px)
Citation preview
平易な表現への言い換えに 必要なテキスト修正処理 藤田篤, 乾健太郎, 松本裕治 第65回情報処理学会全国大会公演論文集第五分冊 1T6-4, pp99-102, 2003 プレゼンテーション:野口 真人
1
平易な表現への言い換えに必要なテキスト修正処理
• どういう問題を解いたのか • 平易な表現への言い換えを生成する際に必須となる,
テキストの修正方法を実現したい • 「節内の格要素と動詞の整合」に注目
• どうやって解いたのか • 不適格な共起を検出し棄却するタスクに取り組む • 確率モデルを利用する
2
はじめに
• 言い換えには構文的トランスファ方式を採用 • テキストの一部をそれと等価に変換する
• トランスファ方式で単純に置き換えるだけでは不適格性が生じることがある
3
激しい自動車戦争に進む公算が大きい
激しい自動車戦争に進む可能性が高い
文語体,しかも難解な言葉が随所にある
文語体,しかも難解な言葉が各地にある
テキスト中の不適格性を検出・解消する 修正処理の実現が必要
トランスファ
トランスファ
言い換えに必要なテキスト修正処理
• トランスファと修正処理を以下のように定義 • トランスファ:言い換えを生成する処理 • 修正処理:不適格な表現を修正,または棄却する処理
• 言い換えに必要な修正処理を可能な限り分解し,その種類と分布を調査した • 新聞記事中の文に手持ちの約8000のトランスファ規則を適
用 • 生成された630事例に対し,必要な修正処理の種類・その分
布を調べる
4
トランスファと修正による言い換えの生成モデル
5
トランスファ後に必要な修正処理の種類と分布
6
節内の格要素と動詞の共起判定
• 言い換えた節内の動詞と格要素の名詞が共起が不適格になる場合がある
• 共起が不適格な場合,修正できず棄却しなければならない事例がほとんど
不適格な共起を検出し棄却する というタスクに取り組む
7
ゼネコン問題に終止符が打たれる
ゼネコン問題が終止符を打つ
トランスファ規則:N1 に N2 が V される → N1 が N2 を V する
共起の適格さの判定
• 評価対象は言い換えされた単語を含む節
• 3つ組<格要素n(今回は名詞),格助詞rel,動詞v>が適格かそうでないかを2値に分類
• 「正例らしさ」の判別器(判別器Pos)と「負例らしさ」の判別器(判別器Neg)の2つを作成 • 判別器Pos:統計ベース教師なし学習 • 判別器Neg:用例ベース教師あり学習
8
判別器Pos
• 大規模な正例に基づいて<n,rel,v>の「正例らしさ」を見積もる
• 「正例らしさ」をP(n)とP(<rel,v>)の相互情報量, Dice係数などによって見積もる
9
判別器Neg
• 尤度をPLSIモデルを用いて見積もり,k近傍法を用いて「負例らしさ」を見積もる
• 負例自体は言い換えされたテキストから人手で収集 • 距離を計算するための素性には,P(z|<n,rel,v>)を用いる
• 任意の用例<n,rel,v>間の距離はJS距離で与える
10
P(z),P(n|z),P(<rel,v>,z)はEMアルゴリズムによって推定
2つの判別器のまとめ
11
判別モデルの構築手順
1. 新聞記事19年分をCaboChaで係り受け解析し, <n,rel,v>を抽出
2. 機械学習の高速化のために使用語彙を制限する
3. PLSI学習パッケージを用いてパラメータを推定 (|Z| = 100とした)
4. 負の共起事例を言い換えで自動生成したテキストから人手で収集する(正例624,負例185,計809)
12
評価方法
• 人手で正負のラベル付けした809事例を用いて負例を検出する実験を行う
• 以下の3つの判別結果を求める • Posのみによる判別結果 • Negのみによる判別結果 • 2つの判別器を混合した判別結果
• 後者2つに関しては5分割交差検定によって精度を算出
• 判別結果の混合方法として負例らしさの論理和を用いる
13
判別器Posのみの判別結果
14
判別器Negのみの判別結果
15
2つの判別器を混合した判別結果
16
おわりに
• 問題を切り分けることで,部分問題の解決能力向上を示すことができた
• 今回は兄弟格要素と共起の適格性までは判定していない • 以下のように<n,rel,v>の共起が適格でも兄弟の共起が
不適格になる場合もある
17
二十歳代の夫婦が当時三歳の長男に十分な食事を与えず, …
当時三歳の長男が二十歳代の夫婦から十分な食事を取らず, …
兄弟格要素についてもモデルに組み込んでいくべきである