32
日本語機能表現の自動検出と 統計的係り受け解析への応用 長岡技術科学大学 自然言語処理研究室 高橋寛治 注連 隆夫, 土屋 雅稔, 松吉 俊, 宇津呂 武仁, 佐藤 理史 自然言語処理, Vol. 14, No. 5, pp.167-197, 言語処理学会, 2007 文献紹介 2015年10月7日

日本語機能表現の自動検出と統計的係り受け解析への応用

Embed Size (px)

Citation preview

日本語機能表現の自動検出と統計的係り受け解析への応用

長岡技術科学大学 自然言語処理研究室 高橋寛治

注連 隆夫, 土屋 雅稔, 松吉 俊, 宇津呂 武仁, 佐藤 理史

自然言語処理, Vol. 14, No. 5, pp.167-197, 言語処理学会, 2007

文献紹介 2015年10月7日

概要•機能表現を機械学習を用いて検出する手法を提案 •検出精度はF値で約93% •機能表現を考慮した統計的係り受け解析手法を提案

日本語機能表現•2つ以上の語から構成され、全体として1つの機能的な意味を持つ表現 •同一表記の内容的な意味を持つ表現が存在する •例)

Ø出発するにあたって、荷物をチェックした。 Øボールは、壁にあたって跳ね返った。

機能的に用いられている可能性がある部分を 「機能表現候補」と呼ぶ

機能表現検出のタスクの有用性:機械翻訳

•例) Ø私は、彼の車について走った。

uI drove following his car. Ø私は、自分の夢について話した。

uI talked about my dream.

•機械翻訳の精度向上に効果があると考えられる

機能表現検出のタスクの有用性:係り受け解析

•例) Ø2万円を 限度に 家賃に 応じて 支給される。 Ø2万円を 限度に 家賃に応じて 支給される。

•「限度に」という文節が動詞を含む文節に係やすい特徴を持つため、「応じて」に係ってしまう •格解析の精度向上に効果があると考えられる

本研究で対象とする機能表現•(森田ら1989)は450種類の機能表現を収集 •(土屋ら2006)は上記から、特に一般性が高いとされる337種類の表現について人手で収集 •このデータのうち、新聞記事に50回以上出現し、機能的にも内容的にも適度に出現する表現を利用 •本稿では、59種類を検討対象とする

既存の解析系での取り扱い•59種類の表現全てに対して十分な取り扱いがされているわけではないことがわかった。 •識別の可能性がある表現

ØJUMAN+KNPで24種類 ØChaSen+CaboChaで20種類

•機能表現候補の用法を正しく識別する必要がある

機能表現検出•形態素解析と機能表現検出が独立に実行可能であると仮定 •機能表現検出を形態素を単位とするチャンク同定問題として定式化し、形態素解析結果から機械学習によって機能表現を検出

SVMを用いたチャンキングによる機能表現検出

•SVMは、素性空間を超平面で分割することによりデータを2つのクラスに分類する2値分類器 •多項式カーネルを利用 •ChaSenの出力結果をYamChaに入力して利用

•形態素を単位としてチャンクタグを付与 • IOB2フォーマット(Tjongら2000)を拡張して利用 •ペアワイズ法で組み合わせに対応

ØN(N-1)/2個の2値分類器の多数決により決定

チャンクタグの表現法

素性•文頭から𝑖番目の形態素𝑚#に対して与えらえる素性 •𝐹# = 𝑀𝐹 𝑚# , 𝐶𝐹 𝑖 , 𝑂𝐹 𝑖

•形態素素性𝑀𝐹 𝑚# ,チャンク素性𝐶𝐹 𝑖 ,チャンク文脈素性𝑂𝐹 𝑖

形態素素性𝑀𝐹 𝑚#

•形態素解析器によって形態素𝑚#に付与される情報 • IPA品詞体系に基づいて動作するChaSenの出力

Ø10種類の情報 u表層形,品詞,品詞細分類1~3,活用型,活用形,原形,読み,発音

チャンク素性𝐶𝐹 𝑖 とチャンク文脈素性O𝐹 𝑖

• チャンク素性は、i番目の位置に出現している機能表現候補Eを構成している形態素の数と、相対的位置の情報の2つ • チャンク文脈素性は、i番目の位置に出現している機能表現候補の直前2形態素及び直後2形態素の形態素素性とチャンク素性の組み

チ ャ ン ク 素 性 :

チャンク文脈素性:

複数の機能表現候補が重複して現れる場合

1. 先頭の形態素が、最も左側の機能表現候補を用いる

2. 1を満たす候補が複数存在する場合、最も形態素数が多い候補を用いる

•例) Ø慎重にしなくてはいけません。 Øそれが試合というものの難しさだ。

学習と解析に用いる素性

Ciの学習・解析を行う場合に用いる素性素性

実験•データセットを用意して各ベースラインと比較

Ø59種類の機能表現に対する用例として用例データベースより2429文に判定ラベルを付与

•評価データ Ø京都テキストコーパスに収録されている分を対象

評価結果

極端に検出性能が悪い表現•「にあたり」の1表現がF値70に達しなかった •例)

ØA:新規参入にあたり、潜在的なニーズを掘り起こそうと、転勤族を主な対象にした。

ØB:お神酒の瓶が女性にあたり、けがをする事故があった。 ØC:米国の最先端の科学者が知恵を結集して原爆の開発にあたり、一九四五年八月に広島・長崎に原爆が投下された。

•A,Bを内容的、Cを機能的と判定(Bは正解) Ø提案手法によっては適切に検出できない表現も存在する

SVMを用いた統計的係り受け解析器• (工藤ら 2002)の手法を利用

• チャンキングを段階的に適用すること

により係り受け解析を実現 • Oタグ:係り受けが未定 • Dタグ:Oタグ文節に対して係る場合

機能表現を考慮した係り受け解析

学習の流れ

訓練データの作成

係り受け解析例

実験と考察•各ベースラインと性能を比較 •対象とする表現は、検出器が対象としていた59表現 •素性は、形態素素性、チャンク素性、チャンク文脈素性を使用 •京都テキストコーパスを利用(10分割交差検定)

評価

係り受け解析の評価結果(%)

改善

係り先推定精度が改善されない原因•内容的用法と機能的用法で、係り先の特徴が変化する表現がほとんどない時 •例)

Ø「絶対に勝つ」という自信満々な人もいた。 Øトップという名にこだわる人もいる。

まとめ•機能表現検出と形態素解析は独立と仮定 •頻出する59種類の機能表現を対象 •機械学習法を適用して機能表現を検出

Ø従来のものよりも高性能 •機能表現を考慮した係り受け解析

Ø相対的に良くなった

Automatic Detection of Japanese Compound Functional Expressions and its Application to Statistical Dependency Analysis•Japanese has many compound functional expressions.•One words include both content words and functional words.•e.g.

Ø“にあたって” and “をめぐって”

Ambiguity•One compound expression have both

ØA literal content word usageu私は、彼の車について走った。uI drove following his car.

ØA non-literal functional usageu私は、自分の夢について話した。uI talked about my dream.

• To identify compound functional expression is important for some NLP tasks.

• They use SVM for identifying expressions.

Approach• They formalize the task as a chunking problem.

Ø“に あたっ て”→”にあたって” • After chunking, results are used for dependency analysis.

Results•F93%, to identify functional expression

•Proposed dependency analysis with chunking significantly outperform exiting tools.