24
乾健太郎, 藤田篤. 言い換え技術に関する研究 動向. 自然言語処理, 11(5), pp.151-198, 2004. Presented by 梶原 智之

文献紹介:言い換え技術に関する研究動向

Embed Size (px)

Citation preview

Page 1: 文献紹介:言い換え技術に関する研究動向

乾健太郎, 藤田篤. 言い換え技術に関する研究動向. 自然言語処理, 11(5), pp.151-198, 2004.

Presented by 梶原  智之

Page 2: 文献紹介:言い換え技術に関する研究動向

� � 「意味が近似的に等価な言語表現の異形」

→ 同じ意味を持つ異なる言語表現

e.g. 内戦状態に再突入する公算が大きい 再び内戦状態になる可能性が高い

� キーワード:  言い換え生成、言い換え認識、言い換え知識獲得

� 言い換えの言い換え:  換言、書き換え、パラフレーズ(Paraphrase)

言い換え

2

Page 3: 文献紹介:言い換え技術に関する研究動向

� � 語彙的言い換え(lexical paraphrase)

� 警官が犯人を逮捕する � 警官が犯人を捕まえる

� 構文的言い換え(structural paraphrase) � 返信しないと、申込みは取り消されます � 返信すると、申込みは取り消されません

� 内包的意味の同一性に基づく言い換え � 工学的実現が最も容易(に見える)

意味が同じであるとは?

3

Page 4: 文献紹介:言い換え技術に関する研究動向

� � 内包的意味が同じ ≠ 参照対象が同じ

� 宵の明星 � 明けの明星

� 参照的言い換え(referential paraphrase) � 筆者の考え    去年の出来事 � 佐藤の考え    1998年の出来事

� 特定の文脈や談話の中でのみ成り立つ言い換え � 内包的意味の同一性に基づく言い換えとは区別すべき

意味が同じであるとは?

参照対象が同一であることは 言い換え可能であるための 十分条件には”ならない”

4

Page 5: 文献紹介:言い換え技術に関する研究動向

� � 言葉の語用論的効果

� 話者がそれを発することによって達成できると 期待するコミュニケーションの目的

� 語用論的言い換え(pragmatic paraphrase) � どなたかgccのソースのありかをご存知ないでしょうか �  gccのソースが置いてあるftpサイトを教えてください

� 同じ語用論的効果を持つ言い換え � 内包的意味の同一性に基づく言い換えとは区別すべき

意味が同じであるとは?

5

Page 6: 文献紹介:言い換え技術に関する研究動向

� � 人間のために言い換える

� 読解支援:読者の読解能力に合わせて平易な表現に変換 � 推敲支援:スタイルの統一  /  制限言語文書の作成 � 機械翻訳:機械が出力した不適格な表現を自動的に修正 � 自動要約:原文にない表現を使って内容をまとめる � 字幕生成:ニュース原稿から字幕を生成

� 機械のために言い換える � 機械翻訳:翻訳しやすい表現に予め書き換え(前編集) � クエリ拡張:情報検索の質問の多様性を吸収する � 複数文書要約:同じ情報を伝える記述がないか判定する

言い換え技術の使い方

6

Page 7: 文献紹介:言い換え技術に関する研究動向

� � 言い換え = 同一言語内の翻訳 (翻訳 = 異なる言語間をまたぐ言い換え)

� 言い換え生成の研究が機械翻訳の研究の長い歴史 から学べることは多い(後追いの域を出ていない)

� トランスファ方式 � ピボット方式

言い換えの実現方法

7

Page 8: 文献紹介:言い換え技術に関する研究動向

� トランスファ方式

単語列

意味表現

出力文

構文構造

中間言語

意味表現

構文構造

単語列

入力文

意味レベル

統語レベル

表層レベル

8

Page 9: 文献紹介:言い換え技術に関する研究動向

� � 表層レベル

�  e.g. 単語を同義語に言い換える �  e.g. 慣用表現を言い換える � 要素が省略されにくい � 語の間に別の語が割り込まない � 語彙化された言い換え知識を用いる

� 統語レベル � 文節の係り受け構造を用いる

� 意味レベル � 語順まで考慮する

トランスファ方式

9

Page 10: 文献紹介:言い換え技術に関する研究動向

�  訳     は     原文     に     忠実

translation  closely  follows  the  original

translation    is    difficult    for    me

  翻訳    は    私    に    は    難しい

ピボット方式

Masahiro Mizukami, Graham Neubig, Sakriani Sakti, Tomoki Toda, Satoshi Nakamura. Building a Free, General-Domain Paraphrase Database for Japanese. The 17th Oriental COCOSDA Conference (O-COCOSDA). Thailand. September 2014.

10

Page 11: 文献紹介:言い換え技術に関する研究動向

� � 表層の単語列や構文木の対 � 単語ラティス

言い換え知識の表現方法

複数単語列アライメントによって 生成される単語ラティス 11

Page 12: 文献紹介:言い換え技術に関する研究動向

� � 応用横断的なミドルウェアとしての言い換え

� 翻訳は異言語間の同義表現 � 言い換えは同一言語内の同義表現

� 形態素解析・統語解析などの基盤技術を、 機械翻訳や自動要約などの各種応用技術に つなげる応用横断的なミドルウェアである

機械翻訳との違い1

12

Page 13: 文献紹介:言い換え技術に関する研究動向

� � 応用横断的なミドルウェアとしての言い換え

� 今後の言い換え研究 � 言い換えのための知識をどのように 整理し、分解し、記述しておけば 応用横断的な再利用性が高くなるか検討し、

� その成果に基づいて実際に言い換えの 処理や知識を実現し、

� それらの部品を組み合わせて新しい用途に 対応できる仕組みを作る

機械翻訳との違い1

13

Page 14: 文献紹介:言い換え技術に関する研究動向

� � 問題解決型タスクとしての言い換え

� 翻訳は、原文の全ての構成要素を目的言語に変換 � 言い換え生成は、言い換えるべき対象を選択する

� 言い換えは多くの場合、原文の意味を厳密には保存できない → 不必要な言い換えは情報を損なう

機械翻訳との違い2

14

Page 15: 文献紹介:言い換え技術に関する研究動向

� � 問題解決型タスクとしての言い換え

� 原文から基準を満たさない言語表現を抽出し、 満たす表現に言い換えるという問題解決型タスク � 読解支援:人間にとってのテキストの読みやすさ � 機械翻訳:解析・翻訳の容易性 � 音声合成:聴覚理解の容易性

機械翻訳との違い2

15

Page 16: 文献紹介:言い換え技術に関する研究動向

� 機械翻訳との違い2

16

Page 17: 文献紹介:言い換え技術に関する研究動向

� � 語彙・構文的変換に基づく言い換えの認識

� 語彙・構文的変換の到達可能性を調べる � 与えられた2つの言語表現のうち、 一方を言い換えて他方に到達できるか否かを判別

� 意味表現に基づく言い換えの認識 � 意味レベルの照合を明示的に扱う � 与えられた2つの言語表現の各々を 意味表現に変換し、それらが一致するか否かを判別

言い換えの認識

17

Page 18: 文献紹介:言い換え技術に関する研究動向

� � シソーラスを使って同概念語に言い換える

� WordNet(http://compling.hss.ntu.edu.sg/wnja/) e.g. 教職の人(synset ID: 10694258-n) 指導員, 師範, 教官, 師匠, 教師, 先生, 教員, …

� 同概念語と言っても、意味や用法には差がある � 随所(⇒各地)でがれきの山が生まれ、火災も発生し、死者も多数、確認されている。

� 片仮名交じりの文語体、しかも難解な言葉が随所(⇒各地)にあり、法学専攻の学生すら悩ます現行刑法の法文が現代用語に書き換えられる。

言い換え知識の獲得

18

Page 19: 文献紹介:言い換え技術に関する研究動向

� � 語釈文に言い換える

�  e.g. 廃材[見出し語]:いらなくなった木材[語釈文] がれきや廃材の仮置き場 がれきやいらなくなった木材の仮置き場

�  e.g. 相乗り[見出し語]:乗り物に一緒に乗る[語釈文] タクシーに相乗りする タクシーに乗り物に一緒に乗るする

� 既存の語彙資源を使うため、カバレッジが広い � 自然言語で書かれているので知識の拡張・保守が容易

言い換え知識の獲得

19

Page 20: 文献紹介:言い換え技術に関する研究動向

� � 対訳辞書から言い換えを見つける

� 日本語語彙大系の構文体系

e.g. N1(主体)がN2(主体)の軍門に下る ⇔ N1 surrender to N2 N1(主体)がN2(主体)に降伏する ⇔ N1 surrender to N2

欧州がヒトラーの軍門に下る 欧州がヒトラーに降伏する

言い換え知識の獲得

20

Page 21: 文献紹介:言い換え技術に関する研究動向

� � パラレルコーパスから言い換え知識を獲得する

� The athletic field was swamped with spectators. � 競技場は大勢の観客で膨れ上がった � 競技場は大勢の観客で身動きができなかった

� 同じ原著から何冊もの訳本が出ている作品 (パラレルコーパス)

� 同じ事件を報道している複数の新聞社の記事 (コンパラブルコーパス)

言い換え知識の獲得

21

Page 22: 文献紹介:言い換え技術に関する研究動向

� � パラレルでないコーパスを使う

� 与えられた入力表現と  (a) 似た文脈で出現する表現 ← 分布類似度  (b) 内部構造が似ている表現 がコーパス中に存在すれば、 それは入力の言い換えである可能性が高い

� 分布類似度:distributional similarity � 出現文脈の類似性に基づいて推定される言語表現の類似度

� ノンパラレルコーパスは、パラレルコーパスや コンパラブルコーパスよりもはるかに容易に入手できる

言い換え知識の獲得

22

Page 23: 文献紹介:言い換え技術に関する研究動向

� � 言い換え:同じ意味を持つ異なる言語表現

� 言い換え生成 � 応用:機械翻訳の前編集、文章簡単化 � 機械翻訳の技術と重なるところが大きい

e.g. 変換, 曖昧性解消, 生成, 知識表現, 知識獲得 � 言い換え認識

� 応用:情報検索、質問応答、複数文書要約 � 片方のテキストから言い換えを生成して 他方のテキストに到達できるかどうか判定

� 言い換え知識獲得 � 自然には大規模なパラレルコーパスが作成されない � コンパラブルコーパス, ノンパラレルコーパスに工夫

まとめ

23

Page 24: 文献紹介:言い換え技術に関する研究動向

� � 乾  健太郎

� http://www.cl.ecei.tohoku.ac.jp/

� 藤田  篤 � http://paraphrasing.org/~fujita/� Bibliography of paraphrasing

� http://paraphrasing.org/bib-cat.html � A classification of paraphrases

� http://paraphrasing.org/paraphrase.html

著者情報

24