27
日本語の語彙的換言知識の質的評価 梶原智之 山本和英 長岡技術科学大学

日本語の語彙的換言知識の質的評価

Embed Size (px)

Citation preview

日本語の語彙的換言知識の質的評価

梶原智之 山本和英 長岡技術科学大学

日本語の語彙的換言知識の質的評価 •  9種類の語彙的換言知識の品質を人手で評価 •  最高品質:基本的意味関係の事例ベース(名詞) •   高品質:動詞含意関係データベース (動詞)      内容語換言辞書(形容詞や副詞、句)

•  比較的低品質:WordNetDB (その他の名詞) •  低品質:PPDB: Japanese (大規模、句単位)

•  ALAGINの異形同義語対(基本的意味関係の事例ベース) •  県立学校の{担当教員/担当教諭}を支援する •  {うわべ/上っ面}だけの信仰心を見抜く •  正解率: 94.8%, 一致率: 72.2%, 規模: 4.5万語対

2

換言, 言い換え, 書き換え, パラフレーズ

意味が近似的に等価な言語表現の異形 [1]

[1] 乾, 藤田 (2004) “言い換え技術に関する研究動向”

先生 教員 教師 教諭

3

換言, 言い換え, 書き換え, パラフレーズ

意味が近似的に等価な言語表現の異形 [1]

[1] 乾, 藤田 (2004) “言い換え技術に関する研究動向”

先生 教員 教師 教諭

4

語彙的換言と構文的換言

•  語彙的換言 県立学校の担当教員を支援する 県立学校の担当教諭を支援する

•  構文的換言 梶原が長岡技科大に入学した 長岡技科大に梶原が入学した

5

語彙的換言と構文的換言

•  語彙的換言 県立学校の担当教員を支援する 県立学校の担当教諭を支援する

•  構文的換言 梶原が長岡技科大に入学した 長岡技科大に梶原が入学した

6

語彙的換言技術の応用(1) •  文章読解支援(語彙の平易化) – 子ども向け [2]

話し合いを継続していく 話し合いを続け ていく

– 言語学習者向け [3] ご不明な点がありましたら、下記まで  わからなかったら   、下記まで

[2] 梶原, 山本 (2013) “小学生の読解支援に向けた複数の換言知識を併用            した語彙平易化と評価” [3] 杢, 山本 (2013) “「やさしい日本語」変換システムの試作” 7

語彙的換言技術の応用(2) •  自動要約 [4]

大賞を受賞したAさん 大賞  の  Aさん

•  機械翻訳 [5] その本なら書類の下にある It is under the papers if it is the book.

その本 は 書類の下にある The book is under the papers.

[4] 片岡, 増山, 山本 (2000) “動詞型連体修飾表現の“N1のN2”への言い換え” [5] 松吉, 佐藤, 宇津呂 (2004) “機能表現「なら」の機械翻訳のための言い換え”

8

換言と多義性の解消 教員

教諭

マック

paraphrasing:13 2014年 1 2013年 4 2012年 2 2011年 5 2010年 1

disambiguation:29 2014年 4 2013年 6 2012年 6 2011年 9 2010年 4

表:ACLでの発表件数

9

ここまでのまとめ •  換言:複数の言語表現が1つの意味を表す

•  換言処理は種々の応用を持つ •  読解支援:難解な表現を平易な表現に •  自動要約:文字数の多い表現を短い表現に •  機械翻訳:機械翻訳しやすい表現に

•  多義性の解消と対をなす重要な研究課題 •  しかし、あまり活発に研究されていない

本研究では、日本語の語彙的換言知識を網羅的に比較しました。 換言技術を使って、各種NLPタスクの性能を改善してください。

10

名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言

人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞

日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手

語→語

動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572

動詞 含意スコア計算 (相互情報量) および人手 動詞含意関係データベース

(文字上包含関係にある) Triv 30,453

基本的意味関係の事例 ベース(略記対) 略記対 3,276

名詞 文脈類似度 および人手

基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754

基本的意味関係の事例 ベース(異表記対) 異表記対 30,230

現在利用可能な日本語の語彙的換言知識

11

名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言

人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞

日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手

語→語

動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572

動詞 含意スコア計算 (相互情報量) および人手 動詞含意関係データベース

(文字上包含関係にある) Triv 30,453

基本的意味関係の事例 ベース(略記対) 略記対 3,276

名詞 文脈類似度 および人手

基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754

基本的意味関係の事例 ベース(異表記対) 異表記対 30,230

現在利用可能な日本語の語彙的換言知識

12

PPDB: Japanese

•  日英対訳コーパスをもとに全自動で構築 •  英語を中間意味表現(ピボット)として使用 •  換言:同じ英語に対応する複数の日本語の句

•  換言確率により、S・M・L・XLの4種類を提供 •  最も高精度なSサイズを使用 •  それでも大規模(152万対) ※ 他は数万対

{の寿命がある/寿命がある}{ったらない/ったらありゃしない} {、多くのこと/してたくさんのこと} {が鈍った/を遅らせた} 13

名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言

人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞

日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手

語→語

動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572

動詞 含意スコア計算 (相互情報量) および人手 動詞含意関係データベース

(文字上包含関係にある) Triv 30,453

基本的意味関係の事例 ベース(略記対) 略記対 3,276

名詞 文脈類似度 および人手

基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754

基本的意味関係の事例 ベース(異表記対) 異表記対 30,230

現在利用可能な日本語の語彙的換言知識

14

内容語換言辞書 •  作業者1名の感覚のみで構築(全て人手) •  JUMAN辞書の見出し語に換言を付与 •  換言:日本語初学者からその言葉の意味を    問われたときにどのように答えるか

•  無理な換言を行わない工夫 •  思い浮かばない場合はスキップ可能 •  内容語3語までの句に換言して良い

{暴騰する/値段が上がる} {慰労する/ねぎらう} {全店/全ての店} {戸外/屋外} {宿願/願い} 15

名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言

人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞

日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手

語→語

動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572

動詞 含意スコア計算 (相互情報量) および人手 動詞含意関係データベース

(文字上包含関係にある) Triv 30,453

基本的意味関係の事例 ベース(略記対) 略記対 3,276

名詞 文脈類似度 および人手

基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754

基本的意味関係の事例 ベース(異表記対) 異表記対 30,230

現在利用可能な日本語の語彙的換言知識

16

日本語WordNet同義語データベース •  日本語WordNetで同じsynset(概念集合)に 登録されている語の組合せ •  更に人手で同義関係を判定(言語資源+人手)

•  同義関係の範囲 •  異表記、略記、敬語、比喩、…(多岐にわたる)

•  ALAGINフォーラムの言語資源に含まれる対は除く (以降で紹介するもの)

{実施/実行}    {可能性/見込み} {装い/身なり}{コンディション/状況} 17

名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言

人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞

日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手

語→語

動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572

動詞 含意スコア計算 (相互情報量) および人手 動詞含意関係データベース

(文字上包含関係にある) Triv 30,453

基本的意味関係の事例 ベース(略記対) 略記対 3,276

名詞 文脈類似度 および人手

基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754

基本的意味関係の事例 ベース(異表記対) 異表記対 30,230

現在利用可能な日本語の語彙的換言知識

18

   

動詞含意関係データベース •  Webから自動で収集された含意関係にある対 •  更に人手で含意関係を判定(自動収集+人手) •  含意スコア:相互情報量などをもとに計算

•  動詞1が動詞2を含意する •  動詞1の事態が成立するなら、 同時かそれ以前に動詞2の事態も成立している

•  e.g. 「酔っ払う」→「飲む」

•  Triv:文字上包含関係にある(あざ笑う → 笑う) •  Ntriv:文字上は関係ない  (挑戦する → チャレンジする)

19

名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言

人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞

日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手

語→語

動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572

動詞 含意スコア計算 (相互情報量) および人手 動詞含意関係データベース

(文字上包含関係にある) Triv 30,453

基本的意味関係の事例 ベース(略記対) 略記対 3,276

名詞 文脈類似度 および人手

基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754

基本的意味関係の事例 ベース(異表記対) 異表記対 30,230

現在利用可能な日本語の語彙的換言知識

20

基本的意味関係の事例ベース •  文脈類似度の高い2語の組合せ – 更に人手で対の関係を分類(自動収集+人手) – 略記対、異形同義語対、異表記対を使用

•  異表記対:読みが同じで意味も同じ語対 •  略記対:片方の文字数や音節数が他方よりも     少なく、短縮形や略称と呼ばれる語対

•  異形同義語対:読み、形態素数、音節数のいずれか      が異なり、同一の事象や事物を指す語対

{乗り換え駅/乗換駅}{婦人警官/婦警}{うわべ/上っ面} 21

名称 略称 収録数 品詞 収集方法 形式 PPDB: Japanese(S) PPDB 1,522,492 句 対訳コーパス 句→句 内容語換言辞書(用言) 用言 9,702 用言

人手 語→句 内容語換言辞書(名詞) 普通名詞 15,879 名詞

日本語WordNet同義語DB WordNet 23,506 名詞 言語資源 および人手

語→語

動詞含意関係データベース (類似・上位下位関係) Ntriv 63,572

動詞 含意スコア計算 (相互情報量) および人手 動詞含意関係データベース

(文字上包含関係にある) Triv 30,453

基本的意味関係の事例 ベース(略記対) 略記対 3,276

名詞 文脈類似度 および人手

基本的意味関係の事例 ベース(異形同義語対) 同義語対 44,754

基本的意味関係の事例 ベース(異表記対) 異表記対 30,230

現在利用可能な日本語の語彙的換言知識

22

評価方法 •  3人の日本語母語話者によって人手で評価 •  所与の文脈中での同義性を判定 •  文脈ごとに“換言可能” or “換言不可能”を回答

•  換言知識ごとに50換言対を10文脈ずつ評価 •  文脈は日本経済新聞から無作為に抽出

•  文脈によって換言の妥当性は変化する ○ 入選作は、彩調など{不熟/未成熟}で、 ✕ セリフに{不熟/未成熟}があったりもするが、

23

0.0 0.2 0.4 0.6 0.8 1.0

PPDB: Japanese

用言等換言辞書

普通名詞換言辞書

WordNet同義語DB

動詞含意DB(Ntriv)

動詞含意DB(Triv)

略記対

異形同義語対

異表記対

正解率

語彙的換言知識の質的評価 24

評価者3人中2人以上が 換言可能と回答した割合

0.0 0.2 0.4 0.6 0.8 1.0

PPDB: Japanese

用言等換言辞書

普通名詞換言辞書

WordNet同義語DB

動詞含意DB(Ntriv)

動詞含意DB(Triv)

略記対

異形同義語対

異表記対

正解率

一致率

語彙的換言知識の質的評価 25

評価者3人の評価が一致 (”ooo” or “xxx”)した割合

0% 20% 40% 60% 80% 100%

PPDB: Japanese

用言等換言辞書

普通名詞換言辞書

WordNet同義語DB

動詞含意DB(Ntriv)

動詞含意DB(Triv)

略記対

異形同義語対

異表記対

常に換言可能 文脈によって換言可能 常に換言不可能

語彙的換言知識の質的評価 26

日本語の語彙的換言知識の質的評価

•  9種類の語彙的換言知識の品質を人手で評価 •  最高品質:基本的意味関係の事例ベース(名詞) •   高品質:動詞含意関係データベース (動詞)      内容語換言辞書(全ての内容語、句)

•  比較的低品質:WordNetDB (その他の名詞) •  低品質:PPDB: Japanese (大規模、句単位)

•  語彙的換言技術の応用 •  読解支援(語彙平易化)、機械翻訳、自動要約

27