Upload
tomoyuki-kajiwara
View
122
Download
1
Embed Size (px)
Citation preview
高頻度語は平易なのか?
��������� ������������� ��
長岡技術科学大学 梶原智之 山本和英
背景 ー先行研究ー • 小学生の読解支援に向けた語彙的換言 [梶原+ 13] • 文脈の多様性に基づく名詞の換言 [梶原+ 14]
sim(nt, nc) = com(nt, nc) * log(N/var(nc))
nt:換言対象の名詞、 nc:換言候補の名詞 com(nt, nc):ntとncが共通して用いられる文脈の種類数 N:文脈の総数、 var(nc):ncが用いられる文脈の種類数 2
仮説 相関の強さ 単語の分布
平易なほど頻度が高い 強い相関なし 高頻度語は平易 低頻度かつ平易な語も多い
頻度が高いほど文脈の種類数が多い 強い相関あり 頻度が高いほど 文脈の種類数も多い
平易な語ほど文脈の種類数が多い 強い相関なし 文脈の種類数が多い語は平易 文脈が少なくても平易な語は多い
• 比較手法(共起頻度・PMI)よりも高精度で換言できた
• 腰への【負担】を軽減する – 比較手法:費用、経費、実費、・・・ – 提案手法:負荷、ストレス、ダメージ、・・・
換言はできた。そのまま平易化もできるのか? 頻度や文脈の種類数と、難易度の関係を調べる。
3
語の難易度 • 単語親密度 – 単語のなじみの度合いを1から7までの実数値で表現 – 新聞記事の難解語を平易な表現へ 変換する手法の提案 [芋野+ 13]
– 文章の難易度判定のための単語親密 度チェッカーの開発 [川村+ 08]
• JLPT出題基準(Japanese Language Proficiency Test) – 日本語能力試験の級別の語彙(1級から4級まで) – 日本語読解支援のための語義ごとの 用例抽出システムの構築 [水野+ 08]
– 放送ニュースの動詞連用形 名詞の平易化 [美野+ 11]
単語 単語親密度 あいさつ 6.594 お世辞 5.906 返す返す 4.562
鴛鴦(オシドリ) 1.312
単語 JLPT出題基準 作る 4 級 理由 3 級 精神 2 級 4
実験設定 コーパス 記事数 単語数 異なり単語数 新聞記事 2,479,065 703,761,303 151,514 Wikipedia 853,134 357,761,882 158,971 論文 4,082 14,787,129 37,282
文脈の定義 ある名詞と係り受け関係にある文節内の内容語
5
空港への アクセスを 調べる 内容語 内容語 内容語
スピアマンの順位相関係数 新聞記事 Wikipedia 論文
単語親密度 JLPT出題基準 0.25 0.25 0.27 単語親密度 頻度 0.65 0.57 0.30 単語親密度 前文脈種類数 0.61 0.53 0.23 単語親密度 後文脈種類数 0.64 0.55 0.28 JLPT出題基準 頻度 -0.02 -0.02 0.03 JLPT出題基準 前文脈種類数 -0.04 -0.06 0.01 JLPT出題基準 後文脈種類数 0.00 -0.01 0.03
頻度 前文脈種類数 0.96 0.96 0.84 頻度 後文脈種類数 0.98 0.99 0.91
前文脈種類数 後文脈種類数 0.97 0.96 0.87 6
まとめ • たしかに、頻度が高い語は平易である。 • 同様に、文脈の種類数が多い語は平易である。 • しかし、頻度が低くても平易な語は多い。 • 文脈の種類数が少なくても平易な語は多い。 • 換言候補が持つ文脈の種類数が多いほど 換言可能性を下げるという換言手法 [梶原+ 14] の仮定は、必ずしも平易化を妨げない。
文脈の種類数に注目して語彙を平易化していきます 12
新聞記事(横:単語親密度) 縦:対数頻度� 縦:対数後文脈数�
Wikipedia(横:単語親密度) 縦:対数頻度� 縦:対数後文脈数�
論文(横:単語親密度) 縦:対数頻度� 縦:対数後文脈数�
新聞記事(横:JLPT出題基準) 縦:対数頻度� 縦:対数後文脈数�
Wikipedia(横:JLPT出題基準) 縦:対数頻度� 縦:対数後文脈数�
論文(横:JLPT出題基準) 縦:対数頻度� 縦:対数後文脈数�