Text simplifica.on for children.
Jan De Belder, Marie-‐Francine Moens.
In Proceedings of the SIGIR Workshop on Accessible Search Systems, pp.19–26, 2010.
プレゼンテーション 関沢祐樹
2015/07/24 1
概要
• 対象:テキスト平易化 • 目的 – 子供が理解しやすいテキストへの自動変換
• 難しいテキストを入力、 簡単なテキストを出力 • 文分割、語彙平易化をする
• 結果 – 難易度の減少に成功 – 理想ほどは落ちなかった
2015/07/24 2
はじめに
• インターネットには大量の情報 – しかし、子供が読むレベルの情報はごくわずか
• 従来のテキスト簡単化 – アノテーションデータが必要 – 文単位で難易度を考慮
• 文書全体の難易度は考慮しない – 子供に読みやすくするため、簡単すぎても ×
• ほどよく難易度を下げたい
2015/07/24 3
関連研究
• テキスト自動平易化 – 文を短くする – 解析結果や、規則を用いる
• 語彙平易化 – ある単語を上位語、出現頻度によって置換
• WordNet を使用
– 語義曖昧性により、意味の通らなくなることもある
2015/07/24 4
提案手法
• 3つの要素で構成
1. 語彙平易化
2. 文法平易化
3. 平易化の最適選択
2015/07/24 5
1.語彙平易化
• 語義曖昧性解消を用いた単語の置換 – WordNet と 言語モデルで実現
2015/07/24 6
1.語彙平易化
2015/07/24 7
WordNet からなる 同意語のリスト
言語モデル からなる 置換可能な単語
1.語彙平易化
2015/07/24 8
共通する 単語のみ とってくる
言い換え らしさを頻度で スコア付け
最も頻度の高い 単語を出力
2.文法平易化
• 実際に使った4つの文法 1. 同格 John, a taxi driver, won the lo=ery. 2. 関係節 The boy, who had a ball, was tall. 3. 接頭辞による従属節 Although it is raining, the sun is shining. 4. 挿入辞による同格、従属 I bought a wallet but I lost it.
• これらの文法を簡単化した文全てを保持し、どれを採用するかを次に述べる
2015/07/24 9
平易化の最適選択
• 最適な言い換え – 平均文長、文数の差、語彙数の差を用いる
• テキストの難易度 – 総文数、総単語数の線形和
• これらの情報を用いる
2015/07/24 10
実験設定
• 使用データ – English Wikipedia & Simple English Wikipedia – 100記事使用
• 評価に50、残りを開発に割り当て
– Literacyworks : ニュース記事と、その簡約版のセット
• 50記事を評価に使用
合計100記事を評価に用いる
2015/07/24 11
実験1:語彙平易化
• それぞれ180の平易化をランダムに選択 • ベースライン:WordNetのみを用いる – 同意語のなかで頻度最大の単語に置換
• 提案手法:ベースラインに言語モデルを追加 • 評価:Amazon’s Mechanical Turk – 置換が正しいかを3人の多数決 – 単語の適合率で評価
2015/07/24 12
#"! �������� ����
��������� ���� ����
������������� �� ����
実験2:文法平易化
• 実験1の100記事を使用 • 平易化前後の文が正しい英語かを 0 or 1 で判定 • 評価環境は実験1とほぼ同じ (正解率で評価)
エラーが 多い
2015/07/24 13
�
� ����� ����� ����� �����
�� ����� ����� ����� �����
����� ��� � ��� �
����,�� ����� ����� ������ �����
)%)�$ ������ ����� ������� �����
�"#"&! "� �")!'��+*%'#(
実験2:文法平易化
• 各データの詳細、及び簡単化の割合
• 共に、20%未満であった
2015/07/24 14
まとめ
• テキスト平易化 – 子供に読みやすくしたい
• 提案手法 – 言語モデルを用いて、語彙平易化の精度向上 – 解析による文法構造の簡単化はエラーが多い
子供が読みやすいほどへの難易度の減少に失敗
2015/07/24 15