13
1 自然言語の含意関係・類似度 計算システム ccg2lambda お茶の水女子大学基幹研究院自然科学系 (理学部情報科学科) 准教授 戸次大介

自然言語の含意関係・類似度 計算システム …1 自然言語の含意関係・類似度 計算システムccg2lambda お茶の水女子大学基幹研究院自然科学系

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

1

自然言語の含意関係・類似度計算システム ccg2lambda

お茶の水女子大学基幹研究院自然科学系

(理学部情報科学科)

准教授 戸次大介

2

コンピュータでの自然言語の意味解釈

• 自然言語処理において、コンピュータで文章を意味的に構文解析するということは1980年代から様々に取り組まれている。

• 2000年代以降は、とくに Combinatory Categorial Grammar

(CCG)という実装上の文法に関する考え方が導入されて、飛躍的に進んでいる。

• 自然言語処理はさまざまな利用に応用されている。

Recognizing Textual Entailment (RTE):テキストの含意認識

Question Answering (QA):質問応答

Semantic Textual Similarity (STS):テキストの意味的類似度評価

Fact validation/checking:事実検証・確認

etc.

技術背景

3

本法のシステム:ccg2lambda本システムは、テキスト含意認識(RTE)システムのひとつであり、たとえば以下のような2つの文章が含意関係にあるということを判定できる。

T : レストラン内で喫煙することは、日本においてはほとんどの都市で禁止されています。Smoking in restaurants is prohibited in most cities in Japan.

H : いくつかの市町では、公共スペースでたばこを吸うことは認められていない。Some cities do not allow smoking in public spaces.

![TはHを意味的に包含しています/T entails H]!

この場合、1. most, some, not といったlogical words(論理的構成を示す言葉)の把握

2. prohibited と not allowed 、restaurants と public spaces といった content words(意味内容を示す言葉)の把握

によって、

+1と2から導かれる推論パターン+理論解析と機械学習を駆使してこの結果を実現している。現在は英語と日本語に実装対応。

4

従来技術とその問題点

現在、同様の課題は、機械学習(ディープラーニング)の手法でアプローチするものが主流であるが、

・大量の学習データが必要である

・処理がブラックボックス化しており、エラーが起こったときに修正が困難

等の問題がある。

5

新技術の特徴・従来技術との比較

• 機械学習と、言語学に基づく理論解析を組み合わせることで、従来技術よりも精度の高い含意関係や類似度の判定が可能になった。

• 古典的な言語学の知見を論理解析に反映することで、学習データは用いずに判定が可能。

• 完全な機械学習ではないので、処理モデルが人に理解しやすく(解釈性が高く)、カスタマイズや処理の変更・修正がしやすい。

6

想定される用途

• 文章の含意の判定

• 文と文との意味的な類似度の判定

が可能

→次のような利用が想定される

*質疑応答システム(例:コールセンターの対応支援システム=過去の回答例やモデル回答例の中から適切な回答を推奨する)

*文・文章・文書の内容の整合性・無矛盾性チェック(例: )

本法は

7

実世界応用例:有価証券報告書のAIチェック

(a) 仕入れ先の選定方法

イ 原材料

当社の主要原材料である雑貨は、供給量、価格、品質等において安定している丸紅等より選定しております。仕入れ先の中から価格高騰のリスクを回避するため、輸入雑貨について数社から購入できるよう配慮して選定しております。・・・

チェック項目

✓ 記載要件を満たしているか?・ 基本的な選定基準(供給量、価格、品質など)の記載・ 反社会的勢力に関するチェック手続きの記載

✓ 各種規程や他の書類との整合性はあるか?

対象の文章の含意判定を行うことでチェックできる

8

前提1 当社の主要原材料である雑貨は、供給量、価格、品質等において安定している丸紅等より選定しております。

前提2 仕入れ先の中から価格高騰のリスクを回避するため、輸入雑貨について数社から購入できるよう配慮して選定しております。

含意判定

実世界応用例(つづき)

結論1

結論2

結論3

結論4

結論5

品質が安定している会社を選定している。

価格が安定している会社を選定している。

供給量が安定している会社を選定している。

仕入れ先は複数社から選定している。

反社会的な会社との取引はない。

この会社は・・・

9

テンプレートベースで意味解析器・推論器のカスタマイズが容易

解釈性が高い

学習データ不要

知識ベース+仮説形成による拡張

文間の類似度計算による柔軟性(ソフトな推論)の拡張

構文解析器の精度に依存

➡現在改良に取り組み中

ccg2lambdaを用いるメリット

カスタマイズ困難

解釈性が低い

大量の学習データが必要

Logic/Semantics

Big data

機械学習/ディープラーニングccg2lambda

10

実用化に向けた課題

• 現在、パラグラフ単位程度の文章量についてはストレスのない時間で処理可能。(ページ単位以上の量になると、リアルタイムではなくバックグラウンドでの処理向き)

• 処理速度には、主に単文の長さ(ひとつの文の長短)が影響する。今後改良予定。

• これまでは文字化されているテキストを対象に実装しているが、今後は発話の音声にも取り組みたい。

11

企業への期待

• 保有するテキスト(社内文書、顧客アンケート回答、クレーム対応集、Q&Aマニュアル、など)の解析を通じて、自社にとっての有用情報を取り出したいニーズのある企業。

• 声による問いかけに対して適切な自動回答・応答を行うシステムの開発に関心のある企業。

などとの共同研究を期待します。

12

産学連携の経歴(参考)

• 平成25-30年度 JST CRESTプログラム「知識に基づく構造的言語処理の確立と知識インフラの構築」 に採択(主たる共同研究者として)

• 平成12-15年度 JST さきがけプログラム「情報と知」領域に採択

• 企業からの技術相談実績あり

• 現在共同研究締結に向けて準備中

13

お問い合わせ先

国立大学法人お茶の水女子大学

理学部情報科学科

戸次研究室(理論・計算言語学)

TEL 03-5978-5389

e-mail bekki@is.ocha.ac.jp

研究協力課社会連携担当 髙水

TEL 03-5978-5162

e-mail [email protected]