23
マルチモーダル対話システムの 標準アーキテクチャと周辺技術 荒木雅弘 荒木雅弘 京都工芸繊維大学 京都工芸繊維大学 2009/9/4 FIT2009 1

マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

マルチモーダル対話システムの標準アーキテクチャと周辺技術

荒木雅弘荒木雅弘京都工芸繊維大学京都工芸繊維大学

2009/9/4 FIT2009 1

Page 2: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

発表の構成発表の構成

• マルチモーダル対話システムのアーキテク• マルチモ ダル対話システムのア キテクチャ

W3C MMI WG– W3C MMI WG

– 情報処理学会 試行標準 音声言語インタフェース小委員会(ITSCJ)

• マルチモーダル対話システムの周辺技術マルチモ ダル対話システムの周辺技術

– 知識記述

W bアプリケ シ ン開発フレ ムワ ク– Webアプリケーション開発フレームワーク

• マルチモーダルWebはコア技術へ

2009/9/4 FIT2009 2

Page 3: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

W3C MMI アーキテクチャW3C MMI ア キテクチャ

Delivery

R ti F k

DeliveryContext

Component

Interactionmanager

DataComponent

状態遷移を管理するサ バ

Modality Component API

Runtime Framework

Modality Component API

状態遷移を管理するサーバ

Speech Modality

Modality Component API

Graphic Modality

Modality Component API

Speech Modality Graphic Modality

ASR TTSWeb

browser

APIを実装するクライアント

VoiceXML XHTML

2009/9/4 FIT2009 3

Page 4: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

ITSCJ試行標準についてITSCJ試行標準について

• 情報処理学会情報処理学会情報規格調査会

「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」(2007年4月~)

• ミッション

– 「試行標準」として仕様情報をWebで公開「試行標準」として仕様情報をWebで公開

• 第一版を近日公開予定

意見を募って拡張 改良を行い 標準規格へ– 意見を募って拡張・改良を行い、標準規格へ

2009/9/4 FIT2009 4

Page 5: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

活動の目標

1. 実用システムにも研究開発にも利用できるア キテクチャを確立アーキテクチャを確立

W3C: モバイル・アクセシビリティの確保を中心に据えた現実的な視点中心に据えた現実的な視点

2. 実装事例を通じて妥当性を検討Galatea Toolkit などで実装Galatea Toolkit などで実装

3 開発用フレ ムワ クとしてリリ ス3. 開発用フレームワークとしてリリース実績をアピールし、国際標準へ

2009/9/4 FIT2009 5

Page 6: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

Galatea ToolkitGalatea Toolkit• MMIシステム開発の

ププラットフォーム

• 音声認識

• 音声合成

• 顔画像合成顔画像合成

• オ プンソ ス• オープンソース

http://sourceforge.jp/projects/galatea/

2009/9/4 FIT2009 6

Page 7: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

デ タモデルアプリケーション6層:

ITSCJ 階層的アーキテクチャデータモデル

アプリケ ションロジック

access イベント/  制御

6層:アプリケーション

イベント / 結果 制御指示

5層:タスク間制御

publish/

制御タスクの流れを記述

制御4層:タスク内制御 ユ

ーデバイ結

イベント / 結果 制御指示 subscribe

モダリティ非依存のインタラクション記述

制御 ・統合3層:モダリティ統合

ーザモデル

イスモデル

統合結果/イベント

イベント 制御指示制御指示

制御・分化モダリティ依存⇔非依存の変換制御 統合モダリティ統合

2層:

/

ル解釈結果/イベント

イベントイベント 制御指示 set/get制御指示

制御 分

制御・解釈 制御・解釈 制御 制御2層:モダリティコンポーネント

認識結果/イベント イベント 制御指示制御指示

APIを実装するラッパー

音声認識 ペン・タッチ 音声合成・音 画像・映像1層:入出力デバイス

イベント イ ント

7既存の認識・合成器

Page 8: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

1層:入出力デバイス1層:入出力デバイス• 機能

単独 ダリ 認識 合成 ジ– 単独モダリティの認識・合成モジュール

• 入力モジュール– 入力:(外部から) 信号

(2層から) 認識処理に用いる情報

出力 層 認識結果– 出力:(2層へ) 認識結果

– 事例:Julius, タッチ入力, 顔検出, ...

• 出力モジュール– 入力:(2層から) 出力内容

– 出力:(外部へ) 信号

– 事例:Galatea talk, FSM, Webブラウザ, ...

2009/9/4 8FIT2009

Page 9: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

2層:モダリティコンポーネント2層:モダリティコンポ ネント• 機能

– 1層の多様性を吸収するラッパー

例)音声認識コンポーネントの振る舞いの統一例)音声認識コンポ ネントの振る舞いの統

認識文法:SRGS   意味構成規則: SISR  認識結果: EMMA

複数の1層の機能をまとめて 単独機能に見せる– 複数の1層の機能をまとめて、単独機能に見せる

例)  音声認識の即時結果表示

2層:モダリティ

音声認識 GUI出力1層:入出力デバイス

モダリティコンポーネント 音声認識

2009/9/4 9FIT2009

音声認識 出力入出力デバイス

Page 10: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

3層:モダリティ統合• 入力統合

– 逐次入力や同時入力の解釈– 逐次入力や同時入力の解釈

例)「これをここに移動」+ペンタッチ2箇所

Modality Fusion3層:モダリティ統合

EMMA

Modality Fusion<emma:interpretation>

<action> 移動 </action><emma:sequence>

<emma:interpretation> <x>0 253</x> <y>0 124</y><object> これ </object>

<destination> ここ </destination></emma:interpretation>

<x>0.253</x> <y>0.124</y></emma:interpretation><emma:interpretation >

<x>0.866</x> <y>0.724</y></emma:interpretation>

音声IMC2層:ダ

タッチIMC

</emma:interpretation></emma:sequence>

2009/9/4 10FIT2009

音声IMCモダリティコンポーネント

タッチIMC

Page 11: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

3層:モダリティ統合3層:モダリティ統合• 出力分化

– 逐次出力や同時出力の同期

– 利用可能なモダリティに応じて出力内容を調整利用可能なモダリティに応じて出力内容を調整

– 何を入力とするかが研究課題

Modality Fission

Modality Fission1番のお勧

めは寿司大店名 価格 特徴

音声OMC GraphicalOMC

めは寿司大です。 寿司大 3800円 きめ細やか

な仕事

おかめ 3650円 2貫サービス

2009/9/4 11FIT2009

岩佐 3500円 貝尽くし

Page 12: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

4層:タスク内制御• イメージ

ひとまとまりの小さな対話タスク f

4層:タスク内制御

– ひとまとまりの小さな対話タスク: form• クライアントサイドでの処理

S: 会員番号をどうぞU: 2024

S:お好みの食事をどうぞ肉U: 肉

2009/9/4 12FIT2009

S: これでよろしいですかU: はい

Page 13: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

5層:タスク間制御5層:タスク間制御

• イメージ

– タスクの大きな流れを記述

アプリケーションにアクセスし その結果によって– アプリケーションにアクセスし、その結果によって動的に対話の流れを変更

記述言語候補• 記述言語候補

– SCXML(明示的に対話遷移を書く場合)

– MVCのコントローラ記述

• エントリーポイントとその処理を書くエントリ ポイントとその処理を書く

2009/9/4 13FIT2009

Page 14: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

6層:アプリケーション

• 機能

層 ア リケ ション

– 対話アプリケーションの外部のモジュール

アプリケーションロジック– アプリケ ションロジック

• 例)DBアクセス、Web APIアクセス

情報の保存 更新 削除 検索 →R il f k• 情報の保存・更新・削除・検索 →Rails framework

2009/9/4 14FIT2009

Page 15: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

ユーザモデル・デバイスモデル

• 共通の機能

– セッションを越えて、対話アプリにユーザ情報・特性やデバイスの状態を通知

• デバイスモデル

cf ) W3C MMI 配信コンテクストコンポーネントcf.) W3C MMI 配信コンテクストコンポーネント

– オントロジー+API

• ユーザモデル

– デバイスモデルと同じ方法で実現デバイスモデルと同じ方法で実現

2009/9/4 15FIT2009

Page 16: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

マルチモーダル対話システムの周辺技術マルチモ ダル対話システムの周辺技術

• 知識記述知識記述

– RDBからセマンティックWebへ

プ 開発 ク• Webアプリケーション開発フレームワーク

– Railsによるプロトタイピングよる タイ ング

– 強化学習による対話管理の実現

2009/9/4 FIT2009 16

Page 17: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

RDBからセマンティックWebへ• セマンティックWebの利点

推論が可能– 推論が可能

– 複数の知識源の統合が容易

– 言語資源との統合の可能性• 例)日本語版WordNetのリリース

• RDBからセマンティックWebへの流れ– RDB2RDF report  by W3Cp y– RDFa, microformatによるWebページのRDF化

• ユ ザ/デバイスモデルも標準オントロジ• ユーザ/デバイスモデルも標準オントロジー言語を用いて記述

2009/9/4 FIT2009 17

Page 18: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

セマンティックWebの利点

「京都一という中華料理店を探して下さい」

IF?A rdfs:subClassOf ?B.AND?x rdf:type ?A.THEN?x rdf:type ?B?x rdf:type ?B.

2009/9/4 FIT2009 18

Page 19: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

RDFa<p typeof="ex:Book"

about "urn:isbn:0123">about= urn:isbn:0123 >

<span property="dc:Creator">

荒木雅弘

ex:Book

荒木雅弘

</span> :

it t "d Titl "

rdf:type

荒木雅弘<cite property="dc:Title">

フリーソフトでつくる音声認識システム

urn:isbn:0123

荒木雅弘

dc:Creator

音声認識システム

</cite>

</p> フリーソフト

dc:Title

</p> フリーソフト...

2009/9/4 FIT2009 19

Page 20: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

Webアプリ開発フレームワークの利用

データモデルアプリケーション

ロジック

access イベント/ 制御

modelRailsで生成可能

モデルをRDF化?access イベント/  制御

publish/

制御controller

制御ユー

デバ統合結果

イベント / 結果 制御指示publish/subscribe

View

制御 ・統合

ーザモデル/

バイスモデル

統合結果/イベント イベント 制御指示制御指示

制御・分化

制御・解釈 制御・解釈 制御 制御

解釈結果/イベント

イベント

イベント 制御指示 set/get制御指示

音声 音声 成 音 像 映像

御 解 御 解 御 御

認識結果/イベント イベント 制御指示制御指示

2009/9/4 FIT2009 20

音声認識 ペン・タッチ 音声合成・音 画像・映像

Page 21: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

マルチモーダルRailsの試みマルチモ ダルRailsの試み

class Register { データモデル記述Integer memberIDString food

t ti t i t {

view (登録、一覧、修正、削除)controllerを自動生成

(by Grails)static constraints= {memberID(max:1000I)food(inList:["meat","fish","vegetable"])

}

( y )

}}

XHTML+Voiceに変換XHTML+Voiceに変換

2009/9/4 FIT2009 21

Page 22: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

先進的な研究成果との組み合わせ

• 強化学習による対話管理規則の学習

様々な内部変数の値の組み合わせ 対話の状– 様々な内部変数の値の組み合わせで対話の状態を生成

内部変数の例) タスク変数 ユ ザモデル変数 使用• 内部変数の例) タスク変数、ユーザモデル変数、使用モダリティ

状態遷移規則をユーザシミュレータを用いて強化– 状態遷移規則をユーザシミュレータを用いて強化学習

• ユーザタイプの推定• ユーザタイプの推定

– ユーザの振る舞いや入力内容からユーザタイプを推定可能を推定可能

• ユーザの振る舞いの例) 音声割り込み、誤入力、...

2009/9/4 FIT2009 22

Page 23: マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

まとめま め

• マルチモーダル対話システムのアーキテクチャ

– ITSCJ 6階層アーキテクチャの紹介ITSCJ 6階層ア キテクチャの紹介

• マルチモーダル対話システムの周辺技術

セ ク 流れ– セマンティックWebへの流れ

– RailsによるMMIアプリケーション開発

• 先進的な研究成果との組み合わせ

2009/9/4 23FIT2009