マルチモーダル対話システムの標準アーキテクチャと周辺技術 · 「音声入出力インタフェス委員会」「音声入出力インタフェース委員会」

マルチモーダル対話システムの標準アーキテクチャと周辺技術

荒木雅弘荒木雅弘京都工芸繊維大学京都工芸繊維大学

2009/9/4 FIT2009 1

発表の構成発表の構成

• マルチモーダル対話システムのアーキテク• マルチモダル対話システムのアキテクチャ

W3C MMI WG– W3C MMI WG

– 情報処理学会試行標準音声言語インタフェース小委員会(ITSCJ)

• マルチモーダル対話システムの周辺技術マルチモダル対話システムの周辺技術

– 知識記述

W bアプリケシン開発フレムワク– Webアプリケーション開発フレームワーク

• マルチモーダルWebはコア技術へ

2009/9/4 FIT2009 2

W3C MMI アーキテクチャW3C MMI アキテクチャ

Delivery

R ti F k

DeliveryContext

Component

Interactionmanager

DataComponent

状態遷移を管理するサバ

Modality Component API

Runtime Framework


状態遷移を管理するサーバ

Speech Modality


Graphic Modality


Speech Modality Graphic Modality

ASR TTSWeb

browser

APIを実装するクライアント

VoiceXML XHTML

2009/9/4 FIT2009 3

ITSCJ試行標準についてITSCJ試行標準について

• 情報処理学会情報処理学会情報規格調査会

「音声入出力インタフェス委員会」「音声入出力インタフェース委員会」(2007年4月～)

• ミッション

– 「試行標準」として仕様情報をWebで公開「試行標準」として仕様情報をWebで公開

• 第一版を近日公開予定

意見を募って拡張改良を行い標準規格へ– 意見を募って拡張・改良を行い、標準規格へ

2009/9/4 FIT2009 4

活動の目標

1. 実用システムにも研究開発にも利用できるアキテクチャを確立アーキテクチャを確立

W3C: モバイル・アクセシビリティの確保を中心に据えた現実的な視点中心に据えた現実的な視点

2. 実装事例を通じて妥当性を検討Galatea Toolkit などで実装Galatea Toolkit などで実装

3 開発用フレムワクとしてリリス3. 開発用フレームワークとしてリリース実績をアピールし、国際標準へ

2009/9/4 FIT2009 5

Galatea ToolkitGalatea Toolkit• MMIシステム開発の

ププラットフォーム

• 音声認識

• 音声合成

• 顔画像合成顔画像合成

• オプンソス• オープンソース

http://sourceforge.jp/projects/galatea/

2009/9/4 FIT2009 6

デタモデルアプリケーション6層:

ITSCJ 階層的アーキテクチャデータモデル

アプリケションロジック

access イベント/ 制御

6層:アプリケーション

イベント / 結果制御指示

5層:タスク間制御

publish/

制御タスクの流れを記述

制御4層:タスク内制御ユ

ーデバイ結

イベント / 結果制御指示 subscribe

モダリティ非依存のインタラクション記述

制御・統合3層:モダリティ統合

ーザモデル

イスモデル

統合結果/イベント

イベント制御指示制御指示

制御・分化モダリティ依存⇔非依存の変換制御統合モダリティ統合

2層:

/

ル解釈結果/イベント

イベントイベント制御指示 set/get制御指示

制御分

制御・解釈制御・解釈制御制御2層:モダリティコンポーネント

認識結果/イベントイベント制御指示制御指示

APIを実装するラッパー

音声認識ペン・タッチ音声合成・音画像・映像1層:入出力デバイス

イベントイント

7既存の認識・合成器

1層：入出力デバイス1層：入出力デバイス• 機能

単独ダリ認識合成ジ– 単独モダリティの認識・合成モジュール

• 入力モジュール– 入力：(外部から) 信号

(2層から) 認識処理に用いる情報

出力層認識結果– 出力：(2層へ) 認識結果

– 事例：Julius, タッチ入力, 顔検出, ...

• 出力モジュール– 入力：(2層から) 出力内容

– 出力：(外部へ) 信号

– 事例：Galatea talk, FSM, Webブラウザ, ...

2009/9/4 8FIT2009

2層：モダリティコンポーネント2層：モダリティコンポネント• 機能

– 1層の多様性を吸収するラッパー

例）音声認識コンポーネントの振る舞いの統一例）音声認識コンポネントの振る舞いの統

認識文法：SRGS 意味構成規則: SISR 認識結果: EMMA

複数の1層の機能をまとめて単独機能に見せる– 複数の1層の機能をまとめて、単独機能に見せる

例) 音声認識の即時結果表示

2層:モダリティ

音声認識 GUI出力1層:入出力デバイス

モダリティコンポーネント音声認識

2009/9/4 9FIT2009

音声認識出力入出力デバイス

3層：モダリティ統合• 入力統合

– 逐次入力や同時入力の解釈– 逐次入力や同時入力の解釈

例）「これをここに移動」+ペンタッチ2箇所

Modality Fusion3層:モダリティ統合

EMMA

Modality Fusion<emma:interpretation>

<action> 移動 </action><emma:sequence>

<emma:interpretation> <x>0 253</x> <y>0 124</y><object> これ </object>

<destination> ここ </destination></emma:interpretation>

<x>0.253</x> <y>0.124</y></emma:interpretation><emma:interpretation >

<x>0.866</x> <y>0.724</y></emma:interpretation>

音声IMC2層:ダ

タッチIMC

</emma:interpretation></emma:sequence>

2009/9/4 10FIT2009

音声IMCモダリティコンポーネント

タッチIMC

3層：モダリティ統合3層：モダリティ統合• 出力分化

– 逐次出力や同時出力の同期

– 利用可能なモダリティに応じて出力内容を調整利用可能なモダリティに応じて出力内容を調整

– 何を入力とするかが研究課題

Modality Fission

？

Modality Fission1番のお勧

めは寿司大店名価格特徴

音声OMC GraphicalOMC

めは寿司大です。寿司大 3800円きめ細やか

な仕事

おかめ 3650円 2貫サービス

2009/9/4 11FIT2009

岩佐 3500円貝尽くし

4層：タスク内制御• イメージ

ひとまとまりの小さな対話タスク f

4層：タスク内制御

– ひとまとまりの小さな対話タスク: form• クライアントサイドでの処理

S: 会員番号をどうぞU: 2024

S:お好みの食事をどうぞ肉U: 肉

2009/9/4 12FIT2009

S: これでよろしいですかU: はい

5層：タスク間制御5層：タスク間制御

• イメージ

– タスクの大きな流れを記述

アプリケーションにアクセスしその結果によって– アプリケーションにアクセスし、その結果によって動的に対話の流れを変更

記述言語候補• 記述言語候補

– SCXML(明示的に対話遷移を書く場合)

– MVCのコントローラ記述

• エントリーポイントとその処理を書くエントリポイントとその処理を書く

2009/9/4 13FIT2009

6層：アプリケーション

• 機能

層アリケション

– 対話アプリケーションの外部のモジュール

アプリケーションロジック– アプリケションロジック

• 例）DBアクセス、Web APIアクセス

情報の保存更新削除検索 →R il f k• 情報の保存・更新・削除・検索 →Rails framework

2009/9/4 14FIT2009

ユーザモデル・デバイスモデル

• 共通の機能

– セッションを越えて、対話アプリにユーザ情報・特性やデバイスの状態を通知

• デバイスモデル

cf ) W3C MMI 配信コンテクストコンポーネントcf.) W3C MMI 配信コンテクストコンポーネント

– オントロジー+API

• ユーザモデル

– デバイスモデルと同じ方法で実現デバイスモデルと同じ方法で実現

2009/9/4 15FIT2009

マルチモーダル対話システムの周辺技術マルチモダル対話システムの周辺技術

• 知識記述知識記述

– RDBからセマンティックWebへ

プ開発ク• Webアプリケーション開発フレームワーク

– Railsによるプロトタイピングよるタイング

– 強化学習による対話管理の実現

2009/9/4 FIT2009 16

RDBからセマンティックWebへ• セマンティックWebの利点

推論が可能– 推論が可能

– 複数の知識源の統合が容易

– 言語資源との統合の可能性• 例）日本語版WordNetのリリース

• RDBからセマンティックWebへの流れ– RDB2RDF report by W3Cp y– RDFa, microformatによるWebページのRDF化

• ユザ／デバイスモデルも標準オントロジ• ユーザ／デバイスモデルも標準オントロジー言語を用いて記述

2009/9/4 FIT2009 17

セマンティックWebの利点

「京都一という中華料理店を探して下さい」

IF?A rdfs:subClassOf ?B.AND?x rdf:type ?A.THEN?x rdf:type ?B?x rdf:type ?B.

2009/9/4 FIT2009 18

RDFaabout= urn:isbn:0123 >



荒木雅弘

ex:Book

荒木雅弘

 :

it t "d Titl "

rdf:type

荒木雅弘<cite property="dc:Title">

フリーソフトでつくる音声認識システム

urn:isbn:0123

荒木雅弘

dc:Creator

音声認識システム

</cite>

 フリーソフト

dc:Title

 フリーソフト...

2009/9/4 FIT2009 19

Webアプリ開発フレームワークの利用

データモデルアプリケーション

ロジック

access イベント/ 制御

modelRailsで生成可能

モデルをRDF化?access イベント/ 制御

publish/

制御controller

制御ユー

デバ統合結果

イベント / 結果制御指示publish/subscribe

View

制御・統合

ーザモデル/

バイスモデル

統合結果/イベントイベント制御指示制御指示

制御・分化

制御・解釈制御・解釈制御制御

解釈結果/イベント

イベント

イベント制御指示 set/get制御指示

音声音声成音像映像

御解御解御御

認識結果/イベントイベント制御指示制御指示

2009/9/4 FIT2009 20

音声認識ペン・タッチ音声合成・音画像・映像

マルチモーダルRailsの試みマルチモダルRailsの試み

class Register { データモデル記述Integer memberIDString food

t ti t i t {

view (登録、一覧、修正、削除)controllerを自動生成

(by Grails)static constraints= {memberID(max:1000I)food(inList:["meat","fish","vegetable"])

}

( y )

}}

XHTML+Voiceに変換XHTML+Voiceに変換

2009/9/4 FIT2009 21

先進的な研究成果との組み合わせ

• 強化学習による対話管理規則の学習

様々な内部変数の値の組み合わせ対話の状– 様々な内部変数の値の組み合わせで対話の状態を生成

内部変数の例) タスク変数ユザモデル変数使用• 内部変数の例) タスク変数、ユーザモデル変数、使用モダリティ

状態遷移規則をユーザシミュレータを用いて強化– 状態遷移規則をユーザシミュレータを用いて強化学習

• ユーザタイプの推定• ユーザタイプの推定

– ユーザの振る舞いや入力内容からユーザタイプを推定可能を推定可能

• ユーザの振る舞いの例) 音声割り込み、誤入力、...

2009/9/4 FIT2009 22

まとめまめ

• マルチモーダル対話システムのアーキテクチャ

– ITSCJ 6階層アーキテクチャの紹介ITSCJ 6階層アキテクチャの紹介

• マルチモーダル対話システムの周辺技術

セク流れ– セマンティックWebへの流れ

– RailsによるMMIアプリケーション開発

• 先進的な研究成果との組み合わせ

2009/9/4 23FIT2009

Documents

マルチモーダル対話システムの 標準アーキテクチャと周辺技術 · 「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」

マルチモーダル対話システムの標準アーキテクチャと周辺技術 · 「音声入出力インタフェス委員会」「音声入出力インタフェース委員会」