Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
マルチモーダル対話システムの標準アーキテクチャと周辺技術
荒木雅弘荒木雅弘京都工芸繊維大学京都工芸繊維大学
2009/9/4 FIT2009 1
発表の構成発表の構成
• マルチモーダル対話システムのアーキテク• マルチモ ダル対話システムのア キテクチャ
W3C MMI WG– W3C MMI WG
– 情報処理学会 試行標準 音声言語インタフェース小委員会(ITSCJ)
• マルチモーダル対話システムの周辺技術マルチモ ダル対話システムの周辺技術
– 知識記述
W bアプリケ シ ン開発フレ ムワ ク– Webアプリケーション開発フレームワーク
• マルチモーダルWebはコア技術へ
2009/9/4 FIT2009 2
W3C MMI アーキテクチャW3C MMI ア キテクチャ
Delivery
R ti F k
DeliveryContext
Component
Interactionmanager
DataComponent
状態遷移を管理するサ バ
Modality Component API
Runtime Framework
Modality Component API
状態遷移を管理するサーバ
Speech Modality
Modality Component API
Graphic Modality
Modality Component API
Speech Modality Graphic Modality
ASR TTSWeb
browser
APIを実装するクライアント
VoiceXML XHTML
2009/9/4 FIT2009 3
ITSCJ試行標準についてITSCJ試行標準について
• 情報処理学会情報処理学会情報規格調査会
「音声入出力インタフェ ス委員会」「音声入出力インタフェース委員会」(2007年4月~)
• ミッション
– 「試行標準」として仕様情報をWebで公開「試行標準」として仕様情報をWebで公開
• 第一版を近日公開予定
意見を募って拡張 改良を行い 標準規格へ– 意見を募って拡張・改良を行い、標準規格へ
2009/9/4 FIT2009 4
活動の目標
1. 実用システムにも研究開発にも利用できるア キテクチャを確立アーキテクチャを確立
W3C: モバイル・アクセシビリティの確保を中心に据えた現実的な視点中心に据えた現実的な視点
2. 実装事例を通じて妥当性を検討Galatea Toolkit などで実装Galatea Toolkit などで実装
3 開発用フレ ムワ クとしてリリ ス3. 開発用フレームワークとしてリリース実績をアピールし、国際標準へ
2009/9/4 FIT2009 5
Galatea ToolkitGalatea Toolkit• MMIシステム開発の
ププラットフォーム
• 音声認識
• 音声合成
• 顔画像合成顔画像合成
• オ プンソ ス• オープンソース
http://sourceforge.jp/projects/galatea/
2009/9/4 FIT2009 6
デ タモデルアプリケーション6層:
ITSCJ 階層的アーキテクチャデータモデル
アプリケ ションロジック
access イベント/ 制御
6層:アプリケーション
イベント / 結果 制御指示
5層:タスク間制御
publish/
制御タスクの流れを記述
制御4層:タスク内制御 ユ
ーデバイ結
イベント / 結果 制御指示 subscribe
モダリティ非依存のインタラクション記述
制御 ・統合3層:モダリティ統合
ーザモデル
イスモデル
統合結果/イベント
イベント 制御指示制御指示
制御・分化モダリティ依存⇔非依存の変換制御 統合モダリティ統合
2層:
/
ル解釈結果/イベント
イベントイベント 制御指示 set/get制御指示
制御 分
制御・解釈 制御・解釈 制御 制御2層:モダリティコンポーネント
認識結果/イベント イベント 制御指示制御指示
APIを実装するラッパー
音声認識 ペン・タッチ 音声合成・音 画像・映像1層:入出力デバイス
イベント イ ント
7既存の認識・合成器
1層:入出力デバイス1層:入出力デバイス• 機能
単独 ダリ 認識 合成 ジ– 単独モダリティの認識・合成モジュール
• 入力モジュール– 入力:(外部から) 信号
(2層から) 認識処理に用いる情報
出力 層 認識結果– 出力:(2層へ) 認識結果
– 事例:Julius, タッチ入力, 顔検出, ...
• 出力モジュール– 入力:(2層から) 出力内容
– 出力:(外部へ) 信号
– 事例:Galatea talk, FSM, Webブラウザ, ...
2009/9/4 8FIT2009
2層:モダリティコンポーネント2層:モダリティコンポ ネント• 機能
– 1層の多様性を吸収するラッパー
例)音声認識コンポーネントの振る舞いの統一例)音声認識コンポ ネントの振る舞いの統
認識文法:SRGS 意味構成規則: SISR 認識結果: EMMA
複数の1層の機能をまとめて 単独機能に見せる– 複数の1層の機能をまとめて、単独機能に見せる
例) 音声認識の即時結果表示
2層:モダリティ
音声認識 GUI出力1層:入出力デバイス
モダリティコンポーネント 音声認識
2009/9/4 9FIT2009
音声認識 出力入出力デバイス
3層:モダリティ統合• 入力統合
– 逐次入力や同時入力の解釈– 逐次入力や同時入力の解釈
例)「これをここに移動」+ペンタッチ2箇所
Modality Fusion3層:モダリティ統合
EMMA
Modality Fusion<emma:interpretation>
<action> 移動 </action><emma:sequence>
<emma:interpretation> <x>0 253</x> <y>0 124</y><object> これ </object>
<destination> ここ </destination></emma:interpretation>
<x>0.253</x> <y>0.124</y></emma:interpretation><emma:interpretation >
<x>0.866</x> <y>0.724</y></emma:interpretation>
音声IMC2層:ダ
タッチIMC
</emma:interpretation></emma:sequence>
2009/9/4 10FIT2009
音声IMCモダリティコンポーネント
タッチIMC
3層:モダリティ統合3層:モダリティ統合• 出力分化
– 逐次出力や同時出力の同期
– 利用可能なモダリティに応じて出力内容を調整利用可能なモダリティに応じて出力内容を調整
– 何を入力とするかが研究課題
Modality Fission
?
Modality Fission1番のお勧
めは寿司大店名 価格 特徴
音声OMC GraphicalOMC
めは寿司大です。 寿司大 3800円 きめ細やか
な仕事
おかめ 3650円 2貫サービス
2009/9/4 11FIT2009
岩佐 3500円 貝尽くし
4層:タスク内制御• イメージ
ひとまとまりの小さな対話タスク f
4層:タスク内制御
– ひとまとまりの小さな対話タスク: form• クライアントサイドでの処理
S: 会員番号をどうぞU: 2024
S:お好みの食事をどうぞ肉U: 肉
2009/9/4 12FIT2009
S: これでよろしいですかU: はい
5層:タスク間制御5層:タスク間制御
• イメージ
– タスクの大きな流れを記述
アプリケーションにアクセスし その結果によって– アプリケーションにアクセスし、その結果によって動的に対話の流れを変更
記述言語候補• 記述言語候補
– SCXML(明示的に対話遷移を書く場合)
– MVCのコントローラ記述
• エントリーポイントとその処理を書くエントリ ポイントとその処理を書く
2009/9/4 13FIT2009
6層:アプリケーション
• 機能
層 ア リケ ション
– 対話アプリケーションの外部のモジュール
アプリケーションロジック– アプリケ ションロジック
• 例)DBアクセス、Web APIアクセス
情報の保存 更新 削除 検索 →R il f k• 情報の保存・更新・削除・検索 →Rails framework
2009/9/4 14FIT2009
ユーザモデル・デバイスモデル
• 共通の機能
– セッションを越えて、対話アプリにユーザ情報・特性やデバイスの状態を通知
• デバイスモデル
cf ) W3C MMI 配信コンテクストコンポーネントcf.) W3C MMI 配信コンテクストコンポーネント
– オントロジー+API
• ユーザモデル
– デバイスモデルと同じ方法で実現デバイスモデルと同じ方法で実現
2009/9/4 15FIT2009
マルチモーダル対話システムの周辺技術マルチモ ダル対話システムの周辺技術
• 知識記述知識記述
– RDBからセマンティックWebへ
プ 開発 ク• Webアプリケーション開発フレームワーク
– Railsによるプロトタイピングよる タイ ング
– 強化学習による対話管理の実現
2009/9/4 FIT2009 16
RDBからセマンティックWebへ• セマンティックWebの利点
推論が可能– 推論が可能
– 複数の知識源の統合が容易
– 言語資源との統合の可能性• 例)日本語版WordNetのリリース
• RDBからセマンティックWebへの流れ– RDB2RDF report by W3Cp y– RDFa, microformatによるWebページのRDF化
• ユ ザ/デバイスモデルも標準オントロジ• ユーザ/デバイスモデルも標準オントロジー言語を用いて記述
2009/9/4 FIT2009 17
セマンティックWebの利点
「京都一という中華料理店を探して下さい」
IF?A rdfs:subClassOf ?B.AND?x rdf:type ?A.THEN?x rdf:type ?B?x rdf:type ?B.
2009/9/4 FIT2009 18
RDFa<p typeof="ex:Book"
about "urn:isbn:0123">about= urn:isbn:0123 >
<span property="dc:Creator">
荒木雅弘
ex:Book
荒木雅弘
</span> :
it t "d Titl "
rdf:type
荒木雅弘<cite property="dc:Title">
フリーソフトでつくる音声認識システム
urn:isbn:0123
荒木雅弘
dc:Creator
音声認識システム
</cite>
</p> フリーソフト
dc:Title
</p> フリーソフト...
2009/9/4 FIT2009 19
Webアプリ開発フレームワークの利用
データモデルアプリケーション
ロジック
access イベント/ 制御
modelRailsで生成可能
モデルをRDF化?access イベント/ 制御
publish/
制御controller
制御ユー
デバ統合結果
イベント / 結果 制御指示publish/subscribe
View
制御 ・統合
ーザモデル/
バイスモデル
統合結果/イベント イベント 制御指示制御指示
制御・分化
制御・解釈 制御・解釈 制御 制御
解釈結果/イベント
イベント
イベント 制御指示 set/get制御指示
音声 音声 成 音 像 映像
御 解 御 解 御 御
認識結果/イベント イベント 制御指示制御指示
2009/9/4 FIT2009 20
音声認識 ペン・タッチ 音声合成・音 画像・映像
マルチモーダルRailsの試みマルチモ ダルRailsの試み
class Register { データモデル記述Integer memberIDString food
t ti t i t {
view (登録、一覧、修正、削除)controllerを自動生成
(by Grails)static constraints= {memberID(max:1000I)food(inList:["meat","fish","vegetable"])
}
( y )
}}
XHTML+Voiceに変換XHTML+Voiceに変換
2009/9/4 FIT2009 21
先進的な研究成果との組み合わせ
• 強化学習による対話管理規則の学習
様々な内部変数の値の組み合わせ 対話の状– 様々な内部変数の値の組み合わせで対話の状態を生成
内部変数の例) タスク変数 ユ ザモデル変数 使用• 内部変数の例) タスク変数、ユーザモデル変数、使用モダリティ
状態遷移規則をユーザシミュレータを用いて強化– 状態遷移規則をユーザシミュレータを用いて強化学習
• ユーザタイプの推定• ユーザタイプの推定
– ユーザの振る舞いや入力内容からユーザタイプを推定可能を推定可能
• ユーザの振る舞いの例) 音声割り込み、誤入力、...
2009/9/4 FIT2009 22
まとめま め
• マルチモーダル対話システムのアーキテクチャ
– ITSCJ 6階層アーキテクチャの紹介ITSCJ 6階層ア キテクチャの紹介
• マルチモーダル対話システムの周辺技術
セ ク 流れ– セマンティックWebへの流れ
– RailsによるMMIアプリケーション開発
• 先進的な研究成果との組み合わせ
2009/9/4 23FIT2009