Upload
takuya-nishimoto
View
864
Download
0
Embed Size (px)
Citation preview
1
音声インタフェースシステムの効果的設計と評価に関する研究
西本卓也(東京大学)
2011-01-26
博士論文公聴会
2
音響的・言語的に最も可能性の高い単語列を出力する
隠れマルコフモデル(HMM)/ベイズ決定則/N-gramモデル
課題:頑健性,未知語
背景:音声認識技術の原理と構成
音響分析 探索
音響モデル 発音辞書 言語モデル
学習 学習
音声データベース テキストデータベース
入力音声 認識結果
)(
)()|(maxarg)|(maxarg
~
XP
WPWXPXWPW
WW
3
背景:テキスト音声合成技術(TTS) 大量データによる統計学習アプローチの成功
課題:聞きやすさ,テキスト解析の精度
音声信号処理
韻律制御
合成単位選択 音声合成単位
漢字かな混じり文
音声信号
テキスト解析
読み,構文情報,アクセント型
読み,基本周波数パターン,継続時間長,パワーパターン
4
HMMを用いた音声合成 メルケプストラム係数と基本周波数をHMMで生成
基本周波数系列は多空間確率分布によるモデル化
決定木クラスタリング/話者適応も可能
実装
HTS
GalateaTalk
Open JTalk
NVDA日本語版
mmdagent.jp
Galatea Toolkit
5
インタフェース技術の発展 [第1章]
情報技術が幅広い状況で利用
携帯電話、タブレット、ロボット・・・
入出力:タッチ操作、加速度センサ、位置情報、グラフィックス
音声:音声認識、音声合成、音声対話、擬人化エージェント
実世界インタフェース 参考:増井他情報処理学会誌 2010年7月
自動ドア:意図(ビルに入りたい) → 行動(ドアに近づく) 関連が明確でわかりやすい、直感的、忘れにくい
電車に乗るために切符購入は本来不要→ Suica自動改札 直接的でない操作や抽象的な思考を排除できる
インタフェースの優れた慣用句(イディオム)を実現 計算機内の情報と現実世界の融合 Tangible Bits (MIT)
「優れたインタフェースは手品に似ている」
インタフェース設計の知見は音声応用にも有効
6
インタフェースシステム導入原則 [西本2008]
適合性:ユーザの目的や状況に適合すること
デスクトップ、モバイル、車載機器、サイネージ etc.
本来ユーザが行うべき作業を邪魔しないこと(運転など)
バリアフリー、新しい技術が新しいバリアを作らない 視覚・聴覚が一時的に利用できない場合など
有用性:目的達成を支援できること
必然性、動機付け、退屈や不安の排除(楽しさ) 外国語学習 発音の正確な認識?学習の促進?
妥当性:効果測定と反復的改良
心的負荷:二重課題法/NASA-TLX ・・・・・ 適合性
タスク達成時間、操作回数、マウスポインタ移動量 ・・・・・ 有用性
ユーザの行為の分析・解明 → 音声応用システムへ
ロゼッタストーン
www.alpine.co.jp
7
インタフェースの理論 [1.2節]
行為の3階層モデル [Rasmussenn]
技能ベース、規則ベース、知識ベース
人間の情報処理特性モデル [Card et.al.]
知覚系、認知系、運動系 数値的に明確化 べき法則、Fitts's Law
行為の7段階モデル [Norman]
実行の淵 目標を立てる、意図を形成する、行為系列を特定化する、行為を実行する
評価の淵 システムの状態を知覚、状態を解釈、状態と目標を比較評価
分類:秘書型/道具型
物理的世界
心理的世界実行の淵
評価の淵
応用:Macのメニュー
8
各研究の概要 マルチモーダル入力における音声の有効利用
音声作図システム S-tgif
既存入力デバイス(マウス、キーボード)との役割の分担
コンテンツとして音声を扱うインタフェース
非同期音声会議 AVM
人間同士の音声対話の技能を活用
音声メッセージの視覚化とグラフィカルな操作
音声対話システムの使いにくい箇所を発見
二重課題法によるインタフェース評価 時間分解能の重要性
音声出力システムの設計指針
超早口音声の聞き手の構えの検討 内容に対する「気づき」の影響
9
インタフェースの原則 [1.3節]
既存知見の再構成:モダリティに非依存な検討
インタフェースの基本原則 [小林1993] [西本1994]
操作労力 位置移動最尐、指定操作回数最尐、指定操作容易性
システムの透過性 理解容易性、手順連想容易性、フィードバック
頑健性 誤入力防止、修復容易性
インタフェースの構成原則 [小林1993]
初心者保護
熟練者優遇
上級利用移行支援視覚障害者のための電子メール環境の検討
[西本 2000]
10
音声利用作図システムの設計 [第2章]
目的:マルチモーダル入力における音声の有用性を示す
音声を他の入力手段と協調して利用する 本研究の貢献:インタフェース原則論に基づいた設計と評価
先行事例: VLSI CAD [Martin 1989]
作図タスク(tgif)
マウスのみでは煩雑 モード切替:描画・修正
キャンバス上の座標指定
キーボードショートカット 使える数:普通10個程度
覚えるのが困難
音声入力が担うべき役割
キーボードの代替とその拡張
11
S-tgif: 操作労力と透過性の配慮 配慮:操作労力(音声有利)
ポインタを動かさずに「直線」など音声コマンドを使用 マウス操作における手の移動を減尐
メニューの深い階層にあるコマンドを音声で呼び出し 操作回数を減尐
配慮:システム透過性(音声不利)
状態の理解容易性 キャンバスから視点を動かさず操作
描画モードをマウスポインタの形状で
手順連想容易性 機能から連想される複数のコマンド
フィードバック 入力受理の効果音・結果表示
実装:単語単位の離散HMM約80語の不特定話者認識複数のワークステーションで分散処理結果をキーイベントとしてtgifに送信
12
S-tgif: 頑健性と構成原則の配慮 配慮:頑健性
修復容易性 属性の変更(図形の色など):取り消さずに言い直せばよい
取り消しを操作しやすいキーに割り当てる
非コマンド発話の棄却:フロアマウントのマイク使用 ユーザは非コマンド発話で意識的にマイクから顔を遠ざける
配慮:構成原則
初心者向けの構成 音声とマウスによる操作
熟練者向けの構成 キーボードとマウスによる操作
上級利用移行支援 コマンドと認識結果にキーボード操作を併記
あお
あお
13
S-tgif: 評価実験 目的:音声利用の有無の効果の確認
3セッション:学習の効果/利用中断(2ヶ月)の影響
方法:課題を与え提案システムで作図させる
被験者:16人(一部は8人)の理工系の学生
測定(ログおよびビデオの解析) 操作時間、マウスカーソル移動量、コマンド操作回数
説明変数:音声有無、慣れ・課題の差、グループの影響、個人差
アンケート調査 操作の軽快さ
やりたい操作を実現する方法の分かりやすさ
ある状況で使える操作と使えない操作の区別
図形の変形や移動などの操作の簡単さ
疲労感の改善
上記5項目のうち最も重要なものはどれか
14
S-tgif: 実験結果 労力最尐化:音声なしを100%とした削減効果
操作時間とマウス移動量で顕著な効果
アンケート:疲労感の軽減、作業の軽快感に貢献
透過性:「わかりやすさ」高評価
s1: 第1セッション
練習
s2: 第2セッション
2か月休止
s3: 第3セッション
30
40
50
60
70
80
s1 s2 s3
Eff
ect (%
)
60
70
80
90
100
110
120
s1 s2 s3
Eff
ect (%
)
60
70
80
90
100
110
120
130
140
s1 s2 s3
Eff
ect (%
)
操作時間 マウス移動量 コマンド数
s1およびs3で削減効果 常に顕著な削減効果 効果なし
15
S-tgif: まとめ 基本原則
労力最尐化、透過性の原則を満たせた 音声のもつ操作性、手順連想容易性の効果
頑健性:修復容易性を実現できた 誤認識のうち操作を取り消した割合は14% (認識率 86% )
構成原則
初心者保護:キー入力の覚えにくさを補う効果
熟練者優遇:効果は目立ちにくいが価値はあった 練習後も「色の変更」などは音声利用が支持された(常に90%以上)
作業効率の向上に結び付く音声利用
音声入力の有効な利用
選択肢が多く、言葉で表現しやすい属性の指定
16
文章入力のための音声認識
1990年代後半:PC用ディクテーションソフトの実用化
近年:Android 音声認識 API (Google)
目的がコミュニケーションである場合
労力:肉声は文字よりも楽
理解容易性:豊かなコミュニケーション セキュリティ向上
熟練者優遇:話し言葉の「技能」を生かすべき
人間はどんな効率的な会話を?
漸次性:思いつくままに次々に喋る、省略
オーバラップ発話・相槌:お互いに理解状況を開示する 透過性の原則が話者間でも重要 → Robisuke研究(早大)
Asynchronous Virtual Meeting (AVM)の提案
AVM: 肉声によるメッセージの利用
17
AVM: 音声メッセージの相互参照 非同期型メディアによる双方向的な議論
例:読んだ発言の一部を引用しコメントする
どの発言に対する返答であるか
発言のどの部分に注目しているか
提案:音声ではオーバラップ発話を活用
どの発言に対して、割り込みが行われたか
発言のどの部分の再生中に、割り込みが行われたか
音声再生中に自由なタイミングで割り込みを許す
日常会話から類推しやすい操作体系
メッセージの関連付けをユーザに委ねる
18
AVM: メッセージのツリー構造 始終端検出により区切られた音声
その音声に付随する付加情報
音声の録音と同時に、再生音声との時間的関係を示すリンク情報が追加される
おはよう。今朝も冷えますね。ところで・・
そうですね。
おはよう
付加情報
再生音声
返答音声
メッセージ60人程度だと。 たしか。
近いといえば・・・
そういえば、プロ野球の人数は? わかる?
そうそう
はい
あんまり知らない。
19
AVM: 再生と録音の方法 再生:メッセージを Insert/Overlap 属性で制御
Overlap :相槌のような短い発話に有効
Insert : 長い発話を聞きやすく再生
録音:システム再生中のユーザ発話
「非相槌」(長い文章)を喋った場合 発話継続長が閾値を超えたらシステムは再生音声を止める
閾値を超えない短い発話なら再生を止めずに録音
BISP(Barge In to Stop Playing)
そうなんですか
親メッセージ
子メッセージ はい
会議ですが 延期になりまして それで
Overlap Insert
そうなんですか
延期になりまして
20
AVM: 再生音声の作成手順
そういえば、プロ野球の人数は? わかる?60人程度だと。 たしか。近いといえば・・・
(2) 子となるメッセージを再帰的に検索、付加情報を元に親メッセージに挿入ただしOverlapメッセージは無視する
(3) 元メッセージとの相対時間を元にOverlapメッセージを付加する
そういえば、プロ野球の人数は? わかる?そういえば、プロ野球の人数は? わかる?60人程度だと。 たしか。そういえば、プロ野球の人数は? わかる?60人程度だと。 たしか。近いといえば・・・そういえば、プロ野球の人数は? わかる?60人程度だと。 たしか。近いといえば・・・
はい そうそう
そういえば、プロ野球の人数は?そういえば、プロ野球の人数は?そういえば、プロ野球の人数は?
(1) ルートのメッセージを検索
60人程度だと。 たしか。
近いといえば・・・
そういえば、プロ野球の人数は? わかる?
そうそう
はいoverlap
overlap
メッセージ構造
21
AVM: 試作システム Voyager: ユーザエージェント
Windows上で動作/全二重録音再生機能
Voxer: メッセージ受信サーバ/対話再生サーバ Perlで実装
データベース登録
再生音声作成
ユーザ サーバ
クライアント
録音/再生
メッセージ受信サーバ登録・蓄積
対話再生サーバ再生メッセージ作成
要求
送信
送信
22
AVM: 非同期音声会議の実験
目的:文字に対する音声会議の優位性を示す
課題:クイズを提示し、チーム内で議論し結論を出させる
AVMとBBSの2つのシステムで実験 AVMの音声認識にはViaVoice98(IBM)を使用
録音された音声を実験者がリスピークしてその結果をシステムに登録
研究室(京都工芸繊維大学)内の学生各5名1チーム
実験後にアンケートを実施
次にあげるスポーツのうち、プロ選手登録数が1000人に一番近いスポーツをあげてください。
競輪、競艇、騎手(中央競馬会)、ボウリング、サッカーJ1リーグ、スノーボード、オートレース、野球、Vリーグ
23
AVM:音声と文字のメッセージ比較
AVM:話し言葉的で短く簡潔、くだけた表現 例:「60人ちゃうかったっけプロ野球って」
簡潔なメッセージによるコミュニケーション
BBS:書き言葉的で長い文章 例:「70多くて80人が1球団の現役選手であると思います」
考察
非同期の音声会話を実現
話し言葉の漸次性を活用
音声認識も有効利用
発言のしやすさ ユーザの慣れの要素も 0
10
20
30
40
50
60
0-50 51-100
101-150
151-200
201-250
251-300
301-350
351-400
401-450
451-500
1メッセージ中の文字数[文字]
全メッセージ中の割合[%]
AVM
BBS
24
認知的負荷と音声対話 [第4章]
音声:時間や場所を選ばない(ユビキタス) ハンズフリー:キー操作やポインティング不要
アイズフリー:画面への注意が不要
要求:認知的負荷が低いこと(マインドフリー)
たくさん考えなくても使える=使いやすい 覚える/探す/推論する/注意する...
他のことを同時にやれる余裕がたくさんある 速く歩いているときに難しい質問を受けると?歩く速さを保てない
自動車を運転する...
音声対話システム:「ご用件をどうぞ」
どんな用件をどのように喋ってもよい?
実際には多くのシステムで制約あり 何をどう喋ればよいのか考えてしまう
25
音声インタフェースの比較評価 単純にシステム同士の比較はできない
音声対話の負荷は時間変化する
システムの優务は「特定の悪い箇所」に左右される
どこかで失敗するとタスク達成不可能
設計者の要求
負荷の高いところを探してできるだけ下げたい
感度だけでなく時間分解能の高い評価手法が必要
既存の手法を音声に適用するときに何を配慮?
実験条件を統制しにくい?
タスクに適合する手法?
二重課題法
26
二重課題法による評価 原理:心的キャパシティ一定の法則
第二課題の成績によって第一課題の負荷を測る
第一課題に必要な認知的負荷
第二課題に必要な認知的負荷
同時に行うと必要な認知的負荷
キャパシティ
実際に費やされる認知的負荷
第二課題の成績が高いならば第一課題の負荷が小さい
27
二重課題法:第二課題の選択 先行研究:音声利用の負荷測定
清水他(2000) 認知的負荷(安全性)については有意性が得られず
Strayer他(2001) 測定できないのか影響がないのか不明な場合も
要求=認知的負荷の比較しやすさ 時間分解能の高さ(所要時間の短さ)
適切な負荷:「第一課題を優先する」という教示を守りやすい
反復しても慣れの効果が出にくい
提案:早押しゲーム 2~3秒周期で提示
応答時間を記録
前提 手と目=ゲーム
耳と口=音声対話
28
矢印の向きが一致すれば○
を押す
を押す
29
音声対話システムの評価実験 課題:レストラン情報の検索
車載音声対話システム(インターネット対応カーナビ)を想定
実装:VoiceXML Nuance Voice Web Server (オムロンによる日本語版)
状態遷移モデルによる対話記述
バージイン可 入力は音声のみ
対話の流れ サービス選択メニュー
検索条件「現在地から10分以内のレストラン」
絞込条件「一番予算の安い中華料理」
候補提示:1件ずつ選んで金額を聞いて比較
予約
30
負荷の大きさと対話の内容
メインメニュー
(
ジャンル)
レストラン絞込
(
予算)
レストラン絞込
サービス終了
決定・予約
周辺情報検索を選択
詳細情報
候補提示/選択
S1 S2 S3 S4 S5 S6
こちらは周辺情報サービスです。ジャンルと、現在地からの所要時間で周辺情報を検索します。ジャンルは、レストラン、アミューズメント、スポーツ、…
現在地から10分以内でお一人様の予算が1500円以下の中華レストランは4件あります。レストラン名は、…
あいまいな情報要求
固有名詞の聞き取り予算の比較記憶負荷を要求
31
結果:対話状態と応答時間の個人差
実験条件
被験者5名 各1対話
2要因の分散分析
対象:移動平均値
要因:被験者,対話状態
交互作用が有意(F=2.42)
応答時間の平均
S2が長い(2名有意)
S5が長い(2名有意)200
400
600
800
1000
1200
1400
1600
1800
2000
2200
2400
S1 S2 S3 S4 S5 S6
応答時間(ミリ秒)
32
二重課題法:まとめ
音声インタフェースに適した手法(第二課題の設計)
高負荷箇所の特定 被験者内比較が可能
第2課題の応答時間の例(太線:5点の移動平均)
300
400
500
600
700
800
900
0 60 120 180 240 300
負荷の高い場所
経過時間(秒)
応答時間(ミリ秒)
33
超早口音声の聞き手の構え [第5章]
視覚障害者:短時間で情報取得→最高速度を好む 超早口音声 : 「慣れれば聞き取れる」?
録音音声を話速変換して聴取実験 [浅川他 2003, 2005]
スクリーンリーダの熟練者による評価
最適速度(単語了解度90%):19.5 モーラ/秒
最高速度(単語了解度50%):25.0 モーラ/秒
HMM音声合成の聴取(18-30 モーラ/秒) 被験者:大学生/高齢者 [西本他 2006, 2007]
話者モデル改良の有効性は示せていない
実際の利用状況に近い実験タスクを設計しにくい 音声研究者はATR503文を聞き取る能力が高い
仮説:「聞き手の構え」の影響 単語親密度 「いまふう」>「いちはつ」
34
超早口音声聴取の仮説 「構え」と「戦略」
「知っている(知らない)単語」だと思うことに意味がある?
「親密度の高低の判断」も負荷?
ボトムアップ処理
各モーラの聞き取り(単語親密度が低いほど) 心的負荷:高い?
学習効果:現れにくい?
トップダウン処理
心的辞書アクセスに頼る 心的負荷:低い?
学習・知識刺激
回答
短期記憶長期記憶
心的辞書
話者・声知覚
認識
35
親密度を統制した超早口音声 FW03 (NII-SRC)[天野他 2006]
単語了解度試験のための音声データベース 4段階の親密度=日本語親密度DBに基づいて作成
4モーラ単語、0型および4型アクセントのみを選択
1グループ(50単語)ごとに音韻バランスを考慮
話速を統制して収録
レベル調整済み、サンプリング周波数48KHz
評価対象:男性話者1名の音声
親密度4群から最高 (FH) / 最低 (FL) の2群を使用
刺激音声の作成 話速変換:反復計算で振幅と位相を最適化する処理
4倍速音声=約20モーラ/秒
モーラ単位の了解度を集計
36
超早口音声:実験の手順 50単語x3試行 16秒間隔で提示
全員が大学生(女性)
PC とヘッドフォンを1人1式使用
キーボードからローマ字で回答
実験1:親密度教示なし
被験者 (N=59) を4群に分割(G1-G4)
単語親密度のヒントは教示しない
実験2:親密度教示あり
被験者 (N=30) を4群に分割(G5-G8)
単語親密度のヒントを画面に教示 「構え」の効果を明確にしたい
37
NASA-TLXによる負荷の測定 「聞く戦略」を知る手段として心的負荷を使いたい
NASA-TLX (Task Load Index) [Hart & Staveland 1998]
主観評価の一手法:扱いやすく感度が高い 下位尺度→ Weighted Workload (WWL)
知的・知覚的要求、身体的要求、タイムプレッシャー、努力、フラストレーション、作業成績の悪さ
課題の遂行
説明(文字と音声) 順位決定 各尺度の評価
休憩
6つの各尺度の評定値:0-100
評定値の重み(6-1)過去の評定値も表示大小関係を意識させる
38
結果:HHH条件とLLL条件
30.0
40.0
50.0
60.0
70.0
80.0
90.0
E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3
了解度と負荷の変化 HHH条件
負荷
了解度
ずっとFHだが最初は自覚できない
トップダウン情報が最初は活用できない
だんだん活用促進
FHであることが教示された
最初からトップダウン情報が活用された
30.0
40.0
50.0
60.0
70.0
80.0
90.0
E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3
了解度と負荷の変化 LLL条件
負荷
了解度
FLの教示=有用な情報ではない?
親密度 H-H-H教示なし 教示あり
親密度 L-L-L教示なし 教示あり
39
結果:LLH条件とHHL条件
30.0
40.0
50.0
60.0
70.0
80.0
90.0
E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3
了解度と負荷の変化 HHL条件
負荷
了解度
FHからFLへトップダウン情報が活用できなくなり変化を知覚
FHからFLへの切り替えでWWL変化なし※うまく解釈できない
30.0
40.0
50.0
60.0
70.0
80.0
90.0
E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3
了解度と負荷の変化 LLH条件
負荷
了解度
FLからFHへ:WWL低下戦略の切り替えが起きた
教示があってもなくても気づきやすい?
親密度 L-L-H教示なし 教示あり
親密度 H-H-L教示なし 教示あり
40
超早口音声の聴取:まとめ 仮説の検証
「親密度が高いと教示」「親密度が高いと自覚」
心的辞書アクセスが促進(トップダウン情報)
心的負荷が低くなり、了解度が高くなる
示唆:正しく楽に聞き取るための手がかり 「慣れ」と密接に関連
「どういう内容か推測して聞く」「どういう内容かを判断する」
合成音声の品質を適切に評価するための実験方法
今後の課題 長期間における学習効果/加齢の効果
テキスト合成音声への応用
セキュリティ:音声CAPTCHA [Nishimoto2010]
41
結論 インタフェース設計の方法論
音声認識・音声合成の効果的な応用
音声インタフェースの評価手法の高度化
普遍的な原則は有効 音声に依存せず様々なインタフェース技術の応用に貢献
展望:情報技術におけるモダリティの自由度
Web : テキストを中心とするユニバーサルな技術 アクセシビリティ:モダリティ選択の観点から
単純なモダリティ置換では不十分
成功したインタフェースがなぜ成功したかテキスト
画像
音声
触覚
BMPK ケージーエス(株)
NTTドコモ らくらくホン Apple iPhone 4
42
研究実績 学術誌原著論文(第一著者):4編
西本 卓也, 志田 修利, 小林 哲則, 白井 克彦:"マルチモーダル入力環境下における音声の協調的利用-音声作図システムS-tgifの設計と評価-," 電子情報通信学会論文誌, Vol.J79-D-II, No.12, pp.2176-2183, Dec 1996.
西本 卓也, 幸 英浩, 川原 毅彦, 荒木 雅弘, 新美 康永: "非同期型音声会議システムAVMの設計と評価,'' 電子情報通信学会論文誌 , Vol.J83-D-II, No.11 pp.2490-2497, Nov 2000.
西本 卓也, 高山 元希, 櫻井 晴章, 荒木 雅弘: "音声インタフェースのための対話負荷測定法," 電子情報通信学会論文誌 , Vol.J87-D-II, No.2, pp.513-520, Feb 2004.
西本 卓也, 渡辺 隆行: "単語親密度を統制した超早口音声の聴取に対する慣れの検討," 電子情報通信学会論文誌 Vol.J94-D No.1, pp.209-220, Jan 2011.
学術誌原著論文(第一著者でないもの):9編 講演(査読つき国際会議予稿):49編
講演(研究会):78編 / 講演(全国大会・シンポジウム):74編
総説(学術誌の解説、講座等):5編
著書(共著・寄稿):7編 / 学術誌論文(翻訳):3編