42
1 音声インタフェースシステムの 効果的設計と評価に関する研究 西本卓也(東京大学) 2011-01-26 博士論文公聴会

Nishimoto110126 v15-light

Embed Size (px)

Citation preview

Page 1: Nishimoto110126 v15-light

1

音声インタフェースシステムの効果的設計と評価に関する研究

西本卓也(東京大学)

2011-01-26

博士論文公聴会

Page 2: Nishimoto110126 v15-light

2

音響的・言語的に最も可能性の高い単語列を出力する

隠れマルコフモデル(HMM)/ベイズ決定則/N-gramモデル

課題:頑健性,未知語

背景:音声認識技術の原理と構成

音響分析 探索

音響モデル 発音辞書 言語モデル

学習 学習

音声データベース テキストデータベース

入力音声 認識結果

)(

)()|(maxarg)|(maxarg

~

XP

WPWXPXWPW

WW

Page 3: Nishimoto110126 v15-light

3

背景:テキスト音声合成技術(TTS) 大量データによる統計学習アプローチの成功

課題:聞きやすさ,テキスト解析の精度

音声信号処理

韻律制御

合成単位選択 音声合成単位

漢字かな混じり文

音声信号

テキスト解析

読み,構文情報,アクセント型

読み,基本周波数パターン,継続時間長,パワーパターン

Page 4: Nishimoto110126 v15-light

4

HMMを用いた音声合成 メルケプストラム係数と基本周波数をHMMで生成

基本周波数系列は多空間確率分布によるモデル化

決定木クラスタリング/話者適応も可能

実装

HTS

GalateaTalk

Open JTalk

NVDA日本語版

mmdagent.jp

Galatea Toolkit

Page 5: Nishimoto110126 v15-light

5

インタフェース技術の発展 [第1章]

情報技術が幅広い状況で利用

携帯電話、タブレット、ロボット・・・

入出力:タッチ操作、加速度センサ、位置情報、グラフィックス

音声:音声認識、音声合成、音声対話、擬人化エージェント

実世界インタフェース 参考:増井他情報処理学会誌 2010年7月

自動ドア:意図(ビルに入りたい) → 行動(ドアに近づく) 関連が明確でわかりやすい、直感的、忘れにくい

電車に乗るために切符購入は本来不要→ Suica自動改札 直接的でない操作や抽象的な思考を排除できる

インタフェースの優れた慣用句(イディオム)を実現 計算機内の情報と現実世界の融合 Tangible Bits (MIT)

「優れたインタフェースは手品に似ている」

インタフェース設計の知見は音声応用にも有効

Page 6: Nishimoto110126 v15-light

6

インタフェースシステム導入原則 [西本2008]

適合性:ユーザの目的や状況に適合すること

デスクトップ、モバイル、車載機器、サイネージ etc.

本来ユーザが行うべき作業を邪魔しないこと(運転など)

バリアフリー、新しい技術が新しいバリアを作らない 視覚・聴覚が一時的に利用できない場合など

有用性:目的達成を支援できること

必然性、動機付け、退屈や不安の排除(楽しさ) 外国語学習 発音の正確な認識?学習の促進?

妥当性:効果測定と反復的改良

心的負荷:二重課題法/NASA-TLX ・・・・・ 適合性

タスク達成時間、操作回数、マウスポインタ移動量 ・・・・・ 有用性

ユーザの行為の分析・解明 → 音声応用システムへ

ロゼッタストーン

www.alpine.co.jp

Page 7: Nishimoto110126 v15-light

7

インタフェースの理論 [1.2節]

行為の3階層モデル [Rasmussenn]

技能ベース、規則ベース、知識ベース

人間の情報処理特性モデル [Card et.al.]

知覚系、認知系、運動系 数値的に明確化 べき法則、Fitts's Law

行為の7段階モデル [Norman]

実行の淵 目標を立てる、意図を形成する、行為系列を特定化する、行為を実行する

評価の淵 システムの状態を知覚、状態を解釈、状態と目標を比較評価

分類:秘書型/道具型

物理的世界

心理的世界実行の淵

評価の淵

応用:Macのメニュー

Page 8: Nishimoto110126 v15-light

8

各研究の概要 マルチモーダル入力における音声の有効利用

音声作図システム S-tgif

既存入力デバイス(マウス、キーボード)との役割の分担

コンテンツとして音声を扱うインタフェース

非同期音声会議 AVM

人間同士の音声対話の技能を活用

音声メッセージの視覚化とグラフィカルな操作

音声対話システムの使いにくい箇所を発見

二重課題法によるインタフェース評価 時間分解能の重要性

音声出力システムの設計指針

超早口音声の聞き手の構えの検討 内容に対する「気づき」の影響

Page 9: Nishimoto110126 v15-light

9

インタフェースの原則 [1.3節]

既存知見の再構成:モダリティに非依存な検討

インタフェースの基本原則 [小林1993] [西本1994]

操作労力 位置移動最尐、指定操作回数最尐、指定操作容易性

システムの透過性 理解容易性、手順連想容易性、フィードバック

頑健性 誤入力防止、修復容易性

インタフェースの構成原則 [小林1993]

初心者保護

熟練者優遇

上級利用移行支援視覚障害者のための電子メール環境の検討

[西本 2000]

Page 10: Nishimoto110126 v15-light

10

音声利用作図システムの設計 [第2章]

目的:マルチモーダル入力における音声の有用性を示す

音声を他の入力手段と協調して利用する 本研究の貢献:インタフェース原則論に基づいた設計と評価

先行事例: VLSI CAD [Martin 1989]

作図タスク(tgif)

マウスのみでは煩雑 モード切替:描画・修正

キャンバス上の座標指定

キーボードショートカット 使える数:普通10個程度

覚えるのが困難

音声入力が担うべき役割

キーボードの代替とその拡張

Page 11: Nishimoto110126 v15-light

11

S-tgif: 操作労力と透過性の配慮 配慮:操作労力(音声有利)

ポインタを動かさずに「直線」など音声コマンドを使用 マウス操作における手の移動を減尐

メニューの深い階層にあるコマンドを音声で呼び出し 操作回数を減尐

配慮:システム透過性(音声不利)

状態の理解容易性 キャンバスから視点を動かさず操作

描画モードをマウスポインタの形状で

手順連想容易性 機能から連想される複数のコマンド

フィードバック 入力受理の効果音・結果表示

実装:単語単位の離散HMM約80語の不特定話者認識複数のワークステーションで分散処理結果をキーイベントとしてtgifに送信

Page 12: Nishimoto110126 v15-light

12

S-tgif: 頑健性と構成原則の配慮 配慮:頑健性

修復容易性 属性の変更(図形の色など):取り消さずに言い直せばよい

取り消しを操作しやすいキーに割り当てる

非コマンド発話の棄却:フロアマウントのマイク使用 ユーザは非コマンド発話で意識的にマイクから顔を遠ざける

配慮:構成原則

初心者向けの構成 音声とマウスによる操作

熟練者向けの構成 キーボードとマウスによる操作

上級利用移行支援 コマンドと認識結果にキーボード操作を併記

あお

あお

Page 13: Nishimoto110126 v15-light

13

S-tgif: 評価実験 目的:音声利用の有無の効果の確認

3セッション:学習の効果/利用中断(2ヶ月)の影響

方法:課題を与え提案システムで作図させる

被験者:16人(一部は8人)の理工系の学生

測定(ログおよびビデオの解析) 操作時間、マウスカーソル移動量、コマンド操作回数

説明変数:音声有無、慣れ・課題の差、グループの影響、個人差

アンケート調査 操作の軽快さ

やりたい操作を実現する方法の分かりやすさ

ある状況で使える操作と使えない操作の区別

図形の変形や移動などの操作の簡単さ

疲労感の改善

上記5項目のうち最も重要なものはどれか

Page 14: Nishimoto110126 v15-light

14

S-tgif: 実験結果 労力最尐化:音声なしを100%とした削減効果

操作時間とマウス移動量で顕著な効果

アンケート:疲労感の軽減、作業の軽快感に貢献

透過性:「わかりやすさ」高評価

s1: 第1セッション

練習

s2: 第2セッション

2か月休止

s3: 第3セッション

30

40

50

60

70

80

s1 s2 s3

Eff

ect (%

)

60

70

80

90

100

110

120

s1 s2 s3

Eff

ect (%

)

60

70

80

90

100

110

120

130

140

s1 s2 s3

Eff

ect (%

)

操作時間 マウス移動量 コマンド数

s1およびs3で削減効果 常に顕著な削減効果 効果なし

Page 15: Nishimoto110126 v15-light

15

S-tgif: まとめ 基本原則

労力最尐化、透過性の原則を満たせた 音声のもつ操作性、手順連想容易性の効果

頑健性:修復容易性を実現できた 誤認識のうち操作を取り消した割合は14% (認識率 86% )

構成原則

初心者保護:キー入力の覚えにくさを補う効果

熟練者優遇:効果は目立ちにくいが価値はあった 練習後も「色の変更」などは音声利用が支持された(常に90%以上)

作業効率の向上に結び付く音声利用

音声入力の有効な利用

選択肢が多く、言葉で表現しやすい属性の指定

Page 16: Nishimoto110126 v15-light

16

文章入力のための音声認識

1990年代後半:PC用ディクテーションソフトの実用化

近年:Android 音声認識 API (Google)

目的がコミュニケーションである場合

労力:肉声は文字よりも楽

理解容易性:豊かなコミュニケーション セキュリティ向上

熟練者優遇:話し言葉の「技能」を生かすべき

人間はどんな効率的な会話を?

漸次性:思いつくままに次々に喋る、省略

オーバラップ発話・相槌:お互いに理解状況を開示する 透過性の原則が話者間でも重要 → Robisuke研究(早大)

Asynchronous Virtual Meeting (AVM)の提案

AVM: 肉声によるメッセージの利用

Page 17: Nishimoto110126 v15-light

17

AVM: 音声メッセージの相互参照 非同期型メディアによる双方向的な議論

例:読んだ発言の一部を引用しコメントする

どの発言に対する返答であるか

発言のどの部分に注目しているか

提案:音声ではオーバラップ発話を活用

どの発言に対して、割り込みが行われたか

発言のどの部分の再生中に、割り込みが行われたか

音声再生中に自由なタイミングで割り込みを許す

日常会話から類推しやすい操作体系

メッセージの関連付けをユーザに委ねる

Page 18: Nishimoto110126 v15-light

18

AVM: メッセージのツリー構造 始終端検出により区切られた音声

その音声に付随する付加情報

音声の録音と同時に、再生音声との時間的関係を示すリンク情報が追加される

おはよう。今朝も冷えますね。ところで・・

そうですね。

おはよう

付加情報

再生音声

返答音声

メッセージ60人程度だと。 たしか。

近いといえば・・・

そういえば、プロ野球の人数は? わかる?

そうそう

はい

あんまり知らない。

Page 19: Nishimoto110126 v15-light

19

AVM: 再生と録音の方法 再生:メッセージを Insert/Overlap 属性で制御

Overlap :相槌のような短い発話に有効

Insert : 長い発話を聞きやすく再生

録音:システム再生中のユーザ発話

「非相槌」(長い文章)を喋った場合 発話継続長が閾値を超えたらシステムは再生音声を止める

閾値を超えない短い発話なら再生を止めずに録音

BISP(Barge In to Stop Playing)

そうなんですか

親メッセージ

子メッセージ はい

会議ですが 延期になりまして それで

Overlap Insert

そうなんですか

延期になりまして

Page 20: Nishimoto110126 v15-light

20

AVM: 再生音声の作成手順

そういえば、プロ野球の人数は? わかる?60人程度だと。 たしか。近いといえば・・・

(2) 子となるメッセージを再帰的に検索、付加情報を元に親メッセージに挿入ただしOverlapメッセージは無視する

(3) 元メッセージとの相対時間を元にOverlapメッセージを付加する

そういえば、プロ野球の人数は? わかる?そういえば、プロ野球の人数は? わかる?60人程度だと。 たしか。そういえば、プロ野球の人数は? わかる?60人程度だと。 たしか。近いといえば・・・そういえば、プロ野球の人数は? わかる?60人程度だと。 たしか。近いといえば・・・

はい そうそう

そういえば、プロ野球の人数は?そういえば、プロ野球の人数は?そういえば、プロ野球の人数は?

(1) ルートのメッセージを検索

60人程度だと。 たしか。

近いといえば・・・

そういえば、プロ野球の人数は? わかる?

そうそう

はいoverlap

overlap

メッセージ構造

Page 21: Nishimoto110126 v15-light

21

AVM: 試作システム Voyager: ユーザエージェント

Windows上で動作/全二重録音再生機能

Voxer: メッセージ受信サーバ/対話再生サーバ Perlで実装

データベース登録

再生音声作成

ユーザ サーバ

クライアント

録音/再生

メッセージ受信サーバ登録・蓄積

対話再生サーバ再生メッセージ作成

要求

送信

送信

Page 22: Nishimoto110126 v15-light

22

AVM: 非同期音声会議の実験

目的:文字に対する音声会議の優位性を示す

課題:クイズを提示し、チーム内で議論し結論を出させる

AVMとBBSの2つのシステムで実験 AVMの音声認識にはViaVoice98(IBM)を使用

録音された音声を実験者がリスピークしてその結果をシステムに登録

研究室(京都工芸繊維大学)内の学生各5名1チーム

実験後にアンケートを実施

次にあげるスポーツのうち、プロ選手登録数が1000人に一番近いスポーツをあげてください。

競輪、競艇、騎手(中央競馬会)、ボウリング、サッカーJ1リーグ、スノーボード、オートレース、野球、Vリーグ

Page 23: Nishimoto110126 v15-light

23

AVM:音声と文字のメッセージ比較

AVM:話し言葉的で短く簡潔、くだけた表現 例:「60人ちゃうかったっけプロ野球って」

簡潔なメッセージによるコミュニケーション

BBS:書き言葉的で長い文章 例:「70多くて80人が1球団の現役選手であると思います」

考察

非同期の音声会話を実現

話し言葉の漸次性を活用

音声認識も有効利用

発言のしやすさ ユーザの慣れの要素も 0

10

20

30

40

50

60

0-50 51-100

101-150

151-200

201-250

251-300

301-350

351-400

401-450

451-500

1メッセージ中の文字数[文字]

全メッセージ中の割合[%]

AVM

BBS

Page 24: Nishimoto110126 v15-light

24

認知的負荷と音声対話 [第4章]

音声:時間や場所を選ばない(ユビキタス) ハンズフリー:キー操作やポインティング不要

アイズフリー:画面への注意が不要

要求:認知的負荷が低いこと(マインドフリー)

たくさん考えなくても使える=使いやすい 覚える/探す/推論する/注意する...

他のことを同時にやれる余裕がたくさんある 速く歩いているときに難しい質問を受けると?歩く速さを保てない

自動車を運転する...

音声対話システム:「ご用件をどうぞ」

どんな用件をどのように喋ってもよい?

実際には多くのシステムで制約あり 何をどう喋ればよいのか考えてしまう

Page 25: Nishimoto110126 v15-light

25

音声インタフェースの比較評価 単純にシステム同士の比較はできない

音声対話の負荷は時間変化する

システムの優务は「特定の悪い箇所」に左右される

どこかで失敗するとタスク達成不可能

設計者の要求

負荷の高いところを探してできるだけ下げたい

感度だけでなく時間分解能の高い評価手法が必要

既存の手法を音声に適用するときに何を配慮?

実験条件を統制しにくい?

タスクに適合する手法?

二重課題法

Page 26: Nishimoto110126 v15-light

26

二重課題法による評価 原理:心的キャパシティ一定の法則

第二課題の成績によって第一課題の負荷を測る

第一課題に必要な認知的負荷

第二課題に必要な認知的負荷

同時に行うと必要な認知的負荷

キャパシティ

実際に費やされる認知的負荷

第二課題の成績が高いならば第一課題の負荷が小さい

Page 27: Nishimoto110126 v15-light

27

二重課題法:第二課題の選択 先行研究:音声利用の負荷測定

清水他(2000) 認知的負荷(安全性)については有意性が得られず

Strayer他(2001) 測定できないのか影響がないのか不明な場合も

要求=認知的負荷の比較しやすさ 時間分解能の高さ(所要時間の短さ)

適切な負荷:「第一課題を優先する」という教示を守りやすい

反復しても慣れの効果が出にくい

提案:早押しゲーム 2~3秒周期で提示

応答時間を記録

前提 手と目=ゲーム

耳と口=音声対話

Page 28: Nishimoto110126 v15-light

28

矢印の向きが一致すれば○

を押す

を押す

Page 29: Nishimoto110126 v15-light

29

音声対話システムの評価実験 課題:レストラン情報の検索

車載音声対話システム(インターネット対応カーナビ)を想定

実装:VoiceXML Nuance Voice Web Server (オムロンによる日本語版)

状態遷移モデルによる対話記述

バージイン可 入力は音声のみ

対話の流れ サービス選択メニュー

検索条件「現在地から10分以内のレストラン」

絞込条件「一番予算の安い中華料理」

候補提示:1件ずつ選んで金額を聞いて比較

予約

Page 30: Nishimoto110126 v15-light

30

負荷の大きさと対話の内容

メインメニュー

(

ジャンル)

レストラン絞込

(

予算)

レストラン絞込

サービス終了

決定・予約

周辺情報検索を選択

詳細情報

候補提示/選択

S1 S2 S3 S4 S5 S6

こちらは周辺情報サービスです。ジャンルと、現在地からの所要時間で周辺情報を検索します。ジャンルは、レストラン、アミューズメント、スポーツ、…

現在地から10分以内でお一人様の予算が1500円以下の中華レストランは4件あります。レストラン名は、…

あいまいな情報要求

固有名詞の聞き取り予算の比較記憶負荷を要求

Page 31: Nishimoto110126 v15-light

31

結果:対話状態と応答時間の個人差

実験条件

被験者5名 各1対話

2要因の分散分析

対象:移動平均値

要因:被験者,対話状態

交互作用が有意(F=2.42)

応答時間の平均

S2が長い(2名有意)

S5が長い(2名有意)200

400

600

800

1000

1200

1400

1600

1800

2000

2200

2400

S1 S2 S3 S4 S5 S6

応答時間(ミリ秒)

Page 32: Nishimoto110126 v15-light

32

二重課題法:まとめ

音声インタフェースに適した手法(第二課題の設計)

高負荷箇所の特定 被験者内比較が可能

第2課題の応答時間の例(太線:5点の移動平均)

300

400

500

600

700

800

900

0 60 120 180 240 300

負荷の高い場所

経過時間(秒)

応答時間(ミリ秒)

Page 33: Nishimoto110126 v15-light

33

超早口音声の聞き手の構え [第5章]

視覚障害者:短時間で情報取得→最高速度を好む 超早口音声 : 「慣れれば聞き取れる」?

録音音声を話速変換して聴取実験 [浅川他 2003, 2005]

スクリーンリーダの熟練者による評価

最適速度(単語了解度90%):19.5 モーラ/秒

最高速度(単語了解度50%):25.0 モーラ/秒

HMM音声合成の聴取(18-30 モーラ/秒) 被験者:大学生/高齢者 [西本他 2006, 2007]

話者モデル改良の有効性は示せていない

実際の利用状況に近い実験タスクを設計しにくい 音声研究者はATR503文を聞き取る能力が高い

仮説:「聞き手の構え」の影響 単語親密度 「いまふう」>「いちはつ」

Page 34: Nishimoto110126 v15-light

34

超早口音声聴取の仮説 「構え」と「戦略」

「知っている(知らない)単語」だと思うことに意味がある?

「親密度の高低の判断」も負荷?

ボトムアップ処理

各モーラの聞き取り(単語親密度が低いほど) 心的負荷:高い?

学習効果:現れにくい?

トップダウン処理

心的辞書アクセスに頼る 心的負荷:低い?

学習・知識刺激

回答

短期記憶長期記憶

心的辞書

話者・声知覚

認識

Page 35: Nishimoto110126 v15-light

35

親密度を統制した超早口音声 FW03 (NII-SRC)[天野他 2006]

単語了解度試験のための音声データベース 4段階の親密度=日本語親密度DBに基づいて作成

4モーラ単語、0型および4型アクセントのみを選択

1グループ(50単語)ごとに音韻バランスを考慮

話速を統制して収録

レベル調整済み、サンプリング周波数48KHz

評価対象:男性話者1名の音声

親密度4群から最高 (FH) / 最低 (FL) の2群を使用

刺激音声の作成 話速変換:反復計算で振幅と位相を最適化する処理

4倍速音声=約20モーラ/秒

モーラ単位の了解度を集計

Page 36: Nishimoto110126 v15-light

36

超早口音声:実験の手順 50単語x3試行 16秒間隔で提示

全員が大学生(女性)

PC とヘッドフォンを1人1式使用

キーボードからローマ字で回答

実験1:親密度教示なし

被験者 (N=59) を4群に分割(G1-G4)

単語親密度のヒントは教示しない

実験2:親密度教示あり

被験者 (N=30) を4群に分割(G5-G8)

単語親密度のヒントを画面に教示 「構え」の効果を明確にしたい

Page 37: Nishimoto110126 v15-light

37

NASA-TLXによる負荷の測定 「聞く戦略」を知る手段として心的負荷を使いたい

NASA-TLX (Task Load Index) [Hart & Staveland 1998]

主観評価の一手法:扱いやすく感度が高い 下位尺度→ Weighted Workload (WWL)

知的・知覚的要求、身体的要求、タイムプレッシャー、努力、フラストレーション、作業成績の悪さ

課題の遂行

説明(文字と音声) 順位決定 各尺度の評価

休憩

6つの各尺度の評定値:0-100

評定値の重み(6-1)過去の評定値も表示大小関係を意識させる

Page 38: Nishimoto110126 v15-light

38

結果:HHH条件とLLL条件

30.0

40.0

50.0

60.0

70.0

80.0

90.0

E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3

了解度と負荷の変化 HHH条件

負荷

了解度

ずっとFHだが最初は自覚できない

トップダウン情報が最初は活用できない

だんだん活用促進

FHであることが教示された

最初からトップダウン情報が活用された

30.0

40.0

50.0

60.0

70.0

80.0

90.0

E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3

了解度と負荷の変化 LLL条件

負荷

了解度

FLの教示=有用な情報ではない?

親密度 H-H-H教示なし 教示あり

親密度 L-L-L教示なし 教示あり

Page 39: Nishimoto110126 v15-light

39

結果:LLH条件とHHL条件

30.0

40.0

50.0

60.0

70.0

80.0

90.0

E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3

了解度と負荷の変化 HHL条件

負荷

了解度

FHからFLへトップダウン情報が活用できなくなり変化を知覚

FHからFLへの切り替えでWWL変化なし※うまく解釈できない

30.0

40.0

50.0

60.0

70.0

80.0

90.0

E1-T1 E1-T2 E1-T3 E2-T1 E2-T2 E2-T3

了解度と負荷の変化 LLH条件

負荷

了解度

FLからFHへ:WWL低下戦略の切り替えが起きた

教示があってもなくても気づきやすい?

親密度 L-L-H教示なし 教示あり

親密度 H-H-L教示なし 教示あり

Page 40: Nishimoto110126 v15-light

40

超早口音声の聴取:まとめ 仮説の検証

「親密度が高いと教示」「親密度が高いと自覚」

心的辞書アクセスが促進(トップダウン情報)

心的負荷が低くなり、了解度が高くなる

示唆:正しく楽に聞き取るための手がかり 「慣れ」と密接に関連

「どういう内容か推測して聞く」「どういう内容かを判断する」

合成音声の品質を適切に評価するための実験方法

今後の課題 長期間における学習効果/加齢の効果

テキスト合成音声への応用

セキュリティ:音声CAPTCHA [Nishimoto2010]

Page 41: Nishimoto110126 v15-light

41

結論 インタフェース設計の方法論

音声認識・音声合成の効果的な応用

音声インタフェースの評価手法の高度化

普遍的な原則は有効 音声に依存せず様々なインタフェース技術の応用に貢献

展望:情報技術におけるモダリティの自由度

Web : テキストを中心とするユニバーサルな技術 アクセシビリティ:モダリティ選択の観点から

単純なモダリティ置換では不十分

成功したインタフェースがなぜ成功したかテキスト

画像

音声

触覚

BMPK ケージーエス(株)

NTTドコモ らくらくホン Apple iPhone 4

Page 42: Nishimoto110126 v15-light

42

研究実績 学術誌原著論文(第一著者):4編

西本 卓也, 志田 修利, 小林 哲則, 白井 克彦:"マルチモーダル入力環境下における音声の協調的利用-音声作図システムS-tgifの設計と評価-," 電子情報通信学会論文誌, Vol.J79-D-II, No.12, pp.2176-2183, Dec 1996.

西本 卓也, 幸 英浩, 川原 毅彦, 荒木 雅弘, 新美 康永: "非同期型音声会議システムAVMの設計と評価,'' 電子情報通信学会論文誌 , Vol.J83-D-II, No.11 pp.2490-2497, Nov 2000.

西本 卓也, 高山 元希, 櫻井 晴章, 荒木 雅弘: "音声インタフェースのための対話負荷測定法," 電子情報通信学会論文誌 , Vol.J87-D-II, No.2, pp.513-520, Feb 2004.

西本 卓也, 渡辺 隆行: "単語親密度を統制した超早口音声の聴取に対する慣れの検討," 電子情報通信学会論文誌 Vol.J94-D No.1, pp.209-220, Jan 2011.

学術誌原著論文(第一著者でないもの):9編 講演(査読つき国際会議予稿):49編

講演(研究会):78編 / 講演(全国大会・シンポジウム):74編

総説(学術誌の解説、講座等):5編

著書(共著・寄稿):7編 / 学術誌論文(翻訳):3編