41
ロボット聴覚オ プンソ ロボット聴覚オプンソソフトウェアHARKの概要 ソフトウェアHARKの概要 中臺 中臺 () ホンダ・リサーチ・インスティチュート・ジャパン /東京工業大学 25 Nov. 2010 5th HARK Tutorial @ Kyoto Univ. 目次 1. HARKでできること 2. 開発の背景・経緯 3 HARKの紹介 3. HARKの紹介 4. HARK 1.0.0 の新機能・改善点 5. HARKの音声認識 6 HARKの性能 6. HARKの性能 7. まとめと今後の展開 8. 付録

ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

ロボット聴覚オ プンソ スロボット聴覚オープンソースソフトウェアHARKの概要ソフトウェアHARKの概要

中臺 一博中臺 博

(株) ホンダ・リサーチ・インスティチュート・ジャパン( )/東京工業大学

25 Nov. 2010 5th HARK Tutorial @ Kyoto Univ.

目次目次

1. HARKでできること

2. 開発の背景・経緯

3 HARKの紹介3. HARKの紹介

4. HARK 1.0.0 の新機能・改善点

5. HARKの音声認識

6 HARKの性能6. HARKの性能

7. まとめと今後の展開

8. 付録

Page 2: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

きる とHARKでできること

何ができるの?何 きる

ロボットに搭載したマイクアレイ(複数のマイク)を使って、大きく分ければ、

複数の音源の方向の同時推定(音源定位)

各方向の音源の同時分離抽出(音源分離) 各方向の音源の同時分離抽出(音源分離)

認識用特徴量の抽出(音声認識特徴量抽出)

複数音声の同時音声認識(音声認識) 複数音声の同時音声認識(音声認識)

を行うことができる。

Page 3: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

HARK 応用例用例

簡単な対話処理システムと接続 簡単な対話処理システムと接続

口じゃんけん判定タスク [ICRA 08]

料理オ ダタスク [ASRU 07] 料理オーダタスク [ASRU 07]

移動話者音声認識 [IROS 2010]

音環境理解

音環境可視化 音環境可視化

テレプレセンスロボット

T i (Will G 社) Texai (Willow Garage 社)

4話者同時認識 [IROS 2010]

実時間ロボット聴覚システム (2007,2008) ロボット搭載マイクで同時発話を扱う

先見情報を極力与えない(人数、方向)

対話処理との統合によるデモ 同時発話用対話処理

キーワードスポッティング ネットワーク文法 キーワードスポッティング、ネットワーク文法

料理注文タスク (Yamamoto ASRU’07)

Page 4: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

音環境可視化:アーカイブデータ音環境可視化 ア イ デ タ

7音環境可視化:実時間版もあり

テレプレセンスロボットTexai へのHARK適用 HARKをROSでも使える音響・音声処理用パッケージとして提供

ROS (Robot Operating System)( p g y )

Willow Garage社がオープンソースとして開発しているミドルウェア

リモートユーザへの音源定位と音源分離による音情報提示

同時4発話の分離(英語+日本語)音源分離による音情報提示

Texai

Page 5: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

Texai への適用同時4発話の分離(英語+日本語)

Stop

女性1 女性1

男性1

Direc

男性1

ction

男性2 男性1 GavagesGavagesゴミ

Time (frame)Recorded

Page 6: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

開発 背景と経緯HARK開発の背景と経緯

ロボット聴覚 [AAAI 2000]ボッ 聴覚 [ ] ヘッドセットではなく、ロボットの耳で!

対雑音ロバスト性 対雑音ロバスト性 自己発生音(ファン、モータ、発声)

環境音(車・エアコンなど)

同時発話(バージンなど)

実環境音環境理解

カクテルパーティロボット

聖徳太子ロボット

人ロボットインタラクション

Self-noises

Page 7: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

紹介HARKの紹介

HARKとは? モジュラーアーキテクチャに則ったロボット聴覚用オープンソースソフトウェアオ プンソ スソフトウェア

HRI-JP Audition for Robots with Kyoto University

動作確認済みOS: 動作確認済みOS:Fedora 7, 10, 11, Ubuntu 8.04, 8.10, 9.04, 9.10

現状では、ミドルウェアとしてデータフロー指向GUIプログラ 現状では、ミドルウェアとしてデ タフロ 指向GUIプログラミング環境Flowdesigner[Cote04]を利用

記述言語 C++ 記述言語 C++

Page 8: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

HARKの特長特長 GUI環境でモジュールを組合わせるだけでプログラミング可能

ロボット聴覚用に一通りのモジュールを提供

HARKを用いたロボット聴覚の構築例a) モジュールネットワーク b) プロパティ設定画面

ボット聴覚用に 通りの ジ ルを提供 マイクロホンアレイを用いた音源定位・追跡・分離

多チャンネル入力装置のサポー(ALSA,RASP,TD-USB)

分離音声の音声認識

既存システムとの組合せはソケット通信等を用いて実現可能 他のロボット聴覚ソフトManyEars との互換性あり 他のロボット聴覚ソフトManyEars との互換性あり

HARKとFlowDesigner の関係g 関係 FlowDesigner

データフロー指向GUIプログラミング環境 デ タフ 指向GUIプ グラミング環境

Pull 型アーキテクチャ、オープンソース、低レイテンシ

FlowDesigner 依存部分と非依存部分に分かれるg

ROS とのシームレスな連携

Original OpenCV ManyEars HARK J li /OriginalModulesForFlowDesigner

OpenCVForFlowDesigner

ManyEars HARK Julius/Julian for HARK &

FlowDesigner

FlowDesigner HARK &Support Tools

ALSA

OS

FlowDesigner ALSA

Page 9: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

HARK モジュール一覧 ver.1.0.0 (1)

HARK モジュール一覧 ver.1.0.0 (2)

Page 10: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

HARK の典型的な構成典型的な構成多チャンネル音響信号入力部 音源定位・追跡部

音源分離部

音響特徴量抽出部

ミッシングフィーチャマスク生成部 音声認識インタフェース部

Flowdesigner 上の典型的な構成 (音声認識 julius_mft は別プロセス)

HARKのオープンソースソフトウェア化 公開の目的

ロボット聴覚分野の活性化 ロボット聴覚分野の活性化

分野間融合研究のためのツール

ユ ザからのフィ ドバ クによる高性能化 安定性向上 ユーザからのフィードバックによる高性能化・安定性向上

HARK ライセンス

研究目的では自由に利用可能 研究目的では自由に利用可能 論文や発表の際には、HARKを用いた旨を表示、かつ可能な限り

論文の引用をすること

商用利用は、ライセンシングにて対応可能(応相談)

詳細についてはパッケージ添付の HARK License を参照 詳細についてはパッケ ジ添付の HARK License を参照

Page 11: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

ハードウェアウ ア

Robovie-R2RASPシリーズ(日本電子システムテクノロジー)

PC Preprocessing & ASR

ALSAベースのカード (e.g. RME社製)

HRP-2 (8ch)RME社製)

SIG2 東京エレクトロンデバイス社製ボードMEMS

HARKでは、無指向性マイク8本を想定しているが、アレイの形状、マイクの本数は簡単にかつ自由に変更可能

HARK 1.0.0 の新機能 改善点新機能・改善点

Page 12: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

HARK 1.0.0 における新機能一覧おける新機能 覧

1. 音源分離・音声強調の新規実装

音 応 移動音源への対応

比較的複雑なロボット形状への対応

ロボットの定常雑音対応

音源分離の各種パラメータが詳細設定可能に

2. 設定データ可視化・作成ツール提供

3. ドキュメントの充実化3. ドキ メントの充実化

4. インストールの簡略化

5 新音声特徴量の利用赤字:1.0.0 pre-release (2009 11) との差分5. 新音声特徴量の利用

6. Flowdesignerの操作性向上

(2009.11) との差分

音源分離とは

音源分離

)()()( xWy +

音源分離

音源 入力

+分離行列 出力

分離行列

分離処理

入力)(x

分離行列)(W

出力)(y

どうやって W を求めるかがカギ!

24

Page 13: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

従来手法 Geometric Source Separation (GSS) コスト関数

出力間の相関を 小化

tytxtW

GSS

出力間の相関を 小化(ブラインド分離に対応)

2][diag H

ttHtttSS EJ yyyyW tD

幾何制約(ビームフォーミングに対応)

][diag tttttSS EJ yyyyW

t

tt

frameatdirectionssourcesound:

frameat signalinput :

θ

x

2IDWW diJ

新式 ブ ドt

t

t

t

t

t

frameat matrix functiontransfer :

frameat matrix separation:

frameat directionssource sound:

D

W

θ IDWW tttGC diagJ

更新式(ハイブリッド)

)(J)( ''1 tGCGCtSSSStt J WWWW

tt frameat signal )(separatedoutput :y

分離

111 ttt xWyブラインド分離とビームフォーミングのいいとこどり111 ttty のいいとこどり

GSSの問題点1

コスト関数

出力間の相関を 小化

tytxtW

GSS

出力間の相関を 小化(ブラインド分離に対応)

2][diag H

ttHtttSS EJ yyyyW tD

幾何制約(ビームフォーミングに対応)

][diag tttttSS EJ yyyyW

t

tt

frameatdirectionssourcesound:

frameat signalinput :

θ

x

2IDWW diJ

新式 ブ ドt

t

t

t

t

t

frameat matrix functiontransfer :

frameat matrix separation:

frameat directionssource sound:

D

W

θ IDWW tttGC diagJ

更新式(ハイブリッド)

)(J)( ''1 tGCGCtSSSStt J WWWW

tt frameat signal )(separatedoutput :y

分離

111 ttt xWy 二次の相関しか使っていない111 ttty 相関 使

Page 14: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

GSSの問題点2

コスト関数

出力間の相関を 小化

tytxtW

GSS

出力間の相関を 小化(ブラインド分離に対応)

2][diag H

ttHtttSS EJ yyyyW tD

幾何制約(ビームフォーミングに対応)

][diag tttttSS EJ yyyyW

t

tt

frameatdirectionssourcesound:

frameat signalinput :

θ

x

2IDWW diJ

新式 ブ ドt

t

t

t

t

t

frameat matrix functiontransfer :

frameat matrix separation:

frameat directionssource sound:

D

W

θ IDWW tttGC diagJ

更新式(ハイブリッド)

)(J)( ''1 tGCGCtSSSStt J WWWW

tt frameat signal )(separatedoutput :y

分離

111 ttt xWy ステップサイズが固定→変化への対応が難しい111 ttty →変化への対応が難しい→チューニングが大変

GSSの問題点3

コスト関数

出力間の相関を 小化

tytxtW

GSS

出力間の相関を 小化(ブラインド分離に対応)

2][diag H

ttHtttSS EJ yyyyW tD

幾何制約(ビームフォーミングに対応)

][diag tttttSS EJ yyyyW

t

tt

frameatdirectionssourcesound:

frameat signalinput :

θ

x

2IDWW diJ

新式 ブ ドt

t

t

t

t

t

frameat matrix functiontransfer :

frameat matrix separation:

frameat directionssource sound:

D

W

θ IDWW tttGC diagJ

更新式(ハイブリッド)

)(J)( ''1 tGCGCtSSSStt J WWWW

tt frameat signal )(separatedoutput :y

分離

111 ttt xWy WとDの更新• Wは常に更新111 ttty • Wは常に更新• Dは初めに決めたらあとは一定

Page 15: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

GHDSS-AS Geometric High-order Decorrelation based Source

Separation (GHDSS) w/ Adaptive Step-size (AS)Separation (GHDSS) w/ Adaptive Step size (AS) コスト関数に高次の相関を利用 (GHDSS)

2HH ][diag Htt

HtttSS EJ yyyyW

2H

適応ステップサイズ:多次元ニュートン法を使って適応的に制御

])([)( HSS yyEdiagnonJ W

- 2 0

- 1 0

0

B]

G S S w it h u = 1

2 5 05 0 01 k2 k

従来法

n de

pth

- 1 0

0

B]

G S S w it h u = 1

2 5 05 0 01 k2 k

GHDSS-AS

dept

h5 0

- 4 0

- 3 0

2 0

Level [d

BS

epar

atio

n

- 5 0

- 4 0

- 3 0

- 2 0

Leve

l [d

BS

epar

atio

n d

A mixture ofSound sources

0 2 0 0 4 0 0 6 0 0 8 0 0 1 0 0 0 1 2 0 0- 5 0

N u m b e r o f U p d a t e s

Time (# of frames)0 2 0 0 4 0 0 6 0 0 8 0 0 1 0 0 0 1 2 0 0

- 5 0

N u m b e r o f U p d a t e s

S

Time (# of frames)

分離パラメータ切替

5つの手法を提供(状況に合わせて使い分け)

Page 16: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

音源分離の新規実装(その他)装

ロボット頭部形状にあった実測の伝達関数の使用が可能にな た可能になった。

TF_CONJ -> DATABASE :実測伝達関数モード

TF_CONJ -> CALC: 計算モード(従来)

定位置にもかかわらず,定位できないことがあるロボット雑音(ファン・モータ)への対応

FIXED_NOISE -> true : 常に雑音源があるものとして分離

分離処理のブロック図

GHDSS

Page 17: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

GHDSS-ASの性能同時発話の音声認識性能 (静止話者+移動話者)

度]

1m

0-80 [deg]

平角

度[度

50 [deg]

水平

時間 [sec]1m

-50 [deg] 時間 [sec]音源定位結果の例

テストデ タ ATR音素バランス単語 216 語90100 S1(stationary)

テストデータ : ATR音素バランス単語 216 語音響モデル: クリーンデータで学習

405060708090 S2(moving)

解率

(%)

010203040

単語

正解

GHDSS-AS が移動話者でよい結果

33

No preprocess GSS (current HARK)

GHDSS-AS (proposed)

分離パラメータ切替の効果分離 ラ タ切替 効果10 人 x 50 文を移動話者で評価

• 実測伝達関数 > 計算伝達関数(シミュレーション)Dの切替 変化なし (動きが大きければ効果?)• Dの切替: 変化なし (動きが大きければ効果?)

• Wの初期化: ID > POS, ID_POS (発話毎に初期化するのがよい)

Page 18: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

音源分離の課題と音声強調処理の必要性

入力 音声強調後音源分離後

音声 音声 音声

+

方向性雑音

+

拡散性雑音+

拡散性雑音(背景雑音) (背景雑音)

マイクアレイ処理の限界

35拡散性雑音を抑制するために音声強調が必要

マイクアレイ処理の限界

35

新音声強調法

Histogram Recursive Level Estimation (HRLE)[Nakajima et al. IROS 10]

雑音推定に時間がかかる動的変化 の対応に問題

従来法(Postfilter)

→動的変化への対応に問題

入力(音声+雑音) 推定雑音

音源分離をしても

高速適応雑音推定→動的変化への対応可能

音源分離をしても雑音は除去しきれない

提案法(HRLE)

推定雑音推定雑音

Page 19: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

新音声強調法の効果

• 雑音下での音声認識実験で効果を実証• 音源数が動的に変化する環境を想定• 従来法(Postfilter)は12個のパラメータチューニング要のため

100%

• 従来法(Postfilter)は12個のパラメ タチュ ニング要のため,他環境でチューニングしたパラメータ値をそのまま利用

80%

90%

100%

%)

従来法 提案法

50%

60%

70%

正解

率(%

パラメータチューニングが容易

20%

30%

40%

ASIMO雑音

音声雑音+ASIMO雑音

単語

正 ラ タチ ングが容易適応の高速性(0.5秒)確認音声認識5-10pts 向上確認

0%

10%

Baseline Postfilter HRE

音声雑音+ASIMO雑音

音楽雑音+ASIMO雑音

分離のみ PostFilter HRLE分離のみ PostFilter HRLE

設定データ可視化・作成ツール提供 Harktool インパルス応答(TSPもしくはインパルス時間応答)か インパルス応答(TSPもしくはインパルス時間応答)か

ら,音源定位用伝達関数,音源分離用伝達関数,各種 harkio フォーマットに対応したファイルの作成可能種

Page 20: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

ドキュメントの充実化キ 充実化

Hark document (200ページ超) Hark-document (200ペ ジ超) HARK の設計思想,ファイルフォーマット,データフォーマット 各モジュ ルのリファレンス ツ ルの説明などマット,各モジュールのリファレンス,ツールの説明など

Hark-cookbook 困ったときに見るQ&A集 「~」をしたいんだけどどうすればいいの?という質問に回答

プ を 時 多数提供 サンプルネットワークファイルを同時に多数提供

ここにないときには,h k t@k i k t [email protected]まで気軽に聞いてください。

インストールの簡略化イ 簡略化

を 象 ポジ を Ubuntu 10.04 を対象にレポジトリを公開

apt-get 用のlist を記述後, apt-get update を実apt get 用の st を記述後, apt get update を実行(OSインストール後一回のみ)

その後は 以下のコマンドで依存関係まで含め その後は,以下のコマンドで依存関係まで含めてインストール可能

apt-get install hark-xxxx

詳細はpractice で

Page 21: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

Flowdesignerの操作性向上owdes g e の操作性向 Flowdesigner-0.9.1 に対してオリジナルのパッチを提

供し操作性を向上 (fl d i h i 1 0 3)供し操作性を向上 (flow_designer_hri-1.0.3)

flow_designer_hri-1.0.3 の変更点

複雑なプロパティ設定に対応、主にGSS, Postfilter で利用複雑な ィ設定 対 、 , 利用

bool変数のtrue/falseを選択式に(従来は文字列として指定)

string 変数もリストから選択できる方式を追加 string 変数もリストから選択できる方式を追加

不要なプロパティを見せないようにすることが可能

音声認識HARKの音声認識

Page 22: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

Julius_MFTJ _

彙音声 す プ グ 大語彙音声認識システム Julius に対するプラグイン機能として実装(一部 julius 本体にもパッチ)

メルスケール対数スペクトル(MSLS)特徴量採用 メルスケ ル対数スペクトル(MSLS)特徴量採用

27 次元: 13 MSLS + 13 ∆MSLS + ∆パワー

ミッシングフィーチャ理論採用

現時点ではバイナリマスクのみ提供 ロバスト性向上には一 現時点ではバイナリマスクのみ提供,ロバスト性向上には定の効果

音声認識性能向上のテクニック音声認識性能向 テク ック

音響特徴 善 音響特徴量の改善

MSLS 特徴量の使用

白色雑音付加

分離の歪みを既知の雑音(白色雑音)を付加して影響を緩和

音響モデルの雑音適応(マルチコンディション学習)

分離の歪みも含めて学習 分離の歪みも含めて学習

Page 23: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

音声特徴量の改善音声特徴量 改善

ケプストラム分析

MFCC(メル周波数ケプストラム係数)ケプストラム分析( 再度FFT) 25 次元

12 MFCC12 ∆MFCC

ケプストラム

歪がすべての特徴に広がる

12 ∆MFCC∆E

入力信号のスペクトル

す 特徴 広 る=すべての特徴の信頼度が下がる

全体として性能が劣化

MSLS(メルスケール対数スペクトル特徴量)

信頼度の高低が明確に分かれるMFT・雑音付加との相性がよい

48 次元24 MSLS24 ∆MSLS MFT 雑音付加との相性がよい24 ∆MSLS

新音声特徴量の利用新音声特徴量の利用

MSLS(メルスケール対数スペクトル特徴量) [従来 ] Fbank (48dim):24 MSLS+24 ∆MSLS( )

MFCCでもデルタパワー特徴量は有効 MFCCでもデルタパワ 特徴量は有効

Efbank(49dim):24 MSLS+24 ∆MSLS+∆パワー

Nfbank(27dim):13 MSLS+13 ∆MSLS+∆パワー Nfbank(27dim):13 MSLS+13 ∆MSLS+∆パワ

Page 24: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

特徴量比較結果(HARK)( )

25悪

対話文(510文)での評価

20

)

f119-sma

m119-sma

f119-rec

119

対話文(510文)での評価言語モデル:closed

10

15

WER(%) m119-rec

5

10

0

fbank mfcc Nfbank Efbank

fbank mfcc Nfbank Efbank

Nfbank > MFCC > fbank = Efbank

白色雑音重畳色雑音 畳 白色雑音付加:非線形分離で生じる歪みを緩和

分離結果 分離音声+歪み 分離結果 分離音声+白色雑音(定常)分離結果=分離音声+歪み 分離結果 分離音声+白色雑音(定常)

白色雑音付加白色雑音付加

音声特徴量(MSLS) 音声特徴量(MSLS)

分離音声 白色雑音>歪み

分離で生じる不連続な歪みが音響モデル学習に悪影響(ゼロ割など)

歪みの影響が緩和→ 認識率向上が期待できる悪影響(ゼロ割など) → 認識率向上が期待できる

Page 25: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

音響モデルの雑音適応音響 デ 雑音適 マルチコンディション学習:雑音込み音声データで音響モデルを学習

ノイズ(歪み)を考慮した

MLLR適応:クリーン音響モデルをノイズデータで適応ノイズ入り音声(大量)

を考慮した音響モデル

HMM学習高精度

MLLR適応:クリーン音響モデルをノイズデータで適応

MLLR適応 ノイズ(歪み)を考慮した音響モデル

クリーン音響モデル

音響モデル

高速・簡単

ノイズ入り音声(少量)

追加学習:クリーン音響モデルをノイズデータを用いてHMM学習

ノイズ入り音声(少量)

HMM学習 ノイズ(歪み)を

クリーン音響モデル

HMM学習 ノイズ(歪み)を考慮した音響モデル

中速・中精度音響モデル

ノイズ入り音声(大量)

雑音適応の効果

90

100 音響モデル:混合数16学習 数

607080

%)

学習回数20

学習データ:ATR216語+JNAS

304050

認識

率(%

クリーン

追加学習

ATR216語+JNAS認識データ:ロボット対話用語彙 236語

010

20

認 追加学習

マルチコンディション

-3 0 3 6 9 12

SNR(dB(A))

音響モデルの学習時間•マルチコンディション: 2日/モデル追加学習 9時間/モデル•追加学習: 9時間/モデル

•MLLR: 3時間/モデル

Page 26: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

性能HARKの性能

手法ごとの性能評価(SIG2)( ) スピーカ・ロボット間距離:

2m2m ATR 音素バランス単語

216語 3話者同時発話(m101 3話者同時発話(m101-

f101-m102)

音源分離(GSS, Post-filter)の効果(10~70ポイント)音声認識の音響モデル適応の効果(5~20 ポイント)ミッシングフィーチャ音声認識(5~20ポイント)

Page 27: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

定位手法と認識性能定位手法 認識性能 三話者同時発話認識の定位手法の差による違い

基本的な条件は前スライドと同じ(SIG2) 基本的な条件は前スライドと同じ(SIG2)

定位手法

所与

ビームフォーミング ビ ムフォ ミング

MUSIC

処理時間・負荷について処 時間 負荷

全 話者 声デ 全800秒の一話者発声データ

Delay: 0.4 sec

CPU: Pentium4 2.4GHzCPU: Pentium4 2.4GHz

Page 28: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

まとめま ロボット聴覚用オープンソースソフトウェアHARKの概要を紹介

高性能・ロバストなロボット聴覚システム構築を支援

ボ ト聴覚シ ム構築 ため 通り ジ を提供 ロボット聴覚システム構築のための一通りのモジュールを提供

多くの多チャンネル音響信号入力装置サウンドカードのサポート

GUI環境を用いた容易なソフトウェア構築とカスタマイズ環境を用 た容易なソフトウ ア構築とカ タ イ

高いソフトウェアポータビリティと再利用性の実現 ロボット聴覚分野の活性化

対話 視覚処理 ナビゲーションなど他の研究分野への貢献 対話、視覚処理、ナビゲーションなど他の研究分野への貢献

今後のリリース予定今後 リリ 予定

Windows 対応 (80% 終了)

PortAudio使用(Flowdesigner の安定性に問題)

各種ミドルウェア対応各種 ウ 対

ROS

openRTM openRTM

ネットワークファイル自動生成 GUI ツール提供

Page 29: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

Acknowledgementg

Special Thanks to Dr. Shunichi Yamamoto, Honda R&D

Dr. Jean-Marc Valin, CSIRO

For more information on “Robot Audition”,

http://winnie.kuis.kyoto-u.ac.jp/HARK/

http://winnie.kuis.kyoto-u.ac.jp/SIG/http://winnie.kuis.kyoto u.ac.jp/SIG/

付録付録

Page 30: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

ボ 音声ロボットにおける音声認識の課題とアプロ チの課題とアプローチ

音声認識システム概要音声認識シ テ 概要

主な構成要素主な構成要素1. 特徴量抽出2 音響モデル

3. 単語辞書4 言語モデル

5. 認識エンジン

2. 音響モデル 4. 言語モデル

Page 31: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

音声特徴量音声特徴量 入力音声信号の短区間(=フレーム)ごとに抽出される、音声

の特徴をよく表しているとされる特徴量ベクトル

メル周波数ケプストラム係数(MFCC)がよく用いられる

HARKではメルスケール対数スペクトル(MSLS)を用いる

o: b o sh i

(窓長25ms シフト長 10ms)(窓長25ms, シフト長 10ms)

・・・

MFCC特徴量(25~27次元)

音響モデル:隠れマルコフモデル(HMM)

大量の音声特徴量と正解ラベル情報を用いた統計学習モデル(Baum-Welch) 混合正規分布の利用

モノフォンモデル 音素ごとにHMM /a/, /i/

トライフォンモデル 前後の音素と一緒に学習 /a-r+a/

同じ音素 も 状況 発話者 より異なる特徴量 確率 デ 同じ音素でも、状況、発話者により異なる特徴量→確率モデル

一つの音素が複数のフレームにまたがる→遷移モデル

Page 32: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

音声認識部音声認識部

入力時系列信号(音声特徴量列)に対して出力確率と遷移確率を計算確率を計算

出力確率と遷移確率から、各単語に対する音響尤度を計算

音響 デ 得られる音響尤度と言語モデルから得られる言語尤度を統合し、 も尤度の高い結果を認識結果として出力する。

入力音声

出力確率出力確率出力確率出力確率

音響尤度入力音声

遷移確率遷移確率遷移確率遷移確率

響 度

言語尤度

単語尤度

フレーム毎 言語尤度

言語モデル音響モデル 言語 デ音響 デ

認識劣化の原因:その1認識劣化 原因 そ

++

他の音源からの雑音信号

(環境音、音声)

ロボットの体や部屋

「入力のノイズやエコー」ロボットでは 0dB 程度(信号と雑音の大

体や部屋からの反響音

ボ 自身 ロボットでは、0dB 程度(信号と雑音の大きさが同程度)まで入力信号が悪化

ロボット自身の雑音

(ファン、モータ)

Page 33: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

前処理の導入

+前処理

+・ノイズ除去・音源分離発話区間他の音源から

の雑音信号(環境音、音声)

・発話区間検出

ロボットの体や部屋 スペクトラルサブトラクション(SS)は体や部屋

からの反響音

スペクトラルサブトラクション(SS)はモノラルでも使えるため、よく用いられるが、定常雑音しかサポートできな

ロボット自身の雑音

(ファン、モータ)

るが、定常雑音しかサポ トできない。

マルチチャネルアプローチへマルチチャネルアプロ チ

認識劣化の原因:その2認識劣化 原因 そ前処理と音声認識システムのミスマッチ

+前処理

・ノイズ除去音源分離

ミスマッチ

他の音源からの雑音信号

(環境音、音声)

・音源分離・発話区間

検出

ロボットの体や部屋体や部屋

からの反響音

ロボット自身

分離音はどうしても歪んでしまう

入力音声は歪んでいないに違いないロボット自身

の雑音(ファン、モータ)

歪んでしまう いないに違いない

歪みに強い音声認識(ミッシングフィーチャ理論)歪みに強い音響モデルの構築

Page 34: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

ミッシングフィーチャー理論 (MFT) の導入

音響モデル雑音や分離によって歪んだ特徴

通常の音声認識

て歪んだ特徴

誤差が大き

分離音声の特徴量大きい

音響モデル

ミッシングフィーチャー理論に基づく音声認識

ミッシングフィー

誤差が小さくなる

チャーマスク

小さくなる

分離音声の特徴量分離音声の特徴量

音響モデルの改善音響モデルも歪んだ音声や雑音が混入した音声をサポート

前処理

+前処理

・ノイズ除去・音源分離

他の音源からの雑音信号

(環境音、音声)

音源分離・発話区間

検出

(環境音、音声)

ロボットの体や部屋体や部屋

からの反響音

ロボ ト自身

音響特徴量の改善(MSLSの使用)

分離データに対する白色雑音重畳ロボット自身

の雑音(ファン、モータ)

雑音適応音響モデルの学習

Page 35: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

技術説明HARKの技術説明

音源定位音源定位

ビームフォーミング法ォ ング法

wSawGwX

tsatgtx

ii

ii

)(),()(

)(*),()(

SaGS

aGX

X )(

)(11

XaGS

aGX

)(

)(1

88

)(

Page 36: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

MUSIC法入力信号の固有ベクトル群

入力信号の相関行列を固有値分解し 固有値(大)とノイズからの固

音源部分 ノイズ部分

解し、固有値(大)とノイズからの固有値(小)に分離して考える。

音源に由来した固有値(上図では2個)ノイズに由来した固有値(マイク数‐2)

2|)(|

|)()(|)(

H

H avavaP

方向推定式

ノイズに由来した固有値(マイク数 2) 2|)(| iH eav

)(av 方向推定ベクトル

雑音と仮定する成分のみ

)(ie

方向推定 クトル

入力信号の固有ベクトル

分母は方向ベクトルと雑音成分の固有 分母は方向ベクトルと雑音成分の固有ベクトルとの内積(音源方向では0)

理論上はPは音源方向で無限大となる

技術説明HARKの技術説明

音源分離音源分離

Page 37: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

マイクロホンアレイ分離手法イク ホンア イ分離手法

8ch 程度のマイクロホンアレイを導入した、音源分離を考える分離を考える

定位・分離手法 ピーク性能 ロバスト性 計算量 性能とマイク数

適応ビームフォーミング ○ ○ ○ ◎

幾何的音源分離(GSS)+ポストフィルタ

○ ○ △ ◎ポストフィルタ

独立成分分析(ICA) ◎ △ × △

遅延和ビームフォーミング △ ○ ◎ ×

音源分離:ビームフォーミング

特定方向の以外から到来する音の影響をなるべく小さくして、音源のS/N比を高める手法

一度の処理では、一音源のみ分離 度の処理では、 音源のみ分離

反響を分離可能(他音源の反響は混入する可能性あり)

音源数の動的な変化に対応するには時間がかかる(数秒) 音源数の動的な変化に対応するには時間がかかる(数秒)

目的方向の音の S/N が 大化され、反響の影響もある程度除

かれるので、音声認識システムにとっては処理しやすい(聴感的かれるので、音声認識システムにとっては処理しやすい(聴感的には分離音はそれほどきれいには聞こえない)

方向性のない音源はあまり除けない

Page 38: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

音源分離:GHDSS 異なる音源同士に相関はないはず→音源間の相関を減らす(無相関化)+BF

+=

音源間の相関を減らす(無相関化)+BF

+=

反響まで含めて分離できる(反響の影響は除けない) 反響まで含めて分離できる(反響の影響は除けない)

一度に複数音源の分離が可能

ある程度音源数の動的な変化に追従可能(定位の精度に依存) ある程度音源数の動的な変化に追従可能(定位の精度に依存)

音源間には相関があるので実際にはこれほどうまくいかない(GHDSSでは音源方向情報を制約条件として利用することで このHDSSでは音源方向情報を制約条件として利用することで、この問題をある程度緩和している)

方向性のない雑音はあまり除けない 方向性のない雑音はあまり除けない

音源分離:ポストフィルタ音源分離 ポ ィ タ 分離性能が期待したほどでないことがある。

音源同士は無相関ではない 音源同士は無相関ではない

制約情報として利用している音源方向に誤差がある

方向性のない音源がある(ロボットノイズなど) 方向性のない音源がある(ロボットノイズなど)

パワー大→「音声」、パワー小→「雑音」という確率モデルに基づき 非線形処理による雑音除去ルに基づき、非線形処理による雑音除去

×× =

スペクトルフィルタ 雑音除去後

無指向性雑音 他音源のリーク

スペクトルフィルタ 雑音除去後

S/Nの劇的な向上非線形処理による歪み無指向性雑音 他音源のリ ク 非線形処理による歪み

Page 39: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

音源分離と音声認識部のブロックダイアグラム

Y S T t

θm

GHDSSMulti-channel

Post-filterMFT-based

ASRXn

YmSm Textm

SMFM

Generator

Sm

Based onLeak energyestimation

MmYm

N: the number of microphones (= 8)

M: the number of sound sources

estimation

M: the number of sound sources

の技術説明HARKの技術説明

ミッシングフィーチャマスク生成とミッシングミッシングフィ チャマスク生成とミッシングフィーチャ理論ベースの音声認識

Page 40: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

音源分離と音声認識部のブロックダイアグラム

Y S T t

θm

GHDSSMulti-channel

Post-filterMFT-based

ASRXn

YmSm Textm

SMFM

Generator

Sm

Based onLeak energyestimation

MmYm

N: the number of microphones (= 8)

estimation

N: the number of microphones ( 8)

M: the number of sound sources

ミッシングフィーチャマスク生成 漏れエネルギー

)()(ˆ)()( lkBNlkSlkYlkL ),(),(),(),( lkBNlkSlkYlkL mmm Post-filter output Background noise

(stationary noise)GSS outputInter-channel

Leak energy

「特徴信頼度」を定義

Reliable

( y )Leak energy

YMFM Generator based on

Reliable, if the leak is small

UnreliableMm

Ym

Sm

Leak energy estimation

Leak Lm MFM Unreliable, if the leak is large

energyestimation

BN

MFMgeneration

)( lkLBG-noiseestimation

BN

otherwise0

),(

),(,1

),( GSSTlkY

lkLlkM

m

m

m

otherwise,0

Page 41: ロボット聴覚オ プンソ スロボット聴覚オープンソース ソフト …winnie.kuis.kyoto-u.ac.jp/members/okuno/tmp/HARK10/101125_HAR… · HARKの紹介 HARKとは?

ミッシングフィーチャマスク生成の例

spectrogram MFMcaptured1 (reliable)

0 (unreliable)speech

leftpass

あらゆる現実を・・・leakage masked

center

masked

一週間ばかりニューヨークを・・・leakage masked

right

テレビゲームやパソコンで・・・

MFTベース音声認識

隠れマルコフモデル (HMM)

S1 S2 S3

)|( 1Sxo )|( 2Sxo )|( 3SxoHidden Markov Model (HMM) of phoneme

S1 S2 S3

出力確率計算時にミッシングフィーチャマスクを適用

Hidden Markov Model (HMM) of phoneme

K

k

SkxfSkPSxo1

),|()|()|(Normal ASR:

I

i

J

jmm SikxfkMSiPSxo

1 1

),|)((log)(exp)|()|(MFT-ASR:

S state on the p.d.f. smixture'th the:),|(

state on thet coefficien mixtureth the:)|(

iSixf

SiSiP

features of dimensions the:

mixtureGaussian ofnumber the:

sourceth for :),,,( 11

J

I

mMFMMMM mmm