18
ブブブブブブブブブブブブブブブブブブブブ ブブブブブブブブブブブ ブブブブブブブ ブブブブブブブ ブブブ ブブブブブ ブブブブ ,,

ブースティングとキーワードフィルタリング によるシステム要求検出

Embed Size (px)

DESCRIPTION

ブースティングとキーワードフィルタリング によるシステム要求検出. 神戸大学大学院 自然科学研究科 佐古淳,滝口哲也,有木康雄. 背景・目的. 音声による機器の操作 ロボット・カーナビなど 雑談に反応してシステムが誤動作 スイッチを用いた音声入力制御 使いにくい・音声を使うメリットが減少. スイッチレスで 自動的にシステム要求と雑談を判別. 目的. システム要求と雑談の判別. 「どうやって  動かすの?」. 「こっちに、  えーと、来て」. 「こっちに来て」 って言うと動くよ. ……. ……. 了解. 従来手法. キーワード・スポッティング. - PowerPoint PPT Presentation

Citation preview

Page 1: ブースティングとキーワードフィルタリング によるシステム要求検出

ブースティングとキーワードフィルタリングによるシステム要求検出

神戸大学大学院 自然科学研究科佐古淳,滝口哲也,有木康雄

Page 2: ブースティングとキーワードフィルタリング によるシステム要求検出

背景・目的

音声による機器の操作– ロボット・カーナビなど

雑談に反応してシステムが誤動作– スイッチを用いた音声入力制御– 使いにくい・音声を使うメリットが減少

スイッチレスで自動的にシステム要求と雑談を判別

Page 3: ブースティングとキーワードフィルタリング によるシステム要求検出

目的

システム要求と雑談の判別

「どうやって 動かすの?」

「こっちに来て」って言うと動くよ

…………

「こっちに、 えーと、来て」

了解

Page 4: ブースティングとキーワードフィルタリング によるシステム要求検出

従来手法

キーワード・スポッティング

ガベージ・モデル

ネットワーク文法

問題点– 柔軟な表現の受理が困難– ネットワークの構築コスト– ガベージ・モデルの構築方法

単語ベース 自動的に学習

Page 5: ブースティングとキーワードフィルタリング によるシステム要求検出

単語ベースでの要求検出

単語ベースで受理(検出)– 「えー こっちに 来て ちょうだい」– 「こっちに えーと 来て」

問題点– 「こっちに 来て って言うと」– わき出しに弱い

Page 6: ブースティングとキーワードフィルタリング によるシステム要求検出

提案手法

単語ベースで受理+拒否– えー こっちに 来て ちょうだい– こっちに えーと 来て– こっちに 来て って言うと

システム要求

雑談

単語による要求・雑談への重み付き投票で判別単語による要求・雑談への重み付き投票で判別

ブースティングにより学習ブースティングにより学習

– どの単語を用いるか - 投票の重みは?

投票

Page 7: ブースティングとキーワードフィルタリング によるシステム要求検出

ブースティング

ブースティングによるテキスト分類– Decision Stumps [Schapire,98]

単語ベースの単純・高速な手法

システム要求

雑談

単語Aがある

単語Aがない

true

false

注目する単語と投票重みをコーパスから学習

Page 8: ブースティングとキーワードフィルタリング によるシステム要求検出

コーパス 収録環境

– 2人とロボットが存在– 人同士で会話しながら任意にシステム要求– マイクは発話者2人の胸元に設置– コマンドは8種– 異なり単語数:約 700 語

規模– 1時間程度(実質発話時間は 20 分程度)– 切り出し後にラベル付与– 330 発話(うち 49 発話がシステム要求)

Page 9: ブースティングとキーワードフィルタリング によるシステム要求検出

コーパス

具体例ラベル 発話内容-1 こっち 、 こっち で よかっ た っけ-1 こっち に 来 て 、 とか 言う と+1 こっち に 来 て ください-1 ふふふ 来 た+1 こっち おいでー-1 あと 写真 を 撮っ て が ある なあ+1 写真 を 撮っ て

+1 :システム要求-1 :雑談

Page 10: ブースティングとキーワードフィルタリング によるシステム要求検出

実験

音声認識結果に対する要求検出音声認識結果に対する要求検出

Page 11: ブースティングとキーワードフィルタリング によるシステム要求検出

音声認識結果の判別

音響分析条件・ HMM  サンプリング周波数

特徴パラメータフレーム長フレーム周期窓タイプ

16KHzMFCC(25 次元 )20ms10msハミング窓

  タイプ混合数

244 音節32 混合

  母音 (V)子音+母音 (CV)

5 状態 3 ループ7 状態 5 ループ

音響分析条

HMM

Page 12: ブースティングとキーワードフィルタリング によるシステム要求検出

音声認識結果の判別

実験条件– 音響モデル : CSJ ベースに MLLR+MAP 適応– 言語モデル : 書き起こしから学習

未知語なし(語彙数 700 語) 話者 A の認識に、話者 B のモデルを利用

– 認識結果 単語正解精度: 42.1% キーワード F 値: 0.76

Page 13: ブースティングとキーワードフィルタリング によるシステム要求検出

音声認識結果の判別

AdaBoost により選択された素性語例素性語例(キーワード)

システム要  求

ください 写真 来て 向こう おいで 場所 止まっ 

雑  談 で たら ん って が ない とか の あー よ ちょっと

素性語数:約 40語 / 700語

Page 14: ブースティングとキーワードフィルタリング によるシステム要求検出

音声認識結果の判別

実験結果– Leave-one-out 法により実験– 結果は F 値が最大のケース

適合率 再現率 F 値unigra

m0.92 0.92 0.92

bi-gram 0.94 0.92 0.93

高精度に判別可能

Page 15: ブースティングとキーワードフィルタリング によるシステム要求検出

従来手法

キーワード・スポッティング

ガベージ・モデル

ネットワーク文法

問題点– 柔軟な表現の受理が困難– ネットワーク文法の構築コスト– ガベージ・モデルの構築方法

問題点– 柔軟な表現の受理が困難– ネットワーク文法の構築コスト– ガベージ・モデルの構築方法

Page 16: ブースティングとキーワードフィルタリング によるシステム要求検出

キーワード・フィルタリング

ブースティングによる学習の結果……

システム要求素性 雑談素性

語彙全体

– 未知語発話時…… ガベージ単語と認識  :判別に影響無し 雑談素性と認識    :問題低 システム要求素性と認識:問題あり

約 20 語 約 20 語ガベージ・モデル

約 660 語

Page 17: ブースティングとキーワードフィルタリング によるシステム要求検出

未知語を含む要求検出

– 辞書から単語を削除(キーワード以外)要求検出F値

00.10.20.30.40.50.60.70.80.9

1

10% 20% 30% 40% 50%

F値

辞書未知語率

未知語がある場合でも頑健に動作

Page 18: ブースティングとキーワードフィルタリング によるシステム要求検出

まとめ

システム要求と雑談の判別 音声認識結果(言語情報)を利用

– 単語認識精度: 42.1% において– 適合率: 0.94 再現率: 0.92 F 値: 0.93– 未知語に対しても頑健に動作

今後の課題– タスクの規模・難易度の向上– 言語のみで判別不能なケースへの対応