44
情報センサー・ヒューマンインターフェイス デバイス活用技術の開発事業の概要 平成22年1月29日 経済産業省商務情報政策局情報通信機器課 学校法人早稲田大学 第1回情報通信機器関連技術 に関する施策・事業評価検討会 資料5ー3

情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

情報センサー・ヒューマンインターフェイスデバイス活用技術の開発事業の概要

平成22年1月29日

経済産業省商務情報政策局情報通信機器課

学校法人早稲田大学

第1回情報通信機器関連技術に関する施策・事業評価検討会

資料5ー3

Page 2: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

1

目 次

1.プロジェクトの概要

2.目的・政策的位置付け

3.目標

4.成果、目標の達成度

5.事業化、波及効果

6.研究開発マネジメント・体制等

Page 3: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

2

1.事業の概要

概 要

実施期間

予算総額

実 施 者

プロジェクト

リーダー

平成18 年度~平成20 年度 (3年間)

9.6億円(平成18年度:3.2億円 平成19年度:3.2億円 平成20年度:3.2億円)

学校法人早稲田大学

古井貞煕 早稲田大学客員教授,東京工業大学教授

実環境での利用に耐える高精度な音声認識技術の開発に加え,様々な音声インターフェイス開発支援技術を総統的に開発し,良質

の音声インターフェイスを低コストで実現するための基盤を整備する.また,これら整備を通じて,情報家電に,「だれも」が「簡単に」機器を活用できるインターフェイスを実現する.

Page 4: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

3

2.事業の目的・政策的位置付け良質の音声インタフェースを低コストで開発する基盤を整備する。音声は,インフォメーションデバイドを減じる技術として社会的ニーズは高い。経済産業省が作成したユーザビリティ分野の技術マップでも,音声認識技術は今後望まれる「人中心型コンピューティング」を実現する重要技術のひとつとして位置付けられている。

Page 5: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

4

3.目標 (1/5)

要素技術 目標・指標 妥当性・設定理由・根拠等

①音声分離技術 -実装面積9cm2 = 3cm

× 3cm 程度-実環境音声に対しPESQ 値3 以上の音声分離性能を実現する-遅延100ms 以内

情報家電および,情報家電操作用の携帯端末に実装可能な小型音声分離装置を開発するためには,尐数のマイクロホンでコンパクトに実装可能で,遅延が尐なく,演算量も尐ない高品質な音声分離技術の開発が必要とされる.

②音声/非音声判別技術

・実環境データに対し,音声/非音声判別率95%

以上を達成する.

情報家電機器の音声インターフェイスを実現するためには,ユーザの音声発話を正確に捉えると同時に,それ以外の音に対して誤反応しないような,正確な音声/非音声判別の技術開発が必須

である.

実環境で動作する高性能な音声認識技術を実現するとともに,良質の音声インターフェイスを構築する基盤技術を整備する.これらを通じて,情報家電を「だれでも」が「簡単に」活用できるインターフェイスを実現する.

Page 6: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

5

3.目標 (2/5)

要素技術 目標・指標 妥当性・設定理由・根拠等

③高精度デコーダ技術

・WFSTに基づいてフレ

キシブルな運用が可能でかつ高精度なデコーダの開発を行う.

近年,WFSTを音声認識に適用する

方式が検討され始めている.合成されたWFST に数学的に体系づけられた

最適演算を適用することで,極めて大規模な語彙を対象とした連続音声認識を効率的に実現できる.また,各種モデルの変更にも柔軟に対応できる。

④多言語化技術 ・同等の認識性能を維持したまま学習用音声コーパスを半減する.タイ語・中国語に対して提案法を適用し,その汎用性を実証する.

音声認識技術の応用製品のグローバルな展開のためには,多言語に対応する音声認識技術の確立が必須である.また,音声認識性能を決定するのは音声コーパスの規模であるが,大量の音声データを収録することに膨大な開発リソースが費やされており,多言語製品開発のボトルネックとなっている.

Page 7: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

6

3.目標 (3/5)

要素技術 目標・指標 妥当性・設定理由・根拠等

⑤高次言語モデル利用技術

コーパス収集コストを従来の人手による場合と比較して1/10 としても従

来と同等レベルの性能が得られる言語モデル構築手法を確立する.

音声認識に必要な言語モデルを作成する場合,録音された対話を人手で書き起こして学習コーパスを作ることが必要となるが,様々なタスクにおいて大量の学習コーパスを用意することはコスト的に困難である.

⑥A音声インター

フェイス開発支援技術(性能予測技術)

性能分布曲線を±5%

の許容誤差範囲内で予測する.

実環境での認識性能分布の見積もりが音声認識ベンダーに対して求められている.しかし,未だ,世界的に見ても業界で誰も自動車内,屋内,屋外などの多様な実環境における認識性能分布を客観的に評価する技術を確立できておらず,認識性能分布情報を市場に提供できていない.

Page 8: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

7

3.目標 (4/5)

要素技術 目標・指標 妥当性・設定理由・根拠等

⑥B音声インター

フェイス開発支援技術(ランタイムモニタリングとサーバ連携技術)

効率的なモニタリングとサーバ上での蓄積,更新情報の配信,アダプタ開発支援,に関する枠組み,機能を実装する.

開発者の想定と,利用者の実際の乖離解消のため,利用者の振舞を開発者にあげ,システムの改良結果を利用者に戻す仕組みが必要となる.

また,より高性能な音声インターフェイスを実現するためには,インターネットを有効利用し,性能向上に資する情報を半自動で収集・加工し利用する方式の確立が必要である.

⑥C音声インター

フェイス開発支援技術 (音声インターフェイス構築技術)

機能表現とインターフェイスリソースの表現から音声インターフェイスを自動構築する方法を確立する.

従来の処理手続きを記述する方法に比べ,記述量を1/10 以下にする..

使い勝手の良いインターフェイスの設計に対する知見の集約・共有が重要であり,同時にこれらの知見に基づいた,ユーザビリティの高いインターフェイスの構築方法,あるいは,知見を設計上の制約として取り込む方法の開発が必要である.

Page 9: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

8

3.目標 (5/5)

要素技術 目標・指標 妥当性・設定理由・根拠等

⑥D音声インター

フェイス開発支援技術(音声インターフェイスの評価技術)

認知的側面を考慮した音声インターフェイス評価マニュアルを策定し,公開する.

これまで,研究や製品ごとに音声インターフェイス機能が検討・実現されてきたが,特に利用時の認知的側面を考慮した評価方法が確立してないため,さまざまな機能やそれぞれの実装方法を公平に比較評価することが困難であった.

⑦総合実証評価A車載情報機器システムB情報家電実証システム

95%以上の利用者で,95%以上のタスク達成率を実現する.

実用に耐えるシステムの構築を目指し,チャレンジングなテーマ設定をおこなった.

実用的なシステムとして許容できる性能をタスク達成率で95%と見込んだ.それを95%の利用者で実現できれば,

十分に価値の高いインタフェースと認められる.

Page 10: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

9

4.成果、目標の達成度

要素技術 目標・指標 成 果 達成度

実環境で動作する高性能な音声認識技術を実現するとともに,良質の音声インターフェイスを構築する基盤技術を整備した.これらを通して,車載情報システム,情報家電実証システムを作成し,95%以上の利用者で,95%以上のタスク達成という初期の目標を達成した.

各要素技術とも,前頁までに記載した目標を計画通りすべて達成した

Page 11: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

5.事業化、波及効果 (1/4)

① 音声分離技術(事業主体:沖電気工業)

開発した音声分離技術を携帯電話に搭載予定。すでに商品化している音声信号処理ライブラリ「eおとエンジン」に機能追加計画中。2010年の商品化を目指す。

顧客と遠隔のオペレータをつなぐネットワークにおける,本人確認や各種取引・情報提供・相談などを行うリモートブランチターミナルの音声入力部にも適用を検討中.

② 音声/非音声判別技術(事業主体:日立製作所)

コールセンターの通話音声解析などの事業において,プロジェクト成果の活用を予定.

事業化に向けて,家庭環境に限定されない様々な環境に対応するための方式の修正や,製品で用いるプロセッサの処理能力に対応した計算量削減などの課題に対応中。マイコン向け音声認識技術の軽量化のノウハウの適用により,解決できる見込み。

10

Page 12: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

5.事業化、波及効果 (2/4)

④ 多言語化技術(事業主体:東芝)

成果を組み込んだ音声認識ミドルウェア,およびそれを搭載するハードウェアモジュールを市場に投入し,顧客の音声ソリューションを実現する.特に,多言語展開により顧客の世界市場展開をサポートする。本プロジェクト成果を生かした多言語音声ミドルウェアを2011年までに上市予定。

⑤ 高次言語モデル利用技術(事業主体:日本電気)

音声認識を用いた会議議事録作成支援事業において,研究成果を活用する見込み。2010年度中に言語モデル構築サービス業務で使用するツールへの組込みを検討し,2011年度の事業化を目指す。

事業化に向けては,音声認識対象タスクに応じた開発方式のチューニングや,現在の作成手順と整合性をとるといった課題があるが,これまでに蓄積したデータを元に評価・開発を行うことで解決できる見込み。

11

Page 13: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

5.事業化、波及効果 (3/4)

⑥A 性能予測技術(事業主体:旭化成)

本成果により,カーナビベンダー側は工数とコストを増加することなく,企画したカーナビ商品の想定実使用環境における音声認識性能の見積もりを行うことが可能になった。本技術を,2011年を目処に,本技術を音声ソリューションライセンス事業の現場に適用する。

⑥C 音声インターフェイス構築技術(事業主体:三菱電機)

対象アプリケーションの機能構造の記述からの音声インターフェイス自動構築S/Wを組み込んだ製品を2011年度以降事業化する。

対象アプリケーションの機能構造の記述方式の標準化,あるいは,規格公開による記述方法を活用する製品を2012年度以降事業化する。

成果(フレキシブルショートカットの設計方法)に基づく音声インターフェイスを持つ製品を2011年度以降事業化する。

12

Page 14: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

5.事業化、波及効果 (4/4)

③ 高精度デコーダ技術

開発した高精度デコーダに関しては,社会還元加速プロジェクト「言語の壁を乗り越える音声コミュニケーション技術の実現」の一環として,NICTにおけるMASTARプロジェクトに引き継がれ開発が行われている。音声対話・翻訳装置の音声言語処理能力の向上に活用するため,「音声言語処理のための音声認識デコーダ技術の研究開発」の先導研究型委託研究が東京工業大学に委託されている.

⑥B ランタイムモニタリングとサーバ連携技術

開発したランタイムモニタリングとサーバ連携技術に関しては,社会還元加速プロジェクト「言語の壁を乗り越える音声コミュニケーション技術の実現」の一環として,NICTで行われているMASTARプロジェクトに引き継がれ開発が行われている。分散環境における新たな音声認識アーキテクチャの開発を目指して,「分散型音声認識アプリケーション開発プラットフォームのための基盤技術の研究開発」の先導研究型委託研究が早稲田大学に委託されている.

13

Page 15: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

6.研究開発マネジメント・体制等14

【委託先】 【再委託先】

早稲田大学

PL:古井貞煕SPL:小林哲則

沖電気工業

日立製作所

日本電気

東 芝

旭化成

三菱電機

東京工業大学

総合研究開発推進委員会

委託先・再委託先代表者+豊橋技科大 中川聖一教授他5名

東北工業大学

⑥A,⑦A

⑥C,⑦B

⑥C評価の一部

①-⑦統括①,⑥

総合研究開発推進委員会の実施

Page 16: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

資金配分

年度 平成 18 19 20 合計早稲田大学統括及び①,⑥,⑧

68,550,043 58,779,100 50,478,850 177,807,993

東京工業大学③

29,918,700 38,449,950 36,952,650 105,321,300

沖電気工業株式会社①

32,845,050 32,140,500 37,042,950 102,028,500

株式会社日立製作所②

29,434,650 32,917,500 29,108,100 91,460,250

株式会社東芝④

31,186,050 37,919,700 27,641,250 96,747,000

日本電気株式会社⑤

33,598,950 35,343,000 36,498,000 105,439,950

旭化成株式会社⑥,⑦

62,093,850 50,887,200 62,777,400 175,758,450

三菱電機株式会社⑥,⑦

32,355,750 34,378,050 39,819,150 106,552,950

東北工業大学⑥

0 0 496,650 496,650

合計 319,983,043 320,815,000 320,815,000 961,613,043

15

Page 17: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

付録

16

Page 18: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

概 要

実施期間

予算総額

実 施 者

プロジェクト

リーダー

平成18年度~平成20年度 (3年間)

9.6億円(平成18年度:3.2億円 平成19年度:3.2億円 平成20年度:3.2億円)

学校法人早稲田大学

古井貞煕 早稲田大学客員教授,東京工業大学教授

実環境での利用に耐える高精度な音声認識技術の開発に加え,様々な音声インターフェイス開発支援技術を総合的に開発し,良質

の音声インターフェイスを低コストで実現するための基盤を整備する.また,これら整備を通じて,情報家電に,「だれも」が「簡単に」機器を

活用できるインターフェイスを実現する.

事業の概要17

Page 19: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

事業の目的・政策的位置付け

良質の音声インタフェースを低コストで開発する基盤を整備する。

音声は,インフォメーションデバイドを減じる技術として社会的ニーズは高い。経済産業省が作成したユーザビリティ分野の技術マップでも,音声認識技術は今後望まれる「人中心型コンピューティング」を実現する重要技術のひと

つとして位置付けられている。

18

Page 20: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

研究開発の背景

情報家電+車載機器大規模なコンテンツ:高速ネットワーク、大容量蓄積技術の進歩

高度で複雑な機能:多様なサービス、ソフトウェア

その普及には、誰でもが使える利便性の高いインタフェース・情報アクセス技術が必須

音声認識技術とインタフェース構築法(開発フレームワーク)の抜本的改善が必要

初心者、高齢者をはじめ「だれでも」が「簡単」に機器を操作

音声認識への高い期待

音声認識基盤技術(フレキシブル音声認識システム)

19

Page 21: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

情報家電(ホームサーバ)への応用

成果イメージ

家庭

電子レンジ

冷蔵庫

エアコン

給湯器

ランドリー

ゲーム機

HDD・次世代Diskレコーダ(仮想メディアサーバ)

PC,STB

(仮想ホームサーバ)

デジタルテレビ(仮想ホームサーバ)

HGW

コンテンツ コンテンツ

ECHONET など

音声操作リモコン(多言語)

(電話利用による外部からの制御)

情報家電の統合音声I/F

(機器機能記述からの自動構築)

家庭内の情報家電を一括制御

インターネット電話網、VoIP

利用時ログデータ

20

Page 22: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

車載情報機器への応用

成果イメージ

現世代エンジン

フレキシブル音声認識技術性能予測技術

(1)ハンズフリー通話機器・ コマンド制御(10個程度)・ 電話番号入力(連続)

(2)カーナビゲーション機器(2-1)初心者向けエントリー仕様

・ コマンド制御(30個程度)・ 電話番号入力(連続)

(2-2)熟達者向けアドバンス仕様・ コマンド制御(50個程度)・ 電話番号入力(連続)

・ 住所入力(20万ヶ所程度)・ POI入力(10万ヶ所程度)・ 楽曲名入力(10万曲程度)

現世代インタフェース

次世代エンジン

次世代車載インタフェース

再構築標準化

音声認識ができることをすべて実装

尐数の利用者にとどまる多くのユーザは使えない

ユーザビリティ視点性能予測視点

新機能:(1)車載環境毎の性能(分布)予測機能付加(2)先進的アプリケーションの完成・呈示

(3)スポッティング/リジェクション性能大幅強化

次々世代エンジン

車載以外への適用

21

Page 23: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

音声認識の実用化を妨げている問題点の整理

実環境における性能の低さ雑音環境における認識性能

雑音環境における音声/非音声分離性能

多様な声質への対応、など

想定と実際とのギャップアプリ開発者の想定とユーザの実際の乖離

語彙の乖離/利用法の乖離/話し方の乖離

エンジン開発者の想定と アプリ開発者の実際の乖離

性能の理解に関する乖離

→ 期待する性能が出ない

手離れしない商品移植(アプリ,言語)の度に1から開発のやり直し

開発用DBの整備/インタフェースの作りこみ/評価

→ コスト高

22

Page 24: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

プロジェクトの概要

フレキシブル音声認識エンジン

音声分離音声/非音声判別

雑音モデル

音響モデル

言語モデル

高次言語モデル

高精度フレキシブルデコーダ

音声

音声認識結果

インターフェイス

ランタイムモニタ(プロキシ・エージェント)

アプリケーション

利用者

エンジン開発者

①音声分離技術

②音声/非音声判別技術

③高精度デコーダ技術

④多言語化技術 ⑤高次言語モデル利用技術

⑥音声インターフェイス構築技術

⑦総合実証評価

新たな開発フレームワーク

連携

連携

フィードバックデータ

インターフェイス構築

性能予測

ユーザ端末

インターネット

アプリケーション開発者

23

Page 25: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

達成目標

《達成目標》 〈既存〉 〈目標〉

①音声分離技術・小型音声分離装置の形状(注1)

・時間遅延・音声品質

20 cm × 3 cm

1 s

MOS値2

3 cm × 3 cm

100 ms

MOS値3

②音声/非音声判別技術・音声判別率(注2) 80% 95%

③高精度デコーダ技術・音声認識率(注2) 80~90% 90~95%

④多言語化技術 なし 日本語(方言を含む)、英語をはじめ、中国語、タイ語、韓国語等のアジア言語にも対応した音声認識方式の確立

⑤高次言語モデル利用技術 なし 言語知識の自動獲得技術の確立

⑥音声インターフェース構築支援技術

なし 音声インターフェース構築支援基盤技術の構築

(注1) 既存においては、マイクロホンアレイ方式で8個のマイクロホンを直線状に構成したもの。(注2) 実際の生活環境下におけるもの。

24

Page 26: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

音声分離技術の開発

音声分離技術の方式改良

統合化方式の提案:指向性雑音除去+拡散性雑音除去

指向性雑音・方向性、調波構造を持った雑音

周囲の人の声、テレビからの人の声、音楽拡散性雑音

・方向性、調波構造を持たない雑音雑音、環境騒音と呼ばれる音

xi(t) Xi(ω)

空間

フィルタ

Wiener Filter

FFT

FFT

FFT

フィルタ係数算出

IFFT

OLA

音声区間検出情報

|・|

Coherence Filter

FFT

フィルタ係数算出

Hs(ω)

min SS

Hm(ω)

指向性雑音除去

拡散性雑音除去

共通部分

N(ω)

M(ω) S(ω)

S(ω) = min[M2(ω)-αN2(ω),0.1 M2(ω)]

指向性雑音SN15dB 拡散性雑音SN15dB環境において、PESQ3.0を実現した。

目的音の到来方向ずれ15度に対し、音質劣化を抑え

た。

処理遅延80ミリ秒を実現

音声分離を小型ハードウェアに実装

処理遅延80ミリ秒を実現

実機評価実験を実施

雑音データを収集

3.5×3.5cmの音声分離

マイク試作

収集騒音

展示会騒音,道路騒音(芝浦,八王子),車走行中発声データetc.実機インパルス応答測定

スピーカ特性影響調査

ハードウェア実装と雑音データ収集

25

Page 27: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

音声/非音声判別技術の開発(1)

成果1. 生活環境下音響データベース“HITHOME07/08”の開発

"Volume up."

MTR PC

Infra-red

MTRPC

"Volume up."

PB

HITHOME08: 天井マイク

HITHOME07: リモコンマイク実生活環境での情報家電の音声操作

を想定し、音声コマンドデータ及び

非コマンド音声データを収集した。

DB規模: 278時間 (HITHOME07)

375時間 (HITHOME08)

26

Page 28: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

音声/非音声判別技術の開発(2)

成果2. 音声/非音声判別方式の開発

成果3. T3 decoder向け音声/非音声判別モジュールの開発

非音声(24時間常に検知される)

音声(わずか)大量の非コマンド音声を正しく棄却し、

なおかつまれに見つかる音声コマンド

を正しく受理する方式を開発した。

(HITHOME07での平均判別率95.2%)

開発した音声/非音声判別方式のうち、比較的処理量の少ないものを抽出し、

T3 decoder 向けのモジュールとしてリリースした。

×音声/非音声判別

音声認識

27

Page 29: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

フレキシブル音声認識エンジンの開発

種々の音声利用分野に適用

携帯電話操作、

パーソナルナビ

携帯ゲーム機

情報検索

車載情報機器

音声操作ハンズフリー操作

コンテンツ検索

ホームサーバ

音声操作

公共情報端末

専門家システム

マルチメディアコンテンツ検索

情報ポータルコンテンツプロバイダ

音声情報活用

コールセンタ自動化

ロボット

成果基本ソフトウェア

情報家電

適用分野・リソース

機能性能

28

Page 30: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

WFST による高精度フレキシブルデコーダ

29

重み付き有限状態トランスデューサ(WFST)による高性能で高速な音声認識を実現

逐次デコーディング

高速on-the-fly合成法の開発

GPUを用いた並列音響尤度計算による高速化

単語列音声

H C L G音声 文脈依存

音素文脈非依存音素

単語 単語列N-gram

合成演算

H: HMMC: トライフォンL: 発音辞書G: N-gram

H∘C∘L∘G

“T3 (Tokyo Tech Transducer-based) Decoder”

29

Page 31: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

高速 on-the-fly 合成法の開発

認識性能の劣化を抑えて,言語モデル・発音辞書の動的な変更を実現

メモリサイズを削減

G単語列

H∘C∘L音声

認識時に合成

単語列H∘C∘L∘G

音声

GPUによる高速化+GPU-CPU間でのデータ通信量の削減による高速化

CPUを用いる場合と比較して、3~16倍の速度向上

GPUを用いた並列音響尤度計算による高速化

30

Page 32: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

多言語化技術

高精度フレキシブルデコーダ(WFSTデコーダ)

トーン特徴抽出言語モデル

特徴抽出(MFCC)

音響モデル

言語間適応種

モデル

目的言語コーパス

種言語コーパス

アプリケーション

音声入力 認識結果

「多言語化技術」の担当範囲

31

Page 33: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

多言語化技術:言語間適応

背景と目的

認識性能(音響モデルの精度)は音声コーパス量に依存するが、多言語の多量のコーパス収集には費用・時間が必要

多言語展開時の音声コーパス収集コスト削減、開発リードタイムの短縮

成果

従来の半分の量の学習用音声コーパスで同等の認識性能を達成(タイ語、中国語で確認)

80

90

100

10 100 1000 10000

音声コーパス量(発話時間[分])

認識率

BASE

TARGET

ベースライン性能

目標性能

32

Page 34: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

多言語化技術:声調認識

背景と目的

声調言語では,人名や地名に『同音・異声調』の語彙が頻出。これらの語彙の判別には声調認識が必要

声調認識のための耐雑音性の高いトーン特徴量の開発

成果自動車走行雑音環境 SNR=5dB(高速道路走行)において,ベースライン方式と比較して声調認識の誤り改善率20%以上を達成(タイ語、中国語で確認)

SNR

40

50

60

70

80

90

00dB 05dB 10dB 15dB 20dB 25dB

ベースライン特徴量

提案特徴量

SNR=5dBでの改善率28.7%

高SNRでの性能劣化なし

声調認識率

33

Page 35: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

高次言語モデル利用技術の開発

削減

ターゲットドメインコーパス

NEC高次言語モデル利用技術

T3フレキシブルデコーダ

語彙共有サーバ

実証システムへの語彙提供

①高次言語知識の導入による認識精度向上・CRFを用いて発話中に含まれるキーワードの種類と位置を推定、その結果を用いてリスコア・フレキシブルデコーダの後処理として結合

②言語モデル構築法の開発・語彙共有サーバからキーワードを獲得し、

言語モデルへ追加することで必要なコーパス量削減・統計モデルに基づく略語候補自動生成方式

による語彙拡張

成果

①デコーダの後処理として結合可能な高次言語処理技術を開発、認識精度向上を確認

②キーワード追加によりコーパス1/10としても削減前と同等性

能とできることを確認

34

Page 36: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

提案するアプリ開発の形:サーバ連携

プロキシ・エージェント

語彙情報共有サーバ

性能予測サーバ

アプリケーション

エンジン

WikiPedia

エンジン開発者

利用ログ蓄積サーバ

はてな

じゃらん

略語読み付与

NEC

旭化成・早大 早大

早大

ログ解析語彙外発話検出等

東北工大・早大

アプリ開発者

ユーザ

Internet

T3(東工大),Julius,Sphinx,Bolero

音声IF

構築ツール三菱電機・早大

35

Page 37: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

開発されたサーバ:語彙・言語資源サーバ

共有オンラインデータベースの構築あらゆる分野の語彙情報を一元管理

アプリケーション非依存な語彙情報管理

⇒効率的な語彙設計,継続的な語彙メインテナンス

収集共有 管理

語彙定義プロセスの一元化

語彙に関する知見の集約

36

Page 38: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

開発されたサーバ:性能予測サーバ

デコーダ・データ・条件(利用環境,語彙セット等)を与えると,性能分布を与えるサーバ

標準評価デコーダと標準評価データを装備評価デコーダ,評価データ,評価条件のアップ機能

アップしたデータを標準デコーダで評価して性能分布アップしたデコーダを標準データで評価して性能分布アップしたデータをアップしたデコーダで評価して性能分布を出力 ・・・など

⇒想定するアプリケーションに対し,適切なデコーダ,パラメタセット,語彙セットを設計する道具

37

Page 39: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

IF設計の道具:FlexibleShortcuts+Select&Voice

サーチによるコマンド発行

機能の探索と表現の探索の完全一致

ユーザ主導 GUIパラダイムの援用

状態のフィードバック

38

Page 40: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

成果の概要

特許特許申請:14件

論文/学会発表P.R.Dixon, T.Oonishi, S.Furui, “Harnessing graphics

processors for the fast computation of acoustic likelihoods in

speech recognition,” Computer Speech and Language,

23(4) pp.510-526 (Oct. 2009)

他76件

メディアでの報道日経エレクトロニクス 2009年5月4日号 NEレポート「処理遅延の小さい音源分離モジュール,OKIと早大が共同開発」

他5件

39

Page 41: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

事業化、波及効果

各企業による成果の活用開発した技術を携帯電話に搭載予定

既存商品に機能追加

新たな製品の開発・事業化予定

標準化計画

性能予測技術を事業現場に適用、など

大学の成果の活用

高精度デコーダ技術と、ランタイムモニタリング及びサーバ連携技術は、NICTのMASTERプロジェクトに引き継がれて開発継続

NICTから東京工業大学と早稲田大学に研究委託

40

Page 42: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

体制

【委託先】 【再委託先】

早稲田大学

PL:古井貞煕SPL:小林哲則

沖電気工業

日立製作所

日本電気

東 芝

旭化成

三菱電機

東京工業大学

総合研究開発推進委員会

委託先・再委託先代表者+

豊橋技科大 中川聖一教授他5名

東北工業大学

⑥A,⑦A

⑥C,⑦B

⑥C評価の一部

①-⑦統括①,⑥

総合研究開発推進委員会の実施

41

Page 43: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

資金配分

年度 平成 18 19 20 合計早稲田大学統括及び①,⑥,⑧

68,550,043 58,779,100 50,478,850 177,807,993

東京工業大学③

29,918,700 38,449,950 36,952,650 105,321,300

沖電気工業株式会社①

32,845,050 32,140,500 37,042,950 102,028,500

株式会社日立製作所②

29,434,650 32,917,500 29,108,100 91,460,250

株式会社東芝④

31,186,050 37,919,700 27,641,250 96,747,000

日本電気株式会社⑤

33,598,950 35,343,000 36,498,000 105,439,950

旭化成株式会社⑥,⑦

62,093,850 50,887,200 62,777,400 175,758,450

三菱電機株式会社⑥,⑦

32,355,750 34,378,050 39,819,150 106,552,950

東北工業大学⑥

0 0 496,650 496,650

合計 319,983,043 320,815,000 320,815,000 961,613,043

42

Page 44: 情報センサー・ヒューマンインターフェイス デバイス活用技術の … · ⑤高次言語モデル利用技術(事業主体:日本電気) 音声認識を用いた会議議事録作成支援事業において,研究成果を

まとめ:下記の各項目で目標を達成

フレキシブル音声認識エンジン

音声分離音声/非音声判別

雑音モデル

音響モデル

言語モデル

高次言語モデル

高精度フレキシブルデコーダ

音声

音声認識結果

インターフェイス

ランタイムモニタ(プロキシ・エージェント)

アプリケーション

利用者

エンジン開発者

①音声分離技術

②音声/非音声判別技術

③高精度デコーダ技術

④多言語化技術 ⑤高次言語モデル利用技術

⑥音声インターフェイス構築技術

⑦総合実証評価

新たな開発フレームワーク

連携

連携

フィードバックデータ

インターフェイス構築

性能予測

ユーザ端末

インターネット

アプリケーション開発者

43