機械読唇による発話障碍者向けコミュニケーション⽀援アプリケーションの開発神奈川⼯科⼤学 情報学部情報⼯学科宮崎 剛[email protected]
研究⽬的
¡ ⼈と⼈とがコミュニケーションを取るとき,⾔葉や表情,⾝振り⼿振り,描画,⽂字などいろいろなチャンネルを利⽤する.
¡ コミュニケーションにおいて,⾳声の果たす役割や重要度は⾼い¡ 病気や怪我で声帯を傷つけてしまった⼈や,聴覚障碍により明瞭な発声が困難な⼈は,⾳声によるコミュニケーションが取りづらくなる.
¡ 本研究では,発話障碍者のコミュニケーションを⽀援するアプリケーションを開発する.
¡ ⾳声情報を⽤いず,発話している⼝唇の動きの映像から発話内容を推測し,その内容を⽂字で表⽰し,相⼿に伝えられるようにする.
1
発話障碍者
2
A) 聴覚に障碍を持つために明瞭な発話が困難な⼈
B)病気や怪我などで声帯を傷つけたり切除したりしたために発話が困難な⼈
p 聴力低下の要因・・・病気や怪我により⽿の器官や脳が損傷した場合,加齢による機能の低下
p 発話時の⾃⾝の声のフィードバックがないために正しく発声できているかどうかの確認が困難.
p 声帯に問題があるわけではなく,発声⽅法がうまくいっていない.
p 声帯から⾳を発⽣(⾳源)させることが困難になるため声が出ない.p 振動を外部から与える装置(声帯の振動の役割)もある.
表情,⾝振り⼿振り,描画,⽂字など
コミュニケーション
3
健常者同⼠の対話
⾳声チャンネル
視覚チャンネル
触覚チャンネル
p 健常者同⼠が対話をする場合,主に⾳声チャンネルと視覚チャンネルを使⽤する.
p 加えて,触覚チャンネルを使⽤する場合もある.
発話障碍者との対話p 健常者と(聴覚に障碍を持つ)発話障碍者
(A)が対話をする場合の⾳声チャンネルp 健常者⇒発話障碍者:使⽤できないp 発話障碍者⇒健常者:不明瞭な場合有り
健常者
発話障碍者
⾳声チャンネル
視覚チャンネル
⾳声チャンネル
視覚チャンネル
健常者
発話障碍者
p 健常者と発話障碍者(B)が対話をする場合の⾳声チャンネル
p 健常者⇒発話障碍者:使⽤できるp 発話障碍者⇒健常者:使⽤できない
⾳声認識アプリ等が使える
これまでの研究成果
¡ 機械読唇に関する研究を継続してきた.¡ 47都道府県名を対象とした実験では,
36都道府県名の認識に成功(認識率76.6%)¡ 当研究の機械読唇の原理
¡ ⽇本語の全ての⾳は,⺟⾳⼝形と閉唇⼝形(基本⼝形)の組み合わせで発声される(全ての⾳の⼝形表を作成)
¡ 認識対象語句の基本⼝形記号列(⼝形順序コード)を⽣成¡ 「なごや」⇒IA-OIA,「てばさき」⇒IEXAIA-I
¡ 発話映像中から基本⼝形を抽出し,⼝形順序コードを⽣成¡ 発話語句の⼝形順序コードと認識対象語句の⼝形順序コードを⽐較し,最も近い語句を認識結果とする.
4
•カメラと計算機を利⽤し,発話の様⼦をカメラで撮影する.
•発話映像から⼝唇の動きや形状を解析し,発話内容を推定すること.
機械読唇
「あ」⇒ア⼝形「ま」⇒閉唇⼝形+ア⼝形「さ」⇒イ⼝形+ア⼝形
⽇本語の⾳と⼝形(コード)の表
あ か さ た な は ま や ら わ-A -A IA IA IA -A XA IA IA UA
い き し ち に ひ み り-I -I -I -I -I -I XI -I
う く す つ ぬ ふ む ゆ る-U -U -U -U -U -U XU -U -U
え け せ て ね へ め れ-E -E IE IE IE -E XE IE
お こ そ と の ほ も よ ろ を-O -O UO UO UO -O XO UO UO UO
5※他に,濁⾳や半濁⾳,拗⾳のコードもある.※宮崎剛, 中島豊四郎. ⽇本語発話時の特徴的⼝形のコード化と⼝形変化情報表⽰⽅法の提案, 電気学会論⽂誌C, 第129巻, 第12号, pp. 2108-2114, 2009.
2. 本アプリケーション
研究内容・⽅法
¡ 本研究では,スマートフォンやタブレット端末で動作するアプリケーションを開発する.
1. 発話障碍者が⾃⾝の⼝唇周辺を端末前⾯のカメラで撮影し,発話するように⼝を動かす.
2. 本アプリケーションで⼝形を解析し,認識した発話内容を⽂字で表⽰する(これまでの研究をベースに構築).
3. ⽂字を会話の相⼿に⾒せて意思等を伝える.
6
おはようございます
発話障碍者
1 健常者
3基本⼝形画像
認識対象語句
⼝形検出 ⼝形順序コード
発話語句推定
おはようございます
想定している課題
¡ 前提として,本研究で対象とするスマートフォンやタブレット端末はiOS搭載の機器(iPhoneやiPad)とする¡ ハードウェアが統⼀されており,評価がしやすい¡ 将来的にはAndroid端末への対応していく必要はある
¡ 本アプリケーションを構築するにあたり,以下の課題が想定される.1. CPU性能
¡ PCと⽐較すると性能は落ちるため,特に画像処理の簡略化・⾼速化が必要2. カメラ性能
¡ 現在のカメラでは解像度が⾼すぎるため,解像度を下げる処理が必要3. 使用環境(明るさ)
¡ 明るさの変化が画像処理(⼝形検出)に影響を与える.¡ 屋内/屋外,昼/夜,天候などを考慮する必要がある.
7
期待される効果・発展
1. 発話障碍者のコミュニケーションツールの1つ¡ スマートフォンへの⽂字⼊⼒が苦⼿な⼈には有効¡ ⼝を動かして⼊⼒する⾏為は,実際に発話をしている感覚を与えられるのではないか
¡ コミュニケーションにおける満⾜感につながることを期待2. モバイル端末の⽂字⼊⼒への転⽤
¡ ⾳声⼊⼒は周囲に⼈がいる状況では使いづらい.¡ 声を出さずに⼝の動きで⽂字⼊⼒できる.
3. スマートフォン等でのパスワード⼊⼒¡ 時系列の基本⼝形をパスワードとする¡ 「ひらけごま」⇒ -I-A-E-OXA
8