Upload
takashi-ito
View
191
Download
0
Embed Size (px)
Citation preview
サイレントシーズンBCI
-HMMの性能評価-
◯伊東 崇† 山口 ひろみ† 山口 彩夏‡ 山﨑 敏正†
福住 伸一* 山ノ井 高洋**
†九州工業大学
‡日立システムズ
*NEC **北海学園大学
BCI(BRAIN-COMPUTER INTERFACE)
脳神経細胞の活動を入力信号とし、それらを制御信号へと変換するシステム。
タスクとして動作イメージを用いるものが大半を占める。
→ タスクが難しく、膨大な訓練時間を要する。
サイレントスピーチ(SS)を用いた研究が進められている。
BCI
思考
動作 障害を持つ人とのコミュニケーション等に応用可能
脳波から予測
手足を使用しない制御
過去のSSBCI研究
・日本語の母音
→周波数領域が決まっている
・グー、パー、チョキ
→/u/, /a/, /o/i/
・サイレントスピーチ (SS)時脳波
→音声信号を推定
・周波数領域にプロット
→推移、母音領域に入る数で
認識を可能に
子音を含めた認識は不可能
Silent speech
/gu/
Silent speech
/pa/
Silent speech
/tʃɔki/
予測器
”gu”
予測器
”pa”
予測器
” tʃɔki”
目 的
子音を含めた認識は不可能
/haru/, /natsu/, /aki/, /huju/
子音を含めた認識を可能に
Silent speech
/gu/
Silent speech
/pa/
Silent speech
/tʃɔki/
予測器
”gu”
予測器
”pa”
予測器
” tʃɔki”
環境と電極位置
拡張10-20法の電極名称と記号
http://cplnet.jp/index.php?Psychophysiology
<被験者>
・日本人健常者6名 ・22~28歳、女性1名
・1名を除き全員右利き
脳波サンプリング周波数:1 kHz 音声データサンプリング周波数:1.6kHz
実験タイムスケジュール
・モニタ
・13 ch脳波
・音声信号
・筋電
3 s 3 s2.5 s 2.5 s
1 trial
次の提示へ
注視点
・被験者 季節を記憶 発話 / SS
筋電の立ち上がり
15:52:42
1-LR 25.0
2-LR 25.0
3-LR 25.0
4-LR 25.0
5-LR 25.0
6-LR 25.0
7-LR 25.0
8-LR 25.0
9-LR 25.0
10-LR 25.0
12-LR 25.0
13-LR 25.0
14-LR 25.0
EMG 25.0
EXT 500.0
1sec/div
…
15:52:42
EMG 25.0
1sec/div
-400 ms ~ 0 ms
運動準備電位
<発話時の運動準備電位>
(L. Deecke et al., 1986)
Early BP:運動前野、補足運動野、ブローカ野
NS’ (Late BP):運動前野、運動野、ブローカ野
(H. Shibasaki, M. Hallett, 2006)
<運動準備電位>
SSBCIの概要
①learning phase
②decoding phase
脳波データ
HMM
Kalman
Filter
脳波データ予測
音声信号
HMM
Kalman
Filter
音声信号
予測音声信号
音声信号
SSBCIの概要
①learning phase
②decoding phase
脳波データ
HMM
Kalman
Filter
脳波データ予測
音声信号
HMM
Kalman
Filter
音声信号
予測音声信号
音声信号
LEARNING PHASE
HMM
(隠れマルコフモデル)
Kalman
Filterフォルマント周波数
(F1・F2)
ICA
(独立成分分析)
haru
ECDL
(ダイポール推定)
被験者
LEARNING PHASE
HMM
(隠れマルコフモデル)
Kalman
Filterフォルマント周波数
(F1・F2)
ICA
(独立成分分析)
haru
ECDL
(ダイポール推定)
被験者
ICA (独立成分分析)
※身近な応用例≫カクテルパーティー効果(人の聞き分け能力:音声分離)
あいうえお…
ABCDE… 12345…
あいうえお…
ABCDE…
12345…
複数の混合されたシグナルを、統計的に独立な少数の加法的な
シグナルに分解する。
ダイポール推定
観測電位
誤差
位置などを修正電流源
モデル電位
脳内の電流源モデル、導電体としての頭部モデルを設定して、頭皮上で観測されるであろう電位の理論値を計算する。
電位データの実測値と順問題を解くことで得られた理論値との間の誤差が最小になるように、電流源モデルを表現するパラメータ値を最適化する。
順問題 逆問題
脳波電位の頭皮上分布から、その電流源を推定する解析手法。
Wester (2006)
⇒サイレントスピーチ時の脳波計測 → 運動野、Broca野、Wernicke野
LR
ブローカ野:運動性言語中枢として知られる。音声の産出に関わる。
ダイポール推定
LEARNING PHASE
HMM
(隠れマルコフモデル)
Kalman
Filterフォルマント周波数
(F1・F2)
ICA
(独立成分分析)
haru
ECDL
(ダイポール推定)
被験者
フォルマント周波数• スペクトルと呼ばれる音声信号をフーリエ変換したもののピークをフォルマントという。
• 周波数の低い方から、F1、F2。。。という。• ホルマント周波数は母音ごとに非常に安定。よって音韻知覚の手掛かりに用いられる。
F1 F2
30
20
10
0
40
0 1 2 3 4
相対パワー
(dB
)
周波数(kHz)
/a/
/i/
/u/
/e/
/o/
0.2 0.4 0.6 0.8 1.0 1.2 1.4
1.0
1.5
2.0
2.5
3.0
3.5
F1
F2
[kHz]
[kHz]
LEARNING PHASE
HMM
(隠れマルコフモデル)
Kalman
Filterフォルマント周波数
(F1・F2)
ICA
(独立成分分析)
haru
ECDL
(ダイポール推定)
被験者
音声認識で広く使われている状態遷移モデル
/h/a/r/u/, /n/a/ts/u/:それぞれ4音素
→開始と終了状態を含めた6 状態HMM
音声認識:あらかじめ単語単位の標準モデルを用意しておき、
未知入力音声と各モデルの比較からもっとも類似しているモデルを選択する。
HMMデザイン:Left-to-right 型
Young S et al. (2009) The HTK Book (for HTK Version 3.4). Cambridge University Engineering Department.
HMM (隠れマルコフモデル)
HMM (隠れマルコフモデル)
N : Normal distribution(正規分布)
𝑏𝑖𝑗 𝒙 =
𝑘
𝐶𝑗𝑘N ( 𝒙 , 𝝁𝑗𝑘 , 𝑈𝑗𝑘 )
𝑓 𝒙 =1
2𝜋𝑛2 𝜮
12
𝑒𝑥𝑝 −1
2𝑡(𝒙 − 𝝁 )𝜮−1(𝒙 − 𝝁 )
【HMMにおける出現確率𝑏𝑖𝑗 𝒙 の初期値設定の計算式】
𝝁𝑗𝑘 : F1,F2の平均
𝑈𝑗𝑘 : 分散共分散行列
𝐶𝑗𝑘 : 比率
○混合正規分布
複数の正規分布を混ぜ合わせたもの
𝒙 : 音声データ𝝁 : 平均𝜮 : 分散共分散
※上式における𝜋は円周率を示す。※本研究では、2次元のため 𝑛 = 2 とした。※季節ごとに作成(haru-HMM、natsu-HMM)。
本研究では同時密度関数として、以下の式をとる。
/a/
/i/
/u/
/e/
/o/
0.2 0.4 0.6 0.8 1.0 1.2 1.4
1.0
1.5
2.0
2.5
3.0
3.5
F1
F2
LEARNING PHASE
HMM
(隠れマルコフモデル)
Kalman
Filterフォルマント周波数
(F1・F2)
ICA
(独立成分分析)
haru
ECDL
(ダイポール推定)
尤度の比較
被験者
KALMAN FILTER
𝑥𝑡 = 𝐴𝑥𝑡−1 +𝑤𝑡
𝑦𝑡 = 𝐶𝑥𝑡 + 𝑣𝑡
𝒙𝑡 : 音声特徴量F1・F2から成るベクトル
𝒚𝑡 : 時刻tにおける脳波から成るベクトル
𝐴 : 過去と将来のF1・F2の関係
𝐶 : F1・F2の集合が与えられた時の脳波の期待値
𝑤, v : ガウス分布に従う確率変数、誤差を示す
状態推定を行うフィルタで、発話時脳波とF1・F2の関係
性を学習する。
DECODING PHASE
HMM
(隠れマルコフモデル)
Kalman
Filter予測フォルマント周波数
ICA
(独立成分分析)
haru
ECDL
(ダイポール推定)
被験者
尤度の比較
learning phase
DECODING PHASE
HMM
(隠れマルコフモデル)
Kalman
Filter予測フォルマント周波数
ICA
(独立成分分析)
haru
ECDL
(ダイポール推定)
被験者
尤度の比較
learning phase
KALMAN FILTER
学習したKFにSS脳波を入力し、SS音声特徴量F1・F2を推定
𝑥𝑡 = 𝐴𝑥𝑡−1 +𝑤𝑡
𝑦𝑡 = 𝐶𝑥𝑡 + 𝑣𝑡
𝒙𝑡 : 音声特徴量F1・F2から成るベクトル
𝒚𝑡 : 時刻tにおける脳波から成るベクトル
𝐴 : 過去と将来のF1・F2の関係
𝐶 : F1・F2の集合が与えられた時の脳波の期待値
𝑤, v : ガウス分布に従う確率変数、誤差を示す
DECODING PHASE
HMM
(隠れマルコフモデル)
Kalman
Filter予測フォルマント周波数
ICA
(独立成分分析)
haru
ECDL
(ダイポール推定)
被験者
尤度の比較
learning phase
HMM(隠れマルコフモデル)
KFで推定されたSS時のF1・F2(予測音声信号)を入力し、モ
デル毎に出力された尤度の比較を行う。
a45
b3(o4)
【Viterbi アルゴリズム】
𝑓′ 𝑖, 𝑡
= log 𝜋𝑖
max𝑗
𝑓′ 𝑖, 𝑡 − 1 + log𝑎𝑗𝑖𝑏𝑗 𝑜𝑡
対数尤度
(𝑡 = 1)
(𝑡 = 2, 3,⋯ , 𝑇)
𝐿 = max𝑖,𝑞𝑖∈𝐹
𝑓′(𝑖, 𝑇)
結果:カルマンフィルタで予測された音声信号
haru-Kalman Filter
時間遷移 :
natsu-Kalman Filter
どちらとも、/a/ と /u/ を通過しているため「はる」と「なつ」の区別ができない。
結 果:尤度の比較
Confusion matrix silent speech /haru/ silent speech /natsu/
haru-HMM -2844.512 -5263851
natsu-HMM -2878.522 -5088.068
HMMを使うことで、子音を含めた認識が可能に
>
>
精度を向上させる方法を検討
認識精度は、春 58%・夏 67%
平均化カルマンフィルタ
学習したKFとSS脳波の組み合わせに結果が依存
発話脳波1
haru-KF1SS
脳波1
SS
脳波k
フォルマント
周波数k
発話
脳波k
haru-KFkSS
脳波1
SS
脳波k…
……
フォルマント周波数1
今まで: F1・F2と発話脳波のペアでKFを学習
平均化カルマンフィルタ
そこで: すべての発話脳波とフォルマント周波数を使ってKFを学習する
ダイポールがブローカ野に推定された独立成分春18個・夏12個と、フォルマント周波数を使用
フォルマント周波数1
haru-KF SS
脳波1
SS
脳波12発話脳波18
natsu-KF SS
脳波1
SS
脳波9
発話脳波1
フォルマント周波数18
フォルマント周波数1
発話脳波12
発話脳波1
フォルマント周波数12
… …
… …
……
認識精度は、春 83%・夏 67%
ま と め
従来手法では不可能であった子音認識を可能に
サイレントシーズンの中でも母音の推移が
同一な春(/haru/)と夏(/natsu/)
発話脳波と音声信号でKF、HMMの学習
学習したKFとHMMでSS脳波の解読
目 的
結 果フォルマント周波数を使ってHMMと平均化KFの学習を行うと、
春 83%・夏 67%の精度で子音を含めた認識が可能になった。
解 析
タスク
今 後 秋(/aki/)と冬(/huju/)の拡張音声特徴量メル周波数ケプストラム係数(MFCC)を用いて、認識精度を算出する。
参考文献
• 山本圭一 (2013) サイレントスピーチBCI―Single-trial EEGs を利用したホルマント周波
数予測― 平成24年度修士論文.
• Deecke L et al. (1986) Bereitschaftspotential preceding speech after holding breath.
Experimental Brain Research 65:219-223.
• Young S et al. (2009) The HTK Book (for HTK Version 3.4). Cambridge University
Engineering Department.
• Wu W et al. (2006) Bayesian population decoding of motor cortical activity using a
Kalman filter. Neural Computation 18:80-118.
• Kalman RE (1960) A New Approach to Liner Filtering and Prediction Problems. J.
Basic Eng. 82:35-45.