Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

指導教授：吳智鴻學生：蔡依錞

摘要

• 此研究主要分析臉部情感表達和聲音訊息的優勢和限制性。也討論決策階級和特徵階級兩個模組的方法比較。• 主要目的：了解這些系統的辨識強弱度，並比較不同的融合方法來提升系統的辨識度。• 情緒變數： sadness, happiness, anger and neutral• 資料庫：來自一位女性演員，請他念 258 個句子，同時表達這些情感。• 三種辨別情緒的系統： audio, facial expression and bimodal

information• 並用三個攝影鏡頭來捕捉臉部表情，頻率為 120HZ 。• 102 個偵測點，且要求他用四種不同的表情念四次，而錄音室在一個極安靜的房間，有 48kHz( 千赫 ) 的採樣率。

bimodal emotion recognition system

• The best features from both unimodal systems were used as input in the bimodal classifier. They showed that the performance significantly increased from 69.4% (video system) and 75% (audio system) to 97.2% (bimodal system).

研究方法

• 為了要比較這三種不同的方法，因此他們都用 support vector machine classifier (SVC) with 2nd order polynomial kernel functions

• 不過這三個系統的資料庫都是用 leave-one-out cross validation method 來訓練和測試。

語音情感辨識系統

• 應用軟體： Praat speech processing software• 音調和強度的平均值、標準差、範圍、最大最小值、中位數，都會被輸入進去討論。• 說話與不說話的比率也會納入考量。

臉部情感辨識系統 (1)

• 把一句句子收集到的 data 都縮減成 4 維度的特徵向量，再輸入分類器。• 將獲取的資料做正規化：• 1. 每個 frame 都以鼻子標記點為中心• 2. 用一個表情一般，閉嘴巴的 frame 當作參考 frame• 3. 每個 frame 都以三個藍色點為基準點• 4. 每個 frame 分為五個區塊： forehead, eyebrow, low eye, right

cheek and left cheek area (see Figure 2).



• 用 Principal Component Analysis(PCA) 方法來減少每個frame 的特徵數量至 10 維度。不過嘴唇附近的標記都沒有考慮，因為講話過程中可能被辨識為微笑或其他。


• low eye area vector 的前兩個組成成分如圖 3 ，可見不同的情緒分布在不同的叢集，所以重要的線索可從這 10 維的特徵萃取出來。


• 對每個 frame ， 10 維的特徵向量在每個區塊被獲得。這本地資訊可能被用來訓練動態模組，如 HMM• 此研究的特徵向量會先從每個聲音的低微特徵向量取得，做預備處理。• 用 K=3 來將這五個區塊的 10 維特徵分類出來，成為不同的叢集。• 然後就分類後的 frames 數量，獲得在每個聲音階級的 4 維向量。

Bimodal system

• feature-level fusion ：• 兩個都用同一個分類器。連續的特徵選取技術，盡可能提高分類器的效能。特徵選取數量為 10 。• decision level fusion ：• 不同模組彼此用各自的分類器，然後再統一標準來整合。• 有 maximum( 最大值 ), average( 每個系統的加權平均值和最大值 ),

product(乘以最大值 ), weight( 不同的系統有不同的權重 ) 。

研究結果 -Acoustic emotion classifier

• 因為不同情緒有時的聲音之力量和音調會差不多，所以比較難被分類，如高興和生氣、難過和一般

研究結果 -System based on facial expressions(1)

• Eyebrow 效能最差。• Hapiness 沒有任何失誤。


• In general, the results are very similar.


• Hapiness 有相當高的準確度。

研究結果 -Bimodal system(1)

• As it was expected, the recognition rate of anger and neutral state was higher than unimodal systems.


• 可看到這結果跟 facial expression classifier( 也就是 Table4)比較相似。• 因此這樣的方法不適用來混和這兩個系統比較，因為聲音的系統可說是完全被忽略掉。


• anger (84%) and neutral states (84%) 比 Table4 facial expression classifier (79% 、 81%)好；但是比 Table5 feature-level bimodal classifier(95% 、 92%) 差。

• happiness (98%) and sadness (90%) 比 Table5 準確性高很多。• 因此結果顯示， decision-level fusion 這個方法在每個情緒的辨識度都增加，也提高 bimodal system 效能。

Discussion

• 研究證實，用多模組系統效果比單一系統來辨識情緒來的好(5%) 。

• 結果顯示，某兩種情緒在其中一種形式會混淆的時候，在其他種形式就容易被分辨。如生氣和高興聲音辨識系統結果無法分辨，但在臉部情感辨識系統卻截然不同。• 因為這個研究的資料庫完全是根據一位女性所完成，所以如果要應用到其他人，可能會跟預期的不同。如要做此議題，可能要收集更多其他人的資料，才能更準確。• 此研究的另一個限制是視覺資料都是透過標記取得，在現實生活中較不可行。

Documents

Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information