20
Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information 指指指指 指指指 指指 指指指

Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

  • Upload
    miyoko

  • View
    65

  • Download
    0

Embed Size (px)

DESCRIPTION

Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information. 指導教授:吳智鴻 學生:蔡依錞. 此研究主要分析臉部情感表達和聲音訊息的優勢和限制性。也討論決策階級和特徵階級兩個模組的方法比較 。 主要目的:了解這些系統的辨識強弱度,並比較不同的融合方法來提升系統的辨識度 。 情緒變數: sadness, happiness, anger and neutral 資料庫 :來自一 位女性 演員,請他 念 258 個句子,同時表達這些情感。 - PowerPoint PPT Presentation

Citation preview

Page 1: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

指導教授:吳智鴻 學生:蔡依錞

Page 2: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

摘要

• 此研究主要分析臉部情感表達和聲音訊息的優勢和限制性。也討論決策階級和特徵階級兩個模組的方法比較。• 主要目的:了解這些系統的辨識強弱度,並比較不同的融合方法來提升系統的辨識度。• 情緒變數: sadness, happiness, anger and neutral• 資料庫:來自一位女性演員,請他念 258 個句子,同時表達這些情感。• 三種辨別情緒的系統: audio, facial expression and bimodal

information• 並用三個攝影鏡頭來捕捉臉部表情,頻率為 120HZ 。• 102 個偵測點,且要求他用四種不同的表情念四次,而錄音室在一個極安靜的房間,有 48kHz( 千赫 ) 的採樣率。

Page 3: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information
Page 4: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

bimodal emotion recognition system

• The best features from both unimodal systems were used as input in the bimodal classifier. They showed that the performance significantly increased from 69.4% (video system) and 75% (audio system) to 97.2% (bimodal system).

Page 5: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究方法

• 為了要比較這三種不同的方法,因此他們都用 support vector machine classifier (SVC) with 2nd order polynomial kernel functions

• 不過這三個系統的資料庫都是用 leave-one-out cross validation method 來訓練和測試。

Page 6: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

語音情感辨識系統

• 應用軟體: Praat speech processing software• 音調和強度的平均值、標準差、範圍、最大最小值、中位數,都會被輸入進去討論。• 說話與不說話的比率也會納入考量。

Page 7: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

臉部情感辨識系統 (1)

• 把一句句子收集到的 data 都縮減成 4 維度的特徵向量,再輸入分類器。• 將獲取的資料做正規化:• 1. 每個 frame 都以鼻子標記點為中心• 2. 用一個表情一般,閉嘴巴的 frame 當作參考 frame• 3. 每個 frame 都以三個藍色點為基準點• 4. 每個 frame 分為五個區塊: forehead, eyebrow, low eye, right

cheek and left cheek area (see Figure 2).

Page 8: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

臉部情感辨識系統 (2)

Page 9: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

臉部情感辨識系統 (3)

• 用 Principal Component Analysis(PCA) 方法來減少每個frame 的特徵數量至 10 維度。不過嘴唇附近的標記都沒有考慮,因為講話過程中可能被辨識為微笑或其他。

Page 10: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

臉部情感辨識系統 (4)

• low eye area vector 的前兩個組成成分如圖 3 ,可見不同的情緒分布在不同的叢集,所以重要的線索可從這 10 維的特徵萃取出來。

Page 11: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

臉部情感辨識系統 (4)

• 對每個 frame , 10 維的特徵向量在每個區塊被獲得。這本地資訊可能被用來訓練動態模組,如 HMM• 此研究的特徵向量會先從每個聲音的低微特徵向量取得,做預備處理。• 用 K=3 來將這五個區塊的 10 維特徵分類出來,成為不同的叢集。• 然後就分類後的 frames 數量,獲得在每個聲音階級的 4 維向量。

Page 12: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

Bimodal system

• feature-level fusion :• 兩個都用同一個分類器。連續的特徵選取技術,盡可能提高分類器的效能。特徵選取數量為 10 。• decision level fusion :• 不同模組彼此用各自的分類器,然後再統一標準來整合。• 有 maximum( 最大值 ), average( 每個系統的加權平均值和最大值 ),

product(乘以最大值 ), weight( 不同的系統有不同的權重 ) 。

Page 13: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -Acoustic emotion classifier

• 因為不同情緒有時的聲音之力量和音調會差不多,所以比較難被分類,如高興和生氣、難過和一般

Page 14: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -System based on facial expressions(1)

• Eyebrow 效能最差。• Hapiness 沒有任何失誤。

Page 15: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -System based on facial expressions(2)

• In general, the results are very similar.

Page 16: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -System based on facial expressions(3)

• Hapiness 有相當高的準確度。

Page 17: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -Bimodal system(1)

• As it was expected, the recognition rate of anger and neutral state was higher than unimodal systems.

Page 18: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -Bimodal system(2)

• 可看到這結果跟 facial expression classifier( 也就是 Table4)比較相似。• 因此這樣的方法不適用來混和這兩個系統比較,因為聲音的系統可說是完全被忽略掉。

Page 19: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

研究結果 -Bimodal system(3)

• anger (84%) and neutral states (84%) 比 Table4 facial expression classifier (79% 、 81%)好;但是比 Table5 feature-level bimodal classifier(95% 、 92%) 差。

• happiness (98%) and sadness (90%) 比 Table5 準確性高很多。• 因此結果顯示, decision-level fusion 這個方法在每個情緒的辨識度都增加,也提高 bimodal system 效能。

Page 20: Analysis of Emotion Recognition using Facial Expressions, Speech and Multimodal Information

Discussion

• 研究證實,用多模組系統效果比單一系統來辨識情緒來的好(5%) 。

• 結果顯示,某兩種情緒在其中一種形式會混淆的時候,在其他種形式就容易被分辨。如生氣和高興聲音辨識系統結果無法分辨,但在臉部情感辨識系統卻截然不同。• 因為這個研究的資料庫完全是根據一位女性所完成,所以如果要應用到其他人,可能會跟預期的不同。如要做此議題,可能要收集更多其他人的資料,才能更準確。• 此研究的另一個限制是視覺資料都是透過標記取得,在現實生活中較不可行。