LYRICS, MUSIC, AND EMOTIONS Rada Mihalcea Carlo Strapparava University of North Texas FBK-irst EMNLP 2012

Lyrics, Music, and Emotions

Embed Size (px)


Rada Mihalcea Carlo Strapparava University of North TexasFBK- irst EMNLP 2012. Lyrics, Music, and Emotions. A Corpus of Music and Lyrics Annotated for Emotions. Corpus 內包含 100 首有名的英文歌曲 , 檔案格式為 MIDI Hotel California by Eagles, Let it Be by The Beatles… - PowerPoint PPT Presentation

Citation preview


Rada Mihalcea Carlo StrapparavaUniversity of North Texas FBK-irst

EMNLP 2012

A Corpus of Music and LyricsAnnotated for Emotions

Corpus 內包含 100 首有名的英文歌曲 , 檔案格式為 MIDI Hotel California by Eagles, Let it Be by The


MIDI (Musical Instrument Digital Interface)是一個工業標準的電子通訊協定

MIDI 不傳送聲音 , 只傳送音調 , 音樂強度的資料 ,音量 , 顫音 , 相位等參數的控制訊號 , 以及設定節奏的時鐘信號並與歌詞同步

不使用整個 MIDI 檔案 , 只提取出需要的部分

在音樂的部分 在歌詞的部分 在音符的部分

G大調 : G A B C D E F# G

B -> B 一度

B -> C 二度

B -> D 三度…

A Corpus of Music and LyricsAnnotated for Emotions

A Corpus of Music and LyricsAnnotated for Emotions

歌曲情緒標記 Amazon Mechanical Turk service

標記的類別分為六類 , 分數介於 0~10 分 ANGER, DISGUST, FEAR, JOY, SADNESS,


標記者被要求 要以作詞家的角度來看 , 不是以自己的角度 能夠解釋歌詞的意義 每一行歌詞都要標記六個類別的分數

A Corpus of Music and LyricsAnnotated for Emotions

為了避免 spamming 影響標記的品質 , 以下列兩個方法解決 在歌詞中加入假的歌詞

例如 :”Please enter 7 for each of the six emotions” 計算標記者與其他標記者間的 Pearson correlation,

如果低於 0.4 就不使用

A Corpus of Music and LyricsAnnotated for Emotions

每一首歌曲作 10 次標記經過 spamming 移除後每首歌剩下 2~5 個標記整體標記的 correlation

係數為 0.73

Experiments and Evaluation

Experiments 分為三組 textual features musical features textual 和 musical features

Evaluation Gold standard 和分類器預測之間的 Pearson


實驗使用 linear regression(Weka machine learning toolkit) 和 Ten-fold cross-validation 執行

Experiments and Evaluation - Feature

Textual Features - Unigram features(bag of word) 先建一個詞彙表包含 training set 內所有出現過的單字

( 包含 stop word), 將次數少於 10 次的單字去除 , 剩下的單字當作 unigram features




hard 1 0 ..

day 2 0 ..

night 0 1 ..

working 0 1 ..

been 1 1 ..

.. .. .. ..

.. .. .. ..

Experiments and Evaluation - Feature

Textual Features - Lexicon features(semantic class) 利用 LIWC(Linguistic Inquiry and Word Count)

和 WA(WordNet Affect) LIWC: 包含約 2200 個單字 ,70 個與心理歷程有關的類別 WA: 利用 wordnet 內情緒詞的 synset 所建成

Experiments and Evaluation - Feature

Musical Features - Notes 音符是用來表示一個聲音的音高和長短 , 以前七個大寫

英文字母表示 (G-A-B-C-D-E-F) 在聲音的部分有升記號 # 和降記號♭ , 表示升半音或降半

音 在長短的部分有全音符 , 八分音符…

Musical Features - Key Key 是用來表示一首歌曲所使用的和絃或者音高集合 ,

例如 C-major, F#, C-minor

Evaluation – Textual & Musical feature效果較好

Evaluation – Joint Textual & Musical


Textual features 和 Musical features 雖然都有用的 , 但是 Textual features 的效果較好

在實驗結果中 , 效能提升最多的三個類別分別為JOY, SADNESS, ANGER 前兩者的提升是因為 corpus 中 , 這兩類的歌詞較多 但 ANGER 與前兩者相比 ,corpus 中的歌詞相對少 , 卻


Discussion - Feature ablation

Discussion - Coarse-grained classification

將原本的 task 轉換成 binary classification Support vector machine(SVM) Threshold 設定為 3 Ten-fold cross-validation 正確率 (accuracy) 為 10 次 cross-validation 的平均

Baseline 每一次的 cross-validation, 計算 Training data 內資

料量最多的類別的正確率 10 次正確率的平均值當作 baseline

Discussion - Coarse-grained classification

Discussion - Comparison to previous work

因為先前沒有類似的 task, 沒有辦法直接做比較 挑選對 1000 則新聞頭條作情緒分類的 task 來做

比較 ( 分成相同的六類 )

Discussion - Comparison to previous work


textual features 和 musical features 對於歌曲的情緒分類上是有用的 , 而兩者都使用的效能是最好的