트위터 문서 분석을 통한 감정 기반의 음악 추천 시스템kiise.or.kr/e_journal/2012/11/cpl/pdf/05.pdf트위터 문서 분석을 통한 감정 기반의 음악 추천

762 정보과학회논문지 : 컴퓨 의 실제 터 제 18 권 제 11 호(2012.11)

․본 연구는 지식경제부 정보통신산업진흥원의 학 IT연구센터 지원사업

(NIPA-2012-H0301-12-3006)과 2012년도 정부(교육과학기술부)의 재원으로

한국연구재단의 기 연구사업(2012-0007202) 지원을 받아 수행된 것임

․이 논문은 2012 제6회 강원지부 학술 회에서 ‘트 터 사용자 감정분석을 통

한 음악 추천 기법’의 제목으로 발표된 논문을 확장한 것임

논문 수

심사완료

:

:

2012년 7월 10일

2012년 9월 5일

CopyrightⒸ2012 한국정보과학회ː개인 목 이나 교육 목 인 경우, 이 작

물의 체 는 일부에 한 복사본 혹은 디지털 사본의 제작을 허가합니다.

이 때, 사본은 상업 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처

를 반드시 명시해야 합니다. 이 외의 목 으로 복제, 배포, 출 , 송 등 모든

유형의 사용행 를 하는 경우에 하여는 사 에 허가를 얻고 비용을 지불해야

합니다.

정보과학회논문지: 컴퓨 의 실제 터 제18권 제11호(2012.11)

†

††

학생회원

종신회원

:

:

고려 학교 기 자 공학부

[email protected]

고려 학교 기 자 공학부 교수

[email protected]

(Corresponding author임)

트 터 문서 분석을 통한 감정 기반의

음악 추천 시스템(Emotion-based Music Recommendation System based on

Twitter Document Analysis)

최 홍 구† 황 인

††

(Hong-gu Choi) (Eenjun Hwang)

요 약 다양하고 방 한 양의 멀티미디어 콘텐츠가 보편화되면서 이를 효과 으로 활용하기 한 다

양한 연구가 수행되고 있다. 특히 음악의 경우 사람의 감정이나 기분에 따라 듣고 싶은 음악의 유형이 크

게 달라질 수 있기 때문에 음악 추천과 같은 음악 련 서비스를 해서는 사람의 감정 악이 요하다.

한편, 소셜 네트워크 서비스가 확산되면서 일상 생활이나 정치 사건, 화, 제품 등 다양한 이슈에 한

개인의 생각이나 느낌을 표 하고 공유하는 것이 빈번해졌다. 특히, 마이크로 블로그와 같은 경우 사용자

의 감정을 암시하는 내용이 풍부하므로, 이러한 데이터를 수집하고 분석하면 개인의 견해나 감정을 악하

는 것이 가능하다. 이러한 감정 추출과 음악 추천을 연결할 수 있다면 다양한 형태의 감정 기반 사용자

서비스를 효과 으로 지원할 수 있다. 본 논문에서는 표 인 SNS인 트 터에서 사용자의 감정을 분석

하고 분석한 감정에 합한 음악을 추천하는 기법을 제안하다. 그리고 실험을 통해 제안한 기법의 효율성

을 검증한다.

키워드 : SNS, 트 터, 음악 추천, 감정추출

Abstract As a vast amount of diverse multimedia contents have been available, many works have

been done to utilize them effectively. Especially, in the case of music, since the music type to which

a user wants to listen depends on his emotion or mood, it has become very important to recognize

user emotion for music-related services such as music recommendation. On the other hand, with the

wide spread of social network services, it has become quite common for people to express and share

personal thoughts or feelings on the various issues such as daily life, political events, movies or

commercial products. In particular, as micro-blogs contain various emotion-rich resources, personal

opinion or emotion can be extracted and recognized by collecting and analyzing such data. In order

to support various emotion-based user services, mood recognition and music recommendation should

be connected to each other. In this paper, we first show how to extract user emotion from twitter

documents and then propose how to recommend music based on the extracted user emotion. Through

experiments, we show that our scheme can produce satisfactory result.

Key words : SNS, Twitter, Music Recommendation, Emotion Extraction

트 터 문서 분석을 통한 감정 기반의 음악 추천 시스템 763

1. 서 론

최근 들어, 소셜 네트워크 서비스가 확산되면서 사람

들의 개인 생활이나, 정치 사건, 화, 제품 등 다양한

분야에 한 생각이나 느낌을 표 할 수 있게 되었다.

이러한 데이터에 한 정보 수집이나 분석의 요한 동

기는 분석을 통하여 다른 사람이 느끼는 감정을 알 수

있다는 것이다. 마이크로 블로그와 같은 감정이 풍부한

자원의 사용이 빈번해지면서, 정보를 활용하여 사람의

감정을 악하기 한 연구가 활발히 진행되고 있다.

SNS의 각 컨텐츠들은 일시 인 감정을 포함하고 있지

만, 이것들을 수집하여 분석하면 특정 기간 동안 개인의

감정을 얻을 수 있다. SNS 컨텐츠를 통해 개인의 감정

을 수집하는 것은 다양한 어 리 이션에 유용하게 사

용될 수 있다. 를 들어, 사용자의 감정에 따라 다양한

컨텐츠를 추천하는데 활용될 수 있다. 특히 인터넷의 발

달과 더불어 PC, MP3 이어, 스마트폰을 포함하는

다양한 개인용 디바이스의 도입으로 인해 개인마다

용량 음악 DB를 구축하고 감상하는 것이 가능해졌다.

용량 음악 DB의 경우 사용자에게 합한 음악을 효

율 으로 검색하고 추천하는 기능이 필수 이며 최근

이에 한 연구가 활발히 진행되고 있다. 음악을 추천하

는 연구는 창기 컨텐츠를 분석하는 단계를 지나 사용

자의 감정에 기반하여 합한 음악을 추천하는 단계에

까지 다다랐으며 이를 해 음악 무드를 분류하는 연구

와 사용자의 감정을 추출하는 연구가 진행되고 있다.

본 논문에서는 트 터를 분석하여 사용자의 감정에

합한 음악 추천 기법을 제안한다. 이를 해, 첫째로

WordNet[1]을 활용하여 ANEW[2]를 확장하여 트 터

를 분석하기 한 센티멘트 워드 리스트를 생성한다. 둘

째로 축약어와 이모티콘 등을 분석하기 한 커먼 유즈

워드 리스트를 생성한다. 셋째로, 생성한 단어뭉치와 센

티멘트 워드 리스트를 사용하여 사용자의 트윗에서 감

정을 추출한다. 마지막으로 추출한 사용자의 감정과 유

사한 음악을 추천한다.

본 논문의 구성은 다음과 같다. 2장에서는 제안하는

기법과 연 된 련 연구에 해 기술한다. 3장에서는

제안된 기법의 체 인 구성과 각 부분의 기능에 해

설명한다. 4장에서는 음악 추천을 통한 사용자 만족도

평가를 통해 제안된 기법의 합성을 검증한다. 5장에서

는 결론 향후 연구를 제시한다.

2. 련연구

이 장에서는 감정 범주, 트 터 분석, 트 터 분석을

한 단어리스트인 ANEW와 WordNet, 그리고 음악

무드 추출과 분류에 한 련 연구에 해서 기술한다.

2.1 감정 범주

사람의 감정을 수치 으로 표 하는 방법으로 J. A.

Russel[3]과 R. E. Thayer[4]가 제안한 2차원 공간에

감정 상태를 나타내는 차원 근법이 시도되었다. 차원

근법은 정성/부정성의 정도(Valence)와 감정의 에

지의 정도(Arousal)를 기 으로 감정을 분류한다.

Russell’s 모델은 activity와 valence를 각각 축으로

하여 이차원 공간상에서 정의한 모델이다. 이 구조에서

감정은 원형의 역으로 표시되며 슬픔과 행복같이 상

반되는 감정은 서로 반 편에 치하게 된다.

Thayer가 제안한 이차원 감정 모델은 간단하면서 강

력한 모델로 이 모델을 이용하면, 그림 1과 같이 11개의

무드를 나타낼 수 있다. 이 구조에서 감정은 원형의

역으로 표시되며 슬픔과 행복같이 상반되는 감정은 이

차원 공간상에서 서로 반 편에 치하게 된다.

그림 1 Thayer's model

2.2 트 터 분석

트 터(Twitter)[5]는 무료 소셜 네트워킹 겸 마이크

로 블로그 서비스이다. 장문의 진지한 을 쓰는 데 좋

은 블로그와 달리, 트 터는 간단한 을 손쉽게 쓸 수

있는 단문 용 사이트이기 때문에, 이동 통신 기기를

이용한 등록도 편리하다. 상 방의 최근 활동을 알게

해주는 ‘팔로우(follow)’라는 기능이 있다는 , 그리고

메신 와 같은 신속성을 갖춘 이 특징이다. 그리고 다

른 SNS와는 달리 상 방이 허락하지 않아도 일방 으

로 ‘팔로어(follower)’로 등록할 수 있다. 단문 메시지

서비스(SMS), 인스턴트 메신 , 자 우편(e-mail) 등

을 통해 “트윗(tweet)”를 송할 수 있다. 트 트란

한 편에 해당하는 단 이며, 140 자가 한도이다.


A. L. Hughes와 L. Palen[6]은 미국 민주당, 공화당

당 회나, 허리 인 재해 등 정치 , 사회 이슈가

되는 쟁 에 해 트 터 유 들이 어떻게 반응하고 정

보가 확산되는지에 해 분석하 다. 이러한 큰 이슈

들이 더 많은 사람들을 트 터 사용자로 끌어들이는 요

인이 됨을 밝 내었다. N. A. Diakopoulos와 D. A.

Shamma[7]는 2008년 미국 통령 선거의 후보 토론회

에 해 사람들이 트 터에 남긴 들을 수집하 다. 이

를 이용하여, 이 어떠한 정서 반응을 보이는지 알

수 있는 분석 인 방법과 시각 인 표 법 등을 연구하

다. J. Bollen, H. Mao와 A. PePe[8]는 일정기간 트

터의 을 분석하여 매일 6개의 감정 표감정을

찾는 연구를 진행하 다. P. S. Dodds 외[9]는 일정기

간 트 터를 분석하여 사람들의 행복의 정도가 변화하

는 것에 한 연구를 진행하 다.

2.3 ANEW와 WordNet

ANEW는 어단어의 감정을 추론하기 해 만들어

진 일종의 감정 단어 사 으로, Margaret M. Bradley

와 Peter J. Lang에 의해 설문조사를 통해 만들어졌다.

ANEW에서는 총 1034개의 단어들에 해 단어로부터

느끼는 감정을 세 가지 수치로 정리한 사 으로, 각각의

단어들은 valence, arousal dominance의 세 가지 기

을 가지며 각각 1～10 사이의 값을 가진다. 이 값

들은 설문자들이 각각의 단어에 해 느끼는 감정을

1～10 사이의 수를 매기고, 이 값들의 평균을 구하여

기술하고 있다. valence는 낮은 값 일수록 부정 인 감

정이고, 높은 값 일수록 정 인 감정을 뜻한다. arousal

은 낮은 값 일수록 조용한 분 기를 뜻하고, 높은 값 일

수록 활동 인 분 기를 뜻한다. dominance는 낮은 값

일수록 열세인 느낌이고, 높은 값 일수록 우세인 느낌을

뜻한다. ANEW는 단어의 감정을 수치상으로 표 한 것

으로 텍스트로 구성된 문서들의 감정을 추출할 수 있다.

워드넷(WordNet)은 어의 의미 어휘 목록이다. 워드

넷은 어 단어를 ‘synset’이라는 유의어 집단으로 분류하

여 간략하고 일반 인 정의를 제공하고, 이러한 어휘 목록

사이의 다양한 의미 계를 기록한다. 워드넷에서 synset

이라는 유의어 집단으로 표 되며 하나의 synset은 하나

의 노드로 표 되며, 이 노드를 기 로 하여 트리 형태의

구조를 이루고 있다. 워드넷에서는 여러 synset 사이의

계를 상 어, 하 어, 동의어 등 여러 형태로 정의하고 있

다. 본 논문에서는 워드넷의 동의어 계인 synonyms

계에 속한 단어들을 이용하여 ANEW를 확장한다.

2.4 음악 무드 분류

부분의 기존 자동 음악 무드 분류는 스펙트럼이나

리듬 같은 음악 특성을 사용한다. 음악 무드 분류(Audio

Mood Classification)은 2007년부터 Music Information

Retrieval Evaluation eXchange (MIREX) [10]에서 활

발하게 다루어지고 있다. MIREX의 음악 무드 분류 실

험 에서는 스펙트럼 특성을 이용한 무드 분류와 SVM

을 이용한 무드 분류기가 가장 리 사용되고 있다.

가사 특성을 이용한 음악 무드 분류에서는 bag-of-

words (BOW) 특성이 리 사용된다. BOW는 unigram,

bigram, trigram과 해 결합하면 더 효과 이며 심리

언어학의 단어 리스트에서도 사용된다.

멀티 모달 음악 분류 기법은 오디오 특성을 이용한

무드 분류나 가사 특성을 이용한 무드 분류 기법보다

정확도가 높다. Y. Hu, X. Chen과 D. Yang[11]는 BOW

특성과 182개의 심리 언어 특성을 오디오 특성과 결합

하여 음악 무드를 분류했다.

3. 시스템 구조 구

이 장에서는 트 터 분석과 멀티 모달 음악 무드 분

류를 한 제안 시스템의 체 구조와 함께 각 구성요

소의 략 인 기능을 설명한다.

3.1 체 구조

사용자의 트 터 분석을 통한 음악 추천 시스템의 구

조는 그림 2와 같다. 제안 시스템의 입력은 사용자의 트

윗이고, 출력은 사용자의 감정에 합한 음악이다. 이를

해, 트 터 무드 분류기를 사용하여 사용자의 트윗에

서 사용자 감정을 찾아낸다. 한 멀티모달 음악 무드

분류기를 사용하여 주어진 음악 DB를 분석하여 트 터

분석을 통해 얻은 감정에 합한 음악을 추천한다.

3.2 트 터 분석

본 논문에서는 트 터를 분석하기 해 두 가지 단어

목록을 정의한다. 첫 번째 단어 목록은 sentiment word

list이다. Sentiment word list는 WordNet을 활용해

ANEW를 확장하여 정의하 다. ANEW는 어단어의

감정을 추론하기 해 만들어진 일종의 감정 단어 사

으로, 총 1034개의 단어들에 해 각각의 단어들은

valence, arousal dominance의 세 가지 기 을 가

지며 각각 1～10 사이의 값을 가진다. 1034개의 단어

로는 모든 데이터를 분석하기 부족하기 때문에 WordNet

에서 6732개의 단어를 추가하여 총 7756개의 단어를 사

용하 다. 두 번째 단어 목록은 common use word list

이다. 일반 으로 트 터의 들은 형식에 구애되지 않

기 때문에 이모티콘, 축약어 그리고 속어 등이 자주 사

용된다. 이를 효과 으로 분석하기 하여 표 1에서처럼

자주 사용되는 이모티콘, 축약어, 속어를 정의하여 common

word list를 정의한다.

두 단어 목록을 기반으로 사용자의 감정을 분석하기

하여 다음과 같은 과정을 거친다. 첫번째로 사용자의

트윗에서 아이디와 같은 감성 으로 의미없는 부분을


그림 2 시스템 구조

표 1 이모티콘, 축약어, 속어 제

Example

Emoticons:) :D :-) :P

:( :-( ;-( O시

Abbreviationslol LMAO AAA

DI FUD MOFO

Informal termshappyyyy aweesoomeee

good shittt worsttt baddd

제거한다. 두번째로 사용자의 트윗을 단어 단 로 분류

하여 bag of words형태로 만든다. 세번째로 do not,

can not과 같이 이어지는 단어의 의미를 고려하기 해

n-gram 방식을 사용한다. 본 논문에서는 2-gram 방식

을 사용한다. 마지막으로 식 (1)을 통해 트윗의 감정을

얻을 수 있다. 여기에서 wi 는 트윗에 포함된 단어이고

S(wi)는 단어 목록에 있는 valence와 arousal값이다. N

은 트윗에 포함된 체 단어의 수이다.

′

(1)

3.3 멀티 모달 음악 무드 분류

멀티 모달 음악 무드 분류를 해 오디오 특성과 가

사 특성 그리고 태그 정보를 활용한다.

우선 오디오 특성을 얻기 해 MARSYAS 시스템을

사용하 다. MARSYAS는 means and variances of

Spectral Centroid, Rolloff, Flux, Mel-Frequency

Cepstral Coefficients (MFCC) 등의 63개의 스펙트럼

특성을 사용한다. 스펙트럼 특성들은 음악 무드 분류에

서 가장 리 사용되고 있다.

음악 가사를 분석하기 해 음악 무드 태그와 가사를

TF-IDF 알고리즘을 이용한 무드 분류기를 구 하 으

며, 이를 해 Last.fm[13]에서 무드 태그를 이용하 다.

Thayer’s model[4]의 11가지 무드에 해당하는 태그를

가진 음악 50곡씩 550곡의 가사를 수집하 다. 웹에서

표 2 주요 감정 키워드

mood happy sad angry excited

word1 love alone anger excited

word2 like depressed dirty dog

word3 loves grief fuck play

word4 hope gloom bitch snow

word5 happy hurt hate quick

얻은 노래가사는 여러 형태의 노이즈가 포함되어 있다.

Stopword[12] 목록을 통해 이를 제거하 고, [repeat

2], x5 등 후렴구 반복을 의미하는 주석들의 경우 제거

함과 동시에 해당되는 반복구를 반복되는 횟수만큼 노

래 가사에 포함시켰다. 이 게 수집한 가사를 이용해,

각 무드에 해당하는 가사의 TF값을 구하고 11가지 무

드에 한 IDF값을 구하 다. 이를 통해 얻은 무드 키

워드 각 감정에서 큰 TF-IDF값을 가지는 단어들을

정리하면 표 2와 같다.

음악 태그를 분석하기 해 last.fm 웹 사이트의 태그

정보를 활용하 다. 그림 3은 Last.fm에 입력된 Jason

Mraz의 “I’m Yours”라는 곡의 태그 정보이다. 그림에

서와 같이 Last.fm은 사용자들에게 음악에 한 태그를

입력할 수 있게 하며 입력된 태그의 가 치를 보여 다.

본 논문에서는 태그 감정을 나타내는 것을 선정하여

음악 무드로 사용하 다.

그림 3 Last.fm의 태그 정보


4. 실험 결과

이 장에서는 본 논문에서 제안한 감정 분석 기법을

기반으로 사용자에게 음악을 추천하고 그 만족도를 측

정하여 제안하는 기법의 성능을 평가하고자 한다.

사용자의 트 터를 분석하기 해 트 터에서 제공하

는 API를 사용해 100명의 트윗을 1주일 동안 수집하

다. 수집한 트윗을 하루 단 로 분류하여 angry, sad,

happy, peaceful 4개의 감정 표 감정을 추출하

다. 그림 4는 7일 동안 하루 단 로 트 터 분석을 통해

사용자 감정을 추출한 결과이다.

사용한 음악은 Mnet 2012년 4월 pop best 100곡의

노래를 상으로 멀티 모달 무드 분류 기법을 용하여

angry, sad, happy, peaceful 4개의 무드로 분류하 다.

표 3은 추출한 감정에 따른 음악의 수이다.

해당하는 감정과 같은 음악 가장 유사한 감정을

가지는 음악을 추천하 다. 피실험자는 0～10 사이의 만

족도 수로 평가한다. 100명에 한 만족도 조사를 수

행한 결과 음악을 추천하 을 때는 만족도 조사 결과

그림 4 트 터 분석 결과

표 3 음악 분석 결과

Mood angry sad happy peaceful

노래 수 13 32 41 14

그림 5 트 터 분석 결과

평균 7.6의 만족도, 음악 추천이 없을 때는 6.3의 만족

도를 얻었다. 그림 5는 만족도 결과를 수행한 사용자

5명에 한 결과를 나타낸다. 이를 통해 음악 추천이 사

용자에게 감정 만족을 주는 것을 확인할 수 있었다.

5. 결 론

본 논문에서는 트 터를 분석하여 사용자의 감정에

추출하는 기법을 제안하 다. 이를 해 두 종류의 단어

리스트를 정의하 다. 첫번째는 ANEW와 WordNet을

사용하여 sentiment word list를 정의하고 두번째는 이

모티콘, 축약어 그리고 속어를 포함하는 common use

word list를 정의하 다. 분석한 감정에 합한 음악을

추천하기 해 오디오 특성, 가사 특성 그리고 태그 정

보를 사용하는 멀티 모달 분류 기법을 용했다. 일주일

간의 트 터를 분석하여 음악을 추천한 결과 10 만

에 7 의 만족도를 얻을 수 있었다.

참 고 문 헌

[ 1 ] WordNet, http://wordnet.princeton.edu/, 2011.11.

[ 2 ] Bradley, M. M., & Lang, P. J., "Affective norms

for English words (ANEW): Instruction manual

and affective ratings," (Tech. Rep. No. C-1)

[ 3 ] J. A. Russell, "A Circumplex Model of Affect,"

Journal of Personality and Social Psychology,

vol.39, 1980.

[ 4 ] R. E. Thayer, "The Biopsychology of Mood and

Arousal," New York: Oxford University Press, 1989.

[ 5 ] Twitter, http://www.twitter.com/, 2011.11

[ 6 ] A. L. Hughes and L. Palen, "Twitter adoption and

use in mass convergence and emergency events,"

International Journal of Emergency Management,

vol.6, no.3-4, pp.248-260, 2009.

[ 7 ] N. A. Diakopoulos and D. A. Shamma, "Charac-

terizing debate performance via aggregated Twitter

sentiment," In proceedings of the 28th International

Conference on Human Factors in Computing

Systems, pp.1195-1198, 2010.

[ 8 ] J. Bollen, H.Mao and A.Pepe, "Modeling Public

Mood and Emotion: Twitter Sentiment and Socio-

Economic Phenomena," Proceedings of the fifth

International AAAI Conference on Weblogs and

Social Media, pp.450-453, 2010.

[ 9 ] P. S. Dodds, K. D. Harris, I. M. Kloumann, C. A.

Bliss, and C. M. Dandorth, "Temporal patterns of

happiness and information in a global social

network: Hedonometrics and Twitter," Computing

Research Repository abs/1101.5120v3 [physics.soc-ph],

Feb. 2011.

[10] J. S. Downie: "The Music Information Retrieval

Evaluation Exchage (2005-2007): A Window into

Music Information Retrieval Research," Acoustical


Science and Technology29 (4): 247-255, 2008.

Available at: http://dx.doi.org/10.1250/ast.29.247.

[11] Y. Hu, X. Chen, and D. Yang: "Lyric-Based Song

Emotion Detection with Affective Lexicon and

Fuzzy Clustering Method," In Proceedings of the

10th International Conference on Music Information

Retrieval (ISMIR’09).

[12] Stopwords, http://en.wikipedia.org/wiki/Stop_words/

[13] Last.fm, http://last.fm/, 2011.11

최 홍 구

2008년 한국외국어 학교 자공학과 졸

업(학사). 2012년 고려 학교 기 자

공학과 졸업(석사). 심분야는 텍스트

마이닝

황 인

1988년 서울 컴퓨터공학과 졸업(학사)

1990년 서울 컴퓨터공학과 졸업(석사)

1998년 Univ. of Maryland at College

Park 산학과 졸업(박사). 1998년～1999

년 Bowie State Univ., Assistant Pro-

fessor. 1999년～1999년 Hughes Research

Lab. 연구교수. 1999년～2004년 아주 학교 정보통신 문

학원 교수. 2004년～ 재 고려 학교 기 자 공학과

교수. 심분야는 데이터베이스, 멀티미디어 검색, 정보 통

합, 자상거래, 상처리, 유비쿼터스 컴퓨

Documents

트위터 문서 분석을 통한 감정 기반의 음악 추천 시스템kiise.or.kr/e_journal/2012/11/cpl/pdf/05.pdf트위터 문서 분석을 통한 감정 기반의 음악 추천