17
Information Systems Review Vol. 17, No. 3 December 2015 http://dx.doi.org/10.14329/isr.2015.17.3.077 2015. 12. 77 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용 An Online Review Mining Approach to a Recommendation System 조 승 연 (Seung-Yean Cho) 닉스 테크 최 지 은 (Jee-Eun Choi) 연세대학교 정보대학원 이 규 현 (Kyu-Hyun Lee) 연세대학교 정보대학원 김 희 웅 (Hee-Woong Kim) 연세대학교 정보대학원 교수, 교신저자 추천시스템은 과거 구매행동을 통해 사용자가 향후 구매할 것이라 예상되는 제품을 자동으로 검색하여 제공하는 시스템이다. 이러한 추천시스템은 여러 전자상거래 업체에서 도입하고 있으며, 사용자의 편의성 및 수익에 긍정적인 영향을 미치고 있다. 하지만 사용자가 어떠한 기준을 가지고 제품을 평가하는지, 어떠한 요소가 구매 의사 결정에 영향을 미치는지는 반영할 수 없다는 한계가 있다. 이에 본 연구에서는 사용자가 직접 작성한 구매후기를 통해, 사용자 별 제품 평가요소를 활용할 수 있는 추천 모형 알고리즘을 개발하였다. 토픽 모델링을 활용하여 사용자들의 구매후기를 분석하였으며, 이러한 후기의 특성이 반영된 커널과 평가 점수가 반영된 커널 등을 함께 활용하여 다중 커널 학습 기반의 추천 모형을 개발하였다. 또한, 이러한 모형을 BestBuy 사례에 적용하여 검증하였다. 검증 결과, 기존 협업적 필터링 알고리즘보다 다중 커널 학습에 의한 추천 모형의 정확도가 우수하였고, 구매후기의 유사성을 반영하였기에, 사용자가 어떠한 요소를 평가하는지를 확인할 수 있었다. 또한, 기존 협업적 필터링 알고리즘보다 다양한 제품에 대한 추천이 가능함을 확인할 수 있었다. 본 연구는 토픽 모델링과 커널 학습 기반을 사용한 융합적인 추천모형으로서, 온라인 추천시스템의 새로운 방법을 제안한다. 키워드 : 추천 모형, 구매 후기, 다중커널학습, 토픽모델링, 전자상거래, IT 서비스, BestBuy . 서 오늘날 정보통신기술과 인터넷을 통해 다양한 서비스 및 콘텐츠를 소비할 수 있게 되었다. 그러 나 다양한 플랫폼의 등장과 정보의 범람 등으로 인해 소비자들은 원하는 제품을 구매하기 위한 복 잡한 의사 결정 과정을 반복해야 했다. 이러한 과 정들의 반복은 소비자들이 느끼는 주관적 탐색 비 (Search Cost)을 증가시키며, 향후 서비스 지속 사용 의도에도 부정적인 영향을 미칠 수 있다

고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

Information Systems ReviewVol. 17, No. 3 December 2015 http://dx.doi.org/10.14329/isr.2015.17.3.077

2015. 12. 77

고객 온라인 구매후기를 활용한

추천시스템 개발 및 적용

An Online Review Mining Approach to a Recommendation System

조 승 연 (Seung-Yean Cho) 닉스 테크

최 지 은 (Jee-Eun Choi) 연세 학교 정보 학원

이 규 (Kyu-Hyun Lee) 연세 학교 정보 학원

김 희 웅 (Hee-Woong Kim) 연세 학교 정보 학원 교수, 교신 자

요 약

추천시스템은 과거 구매행동을 통해 사용자가 향후 구매할 것이라 상되는 제품을 자동으로 검색하여

제공하는 시스템이다. 이러한 추천시스템은 여러 자상거래 업체에서 도입하고 있으며, 사용자의

편의성 수익에 정 인 향을 미치고 있다. 하지만 사용자가 어떠한 기 을 가지고 제품을

평가하는지, 어떠한 요소가 구매 의사 결정에 향을 미치는지는 반 할 수 없다는 한계가 있다. 이에

본 연구에서는 사용자가 직 작성한 구매후기를 통해, 사용자 별 제품 평가요소를 활용할 수 있는

추천 모형 알고리즘을 개발하 다. 토픽 모델링을 활용하여 사용자들의 구매후기를 분석하 으며,

이러한 후기의 특성이 반 된 커 과 평가 수가 반 된 커 등을 함께 활용하여 다 커 학습

기반의 추천 모형을 개발하 다. 한, 이러한 모형을 BestBuy 사례에 용하여 검증하 다. 검증

결과, 기존 업 필터링 알고리즘보다 다 커 학습에 의한 추천 모형의 정확도가 우수하 고,

구매후기의 유사성을 반 하 기에, 사용자가 어떠한 요소를 평가하는지를 확인할 수 있었다. 한,

기존 업 필터링 알고리즘보다 다양한 제품에 한 추천이 가능함을 확인할 수 있었다. 본 연구는

토픽 모델링과 커 학습 기반을 사용한 융합 인 추천모형으로서, 온라인 추천시스템의 새로운 방법을

제안한다.

키워드 : 추천 모형, 구매 후기, 다 커 학습, 토픽모델링, 자상거래, IT 서비스, BestBuy

Ⅰ. 서 론

오늘날 정보통신기술과 인터넷을 통해 다양한

서비스 콘텐츠를 소비할 수 있게 되었다. 그러

나 다양한 랫폼의 등장과 정보의 범람 등으로

인해 소비자들은 원하는 제품을 구매하기 한 복

잡한 의사 결정 과정을 반복해야 했다. 이러한 과

정들의 반복은 소비자들이 느끼는 주 탐색 비

용(Search Cost)을 증가시키며, 향후 서비스 지속

사용 의도에도 부정 인 향을 미칠 수 있다

Page 2: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

조 승 연․최 지 은․이 규 ․김 희 웅

78 Information Systems Review, Vol.17, No.3

(Haucap and Heimeshoff, 2014). 이러한 상황에서

Amazon, eBay와 같은 로벌 자상거래 업체에

서는 추천시스템을 도입하여, 소비자가 선호할만

한 콘텐츠 상품을 추천하고 사용자의 구매 결정

을 돕고 있다(Sarwar et al., 2000).

추천시스템의 도입은 소비자의 탐색 비용을

낮추는 효과를 나타내고 있으며, 더 나아가 수익

증가에도 정 인 향을 주고 있다(Li et al.,

2014). 를 들어, Amazon.com에서는 매출의 30%

이상이 사용자 별 추천 된 상품의 구매를 통해 발

생되고 있으며, 특히 도서 매의 경우, 매량의

반 이상이 상 13만 권 외에서 발생 한다

(Brynjolfsson et al., 2011).

기존 추천 모형 련 연구들에서는 사용자들의

구매 여부 는 구매 후 평가 수(Rating)를 활용

한 업 필터링(Collaborative Filtering) 연구가 주

를 이뤘다(Li et al., 2014; Ricci et al., 2011; Merve

and Arslan, 2009). 하지만, 이 의 연구들은 구매

자의 개인 선호를 고려하지 않았기에 정확한 추천

시스템으로의 연계 개발에 한계가 있었다.

본 연구의 목 은 고객들의 온라인 구매후기

와 개인선호 내용을 바탕으로 하는 상품추천시스

템을 개발하는 것이다. 본 연구에서는 구매자들

이 작성한 구매후기를 텍스트 마이닝 기법 하

나인 토픽 모델링(Topic Modeling)을 활용하여 분

석하고, 구매자 별 리뷰 작성의 특성을 악한다. 온

라인 고객의견을 바탕으로 최근 빠른 학습 속도

와 비교 높은 정확성으로 패턴인식 분야에서 다

지고 있는 지지벡터 회귀분석(Support Vector

Regression)을 다 커 학습(Multiple kernel learn-

ing)으로 확장하고(Jun et al., 2003), 소비자 별 평

가 정보 구매후기 정보를 포 으로 사용한

추천 모형을 개발한다. 즉, 토픽모델링을 통해 구

매후기에서 다 지고 있는 주제들을 분류한 후,

분석 결과를 기반으로 구매후기 작성 횟수, 평균

평가 수, 그리고 후기 작성 여부로 세분화하여

각각의 커 을 구성한다. 한, 토픽모델링 이외

에 제품별 평가 수와 제품 구매 여부로 구성된

커 들이 모두 함께 고려되어 지지벡터 회귀분석

을 시행한다. 이는 사용자 별 제품에 한 평가

수를 측함으로써 소비자 만족도 심의 상품

추천이 가능하도록 한다. 본 연구를 통해, 추천시

스템을 도입하 거나, 도입 정인 기업에 안정

이고 소비자 심 인 추천시스템에 한 시사

추천시스템 개발 모형과 방법을 제공할 것

으로 기 한다.

Ⅱ. 기술 배경 련 연구 정리

2.1 업 필터링(Collaborative Filtering)

업 필터링 기법은 사용자들 간 구매 패턴

의 유사성을 통해 아이템의 선호도를 측하는

방법으로, 사용자의 아이템 선호도가 유행을 따

르거나, 일정한 패턴을 가지고 있다는 사실에 근

거하고 있다(Herlocker et al., 2004). 업 필터

링 기법을 활용하기 해서는 사용자들 간의 유

사도를 측정해야 하지만, 사용자 수가 많을수록

연산 시간이 기하 수 으로 증가한다는 단 이

있다. 이를 보완하기 해, 기존 연구에서는 K-NN

(k-nearest neighbors) 알고리즘이나 클러스터링

(Clustering)을 활용하여 유사집단을 분류하고 있

다(Marve and Arslan, 2009; Park et al., 2012). 한,

업 필터링 기법은 사용자가 구매한 아이템을

통해 유사 집단을 구분했는지, 아이템을 구매한

사용자를 통해 유사 집단을 구분했는지에 따라

사용자 기반 업 필터링과 아이템 기반 업

필터링으로 구분할 수 있다(Herlocker et al.,

2004). 다음 <그림 1>은 사용자 기반 업 필터

링으로 아이템에 한 특정 사용자(U)의 상 선

호도를 계산하는 방식을 나타내고 있다.

<그림 1>에 설명된 것과 같이, B의 계산은 아이

템(i)을 구매한 고객의 유사도를 사용한다. 따라서

아이템 1에 한 B의 값은 0.6이고, 사용자(U)는

아이템 1을 구매했을 때 4.3의 수를 것으로

측된다. 이에 추천시스템은 아이템 1을 사용자

Page 3: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

고객 온라인 구매후기를 활용한 추천시스템 개발 용

2015. 12. 79

용분야 유사집단 분류 방법 자 (연도)

도서

Clustering Linden et al.(2003), Rosaci et al.(2009)

K-NN McSherry(2004)

Association Rule, K-NN Kim et al.(2010)

K-NN Naren et al.(2001), Li et al.(2005)

Clustering, K-NN Weng and Liu(2004), Merve and Arslan(2009)

Clustering Kwon et al.(2009)

음악

Clustering Li et al.(2007)

Clustering, Regression Zhu et al.(2006)

Clustering, Neural Network Liu et al.(2010)

자상거래

K-NN Vezina and Militaru(2004)

Association Rule, Clustering Ha(2002)

Clustering Choi et al.(2006), Kim and Ahn(2008)

<표 1> 업 필터링 활용 연구 요약

(U)에게 쉽게 살 수 있도록 추천할 것이다. 필터링

알고리즘을 기반으로 한 아이템은 아이템간의 유

사성을 측정하며, 이는 고객이 각각의 아이템을

구매할 수 있게 측한다. 본 연구는 사용자 기반

업 필터링에 기 하여 아이템을 측한다.

×

×

0.5 5 2.5 1 0.5

0.4 3 1.2

0.1 1 0.1 5 0.5

A 2.6 2.2

B 0.6 1

A/B 4.3 2.2

<그림 1> 사용자 기반 업 필터링 시

<표 1>은 업 필터링 알고리즘을 활용한 연

구들을 정리한 것이며, 이들의 연구들은 구매이

력 데이터를 활용하여 구매자들의 유사성에 해

데이터 마이닝을 기반으로 추천시스템의 정확도

향상을 한 방법들을 제시하고 있다. 하지만, 이

러한 연구들은 RDBMS에 장되어있는 구매이

력, 쿼리(Query), 그리고 클릭패턴으로 구성된 정

형데이터를 이용한다. 이러한 데이터의 특징은

추천시스템이 사용자의 주제 별 아이템 선택에서

생기는 다양하고 특정 인 선호에 한 근이

어렵다. 본 연구에서는 추천시스템에 사용자의

다양한 구매후기를 분류 분석하기 해 토픽

모델링 기법을 활용하고, 이를 통해 비정형 온라

인 구매후기에 한 사용자의 특성을 알 수 있을

것을 기 한다(Holden, 2012).

2.2 토픽 모델링(Topic Modeling)

토픽 모델링 기법은 각 문헌을 주제(Topic)의

확률 혼합체로 표 하고, 텍스트 정보에서 숨겨

져 있는 주제들을 찾기 해 고안된 통계 추론

기법이다(Blei et al., 2010). 이러한 토픽 모델링 기

법 가장 표 인 방법은 LDA(Latent Dirichlet

allocation) 알고리즘으로 각 문서의 주제는 소수의

혼합물로 구성되어 있으며, 단어의 출 은 문서의

주제에 의해 결정된다고 가정하고 있다(Blei et al.,

2010). 토픽 모델링에서는 단어가 서로 독립 이지

않다는 가정(Dirichlet Distribution)에서 단어를 생

성하는 조건에 따라 사후확률을 추론하며, 이는

Blei(2012)의 확률 그래 모델로 표 할 수 있다

(<그림 2> 참조).

Page 4: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

조 승 연․최 지 은․이 규 ․김 희 웅

80 Information Systems Review, Vol.17, No.3

<그림 2> LDA의 확률 그래 모델 표 (Blei, 2012)

단어와 문서를 통해 문헌의 주제 비율(topic pro-

portions, ), 단어 별 주제 비율(per-word topic as-

signment, Z), 주제(topics, )를 측하게 된다. 의

경우 Dirichlet Distribution의 형태에 따라 결정된다.

따라서 이러한 LDA 모형에 따라, 문서는 다양

한 주제들로 연 될 수 있다(Blei et al., 2003, 2012;

Park and Song, 2013).

본 연구에서는, 토픽 모델링을 이용해 온라인

구매후기를 분석하고, 가장 연 된 주제로 구매

후기를 분류함으로써 구매후기 작성에 한 사용

자의 경향을 확인한다. 이에 본 연구는 사용자의

타입뿐만 아니라 LDA 분석 결과로부터 구매 이

력의 유사성을 고려한 추천 모형을 시사한다.

2.3 커 방법론(Kernel Method)

학습 문제에서 최종 모형의 해석상 편리성을

해 선형모형을 고려하는 경우가 많지만, 구매

행동과 같이 실제 행 가 선형 모형에 따를 것이

라는 가정은 실 이지 않은 경우가 많다. 이러

한 문제를 보완하기 한 방법으로는 커 트릭

(Kernel trick)이 있다. 커 트릭은 특성 변환이라

는 비선형 변환을 통해 새로운 특성공간 상에서

선형방법을 용하는 방법이다(Tan et al., 2005). 이러

한 커 트릭을 사용하는 방법으로 지지벡터기계

(Support Vector Machine, SVM)와 지지벡터 회귀

분석(Support Vector Regression, SVR)이 있다.

한, 본 연구는 추천시스템을 기반으로 한

SVR을 제안한다(Chang and Lin, 2011; Cortes and

Vapnik, 1995). SVM과 마찬가지로, 만약 특정 공

간에 있는 커 함수를 체한다면 지지벡터의

확장은 로 표 될 것이다(식 (1) 참조). 비선형

분류 문제에서는 특성함수 ϕ(x)를 용해야 하지

만, 한 를 찾는 것은 어려운 문제이다. 하지

만 이는 커 함수라 지칭하는 내 계산함수를

통해 분류함수를 얻을 수 있다(박창이 등, 2013).

커 함수의 용으로 무한차원의 특성공간을 고

려할 수 있으며, 고도의 비선형 모형을 추정할 수

있는 장 이 있다(Park et al., 2012). 마지막으로,

다음 식 (2)는 커 함수가 용된 지지벡터기계

의 분류함수이다.

∑ (1)

∑ (2)

SVM 방법은 각 데이터간의 유사성을 계산하고,

유사 역의 데이터 그룹들로 분류한다. 안 으

로, SVM 알고리즘을 이용한 SVR 방법은 에 서

술한 바의 실제 값을 측 가능하다. 본 연구는

다양한 커 함수를 통해 사용자들 간의 유사성을

계산하고, SVR 방법에 기반한 특정 아이템의 구매

수를 측하기 한 추천시스템을 실험한다.

Ⅲ. 다 커 학습을 한 연구 방법

3.1 연구 차

본 연구는 구매후기를 토픽 모델링 방법에 의

해 분석하고, 구매후기의 작성 유사성 계산 이

를 활용한 다 커 학습 기반의 추천 모형 개발

방법을 제시하고자 한다. 이를 해, 연구의 차

는 다음 <그림 3>와 같이 진행하 으며, 미국의

자상거래 사이트인 BestBuy(www.bestbuy.com)

Page 5: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

고객 온라인 구매후기를 활용한 추천시스템 개발 용

2015. 12. 81

<그림 3> 구매후기 활용 추천시스템 개발 용 차

의 API를 통해 사용자 별 구매 제품의 구매후기

평가 수를 수집하 다. 해당 사이트에서는

사용자들이 5 척도로 제품에 한 평가 수를

부여할 수 있으며, 일정한 형식 제한 없이 구매후

기를 작성할 수 있다.

본 연구에서의 연구 차는 원시 데이터 수집,

평가를 기반으로 한 커 디자인, 후기를 기반으로

한 커 디자인, 다 커 학습방법에 의한 측과

검정에 의해 크게 다섯 부분으로 구분할 수 있다.

먼 , BestBuy 제품 CD DVD 형태로 매

되는, 비교 반복 인 구매가 용이한 화, 음악,

비디오 게임에 해당하는 34,604개의 제품들을

상으로 데이터를 수집하 다. 수집된 데이터의 기

간은 2008년부터 2014년 09월까지(총 80개월) 구

매후기가 작성된 제품이며, 해당 제품을 구매하고

구매후기를 작성한 사용자들은 총 56,870명이다.

우선, 총 데이터를 평가 수와 구매 여부에 따

른 두 분류의 구매 데이터로 구분하 다. 사용자

는 온라인 구매후기를 쓰고 평가 수를 주었기

때문에, 기존 연구들과 같이 제품별 평가 데이터

를 사용하 으며, 이는 사용자의 제품에 한 구

매 의사 결정을 알 수 있었다. 이러한 두 유형의

데이터를 이용하여, 2개의 단일 커 을 디자인할

수 있다. 한, 구매후기 데이터를 토픽 모델링의

결과에 따라 3가지로 분류할 수 있다. 토픽 모델링

을 이용하여 사용자가 작성한 구매후기의 주제를

찾는다. 이는 사용자가 어떠한 제목을 얼마나 많

이 사용했는가와 주제별 사용자의 평가 분포를 알

수 있게 해 다. 마지막으로, 특정한 주제를 작성

할지에 한 결정 여부에 한 커 을 규정할 수

있는데, 이러한 3가지 유형을 이용하여 3개의 단

일 커 ( ∼)을 디자인 할 수 있다.

이와 같이, 본 연구에서는 데이터의 유형의 따라

총 5개의 단일 커 함수를 활용하 으며, 다

커 학습을 해 3가지의 커 조합을 구성하 다.

첫 번째 커 조합은 제품 별 평가 수에 따른

유사성 커 ()과 구매 제품의 유사성 커 ()

을 조합한 커 이다. 이 커 함수()를 사용하

Page 6: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

조 승 연․최 지 은․이 규 ․김 희 웅

82 Information Systems Review, Vol.17, No.3

여 기존 추천시스템 련 연구에서 활용했던 데

이터를 통해 구매 제품의 만족 정도 구매 제품

의 유사성을 종합 으로 고려할 수 있다(Li, et al.,

2014; Liu et al., 2010; Jun et al., 2003). 두 번째

커 조합()은 구매후기의 유사성을 계산한 커

들( ∼)의 조합이며, 세 번째 커 조합

()은 본 연구에서 활용한 모든 단일 커 들

( ∼)의 조합이다. 마지막으로, 다 커 학

습 알고리즘을 기반으로 한 추천시스템과 10겹

교차 검증 법을 용했다.

3.2 커 함수 조합

연구 차에서 언 한 것과 같이, 본 연구에서

는 데이터 유형에 따라 총 8개의 커 함수를 활

용하여 추천 모형 학습을 진행하 다. 단일 커

( ∼)은 가우시안(Gaussian) 함수를 기반으로

한 가우시안 커 (Gaussian kernel)과 유사도를 측

정하는 여러 함수 코사인 유사도 함수를 기반

으로 한 코사인 유사 커 (Cosine similarity kernel)

을 사용하 다.

먼 , 내 공간에서 두 벡터 간의 각도를 코사

인(Cosine) 값을 이용하여 두 벡터간의 유사도를

측정하는 코사인 유사 커 은 다음 식 (3)과 같으

며, [-1, 1]의 값을 갖는다. 코사인 유사도의 값이

-1에 가까울 경우 두 벡터는 정 반 의 방향으로

향함을 의미하며, 1에 가까울수록 동일한 방향을

향하게 되어 두 벡터는 유사하다고 단할 수 있다.

한 0에 가까울수록 두 벡터는 서로 직교(Ortho-

gonal)하며, 독립 임을 의미한다.

(3)

(4)

∑ ×

따라서 코사인 유사도 함수는 자료 이 0 는

1로 표 가능한 제품 구매 여부 데이터와 구매

후기 주제별 작성 여부 데이터를 활용한 와

에 용하여, 사용자 간 코사인 내 을 통해

유사도를 측정하 다(Tan et al., 2005; Singhal,

2001).

다음 단일 커 함수인 가우시안 커 은 비선

형 데이터 간의 유사성을 계산하는데 주로 사용

되는 표 인 RBF커 (Radial basis function ker-

nel)이며, 의 식 (4)와 같다. 가우시안 커 은 주

로 지지벡터기계를 통한 비선형 데이터의 분류를

해 사용되었으며, 이는 벡터 간의 유사성을 측

정하기 해 사용되었다(Hagen et al., 2007; Phillips

et al., 2011). 그러므로, 각 항목 후기의 비율과 평

가 수의 평균을 사용하여 사용자 간의 유사도

를 계산하 다.

단일 커 학습을 통해서는 한 가지 유형의 데

이터만을 사용할 수 있으므로, 본 연구와 같이 다

양한 유형의 데이터를 종합 으로 다루기에는 한

계가 있다. 따라서, 여러 커 함수를 조합하여

학습하는 다 커 학습은 이러한 단일 커 학

습의 단 을 보완할 수 있다.

본 연구에서는 다 커 학습을 한 커 조

합 방법으로 Dioş et al.(2007)에서 활용한 선형 커

조합(Linear kernel combination)을 활용하 다.

선형 커 조합에서는 커 함수 별 가 치가

용되나, 본 연구에서는 모든 커 함수의 가 치

를 동일하게 용하여 분석을 진행하 다.

Ⅳ. 데이터 분석 결과

4.1 토픽 모델링을 기반으로 한 온라인 구매

후기 분류

BestBuy의 API로부터 데이터를 수집하 다. 한

번 이상 작성된 구매후기의 수는 체 62,023개이

며, 그 화, 음악 그리고 비디오 게임 카테고

리의 제품은 42,755개 다.

Page 7: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

고객 온라인 구매후기를 활용한 추천시스템 개발 용

2015. 12. 83

70%

60%

50%

40%

30%

20%

10%

0%Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 Topic 6 Topic 7 Topic 8 Topic 9 Topic 10

Movie Music Video Game

<그림 4> LDA 결과

본 연구에서는 사용자들에 의해 구매되었던 3

가지의 카테고리의 아이템을 분석했다. 그리고,

텍스트 데이터의 구조를 통해 주제를 객 으로

분석할 수 있는 토픽 모델링 기법을 활용하여 사

용자의 구매후기를 분석하 다. 이를 해, 수집

된 구매후기 데이터의 처리를 해 Stanford

NLP를 사용하여, 분석 시에 불필요한 데이터를

삭제하고 데이터의 형식을 통일하 다(Wu and

Weld, 2010; Paul et al., 2010; De Marneffe and

Manning, 2008). 한, JAVA로 구 된 Mallet Topic

Modeling Package를 사용하여 각 카테고리 별 작

성된 구매후기의 주제 분석 분류를 수행하 다

(Blei, 2012). 구매후기 작성에 한 사 정보가

없기 때문에, 본 연구에서는 주제 수(η)를 10으로

가정하 다. LDA 토픽모델링에서 주제 수가 주어

져 있지 않은 경우, 여러 번의 시행 후 가장 하

다고 단된 수로 지정하거나, HDP-LDA 토픽모

델링 방법에서 자동 으로 주어지는 주제의 수를

활용한다(Wang and Blei, 2009). 그러나 본 연구에

서는 카테고리 별 분석의 용이성을 해 가장 보

편 으로 사용되는 주제 수 10으로 가정하여 진행

하 다. 온라인 구매후기 LDA 토픽 모델링의 결

과는 <그림 4>에 표시되어있다.

다음 <표 2>는 총 34,603개의 제품들의 과

련 구매후기를 토픽모델링 기법 LDA를 통

해 분석하 으며, 각 주제에 해당하는 구매후기

에서 작성빈도가 높은 단어 상 10개를 요약하

다.

LDA 모델은 텍스트형식 데이터의 단어들과

구조를 통해 문서를 테마로 분류하는데, 각 주제

의 제목은 연구자들에 의해 가장 빈번하게 쓰이

는 단어들로 추론하여 단된다(Park and Song,

2013). 본 연구는 화와 련된 콘서트, 배우에

한 인식, 애니메이션, 가족 화, DVD 화질, 희

극, 실화, 공포, 연기력 그리고 TV 콘텐츠의 10가

지 주제에 한 아이템의 온라인 구매후기를 설

명한 LDA 결과를 이용한다.

이와 같은 과정과 동일하게, 음악과 비디오 게

임에 한 온라인 구매후기 한 분류할 수 있다.

총 32,351개의 체 온라인 구매후기를 포함하는

음악 카테고리의 LDA 결과(<표 3> 참조)를 분석

하면, 음악을 follows-Rock, 가사, OST, 밴드 음악,

구매 추천, 기타리스트, 헤비 메탈, 악기, 힙합 그

리고 보컬로 된 10개의 주제로 분류한다.

Page 8: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

조 승 연․최 지 은․이 규 ․김 희 웅

84 Information Systems Review, Vol.17, No.3

Topic 1 Topic 2 Topic 3 Topic 4 Topic 5

dvd movie series movie Dvd

music great anime great Bluray

great good match love Quality

fan story fan watch Film

concert action batman family Great

song amazing animation kid Version

video like character old Feature

band love action good Disc

show watch story time Special

live really voice dvd Release

Topic 6 Topic 7 Topic 8 Topic 9 Topic 10

movie real film film Show

good film horror great Season

like story original role Series

funny life films who Episode

watch history fan star Great

see people zombie cast Tv

time world like performance Watch

bad character make play Love

laugh time classic character Dvd

really take director comedy Fan

<표 2> 토픽 모델링 결과: 화 련 구매후기

Topic 1 Topic 2 Topic 3 Topic 4 Topic 5

band song movie album Cd

album music version song Great

live time soundtrack great Music

festival love disc good Love

rock feel track band Song

concert life original sound Good

amazing make fan fan Buy

see story bonus new Songs

tour favorite set like Listen

show lyric music rock Like

Topic 6 Topic 7 Topic 8 Topic 9 Topic 10

rock metal music album Music

guitar album musical rap Voice

band bass guitar beats Song

blues drum sound rapper Love

classic guitar bass beat album

album heavy instrument classic vocal

guitarist song jazz track artist

song vocal melody artist beautiful

country hard piano hiphop great

music sound beautiful real Hear

<표 3> 토픽 모델링 결과: 음악 련 구매후기

Page 9: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

고객 온라인 구매후기를 활용한 추천시스템 개발 용

2015. 12. 85

Topic 1 Topic 2 Topic 3 Topic 4 Topic 5

guitar new old ps weapon

song creed year gta upgrade

dance brotherhood different mission Boss

bit version wii duty adventure

songs assassins controller waste metal

music multiplayer kid psp action

rock control kids money Story

band year family weapon gameplay

mic storyline son city enemies

fun series tiger know ninja

Topic 6 Topic 7 Topic 8 Topic 9 Topic 10

mode rpg kinect character game

sport fantasy controll fantasy Play

player final little original Real

football character move age great

baseball different level dragon Good

gameplay online feel fight Like

show mode couple awakenings games

realistic story fire characters Time

review campaign practice gameplay graphic

ea boss style good graphics

<표 4> 토픽 모델링 결과: 비디오 게임 련 구매후기

본 연구에서, 부분의 CD/DVD 형태의 제품

을 화와 음악의 카테고리로 정하 으나, 다른

카테고리에 비해 은 수의 아이템들인 비디오

게임 카테고리의 아이템이 포함되어있다. 비디오

게임의 아이템은 128개이며, 총 369개의 구매후

기가 작성되었다. 다른 카테고리에 해당하는 제

품들에 비해 구매이력이 지만, 화 음악에

련된 아이템들과 동일하게 10개의 주제로 분석

하 다(<표 4> 참조). 화 음악과 달리, 비디

오 게임은 게임 콘솔(Console)과 련된 단어들이

등장한다. 비디오 게임 카테고리에 한 온라인

구매후기 분석에 한 결과를 보면, 각 주제에 따

라 음악 게임, 어쎄신 크리드, 가족 게임_ , 액션

게임_소니, 액션게임, 스포츠 게임, 이야기, 가족

게임_키넥트, 캐릭터와 화질의 장르로 나뉜다.

4.2 추천시스템의 정확도 측정

데이터 유형에 따라 총 8개의 커 함수가 구성

된다. 단일 커 ( ∼)은 가우시안 커 과 코사

인 유사 커 을 이용한다. 하지만, 단일 커 학습

을 통해서는 한 가지 유형의 데이터만을 사용할

수 있으므로, 본 연구와 같이 다양한 유형의 데이

터를 종합 으로 다루기에는 한계가 있다 (Dioş

et al., 2007). 여러 커 함수를 조합하여 학습하는

다 커 학습은 이러한 단일 커 학습의 단 을

보완할 수 있기 때문에 다양한 유형의 데이터를

종합 으로 다룰 수 있다(Wulff and Ong, 2013).

Page 10: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

조 승 연․최 지 은․이 규 ․김 희 웅

86 Information Systems Review, Vol.17, No.3

Description Data Mean RMSE Std. RMSE

다 커 학습(SVR)

Gaussian kernel 아이템 별 평가 수 0.578 0.322

Cosine similarity kernel 아이템 구매 여부 0.690 0.346

Gaussian kernel Topic 별 작성 횟수 0.618 0.322

Gaussian kernel 작성리뷰 Topic 별 평균 평가 수 0.667 0.287

Cosine similarity kernel Topic작성 여부 0.733 0.188

~ kernel combination 0.355 0.153

~ kernel combination 0.712 0.178

~ kernel combination 0.198 0.099

<표 5> 추천 모형의 측 정확도

본 연구에서는 다 커 학습을 한 커 조

합 방법으로 Dioş et al.(2007)에서 활용한 선형 커

조합(Linear kernel combination)을 활용하 다.

선형 커 조합에서는 커 함수 별 가 치가

용되나, 본 연구에서는 모든 커 함수의 가 치

를 동일하게 용하여 분석을 진행하 다. 다

커 학습을 통한 업 추천시스템 알고리즘의

구 을 해 본 연구에서는 Shogun-toolbox의

R-moduler를 활용하 다(Sören et al., 2010; Wulff

and Ong, 2013). 한, 구 된 추천 모형의 정확도

를 평가하기 한 10 겹 교차검증법은 R package

‘cvTools’를 통해, 체 데이터를 학습 데이터

와 평가 데이터로 구분하여 진행하 다.

RMSE(Root Mean Square Error)를 활용하여 모

형 정확도를 평가하 다. 여기에서 Pij는 사용자

i가 아이템 j에 한 평가 수를 추천 모형에 의해

측한 값이며, Rij는 실제 평가 수를 의미한다.

이때, RMSE 값이 작을수록, 추천 모형의 정확도

가 더 좋음을 의미한다(Li et al., 2014). 본 연구에

서는 실제 평가 수가 있는 아이템을 상으로

정확도를 측정하 다.

총 8개의 커 학습은 커 함수에 의존하는

지지벡터 회귀분석을 기반으로 한 추천시스템으로

부터 학습되었다. 의 <표 5>는 2014년에 구매가

이 진 5,578개의 아이템에 한 사용자 별 평가

수를 측한 결과(10회 진행한 RMSE의 평균)이다.

본 연구에서, SVR 방법으로 추천시스템을 개

발하고 검증했다. 이 의 연구 추천시스템은

주로 업 필터링 방법을 기반으로 하기 때문에,

실존하는 방법인 SVR을 기반으로 한 추천시스템

들 간의 정확도를 비교할 수 있다. <표 6>과 같이

기존의 업 필터링과 업 방법을 기반으로 한

단순 사용자들을 통해 개발된 추천시스템의 결과

를 측정할 수 있다.

4가지 방법으로 클러스터화하기 에 당한

클러스터의 수를 계산하 다. 구매 기록의 분석

에 따라 11개의 클러스터와 온라인 구매후기에

한 주제로 7개의 클러스터가 있다. 이러한 결과

를 통해서 기존의 업 필터링 알고리즘을 용

하는 사용자 데이터를 클러스터 분석을 수행했으며,

그 결과는 <표 6>과 같다.

일반 으로, 정확성이 비교 낮은 하나의 데

이터 기록을 사용한 업 필터링 방법을 SVR을

기반으로 한 추천 모형과 비교하 다. 한, 사용

자들 사이에서 유사성을 고려한 업 필터링 기

반으로 한 단순 사용자 모델은 비교 높은 정확

도를 나타내었다. 하지만, 동일한 데이터를 이용

하여 SVR에 기 한 모델에 비해 낮은 정확도를

가지고 있었다. 따라서, 두 방법은 비선형모델을

개발하기 한 것들이며, 특정 공간의 확장을 사

용하는 SVR 측 방법이 더 정확하다는 것을 알

수 있다(Chen, 2013; Li et al., 2014).

Page 11: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

고객 온라인 구매후기를 활용한 추천시스템 개발 용

2015. 12. 87

Description Data Mean RMSE Std. RMSE

Baseline–기존의 업 필터링

Rating Clustering Clustering basedCollaborative Filtering

사용자 간 가 치 동일2.318 2.459

Topic Clustering 2.821 2.091

Baseline(2)–Simple user based collaborative filtering

Product_CosineCosine similarity

아이템 구매 여부 1.196 1.877

Topic_Cosine Topic 작성 여부 1.755 1.675

Product_Gaussian

Gaussian similarity

아이템 별 평가 수 1.031 1.730

Topic_Gaussian작성 리뷰 Topic 별 평균

평가 수1.308 1.410

<표 6> 업 필터링 기반 모형 정확도

4.3 구매 다양성에 따른 추천 모형의 정확도

3개의 카테고리( 화, 음악 그리고 비디오 게임)

에서 하나 는 그 이상의 아이템의 구매 데이터와

구매한 아이템의 데이터 그리고 BestBuy API를 통

해 온라인 구매후기를 수집했다. 하지만, 단지 하나

의 아이템을 구매한 이용자(하나의 아이템에 구매

후기를 은 이용자)는 체의 약 72.6%(41,312명)

이다. 이러한 이용자의 데이터 비율은 부정 인

결과를 미친다(Su and Taghi, 2009). 따라서, 다양한

구매에 해 결과의 정확도를 비교할 수 있는 실험

을 구성해야 한다. <그림 5>는 구매의 다양성을

고려한 모형의 정확도 비교 결과를 나타낸다.

앞서 분석한 결과와 같이, 아이템 구매의 유사

성 구매후기 작성의 유사성을 종합 으로 고

려한 다 커 모형()의 정확도가 가장 우수

한 것을 확인할 수 있다. 한, 다 커 모형

()은 구매 다양성에 따라 특정 아이템의 구매

여부 평가 수 데이터를 활용한 추천 모형

()과 비교해도 정확도가 우수함을 알 수 있다.

이는 사용자가 동일한 아이템을 구매할지라도 아

이템에 한 그들만의 평가기 이 있기 때문이다.

즉, 다수의 품목을 구매한 사용자일수록 구매후

기 작성과 련된 데이터가 종합 으로 고려되어

본 연구에서 개발한 모형의 정확도에 정 인

향을 끼치는 것이다. 이러한 다수의 제품 구매

후기와 그로부터 분석 된 데이터는 다 커 학

습 모델이 사용자 구매 다양성을 고려하게 하며,

다양성에 한 고려는 다 커 학습의 정확도

를 높여주는 데 기여한다.

추천 모형 정확도

구매 품목 수> = 1 > = 2 > = 10

54,080

11,207

1,561

1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0

60,000

50,000

4,000

30,000

20,000

10,000

-

UserK1K2

K3K4K5

K6K7K8

<그림 5> 추천 모형의 정확도 비교

다시 말해, 동일한 평가기 을 가고 있는 사용자

들을 구매후기를 통해 분류할 수 있을 것이며, 우연에

의한 동일 주제의 구매후기는 추천 모형에서 잡음

(White noise)으로 작용한다(Su and Taghi, 2009).

Ⅴ. 연구결과 시사

5.1 연구결과 토의

본 연구는 추천 모형을 개발함에 있어 온라인

구매후기를 활용할 수 있는 방법을 제안하 으

며, 그에 따라 실제 자상거래 사이트의 데이터

Page 12: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

조 승 연․최 지 은․이 규 ․김 희 웅

88 Information Systems Review, Vol.17, No.3

를 통해 추천 모형의 정확도를 평가하 다.

분석 결과, 체 으로 지지벡터 회귀모형에

의한 정확도가 기존 업 필터링 알고리즘에

의한 측보다 우수함을 확인할 수 있었으며, 구

매후기까지 종합 으로 활용한 다 커 학습

()이 가장 우수하다는 것을 확인 할 수 있었다

(Chang and Jin, 2011; Li et al., 2014). 이는 사용자

간의 유사성 단 시 구매후기의 작성 유사성

한 유의미한 향을 미칠 수 있음을 시사한다.

더 나아가, 본 연구를 통해 구매후기를 활용한

다 커 학습()의 정확도가 구매 다양성에

따라 향상되는 것을 확인할 수 있었다. 이는 다양

한 아이템을 구매한 사용자집단 내에서도 유사한

평가기 을 가지고 구매후기를 작성하는 세부 사

용자집단이 있으며, 이들 간의 유사성은 구매 다

양성에 따라 뚜렷하게 드러날 수 있기 때문이다

(Su and Taghi, 2009).

5.2 연구의 한계

본 연구는 토픽 모델링 기법을 통해 구매후기를

분류하고, 최종 으로 이를 활용한 추천 모형 개발

방안을 제시 검증하 다. 하지만, 다음과 같은

한계 을 가지고 있으며, 이는 향후 연구에서 보완

되어야 할 것이다. 첫 번째로, 데이터의 다양성 부

족이다. 앞서 설명한 것과 같이, 본 연구는 자상

거래 사이트 ‘BestBuy’에서 운 하는 API를 통해

데이터를 수집하 기 때문에, 실제 구매 여부

수량에 한 데이터를 구매후기 작성여부로 체

하 다. 즉, 구매는 하 으나 구매후기를 작성하지

않은 경우는 본 연구에서 다루지 못했다. 두 번째

로 모수에 한 연구 부족이다. 본 연구에서는 구

매후기 분석 시 주제 수를 카테고리 별 10개 가정하

고 진행하 으며, 다 커 학습 시 커 함수의

가 치를 동일하게 1로 부여하 다. 즉, 향후 연구

에서는 사용자들이 구매후기를 작성할 시 어떠한

주제로 작성하는지에 한 객 인 분석이 필요하

며, 다 커 학습 시 커 가 치를 어떻게 부여할

지에 한 연구가 이 져야 할 것이다(Li et al.,

2014; 박자헌, 송민, 2013).

세 번째는 제한 인 아이템 카테고리이다. 본

연구에서는 비교 반복구매가 용이한 CD DVD

형태의 아이템을 상으로 하 지만, 실제 해당

사이트에서는 약 20개의 아이템 카테고리가 있다.

따라서, 본 연구에서는 다루지 않은 다른 카테고리

들을 포 한 추천 모형의 검증이 필요할 것이다.

마지막으로 구매후기와 평가 수 간의 불일

치 가능성이다. 여러 온라인 비즈니스 사이트에

서는 사용자가 직 구매후기를 작성하고 평가

수를 기입한다. 이러한 환경에서 고의 는

비고의 인 요인으로 인해, 평가 수와 구매후

기 내용 간의 불일치가 발생할 수 있다. 본 연구

에서는 구매후기 주제 별 평균 평가 수를 활용

한 커 함수()를 활용하 으나, 향후 연구에

서는 구매후기에 한 감성 분석을 추가 으로

진행하여 이러한 문제를 보완해야 할 것이다.

5.3 학술 의의와 실무 시사

본 연구는 비정형 데이터인 구매후기를 텍스

트 마이닝 기법을 통해 분석하고, 이를 추천시스

템 알고리즘에서 활용하고 있다. 이러한 본 연구

의 학술 의의를 살펴보면 다음과 같다. 첫째,

추천시스템에서 비정형 데이터인 구매후기를 활

용할 수 있는 방법을 개발하 다. 기존 추천시스

템 련 연구 알고리즘에서는 비교 계량화

가 용이한 Web-log 데이터 구매 아이템에 한

사용자 별 평가 수를 활용하고 있으나(Li et al.,

2014; Ricci et al., 2011), 본 연구에서는 온라인 구

매후기를 토픽 모델링 기법으로 분석하 다.

둘째, 다 커 학습을 기반으로 아이템 구매

정보 구매후기 데이터 등 여러 유형의 데이터

를 활용한 종합 추천 모형 개발 방법을 제시하

다. 각 데이터의 특성에 맞는 커 함수를 용

하 으며, 이를 하나의 커 함수를 만들기 해

선형 조합된 다 커 함수를 디자인 할 수 있었다.

Page 13: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

고객 온라인 구매후기를 활용한 추천시스템 개발 용

2015. 12. 89

셋 째, 비선형 데이터 분석에서 단일 커 학습보다

다 커 학습이 더 우수한 정확도를 기 할 수

있음을 재확인하 다(Gönen and Alpaydin, 2011;

Li et al., 2014). 마지막으로, 토픽 모델링을 통해

분석한 구매후기 기반의 사용자간 유사성이 상품

추천에 유의한 향을 미칠 수 있음을 확인하 다.

이는 구매후기 사이의 유사성이 사용자간의 유사

성을 찾을 수 있는 요한 요소임을 나타낸다.

본 연구의 실무 시사 은 다음과 같다. 첫째,

구매후기 작성이 가능한 타 자상거래 기업에도

용 가능한 방법을 제시하고 있다. 기존 추천시

스템 알고리즘에서는 아이템 구매 여부 친구

들 간의 네트워크 정보만을 활용하고 있기 때문

에, 실제 어떤 내용의 정보가 해당 아이템을 설명

하고 있는지 고려하기 어렵다(Li et al., 2014; Li

and Chen, 2013). 하지만, 본 연구에서 제시한 방

법에 의해서 해당 아이템에 해 어떠한 정보가

생성되고 있는지 확인이 가능한 동시에 사용자별

아이템의 추천이 가능할 것이다.

둘째, 본 연구를 통해 발견한 방법으로 다양한

아이템을 상으로 한 롱테일(Long-tail) 략을

구사할 수 있다. 구매후기를 활용한 알고리즘을

통해서는 구매이력은 다르지만, 구매후기의 유사

성을 활용하여 다양한 아이템을 추천할 수 있다.

즉, 구매후기와 제품의 유사성을 동시에 고려할

수 있기 때문에 추천 가능한 아이템 리스트가 확

될 수 있는 것이다. 마지막으로, 평가 수를

측함으로써, 구매 만족도 심의 상품추천이

가능하다. 실제 제품을 구매하 으나 후기를 작

성하지 않을 수 있기 때문에, 여러 온라인 자상

거래 기업에서는 구매 는 클릭할 확률이 높은

제품에 한 추천만이 가능하 다. 하지만, 본 연

구에서는 아이템 구매여부 데이터를 활용한 단일

커 학습()을 통해, 아이템 구매 여부만을 활

용하여서도 평가 수를 측할 수 있음을 검증

하 다. 더 나아가, 본 연구의 결과를 통해 다

커 학습을 용하여 우수한 정확도의 평가

수를 측할 수 있으며, 사용자 별 만족도 심의

상품 추천을 할 수 있다는데 연구의 의의가 있다

고 할 수 있을 것이다.

참 고 문 헌

박창이 외, “R을 이용한 데이터마이닝”, 교우사,

2013.

Blei, D., A. Ng, and M. Jordan, “Latent dirichlet alloca-

tion”, The Journal of Machine Learning Research,

Vol.3, 2003, pp. 993-1022.

Blei, D. M., “Probabilistic topic models”, Communica-

tions of the ACM, Vol.55, No.4, 2012 , pp. 77-84.

Blei, D. M., T. L. Griffiths, and M. I. Jordan, “The

nested Chinese restaurant process and bayesian

nonparametric inference of topic hierarchies”,

Journal of the ACM (JACM), Vol.57, No.2, 2010,

p. 7.

Brynjolfsson, E., Y. Hu, and D. Simester, “Goodbye

pareto principle, hello long tail: The effect of

search costs on the concentration of product sales”,

Management Science, Vol.57, No.8, 2011, pp.

1373-1386.

Calinski, T. and J. Harabasz, “A dendrite method for

cluster analysis”, Communications in Statistics,

Vol.3, 1974, pp. 1-27.

Chang, C. C. and C. J. Lin, “LIBSVM: a library for

support vector machines”, ACM Transactions on

Intelligent Systems and Technology (TIST), Vol.2,

No.3, 2011, p. 27.

Choi, S. Y., B. Choi, and H. Lee, “Categorizing com-

mercial products for customer oriented online re-

tailing”, Computers & Industrial Engineering,

Vol.51, No.1, 2006, pp. 90-101.

Cortes, C. and V. Vapnik, “Support-vector networks”,

Machine learning, Vol.20, No.3, 1995, pp. 273-297.

De Marneffe, M. C. and C. D. Manning, Stanford

typed dependencies manual, [On-line Available]:

http://nlp.stanford.edu/software/dependencies

Page 14: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

조 승 연․최 지 은․이 규 ․김 희 웅

90 Information Systems Review, Vol.17, No.3

manual.pdf, 2008.

Dioş, L., M. Oltean, A. Rogozan, and J. P. Pecuchet,

“Improving svm performance using a linear com-

bination of kernels, In Adaptive and Natural Com-

puting Algorithms”, Springer Berlin Heidelberg,

2007, pp. 218-227,

Gönen, M. and E. Alpaydin, “Multiple kernel learning

algorithm”, The Journal of Machine Learning

Research, Vol.12, 2011, pp. 2211-2268.

Ha, S. H., “Helping Online Customers Decide through

Web Personalization”, IEEE intelligent systems

& their applications, Vol.17, No.6, 2002, pp.

34-43.

Haucap, J. and U. Heimeshoff, “Google, Facebook,

Amazon, eBay: Is the Internet driving competition

or market monopolization?”, International Eco-

nomics and Economic Policy, Springer, Vol.11,

No.1, 2014, pp. 49-61.

Herlocker, J. L., J. A. Konstan, L. G. Terveen, and

J. T. Riedl, “Evaluating collaborative filtering rec-

ommender systems”, ACM Transactions on

Information Systems (TOIS), Vol.22, No.1, 2004,

pp. 5-53.

Holden, J. D., Second that Emotion: How Decisions,

Trends, and Movements are Shaped, Prometheus

Books, 2012.

Jin, X. and J. Han, “K-Medoids Clustering, In Encyclo-

pedia of Machine Learning”, Springer US, 2010,

pp. 564-565.

Kang, H. C., S. T. Han, G. Y. Kim, and M. S. Jeon,

“Principals of multivariate data analysis using

SAS examples, 1st Edition”, Freedom Academy,

2005.

Kim, H. N., A. T. Ji, I. Ha, and G. S. Jo, “Collaborative

filtering based on collaborative tagging for en-

hancing the quality of recommendation”, Elec-

tronic Commerce Research And Applications,

Vol.9, No.1, 2010, pp. 73-83.

Kim, K. J. and H. Ahn, “A recommender system using

GA K-means clustering in an online shopping

market”, Expert systems with applications, Vol.34,

No.2, 2008, pp. 1200-1209.

Kwon, K., J. Cho, and Y. Park, “Multidimensional

credibility model for neighbor selection in collabo-

rative recommendation”, Expert systems with ap-

plications, Vol.36, No.3, 2009, pp. 7114-7122.

Li, X. and H. Chen, “Recommendation as link pre-

diction in bipartite graphs: A graph kernel-based

machine learning approach”, Decision Support

Systems, Vol.54, No.2, 2013, pp. 880-890.

Li, X., M. Wang, and T. P. Liang, “A multi-theoretical

kernel-based approach to social network-based

recommendation”, Decision Support Systems,

Vol.65, 2014, pp. 95-104.

Li, Q., S. H. Myaeng, and B. M. Kim, “A probabilistic

music recommender considering user opinions

and audio features”, Information processing &

management, Vol.43, No.2, 2007, pp. 473-487.

Li, Y., L. Lu, and L. Xuefeng, “A hybrid collaborative

filtering method for multiple-interests and multi-

ple-content recommendation in E-Commerce”,

Expert Systems with Applications, Vol.28, No.1,

2005, pp. 67-77.

Linden, G., B. Smith, and J. York, “Amazon.com

Recommendations: Item-to-Item Collaborative

Filtering”, IEEE Internet computing, Vol.7, No.1,

2003, pp. 76-80.

Liu, X. F., C. K. Tse, and M. Small, “Complex network

structure of musical compositions: Algorithmic

generation of appealing music”, PHYSICA A,

Vol.389, No.1, 2010, pp. 126-132.

McSherry, D., “Balancing user satisfaction and cogni-

tive load in coverage-optimised retrieval”, Know-

ledge-based systems, Vol.17, No.2-4, 2004, pp.

113-119.

Merve, A. and A. Arslan, “A collaborative filtering

Page 15: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

고객 온라인 구매후기를 활용한 추천시스템 개발 용

2015. 12. 91

method based on artificial immune network”,

Expert Systems with Applications, Vol.36, 2009,

pp. 8324-8332.

Milligan, G. W. and M. C. Cooper, “An examination

of procedure for determining the number of clus-

ters in a data set”, Psychometrika, Vol.50, No.2,

1985, pp. 159-179.

Naren, R., J. K. Benjamin, J. M. Batul, Y. G. Ananth,

and K. George, “Privacy risks in recommender

systems”, IEEE Internet Computing, Vol.5, No.6,

2001, pp. 54-62.

Park, D. H., H. K. Kim, I. Y. Choi, and J. K. Kim,

“A literature review and classification of recom-

mender systems research”, Expert Systems with

Applications, Vol.39, No.11, 2012, pp. 10059-

10072.

Park, H. S. and C. H. Jun, “A simple and fast algorithm

for K-medoids clustering”, Expert Systems with

Applications, Vol.36, No.2, 2009, pp. 3336-3341.

Park, J. H. and M. Song, “A study on research trends

in library & information science in Korea using

topic modelling”, Korea Society for Information

Management, Vol.30, No.1, 2013, pp. 7-32.

Paul, M. J., C. Zhai, and R. Girju, “Summarizing con-

trastive viewpoints in opinionated text, In

Proceedings of the 2010 Conference on Empirical

Methods in Natural Language Processing”,

Association for Computational Linguistics, 2010,

pp. 66-76.

Ricci, F., L. Rokach, and B. Shapira, Introduction

to recommender systems handbook, MA: Springer

US., 2011.

Rosaci, D., G. M. L. Sarne, and S. Garruzzo, “MUADDIB:

A Distributed Recommender System Supporting

Device Adaptivity”, ACM Transactions on Infor-

mation Systems, Vol.27, No.4, 2009, pp. 1-41.

Sarle, W. S., “Cluster analysis by least squares”,

Proceedings of the Seventh Annual SAS Users

Group International Conference, 1982, pp. 651-653.

Sarwar, B., G. Karypis, J. Konstan, and J. Riedl,

Application of dimensionality reduction in recom-

mender system-a case study, No.TR-00-043,

Minnesota Univ. Minneapolis Dept. of Computer

Science, 2000.

Soren, S., R. Gunnar, H. Sebastian, W, Christian, B.

Jonas, Z. Alexander, D. B. Fabio, B. Alexander,

G. Christian, and Vojt ch, F., “The SHOGUN

Machine Learning Toolbox”, The Journal of

Machine Learning Research, Vol.11, 2010, pp.

1799-1802.

Tan, P.-N., M. Steinbach, and V. Kumar, Introduction

to Data Mining, MA: Addison-Wesley., 2005.

Vezina, R. and D. Militaru, “Collaborative filtering:

theoretical positions and a research agenda in

marketing”, International Journal of Technology

Management, Vol.28, No.1, 2004, pp. 31-45.

Wang, C. and D. M. Blei, “Decoupling sparsity and

smoothness in the discrete hierarchical dirichlet

process”, Advances in Neural Information Pro-

cessing Systems, 2009, pp. 1982-1989.

Weng, S. S. and M. J. Liu, “Feature-based recom-

mendations for one-to-one marketing”, Expert

Systems with Applications, Vol.26, No.4, 2004,

pp. 493-508.

Wu, F. and D. S. Weld, “Open information extraction

using Wikipedia”, In Proceedings of the 48th

Annual Meeting of the Association for Computa-

tional Linguistics, 2010, pp. 118-127.

Wulff, S. and C. S. Ong, “Analytic center cutting plane

method for multiple kernel learning”, Annals of

Mathematics and Artificial Intelligence, Vol.69,

No.3, 2013, pp. 225-241.

Zhu, X., Y. Y. Shi, H. G. Kim, and K. W. Eom,

“An integrated music recommendation system”,

Consumer Electronics, IEEE Transactions, Vol.52,

No.3, 2006, pp. 917-925.

Page 16: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

조 승 연․최 지 은․이 규 ․김 희 웅

92 Information Systems Review, Vol.17, No.3

Information Systems Review

Volume 17 Number 3

December 2015

An Online Review Mining Approach to a Recommendation System

Seung-Yean Cho*․Jee-Eun Choi**․Kyu-Hyun Lee***․Hee-Woong Kim****

Abstract

The recommendation system automatically provides the predicted items which are expected to be

purchased by analyzing the previous customer behaviors. This recommendation system has been ap-

plied to many e-commerce businesses, and it is generating positive effects on user convenience as well

as the company’s revenue. However, there are several limitations of the existing recommendation

systems. They do not reflect specific criteria for evaluating products or the factors that affect customer

buying decisions. Thus, our research proposes a collaborative recommendation model algorithm that

utilizes each customer’s online product reviews. This study deploys topic modeling method for cus-

tomer opinion mining. Also, it adopts a kernel-based machine learning concept by selecting kernels ex-

plaining individual similarities in accordance with customers’purchase history and online reviews. Our

study further applies a multiple kernel learning algorithm to integrate the kernelsinto a combined mod-

el for predicting the product ratings, and it verifies its validity with a data set (including purchased

item, product rating, and online review) of BestBuy, an online consumer electronics store. This study

theoretically implicates by suggesting a new method for the online recommendation system, i.e., a col-

laborative recommendation method using topic modeling and kernel-based learning.

Keywords: Recommendation Model, Purchase Reviews, Multiple Kernel Learning, Topic Modeling,

e-Commerce, IT Service, BestBuy1)

* NICS TECH

** Graduate School of Information, Yonsei University

*** Graduate School of Information, Yonsei University

**** Corresponding Author, Graduate School of Information, Yonsei University

Page 17: 고객 온라인 구매후기를 활용한 추천시스템 개발 및 적용web.yonsei.ac.kr/dslab/Journal/isr20151.pdf · 2016-01-06 · 고객 온라인 구매후기를 활용한

고객 온라인 구매후기를 활용한 추천시스템 개발 용

2015. 12. 93

◐ 자 소 개 ◑

조 승 연 ([email protected])

재 닉스테크 기술기획에 재직 이다. 연세 학교 정보통계학과에서 학사,

연세 학교 정보 학원에서 석사를 취득하 다. 주요 연구분야는 Big Data Analytics,

Security Intelligence 등이다. Asia-Pacific Decision Science Institute Conference

(APDSI) 2014에서 논문을 발표하 다.

최 지 은 ([email protected])

연세 학교 불어불문학과에서 학사를 마쳤으며, 재 연세 학교 정보 학원에서

디지털 경 석사과정 에 있다. 디지털마 문 회사인 ECHO Marketing에서

해외 온라인 고 AE로 근무한 바 있고, 심 연구분야는 Digital Business, Social

Media Marketing, Big Data Analytics 등이다.

이 규 ([email protected])

연세 학교 정보통계학과에서 학사를 마쳤으며, 재 연세 학교 정보 학원에서

디지털 경 석사과정 에 있다. 주요 심분야는 Statistical Business Analysis,

Big Data Analytics, Social Media Mining 등이다.

김 희 웅 ([email protected])

National University of Singapore 정보시스템학과에서 근무 후, 재 연세 학교

정보 학원 교수로 근무 이다. 주요 심분야는 디지털 비즈니스, 정보시스템

리 활용 등이다. 련 연구들은 MIS Quarterly, Information Systems Research

등 IS 에 40여 편의 논문이 게재되었다.

논문 수일:2015년 □월 □일 게재확정일:2015년 □월 □일

1차 수정일:2015년 □월 □일