62

평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

  • Upload
    ljh0101

  • View
    211

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

공학석사학위논문

평가항목 추출과 극성판별에 기반한

한국어 상품평 요약

2009 년 6 월

금오공과대학교 대학원

소프트웨어공학과

이 우 철

Page 2: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

평가항목 추출과 극성판별에 기반한

한국어 상품평 요약

지도교수 이 현 아

이 논문을 공학석사 학위논문으로 제출함.

2009 년 6 월

금오공과대학교 대학원

소프트웨어공학과

이 우 철

Page 3: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

이우철의 공학석사 학위논문을 인준함

2009 년 6 월 16 일

심사 위원장 이 현 아

심 사 위 원 김 병 만

심 사 위 원 이 해 연

금오공과대학교 대학원

Page 4: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

Product Review Summarization Based on

Product Feature Extraction and Polarity Resolution

Woo-Chul Lee

Department of Software Engineering,

Graduate School of Kumoh National Institute of Technology

Abstract

In electronic commerce, most of customers refer product reviews

that are written by previous purchasers to decide which product they

buy or whether they buy or not a certain product. As many reviews

are provided on internet shopping malls, we can find out various and

objective evaluation on each product, but it is not easy to analyze bulk

of reviews. Most of internet shopping malls present purchaser’s

preference to each product with asterisk scores, but we cannot decide

whether we buy it or not because that score includes too various

information of a product such as quality, price and delivery. A lot of

researches on product reviews in English have been studied, but they

need a large amount of knowledge resources like WordNet so it is not

relevant to apply their methods to Korean. Recently some studies on

Korean product reviews are attempted but those require knowledge

that is constructed by hand. In this thesis, I propose an automatic

product review summarization system. The system discriminates

whether a product review is positive or negative per product

evaluation items, which are features of a product such as color, price,

Page 5: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

size and delivery. Product reviews are abstracted with polarity scores

based on evaluation items, so users can easily catch evaluations of

previous purchasers without reading bulk of reviews. The proposed

system consists of 4 steps: 1) collecting and refining reviews , 2)

extracting evaluation items using term statistics in reviews and web

information retrieval, 3) extracting evaluation words and their polarity

per each evaluation item using natural language processing technique,

4) presenting polarities of each evaluation item graphically. All steps

only use automatically extracted knowledge from reviews and web. In

experiment using reviews from online shopping malls and my system

shows 90.3% in extracting evaluation items when comparing with

correct answers made by hand and get 7.6 out of 10 in polarity

resolution.

Page 6: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- i -

목 차

1. 서론 1

2. 기존 연구 6

2.1. 오피니언 마이닝 6

2.2. 평가항목 추출 9

2.3. 의견 극성 분류 11

3. 한국어 상품평 요약 방법 제안 17

3.1. 상품평 수집/보정 17

3.2. 상품 평가항목 추출 20

3.3. 극성사전 구축 23

3.4. 극성 판별/요약 27

4. 한국어 상품평 분석 시스템 KOPS 29

4.1. 시스템 개요 및 구성요소 29

4.2. 시스템 구축 환경 31

4.3. KOPS 클라이언트 애플리케이션 32

5. 실험 및 평가 37

5.1. 실험 환경 37

5.2. 실험 결과 37

6. 결론과 향후 연구 43

참고문헌 44

부록 48

A. 극성사전 분류 실험 결과 48

B. 제품 별 사용자 만족도 평가 결과 표 52

감사의 글 54

Page 7: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- ii -

표 차례

[표 1] 스커트 분류의 브랜드명 추출 예 21

[표 2] 후보명사의 PMI-RTF 계산 23

[표 3] 긍정 seed 목록 24

[표 4] 부정 seed 목록 24

[표 5] 문장내의 평가표현을 이용한 사전 구축 25

[표 6] 불용어 목록 예 25

[표 7] 중간 저장되는 XML파일의 노드 구조 30

[표 8] KOPS의 구축/동작 환경 31

[표 9] 실험 데이터 상세 정보 (단위 : 개) 37

[표 10] 스커트 분류의 평가항목 추출 결과 39

[표 11] 쌍안경 분류의 평가항목 추출 결과 39

[표 12] 립라이너 분류의 평가항목 추출 결과 39

[표 13] 로만쉐이드 분류의 평가항목 추출 결과 39

[표 14] 문장 극성 판별 정확도 평가 결과 42

[표 15] 쌍안경 분류 사전 구축 정확률/재현율 48

[표 16] 로만쉐이드 분류 사전 구축 정확률/재현율 49

[표 17] 립라이너 분류 사전구축 정확률/재현율 50

[표 18] 스커트 분류 사전구축 정확률/재현율 51

[표 19] 스커트 상품 1의 사용자 만족도 평가 결과 52

[표 20] 스커트 상품 2의 사용자 만족도 평가 결과 52

[표 21] 스커트 상품 3의 사용자 만족도 평가 결과 52

[표 22] 스커트 상품 4의 사용자 만족도 평가 결과 52

[표 23] 스커트 상품 5의 사용자 만족도 평가 결과 53

Page 8: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- iii -

그림 차례

[그림 1] 아시아 태평양 지역 국가별 온/오프라인 구매 패턴 조사 2

[그림 2] 실제 운영 중인 온라인 쇼핑몰에서 살펴 본 상품평 수 2

[그림 3] 기존의 상품평 제공방식과 별점 평점 오류의 예 3

[그림 4] 외국어 상품평의 예 (출처 : www.amazon.com) 4

[그림 5] 그래프 형태의 요약 예 5

[그림 6] 오피니언 마이닝의 절차 6

[그림 7] 기존 검색엔진의 의견 검색 결과 7

[그림 8] WordNet의 형용사 양극 구조 12

[그림 9] SentiWordNet의 용어 감성 표현 14

[그림 10] 기술어휘사전 기본 구조 16

[그림 11] 부가어휘사전 기본 구조 16

[그림 12] 한국어 상품평 요약 과정 17

[그림 13] 상품 카테고리별 사전 구조 24

[그림 14] 평가항목과 형용사 간 거리 25

[그림 15] KOPS의 서브 모듈과 처리순서 29

[그림 16] 서버 측 애플리케이션 디렉토리 구조 31

[그림 17] KOPS 초기화면 32

[그림 18] 상품평 요약 출력의 예 (긍/부정 그래프 출력) 33

[그림 19] 상품평 요약 출력의 예 (텍스트 출력) 34

[그림 20] KOPS의 ‘설정’ 메뉴 화면 35

[그림 21] 사용자 만족도 측정 화면 35

[그림 22] 문장 극성 수동 분류 화면 36

[그림 23] 평가항목 추출 방법 별 재현율 비교 38

[그림 24] 극성사전의 극성 분류 정확/재현율 평균 40

Page 9: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 1 -

1. 서론

인터넷을 이용하는 인구가 급증함에 따라 인터넷으로 물건을 사고파는

전자상거래도 비약적인 발전을 거듭하고 있다. 인터넷으로 거래되는 상품

과 서비스가 많아지고 다양해지면서, 전자상거래를 활용하는 구매자와 판

매자도 늘어나 오프라인 상거래에 버금가는 시장 규모를 보이고 있다. 이

런 요소들을 종합해 보면, 전자상거래에 관련된 데이터양은 기하급수적으

로 증가하게 된다. 이 중 상품평으로 대표되는 온라인 평판(Online

Reputation) 또는 온라인 구전(Online Buzz) 데이터의 증가가 단연 두드

러진다. 특히 국내의 경우, 우수한 정보 인프라에 힘입어 온라인 쇼핑몰

시장은 다른 나라보다 훨씬 빠른 발전 추세를 보인다. [그림 1]의 그래프

에서 볼 수 있듯이, 한국의 전자상거래 이용률은 APAC국가들의 평균치

를 크게 웃돈다. 방송통신위원회와 한국인터넷진흥원(NIDA)의 2008년 인

터넷 이용 실태조사에 따르면, 국내 인터넷 이용률(만 6세 이상)은 77.1%

(3536만명)이며, 만 12세 이상 인터넷 이용자의 과반수(60.6%)가 인터넷

쇼핑몰을 이용하고 있다. 특히 20대는 87.3%가 전자상거래를 이용하는 것

으로 조사돼, 앞으로도 지속적인 발전을 전망했다[1]. 시장 규모 면에서는

기업 대 고객의 사이버쇼핑(B2C) 액수가 2008년 기준 11조 6,600억원에

달하는 것으로 조사됐다[2].

이러한 인프라적 배경과 더불어 웹 2.0으로 대표되는 사용자 참여 중심

의 인터넷 환경, 집단지성(Collective Intelligence)의 발현 등으로 소비자

가 능동적으로 컨텐츠를 생산․공유하고, 지속적으로 가치를 부여하면서

전자상거래에서 상품평의 영향력은 더 광범위해지고 강력해졌다. 국내의

경우, 상품평 및 이용후기 이용자의 94.3%는 다른 이용자의 구매경험과

평가를 기반으로 최종 구매여부를 결정하고 있으며, 59%는 쇼핑 후 상품

평 및 이용후기 등을 작성함으로써 온라인 구전의 형성과 확산에 참여하

고 있다[3].

이처럼 상품평은 구매자의 입장에서는 상품 구매결정에 도움을 받을 수

있는 중요 자원이 되고, 상품제조사의 입장에서는 자사 또는 경쟁사의 제

Page 10: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 2 -

품에 대한 여론 또는 동향을 모니터링 할 수 있는 수단이 된다. 그러나

최근 이런 온라인 평판 데이터들이 급격히 증가하여, 수동으로 개개의 의

미를 파악하는 것이 거의 불가능해졌다.

[그림 1] 아시아 태평양 지역 국가별 온/오프라인 구매 패턴 조사

(MasterCard's Survey Findings conducted by IPSOS)

[그림 2]는 실제 운영 중인 온라인 쇼핑몰[4]의 상품 리스트 일부이다.

그림에서 볼 수 있듯이 하나의 상품에 천여 개에서 만여 개가 넘는 상품

평이 기술되어 있어 기존 구매자의 평가를 분석하기가 쉽지 않다.

[그림 2] 실제 운영 중인 온라인 쇼핑몰에서 살펴 본 상품평 수

Page 11: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 3 -

상품평을 보여주는 방법에 있어서도 기존의 작성 일자 기준으로만 정렬

되던 상품평 조회의 문제점을 해결하기 위해 별점 평점의 오름차순/내림

차순으로 조회하는 기능을 제공하지만 정확한 상품평 분석에는 크게 도움

이 되지 않는다. 쇼핑몰에서 제공하는 별점 평점이 해당 상품에 대한 구

매자의 평가를 요약하긴 하지만, [그림 3]과 같이 상품평에 맞지 않는 별

점이 매겨진 경우가 많다. 또한 배송이나 쇼핑몰 서비스와 같이 상품에

대한 평가가 아닌 내용을 반영하는 경우가 많아, 구매예정자에게 상품에

대한 적절한 정보를 제공하지 못하는 경우가 대부분이다.

[그림 3] 기존의 상품평 제공방식과 별점 평점 오류의 예

외국의 경우, 최근 상품평이나 평판에 관련된 데이터를 자동으로 수집

하고 요약하는 연구가 활발히 진행되고 있지만, 한국어를 대상으로 한 연

구는 미미한 실정이다. 이유는 한국어 상품평의 기계처리와 관련된 몇 가

지 이슈가 존재하기 때문이다. 영어권의 상품평 관련 연구에서는 워드넷

과 같은 다양한 언어자원을 기본 전제로 하고 있지만, 한국어에서는 워드

넷과 같은 언어 자원을 실용적으로 사용하기 힘들다. 또한 [그림 4]와 같

은 영어권 상품평과는 대조적으로 한국어 상품평은 띄어쓰기 오류율이 높

고, 교착어의 특성으로 단어 간 결합이 자유로워 띄어쓰기를 통한 형태소

구분이 힘들다. 이 밖에도 상품평은 일반 텍스트와 다르게 올바른 문법이

Page 12: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 4 -

지켜지지 않거나, 구어체 표현이 많아 자동 처리에 걸림돌이 된다. 따라서

한국어 상품평을 처리하기 전 정제 과정이 반드시 필요하다.

[그림 4] 외국어 상품평의 예 (출처 : www.amazon.com)

Page 13: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 5 -

본 논문에서는 한국어 상품평을 자동으로 수집하고 요약하기 위한 시스

템 KOPS(KOrean Product review Summarizer)를 제안한다. 시스템에서

는 평가 항목, 즉 상품의 다양한 특성별로 상품평을 긍정과 부정 중 어느

극성인지 판별하여 사용자가 원하는 정보를 알아보기 쉽게 제시한다. 시

스템에 의해 요약 출력될 결과의 예는 [그림 5]와 같다. 이런 형태는 모바

일기기를 이용한 쇼핑몰에서 상품평을 제공하기에도 손색이 없다.

[그림 5] 그래프 형태의 요약 예

본 논문은 다음과 같이 구성된다. 2장에서 상품평 요약에 대한 기존 연

구를 살펴보고, 3장에서는 본 연구의 상품평 요약 방법에 대해 다루며, 4

장에서는 3장의 방법에 기반을 두어 구축된 시스템 KOPS를 소개한다. 5

장에서는 본 시스템의 각 단계별 실험을 통해 성능을 분석하고, 6장에서

결론 및 향후 연구에 대해 논의한다.

Page 14: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 6 -

2. 기존 연구

텍스트를 분석하여 의견을 추출하고, 추출된 의견에 긍/부정 극성을 부

여하여 구조화 하는 연구는 오피니언 마이닝(Opinion Mining) 또는 문서

감성 분류(Document Sentiment Classification)로 대표된다. 데이터 마이

닝에서 특화된 분야인 오피니언 마이닝과 문서 분류(Document

Classification)에서 파생된 문서 감성 분류는 그 출발점이 다르지만 현재

는 거의 동일한 개념으로 통용된다. 온라인 쇼핑몰의 상품평 데이터를

이용한다는 점에서 웹마이닝(Web Mining)의 한 부류로 볼 수도 있으나,

본 논문에서는 이와 관련된 내용을 오피니언 마이닝으로 보고, 그에 대한

개요와 기존 연구에 대해 살펴보고자 한다.

[그림 6] 오피니언 마이닝의 절차

2.1. 오피니언 마이닝

오피니언 마이닝은 기존의 데이터 마이닝(Data mining) 분야에서 파생

된 하위 개념으로, 임의의 문서에서 글쓴이가 서술 대상에 대해 말하고자

하는 부분(의견)을 찾는 연구 분야로 특정된다. 데이터 마이닝을 ‘데이터

베이스(대량의 데이터)로부터 데이터 내에 존재하는 관계, 패턴, 규칙 등

Page 15: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 7 -

을 찾아내고 모형화 함으로써 지식을 추출하는 일련의 과정‘으로 정의한

다면, 오피니언 마이닝은 같은 개념 하에서 문서 내의 의견을 식별하고

처리하는 것에 특화된 분야이다.

요약의 대상이 되는 텍스트 데이터의 구성요소를 살펴보면 크게 사실

(fact)과 의견(opinion)으로 나누어진다[5]. 사실은 ‘액체’, ‘분홍색’, ‘800만

화소’와 같이 주제 키워드로 표현할 수 있다. 현재의 웹 검색엔진들은 이

런 객관적인 사실들을 검색하는 도구이다. 반면, 의견은 소수의 키워드로

는 표현하기 어렵기 때문에 검색엔진으로는 찾기 힘들다. 예를 들어, [그

림 7]과 같이 “삼성 디지털카메라에 대해 어떻게 생각하는가?” 라는 질의

에 대한 사용자 의견을 검색엔진은 쉽게 찾아내지 못한다.

[그림 7] 기존 검색엔진의 의견 검색 결과

사용자들에 의해 자발적으로 생성되는 콘텐츠(의견 데이터)는 양의 증

가와 더불어 그 데이터가 가지는 가치도 상승하고 있지만, 원하는 정보에

Page 16: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 8 -

접근하기가 점점 더 어려워지고 있다는 점에 주목할 필요가 있다. 블로그

나 사용자 리뷰 사이트, 쇼핑몰의 상품평등 다양한 방법을 통해 사람들은

여러 가지 주제에 대한 의견을 표현할 수 있다. 이것들은 기존에 중요하

게 다루어진 사실 데이터만큼 가치 있는 정보를 가지며, 앞으로는 그 영

향력이 더 확대될 것이다. 마찬가지로, 이런 데이터를 다루기 위한 오피니

언 마이닝 분야도 함께 성장할 것이다.

오피니언 마이닝은 문서 수준에서의 처리, 또는 문장 수준에서의 처리

로 분류할 수 있다. 기존에 문서 수준에서 접근한 연구[6,7,8]는 각 상품평

단위로 극성을 판정한다. 이는 전통적인 텍스트 요약 연구(Text

summarization)와 많은 부분 흡사하다. 그러나 처리 데이터가 상품평이라

는 특수성을 따져보면 문서수준에서의 요약은 적합하지 않다. 보통 사용

자들은 디지털카메라의 ‘화질’처럼 살펴보고자 하는 특정 목적(평가항목)

을 가지고 상품평에 접근한다. 하지만 상품평 단위의 분석은 이런 특징에

대한 요약결과를 제공하지 않기 때문에 사용자의 요구를 충족시키기엔 부

족하다.

문장 수준에서의 접근은 기존에 문장의 객관/주관성을 판별하는 연구가

있었다[5,9,10]. 그러나 상품평 요약은 객관/주관성의 구분을 넘어 주관적

인 문장의 극성까지 판별해야한다. 또한 상품 특징별로 요약을 수행해야

하므로 상품특징을 추출하고 그 특징을 포함하는 문장을 식별하는 과정도

포함되어야 한다. 따라서 근래에는 특징 기반 요약(Feature Based

Summarization)이 시도되고 있다.

특징 기반 요약은 상품평과 같이 동일 카테고리에서 공통된 특징을 기

준으로 의견이 표현되는 텍스트의 요약에 적합하다. 요약 절차는 상품평

데이터에서 상품 특징을 먼저 추출하고, 추출된 특징에 따라 의견을 식별

/분류하고 극성 분류 등을 통해 요약한다. 특징 기반 요약도 문장 수준에

서 수행하는 요약이지만, 특징을 식별하는 단계가 추가되고 특징을 포함

하는 문장만을 요약하므로 문장수준 요약과 구분하기 위해 특징 기반 요

약으로 불린다.

Page 17: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 9 -

2.2. 평가항목 추출

특징 기반 상품평 요약에서는 다른 처리 단계들에 앞서 특징을 추출하

는 과정이 선행되어야 한다. 특징이라는 단어는 여러 가지 의미(객관적

특징, 주관적 특징, 상품의 자질, 의견어휘 특징 등)를 내포할 수 있으므

로 본 논문에서는 상품을 평가할 수 있는 특징만을 지칭하여 상품 평가항

목(이하 평가항목)이라고 부르기로 한다. 기존 연구에서 평가항목 추출은

크게 두 가지 관점에서 다루어진다. 모든 평가항목을 추출하는 것을 목표

로 하는 연구[11]와 최대한 짧은 평가항목 리스트를 생성하는데 목표를

둔 연구[12]가 있다.

기존의 특징 추출 방법은 주로 통계적 기법을 사용하였는데,

TF-IDF(Term Frequency Inverse Document Frequency), 연관마이닝

(Association Mining), PMI(Point-wise Mutual Information)등이 이에 속

한다. 이런 방법들에 의해 산출된 결과 값을 그대로 사용하거나, 지지백터

머신(Support Vector Machine), 베이지안 분류기(Naive Bayes Classifier)

등을 이용한 기계학습 방법과 결합하여 사용할 수 있다.

TF-IDF 가중치 기반 평가항목 추출

TF-IDF 가중치는 언어 자료 내의 특정 문서에서 어떤 단어의 중요도

를 평가하기 위해 사용되는 통계적인 수치이다. 단어의 중요도는 문서 내

에서 해당 단어가 많이 나타날수록 증가하며, 전체 언어 자료 내에서 해

당 단어를 포함하는 문서가 많이 나타날수록 감소한다. TF-IDF 가중치

방법은 정보 검색과 텍스트 마이닝에 주로 사용되며, 검색 엔진에서 사용

자 질의에 대한 문서의 유사도 순위를 정하는 데에도 사용된다.

TF-IDF 기법은 아래의 식과 같이 문서에서 어휘 i가 나타난 어휘 빈

도수(term frequency) tfi와 역 문서 빈도수(inverse document frequency)

idfi의 곱으로 나타낸다.

log

(1)

Page 18: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 10 -

· (2)

TF-IDF를 사용하여 평가항목을 추출하는 연구는 Kim, S.M. et al.의

연구[13]가 있고, Red Opal[14]은 TF-IDF와 유사한 방법으로 평가항목을

추출한다.

TF-IDF 가중치 기법은 가장 간단하게 사용할 수 있는 방법이지만 빈

도를 기준으로 평가항목을 뽑기 때문에 빈도가 낮은 주요 평가항목을 추

출하지 못하는 단점이 있다.

연관 마이닝을 이용한 평가항목 추출

연관 규칙 마이닝이라고도 불리는 연관 마이닝은 “트랜잭션 데이터베이

스, 관계형 데이터베이스 그리고 다른 정보 저장소에서 목적물이나 항목

의 집합 가운데 빈번하게 발생하는 패턴, 연관, 상호관계 또는 인과의 구

조를 찾는 것”으로 정의된다. 절차는 빈발 항목집합(최소 지지도 임계값

이나 작업 관련 투플 비율을 만족하는)을 먼저 찾은 후에 A⇒B 형식의

연관규칙을 생성한다. 이 연관성의 정도는 지지도(support)와 신뢰도

(confidence) 라는 척도를 이용하여 표현된다.

Hu, M. 외의 연구[11,15]의 에서는 평가항목 추출에 연관 마이닝

(Association Mining)을 사용한다. 위 연구에서 사용한 연관 마이너

CBA[16]는 많은 사람들에 의해 언급되는 빈번한 특징(Frequent feature)

만을 식별한다. 따라서 보기 드문 특징(Infrequent feature)을 식별하기 위

해 의견어 근처에서 발생하는 명사를 추출하는 과정을 추가적으로 수행하

였다.

연관 마이닝에 의한 평가항목 추출은 하나 이상의 단어로 이루어진 복

합명사나 명사 구 형태의 평가항목을 추출할 수 있는 장점이 있지만, 결

합규칙에 의해 명사를 결합하는 과정에서 불필요한 평가항목이 많이 생성

되는 단점이 있다.

Page 19: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 11 -

PMI 이용한 평가항목 추출

PMI는 정보이론과 통계학에서 사용되는 연관성 측정법이다. 이것은, 각

용어 x, y의 공기 확률을 나타내며, 아래와 같은 수식에 따라 정의된다.

log

(3)

이를 통해 상품평에서 서로 밀접한 관계를 가지는 특징을 식별할 수 있

다. 인터넷 검색을 통한 PMI 도출 수식은 아래와 같다.

log

(4)

PMI(t,ti)는 단어 t와 ti를 각각 포함하는 문서를 검색엔진에 검색한 결

과와 두 단어가 동시에 등장하는 문서를 검색한 결과 값을 기반으로 계산

된다. PMI 연관도를 이용하여 특징을 추출한 연구는 KnowItAll[17]과

Opine[18]이 있다.

2.3. 의견 극성 분류

특징 기반 요약의 가장 큰 특징 중 하나가 모든 문장을 요약의 대상으

로 하는 것이 아니라 특징을 포함하는 문장만을 요약의 대상으로 한다는

것이다. 따라서 이전 과정에서 평가항목의 추출이 완료되면, 그 평가항목

을 포함하는 문장들만 식별하는 단계를 거치게 된다. 문장 식별이 완료되

면, 각 문장들의 평가 극성을 판별하고, 그 극성에 따라 문장을 분류하고

요약한다.

이 절에서는 기존 연구에서 문장이나 용어의 극성을 판별하는 여러 가

지 방법들을 소개한다. 크게 기계학습법을 이용한 극성 분류, 워드넷

(WordNet)을 이용한 극성 분류, PMI를 이용한 극성 분류, 자연어처리

(NLP)기법을 결합한 극성 분류 방법으로 나누어 살펴본다.

Page 20: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 12 -

기계학습을 이용한 극성 분류

기계학습을 이용한 방법은 주제에 기반한 텍스트 분류에 가장 일반적으

로 이용되는 방법이지만 감성 분류를 위해 적용된 예도 있다. 상품평 분

류에서 학습 데이터는 주로 별점이나 추천/비추천 카운트 값을 가지는 웹

상품평을 이용하여 트레이닝하고 극성을 예측하는 연구를 수행하였다

[7,8]. [8]에서는 5점 만점의 별점에서 3개 이상의 별을 받은 상품평을 긍

정으로, 그 이하는 부정으로 판단하는 트레이닝 셋을 구축하고 학습하는

방법을 사용한다. 그러나 극성 판별의 기준이 되는 별점 데이터를 신뢰할

수 없는 문제점이 있다. 분류를 위한 기계학습 방법에는 Naïve Bayes,

Maximum Entropy, SVM등을 포함한다.

워드넷을 이용한 극성 분류

[15, 20]은 워드넷(WordNet)의 유의어, 반의어 관계를 이용하여 형용사

의 극성을 예측한다. 워드넷에서 형용사는 양극 클러스터로 구성되며, 유

의어와는 같은 극성을, 반의어와는 반대 극성을 가진다.

[그림 8] WordNet의 형용사 양극 구조

( =유의어, =반의어)

Page 21: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 13 -

이 방법은 극성을 알고 있는 소수의 형용사를 seed로 하여 확장되며,

극성을 예측해야 할 형용사의 동의어 또는 반의어가 seed와 일치한다면,

주어진 형용사의 극성은 이에 대응하여 결정될 수 있다. 만약 충분한

seed가 주어지면 모든 형용사의 극성을 예측할 수 있다. 그러나 평가항목

에 대해 극성이 바뀌는 형용사의 극성을 예측하는 것이 불가능하며, 한국

어에서는 워드넷과 같은 언어 자원을 실용적으로 사용하기 어렵기 때문에

위와 같은 방법을 한국어 상품평 처리에 그대로 적용하기 힘들다.

PMI를 이용한 극성 분류

Turney et al.[6, 21]의 연구에서는 PMI를 사용하여 상품평의 의미 극

성을 분류하는 것을 시도했다. 형용사 또는 부사를 추출하고, 각 단어의

의미극성은 PMI를 이용하여 판단한다. [6]에서는 단어 ‘excellent’와 ‘poor'

을 기준으로 특정 단어의 PMI를 계산한다. 각 단어의 극성은 ’excellent

‘와의 PMI값에서 ’poor‘과의 PMI값을 뺀 값으로 결정된다. SO-PMI의 수

식은 아래와 같다.

(5)

log (6)

자연어 처리 기술을 결합한 극성 분류

기계학습이나 PMI 등의 방법만으로 텍스트의 문맥상 극성을 예측하는

것은 어렵기 때문에 자연어 처리 기술을 결합하여 사용한다. Wilson et

al. [25]는 구 수준에서 문맥상 극성 식별을 시도한다. 이전 방법들과는 달

리 자연어 처리 기술이 결합되면 먼저 극성을 표시한 어휘집(lexicon)을

필요로 한다. 문맥상의 극성분류는 다양한 특징에 대해 기계학습 기법을

사용하여 두 단계로 실행된다. 첫 번째 단계는 중립이거나 극성에 대한

것들을 포함하는 각 구를 분류한다. 두 번째 단계에서는 첫 번째 단계에

Page 22: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 14 -

서 극성을 지닌 것으로 분류된 모든 구를 취하고 그들의 문맥 극성(긍정,

부정)을 결정한다. 현재, 문맥상의 의미를 고려한 감성 분류는 자연어 처

리 기술과 결합하여 개발되고 있다.

용어 주해를 이용한 극성 분류

[22,23]에서는 비슷한 극성의 용어는 비슷한 주해를 가진다는 가정 하에

주해를 이용한 극성 분류방법을 사용한다. 반지도 학습 기법을 이용하여

수동으로 할당한 초기 시드 집합을 주고, 시소러스에 정의된 유의어와 반

의어를 이용하여 그것들을 확장한다. 학습 단계 처리를 위해 바이너리 텍

스트 분류기(네이브 베이지안 분류기, SVM, PrTFIDF 등)를 사용하여 트

레이닝 셋을 만들었다. 이것들은 테스트셋의 나머지 단어들의 감성 관련

속성을 찾아내기 위하여 사용되었다. 이 실험에서 범용적으로 이용 할 수

있는 언어자원인 Senti WordNet[24]을 개발했다. WordNet의 각 신셋은 3

가지 정량화 점수(객관, 긍정, 부정)을 가진다.

[그림 9] SentiWordNet의 용어 감성 표현

위에서 살펴 본 방법들 외에 형용사와 접속사간 연결 정보를 이용하여

극성을 판별하는 연구도 있다. [26]에서는 “'and/or'로 연결된 형용사들은

통상 유사한 극성을 가지지만 'but'으로 연결된 형용사는 반대의 극성을

Page 23: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 15 -

가진다”는 가설에 근거하여 형용사의 극성을 예측한다.

지금까지 영어 상품평 처리를 위해 수행된 연구와 그 기법들을 살펴보

았다. 한국어를 대상으로 한 연구는 아직까지 많지 않으나, 기존에 시도된

두 가지 연구를 간략하게 살펴본다.

영어 시소러스와 영한사전 이용한 극성 판별

[27]에서는 영어 자원을 이용하여 구축된 극성 정보를 한국어로 번역하

여 대입하려는 시도가 있었다. 이 논문에서는 먼저 한국어 사전을 파싱하

여 유의어, 반의어 정보를 획득하고자했으나, 부정 13개, 긍정 12개의 감

성 자질만을 추출하여 원하는 결과를 얻지 못했다. 이와 같이 국내 실정

상 영어 WordNet과 같은 결과를 얻기 힘들므로, 영어 단어 시소러스의

유의어 정보를 이용하여 단어를 확장하고 이것을 영한사전을 통해 번역하

여 감성 자질을 생성하는 방법을 사용했다. 단어 확장을 위한 Seed는 기

존 영어권 연구결과[22]를 참조하여 선정하였다. 하지만 아직까지는 번역

품질이 완벽하지 않고, 번역 오류의 문제점도 존재한다.

반자동 방식에 의해 구축된 의미사전을 이용한 극성 판별

[28]의 연구에서는 Appraisal theory에 근거하여 작성된 Semantic

Clause라는 형태로 일종의 극성 사전을 정의한다. Semantic Clause는 관

리자에 의해 수동/반자동으로 생성한다.

Semantic Clause = (S, P, SL, Pt, St, Ms)

여기서 S(Subject)는 주제어(배송), P(Predicate)는 서술어(빠르다, 느리

다), SL(Standard Label)은 S와 P의 표준형 결합(배송 빠르다),

Pt(Polarity)는 극성(-1, 0, 1), St(Strength)는 의미강도(1.0, 2.0),

Ms(Modifiers)는 수정자(안, 너무)를 나타낸다. 극성 사전을 구축한 후 기

Page 24: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 16 -

술어휘와 부가어휘로 구분하여 의미사전을 생성한다. 각 어휘사전의 구조

는 [그림 10, 11]과 같다.

[그림 10] 기술어휘사전 기본 구조

[그림 11] 부가어휘사전 기본 구조

상기 과정에 의해 구축된 의미사전을 이용하여 상품평을 분석/요약한

다. 이 방법이 정확도 면에서는 우수하겠지만, 수동으로 의미사전을 구축

하는데 드는 비용이나 의미 분류 객관성의 문제 등이 여전히 존재한다.

Page 25: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 17 -

3. 한국어 상품평 요약 방법 제안

본 장에서는 평가항목에 기준한 한국어 상품평 요약 방법을 제안한다.

요약과정은 크게 1)데이터 수집, 2)평가항목 추출, 3)극성 판별의 세 부분

으로 나눌 수 있다. [그림 12]는 본 요약 방법의 구조와 흐름을 나타낸다.

[그림 12] 한국어 상품평 요약 과정

데이터 수집부에서는 온라인상의 리뷰를 수집하고, 구어체, 띄어쓰기

등의 오류를 보정한 후, 형태소를 분석/재구성한다. 평가항목 추출부에서

는 형태소 분석 결과에서 후보명사 집합을 설정하고, 해당 명사의 빈도정

보와 웹 검색을 통해 산출된 연관도 점수를 이용하여 평가항목을 추출한

다. 극성 판별부에서는 형태소 분석 결과에서 의견어휘를 식별하고, 극성

사전을 생성한 후, 생성된 사전을 이용하여 문장 극성을 판별한다. 문장극

성 판별이 끝나면 해당 결과를 상품 평가항목별로 요약한다.

3.1. 상품평 수집/보정

먼저, 상품평 수집부에서는 온라인상의 상품평을 수집하고, 문장 보정,

형태소 분석 과정을 거쳐 중간 저장/보관된다. 인터넷에서 수집한 상품평

은 다양한 사람들이 자유롭게 작성한 글이기 때문에 다수의 오류를 포함

한다. 대표적인 오류에는 띄어쓰기 오류, 구어체, 문법오류, 오타, 깨진 문

자, 불필요한 이모티콘이나 잘못된 문장부호 등이 있다. 이런 오류들은 후

에 처리되는 형태소 분석 과정 등에서 더 큰 오류로 발전할 가능성이 있

Page 26: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 18 -

기 때문에 모든 처리과정에 앞서 최대한 보정한다. 보정 대상은 다음과

같다.

1) 수집 중 보정

상품평 수집 과정에서 HTML태그를 제거하고 이스케이프된 특수(기

호)문자, 인코딩 변환 과정에서 깨진 문자들을 원래 문자로 치환한다.

치환 불가능한 문자는 공백 처리한다.

원문: <td colspan="4" style="overflow: hidden;">가격에 비해 너무

&#48577;스러운 것 같아요 gt;_ lt;</td>

추출: 가격에 비해 너무 뷁스러운 것 같아요 >_<

2) 문장 종단 보정

한국어 상품평은 문장 종단기호를 잘못 사용하거나 아예 사용하지 않

은 문장들이 많아 문장 구분이 힘들다. 이모티콘 '^^', 또는 'ㅋㅋㅋ', '

ㅎㅎㅎ' 형태로 종료되는 문장이 특히 많고, 이런 문장은 마침표를 기

준으로 문장을 구분할 수 없다. 따라서 이러한 부분들을 검색하여 문장

부호를 보정한다. 문장부호를 두 번 이상 반복 사용하는 경우(예 : ,,,,

또는 ..., !!!, ??)도 많아, 이런 부분에 대해서는 중복을 제거하여 단일

화한다. 문장부호가 잘못 사용된 경우, 문장부호 바로 앞에 위치하는

형태소와 품사정보를 이용하여 문장의 끝부분인지 아닌지를 판단하여

처리한다.

원문:

색상이...좀 그렇네요ㅎㅎ디자인은,,,,이쁘구요^0^ㅋㅋ많이파세요!!!!

보정: 색상이, 좀 그렇네요. 디자인은, 이쁘구요. 많이파세요!

3) 구어체 표현 정규화

'하네요'에서 어미 ‘네요’를 네욤, 네용, 네염, 네여 등으로 표기한 구어

체 표현들을 정규화 한다. 형태소 정보와 문장 구조를 이용하여 알려지

지 않은 명사로 태깅된 형태소를 검색하고, 마침표 바로 앞 글자가

Page 27: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 19 -

‘여’, ‘염’, ‘영’, ‘용’, ‘욤’ 등일 경우 ‘요’로 치환한다.

원문:

화면으로 봤을 땐 이뻤는데염...받아보니 색깔이 넘 어둡네용-0-;;

보정: 화면으로 봤을 땐 예뻤는데요. 받아보니 색깔이 넘 어둡네요.

보정 과정이 끝난 상품평은 자동띄어쓰기 모듈[29]을 이용하여 띄어쓰

기를 보정한다. 띄어쓰기 보정이 완료되면 문장 별로 분리하여 형태소분

석기[30]를 이용해 형태소 분석한다. 기존의 관련 연구를 살펴보면 극성

판별을 위한 상품평 전처리 과정에서 구문분석을 하는 경우와 하지 않은

경우로 나누어진다. 각각의 장단점이 있지만, 기존의 구문분석 정확률이

만족할만한 수준에 이르지 못해 후처리 과정에서 오류가 누적될 수 있기

때문에 본 논문에서 제안하는 방법은 구문분석단계를 거치지 않는다. 구

문분석을 수행하지 않아 처리 시간이 단축되는 이점도 있다.

형태소 분석이 완료되면, 분석된 결과를 다음 단계에서 취급하기 용이

한 형태로 정규화 한다. 본 과정은 복합적인 형태소로 이루어진 평가 표

현들을 한 단어로 처리하여 취급이 용이하도록 하고, 더 많은 평가 표현

들을 추출하기 위함이다. 형태소 분석 결과에 대한 정규화 과정은 아래의

절차를 따른다.

1) 문장부호 2차 보정

평가항목 기반 요약에서는 정확한 문장 구분이 요구된다. 1차 문장부호

보정 후에 더 정확한 문장 구분을 위해 형태소 단위 "j이요", "e어요",

"e네요", "e습니다"를 검색하여 뒤에 문장부호(q .)가 따르지 않는다면

강제 삽입한다.

2) 관용적 표현 처리

상품평에서 자주 등장하는 표현들을 정규화 한다. '마음에 든다' 의 경

우 => (N "마음") (j "에") (V "들") (e "는다") 로 분석되어 극성 판

별을 위한 형용사/동사 추출 시 'V 들' 밖에 검색되지 않는다. 이것을

Page 28: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 20 -

효율적으로 검색하기 위해 '들' 앞쪽에 '마음' 또는 '맘'이라는 명사가

위치한다면 'V들'을 'V마음들'로 치환한다. ‘별로’라는 부사(또는 명사

로 태깅 됨) 역시 품사 태그를 동사로 바꾸어, 의견 표현으로 추출할

수 있도록 한다.

3) 보조동사 정규화

‘~하다’, ‘~되다’, ‘~스럽다’ 의 경우 앞쪽 명사와 결합하여야 의견 표현

이 가능한 동사이다(예: 추천 + 하다, 세련 + 되다, 고급 + 스럽다, 촌

+ 스럽다 ...). 이와 같은 동사에 대해서 바로 앞의 명사와 결합시키는

과정을 수행하여, 의견 표현으로 추출할 수 있도록 한다.

4) 않, 안, 아니 등의 부정어(부사/동사) 반전 처리

‘크지 않다’, ‘안 좋다’, ‘퍼지는 건 아니다’ 등과 같은 부정형이 존재하

는 경우, 않, 안, 아니 등이 발견되면 해당 단어 바로 전 동사를 찾아

반전 표시한 후 해당 부정어는 제거한다. 반전 표시는 '!크다' 의 형태

로, 원래 형용사/동사 앞에 느낌표를 추가한 형태이다.

3.2. 상품 평가항목 추출

형태소 분석과 분석된 형태소의 재구성 과정이 끝나면 해당 데이터에서

상품 평가항목을 추출한다. 상품을 평가할 수 있는 평가항목은 대부분 명

사로 조직되기 때문에, 각 카테고리 단위로 분류된 상품평에서 명사로 태

깅된 형태소들을 이용한다. 이때, 모든 명사들이 평가항목 후보가 되기 때

문에 검색엔진을 통한 연관도 계산 과정의 부하가 상당히 심하다. 따라서

검색엔진 질의 과정 전에 부하를 최대한 줄이고자 아래와 같은 노이즈 필

터링 수행 규칙을 적용한다.

1) 상품평을 문장단위로 구분하여 형태소 분석 한 후, 평가표현(형용사

등)이 포함된 문장에서만 후보명사를 뽑는다. 의견을 나타내는 형용사

가 포함되지 않은 문장에 등장하는 명사는 평가항목과 관련이 없는 명

사 즉, 노이즈 일 가능성이 높기 때문이다.

Page 29: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 21 -

2) ‘추천하다(NN추천+t하+e다)’의 ‘추천’이나 ‘생각하다(NN생각+t하+e다)’

의 ‘생각’처럼 보조동사와 결합될 수 있는 명사 역시 추출하지 않는다.

예문과 같이 사용된 명사는 의견표현을 돕기 위한 명사이므로 상품 평

가 항목으로는 부적절하다. 하지만, 위의 방법으로 이런 형용사를 완벽

히 차단할 수는 없다. “추천 수가 많아 구입했는데 별로네요.”와 같이

보조동사와 결합하지 않는 형태로 사용한 예도 있기 때문이다. 그러나

보조동사와 결합하는 경우의 추출을 차단하게 되면, 후보명사 군에서

해당명사의 출현빈도를 측정할 때 빈도 값(Term frequency)을 효과적

으로 낮출 수 있어 최종단계에서 평가항목 적합성 순위를 떨어뜨린다.

3) 태깅된 품사기호를 이용하여 “것”, “바”, “소”, “자루”, “마리”와 같은

평가항목으로 부적절한 각종 의존명사를 필터링한다.

4) 후보명사의 전체 출현 빈도 대비 최소 지지도(minimum support)가

0.1% 미만인 후보명사들을 필터링한다. 실제로 최소 지지도에 못 미치

는 빈도로 나타나는 명사들은 띄어쓰기 에러 등으로 인한 형태소 분석

오류로 잘못 생성된 명사들이 대부분이다.

5) 연관도는 높지만 상품 평가항목이 될 수 없는 단어인 제품 제조사명,

브랜드명, 판매 쇼핑몰명 등을 제거하기 위해 브랜드 사전을 구축하고,

해당 사전을 이용하여 불용어를 필터링한다. 브랜드 사전은 인터넷 쇼

핑몰의 제품 분류 레이블을 추출하여 자동 생성한다.

BNX HESSE 나프나프 뉴욕스토리 뚜렌느

로엠 마인드브릿지 망고스틴 맥컬린 뱅뱅레이디

베네통 베스띠벨리 코데즈컴바인 제시뉴욕 톰보이

페이지플린 시슬리 에고이스트 요세프컴퍼니 윌튼레이디스

G마켓 Hmall 롯데닷컴 신세계몰 옥션

[표 1] 스커트 분류의 브랜드명 추출 예

위의 규칙에 의해 필터링 된 후보명사 집합에서 현재 카테고리에 적합

한 평가항목을 추출한다. 본 연구에서는 특정 카테고리에서 사용되는 평

가항목은 카테고리 이름을 나타내는 단어와 함께 등장할 확률이 높다는

가정에 기인한다. 단어 간 연관도를 계산하기 위해 기존의 PMI 개념과

상품평 내 용어 빈도 정보를 결합한 변형된 PMI 방법을 이용한다. 기존

Page 30: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 22 -

의 PMI 방법은 전적으로 인터넷검색을 통한 단어 간 연관도에만 의존하

여, 처리 대상 문서의 문맥을 고려하지 못하는 문제점이 있다. 따라서 인

터넷을 이용한 외부 연관도와 처리 문서 내부의 연관도를 측정하여 평가

항목 추출 효율을 높일 수 있는 새로운 PMI 방법을 정의하였고

PMI-RTF(PMI-Review Term Frequency)라 칭한다. PMI 방법은 후보

용어가 많을 경우 웹 검색엔진을 통한 질의를 수행하는데 상당한 트래픽

이 소요된다. 본 연구에서는 웹 검색엔진 질의 횟수를 줄여 트레픽을 감

소시키기 위해 질의 전에 필터링 과정을 통하여 후보명사 집합을 최소화

한다.

카테고리 c의 전체 리뷰 review∈c에서 후보명사 ti가 출현한 빈도

freview∈c(ti)와 리뷰에서 등장한 후보명사 빈도의 최고값 MAX(freview∈c)를

이용하여 내부 연관도를 산출하고, 특정 검색엔진에 후보명사 ti를 단일

검색하여 얻어진 페이지수 fweb(ti)와, 카테고리명 cname과 후보명사 ti를 결

합하여 검색한 후 얻어진 검색결과 fweb(cname, ti)를 이용하여 외부 연관도

를 산출하고, 두 값을 곱하여 얻어지는 PMI-RTF값을 적합성 점수로 하

여 순위를 매긴다. 해당 수식은 아래와 같다.

∈×

(7)

[표 2]는 PMI-RTF 수식을 통해 평가항목 추출 과정을 처리하는 예이

다. 표는 디지털카메라에 대한 평가항목 후보명사 리스트의 일부를 나타

내며, 내부 연관도를 기준으로 정렬되었다. 표에서 사용된 cname은 “디지털

카메라”, MAX(freview∈c)는 배송(24,114)이다. 기존에 독립적으로 사용되던

내부 연관도를 기준으로 정렬하였을 때, 디지털카메라에 대한 평가항목이

될 수 있는 “액정”, “사진” 등의 용어가 평가항목이 될 수 없는 용어와 섞

여 있어 올바로 추출되지 않았음을 알 수 있다. 외부 연관도를 기준으로

정렬 할 경우도 마찬가지로 “사진”이라는 단어보다 “만족”이라는 단어의

연관도가 더 높게 나와 원하는 데로 정렬할 수 없다. 두 연관도 값을 모

두 이용하여 산출된 PMI-RTF값을 기준으로 정렬하면 “액정”, “사진”,

“만족”, “하나” 순으로 정렬되어 원하는 결과를 얻을 수 있다.

Page 31: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 23 -

후보명사(ti)

출현빈도(freview∈ c(ti))

내부연관도

단일검색(fweb(ti))

복합검색(fweb(cname, ti))

외부연관도

PMI-RTF(*100)

사진 16,099 ≒0.67 179,525,122 4,716,405 ≒0.03 ② 1.753943

하나 4,018 ≒0.17 99,136,053 2,646,443 ≒0.03  ④ 0.444807

액정 2,882 ≒0.12 7,762,211 4,884,625 ≒0.63 ① 7.520912

만족 2,648 ≒0.11 46,135,882 5,136,778 ≒0.11 ③ 1.222646

[표 2] 후보명사의 PMI-RTF 계산

적합성 점수에 의해 정렬된 후보명사 목록은 최대 50위까지를 유효 평

가항목 범위로 하며, 사용자에 의해 필요한 만큼만 표시할 수 있다. 해당

평가항목 리스트를 관리자가 수동으로 편집(삭제)할 수 있도록 하여 시스

템 유연성을 보장한다. 위와 같은 평가항목 추출을 통해 해당 상품분야의

비전문가라 할지라도 쉽게 상품의 평가 기준을 파악할 수 있다.

3.3. 극성사전 구축

3.1의 과정에서 처리된 중간결과를 이용하여 극성사전을 구축한다. 문장

에서 서술된 의견의 극성은 형용사와 일부 동사를 통해 표현되므로, 평가

어휘는 형용사와 일부 동사, 그리고 3.1절의 형태소 정규화 과정에서 처리

된 특수어휘로 제한한다.

특정 평가어휘는 상품 평가항목에 따라 그 극성이 달라진다. 예를 들어,

디지털카메라 카테고리에서 '작다'라는 평가어휘는 평가항목 '화면'에 대

해서는 부정적인 반면, '크기'에 대해서는 긍정적이다.

예) ‘디지털카메라’의 경우.

(1) 화면이(LCD가) 너무 작아요. (부정)

(2) 크기가 작아서 좋네요. (긍정)

이와 같이 평가항목에 따라 그 의미가 달라지는 평가어휘에 대응하기

위해 각 카테고리의 평가항목별로 독립적인 극성사전을 생성해준다. 평가

항목과 극성사전의 구조는 [그림 13]과 같다.

Page 32: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 24 -

[그림 13] 상품 카테고리별 사전 구조

극성사전은 수동으로 극성을 분류한 소량의 시드 집합을 이용하여 자동

확장한다. 시드 집합은 특정 카테고리와 평가항목에 의존하지 않고, 모든

카테고리/평가항목에 공통적으로 사용할 수 있는 일반적인 단일 극성 형

용사들의 집합을 이용한다. 극성 별 시드 집합은 25개 정도의 형용사로

구성되며, 각 극성에 대한 시드 목록은 [표 3]과 [표 4]에 나타낸다.

좋다 괜찮다 마음들다 만족하다 적당하다

무난하다 깔끔하다 예쁘다 편하다 쉽다

편리하다 시원하다 튼튼하다 멋지다 어울리다

귀엽다 친절하다 훌륭하다 우수하다 맞다

꼼꼼하다 저렴하다 깜찍하다 편안하다

[표 3] 긍정 seed 목록

아쉽다 불편하다 짜증나다 싫다 나쁘다

어렵다 이상하다 후회하다 어정쩡하다 떨어지다

지저분하다 촌스럽다 귀찮다 모호하다 답답하다

어설프다 불친절하다 비싸다 반품하다 애매하다

별로다 다르다 부담스럽다 아깝다 실망하다

[표 4] 부정 seed 목록

특정 상품 평가항목에 대한 극성사전을 구축하기 위해 평가항목이 포함

된 문장을 해당 카테고리 내 전체 리뷰에서 검색한다. 검색된 문장에서

형용사를 추출해 평가표현 후보 그룹을 만들고, 평가항목과 형용사 사이

의 거리 값을 구한다. 여기서 산출한 형용사 거리 값은 사전 구축이 완료

된 후, 양쪽 극성에 중복되는 평가표현의 극성을 재설정하는데 사용된다.

평가항목에 대한 형용사 거리는 [그림 14]와 같다.

Page 33: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 25 -

[그림 14] 평가항목과 형용사 간 거리

형용사 집합에서 긍정/부정 시드 단어가 포함되는 횟수를 카운트하여

우세한 극성을 구한 뒤, 해당 후보 목록의 형용사를 우세한 극성의 사전

어로 등록시키면서 사전을 확장한다. [표 5]는 평가항목 ‘크기’를 포함하는

문장으로부터 평가 표현을 추출하여 사전을 구축/확장하는 예를 나타낸

다.

평가항목 문장 후보셋 seed counter 우세극성

크기 크기가 작아서 좋아요. [작다, 좋다] Pos:1, Neg:0 Positive

[표 5] 문장내의 평가표현을 이용한 사전 구축

극성을 가지지 않는 주요 동사는 불용어 리스트를 이용하여 제거하였

다. [표 6]은 불용어 목록을 나타낸다.

갖다 같다 걸다 구매하다 구입하다

그렇다 그리다 나다 내다 다니다

달다 되다 두다 들다 때다

떼다 듯하다 배다 보다 불다

비하다 사다 삼다 세다 신다

쓰다 쓸다 알다 오다 이다

입다 있다 주다 쪼다 지다

짓다 타다 파다 팔다 품다

하다

[표 6] 불용어 목록 예

추출과정에서 문장 반전어(지만, 으나, 은데, 는데 …)가 발견될 경우,

해당 문장에서 특징단어와 평가어휘의 위치를 고려하여 해당 극성을 결정

한다. 반전어에 대한 경우는 크게 다음과 같이 나누어진다.

Page 34: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 26 -

1) 반전어를 기준으로 앞, 뒤 절에 다른 평가항목이 포함 된 경우

반전어를 기준으로 문장을 나누어 처리한다.

ex) ‘화질'에 대해 검색된 문장

“크기가 좀 크긴 하지만, 화질은 나름대로 뛰어나네요."

위 문장에는 ‘크기’와 ‘화질’이라는 평가항목이 포함되어 있다. 그러나

극성사전 구축 기준 평가항목인 '화질'에 대한 평가 표현만 추출해야

하기 때문에, 반전어 ‘지만’을 기준하여 문장을 분리하였을 때 ‘화질’

이라는 단어가 포함된 절만 취하여 처리한다. 여기서는 반전어 기준

뒷 절이다. 반대로, ‘크기’를 기준으로 본다면, 기준 평가항목 ‘크기’가

포함된 앞 절만 취한다.

2) 반전어가 포함되어 있지만 평가항목이 하나인 경우

ex)‘기장'에 대해 검색된 문장

“기장이 좀 짧아 보이지만 입어보니 잘 맞네요."

위 문장에서 평가항목 ‘기장' 뒤에 반전어 ‘지만'이 있지만 반전어 뒤

로 다른 평가항목(명사)가 따르지 않으므로 뒤쪽 문장도 '기장'에 대

해 평가하는 문장이다. 따라서 평가표현 '기장 짧다'와 '기장 맞다'를

모두 뽑을 수 있다. 그러나 이 두 평가표현은 극성이 상반되므로 반전

어 다음에 위치하는 평가어휘는 추출 시 품사정보에 반전 플래그(*)

를 추가하고 극성을 반전 처리한다. 평가어휘 ‘맞다’는 긍정 seed 에

포함되므로 ‘짧다’는 표현은 부정사전으로 편입된다.

사전어 후보목록 추출과정이 끝나면 각 극성 후보목록과 반대극성의

seed 목록을 상호 비교하여 일치하는 단어가 있는지 살펴보고, 있다면 제

거한다. 또한 양쪽 극성사전에서 중복되는 단어를 탐색하고, 발견되면 해

당 단어들의 적합성을 비교하기 위한 비교점수를 산출한다. 비교점수는

해당 평가어 p가 발견된 리뷰에서 평가항목 e와의 거리 값의 합 Σdist(e,

p)와 각 극성사전에 등장한 빈도 정보 f(p)를 사용하여 계산한다. 해당 수

Page 35: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 27 -

식은 아래와 같다.

×

(8)

×

(9)

중복 단어의 극성은 위에서 구해진 긍정점수 score+에서 부정점수

score- 빼준 값을 이용하여 결정한다.

(10)

위의 방법은 평가항목과 더 가까운 거리에서 등장한 빈도가 높은 쪽의

극성을 따르는 방법이다. 위의 의미극성 점수가 0점일 경우 각 극성에서

등장한 빈도만을 비교하여 극성을 결정한다. 빈도까지 같은 경우 해당 평

가어휘는 극성 판별에 부적합한 것으로 보고 양쪽 모두에서 삭제시킨다.

더 이상 평가항목을 포함하는 문장이 없을 때까지 위의 과정을 수행하여

극성 사전 구축을 마무리한다.

3.4. 극성 판별/요약

상위 과정을 통해 생성된 극성 사전을 적용하여 상품평 데이터의 문장

극성을 판별한다. 평가항목을 포함하는 문장을 상품평에서 검색한 후, 문

장의 각 형용사와 극성사전의 단어를 비교한다. 문장 s의 의미극성은 아

래의 수식에 의해 결정된다.

(11)

문장 극성 SO는, 문장 s에서 등장하는 형용사 p가 긍정 사전어 dic+와

일치한다면 평가항목 e로부터 해당 형용사의 거리 dist(e, p)값의 역수를

더해주고, 부정 사전어 dic-와 일치한다면 거리 값의 역수를 빼준다.

평가항목에 가까이 있는 어휘의 점수를 더 높게 주기 위해 점수는 거리

값의 역수로 계산한다. 문장 점수를 구하는 과정에서도 사전구축과정과

Page 36: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 28 -

마찬가지로 반전어에 대한 처리를 해 준다. 해당 일치 단어의 품사정보에

반전플래그(*)가 설정되어 있다면, 위의 점수 부여 방식도 반전시킨다.

수식 11에 의해 산출된 극성 점수는 의견의 강도를 나타내는 것은 아니

며, 양수면 긍정문장, 음수면 부정문장, 0점이면 중립문장으로 판단한다.

Page 37: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 29 -

4. 한국어 상품평 분석 시스템 KOPS

4.1. 시스템 개요 및 구성요소

3장에서 설명한 한국어 상품평 요약 방법에 따라 실제 상품평 요약을

수행하는 한국어 상품평 분석 시스템 KOPS를 구현하였다. 본 시스템은

C/S환경의 웹 기반으로 동작하며, [그림 15]와 같이 6개의 서브 모듈로

구성된다. ①∼⑤번 과정은 일정 주기로 실행되고, ⑥번은 클라이언트의

요청이 있을 때마다 수행된다.

[그림 15] KOPS의 서브 모듈과 처리순서

① 상품평 수집

실제 운영 중인 온라인 가격비교 사이트[4]의 상품평을 수집한다. 이 때

상품코드나 카테고리 코드를 인자로 주어 수집할 수 있다. 수집된 상품평

은 상품별로 구조화되어 XML 형태로 로컬에 저장된다. 상품평을 XML형

태로 저장하여 사용함으로써 추후 온라인 쇼핑몰에서 상품평을 제공하는

Open API 서비스를 지원하게 될 경우, 별도의 수정 없이 편리하게 연결

할 수 있다. Amazon과 같은 해외 쇼핑몰은 이미 상품평을 제공하는

Open API 서비스가 존재한다.

② 문장 보정

문장 보정 과정에서는 수집된 상품평의 오류를 보정한다. 형태소 분석 이

전의 전처리 단계이므로 문장부호, 띄어쓰기[29], 구어체 일부를 3장에 나

열한 규칙에 기준하여 보정해준다. 형태소 분석단계의 오류를 최소화 하

Page 38: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 30 -

는 것에 목적이 있다.

③ 형태소분석과 조작

전처리과정을 거쳐 보정된 문장을 형태소 분석하고, 특징과 의견어를 추

출하기 편하도록 정규화 하는 단계이다. 3장의 정규화 과정을 모두 수행

한다. 모든 과정이 끝나면 상품평 단위로 합쳐 1차 저장한다. 상품 당 하

나의 XML 파일로 카테고리 폴더에 저장되며, 상품에 대한 기본 정보와

함께 각 처리 단계별 원시 데이터를 포함한다. 저장된 결과 파일 구조는

[표 7]과 같다. 별점 등은 본 연구에서 사용하지 않지만, 추후 연구에서

반영하기 위해 추출하였다.

XML 노드명 내용

<shop> 쇼핑몰 명

<rating> 별점 평점

<writer> 작성자

<date> 날짜

<rv_tle> 상품평 제목

<rv_cmt> 상품평 내용

<autospacing> 1차 보정 결과

<kma> 형태소 분석 결과

<optimized> 형태소 분석 결과 재구성

<noun> 명사 노드

[표 7] 중간 저장되는 XML파일의 노드 구조

④ 평가항목 추출

중간 저장된 형태소 분석 결과에서 평가항목을 추출한다. 저장된 파일의

명사 노드를 불러와 최소 지지도에 기반하여 후보명사를 필터링하고 인터

넷 검색을 통한 연관도를 측정한 후 평가항목을 정렬한다.

⑤ 극성사전 구축

중간 저장된 형태소 분석 결과에서 의견어(형용사, 일부동사)를 추출하고

극성을 판별하여 극성사전을 구축한다. 3.3에서 제안한 극성 판별 알고리

즘을 이용하여 의견어의 극성을 분류한다.

Page 39: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 31 -

⑥ 상품평 요약

구축된 평가항목과 극성사전을 이용하여 실제 상품평을 분석/요약한다.

콘솔에서는 텍스트기반으로 요약하며, 웹 인터페이스에서는 긍/부정 비율

을 표시하는 막대그래프와 텍스트분류 형태로 표현한다.

4.2. 시스템 구축 환경

본 시스템의 구축환경에 대해 간단하게 기술한다. 4.1절에서 나열한 각

프로그램은 Ruby 언어를 이용하여 작성되었다.

항목 사용기술동작 OS 환경 Linux (Ubuntu 8.10 Server)

사용언어 Ruby 1.8.7

웹 서버 Apache + Passanger

Server-side Framework Ruby on rails 2.1.0

Client-side Framework Adobe Flex SDK 3.3

[표 8] KOPS의 구축/동작 환경

Ruby는 1993년 마츠모토 유키히로에 의해 개발된 범용 프로그래밍 언

어이다[31]. 스몰토크(Smalltalk)의 영향을 강하게 받은 객체지향 언어이

며, Perl, Python과 더불어 문자열 처리에 강점을 가지는 언어이다. 서버

측 프레임워크인 Ruby on Rails는 2005년에 등장한 Ruby 기반 웹 애플

리케이션 프레임워크로, 웹 애플리케이션 개발의 편의성과 높은 생산성으

로 새롭게 각광받고 있다.

[그림 16] 서버 측 애플리케이션 디렉토리 구조

Page 40: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 32 -

[그림 16]의 (A)는 Rails 프로젝트의 기본 디렉터리 구조이다. (B)는 실

제 애플리케이션 코드가 저장된 app 디렉터리의 내부 모습이다. MVC패

턴에 기반을 두어 크게 controllers, models, views로 나누어져있으며,

categories, lexicon, products, evaldatas, manager, summary 클래스로 구

성된다. 상품평이 저장된 XML 파일은 public/reviews 안에 각 카테고리

코드별로 저장되어 있다. (C)를 보면 카테고리 디렉터리에는 dic이라는 서

브디렉터리가 존재하는데, 이곳에 극성사전이 저장된다.

클라이언트 측 프로그램 제작에 사용된 Adobe Flex SDK는 웹상에서

쉽게 접할 수 있는 Flash Architecture를 이용하여 Enterprise영역의 리치

인터넷 애플리케이션(RIA)을 제작하기 위한 오픈소스 어플리케이션 개발

프레임워크 이다. 최근 루비 온 레일스(ROR)와 플렉스의 조합을 통하여

빠른 생산성과 더불어 풍부한 사용자 인터페이스를 갖춘 웹 애플리케이션

개발이 시도되고 있다[32].

4.3. KOPS 클라이언트 애플리케이션

KOPS의 클라이언트 애플리케이션은 Flash 기반으로 제작되어, 플래시

가상머신(Flash Player)이나 플래시 플레이어 플러그인이 설치된 웹브라

우저가 있는 환경이라면 플랫폼에 관계없이 실행할 수 있다.

[그림 17] KOPS 초기화면

Page 41: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 33 -

KOPS는 ‘요약보기’, ‘설정’, ‘수동평가’의 메뉴 항목을 가진다. 요약보기

는 사용자에게 상품 리스트를 보여주고, 사용자가 요약하여 보기 원하는

상품을 선택했을 경우 그 상품에 대한 요약을 제공해주는 화면이다.

[그림 18] 상품평 요약 출력의 예 (긍/부정 그래프 출력)

상품리스트에서 특정 상품을 선택했을 경우 [그림 18]과 같이 상품평에

포함된 평가항목에 따라 각 상품평의 극성 판별 결과를 그래프 형태로 표

현한다. 해당 평가항목의 요약 근거가 되는 문장을 보고자 할 경우, 그래

프의 평가항목을 클릭하면 [그림 19]과 같이 텍스트 보기 모드로 전환되

며 문장을 보여준다.

Page 42: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 34 -

[그림 19] 상품평 요약 출력의 예 (텍스트 출력)

‘그래프 보기’ 모드에서는 극성을 가지지 않는 중립 문장을 요약에 포함

하지 않지만, ‘텍스트 보기’ 모드에서는 중립문장까지 표시해 주므로, 상품

평의 세부 항목에 대한 내용을 살펴보는데 도움이 되고, 시스템의 요약결

과에 오류가 있을 경우 사용자가 파악할 수 있도록 하였다.

‘설정’ 메뉴는 사용자에 의해 조작 할 수 있는 항목들을 포함한다. 예

를 들어 사전 구축과정에서 시스템이 판단한 극성이 잘못되었을 경우 해

당 단어는 사용자에 의해 수동으로 극성을 편집할 수 있도록 한다. 그 외

에도 카테고리 편집기능, 상품 목록 갱신 기능 등의 설정 항목들을 포함

하고 있다.

Page 43: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 35 -

[그림 20] KOPS의 ‘설정’ 메뉴 화면

마지막으로 ‘수동평가’ 메뉴는 본 시스템의 요약결과에 대한 실험에서

사용 할 정답데이터와 사용자 만족도를 측정하기 위한 메뉴이다. 상세 내

용은 5.2.3절과 5.2.4절에서 설명한다.

[그림 21] 사용자 만족도 측정 화면

Page 44: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 36 -

[그림 22] 문장 극성 수동 분류 화면

현재 KOPS는 실험용으로 제작되어, 사용자의 요청이 있을 때마다 상

품평을 분석하고 요약하는 과정을 수행하게 된다. 상품평의 규모가 클 경

우 실시간 분석/요약에 다소 긴 시간이 소요되므로, 차후 상용화를 목적

으로 할 때에는 미리 요약과정을 수행한 후, 요약된 결과를 데이터베이스

에 저장하여 제공하는 것으로 속도 문제를 해결할 수 있다.

Page 45: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 37 -

5. 실험 및 평가

5.1. 실험 환경

본 논문에서 제안한 시스템의 성능을 평가하기 위해 (1)평가항목 추출,

(2)극성 사전 생성, (3)의견 문장 극성 판별, (4)요약결과에 대한 사용자

만족도 측면에서 실험을 진행하였다. 실험에 사용된 데이터는 가격비교사

이트[4]를 통해 여러 쇼핑몰에서 수집된 상품평을 다운로드하여 이용하였

다. 실험 데이터에 대한 상세 정보는 아래 도표와 같다.

카테고리 상품 상품평 문장 형태소 명사

상품평 당

평균 문장

스커트 567 2,990 8,748 103,980 16,627 2.92

쌍안경 82 486 1,406 15,534 2,384 2.89

립라이너 71 1,477 4,317 51,735 8,850 2.92

로만쉐이드 157 1,438 4,525 57,372 9,797 3.05

평균 219 1,598 4,749 57,155 9,415 2.94

[표 9] 실험 데이터 상세 정보 (단위 : 개)

실험에 사용된 데이터의 상품평 당 평균 문장수를 측정해 본 결과 하나

의 상품평은 약 3개의 문장으로 구성되어 있는 것으로 나타났다. 외국의

경우 상품리뷰가 상당히 구체적이고 많은 문장으로 작성되는 것과 대조적

이다. 영어 상품평의 경우 문장부호의 사용이 비교적 정확하여 문장 구분

이 용이하지만, 한국어 상품평은 대부분의 문장에서 문장 부호가 올바르

게 사용되지 않아 문장 구분이 명확하지 않은 점도 문장 개수를 떨어뜨리

는 원인이다.

실험 과정을 평가할 평가데이터는 자동 또는 수동으로 구축하였다. 구

축 방법에 대해서는 5.2절의 각 하위 항목에서 설명한다.

Page 46: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 38 -

5.2. 실험 결과

5.2.1. 평가항목 추출

평가항목 추출에 대한 실험은 시스템이 생성한 평가항목 리스트의 상위

50위내에 수동 분류한 정답 항목이 포함된 개수를 측정하였다. 카테고리

마다 평가항목이 다르고 평가항목의 적정개수도 달라지기 때문에 시스템

이 정렬한 평가항목 리스트에서의 추출 범위도 서로 달라야 한다. 하지만

카테고리별 평가항목 적정개수를 미리 알 수 없으므로 한 화면에 보여주

기 적당한 개수로 상위 50위까지를 추출범위로 하였다. 정답 데이터는 상

품평에 출현하는 모든 명사 리스트에서 평가항목으로 적합한 것을 수동으

로 분류하여 구축하였다.

PMI-RTF의 성능평가를 위해 상품평 자체 빈도 정보만을 이용한 내부

연관도 방법과 인터넷 검색을 이용한 외부 연관도 방법으로 각각 상품 평

가항목 추출 실험을 수행하고 그 결과를 PMI-RTF와 비교하였다. 내부연

관도 방법의 평균 재현율은 59.7%, 외부연관도 방법의 평균 재현율은

73.9%였다. PMI-RTF 방법의 평균 재현율은 90.3%로 세 가지 방법 중

가장 우수한 결과를 보여주었다. 실험결과는 [그림 23]과 같다.

56.7% 76.0%

48.0%

58.1%

73.3%

72.0%

76.0%

74.2%

92.0%

92.0%

87.1%

90.0%

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

스커트 쌍안경 립라이너 로만쉐이드

내부연관도 외부연관도 PMI-RTF

[그림 23] 평가항목 추출 방법 별 재현율 비교

Page 47: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 39 -

아래의 [표 10~13]은 각각 스커트, 쌍안경, 립라이너, 로만쉐이드 카테

고리에 대한 정답 데이터이고, 색상으로 표시한 부분은 PMI-RTF 방법으

로 추출한 시스템 결과 상위 50위 범위에 포함된 항목을 나타낸다.

1 사이즈 9 주름 17 엉덩이 25 블라우스2 색상 10 원단 18 안감 26 정장3 길이 11 밑단 19 고무줄 27 코디4 디자인 12 골반 20 레깅스 28 자켓5 가격 13 소재 21 벨트 29 두께6 배송 14 바느질 22 속치마 30 기장7 스타일 15 옷감 23 부츠 318 재질 16 라인 24 쉬폰 32

[표 10] 스커트 분류의 평가항목 추출 결과

1 배율 8 광학 15 크기 22 품질2 렌즈 9 스트랩 16 케이스 23 밝기3 성능 10 가격 17 사이즈 24 수동4 삼각대 11 초점 18 무게 25 조절5 배송 12 시야 19 야외 266 등산 13 공연 20 색상 277 안경 14 디자인 21 기능 28

[표 11] 쌍안경 분류의 평가항목 추출 결과

1 펜슬 8 파우더 15 색상 22 사용감2 입술선 9 리필 16 지속력 23 가격3 틴트 10 립라인 17 발림성 24 타입4 브로우 11 브러쉬 18 배송 25 라인5 입술 12 펄감 19 화장 266 메이크업 13 입술색 20 솔 277 색 14 발색 21 피부 28

[표 12] 립라이너 분류의 평가항목 추출 결과

1 재질 9 소재 17 천 25 자수2 오완식 10 쉐이드 18 암막 26 테슬3 원단 11 색상 19 프릴장식 27 사이즈4 주름 12 디자인 20 길이 28 가격5 비즈 13 설치 21 사계절 29 벽지6 안방 14 거실 22 침실 30 아이방7 주방 15 느낌 23 배송 31 햇빛8 무늬 16 바느질 24 분위기 32

[표 13] 로만쉐이드 분류의 평가항목 추출 결과

Page 48: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 40 -

특징 추출 실험에서 재현율만을 측정한 이유는 시스템 추출범위를 50위

까지로 제한하였지만 정답항목의 개수가 일정치 않아, 정답 수가 50개에

미치지 못할 경우 정확률이 의미가 없었기 때문이다. 또한 상품 평가항목

추출의 경우 평가항목만을 정확하게 추출하는 것도 중요하지만 목록 내에

평가항목이 얼마나 많이 포함되었는지가 더 중요하다.

5.2.2. 극성 사전 구축 정확/재현율

상품평의 문장 극성을 판별하기 위해 극성을 가진 형용사/동사의 집합

을 극성사전으로 정의한다. 극성 사전은 특정 상품 카테고리의 평가항목

당 하나씩 생성되며, 표제어와 극성태그로 구성된다. 극성사전은 상품평

데이터를 이용하여 자동 생성한다. 실험은 4개의 카테고리에서 각 카테고

리별로 평가항목 6개를 임의 선택하여 해당 평가항목에서 표현되는 의견

단어인 형용사/동사를 추출하여 예측된 극성의 정확률을 측정하였다. 사

전 구축과정에서 해당 평가항목이 포함되는 모든 문장에서 모든 의견표현

을 뽑아내므로, 추출된 극성사전 단어를 시스템이 분류한 결과와 수동으

로 분류한 결과를 비교하였다. 24개의 평가항목(4카테고리 x 6평가항목)

에 대한 극성 사전의 극성 분류 실험 결과 평균 정확률은 70%, 평균 재

현율 86%를 보였다. 각 카테고리별 실험 결과는 [그림 24]와 같다.

70%

60%

74%

77%

76%

86%

91%

90%

0%

20%

40%

60%

80%

100%

쌍안경 로만쉐이드 립라이너 스커트

정확율 재현율

[그림 24] 극성사전의 극성 분류 정확/재현율 평균

Page 49: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 41 -

각 평가항목별 상세 실험 결과는 부록 A ‘극성 사전 분류 실험 결과

‘의 [표 15~18]에 수록하였다. 부록의 결과표를 보면 부정사전의 단어수

와 재현율이 긍정사전에 비해 평균적으로 약간 낮은 수치를 보이는데, 이

는 상품평에서 긍정적 표현이 부정적 표현보다 많이 나타나기 때문이다.

같은 수의 시드 집합을 설정하더라도, 시드와 일치하는 부정 표현이 적어,

실제 추출결과가 긍정표현보다 적었다. 쌍안경 카테고리의 평가항목 ‘광

학’에 대한 극성사전에서는 긍정표현이 3개 추출된 데 반해, 부정표현은

하나도 검출되지 않았다.

5.2.3. 문장 극성 판별 정확도

구축된 극성 사전을 이용하여 평가항목이 포함된 문장의 극성을 판별한

다. 마찬가지로 시스템이 판단한 극성과 수동으로 판단한 극성을 비교하

였다. 수동 판단 데이터는 임의의 사용자에게 평가항목을 포함하는 문장

으로 추출된 것을 보여 주고, 해당 문장이 긍정인지 부정인지 표시하게

하였다. 수동 판단에 사용된 프로그램은 4장의 [그림 22]와 같다. 먼저 한

화면에 단위 상품평 전체 텍스트와 상품평에 포함된 평가항목 리스트를

보여준다. 사용자가 특정 평가항목을 선택하면 평가항목이 포함된 문장과,

문장 내에 포함된 의견단어를 보여주고 해당 문장의 극성과 형용사 극성

을 판정하게 했다. 극성 표시는 긍정 1, 부정 2, 중립 3으로 표시하도록

하였다. 이때, 특정 문장은 사용자에 따라 주관적으로 평가되기도 했다.

예) 스커트 분류의 평가항목 ‘코디’ 에 대한 의견 문장

“코디만 좀 되면 세련되게 입을 수 있겠네요.”

예제 문장의 경우 ‘코디’에 대해 긍정적으로 평가한 것인지 부정적으로

평가한 것인지 확실치 않다. 긍정적이라는 의견, 부정적 이라는 의견, 중

립이라는 의견으로 다양한 평가가 나와 극성을 한쪽으로 결정 할 수 없었

다. 따라서 사용자 평가에 의한 정답데이터는 보는 이에 따라 의견이 달

라질 수도 있다는 전제 하에 평가되었음을 밝힌다. 문장 극성 판단 정확

Page 50: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 42 -

도 비교는 시스템의 극성 판단결과가 사용자의 판단과 일치할 경우 1점,

사용자는 극성이 있는 것으로 판단했으나 시스템은 중립으로 표시한 것은

0.5점을 주었다. 스커트 분류의 상품 2개에 대해 5개의 평가항목별로 극성

분류된 문장에 대한 극성 식별 정확도 실험 결과 평균 정확률 81.8%를

나타냈다. 상세 결과는 [표 14]와 같다.

상 품 평가항목 정확률

스커트 분류

상품 1(id:784994)

길이 79.6%

디자인 73.5%

재질 90.0%

스커트 분류

상품 2(id:1576666)

길이 77.7%

배송 88.4%

평균 문장 극성 식별 정확도 81.8%

[표 14] 문장 극성 판별 정확도 평가 결과

5.2.4. 사용자 만족도 평가

시스템에 의해 요약되어 그래프로 출력되는 결과가 실제 사용자에게 얼

마나 도움이 되는지를 알아보기 위해 본 연구와 관계없는 피 실험자 7명

을 대상으로 요약결과에 대한 만족도를 표현하도록 하였다. 평가에 사용

된 프로그램의 인터페이스는 4장의 [그림 21]과 같다. 좌측에 실제 상품평

을 보여주고, 우측에 시스템이 요약한 그래프를 보여준 후, 각 항목별 평

가란을 만들어 1~10점 사이의 값으로 점수를 주게 하였다.

평가는 ‘스커트’ 카테고리에 속한 상품 중 5개를 무작위 추출하여 실시

하였다. 각 사용자별로 원격지에서 해당 프로그램에 접속하여 평가하였고

모든 결과데이터는 실시간으로 서버 DB에 저장된다. 다섯 개 상품에 대

해 평균 7.6/10.0의 점수를 받아, 제안된 시스템을 통해 상품평을 자동으

로 요약한 결과가 실제 사용자의 상품평 분석에 도움이 되는 것으로 나타

났다. 상품별 평가 결과는 부록 B의 제품별 사용자 만족도 평가 결과 [표

19~23]에 수록하였다.

Page 51: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 43 -

6. 결론과 향후 연구

본 논문에서는 상품평 수집부터 요약까지의 각 단계에서 상품평과 웹에

서 추출한 정보를 활용하여 기존 연구가 가지고 있던 지식 구축의 어려움

을 해결한다. 또한 상품평을 평가 항목 기준으로 요약하여 상품이 가지는

다양한 특성에 따른 평가 결과를 제공해주어 사용자가 기존 구매자의 평

가를 효율적으로 분석하도록 돕는다. 요약결과를 그래프 형태로 제공하므

로, 사용자는 좀 더 직관적으로 상품평을 분석할 수 있고, 이런 과정들의

자동화를 통해 상품평 요약 분석에 소요되는 비용을 절감 할 수 있다. 처

리과정은 각 상품 카테고리별 상품평에서 상품 평가항목을 추출하고, 추

출된 평가항목을 기반으로 각 상품의 상품평을 의미 극성(긍정/부정)으로

분류하여 그래프 형태로 요약한다. 시스템의 성능 측정을 위한 실험 결과

는 상품 평가항목 추출 재현율 평균 90%, 극성분류를 위한 형용사 극성

사전 분류 정확도 평균 70%, 재현율 86%, 극성사전을 이용한 문장 극성

분류 정확도 81%의 성능을 보여 본 시스템이 한국어 상품평 요약을 잘

수행할 수 있음을 증명하였다. 본 시스템이 생성한 요약결과를 토대로 사

용자 만족도를 조사한 결과 10점 만점에 평균 7.6점을 얻어 생성 결과가

실제 온라인 쇼핑에서 구매 결정에 대한 참고 자료로 유용하다는 결론을

얻었다.

제안된 시스템에서는 특징 추출과정에서 문장에 명시된 특징만 뽑을

수 있고, 한 단어 이상으로 구성된 명사 구(복합명사) 형태의 상품특징을

추출하지 못하는 문제점이 남아 있다. 추후 연구를 통해 해결해야 할 과

제이며, 이형동의 평가항목의 통합처리(예 : 색상-색깔, 크기-사이즈, 배터

리-밧데리,베터리)와 의견 세기(강도)처리 역시 차후 추가적으로 연구가

필요한 부분이다.

Page 52: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 44 -

참 고 문 헌

[1] 방송통신위원회, NIDA 한국인터넷진흥원, 2008년 인터넷 이용 실

태조사 요약보고서, 17–19, 2008.

[2] 통계청, 2008년 연간 및 4/4분기 전자상거래 및 사이버쇼핑 동향,

11–17, 2008.

[3] 온라인 구전 조사 Buzz Index,

http://www.buzzindex.co.kr/site_new2/

sub02_buzzindex/sub_buzzindex_story.htm.

[4] 온라인 가격비교 사이트 BB.co.kr, http://www.bb.co.kr.

[5] Yu and V. Hatzivassiloglou, “Towards answering opinion ques-

tions: Separating facts from opinions and identifying the polar-

ity of opinion sentences”, In Proc. of EMNLP, pp.129–136,

2003.

[6] Turney, “Thumbs up or thumbs down? Semantic orientation

applied to unsupervised classification of reviews”, In Proc. of

the ACL, pp.417–424, 2002.

[7] Pang, L. Lee, and S. Vaithyanathan, “Thumbs up? Sentiment

classification using machine learning techniques”, In Proc. of

EMNLP, pp.79–86, 2002.

[8] Kushal Dave, Steve Lawrence, David M. Pennock, “Mining the

peanut gallery : opinion extraction and semantic classification

of product reviews”, In Proc. of the WWW, pp. 519–528, 2003.

[9] Esuli, A. and Sebastiani, F., “Determining term subjectivity and

term orientation for opinion mining”. In Proc. of the European

Chapter of the Association for Computational Linguistics,

Trento, Italy, European Chapter Meeting of the ACL.

Association for Computational Linguistics. pp.193–200, 2006.

[10] Pang, B. and Lee, L. 2004. “A sentimental education: sentiment

Page 53: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 45 -

analysis using subjectivity summarization based on minimum

cuts”, In Proc. of the 42nd Annual Meeting on Association for

Computational Linguistics, Barcelona, Spain, Annual Meeting of

the ACL. Association for Computational Linguistics,

Morristown, NJ, pp.271, 2004.

[11] Hu, M. and Liu, B. “Mining opinion features in customer re-

views”, In Proc. of the 19th National Conference on Artificial

Intelligence, San Jose, USA, pp.755-760, 2004.

[12] Scaffidi C., “Application of a probability-based algorithm to ex-

traction of product features from online reviews”, Tech. Rep.

CMU-ISRI-06-111, Institute for Software Research, School of

Computer Science, Carnegie Mellon University, 2006.

[13] Kim, S.M., Pantel, P., Chklovski, T., Pennacchiotti, M,

“Automatically Assessing Review Helpfulness”, In Proc. of

EMNLP, pp.423–430, 2006.

[14] Scaffidi, C., Bierhoff, K., Chang, E., Felker, M., Ng, H., and Jin,

C. “Red Opal: product-feature scoring from reviews”, In Proc.

of the ACM Conference on Electronic Commerce, San Diego,

California, USA, New York, pp.182-191, 2007.

[15] Hu, M. and Liu, B. “Mining and summarizing customer re-

views”, In Proc. of the 10th ACM SIGKDD Conf., pp.168–177,

New York, NY,USA. ACM Press, 2004.

[16] Liu, B., Hsu, W., and Ma, Y. “Integrating classification and as-

sociation rule mining”. In Proc. of the Fourth Int'l Conf. on

Knowledge Discovery and Data Mining, pp.80–86. 1998.

[17] O. Etzioni, M. Cafarella, D. Downey, S. Kok, A. Popescu, T.

Shaked, S. Soderland, D. Weld, and A. Yates, “Unsupervised

named-entity extraction from the web: An experimental study”,

Artificial Intelligence, 165(1) pp. 91–134, 2005.

Page 54: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 46 -

[18] Popescu, A. and Etzioni, O. Extracting product features and

opinions from reviews. In Proc. of the Conference on Human

Language Technology and Empirical Methods in Natural

Language Processing (Vancouver, British Columbia, Canada,

October 06 - 08, 2005). Human Language Technology

Conference. Association for Computational Linguistics,

Morristown, NJ, pp.339–346, 2005.

[19] 이우철, 이현아, “상품평 데이터와 웹 검색엔진을 이용한 상품별

평가항목 자동 추출”, 제29회 한국정보처리학회 춘계학술발표대회

논문집 제15권 제1호, pp. 107–110 , 2008.

[20] Bing Liu, Minqing Hu and Junsheng Cheng. "Opinion Observer:

Analyzing and comparing opinions on the web", In Proc. of

WWW 2005, pp.342–351, 2005.

[21] P. Turney and M. Littman. "Measuring praise and criticism:

Inference of semantic orientation from association", In ACM

Transactions on Information Systems (TOIS), pp.315–346,

2003.

[22] Esuli, A. and Sebastiani, F. "Determining the semantic ori-

entation of terms through gloss classification", In Proc. of the

ACM international Conference on information and Knowledge

Management, New York, pp.617-624, 2005.

[23] Esuli, A. and Sebastiani, F. “Determining term subjectivity and

term orientation for opinion mining”, In Proc. of the European

Chapter of the Association for Computational Linguistics

(Trento, Italy, April 03 - 07, 2006). European Chapter Meeting

of the ACL. Association for Computational Linguistics.

pp.193-200, 2006.

[24] A. Esuli and F. Sebastiani. SentiWordNet: A publicly available

lexical resource for opinion mining. In Proc. of the 5th

Page 55: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 47 -

International Conference on Language Resources and Evaluation

(LREC 2006), Genoa, Italy, May, 2006.

[25] Wilson, T., Wiebe, J., and Hoffmann, P, “Recognizing con-

textual polarity in phrase-level sentiment analysis”, In Proc. of

the Conference on Human Language Technology and Empirical

Methods in Natural Language Processing (Vancouver, British

Columbia, Canada, October 06 - 08, 2005). Human Language

Technology Conference. Association for Computational

Linguistics, Morristown, NJ, pp.347-354, 2005.

[26] Hatzivassiloglou, V. and McKeown, K. R, "Predicting the se-

mantic orientation of adjectives", In Proc. of the Eighth

Conference on European Chapter of the Association for

Computational Linguistics (Madrid, Spain, July 07 - 12, 1997).

European Chapter Meeting of the ACL. Association for

Computational Linguistics, Morristown, NJ, pp.174-181, 1997.

[27] 황재원, 고영중, “감정자질을 이용한 한국어 문장 및 문서 감정

분류 시스템“, 정보과학회논문지 : 컴퓨팅의 실제 및 레터, 제 14

권 3호(2008. 5), pp.336–340, 2008.

[28] 명재석, 이동주, 이상구, “반자동으로 구축된 의미 사전을 이용한

한국어 상품평 분석 시스템”, 정보과학회논문지 : 소프트웨어 및

응용, 제 35권 제 6호(2008. 6), pp.392–403, 2008.

[29] Naver Lab, 자동 띄어쓰기, http://s.lab.naver.com/autospacing/

[30] 강승식, HAM, “한국어 형태소 분석기와 한국어 분석 모듈”, 국민

대학교 자연언어 정보검색연구실, http://nlp.kookmin.ac.kr.

[31] David Flanagan and Yukihiro Matsumoto, "The Ruby

Programming Language", 1st ed., O'REILLY, Tokyo, 2008.

[32] Tony Hillerson and Daniel Wanja, "Flex on Rails : Building

Rich Internet Applications with Adobe Flex 3 and Rails 2", 1st

ed., Pearson Education, Inc., USA, 2009.

Page 56: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 48 -

부록

A. 극성사전 분류 실험 결과

  광학 렌즈 배송 성능 배율 삼각대 평균

긍정

정답

단어수3 6 15 13 15 4 9.3 개

사전

단어수3 17 19 21 21 8 14.8 개

사전

정확률100% 35% 79% 62% 67% 50% 65%

사전

재현율100% 100% 50% 100% 93% 100% 91%

부정

정답

단어수- 7 3 4 8 4 5.2 개

사전

단어수- 4 2 3 7 6 4.4 개

사전

정확률- 100% 50% 100% 71% 50% 74%

사전

재현율- 57% 33% 75% 63% 75% 61%

정확률 평균 100% 68% 64% 81% 69% 50% 70%

재현율 평균 100% 79% 42% 88% 78% 88% 76%

[표 15] 쌍안경 분류 사전 구축 정확률/재현율

Page 57: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 49 -

  가격 색상 원단 오완식 분위기 사이즈 평균

긍정

정답

단어수51 32 22 13 29 17 27.3 개

사전

단어수98 43 29 20 38 33 43.5 개

사전

정확률50% 74% 72% 65% 74% 52% 65%

사전

재현율96% 100% 95% 100% 97% 100% 98%

부정

정답

단어수17 8 3 5 6 13

8.67

사전

단어수22 12 4 5 10 18

11.83

사전

정확률41% 58% 50% 80% 40% 67% 56%

사전

재현율53% 88% 67% 80% 67% 92% 74%

정확률 평균 45% 66% 61% 73% 57% 59% 60%

재현율 평균 75% 94% 81% 90% 82% 96% 86%

[표 16] 로만쉐이드 분류 사전 구축 정확률/재현율

Page 58: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 50 -

  발색 라인 가격 색상 리필 지속력 평균

긍정

정답

단어수9 32 28 62 11 8 25. 개

사전

단어수12 43 65 75 15 8 36.3 개

사전

정확률75% 74% 40% 79% 73% 100% 74%

사전

재현율100% 100% 93% 95% 100% 100% 98%

부정

정답

단어수2 17 8 16 3 1

7.83

사전

단어수1 20 18 24 4 1

11.33

사전

정확률100% 75% 39% 54% 75% 100% 74%

사전

재현율50% 88% 88% 81% 100% 100% 84%

정확률 평균 88% 75% 39% 66% 74% 100% 74%

재현율 평균 75% 94% 90% 88% 100% 100% 91%

[표 17] 립라이너 분류 사전구축 정확률/재현율

Page 59: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 51 -

  디자인 재질 스타일 색상 소재 벨트 평균

긍정

정답

단어수65 25 35 42 34 19 36.7 개

사전

단어수97 35 40 55 45 23 49.2 개

사전

정확률65% 69% 85% 73% 76% 83% 75%

사전

재현율97% 96% 97% 95% 100% 100% 98%

부정

정답

단어수27 9 8 22 15 17

16.33

사전

단어수26 9 11 26 15 16

17.17

사전

정확률77% 78% 64% 77% 87% 88% 78%

사전

재현율74% 78% 88% 91% 87% 83% 83%

정확률 평균 71% 73% 74% 75% 81% 85% 77%

재현율 평균 85% 87% 92% 93% 93% 91% 90%

[표 18] 스커트 분류 사전구축 정확률/재현율

Page 60: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 52 -

  가격 길이 디자인 밑단 배송 사이즈 색상 스타일 총평점

user1 6 3 10 1 4 10 7 10 6.375

user2 9 7 9 6 8 8 10 9 8.25

user3 8 2 8 2 6 8 8 8 6.25

user4 9 6 10 6 5 6 7 7 7

user5 9 7 9 7 7 9 9 9 8.25

user6 9 7 9 5 6 9 9 9 7.875

user7 5 6 8 7 5 7 7 8 6.625

평균 7.857 5.429 9 4.857 5.857 8.143 8.143 8.571 7.232

[표 19] 스커트 상품 1의 사용자 만족도 평가 결과

  가격 길이 배송 사이즈 색상 엉덩이 주름 총평점

user1 10 1 5 8 10 10 10 7.7143

user2 8 6 5 5 10 10 10 7.7143

user3 8 2 5 8 10 10 8 7.2857

user4 5 6 5 7 10 10 8 7.2857

user5 8 4 8 7 10 9 9 7.8571

user6 10 6 7 7 10 8 8 8

user7 9 3 6 8 9 9 7 7.2857

평균 8.286 4 5.857 7.143 9.857 9.429 8.571 7.592

[표 20] 스커트 상품 2의 사용자 만족도 평가 결과

  가격 길이 디자인 사이즈 스타일 재질 총평점

user1 9 1 10 3 10 10 7.1667

user2 8 6 9 8 8 7 7.6667

user3 10 1 7 6 9 8 6.8333

user4 8 5 7 6 9 7 7

user5 8 5 9 5 10 8 7.5

user6 8 6 9 7 8 8 7.6667

user7 7 4 8 5 7 7 6.3333

평균 8.286 4 8.429 5.714 8.714 7.857 7.167

[표 21] 스커트 상품 3의 사용자 만족도 평가 결과

B. 제품 별 사용자 만족도 평가 결과 표

Page 61: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 53 -

  가격 기장 길이 디자인 레깅스 배송 사이즈 색상 엉덩이 총평점

user1 7 10 6 10 10 10 7 3 5 7.5556

user2 8 10 8 8 10 10 7 6 7 8.2222

user3 7 8 4 8 10 9 8 3 4 6.7778

user4 7 7 5 10 6 9 5 4 2 6.1111

user5 9 8 8 9 8 10 8 6 8 8.2222

user6 10 7 7 8 10 10 7 6 6 7.8889

user7 7 7 5 8 5 7 5 4 5 5.8889

평균 7.857 8.143 6.143 8.714 8.429 9.286 6.714 4.571 5.286 7.238

[표 22] 스커트 상품 4의 사용자 만족도 평가 결과

  길이 디자인 배송 재질 총평점

user1 7 10 10 10 9.25

user2 8 10 10 10 9.5

user3 7 6 10 10 8.25

user4 7 8 8 9 8

user5 9 8 10 10 9.25

user6 9 8 10 8 8.75

user7 6 8 9 8 7.75

평균 7.571 8.286 9.571 9.286 8.679

[표 23] 스커트 상품 5의 사용자 만족도 평가 결과

Page 62: 평가항목 추출과 극성판별에 기반한 한국어 상품평 요약

- 54 -

감사의 글

대학원을 무사히 마칠 수 있도록 도와주신 주위분들의 고마움을 기억하면

서 지면으로나마 감사의 마음을 전하고자 합니다.

정규 대학 졸업이 아닌 학점은행제를 통해 들어와 아무것도 모르는 상태

였던 저를 지도학생으로 흔쾌히 받아주신 이현아 교수님께 깊은 감사를

드립니다. 처음 접하는 모든 상황들이 힘들었고, 학문의 어려움을 뼈저리

게 느끼며 다시 일터로 돌아가고 싶은 마음이 수백 번 들었지만, 부족한

제자를 항상 칭찬으로 대해 주시는 교수님을 실망시켜드릴 수 없었기에

저 자신을 채찍질하며 여기까지 올 수 있었습니다.

학교생활 중 저의 고민을 들어주시며 제가 대학원 생활에 잘 적응하도록

지도해 주시고 보살펴 주신 김병만 교수님, 김시관 교수님께도 감사를 드

립니다. 대학원 수업을 통해 진정으로 학생을 위하는 강의가 어떤 것인지

를 알게 해 주신 오득환 교수님께도 감사드립니다.

그리고 좋은 논문이 될 수 있도록 자상함과 단호한 조언으로 관심을 베풀

어주신 이해연 교수님, 신윤식 교수님, 김선명 교수님께도 진심으로 감사

를 드립니다. 항상 미소로 대하시며 학생에 대한 열정을 보여주시는 임은

기 교수님께도 감사의 말씀을 드립니다. 지금은 학교에 계시지 않지만, 입

학 초 한 학기동안 저를 돌봐주신 오상엽 교수님께도 감사드립니다.

여러모로 도와주시고 이끌어주신 경호선배님, 동규선배님, 형순선배님 감

사드립니다. 같이 공부하며 여러가지로 도와준 종인이형, 창배형, 현수형

고마워요~ 창배형, 현수형 남은 학기 좋은 결과 얻길 바랄께요.

저의 고등학교 은사님이시자 대학원 선배님이신 이창석 선생님께도 감사

드립니다. 같이 밤새며 학교생활 했던 고등학교 동창 석환이, 나의 꼬드김

으로 대학원 들어와 고생하는 경석이 모두 고맙고 석환이는 호주에서, 경

석이는 대학원에서 좋은 결과 있길 바란다. 그리고 2년 동안 함께 생활하

며 실험 도와 준 445호 연구실원들 모두 고맙습니다.

심심할 때 마다 놀아주고 밥 사주던 영진이, 우리 HAUS의 현경이, 나리,

지은이, 실험 도와준 정아, 유미, 미애 다들 고마워~

마지막으로 항상 저를 격려해주신 할머니와 풍족치 못한 환경에서도 아들

대학원 뒷바라지 해주시느라 고생하신 아버지, 어머니께 깊이 감사드립니

다. 효도하겠습니다.

2009년 7월 이 우 철 올림