(VOC Summarization and Classification based on Sentence ...kiise.or.kr/e_journal/2016/1/KTCP/pdf/08.pdf · 제외하고 주요 문장을 중심으로 카테고리를 결정할 수

ISSN 2383-6318(Print) / ISSN 2383-6326(Online)

KIISE Transactions on Computing Practices, Vol. 22, No. 1, pp. 50-55, 2016. 1

http://dx.doi.org/10.5626/KTCP.2016.22.1.50

․이 논문은 2015년도 (주)알티베이스의 지원을 받아 수행된 연구임(R0190-15-

2016, (1세부) 분산환경 인메모리 기술 기반의 복합형 고속 스트림 빅데이터

처리 기술 개발)

․이 논문은 2015 한국컴퓨터종합학술 회에서 ‘구문 의미 이해 기반의 VOC

요약 시스템’의 제목으로 발표된 논문을 확장한 것임

논문 수 : 2015년 9월 11일

(Received 11 September 2015)

논문수정 : 2015년 10월 27일

(Revised 27 October 2015)

심사완료 : 2015년 11월 10일

(Accepted 10 November 2015)†

††

정 회 원

비 회 원

:

:

와이즈넛 성장기술본부

[email protected]

[email protected]

[email protected](wisenut)

(Corresponding author임)

와이즈넛 성장기술본부

[email protected]

CopyrightⒸ2016 한국정보과학회ː개인 목 이나 교육 목 인 경우, 이 작물

의 체 는 일부에 한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때,

사본은 상업 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처를 반드시

명시해야 합니다. 이 외의 목 으로 복제, 배포, 출 , 송 등 모든 유형의 사용행

를 하는 경우에 하여는 사 에 허가를 얻고 비용을 지불해야 합니다.

정보과학회 컴퓨 의 실제 논문지 제22권 제1호(2016. 1)

구문 의미 이해 기반의 VOC 요약 분류(VOC Summarization and Classification based on

Sentence Understanding)

김 문 종† 이 재 안

†† 한 규 열

† 안 민

†

(Moonjong Kim) (Jaean Lee) (Kyouyeol Han) (Youngmin Ahn)

요 약 VOC(Voice of Customer)는 기업의 제품 는 서비스에 한 고객의 의견이나 요구를 악할

수 있는 요한 데이터이다. 그러나 VOC 데이터는 화체의 특징으로 인해 내용의 분 이나 복이 다수

존재할 뿐 아니라 다양한 내용의 화가 포함되어 유형을 악하는데 어려움이 있다. 본 논문에서는, 문서

에서 요한 의미를 갖는 키워드와 품사, 형태소 등을 언어 자원으로 선정하 고, 이를 바탕으로 문장의

구조 의미를 이해하기 한 LSP(Lexico-Semantic-Pattern, 어휘 의미 패턴)를 정의하여 구문 의미 이

해 기반의 주요 문장을 요약문으로 추출하 다. 요약문을 생성함에 있어 분 된 문장을 연결하고 복된

의미를 갖는 문장을 이는 방법을 제안하 다. 한 카테고리 별로 어휘 의미 패턴을 정의하고 어휘 의

미 패턴에 매칭된 주요 문장이 속한 카테고리를 기반으로 문서를 분류하 다. 실험에서는 VOC 데이터를

상으로 문서를 분류하고 요약문을 생성하여 기존의 방법들과 비교하 다.

키워드: 요약, 문서 분류, 구문 분석, 구문 의미 이해, VOC

Abstract To attain an understanding of customers' opinions or demands regarding a companies’

products or service, it is important to consider VOC (Voice of Customer) data; however, it is difficult

to understand contexts from VOC because segmented and duplicate sentences and a variety of dialog

contexts. In this article, POS (part of speech) and morphemes were selected as language resources due

to their semantic importance regarding documents, and based on these, we defined an LSP (Lexico-

Semantic-Pattern) to understand the structure and semantics of the sentences and extracted summary

by key sentences; furthermore the LSP was introduced to connect the segmented sentences and

remove any contextual repetition. We also defined the LSP by categories and classified the documents

based on those categories that comprise the main sentences matched by LSP. In the experiment, we

classified the VOC-data documents for the creation of a summarization before comparing the result

with the previous methodologies.

Keywords: summarization, text classification, sentence analysis, sentence understanding, VOC

구문 의미 이해 기반의 VOC 요약 분류 51

그림 1 VOC 요약 분류 과정

Fig. 1 Process of VOC summarization and classification

1. 서 론

VOC는 기업이 제공하는 제품 는 서비스에 한

고객의 각종 문의, 불만, 제안 등의 피드백을 포함한 데

이터를 말한다. 기업은 이러한 데이터로부터 고객의 요

구를 악하고 반 함으로써 고객의 불만을 해소할 수

있으며 장기 인 에서 기업의 경쟁력 강화를 기

할 수 있다. 이에 따라 기업은 상담데이터를 축 하고

그 내용을 악하여 고객의 요구를 해소하길 원했으나

화체의 특징으로 인해 문장의 구분이 어렵고 화의

분 이 생기거나 복된 의미가 자주 등장하여 그 내용

을 악하기 어려운 이 있었다. 한 기업의 서비스가

늘어날수록 고객의 상담 유형이 다양해 질 뿐 아니라,

상담내용이 여러 의미를 내포하는 경우도 존재하기 때

문에 기업이 원하는 VOC 데이터를 선정하기에 더욱 어

려운 이 있었다.

본 논문에서는 VOC 데이터의 특징으로 발생하는 분

석의 어려움을 해결하기 해 요한 의미를 갖는 문장

을 추출하여 요약하고, 이를 기반으로 VOC의 카테고리

를 분류하는 시스템을 구축하 다. 이를 해 VOC 데

이터의 특징을 잘 표 하는 키워드들을 선별하고, 선별

된 키워드가 포함된 구문의 의미를 분석하기 한 어휘

의미 패턴을 구축하여 의미 기반의 주요 문장을 추출하

다. 선정된 주요 문장을 요약하는 과정에서는 구문 의

미 분석을 통해 분 된 문장을 연결하고 복된 의미를

갖는 문장들을 이는 방법을 고안하 다. 분류의 단계

에서는 각 문서의 주요 문장이 포함하는 어휘들이 갖는

의미가 가장 높은 확률로 해당되는 카테고리로 VOC 분

류를 수행하 다.

2. 련연구

문서 요약의 통 인 근법은 기존의 문장들 에

서 요하다고 단되는 문장을 추출하는 방법이다. 주

로 문장에 존재하는 고빈도 키워드와 같이 통계 정보를

이용하여 주요 문장을 추출하 다. Bazilay와 Elhadad[1]

는 단어 간의 의미 거리를 워드넷의 분류 체계를 통

해 계산하고, 문장이 갖는 단어로부터 생성되는 어휘 체

인(lexical chain)의 강도에 따라 주요 문장을 추출하여

요약문을 생성하 다. TextRank[2]는 문서에서 나타나

는 각각의 단어들 사이의 동시 출 성을 이용하는 방법

으로 요약문을 생성하 다. 담화 이론(discourse theory)

에 따른 연구[3]에서는 수사 구조 분석을 통해 담화 트

리(discourse tree)를 생성하여 요도가 높은 구/문장을

요약문으로 제시하 다.

문서 분류에 한 기존 근법은 단어나 문장이 비슷

한 유형으로 분류하는 방법이다. 규칙 기반 방법으로는

단락에 가 치를 부여하고 키워드 지지도를 계산하여

문서를 분류하는 연구 등 키워드를 활용하는 연구가 진

행되었다. 기계학습 기반 방법으로는 kNN[4] 그리고

SVM[5] 등 문서에 한 학습 모델을 만들어 문서를 분

류하는 연구가 진행되었다. 기계학습 방법은 주로 특정

단어나 모델에 한 통계나 유사도 기반으로 문서를 분

류하는 방법이다. 최근에는 언어 모델을 구축[6]하여 문

서를 분류하는 방법들이 연구되었다. 이러한 방법은 각

단어나 문장들의 계를 통해 문서의 카테고리를 결정

하지만 구문이 가지는 의미를 악하기에는 여 히 어

려움이 있었다.

52 정보과학회 컴퓨 의 실제 논문지 제 22 권 제 1 호(2016. 1)

3. VOC 요약 분류 시스템

본 장에서는 제안한 VOC 데이터의 요약 분류 시

스템과 이를 한 언어 자원을 구축하는 과정을 설명한

다. 그림 1은 VOC의 요약 분류의 과정을 나타낸다.

3.1 언어 자원 구축

컴퓨터가 문서의 주요 내용을 악하고 요약하기

해서는 언어 자원이 반드시 필요하다. 문장에는 의미를

가지는 형태소 해당 형태소의 품사 등의 문법 정보

가 내포되어 있는데, 문장의 주된 의미를 나타내는 요소

를 단하기 해서는 조사나 부사, 어미 등이 요한

정보가 된다. 를 들어, 그림 2에서 ‘속도가 조 느려

요’라는 문장에는 ‘속도’, ‘느려요’와 같이 문장의 주된

의미를 나타내는 요소와 ‘가’와 같은 명사의 격을 표

하는 조사, ‘조 ’과 같이 용언을 수식하는 부사가 부가

인 요소로 포함되어 있다. 본 논문에서는, 언어 자원

구축을 해서 이러한 요소들을 의미 자질로 구축하고

어휘 의미 패턴의 구성 요소로 활용하 다.

그림 2 의미자질 추출과 어휘 의미 패턴 구축

Fig. 2 Feature extraction and LSP building

3.2 문장 별 분리

상담데이터는 고객과 상담사의 화를 담은 정보로서

여러 문장이 이어져 등장하는 경우가 빈번할 뿐 아니라,

기계 인 방법으로 음성이 텍스트로 변환된 문서는 구

두 이 생략되는 문제가 발생한다. 어휘 의미 패턴은 고

유한 의미에 해 구문 유형을 정의한 문법이다. 어휘

의미 패턴을 통해 구문을 바르게 분석하기 해서, 각

구문이 하나의 의미를 갖도록 문장의 범 를 인식할 필

요가 있다. 문장은 기호, 어휘, 형태소, 품사 등을 이용

하여 다양한 형태로 분리될 수 있다. 를 들어, ‘-니까’,

‘-구요’와 같은 어휘나 구두 , 종결어미는 한 문장이 끝

그림 3 문장 별 분리

Fig. 3 Example of sentence detection and tokenization

났음을 의미한다. 본 논문에서는 이러한 요소를 문장 분

리를 한 규칙사 으로 구축하고 문장을 분리하 다.

분리된 문장은 요약문을 만들 때 필요한 문장만을 효율

으로 추출할 수 있는 장 이 있다. 그림 3은 문장을

분리 규칙을 이용하여 문장을 분리하는 이다.

3.3 의미 분석을 통한 요약

3.3.1 주요 문장 추출

하나의 어휘 의미 패턴을 구축하게 되면 같은 의미를

가진 여러 문형을 분석하게 된다. 요한 의미를 가지는

문형들에 한 언어자원을 구축하고 새로운 문장의 의

미 여부를 단하여 주요 문장으로 선정하 다. 하지만

이 문장들을 요약문으로 만들기에는 부족한 이 있다.

왜냐하면 상담데이터는 고객과 상담사의 화로 인해

문장이 분 되어 요한 의미를 갖는 문장을 추출하지

못하거나 같은 의미가 복되어 등장하는 복잡한 요약

문이 생성될 수 있기 때문이다. 따라서 추출한 문장의

의미를 이해하여 의미의 연속성을 갖는 문장을 결합하

고 의미가 복되는 문장을 제외하는 과정이 필요하다.

3.3.2 문장 결합

문장 결합은 연속되는 문장이 결합 요소를 가질 때 두

문장을 결합하는 방법이다. 한 사람의 화가 상 방의

답으로 인해 분 되었을 경우 화를 결합하면 의미를

갖는 하나의 문장을 형성할 수 있다. 문장을 결합하기

해서는 특정한 의미자질이 연속하여 하나의 의미 패턴

을 형성해야 한다. 두 문장이 하나의 어휘 의미 패턴으

로 묶이면 이 문장을 결합하여 요약문으로 추출한다. 문

장을 결합하는 과정에서 상 방의 답으로 인한 문장은

결합요소에서 제외된다. 그림 4의 는 특정한 의미자질

로 어휘 의미 패턴을 구성하여 두 문장을 결합하는 과정

으로, ‘티비가요’와 ‘잘 안나와요’라는 문장이 결합되어

의미를 갖는 문장으로 요약하는 것을 보여주고 있다.

그림 4 문장 결합

Fig. 4 Context connection

3.3.3 복 의미 문장 제거

복 의미 문장 제거는 같은 의미를 갖는 구문이 연

속해서 등장할 때, 복된 의미의 문장을 제거하는 방법

이다. 연속으로 추출된 문장이 동일한 카테고리에 속할


그림 5 복 의미 문장 제거

Fig. 5 Removal of contextaul repetition

경우에는 복된 의미를 갖는다고 단하여 처음 문장

을 요약문으로 추출한다. 이는 같은 의미를 갖는 문장이

복되지 않게 요약문을 생성하여 분석된 내용을 쉽고

빠르게 악하도록 하기 함이다. 그림 5는 상담데이터

의 복되는 문장을 제거하여 요약문으로 추출하는 방

법을 나타내고 있다.

3.4 구문 의미 이해 기반의 문서 분류

3.4.1 카테고리 별 어휘 의미 패턴 구축

추출한 주요 문장들이 포함되는 카테고리를 결정하기

해서는 특정 카테고리로 인식될 수 있는 별도의 어휘

의미 패턴 정의가 필요하다. 본 논문에서는 VOC 데이터

의 분류체계에 따른 각 카테고리의 고유한 특징을 나타

내는 의미자질을 선정하고, 문서 분류를 한 어휘 의미

패턴을 구축하 다. 그림 6은 VOC 데이터가 포함하는

의미 자질과 그 의미 자질을 사용하여 정의하는 어휘 의

미 패턴의 이다. ‘속도가 조 느려요’와 같은 문장의

유형은 ‘데이터 서비스’의 ‘다운로드 불가’ 카테고리에 속

하도록 어휘 의미 패턴을 정의한다.

그림 6 카테고리 별 어휘 의미 패턴 정의

Fig. 6 LSP construction by category

3.4.2 주요 문장 카테고리 분류

카테고리 별로 구축한 어휘 의미 패턴을 통해 문서에

서 주요 문장을 추출하 다. 한 문장이 다수의 어휘 의

미 패턴을 통해 추출되었을 경우, 문장은 여러 카테고리

를 가지게 된다. 추출한 문장에서 의미를 가지는 범 가

각기 다르기 때문에 문장에서 의미를 가장 많이 내포하

는 어휘 의미 패턴이 속한 카테고리를 선정하 다. 하지

만 상담데이터는 상담원과 고객의 다양한 화가 존재

하기 때문에, 추출한 문장들이 여러 카테고리에 속하고

이를 확률 으로 가장 높은 카테고리로 문서를 분류하

는 작업이 필요하다.

3.4.3 문서 분류

상담데이터의 카테고리 분류를 해서, 주요 문장이

속한 카테고리의 N-Best 정보로 문서의 카테고리를 결

정하 다. 요약문으로 추출된 문장을 활용하여 문서의

카테고리를 정하면 상담데이터의 요하지 않은 부분은

제외하고 주요 문장을 심으로 카테고리를 결정할 수

있다. 그림 7은 상담 데이터로부터 구문 분석을 통해 주

요 문장을 추출하고 카테고리의 N-Best를 계산하여 문

서를 분류하는 과정을 나타낸다. 그림 7에서는, 고객이

‘다운로드 불가’에 해서 언 했지만 구문의 의미를 분

석하여 ‘WIFI존 인증실패’로 문서를 분류하 다

그림 7 상담데이터 분류 알고리즘

Fig. 7 VOC classification algorithm

4. 실험 평가

실험에서는 VOC 요약과 분류에 해서 언어자원을

구축하고 실험환경을 구성하여 실험한 결과를 기존의

방법론과 비교하여 평가한다.

4.1 실험 환경 데이터 구축

실험을 해 고객과 상담사의 실제 화를 담은 VOC

데이터를 수집하 다. 수집한 데이터에서 같은 의미 범

주에 속하는 문서들로 카테고리를 정의하 다. 체 VOC

데이터 60%로 카테고리 별 언어 자원을 구축하고

언어 자원을 구축하는데 사용하지 않은 40%의 VOC 데

이터 200개를 무작 로 추출하여 제안한 시스템으로

요약문과 문서 분류를 수행하 다. 사람은 문서를 요약

할 때 자신이 요하다고 단되는 문장을 요약문으로

54 정보과학회 컴퓨 의 실제 논문지 제 22 권 제 1 호(2016. 1)

추출하기 때문에 요약문에 해 정답셋을 미리 구축하

기가 어렵다. 요약문 성능 평가를 해서 생성된 요약문

을 임의의 평가자를 상으로 요하다고 단되는 상

15개의 문장을 정답 문장으로 선정하여 F1-Measure

방법으로 그 값을 계산하 다. Fβ-Measure는 식 (1)과

같이 정의된다.

FB ⋅B ⋅Precision recall

pr ecision⋅recall (1)

Precision of Di

The count of extracted sentenses fr om D

The count of correct sentenses of D (2)

Recall of DiTotal count of sentences in D

The count of correct sentences of D

(3)

식 (2)와 식 (3)에서 Di 는 VOC 한 문서를 의미하며,

체 문서에 해서 평가자가 선정한 문장을 기 으로

정확률과 재 율을 계산하 다. 요약의 최종 성능 평가

는 각 문서의 F1-Measure의 평균값으로 비교하 다.

문서 분류의 성능 평가를 해 VOC 문서로부터 카

테고리를 분류하 다. kNN과 SVM 방법은 키워드 기

반의 통계 방법으로 문서 분류에 한 학습을 하 고

제안한 방법에서는 구문에서 요한 의미를 가지는 의

미자질을 추출하여 문서 분류 시스템을 구축하 다. 문

서 분류의 성능 평가를 해서 미리 정의된 정답셋과

비교하여 F1-Measure 방법으로 그 값을 계산하 다.

Precision of Ci The count of D c classi fied as C

The count of correctly classi fied D c i n C

(4)

Recall of Ci Total count of Dc classified as C

The count of correctly classified Dc in C

(5)

식 (4)와 식 (5)에서 Ci 는 문서가 분류된 카테고리를

의미하며 Dt 는 분류한 모든 문서를 나타낸다. 문서 분

류는 모든 카테고리를 기 으로 각 분류의 F1-Measure

의 평균값으로 비교하 다.

그림 8은 실험 평가의 데이터 사례이다. 그림 8의

[O], [X]는 임의의 평가자가 선정한 정답이고 ‘V’로 표

시한 문장은 제안한 방법의 분석결과이다. 그림 8의 정

답셋을 기 으로 분석결과를 비교하여 요약 분류의

정확률과 재 률을 계산하 다.

4.2 평가

요약문의 성능 평가를 해 두 가지 기존 방법론과

비교하 다. 첫 번째는 TF-ISF[7,8] 알고리즘을 이용한

방법이고, 두 번째는 TextRank 방법이다. 그림 9는 F1-

Measure로 요약문에 한 성능을 평가한 결과이다.

그림 8 실험 평가 데이터 사례

Fig. 8 Example for experiment evaluation

그림 9 요약문 평가 결과

Fig. 9 Results of evaluation for summary

요약 실험에서는, 그림 9에서 알 수 있듯이 제안한 요

약 방법이 TF-ISF와 TextRank 방법에 비해 모든 평

가자에 해서 높은 성능을 보 다. TF-ISF의 방법은

키워드를 기반으로 주요 문장을 추출하 기 때문에 같

은 의미를 갖는 문장이 요약문으로 생성되어 precision

이 떨어졌다. TextRank 방법은 단어와 문장을 합하

게 사용하여 TF-ISF보다 높은 값을 가졌지만 이 두 가

지 방법은 구문 구조를 반 하지 못하기 때문에 요약문

의 precision 측면에서 제안한 방법보다 떨어졌다.

분류에 한 성능 평가를 해 기계학습 기반인 두

가지 기존 방법론과 비교하 다. 첫 번째는 kNN 알고

리즘을 이용한 방법이고, 두 번째는 SVM을 이용한 방

법이다. 그림 10은 VOC 분류의 성능을 F1-Measure로

계산하여 성능을 비교한 결과이다.


그림 10 VOC 분류 평가 결과

Fig. 10 Results of evaluation for VOC classification

분류 실험에서는, 그림 10에서 알 수 있듯이 제안한

방법이 기존의 kNN과 SVM 방법보다 높은 성능을 보

다. 기계학습 방법은 문서에 한 모델을 학습하는 방

법이기 때문에 뉴스기사나 논평처럼 카테고리가 잘 분

류될 수 있는 문서와 다르게 VOC와 같이 다양한 화

를 담고 있는 문서에서는 분류 성능이 떨어지게 된다.

반면, 제안한 방법에서는 의미자질을 구축하고 구문구조

를 반 하여 주요 문장을 추출하 고, 구문의 의미가 가

장 높은 확률을 가지는 카테고리로 문서를 분류했기 때

문에 높은 성능을 보 다.

5. 결론 향후 연구 과제

본 논문에서는 문서 요약을 하는데 있어 구문 의미

분석이 기반이 되었기 때문에 요한 의미를 갖는 문장

만을 추출하 다. 분류에 있어 VOC는 고객이 상담사와

화를 진행하면서 필요한 내용을 다양하게 서술하기

때문에 구문의 의미를 악하여 분석하는 제안된 방법

이 “Bag of words”에 기반한 통계 방법론들보다 더 높

은 성능을 가질 수 있었다.

향후에는 데이터 도메인에 따른 언어 자원을 구축하고

핵심이 되는 키워드나 구문의 요성에 따라 VOC 요약

과 분류의 성능을 높이는 방안에 해 연구하고자 한다.

References

[ 1 ] R. Barzilay and M. Elhadad, "Using Lexical Chains

for Text Summarization," Proc. of the TIPSTER

Text Phase III Workshop, 1998.

[ 2 ] Rada Mihalcea and Paul Tarau, "TextRank: Brin-

ging Order into Texts," Proc. of the Conference on

Empirical Methods in Natural Language Processing,

pp. 404-411, 2004.

[ 3 ] J. WoonChul, "Automatic Text Summarization with

Two Step Sentence Extraction," KIISE, 2004.

[ 4 ] L. JaeMoon, "An Improvement Of Efficiency For

kNN By Using A Heuristic," Proc. of KIPS, 2003.

[ 5 ] T. Joachims, "Text Categorization with Support

Vector Machines: Learning with Many Relevant

Features," Proc. of ECML, pp. 137-142, 1998.

[ 6 ] Y. Yang and X. Liu, "A re-examination of text

categorization methods," Proc. of SIGIR-99, 1999.

[ 7 ] H. KyouYeol, K. MoonJong and A. YoungMin,

"The method for related keyword extraction using

normalized keyword weight," KIISE, 2014.

[ 8 ] Joel Larocca Neto, Alexandre D. Santos, Celso A.A.

Kaestner and Alex A. Freitas, "Document Clus-

tering and Text Summarization," Postgraduate Pro-

gram in Applied Computer Science, 2000.

김 문 종

2009년 성결 학교 정보통신공학 학사

2013년 서강 학교 컴퓨터공학부 석사

2013년～ 재 (주)와이즈넛 성장기술본

부 리. 심분야는 기계학습, 텍스트마

이닝, 추천시스템.

이 재 안

2007년 경일 학교 컴퓨터공학 공 학사

2009년 경북 학교 컴퓨터공학부 석사

2010년～ 재 (주)와이즈넛 성장기술본부

과장. 심분야는 기계학습, 데이터 분석

빅데이터 처리

한 규 열

2007년 충북 학교 기 자 컴퓨터

공학 학사. 2009년 충북 학교 컴퓨터공

학부 석사. 2009년～ 재 (주)와이즈넛 성

장기술본부 과장. 심분야는 자연언어처

리, 기계학습, 텍스트마이닝

안 민

2000년 충북 학교 컴퓨터공학과 학사

2002년 충북 학교 컴퓨터공학과 석사

2008년 충북 학교 컴퓨터공학과 박사

2008년～ 재 (주)와이즈넛 성장기술본부

부장. 심분야는 자연어처리, 빅데이터,

기계학습

Documents

(VOC Summarization and Classification based on Sentence ...kiise.or.kr/e_journal/2016/1/KTCP/pdf/08.pdf · 제외하고 주요 문장을 중심으로 카테고리를 결정할 수