7
ISSN 2383-630X(Print) / ISSN 2383-6296(Online) Journal of KIISE, Vol. 42, No. 12, pp. 1568-1574, 2015. 12 http://dx.doi.org/10.5626/JOK.2015.42.12.1568 이 논문은 2015년도 정부(미래창조과학부)의 재원으로 정보통신기술진흥센 터의 지원을 받아 수행된 연구임(No. R0101-15-0054, WiseKB: 빅데이터 이해 기반 자가학습형 지식베이스 및 추론 기술 개발) 이 논문은 2015 한국컴퓨터종합학술대회에서 한국어 서술어와 지식베이스 프로퍼티의 연결에 관한 연구의 제목으로 발표된 논문을 확장한 것임 논문접수 : 2015727(Received 27 July 2015) 논문수정 : 2015108(Revised 8 October 2015) 심사완료 : 20151012(Accepted 12 October 2015) †† ††† 학생회원 비 회 원 종신회원 : : : 한국과학기술원 전산학부 [email protected] 한국과학기술원 전산학부 [email protected] [email protected] [email protected] 한국과학기술원 전산학부 교수(KAIST) [email protected] (Corresponding author) Copyright2015 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작물 의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위 를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야 합니다. 정보과학회논문지 제42권 제12(2015. 12) 한국어 서술어와 지식베이스 프로퍼티 연결 (Linking Korean Predicates to Knowledge Base Properties) 원유성 우종성 †† 김지성 †† 함영균 †† 최기선 ††† (Yousung Won) (Jongseong Woo) (Jiseong Kim) (YoungGyun Hahm) (Key-Sun Choi) 본 논문은 자연언어 문장을 지식베이스의 지식 골격에 맞추어 지식의 형태로 변환하기 위한 과정 중의 하나인 관계추출(Relation Extraction)을 목표로 한다. 특히, 문장 내에 있는 서술어(Predicate) 에 집중하여 서술어와 관련성 높은 지식베이스 프로퍼티(Property or Relation)를 찾아내고, 이를 통해 두 개체(Entity)간의 의미를 파악하는 관계추출에 초점을 둔다. 이에 널리 활용되는 원격지도학습(Distant Supervision) 접근 방식에 따라, 지식베이스와 자연언어 텍스트로부터 원격 학습이 가능한 레이블(Labeled) 데이터를 자동으로 마련하여 지식베이스 프로퍼티에 대한 어휘화 작업을 수행한다. , 두 개체 사이의 관 계로 표현되는 서술어와, 온톨로지로 정의할 수 있는 프로퍼티와의 연결을 통해, 텍스트로부터 구조적 정 보를 생성할 수 있는 기반을 마련하고 최종적으로 지식베이스 확장의 가능성을 열어준다. 키워드: 원격지도, 술어 연결화, 온톨로지 어휘화, 단어내재화, 자연언어처리, 지식베이스 Abstract Relation extraction plays a role in for the process of transforming a sentence into a form of knowledge base. In this paper, we focus on predicates in a sentence and aim to identify the relevant knowledge base properties required to elucidate the relationship between entities, which enables a computer to understand the meaning of a sentence more clearly. Distant Supervision is a well-known approach for relation extraction, and it performs lexicalization tasks for knowledge base properties by generating a large amount of labeled data automatically. In other words, the predicate in a sentence will be linked or mapped to the possible properties which are defined by some ontologies in the knowledge base. This lexical and ontological linking of information provides us with a way of gene- rating structured information and a basis for enrichment of the knowledge base. Keywords: predicate linking, ontology lexicalization, word embedding, natural language processing, knowledge base

한국어 서술어와 지식베이스 프로퍼티 연결kiise.or.kr/e_journal/2015/12/JOK/pdf/12.pdf · 한국어 서술어와 지식베이스 프로퍼티 연결 1569 1. 서 론

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 한국어 서술어와 지식베이스 프로퍼티 연결kiise.or.kr/e_journal/2015/12/JOK/pdf/12.pdf · 한국어 서술어와 지식베이스 프로퍼티 연결 1569 1. 서 론

ISSN 2383-630X(Print) / ISSN 2383-6296(Online)

Journal of KIISE, Vol. 42, No. 12, pp. 1568-1574, 2015. 12

http://dx.doi.org/10.5626/JOK.2015.42.12.1568

․이 논문은 2015년도 정부(미래창조과학부)의 재원으로 정보통신기술진흥센

터의 지원을 받아 수행된 연구임(No. R0101-15-0054, WiseKB: 빅데이터

이해 기반 자가학습형 지식베이스 추론 기술 개발)

․이 논문은 2015 한국컴퓨터종합학술 회에서 ‘한국어 서술어와 지식베이스

로퍼티의 연결에 한 연구’의 제목으로 발표된 논문을 확장한 것임

논문 수 : 2015년 7월 27일

(Received 27 July 2015)

논문수정 : 2015년 10월 8일

(Revised 8 October 2015)

심사완료 : 2015년 10월 12일

(Accepted 12 October 2015)†

††

†††

학생회원

비 회 원

종신회원

:

:

:

한국과학기술원 산학부

[email protected]

한국과학기술원 산학부

[email protected]

[email protected]

[email protected]

한국과학기술원 산학부 교수(KAIST)

[email protected]

(Corresponding author임)

CopyrightⒸ2015 한국정보과학회ː개인 목 이나 교육 목 인 경우, 이 작물

의 체 는 일부에 한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때,

사본은 상업 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처를 반드시

명시해야 합니다. 이 외의 목 으로 복제, 배포, 출 , 송 등 모든 유형의 사용행

를 하는 경우에 하여는 사 에 허가를 얻고 비용을 지불해야 합니다.

정보과학회논문지 제42권 제12호(2015. 12)

한국어 서술어와 지식베이스 로퍼티 연결(Linking Korean Predicates to Knowledge Base Properties)

원 유 성† 우 종 성

†† 김 지 성

†† 함 균

†† 최 기 선

†††

(Yousung Won) (Jongseong Woo) (Jiseong Kim) (YoungGyun Hahm) (Key-Sun Choi)

요 약 본 논문은 자연언어 문장을 지식베이스의 지식 골격에 맞추어 지식의 형태로 변환하기 한

과정 의 하나인 계추출(Relation Extraction)을 목표로 한다. 특히, 문장 내에 있는 서술어(Predicate)

에 집 하여 서술어와 련성 높은 지식베이스 로퍼티(Property or Relation)를 찾아내고, 이를 통해 두

개체(Entity)간의 의미를 악하는 계추출에 을 둔다. 이에 리 활용되는 원격지도학습(Distant

Supervision) 근 방식에 따라, 지식베이스와 자연언어 텍스트로부터 원격 학습이 가능한 이블(Labeled)

데이터를 자동으로 마련하여 지식베이스 로퍼티에 한 어휘화 작업을 수행한다. 즉, 두 개체 사이의

계로 표 되는 서술어와, 온톨로지로 정의할 수 있는 로퍼티와의 연결을 통해, 텍스트로부터 구조 정

보를 생성할 수 있는 기반을 마련하고 최종 으로 지식베이스 확장의 가능성을 열어 다.

키워드: 원격지도, 술어 연결화, 온톨로지 어휘화, 단어내재화, 자연언어처리, 지식베이스

Abstract Relation extraction plays a role in for the process of transforming a sentence into a form

of knowledge base. In this paper, we focus on predicates in a sentence and aim to identify the relevant

knowledge base properties required to elucidate the relationship between entities, which enables a

computer to understand the meaning of a sentence more clearly. Distant Supervision is a well-known

approach for relation extraction, and it performs lexicalization tasks for knowledge base properties by

generating a large amount of labeled data automatically. In other words, the predicate in a sentence

will be linked or mapped to the possible properties which are defined by some ontologies in the

knowledge base. This lexical and ontological linking of information provides us with a way of gene-

rating structured information and a basis for enrichment of the knowledge base.

Keywords: predicate linking, ontology lexicalization, word embedding, natural language processing,

knowledge base

Page 2: 한국어 서술어와 지식베이스 프로퍼티 연결kiise.or.kr/e_journal/2015/12/JOK/pdf/12.pdf · 한국어 서술어와 지식베이스 프로퍼티 연결 1569 1. 서 론

한국어 서술어와 지식베이스 로퍼티 연결 1569

1. 서 론

인터넷(Internet)과 웹(World Wide Web)의 출 과

더불어 정보 검색(Information Retrieval) 기술이 발

하면서, 오늘날 우리는 방 한 양의 정보를 짧은 키워드

(Keyword)를 통해 원하는 문서를 편리하게 찾아 볼 수

있게 되었다. 하지만 우리는 많은 양의 문서로 부터

련성 높은 문서를 찾을 수 있는 것에 만족하지 않고, 웹

에 있는 정보 자체를 Linked Data로써 표 하려는 노

력을 계속하고 있다[1].

Linked Data의 한 부분인 지식베이스는 텍스트에 나

타난 개체 자체를 개념 으로 이해하기 해 URI(Uni-

form Reource Identifier)를 부여하고 개체 사이의 계

를 온톨로지(Ontolgoy)에 정의된 로퍼티(Property)를

이용하여 RDF(Resource Description Framework)의

형식으로 표 하고 있다. 이러한 온톨로지는 인간의 사

고 과정을 모델링 할 수 있도록 고안되었고 그 구

조가 진화해 나가고 있기 때문에, 텍스트 자체의 의미를

보다 명확하게 할 뿐만 아니라 추론을 통한 지식베이스

의 확장을 가능하게 한다[2].

웹에는 방 한 텍스트가 있고 이것을 기계가 읽고 이

해하여 최종 으로 다시 사람에게 의미있는 정보를 제

공하기 해서는, 앞서 설명한 것처럼 사람이 만들어낸

자연언어(비구조) 텍스트를 지식베이스와 같은 구조

정보와의 상호작용이 필요하다. 즉, 텍스트 내에서 발견

할 수 있는 개체와 지식베이스에 존재하고 있는 리소스

(Resource)와의 련성, 그리고 텍스트에 나타난 개체

사이의 계를 표 하는 서술어와 지식베이스의 로퍼

티 사이의 련성을 찾아내는 것이 주요한 과제이다. 본

논문에서는, 특히 서술어와 높은 련성이 있는 지식베

이스 로퍼티를 찾는 계추출(Relation Extraction)에

주안 을 두고 있고, 최근 이러한 문제에 활용되고 있는

원격지도학습 근 방법을 한국어에 용한다.

2. 련 연구

DBpedia나 Freebase와 같이 우리가 리 알고 있는

부분의 지식베이스는, Wikipedia의 InfoBox와 같은

반구조 데이터로부터 만들어진다[3]. 하지만 웹상의

Wikipedia에서 오직 약 15-20%의 정보만이 이러한 형

식으로 표 되어 있고, 그외 부분의 정보는 자연언어

텍스트의 형태로 존재하고 있다[4].

앞서 언 한 주요한 연구 과제 의 하나인, 자연언어

텍스트의 개체(주로 체언)와 지식베이스의 리소스와의

연결에 한 개체연결화(entity linking)와 련하여, 한

국어권과 어권 연구 모두 활발하게 진행 에 있다

[5,6]. 반면, 자연언어 텍스트 상에 나타난 서술어와 지

식베이스 로퍼티와의 연결에 한 연구는 한국어권에

서는 아직까지 미비한 상황이다. 어권에서 원격지도의

가정, 즉 두 개체를 포함하는 문장은 그 두 개체의 계

가 문장속에 어떻게든 내재되어 있다라는 아이디어를

바탕으로 계추출에 한 연구가 진행되었고[7], 최근

에는 딥 러닝(Deep Learning)을 통해 생성된 단어내재

화(Word Embedding)를 계추출에 활용하는 연구가

많이 있다[8].

본 논문에서는 원격지도의 가정을 한국어 Wikipedia

와 한국어 DBpedia에 용하여, 한국어 문장과 이 문장

의 내용을 표 한다고 단된 DBpedia의 RDF 삼항

계를 활용하여, 자연언어 텍스트에 나타난 서술어 표

과 이와 련지을 수 있는 DBpedia 로퍼티를 찾아내

고, 이의 가능성을 높일 수 있는 여러 자질(feature)을

악한다.

3. 근방법

텍스트 상에 나타난 서술어와 련성이 높은 지식베

이스 로퍼티를 알아내기 해 두 가지 입력 데이터를

활용하 다. 첫 번째 입력 데이터로써, 한국어 Wikipedia

2014년 9월 11일자 덤 를 자연언어 텍스트로 사용하

고, 두 번째 입력 데이터인 한국어 DBpedia 2014는 두

개체(리소스)와 그 둘의 계를 포함하고 있는, 일종의

이블 데이터로써 활용 가능한, DBpedia의 RDF 삼항

계를 사용하 다. 즉, DBpedia의 RDF 삼항 계와 이

와 동일한 정보를 담고 있을 법한 문장들을 수집 하여,

RDF의 P( 로퍼티)와 련성이 높은 서술어를 문장 속

에서 찾아내는 근 방법을 따른다.

그림 1에서 볼 수 있듯이, 한국어 Wikipedia와 DBpedia

를 통해 DBpedia RDF 삼항 계 S와 O의 이블을

그림 1 Distant Supervision 근 방식 기반의 계추출

시스템 개요

Fig. 1 Overall Process for Relation Extraction: Distant

Supervision approach

Page 3: 한국어 서술어와 지식베이스 프로퍼티 연결kiise.or.kr/e_journal/2015/12/JOK/pdf/12.pdf · 한국어 서술어와 지식베이스 프로퍼티 연결 1569 1. 서 론

1570 정보과학회논문지 제42권 제12호(2015. 12)

모두 포함하는 문장을 선별하고, 이를 통해 계추출을

진행하여, 로퍼티에 한 어휘화 작업을 수행하게 된다.

3.1 S와 O의 이블을 모두 포함하는 문장의 수집

한국어 DBpedia 2014는 총 약 1만여개의 한국어

로퍼티(prop-ko)가 있고, 이 로퍼티를 사용한 트리

(삼항 계)이 약 215만개가 존재한다. 그 에서 약 95

퍼센트의 트리 (약 205만 개)이 약 1500개의 로퍼티

만으로 이루어져 있다. 따라서 본 연구에서는, 이 1500

개 로퍼티 에서 어나 숫자가 포함된 로퍼티를

제외한 약 1300개의 씨앗(Seed) 로퍼티(그림 2)를

상으로 텍스트에 나타난 서술어와 련짓는 작업을 수

행하 다.

먼 , 씨앗 로퍼티를 사용한 DBpedia의 모든 트리

을 수집한다. 이때 트리 S와 O의 Redirection 페이

지도 고려하여, 임의의 씨앗 로퍼티 P에 해당되는 리

소스 S, O에 해당하는 이블 (그림 3)을 많게는 수

십만개 정도로 확보하 다.

앞서 확보한 S와 O의 이블을 모두 포함하고 있는

문장을 Wikipedia 체 문장(약 270만개)속에서 찾는다.

이 게 찾은 문장들을 련된 RDF 트리 렛과 응되

그림 2 씨앗 로퍼티와 련 트리 의 빈도

Fig. 2 Frequently used seed properties to be linked to

predicates and the number of triples on each

property in decreasing order

그림 3 로퍼티 “prop-ko:출생지”와 련된 트리 의

S, O 이블 목록(Redirection 페이지 고려)

Fig. 3 All possible S O label pairs for an RDF including

a certain property (Example of prop-ko:출생지)

는 문장이라 가정하고, 이것은 결과 으로 각 로퍼티

에 한 어휘 표 을 찾을 수 있는 문장 후보라고 볼

수 있다. 이때, 문장 수집의 질을 높이기 해 다음과

같은 제약 사항을 둔다.

- 문장은 트리 의 S와 O를 모두 포함

- S와 O의 바로 앞 자는 공백

- S와 O의 바로 뒤 자는 공백, 조사 는 특수 문자

- S와 O가 모두 한 이 아닌 경우 제외

- S와 O는 문장내에서 같은 치에 존재하지 않음

- ...

그리고 이후에 설명할 Triplization 과정을 거치면서,

서술어를 찾을 수 있는 문장을 최종 으로 선별하게 된다.

3.2 로퍼티 P에 한 서술어 후보 수집

수집한 문장으로부터 두 개체의 계에 해당하는 서

술어 후보를 최종 수집하기 하여, 두 개체가 있는

문장의 내용을 S, P, O 형태로 단순화하는 과정, 즉

Triplization이 필요하다. Triplization이란 주어진 S, O

에 개체연결 가능한 어휘가 문장 속에서 서술어의 논항

으로 사용되는 서술어 표 을 찾아내고, 해당 논항과 함

께 지식베이스의 S,P,O에 상응하는 삼항 계를 악하

는것을 의미한다. 일반 으로 삼항 계는 의존구문분석

(Dependency Parsing)에 의존하여 두 개체의 의존구조

나무 상의 경로(Dependency Path)를 확인하고, 두 개

체를 자식 노드로 가지는 부모 노드를 탐색하여 해당

노드의 품사가 동사인 것을 로퍼티의 어휘 표 이

라고 간주한다. 하지만 그림 4의 에서 볼 수 있듯이

의존구조해석의 오류나 모호성이 있어서, 아래와 같이 5

가지 패턴을 일종의 규칙으로 만들어, 지배소 후 법칙

[9] 기반의 의존구조분석의 한계를 보완할 필요가 있다.

그림 4 5가지 패턴 기반의 Triplization을 이용한 서술

어의 선택

Fig. 4 Predicate Selection in a sentence including both S

and O Label based on Triplization with 5 patterns

Page 4: 한국어 서술어와 지식베이스 프로퍼티 연결kiise.or.kr/e_journal/2015/12/JOK/pdf/12.pdf · 한국어 서술어와 지식베이스 프로퍼티 연결 1569 1. 서 론

한국어 서술어와 지식베이스 로퍼티 연결 1571

앞서 수집된 문장은, 5가지 패턴에 의해 S, P, O 단

순화 과정(Triplization)을 거치면서 다시 한번 선별되

고, 임의의 로퍼티 Prop(i)와 련지을 수 있는 서술

어 Pred(j)의 어근을 선별된 문장으로부터 수집하게 된

다. 이때 높은 빈도로 등장한 어근을 로퍼티 Prop(i)

에 상응하는 한 어휘(서술어)로 인정 하고, 이 척도

를 빈도 수(FS: frequency score)로 다음과 같이 나타

낸다. 각 로퍼티 Prop(i)에 상응하는 서술어 Pred(j)가

나타날 확률, 즉 Prop(i)에 상응한다고 간주되는 후보

서술어의 총 등장 횟수(Ni) 비 특정 서술어 Pred(j)가

나타난 횟수(Nij)가 차지하는 비율(FSij)로 산출된다.

Frequency Score (FS):

3.3 Distant Supervision 가정

앞서, 하나의 로퍼티 P에 해 련된 다수의 S, O

을 확보했고, 각 의 S와 O 이블을 모두 포함한

문장들을 수집하 다. 원격지도는, 구축된 지식베이스의

RDF 삼항 계와 같이 두 개체와 그 계에 한 신뢰

성 있는 정보를 활용하여, S와 O 개체가 나타난 문장

속에 두 개체의 계(relation)가 내재되어있음을 가정하

는 계추출(Relation Extraction)의 표 인 근 방

법이다. 따라서 앞서 수집한 문장에는 로퍼티 Prop(i)

에 한 표 이 반드시 포함되어있을 것이라는 제하

에 높은 빈도로 발견된 서술어를 로퍼티 Prop(i)의 어

휘화(Lexicalization) 결과로 인정한다. 본 논문에서는

이러한 가정을 뒷받침하기 한 척도 A(Availability)를

도입한다.

Availability (A):

SF는 S와 O의 이블을 모두 포함한 문장을 기반으

로, Triplization 과정을 거쳐 최종 으로 선별한 문장의

수를 의미하고, TF는 로퍼티(i)로 이루어진 트리

(Ti)의 총 수를 의미한다. 즉, Ai는 임의의 로퍼티(i)

로 이루어진 트리 과 응하는 Wikipedia 문장이 얼마

나 존재하는가를 나타내고, 이 값이 작으면 로퍼티(i)

는 수집된 문장과 함께 원격지도 근법을 용하여 서

술어(j)를 획득하기에 합하지 않다는 것을 의미한다.

를 들어 “prop-ko:이름” 로퍼티는 그림 1에서도 볼

수 있듯이, 한국어 DBpedia에서 가장 많이 사용된 로

퍼티로써, 쓰임새는 다음과 같다.

[스티 잡스] [prop-ko:이름] [스티 잡스]

[스티 잡스] [prop-ko:이름] [Steve Jobs]

하지만, 와 같은 트리 은 이 트리 이 담고있는 정

보와 응할만한 Wikipedia 문장(서술어로 표 되는)이

거의 없을 것이고, 따라서 A값이 작을 것이다라는 것을

상할 수 있다. 다시 말하면 “prop-ko:이름”은 서술어

를 획득하기에 하지 않다는 것을 나타낸다. 뒤에서

이 값은 가 치를 한 하나의 자질로 사용된다.

3.4 의미 유사도 기반 척도

그림 5에서는, 서술어 어근 “활동”과 로퍼티 “prop:

ko-직업”을 련지을 수 있는 근거를 확인할 수 있다.

하지만 비단 “활동” 뿐만이 아닌 이와 의미 으로 유사

한 후보( , “활약”)를 찾아 특정 자질을 부여하여, 최종

으로 로퍼티의 어휘화된 서술어 후보의 신뢰성을

높일 수 있다. 이에 한 방안으로 CoreNet[10] 개념

번호에 기반한 어휘간 유사도를 Jaccard Similarity(JS)

를 통하여 측정한다.

Jaccard Similarity (JS):

즉, 최상 서술어 후보(어근)와 후보 상 서술어(어

근) 사이에 많은 수의 CoreNet 개념을 공유한다면 의미

으로 유사하다는 것을 가정한다. 이 값은 최종 으로

서술어 후보의 가 치 자질값으로 사용된다.

그림 5에서는 로퍼티 “prop:ko-직업”과 련성 높

은 서술어 후보 목록과 함께 앞서 산출한 FS와 JS값에

한 결과를 확인할 수 있다. 하지만 양질의 어휘의미망

인 CoreNet으로도 서술어간 유사성을 모두 확인할 수는

없다. 따라서 최근 리 이용되고 있는 Word Embe-

dding에 의한 유사성을 부가 인 자질로 활용하 다.

Word Embedding은 량의 코퍼스를 입력으로 하여

Page 5: 한국어 서술어와 지식베이스 프로퍼티 연결kiise.or.kr/e_journal/2015/12/JOK/pdf/12.pdf · 한국어 서술어와 지식베이스 프로퍼티 연결 1569 1. 서 론

1572 정보과학회논문지 제42권 제12호(2015. 12)

한 Language Model과 Neural Networks를 구성

(NNLM:Nerual Networks Language Model)한 뒤, 비

선형 최 화를 통해 텍스트 상에 나타난 단어의 자질을

악함으로써, 최종 으로 각 단어가 고차원의 벡터로

표 되는 것을 말한다[11-14]. 본 논문에서는 이 Word

Embedding을 단어들 사이의 유사성 측정(Word Embed-

ding Similarity)에 이용하 다.

그림 5 “prop-ko:직업”과 련성 높은 서술어 후보와

사용된 자질

Fig. 5 Several features of predicate candidates for “prop-ko:

직업” (FS: Frequency Score, JS: Jaccard Similarity

based on CoreNet, ES: Word Embedding Similarity)

3.5 Word Embedding 유사도 기반 척도

그림 4에서 로퍼티 “prop-ko:직업”과 련성 높은

서술어 표 으로 “활동”이 선택되었고, CoreNet 개념

유사도를 이용하여 “활약”의 가 치를 높일 수 있었다.

본 논문에서는 CoreNet과 같은 어휘의미망에서 놓칠 수

있는 부분을 Word Embedding을 이용하여 보완하 다.

를 들어 “활동”과 “참여”는 단어 자체의 의미 인 유

사성이 없지만, 두 서술어 모두 ‘prop-ko:직업’을 나타내

는데 쓰일 수 있는 서술어로써 역할을 할 수 있다. 이것

은 어휘의미망의 단어 유사성으로는 단하기 어렵지만,

Word Embedding의 유사성으로 그 가 치를 높여

수 있는 부분이다. 한 “활동”과 “활약”은 어휘의미망

수 에서도 유사성이 확인되기도 하지만, Word Embe-

dding간의 유사성도 확인되기 때문에 로퍼티 어휘와

작업에 더 나은 결과를 기 할 수 있다. 다시 말하면,

의 시와 같이 FS값이 가장 높은 “활동”을 가장 가

능성 있는 후보(p)로 간주하고 “활동”과 다른 서술어 후

보(j)들간의 Word Embedding 유사도를 Cosine

Similarity를 이용하여 계산하여 이것을 최종 가 치의

하나의 자질로 활용한다.

Word Embedding Similarity (ES):

3.6 Weighted Scoring

지 까지 임의의 로퍼티에 해 다수의 서술어 후

보를 수집하 다. 이때 한 서술어를 선택하기 해

서, 서술어를 수집할 만큼의 문장이 얼마나 있는지(A),

서술어가 임의의 로퍼티에 해 다수의 문장속에서

높은 비율로 사용되는지(FS), 그리고 최상 서술어 후

보와 의미 으로 혹은 쓰임새가 유사한 다른 후보

상이 있는지(JS, ES)를 고려하여, 이러한 자질 별 가

치를 통해 최종 스코어(WS)를 산출한다(그림 6).

Weighted Score (WS):

다시 말하면, 임의의 로퍼티로 표 되는 다수의 트

리 과, 이 트리 의 정보를 잘 담고 있다고 할 수 있는

다수의 문장으로부터 높은 확률로 선택된 서술어는 높

은 WS 값을 갖게 된다.

4. 실험 결과 성능 평가

본 연구에서는 임의의 로퍼티와 이와 련지을 수

있는 서술어 후보를 두고, 네 가지의 자질 값 Availabi-

lity, Frequency Score, Jarccard Smilarity, Word

Embedding Similarity의 Weighted Score을 통하여,

임의의 지식베이스 로퍼티에 한 어휘화 작업을 수

행하 다. 실질 으로 이용 가능한 로퍼티-서술어 간

정답셋이 존재하지 않기 때문에, WS값 0.07의 임계값

이상인 로퍼티-서술어 사이의 성을 수동으로 평

가하 다. 평가는 세 사람의 평가자가 로퍼티의 쓰임

새( 련 트리 혹은 온톨로지 스키마)를 보고, 자동

으로 연결된 서술어와 의미 타당성 여부를 검토한 뒤,

다수의 단 결과를 정답으로 인정하 다.

Page 6: 한국어 서술어와 지식베이스 프로퍼티 연결kiise.or.kr/e_journal/2015/12/JOK/pdf/12.pdf · 한국어 서술어와 지식베이스 프로퍼티 연결 1569 1. 서 론

한국어 서술어와 지식베이스 로퍼티 연결 1573

그림 6 “prop-ko:출생지”와 “prop-ko:직업”과 련성

높은 서술어와 최종 수

Fig. 6 Weighed Score from A, FS, JS, ES for “prop-ko:출

생지” and “prop-ko:직업” (Applied ωA = 0.05, ωFS =

0.85, ωJS = 0.05, ωES = 0.05)

약 1300여개의 평가 상 로퍼티 , 임계값 0.07 이

상으로 어휘화가 가능했던 로퍼티는 총 405개 으며,

그 에서 최소한 1개 이상의 하다고 단된 서술어

어휘가 매칭된 로퍼티는 총 258개 다. 본 실험의 정

답셋이 명확하게 존재하지 않으므로 정확한 재 율

(Recall)을 측정할 수는 없지만, 앞선 결과를 토 로 략

63.70%(=258/405)의 재 율을 보일 것이라 짐작하 다.

정 도(Precision)는, 어휘화가 가능했던 총 405개의

로퍼티에 해, 총 854개의 서술어를 매칭할 수 있었

는데, 매칭된 서술어의 타당성 검증 결과, 444개의 로

퍼티-서술어 매칭이 한 것으로 단되어, 약 51.99%

(=444/854)의 정 도를 보 다.

로퍼티 어휘화 작업의 타당성 검증 결과표 Predi-

cate Linking 시연 서비스, 그리고 앞서 설명한 Tripli-

zation과 련한 시연 서비스는 데모 웹사이트1)에서 확

인해 볼 수 있으며, 그 활용 방안도 살펴 볼 수 있다.

본 실험 결과는 특정 가 치(ωA = 0.05 ωFS = 0.85, ωJS

= 0.05, ωES = 0.05)와 최종 서술어 선택을 한 임계값

(Threshold > 0.07)에 따라 정 도 재 율이 향을

많이 받기 때문에 이에 한 추가 실험이 필요하고 가

치 임계값에 한 최 화가 향후 연구 과제이다.

한 로퍼티 어휘화 작업의 성능을 높일 수 있는 방

안으로, 서술어의 논항의 특성, 를 들면 조사나 개체

명 등을 반 하여 원격지도 근법을 용해 볼 계획을

가지고 있다.

1) http://143.248.135.20:11111

5. 결 론

텍스트의 기계 이해라는 어떤 방법론에 앞서 사람

이 을 읽고 의미를 악하는 과정을 생각해보면, 에

나타난 개체의 개념 인 이해 뿐만 아니라 개체들 간의

계를 이해함으로써 에서 말하고자 하는 의미를 온

하게 악할 수 있다.

본 연구는 원격지도 근법을 통하여, 한국어 Wikipedia

텍스트에서 나타난 서술어와 한국어 DBpedia 로퍼티

사이의 계를 악하여 한국어 로퍼티에 한 어휘

화 작업을 수행하 다. 이것은 텍스트에서 발견할 수 있

는 개체를 개념 으로 이해하는 과정과 더불어 개체들

간의 계 발견을 통해 동 인 의미를 악할 수 있는

길을 열어주고 있다.

본 연구에서 실시한 계추출(Relation Extraction)을

한 Triplization 과정은, 향후 양질의 학습데이터 구축

과 한 기계학습을 통해, 문장을 단순화하는 성능을

높여 로퍼티 어휘화 결과의 품질을 높일 것이다. 한

개체연결(Entity Linking) 그리고 술어연결(Predicate

Linking)과 더불어 문장으로부터 RDF 삼항 계를 생성

하여 존하는 지식베이스를 확장할 수 있는 가능성을

보여 다.

한편, 서술어로 표 될 수 있는 로퍼티와 그 지 않

은 로퍼티를 통해 DBpedia와 같은 지식베이스의 한

계를 가늠해 볼 수 있는 기회가 될 수 있다. 다시 말하

면 트리 형태의 RDF 형식의 지식이 어느정도 수 의

정보를 변할 수 있는지에 한 분석이 필요하고,

임넷(FrameNet)[15]과 같은 의미 체계 는 진화된 온

톨로지 스키마에 한 연구가 필요할 것이다.

References

[ 1 ] Christian Bizer, Tom Heath, Tim Berners-Lee,

"Linked Data:The Story So Far," Semantic Services,

Interoperability and Web Applications: Emerging

Concepts, 205-227, 2009.

[ 2 ] Luis Galárraga, Christina Teflioudi, Katja Hose,

Fabian M. Suchanek, "AMIE: Association Rule

Mining under Incomplete Evidence in Ontological

Knowledge Bases," Proc. of the 22nd international

conference on World Wide Web. International

World Wide Web Conferences Steering Committee,

2013.

[ 3 ] Sören Auer, Christian Bizer, Georgi Kobilarov, Jens

Lehmann, Richard Cyganiak, Zachary Ives, "DBpedia:

A Nucleus for a Web of Open Data," Springer

Berlin Heidelberg, 2007.

[ 4 ] Daniel Gerber, Axel Cyrille Ngonga Ngomo.

"Bootstrapping the Linked Data Web," 1st Work-

shop on Web Scale Knowledge Extraction@ ISWC,

Vol. 2011, 2011.

Page 7: 한국어 서술어와 지식베이스 프로퍼티 연결kiise.or.kr/e_journal/2015/12/JOK/pdf/12.pdf · 한국어 서술어와 지식베이스 프로퍼티 연결 1569 1. 서 론

1574 정보과학회논문지 제42권 제12호(2015. 12)

[ 5 ] Youngsik Kim, Key-Sun Choi, "Entity Linking

Korean Text: An Unsupervised Learning Approach

using Semantic Relation," CoNLL, 2015.

[ 6 ] Pablo N. Mendes, Max Jakob, Andre s Garcia-Silva, Christian Bizer, "DBpedia Spotlight: Shedding Light

on the Web of Documents," Proc. of the 7th Inter-

national Conference on Semantic Systems, ACM,

2011.

[ 7 ] Mike Mintz, Steven Bills, Rion Snow, Dan jurafsky,

"Distant supervision for relation extraction without

labeled data," Proc. of the Joint Conference of the

47th Annual Meeting of the ACL and the 4th

International Joint Conference on Natural Language

Processing of the AFNLP: Volume 2-Volume 2,

Association for Computational Linguistics, 2009.

[ 8 ] Yankai Lin, Zhiyuan Liu, Maosong Sun, Yang Liu,

Xuan Zhu, "Learning Entity and Relation Embed-

dings for Knowledge Graph Completion," Proc. of

AAAI, 2015.

[ 9 ] YeonMoon Woo, YoungIn Song, SoYoung Park,

HaeChang Rim, "Modification Distance Model using

Headible Path Contexts for Korean Dependency

Parsing," Journal of KISS : Software and Appli-

cations 34.2, 140-149, 2007.

[10] Choi, Key-Sun, "CoreNet: Chinese-Japanese-Korean

wordnet with shared semantic hierarchy," Natural

Language Processing and Knowledge Engineering,

2003, Proc. 2003 International Conference on. IEEE,

2003.

[11] Yoshua Bengio, Re jean Ducharme, Pascal Vincent, Christian Jauvin, "A Neural Probabilistic Language

Model," The Journal of Machine Learning Research

3, 1137-1155, 2003.

[12] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey

Dean, "Efficient Estimation of Word Representa-

tions in Vector Space," arXiv preprint arXiv:1301.

3781, 2013.

[13] Seung-Hoon Na, Sangkeun Jung, "Deep Learning

for Korean POS Tagging," KCC, 426-428, 2014.

[14] Changki Lee, Junseok Kim, Jeonghee Kim, Hyunki

Kim, "Named Entity Recognition using Deep Lear-

ning," KCC, 423-425, 2014.

[15] Baker, Collin F., Charles J. Fillmore, and John B.

Lowe," The berkeley framenet project," Proc. of the

17th international conference on Computational

linguistics-Volume 1. Association for Computational

Linguistics, 1998.

원 유 성

2012년 한양 학교 산업공학과(학사). 2014

년~ 재 한국과학기술원 산학부 웹사

이언스 학원 석사과정. 심분야는 자연

언어처리, 정보검색, 시맨틱웹, 기계학습,

딥러닝

우 종 성

2013년 충북 학교 컴퓨터공학과(학사)

2014년~ 재 한국과학기술원 산학부

웹사이언스 학원 석사과정. 심분야는

자연언어처리, 데이터마이닝, 시맨틱웹, 온

톨로지

김 지 성

2014년 서울시립 학교 졸업(학사). 2014

년~ 재 한국과학기술원 산학부 석사

과정. 심분야는 자연언어처리, 데이터

마이닝, 기계학습, 딥러닝

함 균

2011년 성균 학교 철학과 졸업(학사)

2014년 한국과학기술원 산학부 웹사이

언스 학원 졸업(석사). 2015년~ 재 한

국과학기술원 산학부 웹사이언스 학원

박사과정. 심분야는 자연언어처리, 시

맨틱웹

최 기 선

1988년~ 재 한국과학기술원 산학부

교수, 지식서비스공학과 겸임교수. 2002

년~ 재 ISO/TC37/SC4 언어자원 리

원회 Secretary. 2006년 한국인지과학

회 회장. 2006년~2011년 한국과학기술

원 산학과 학과장. 2009년~2010년 아

시아 자연언어처리 회장(AFNLP). 2014년 Eugen Wüster

상 수상(Infoterm, UNESCO, 비엔나 학). 2015년 한 날

옥조근정훈장 수훈. 심분야는 자연언어처리, Machine Reading,

기계학습, 시맨틱웹, 온톨로지, 자사 , 정보검색, 기계번

역. 주요 서는 다국어어휘의미망(CoreNet, 2004)