13
ISSN 2383-630X(Print) / ISSN 2383-6296(Online) Journal of KIISE, Vol. 43, No. 1, pp. 106-118, 2016. 1 http://dx.doi.org/10.5626/JOK.2016.43.1.106 이 논문은 2013년도 정부(미래창조과학부)의 재원으로 한국연구재단의 지원을 받아 수행된 연구임(No.2013R1A2A2A01015710), 미래창조과학부 및 정보통 신기술진흥센터의 대학ICT연구센터육성 지원사업의 연구결과로 수행되었음 (IITP-2015-H8501-15-1013) 및 미래창조과학부 및 정보통신기술진흥센터의 ICT 융합고급인력과정지원사업의 연구결과로 수행되었음 (IITP-2015-H8601-15-1008) 이 논문은 2015 한국컴퓨터종합학술대회에서 소셜 시맨틱 웹 기반의 협업 환경 에서 신뢰도 평가를 위한 프로버넌스 모델의 제목으로 발표된 논문을 확장한 것임 ††† 종신회원 : 충북대학교 정보통신공학과 교수 (Chungbuk National Univ.) [email protected] (Corresponding author) 논문접수 : 201587(Received 7 August 2015) 논문수정 : 20151029(Revised 29 October 2015) †† 학생회원 정 회 원 : : 충북대학교 정보통신공학과 [email protected] [email protected] [email protected] [email protected] 충북대학교 정보통신공학과 교수 [email protected] 심사완료 : 2015112(Accepted 2 November 2015) Copyright2016 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작물 의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위 를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야 합니다. 정보과학회논문지 제43권 제1(2016. 1) 소셜 시맨틱 웹 환경에서 프로버넌스 기반의 웹 데이터 신뢰도 평가 기법 (Trust Evaluation Scheme of Web Data Based on Provenance in Social Semantic Web Environments) 윤상원 최기태 박재열 (Sangwon Yoon) (Kitae Choi) (Jaeyeol Park) 임종태 복경수 †† 유재수 ††† (Jongtae Lim) (Kyoungsoo Bok) (Jaesoo Yoo) 최근 사용자들 사이의 웹 데이터의 생성 및 공유가 활발해 지면서 시맨틱 웹과 소셜 웹이 결 합한 소셜 시맨틱 웹에 대한 중요성이 증가되고 있다. 본 논문은 소셜 시맨틱 웹 환경에서 PROV 모델을 확장하여 프로버넌스 기반의 웹 데이터 신뢰성 평가 기법을 제안한다. 제안하는 기법은 소셜 시맨틱 웹 환경에서 웹 데이터의 프로버넌스를 관리하고 신뢰성 평가를 위해 W3CPROV 모델에 필요한 요소를 추가하였다. 이와 같이 확장된 PROV 모델은 웹 데이터의 관리 및 프로버넌스 추적을 지원한다. 제안하는 신뢰성 평가 기법은 사용자의 신뢰도, 원본 데이터의 신뢰도 그리고 사람들의 평가 등과 같은 다양한 파 라미터를 고려한다. 평가된 신뢰도는 프로버넌스 정보로 관리되고 사용자의 질의를 처리할 때 이 신뢰도를 고려하여 결과를 생성한다. 따라서 제안하는 기법은 소셜 시맨틱 웹 데이터의 프로버넌스를 관리할 수 있 고 다양한 파라미터를 이용하여 웹 데이터 신뢰도를 정확하게 계산할 수 있다. 평가된 신뢰도는 사용자가 질의 결과의 신뢰 여부를 판단할 수 있는 기준이 된다. 제안하는 기법의 타당성을 보이기 위해 SPARQL 질의를 이용하여 신뢰성 평가의 성능을 검증한다. 키워드: 프로버넌스, 소셜 시맨틱 웹, 신뢰도 평가, 소셜 웹, 시맨틱 웹 Abstract Recently, as the generation and sharing of web data have increased, the importance of a social semantic web that combines the semantic web and the social web has also been increasing. In this paper, we propose a trust evaluation scheme based on provenance by extending the PROV model in the social semantic web environment. The proposed scheme manages the provenance of web

(Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: (Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

ISSN 2383-630X(Print) / ISSN 2383-6296(Online)

Journal of KIISE, Vol. 43, No. 1, pp. 106-118, 2016. 1

http://dx.doi.org/10.5626/JOK.2016.43.1.106

․이 논문은 2013년도 정부(미래창조과학부)의 재원으로 한국연구재단의 지원을

받아 수행된 연구임(No.2013R1A2A2A01015710), 미래창조과학부 정보통

신기술진흥센터의 학ICT연구센터육성 지원사업의 연구결과로 수행되었음

(IITP-2015-H8501-15-1013) 미래창조과학부 정보통신기술진흥센터의

ICT융합고 인력과정지원사업의 연구결과로 수행되었음 (IITP-2015-H8601-15-1008)

․이 논문은 2015 한국컴퓨터종합학술 회에서 ‘소셜 시맨틱 웹 기반의 업 환경

에서 신뢰도 평가를 한 로버 스 모델’의 제목으로 발표된 논문을 확장한 것임

††† 종신회원 : 충북 학교 정보통신공학과 교수

(Chungbuk National Univ.)

[email protected]

(Corresponding author임)

논문 수 : 2015년 8월 7일

(Received 7 August 2015)

논문수정 : 2015년 10월 29일

(Revised 29 October 2015)†

††

학생회원

정 회 원

:

:

충북 학교 정보통신공학과

[email protected]

[email protected]

[email protected]

[email protected]

충북 학교 정보통신공학과 교수

[email protected]

심사완료 : 2015년 11월 2일

(Accepted 2 November 2015)

CopyrightⒸ2016 한국정보과학회ː개인 목 이나 교육 목 인 경우, 이 작물

의 체 는 일부에 한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때,

사본은 상업 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처를 반드시

명시해야 합니다. 이 외의 목 으로 복제, 배포, 출 , 송 등 모든 유형의 사용행

를 하는 경우에 하여는 사 에 허가를 얻고 비용을 지불해야 합니다.

정보과학회논문지 제43권 제1호(2016. 1)

소셜 시맨틱 웹 환경에서 로버 스 기반의 웹 데이터 신뢰도 평가 기법

(Trust Evaluation Scheme of Web Data Based on

Provenance in Social Semantic Web Environments)

윤 상 원† 최 기 태

† 박 재 열

(Sangwon Yoon) (Kitae Choi) (Jaeyeol Park)

임 종 태 † 복 경 수 †† 유 재 수 †††

(Jongtae Lim) (Kyoungsoo Bok) (Jaesoo Yoo)

요 약 최근 사용자들 사이의 웹 데이터의 생성 공유가 활발해 지면서 시맨틱 웹과 소셜 웹이 결

합한 소셜 시맨틱 웹에 한 요성이 증가되고 있다. 본 논문은 소셜 시맨틱 웹 환경에서 PROV 모델을

확장하여 로버 스 기반의 웹 데이터 신뢰성 평가 기법을 제안한다. 제안하는 기법은 소셜 시맨틱 웹

환경에서 웹 데이터의 로버 스를 리하고 신뢰성 평가를 해 W3C의 PROV 모델에 필요한 요소를

추가하 다. 이와 같이 확장된 PROV 모델은 웹 데이터의 리 로버 스 추 을 지원한다. 제안하는

신뢰성 평가 기법은 사용자의 신뢰도, 원본 데이터의 신뢰도 그리고 사람들의 평가 등과 같은 다양한

라미터를 고려한다. 평가된 신뢰도는 로버 스 정보로 리되고 사용자의 질의를 처리할 때 이 신뢰도를

고려하여 결과를 생성한다. 따라서 제안하는 기법은 소셜 시맨틱 웹 데이터의 로버 스를 리할 수 있

고 다양한 라미터를 이용하여 웹 데이터 신뢰도를 정확하게 계산할 수 있다. 평가된 신뢰도는 사용자가

질의 결과의 신뢰 여부를 단할 수 있는 기 이 된다. 제안하는 기법의 타당성을 보이기 해 SPARQL

질의를 이용하여 신뢰성 평가의 성능을 검증한다.

키워드: 로버 스, 소셜 시맨틱 웹, 신뢰도 평가, 소셜 웹, 시맨틱 웹

Abstract Recently, as the generation and sharing of web data have increased, the importance of

a social semantic web that combines the semantic web and the social web has also been increasing.

In this paper, we propose a trust evaluation scheme based on provenance by extending the PROV

model in the social semantic web environment. The proposed scheme manages the provenance of web

Page 2: (Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

소셜 시맨틱 웹 환경에서 로버 스 기반의 웹 데이터 신뢰도 평가 기법 107

data and adds the necessary elements for trust evaluation in the PROV model of W3C. The extended

PROV model supports data management and provenance tracing. The proposed trust evaluation scheme

considers various parameters such as user trust, original data trust, and user evaluation. The evaluated

trust is managed as provenance. When processing a query, the proposed scheme generates a result by

considering the trust. Therefore, the proposed scheme can manage the provenance of web data and

compute data trust correctly by using such various parameters. The evaluated trust becomes a criterion

to determine whether the query result can be trusted or not. In order to show the validity of the proposed

scheme, we verify its performance using SPARQL queries.

Keywords: provenance, social semantic web, trust evaluation, social web, semantic web

1. 서 론

2000년 반부터 개방형 서비스 구조를 기반으로 가

치를 창출 하는 웹 2.0이 세계 으로 활성화되었다.

웹2.0의 발 과 함께 링크드 데이터의 성장, 소셜 웹 서

비스의 등장으로 인해 웹 데이터는 큰 폭으로 성장해

왔다[1]. 이에 따라 소셜 시맨틱 웹에 한 요성이 증

가하고 있다. 소셜 시맨틱 웹은 소셜 웹과 시맨틱 웹이

결합된 것으로 소셜 웹의 사람들의 계와 시맨틱 웹의

의미 표 을 모두 사용하는 환경이다[2]. 부분의 소

셜 시맨틱 웹의 데이터는 RDF 데이터로 표 되고 있

다. 소셜 시맨틱 웹의 발 과 함께 용량의 RDF 그래

데이터를 효과 으로 장하고 리하기 한 연구

가 진행되고 있다[3,4].

소셜 시맨틱 웹 환경은 구나 참여할 수 있어서 작

성자의 시각에 따라서 잘못된 정보가 생성되고 유포될

수 있다. 한, 악의 인 사용자들은 다른 사용자들의

신뢰도를 낮추고 서비스의 피해를 다. 일반 사용자들

은 무분별하게 생성되는 정보에 해 신뢰할 수 있는

정보를 선별하기가 쉽지 않다. 따라서 데이터의 로버

스(provenance)를 기반으로 웹 데이터의 신뢰성을

별할 수 기법이 필요하다. 웹 데이터의 로버 스를

리하는 방법의 하나로 데이터 로버 스를 사용한다.

데이터 로버 스는 출처 는 데이터의 이력 정보를

표 한 메타데이터로 데이터의 출처와 데이터의 이력

정보를 리하기 때문에 데이터 추 을 통하여 신뢰를

추정할 수 있다. RDF로 표 되는 웹 데이터들의 로

버 스 정보를 상호교환, 리하기 해서 W3C에서

PROV 모델이라고 부르는 데이터 로버 스 표 규

격을 발표하 다[5]. 노드와 노드의 계를 방향성 있는

간선으로 연결하여 그래 를 구성하고 RDF 데이터로

장한다.

사용자들에게 신뢰성 있는 웹 데이터를 제공하기

해 데이터 로버 스 정보를 이용하여 신뢰성을 별

하기 한 기법들이 연구되고 있다. [6]의 연구에서는

과학 출 물의 로버 스 정보에 한 SPARQL 검색

을 지원하기 해 과학 출 물들의 정보를 수집하고 각

각의 출 물의 인용 정보를 바탕으로 로버 스 그래

로 데이터를 장하는 임워크를 제안하 다. [7]

에서는 온톨로지의 장소에서 증가하는 온톨로지들과

변경되는 온톨로지들의 리를 해 W3C의 PROV 모

델을 기반으로 한 로버 스 모델을 제안하 다. 한,

온톨로지 장소에서 로버 스 정보를 리하기 때문

에 온톨로지 로버 스 정보에 한 질의의 결과를 반

환할 수 있다. 실제 사회나 가상세계에서의 신뢰의 개념

은 ‘어떤 개인이 타인이 장차 그러한 행동을 할 것이라

는 주 이고 확률 인 기 ’로 정의되고 일 공유 시

스템이나 검색 시스템에서 데이터를 선택하는 기 이

된다[8]. [9]에서는 소셜 네트워크상에서 사람들 간의 신

뢰 계를 별하기 한 기법을 제안하 다. 그래 로

구성된 소셜 네트워크에서 각 노드의 경로와 평가된 신

뢰도를 이용하여 신뢰의 범 를 제한하여 제공한다.

[10]에서는 웹 자원들의 출처의 불확실성을 해결하기

해 로버 스를 이용한 신뢰성 리 기법을 제안하

다. 기존 연구는 로버 스 표 모델인 PROV를 활용

하지 않으며 소셜 시멘틱 웹에서 발생하는 다양한 사용

자의 행 를 표 하지 못한다. 한, 신뢰도를 사용자가

직 입력하기 때문에 객 인 신뢰성 별을 제공하

지 못한다.

소셜 시맨틱 웹 환경의 웹 데이터의 리와 신뢰도

평가 문제를 해결하고 사용자들에게 신뢰성 있는 웹 데

이터를 제공하기 하여 로버 스 정보를 바탕으로

하는 웹 데이터의 신뢰성 평가 기법이 필요하다. 본 논

문은 사용자들이 생성하고 변형하는 활동이 일어나는

소셜 시맨틱 웹 환경에서 로버 스 정보를 통해 신뢰

성을 별하기 한 기법을 제안한다. 제안하는 기법은

소셜 시맨틱 환경에서 신뢰성 평가를 해 W3C의

PROV 모델을 확장하고 이를 로버 스로 리하고

신뢰성 평가 기법을 이용하여 웹 데이터의 신뢰성을 평

가한다. 확장된 로버 스 모델은 웹 데이터의 리

로버 스 추 을 지원하며 소셜 시맨틱 웹에서 사용

자의 다양한 행 를 통해 신뢰도를 평가한다. 사용자의

신뢰도, 원본 데이터의 신뢰도 그리고 사람들의 평가를

고려하여 웹 데이터의 신뢰도를 별하기 때문에 신뢰

Page 3: (Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

108 정보과학회논문지 제43권 제1호(2016. 1)

그림 1 PROV 기본 개념 모델

Fig. 1 Basic concept model of PROV

도의 정확성을 향상시킨다.

본 논문의 나머지 구성은 다음과 같다. 제2 에서는

데이터 로버 스를 리하기 한 표 인 PROV 모

델과 련 연구에 해 설명한다. 제3 에서는 제안하는

기법의 체 인 시스템 구조, 제안기법의 모델링과 신

뢰도 평가 방법을 설명한다. 제4 에서는 제안기법을 구

평가하고, 제5장에서는 결론 향후 연구에 해

기술한다.

2. 련 연구

RDF로 표 되는 웹 데이터들의 로버 스 정보를

상호교환, 리하기 해서 W3C에서 PROV 모델이라

고 부르는 데이터 로버 스 표 규격을 개발 하 다

[5]. PROV는 로버 스 그래 로 구성되고 로버

스 그래 는 노드들과 방향성 있는 간선으로 구성된다.

그림 1은 PROV의 기본 개념 모델이다. 로버 스는

출처 는 데이터에 이력에 한 정보를 표 한 메타데

이터이기 때문에 출처나 이력을 리하기 하여 엔티

티(entity), 액티비티(activity), 에이 트(agent)의 그래

로 나타낸다. 엔티티는 물리 , 개념 , 디지털 오 젝

트와 같은 다양한 종류의 데이터를 표 하기 해 사용

한다. 액티비티는 엔티티가 생성, 변경, 삭제와 같은 엔

티티를 이용하여 수행되는 활동을 나타낸다. 그리고 에

이 트는 액티비티와 생성된 엔티티에 해 책임을 지

는 주체를 나타내기 해 사용한다. 엔티티, 액티비티,

에이 트는 노드에 해당하게 되고 노드와의 계를 나

타내기 해 방향성 있는 간선으로 속성을 표 한다.

표 1은 노드 간의 계를 나타내기 한 PROV 모델

의 기본 속성 요소로 ‘wasGeneratedBy’는 엔티티가 새

로 만들어졌다는 것을 표 하기 한 속성 요소이다.

‘wasDerivedFrom’는 하나 이상의 엔티티를 원본으로

하여 새로운 엔티티의 출처를 나타내기 한 속성 요소

이고 ‘used’는 엔티티를 참조에 한 정보를 표 하기

표 1 PROV 모델의 속성요소

Table 1 Property elements of the PROV model

Element Properties Description

wasGeneratedByEntity creation, alterate express by

activity

wasDerivedFromEntity represents a source of the other

entity

used Entity expresses reference

wasInfromedByEntity generated by activity, represents

a usage of the other entitiy

wasAssociatedWithAgent represents responsible for

activity

wasAttributedTo Agent represents responsible for entity

actedOneBehalfofOn behalf of a particular agent,

represents agent

한 속성 요소이다. ‘wasInfromedBy’는 액티비티에 의

해 생성된 엔티티가 다른 엔티티에 사용됨을 표 하기

한 속성 요소이다. ‘wasAttributeTo’는 엔티티와 에이

트 간의 책임을 나타내기 해 사용하는 속성이고,

‘wasAssociatedWith’는 활동과 에이 트 간의 책임을

표 하는 속성 요소이다. 그리고 ‘actedOneBehalfof’는

특정 에이 트를 신하여 에이 트를 표 할 때 사용

하는 속성이 요소이다.

웹 데이터의 출처나 이력을 리하기 한 데이터

로버 스와 로버 스 정보를 활용하여 웹 데이터의

신뢰성을 평가하는 연구가 진행되었다[6,11-14]. [7]에서

는 온톨로지의 양이 많아짐에 따라 온톨로지 장소를

리하기 해 로버 스 모델을 제안하 다. W3C의

기본 PROV 모델을 확장하여 온톨로지에 필요한 요소,

속성을 정의하고 데이터 계층, 온톨로지 계층, 통합 계

층 등과 같이 세 계층으로 나 어 로버 스 정보를

리한다. 온톨로지의 로버 스 정보를 리함으로써

데이터 로버 스와 련된 질의를 할 수 있다. [10]에

서는 웹 자원들의 출처의 불확실성을 로버 스 정보

Page 4: (Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

소셜 시맨틱 웹 환경에서 로버 스 기반의 웹 데이터 신뢰도 평가 기법 109

표 2 련 연구들의 비교

Table 2 Comparison of related works

Related works Characteristics and Problems

PROV model[5]

∙Exchange and manage the information of Web data expressed in RDF

∙Provide only provenance expression and management criteria but do not

provide a trust evaluation scheme

An Ontology Provenance Model for

an Ontology Repository[7]

∙Propose a provenance model based on PROV model for managing ontology

data repository

∙Do not consider the trust evaluation and trust change of agent and data

Modeling uncertain provenance and

provenance of uncertainty in W3C PROV[10]

∙Propose the modeling of uncertain sources using the usability of PROV model

∙Input both data trust information and malicious trust information directly

by a user

Combining provenance with trust in social

networks for semantic web content filtering[9]

∙Propose trust inference from a graph by considering social web situations

∙Input trust in a node directly by a user

로 리하기 한 기법을 제안하 다. 출처의 불확실성

에는 작성자의 데이터에 할당된 신뢰도, 사용자들이 보

는 데이터에 한 신뢰도, 작성자와 사용자의 신뢰 계

등과 같이 세 가지 요소로 정의하고 기존 PROV 모델

에 하나 이상의 불확실성을 선택 으로 지정하여 신뢰

정보를 제공한다.

실제 사회나 가상세계에서의 신뢰의 개념은 ‘어떤 개

인이 타인이 장차 그러한 행동을 할 것이라는 주 이

고 확률 인 기 ’로 정의되고 일 공유 시스템이나 검

색 시스템에서 데이터를 선택하는 기 이 된다[8]. [9]에

서는 소셜 웹의 상황을 고려하여 사용자간의 신뢰의 범

를 추론하는 기법을 제안하 다. 로버 스와 소셜

웹 기반의 소셜 네트워크에 한 신뢰 주석을 사용하여

신뢰 계를 추론한다. 이때, FOAF의 신뢰 주석을 사

용하고 신뢰에 한 네트워크 경로를 구성하여 신뢰를

추론한다. 신뢰 추론은 소셜 네트워크를 그래 로 구성

하고 사용자가 원하는 신뢰 임계값을 설정하고 신뢰 임

계값보다 큰 신뢰도를 가지는 경로에 해당하는 간선의

신뢰도로 신뢰 범 를 추정한다. 이 게 추론된 정보를

이용하여 계된 사용자 어느 범 까지 신뢰가 가능

한지를 별한다.

표 2는 웹 환경에서 데이터의 로버 스 정보 리

와 신뢰성 평가를 한 련 연구를 비교한다. 기존연구

들의 문제 으로는 먼 [7]에서는 데이터 그리고 에이

트에 한 신뢰도 평가와 신뢰도의 변화를 고려하지

않았다. 그리고 [10]에서는 속성만 정의하 고 실질 인

평가 방법을 정형화하지 않았기 때문에 사용자가 직

작성해야 하는 번거로움과 악의 으로 신뢰도를 작성하

는 문제가 있다. 한, [9]는 소셜 시맨틱 웹 환경에

한 로버 스를 리하기 한 기능을 제공하지 못하

며 각 사용자의 신뢰도를 직 부여하기 때문에 잘못된

정보가 입력되거나 악의 평가 정보가 입력될 수 있는

문제가 있다.

따라서 용량의 소셜 시맨틱 웹 환경의 로버 스

에서 사용자에게 신뢰성 있는 웹 데이터를 제공하기

해 웹 데이터 자체의 신뢰성과 웹 데이터를 사용하는

사람 간의 신뢰 계를 고려한다. 소셜 시맨틱 웹 로버

스의 웹 데이터를 장 리하기 해 먼 W3C의

표 모델을 확장하고 웹 데이터의 로버 스 정보를

바탕으로 웹 데이터가 신뢰할 수 있는지에 한 신뢰도

평가 기법이 필요하다.

3. 제안하는 신뢰도 평가 기법

3.1 제안 기법의 시스템 구조

소셜 시맨틱 웹 환경의 웹 데이터는 사용자들이 웹

데이터를 생성, 변화하고 사용자들에 의해 웹 데이터를

평가받는다. 따라서, 허 정보를 유포하거나 악의 으

로 웹 데이터를 평가하는 문제가 생기는데 이러한 문제

를 해결하고 사용자들에게 신뢰성 있는 웹 데이터를 제

공하기 해 로버 스 정보를 바탕으로 웹 데이터의

신뢰성 평가 기법이 필요하다. 본 논문은 웹 데이터의

로버 스 정보를 리하기 해 W3C의 표 규격인

PROV 모델의 확장하고 웹 데이터의 신뢰성 평가를

해 로버 스 정보를 사용한다. 신뢰성이 평가된 데이

터는 사용자 질의 결과에 신뢰성 있는 결과를 보여주기

해 사용된다. 한, 신뢰도 평가는 사용자 신뢰도, 원

본 데이터 신뢰도 그리고 사람들의 평가를 기반으로

별한다. 신뢰도 평가에 사용되는 정보는 신뢰도와

한 향을 주는 정보이다. 이 정보를 고려함으로 보다

정확한 신뢰도를 계산할 수 있다. 사람들의 평가가 신뢰

도의 기반이 되지만 평가의 정당성이 부족할 경우 를

들어 평가 수가 을 경우는 웹 데이터의 신뢰도에

한 향을 주는 생성자의 신뢰도, 원본 데이터의 신뢰

도가 기반이 된다.

그림 2는 제안하는 기법의 체 인 시스템 구조를

나타낸다. 소셜 시맨틱 웹의 웹 데이터의 신뢰성을 평가

Page 5: (Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

110 정보과학회논문지 제43권 제1호(2016. 1)

그림 2 제안 기법의 시스템 구조

Fig. 2 System architecture of the proposed scheme

표 3 제안 모델의 요소

Table 3 Elements of the proposed model

Class Subclass Described

AgentUser Individual responsible for the activity and data

Organization Institution responsible for the activity and data

EntityDocument Data generated for each objective

External_Document Referenced Information when generating data

Activity

Create When Data is generated by the objective

Delete When Data is deleted by the objective

Modify When Data is modified by the objective

Integration When Two or more data merging

하기 해 시스템은 Trust Evaluation Module, PROV

Model, Provenance Data Store, SPARQL Query

Module로 구성된다. Trust Evaluation Module은 새로

생성되거나 변경되는 웹 데이터의 신뢰성 평가를 해

장소의 로버 스 정보를 바탕으로 신뢰성 평가를

한다. 소셜 시맨틱 웹 환경에서 웹 데이터들의 출처,

로버 스, 신뢰도 등의 데이터를 장하기 해 W3C의

표 규격 모델인 PROV Model 확장하여 사용한다.

Provenance Data Store는 확장된 PROV Model 모델

에 따라 로버 스 데이터를 장하는 장소다. SPARQL

Query Tool은 장소에 장된 로버 스 정보를 활

용하여 사용자의 SPARQL 질의를 처리하는 모듈이다.

SPARQL 질의는 신뢰도 평가 모듈로 계산된 신뢰도

정보를 참조하여 가장 신뢰성이 있는 질의 결과를 반환

한다.

3.2 소셜 시맨틱 웹 환경의 로버 스 모델

소셜 시맨틱 웹 환경의 웹 데이터는 용량이며 다수

의 사용자가 사용하기 때문에 웹 데이터의 변화가 다양

하다. 그러므로 웹 데이터의 로버 스 리가 요하

고 로버 스를 리하기 해 데이터 로버 스를

사용한다. 본 논문은 소셜 시맨틱 웹 환경에서 웹 데이

터의 로버 스 정보를 리하고 웹 데이터의 신뢰성

을 평가하기 해 W3C의 PROV 모델을 확장하여 웹

데이터의 로버 스 정보를 리한다. PROV 모델은

W3C의 표 규격이기 때문에 여러 도메인에 한 유연

한 확장성을 제공한다. 그리고 소셜 시맨틱 웹 환경의

웹 데이터는 RDF 는 XML로 표 되기 때문에 RDF

그래 로 로버 스 정보를 리하는 PROV 모델을

쓰는 것이 효율 이다. 제안하는 모델은 신뢰성 평가를

해 기본 PROV 모델을 소셜 시맨틱 웹 환경에 맞게

확장한다.

표 3은 PROV 규격 모델을 기반으로 소셜 시맨틱 웹

환경의 웹 데이터를 리하기 해 필요한 요소를 정의

한 것이다. 먼 생성되는 엔티티와 액티비티를 책임지

는 에이 트는 User, Organization으로 구성된다. User,

Organization는 사용자 는 기 의 정보를 리하기

해 정의한다. 디지털 오 젝트를 뜻하는 엔티티는

Document, External_Document로 구성된다. Document

는 소셜 시맨틱 환경 내에서 액티비티의 결과이다. 를

들어, 생성, 변경활동의 결과인 문서 는 멀티미디어

Page 6: (Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

소셜 시맨틱 웹 환경에서 로버 스 기반의 웹 데이터 신뢰도 평가 기법 111

그림 3 제안모델 Modify의 시

Fig. 3 Example of Modify in the proposed model

데이터를 뜻한다. External_Document는 Document를

생성할 때 추가로 참조되는 뉴스, 통계 등 여러 외부 웹

데이터를 지칭한다. 액티비티는 엔티티를 활용하여 수행

하는 어떤 활동을 뜻하고 Create, Delete, Modify,

Integration으로 구성된다. Create와 Delete는 엔티티를

생성하고 삭제하는 활동을 의미한다. Modify는 엔티티

의 수정에 한 활동을 의미한다. Integration은 둘 이

상의 엔티티를 병합하는 활동을 의미한다. 소셜 시맨틱

웹 환경의 웹 데이터를 표 하는데 필요한 가장 기본

인 속성과 요소를 정의했기 때문에 각각의 도메인에 따

라서 추가 인 속성과 요소를 정의해야 한다.

소셜 시맨틱 웹 환경은 웹 데이터의 생성뿐만 아니라

웹 데이터의 변경이 많이 발생한다. 를 들어, E-science

에서 다른 연구자의 데이터를 활용하여 새로운 데이터

를 도출하거나 여러 가지 실험 데이터를 통합하여 하나

의 데이터로 만드는 행 를 로 들 수 있다. 그림 3은

표 2의 제안된 PROV 모델 정의를 사용하여 Modify를

표 한 것이다. Modify는 소셜 시맨틱 웹에서 다른 사

용자, 는 기 에서 공유하는 웹 데이터를 출처로 하고

출처 데이터를 수정하여 데이터를 생성할 때 사용하는

액티비티 이다. User01이 Document01을 출처로 하고

수정을 거쳐 새로운 Document02로 만들고 Document01

이 Document02로 개정되었음을 나타낸다. User01은 사

용자 는 기 을 나타내는 에이 트의 서 클래스의

객체가 되고 Document01은 출처가 되는 웹 데이터다.

Document02는 새롭게 개정되는 웹 데이터로 디지털 오

젝트를 나타내는 엔티티의 서 클래스의 객체가 된

다. Modify는 엔티티를 사용하여 에이 트가 책임지는

액티비티에 한 서 클래스의 객체가 된다. 객체들을

연결하는 것은 방향성 있는 간선으로 각 노드 사이의

계를 나타낸다. ‘wasRevisionOf’는 새로 개정된 엔티

티 간의 계를 나타내는 것이며, ‘Used’는 액티비티가

엔티티를 원본으로 참조하 을 때 사용하는 표 이다.

‘wasGenerateBy’는 액티비티로 인해서 엔티티가 생성

됨을 표 하고 ‘wasAssociatedwith’는 액티비티를 사용

한 에이 트 즉, 액티비티의 책임 계를 표 하기 해

사용한다. 이러한 웹 데이터의 로버 스 정보는 PROV

모델을 통하여 RDF 그래 로 구성되고 그래 는 트리

단 로 로버 스 데이터 장소에 장된다.

3.3 소셜 시맨틱 웹 환경의 신뢰도

소셜 시맨틱 웹 환경은 사용자들이 웹 데이터를 생성

공유하며 다른 사용자들이 생성한 웹 데이터를 사용

해 수정 는 통합하는 환경이기 때문에 사용자 는

웹 데이터의 신뢰도를 평가하는 것은 요하다. 데이터

로버 스에서 웹 데이터의 로버 스 정보를 리하

여 신뢰를 추론할 수 있지만, 매번 질의 시에 추론하는

것은 비효율 이고 웹 데이터의 신뢰도 평가 기법에

한 연구는 부족하다. 한, 기존 소셜 웹 환경의 웹 데

이터 신뢰도는 웹 데이터를 사용한 사람들의 명시 인

평가나 웹 데이터를 생성한 생성자의 신뢰도를 사용하

여 평가한다. 하지만 평가된 결과의 수가 거나 없을

때는 신뢰 평가의 근거가 부족하거나 제 로 된 평가를

할 수 없다. 따라서 새로운 웹 데이터 신뢰성 평가 기법

이 필요하다. 사용자가 직 신뢰도를 입력하는 것이 아

니라 웹 데이터를 생성한 사용자와 이때 출처가 되는

웹 데이터가 얼마나 신뢰 가능한지 그리고 생성된 결과

물에 한 사람들의 평가 정보를 이용하여 신뢰성을 평

가해야 한다.

제안하는 기법은 기존의 소셜 웹 환경의 평가 방법과

는 다르게 웹 데이터 생성과 련된 다양한 라미터,

를 들어 사용자의 신뢰도, 원본 데이터의 신뢰도, 사

람들의 평가를 사용하여 보다 정확하고 동 으로 신뢰

도를 평가한다. 소셜 시맨틱 웹 환경에서 웹 데이터 신

뢰도는 식 (1)를 통해 계산한다. 은 웹 데이터에

한 사람들의 평가, 는 웹 데이터 생성자의

신뢰도, 는 원본 웹 데이터의 신뢰도이다. 기

본 으로 소셜 시맨틱 웹 환경은 웹 데이터 신뢰의 기

이 없기 때문에 사람들의 평가를 웹 데이터의 신뢰도

Page 7: (Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

112 정보과학회논문지 제43권 제1호(2016. 1)

(1)

그림 4 제안기법 신뢰도의 시

Fig. 4 Examples of reliability in the proposed scheme

로 사용한다. 하지만 평가의 근거가 불충분할 때

( ≤ )는 정확한 웹 데이터의 신뢰도를 평가할

수 없기 때문에 이를 보완하기 해 사람들의 평가

(rating)와 웹 데이터 생성과 련된 여러 가지 라미

터를 고려하여 웹 데이터의 신뢰도를 평가한다. 그리고

근거가 충분할 때( )는 사람들의 평가(rating)

만 고려하여 웹 데이터의 신뢰도를 평가한다. 는 신뢰

도 평가에 한 가 치를 나타낸다. 그리고 은 평가된

수를 나타낸다. 평가된 신뢰도는 Note에 기록한다. 기록

된 모든 Note들은 엔티티, 액티비티, 에이 트에 한

신뢰도 상세 정보를 제공한다.

는 사용자의 신뢰도를 나타내며 사용자의 행

의 결과물에 한 평가자들의 평가를 기반으로 계산

된다. 사람들의 평가는 악의 인 평가, 은 평가 수 등,

불확실성을 가지고 있다. 따라서 보다 정확한 평가를

해 사용자의 신뢰도는 명시 평가와 암시 평가를 통

해 결정한다[15]. 명시 평가는 사용자가 생성한 결과

물에 한 평가자들의 명시 인 신뢰도 평 을 의미

하며 암시 평가는 문서에 한 평가자의 댓 , 추천,

공유 등의 행 를 통해 분석한 평 을 의미한다. 이러한

암시 인 평가자들의 행 를 평가하여 정 인 행 에

해 가 치를 부여한다. 사용자의 신뢰도는 식 (2)를

사용하여 계산한다. 과거에 사용자가 한 h만큼의 행 의

결과물에 한 평가자들의 명시 , 암시 평가의 평균

으로 한다. 은 0~1 사이의 값을 가지는 명시 평가

이고 은 0~1 사이의 값을 가지는 암시 평가이다.

(2)

그림 4는 User01이 Document01을 Document02로

개정하는 과정에서 신뢰도 평가 값이 어떻게 장되는

지를 나타낸 그림이다. PROV 모델로 리되는 로버

스 정보는 그래 로 구성된다. 각각의 오 젝트는 노

드로 표 되고 노드와 노드의 계를 간선으로 나타낸

다. 그리고 각 노드의 로버 스 정보는 Note에 표

된다. 식 (1)을 통하여 User01의 신뢰도를 평가하고 Note

에 장한다. 그리고 User01은 DT(Document Trust)

가 0.5인 Document01을 수정하여 새로운 Document02

를 만들었다. 이때 Document02의 신뢰도는 원본이 되

는 엔티티의 신뢰도와 생성자의 신뢰도, 평가자들의 평

가를 기반으로 신뢰도를 평가한다. User의 Note에는 사

용자의 이름을 표 하는 foaf:name과 사용자의 메일주

소를 표 하는 foaf:mbox, 사용자의 평가된 신뢰도인

pm:usertrust로 구성된다. Document의 Note에는 웹 데

이터의 신뢰도를 나타내는 pm:DT, 웹 데이터의 식별을

한 pm:DID, 웹 데이터의 실제 URI를 나타내는 pm:URI,

웹 데이터의 생성 평가 시간을 나타내는 pm:TIME

등으로 구성된다.

는 원본 웹 데이터의 신뢰도를 나타내며

Page 8: (Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

소셜 시맨틱 웹 환경에서 로버 스 기반의 웹 데이터 신뢰도 평가 기법 113

그림 5 제안기법의 신뢰도 평가과정 시

Fig. 5 Example of trust evaluation in the proposed scheme

식 (3)을 이용하여 계산한다. 는 원본 웹 데

이터를 사용한 평가자들의 평가와 원본 웹 데이터를 생

성한 사용자와 원본 웹 데이터를 사용하려는 생성자간

의 소셜 신뢰 계를 고려하여 평가한다. 식 (2)는 각

엔티티에서 평가된 h 만큼의 명시 ( ), 암시 ( ) 평

가의 평균에 원본 웹 데이터 생상자와 그 데이터를 사

용하려는 생성자 사이의 신뢰 계 u로 나타낸다. u는

둘 사이의 소셜 활동의 가 치로 0~1 사이의 값으로

나타낸다[16]. 이것은 소셜 계에서 내가 믿을 수 있는

사람에게 정보를 받는 것에 한 가 치를 더 주기

함이다. 은 0~1 사이의 값을 가지는 명시 평가이고

은 0~1 사이의 값을 가지는 암시 평가이다.

(3)

은 웹 데이터에 한 사람들의 평가를 나타낸

것으로 식 (4)와 같이 계산한다. 계산은 식 (2)

와 유사하지만 식 (2)는 생성자의 으로 행 의 모든

결과물들에 한 사람들의 평가라면 식 (4)는 하나의 행

의 결과물들에 한 사람들의 평가이다. 이것은 사용

자의 평가된 신뢰도가 사용자 각각의 결과물들에 해

향을 주면 안 되기 때문이다. 하나의 결과물에 한

사용자들의 n만큼의 명시 ( ), 암시 ( ) 평가의 평

균이다. 은 0~1 사이의 값을 가지는 명시 평가이고

은 0~1 사이의 값을 가지는 암시 평가이다.

(4)

그림 5는 그림 4의 Modify의 신뢰도 평가 과정을 나

타낸 것이다. 시는 User01의 과거 행 는 2번 있었고

출처가 되는 Document01의 신뢰도 평가 결과는 0.5,

임계치는 2, 가 치는 0.5로 가정하 다. 먼 User01의

신뢰도를 계산하기 하여 User01의 행 의 결과물들에

한 평가자들의 평가를 종합하고 평균을 낸다. 행 가

두 번 있었기 때문에 식 (2)의 h 값은 2가 되고 그 결

과 User01의 신뢰도 평가 결과는 0.49가 된다. 새로 개

정된 Document02의 신뢰도 평가는 식 (1)을 통하여 구

하게 된다. Rating 값은 생성된 결과물에 한 평가자

들의 평가이고 평가된 결과가 없다면 0이 되고 그 지

않다면 식 (4)를 이용하여 구하게 된다. 시에서는 평

가가 한번 있었고 식 (3)을 통한 Rating 값은 0.5가 된

다. 최종 Document02의 신뢰도 평가 결과는 0.4975가

된다. 평가된 신뢰도는 결과물에 한 평가자들의 평가

가 없다면 웹 데이터 생성자의 신뢰도와 원본 웹 데이

터 신뢰도에 향을 받고 평가 결과가 많아질수록 평가

자들의 평가에 향을 받게 된다.

4. 구 평가

본 논문은 소셜 시맨틱 웹 환경에서 웹 데이터의 신

뢰성 평가를 해 신뢰성 평가 기법을 제안하고 웹 데

이터의 리를 하여 PROV 모델을 사용하여 로버

스 모델을 확장하 다. 기존의 로버 스 정보를 사

용하는 신뢰도 연구는 사용자가 직 신뢰도를 명시하

거나 사용자의 신뢰도를 그가 만드는 모든 웹 데이터의

신뢰도로 사용하는 것이다. 즉, 신뢰도를 평가하는 계산

Page 9: (Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

114 정보과학회논문지 제43권 제1호(2016. 1)

과정보다는 신뢰도를 사용하는 측면의 연구이다. 따라서

제안된 기법을 검증하기 해 실험은 DBpedia와 kowiki

와 같은 실제 응용을 고려하여 웹 데이터 집합을 만들

고 PROV 모델을 확장하여 제안하는 기법에 의해 신뢰

성이 향을 미치는 여부를 평가하 다. 실험 환경은

Intel Core i5-3570 CPU 3.40GHz, 8G RAM, 64bit Win-

dow 7을 사용하는 컴퓨터에서 온톨로지 편집 툴인 Protege4.3

과 OWLViz, 자바를 사용하 다. 제안된 신뢰도 평가

기법을 용하기 해 먼 확장된 PROV 모델을 온톨

로지로 구 하 다. 그림 6은 Protege 4.3으로 제안 모

델의 클래스 계를 OWLViz로 계층화한 것이다. 제안

모델은 소셜 시맨틱 웹 환경에 맞게 표 2를 통하여 구

하 다. 제안하는 모델 신뢰성 평가 기법을 사용하

려면 소셜 계, 사용자와 웹 데이터의 평가 정보가 필

요하다. 하지만 기존의 웹 데이터는 제안 기법에서 사용

하려는 정보를 모두 포함하고 있지 않다. 따라서 기존의

그림 6 제안 모델의 클래스 계

Fig. 6 Class relationship of the proposed model

표 4 구 평가 환경

Table 4 Implementation and evaluation environment

Parameters Value

The number of Entity (EA) 100

The number of Activity (EA) 40

The number of Agent (EA) 30

0.5

Threshold 3

Social relationships 0~1

웹 데이터를 사용하여 제안 모델의 신뢰도 평가를 할

수 없다. 한, 제안된 신뢰성 평가는 엔티티의 수보다

는 평가와 련된 사용자의 소셜 신뢰 정보, 사용자의

행 정보, 사용자들의 평가에 더 하다. 그 기 때문

에 엔티티의 수보다는 신뢰도 평가에 사용되는 여러 가

지 정보가 더 요하다. 표 4와 같이 구 된 일은 100

개의 엔티티와 30개의 에이 트 그리고 40개의 액티비

티로 구성하 고 가 치 α는 0.5 그리고 평 수의 임계

값은 3으로 지정하 다. 한, 평가자들의 평가와 사용

자 간 신뢰 계는 램덤함수를 사용해 0~1 값을 주었다.

신뢰도 평가 모듈은 JAVA로 구 하 으며 Protege4.3

과 연동하 다.

로버 스 데이터는 RDF 형식으로 장되기 때문에

그림 7과 같이 표 된다. Document10에 한 로버

스 정보를 나타낸 것이다. (1)은 개정된 엔티티를 표

한 것으로 “Document10은 Document08의 개정이다”라

는 뜻을 가지고 있다. 주어가 Document10이 되고

wasRevisionOf 가 술어가 되고 목 어가 Document08

된다. (2)는 Document10이 생성된 시간을 표 한 것이

다. 즉, 액티비티를 수행하여 웹 데이터 생성 시간을 뜻

하며, 주어가 Document10, 술어가 Time, 목 어는

String형식의 시간이 된다. (3)은 엔티티의 액티비티 내

용을 나타내는 것으로 Document10은 Modify를 통하여

생성된 것을 뜻한다. 주어가 Document10, 술어가

wasGenerateBy, 목 어는 Modify가 된다. (4)는 신뢰

도가 평가된 시간을 표 하기 한 것이며 신뢰도가 평

가된 시간은 신뢰도 평가 업데이트의 기 이 되고 주어

가 Document10, 술어가 TrustTime, 목 어는 String

형식의 시간이 된다. (5)는 객체 데이터의 타입을 나타

내고 타입은 데이터가 어떤 클래스의 객체인지를 나타

낸다. 그림 6으로 나타낸 클래스 형식에 따라서 타입을

지정한다. Document10은 Entity의 서 클래스인 Docu-

ment의 객체를 나타내며 주어는 Document10, 서술어

는 Type, 목 어는 Document가 된다. (6)은 로버

스 데이터의 평가된 신뢰도를 표 하기 한 것으로 제

안하는 신뢰도 평가 기법에 따라 0~1의 값으로 표 한

다. 주어는 Document10, 술어는 Trust, 목 어는 float

형식의 값으로 표 된다.

그림 7 로버 스 데이터의 RDF 표

Fig. 7 RDF expression of the provenance data

Page 10: (Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

소셜 시맨틱 웹 환경에서 로버 스 기반의 웹 데이터 신뢰도 평가 기법 115

그림 8 신뢰도 평가 과정

Fig. 8 Trust evaluation process

그림 8은 그림 5의 시를 실제로 구 한 환경에서

어떻게 신뢰도가 평가되고 장되는지에 한 시이다.

A는 User01이 Document00을 수정하여 Document01을

만든 상황을 가정하고 있다. 그리고 B는 제안 기법으로

구 된 상황에서 신뢰도를 평가하고 처리하는 과정에

해 나타낸다. B에서 신뢰성 평가 과정은 먼 생성자

의 신뢰도를 평가하기 해서 생성자의 행 의 결과물

에 해 평가자들의 명시 , 암시 평가를 식 (1)을 사

용하여 생성자의 신뢰도를 평가한다. 이후 결과 값과

로버 스 정보를 PROV 모델에 맞게 RDF 데이터로

장한다(①). 이때 객체들이 생성된 시간과 신뢰도가 평

가된 시간을 장한다. 장된 신뢰도 평가 시간은 업데

이트의 기 이 된다. 새로 개정되는 웹 데이터의 신뢰도

를 구하기 해 먼 재까지 개정된 웹 데이터에

한 사람들의 평가(②)와 원본 웹 데이터의 신뢰도를 이

용하여(③), (①~③)까지의 결과에 식 (4)를 통해 최종

웹 데이터 신뢰도를 평가하고 평가된 신뢰도는 PROV

모델로 RDF 데이터로 장한다(④).

그림 9는 신뢰도 평가 후 장된 로버 스 데이터

에 신뢰도를 고려하여 SPARQL 질의를 비교한 것이다.

실험은 엔티티, 에이 트 총 130개의 객체를 상으로

신뢰도 평가를 용한 것은 80개로 하 고 검색 결과는

신뢰도 평균값에 따라 내림차순으로 정렬하 다. (a)의

경우 질의 결과 에서 제일 낮은 신뢰도는 0.1인 반면

에 (b)의 경우 평가된 신뢰도 값을 사용하여 필터를

용했기 때문에 제일 낮은 신뢰도 값은 0.51이 된다. 같

은 질의에 해 신뢰도를 고려하여 질의한 결과가 그

지 않을 때 비해 반환되는 결과의 수나 신뢰도 평가 질

이 우수하다. 한, 필터링을 사용한 것이기 때문에 반

환되는 결과 집합의 크기 한 작아진다. 즉, 사용자가

신뢰할 수 있는 신뢰도 범 가 있다면 필터를 사용하고

정렬을 하는 것이 결과의 질을 더 높일 수 있다. 이것은

용량의 웹 데이터 집합에서 질의의 처리 속도나 효율

면에서 좋다고 할 수 있다.

그림 10은 총 2,500개의 SPARQL 질의를 처리한 결

과를 나타낸다. 속성 요소의 신뢰도 값은 30%의 속성에

포함되는 신뢰도 값은 0~0.3으로 나머지 30%의 속성에

포함되는 신뢰도는 0.3~0.7로 그밖에 10%는 0.7~1로

지정하고 실험하 다. Basic_result는 신뢰도 평가를 하

지 않는 기존의 모델의 질의 결과의 신뢰도를 측정한

Page 11: (Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

116 정보과학회논문지 제43권 제1호(2016. 1)

(a) Not apply the trust filter (b) Apply the trust filter

그림 9 SPARQL 질의 결과

Fig. 9 SPARQL query results

그림 10 질의 수 따른 평균 신뢰도

Fig. 10 Average trust according to the number of queries

것이다. Trust_result는 신뢰도 평가를 하고 신뢰도 필

터를 용할 때 질의 결과의 신뢰도를 측정한 것이다.

질의에 평가된 신뢰도로 필터를 한 결과가 평균 으로

높은 신뢰도 값을 가진다. 반면에 기본 인 질의는 상

으로 낮은 신뢰도 값을 가지게 되어 그들 간 최고 0.3

만큼의 신뢰도 차이를 보인다. 사용자의 질의 결과가 신

뢰도가 낮은 웹 데이터들이 많은 질의라면 Basic_result

같은 경우에 결과로 반환되는 웹 데이터 집합들의 신뢰

도가 반 으로 낮을 것이다. 그러므로 총 신뢰도 평균

은 떨어져 비교 낮은 신뢰도를 나타내고 Trust_result

같은 경우에는 사용자가 지정하는 특정 범 로 신뢰도

를 필터링하기 때문에 결과로 반환되는 웹 데이터 집합

의 신뢰도는 반 으로 높을 수밖에 없다. 이는 결과

웹 데이터 집합의 질이 보장된다고 할 수 있다. 용량

의 웹 데이터와 웹 데이터의 신뢰성을 단하기 어려운

소셜 시맨틱 웹 환경에서는 의미가 있다.

5. 결 론

본 논문은 사용자들이 생성하고 변형하는 활동이 무

분별하게 일어나는 소셜 시맨틱 웹 환경에서 W3C의

PROV 모델을 확장하고 로버 스 데이터를 리 데

이터 신뢰성을 평가하기 한 기법을 제안하 다. 제안

된 기법은 소셜 시맨틱 환경에서 신뢰성 평가를 해

W3C의 PROV 모델을 확장하고 로버 스 데이터를

리하고 로버 스 정보로부터 신뢰성 평가 기법 통

해 데이터의 신뢰도를 도출한다. 한, 제안 기법을 구

Page 12: (Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

소셜 시맨틱 웹 환경에서 로버 스 기반의 웹 데이터 신뢰도 평가 기법 117

하고 SPARQL 질의로 신뢰성 평가를 검증하 다. 향

후에는 제안하는 기법의 검색 효율을 증가시키기 한

질의 처리 방법에 한 연구와 엔티티 수에 따른 성능

평가를 수행하여 엔티티 수가 증가함에 따라 계산 속도

가 얼마나 증가하는지를 확인할 정이다.

References

[ 1 ] A. Ankolekar, M. Krotzsch, T. Tran, and D.

Vrandecic, "The two cultures: Mashing up Web 2.0

and the Semantic Web," Proc. of International

Conference on World Wide Web, pp. 825-834, 2007.

[ 2 ] D. Wang, J. Sohn, J. Kim, and I. Chung, "User-

centralized Social Semantic Web Framework," Proc.

of Korea Information Science Society Korea Com-

puter Congress, pp. 185-187, 2012. (in Korea)

[ 3 ] J. Han, M. Yook, Y. Noh, D. Kim, J. Lim, K. Bok,

and J. Yoo, "Efficient RDF Provenance Compres-

sion Scheme Considering Duplication," Proc. of

International Conference on Convergence Content,

pp. 75-76, 2015. (in Korea)

[ 4 ] M. Wylot, P. Cudre-Mauroux, and P. Groth,

"Tripleprov: Efficient processing of lineage queries

in a native rdf store," Proc. of International Con-

ference on World Wide Web, pp. 455-466, 2014.

[ 5 ] World Wide Web Consortium, "PROV-DM," http://

www.w3.org/TR/prov-dm/, 2013.

[ 6 ] T. Mahmood, S. I. Jami, Z. A. Shaikh, and M. H.

Mughal, "Toward the modeling of data provenance

in scientific publications," Computer Standards &

Interfaces, Vol. 35, No. 1, pp. 6-29, 2013.

[ 7 ] E. Shin, S. Lee, and D. Baik, "An Ontology Pro-

venance Model for an Ontology Repository," Journal

of Korea Information Science Society : Databases,

Vol. 41, No. 3, pp. 181-191, 2014. (in Korea)

[ 8 ] Gambetta, "Conspiracy among the many: the mafia

in legitimate industries," The economics of orga-

nized crime, Cambridge University Press, Cambridge,

pp. 116-136, 1995.

[ 9 ] J. Golbeck, "Combining provenance with trust in

social networks for semantic web content filtering,"

Proc. of the International Provenance and Anno-

tation Workshop, 2006.

[10] T. De Nies, S. Coppens, E. Mannens, and R. Van

de Walle, "Modeling uncertain provenance and pro-

venance of uncertainty in W3C PROV," Proc. of Inter-

national Conference on World Wide Web, pp. 167-

168, 2013.

[11] I. Jung, H. Eom, and H. Yeom, "Multi-layer Trust

Reasoning on Open Provenance Model for e-Sci-

ence Environment," Proc. of International Symposium

on Parallel and Distributed Processing with App-

lications, pp. 294-299, 2011.

[12] D. L. McGuinness, H. Zeng, P. P. da Silva, L. Ding,

D. Narayanan, and M. Bhaowal, "Investigation into

trust for collaborative information repositories: A

Wikipedia case study," Proc. of WWW'06 Workshop

on Models of Trust for the Web, 2006.

[13] M. Maheswaran, H. C. Tang, and A. Ghunaim,

"Towards a Gravity-Based Trust Model for Social

Networking Systems," Proc. of International Con-

ference on Distributed Computing Systems Work-

shops, pp. 24-31, 2007.

[14] S. Ram and J. Liu, "A semantic foundation for pro-

venance management," Journal on Data Semantics,

vol.1, pp. 11-17, 2012.

[15] Y.S. Han, L. Kim, J.W. Cha, "Computing user repu-

tation in a social network of Web 2.0," Computing

and Informatics, Vol. 31, pp. 447-462, 2012.

[16] C. Lee, Y. Jung, J. Jung, D. Won, "Dynamic User

Reliability Evaluation Scheme for Social Network

Service," Journal of The Korea Institute of Informa-

tion Security and Cryptology, Vol. 23, No. 2, pp. 157-

168, 2013. (in Korea)

윤 상 원

2014년 2월 충북 학교 자공학과 공학

사. 2014년 3월~ 재 충북 학교 정보

통신공학 석사과정. 심분야는 데이터베

이스 시스템, RDF, Provenance Index,

빅데이터 등

최 기 태

2014년 2월 충북 학교 정보통신공학과

공학사. 2014년 3월~ 재 충북 학교

정보통신공학 석사과정. 심분야는 데이

터베이스 시스템, 분산 컴퓨 , 부하분산

처리, 빅데이터 등

박 재 열

2014년 2월 충북 학교 정보통신공학과

공학사. 2014년 3월~ 재 충북 학교

정보통신공학 석사과정. 심분야는 데이

터베이스 시스템, RDF, 실체화 뷰, 빅데

이터 등

임 종 태

2009년 2월 충북 학교 정보통신공학과

공학사. 2011년 2월 충북 학교 정보통

신공학과 공학석사. 2011년 3월~ 재

충북 학교 정보통신공학과 박사과정.

심분야는 데이터베이스 시스템, 시공간

데이터베이스, 치기반 서비스, 모바일

P2P 네트워크

Page 13: (Trust Evaluation Scheme of Web Data Based on Provenance in …kiise.or.kr/e_journal/2016/1/JOK/pdf/13.pdf · 2016-01-13 · Keywords: provenance, social semantic web, trust evaluation,

118 정보과학회논문지 제43권 제1호(2016. 1)

복 경 수

1998년 2월 충북 학교 수학과 이학사

2000년 2월 충북 학교 정보통신공학과

공학석사. 2005년 2월 충북 학교 정보

통신공학과 공학박사. 2005년 3월~2008

년 2월 한국과학기술원 정보 자연구소

Pstdoc. 2008년 3월~2011년 2월 가인정

보기술 연구소 연구원. 2011년 3월~ 재 충북 학교 자

정보 학 정보통신공학부 빙부교수. 심분야는 데이터베

이스 시스템, 자료 장시스템, 이동객체 데이터베이스, RFID

센서네트워크, 모바일 P2P 네트워크, 빅데이터 등

유 재 수

1989년 2월 북 학교 컴퓨터공학과(공

학사). 1991년 2월 KAIST 산학과(공

학석사). 1995년 2월 KAIST 산학과

(공학박사). 1995년 3월~1996년 8월 목

포 학교 산통계학과( 임강사). 1996년

8월~ 재 충북 학교 정보통신공학부

컴퓨터정보통신연구소 교수. 2009년 3월~2010년 2월캘리포

니아주립 학교 방문교수. 심분야는 데이터베이스시스템,

빅데이터, 센서 네트워크 RFID, 소셜 네트워크 서비스,

분산 객체 컴퓨 , 바이오인포매틱스 등