8
ISSN 2383-6318(Print) / ISSN 2383-6326(Online) KIISE Transactions on Computing Practices, Vol. 21, No. 10, pp. 623-630, 2015. 10 http://dx.doi.org/10.5626/KTCP.2015.21.10.623 본 연구는 문화체육관광부 및 한국저작권위원회의 2015년도 저작권기술 개발사업의 연구결과로 수행되었음. †† 학생회원 종신회원 : : 인하대학교 정보통신공학과 [email protected] [email protected] 인하대학교 정보통신공학과 교수(Inha Univ.) [email protected] (Corresponding author) 논문접수 : 201534(Received 4 March 2015) 논문수정 : 201583(Revised 3 August 2015) 심사완료 : 201585(Accepted 5 August 2015) Copyright2015 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저 작물의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처 를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해 야 합니다. 정보과학회 컴퓨팅의 실제 논문지 제21권 제10(2015. 10) 참고문헌 인용부호 자동부착 지원 시스템 개발 (Development of Automatic Reference-Citation-Mark Attachment Support System) 송광호 민지홍 김유성 †† (Kwangho Song) (Jihong Min) (Yoo-sung Kim) 본 논문에서는 작성중인 기술문서에 대해 기존 문서 데이터베이스내의 원본문서들과 유사도를 비교하여 일정기준 이상의 유사성을 갖는 문장을 포함하는 원본문서들의 서지정보를 모아 참고문헌 목록 을 자동으로 작성해 주며 대상 문서의 해당 문장에는 참고문헌 인용부호를 부착할 수 있도록 지원하는 시 스템을 소개한다. 또한 이러한 제안 내용을 토대로 하여 웹기반 시범 서비스 모델을 설계하고 이를 온라 인 서비스로 실현하기 위한 프로토타입 시스템을 개발하였다. 개발된 시스템을 활용하여 기술문서 작성자 에게 작성중인 기술문서에 대해 기 발표된 원본문서내의 유사 문장을 검색하고 이에 대한 참고문헌 인용 부호를 부착할 수 있도록 지원함으로써 표절 문제를 선제적으로 예방하고 나아가 참고문헌 목록 생성 및 인용부호 자동부착 지원기능을 통해 논문 저술에 편리성을 확보할 수 있을 것이라 기대한다. 키워드: 인용부호 자동부착, 참고문헌 목록 자동생성, 표절 검사, 내용기반 유사도 계산 Abstract In this paper, the design and implementation of an automatic reference-citation-mark attachment system are introduced. The system automatically attaches a citation mark to the end of a sentence in a technical document if the corresponding statement has a high similarity to another statement in the same document; simultaneously, the corresponding bibliographic data is automatically created from the cited-document information. In accordance with functional specifications, a Web-based, online service model and the development of its prototype system are proposed. The developed system can help in the elimination of unexpected plagiarism issues, and will alleviate the burdens of reference citation and reference-list creation for technical writers. Keywords: automatic citation-mark attachment, automatic reference-list creation, plagiarism detection, content-based similarity computation 1. 서 론 최근 여러 공직 후보자와 사회적 저명인사들의 논문표 절로 인해 표절이 사회적인 이슈가 되고 있다[1]. 이러한 문제는 비단 국내에서만 문제가 되는 것이 아니라 해외 에서도 표절에 관한 많은 문제들이 발생되어왔다[2]. 론 이와 같은 표절의 문제는 타인의 논문을 그대로 복제 하거나 저자를 바꾸는 등과 같은 악의적인 유형도 많이 있었으나 저자가 실수로 인용부호를 부착하지 못해 발생 하는, 미리 예방이 가능한 문제들도 존재하였다[3]. 이러한 표절관련 문제들의 해결을 위해 국내외에서 는 표절의 유형 및 판단 기준을 제정하고 표절 문서를 판정할 수 있는 시스템 개발에 대한 노력을 지속적으로 경주하여 왔다. 그 결과로는 2008년에 교육인적자원부에 서 마련한 표절가이드라인[4]’을 시작으로, 2010년에 한 국학술단체총연합회에서 제정한 한국학술단체총연합회

(Development of Automatic Reference-Citation-Mark ...kiise.or.kr/e_journal/2015/10/KTCP/pdf/01.pdf표절검출은 불가능하다[13,14]. 이러한 단점들을 해결하 고자 본

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: (Development of Automatic Reference-Citation-Mark ...kiise.or.kr/e_journal/2015/10/KTCP/pdf/01.pdf표절검출은 불가능하다[13,14]. 이러한 단점들을 해결하 고자 본

ISSN 2383-6318(Print) / ISSN 2383-6326(Online)

KIISE Transactions on Computing Practices, Vol. 21, No. 10, pp. 623-630, 2015. 10

http://dx.doi.org/10.5626/KTCP.2015.21.10.623

․본 연구는 문화체육 부 한국 작권 원회의 2015년도 작권기술

개발사업의 연구결과로 수행되었음.

††

학생회원

종신회원

:

:

인하 학교 정보통신공학과

[email protected]

[email protected]

인하 학교 정보통신공학과 교수(Inha Univ.)

[email protected]

(Corresponding author임)

논문 수 : 2015년 3월 4일

(Received 4 March 2015)

논문수정 : 2015년 8월 3일

(Revised 3 August 2015)

심사완료 : 2015년 8월 5일

(Accepted 5 August 2015)

CopyrightⒸ2015 한국정보과학회ː개인 목 이나 교육 목 인 경우, 이

작물의 체 는 일부에 한 복사본 혹은 디지털 사본의 제작을 허가합니다.

이 때, 사본은 상업 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처

를 반드시 명시해야 합니다. 이 외의 목 으로 복제, 배포, 출 , 송 등 모든

유형의 사용행 를 하는 경우에 하여는 사 에 허가를 얻고 비용을 지불해

야 합니다.

정보과학회 컴퓨 의 실제 논문지 제21권 제10호(2015. 10)

참고문헌 인용부호 자동부착 지원 시스템 개발(Development of Automatic Reference-Citation-Mark

Attachment Support System)

송 호† 민 지 홍

† 김 유 성

††

(Kwangho Song) (Jihong Min) (Yoo-sung Kim)

요 약 본 논문에서는 작성 인 기술문서에 해 기존 문서 데이터베이스내의 원본문서들과 유사도를

비교하여 일정기 이상의 유사성을 갖는 문장을 포함하는 원본문서들의 서지정보를 모아 참고문헌 목록

을 자동으로 작성해 주며 상 문서의 해당 문장에는 참고문헌 인용부호를 부착할 수 있도록 지원하는 시

스템을 소개한다. 한 이러한 제안 내용을 토 로 하여 웹기반 시범 서비스 모델을 설계하고 이를 온라

인 서비스로 실 하기 한 로토타입 시스템을 개발하 다. 개발된 시스템을 활용하여 기술문서 작성자

에게 작성 인 기술문서에 해 기 발표된 원본문서내의 유사 문장을 검색하고 이에 한 참고문헌 인용

부호를 부착할 수 있도록 지원함으로써 표 문제를 선제 으로 방하고 나아가 참고문헌 목록 생성

인용부호 자동부착 지원기능을 통해 논문 술에 편리성을 확보할 수 있을 것이라 기 한다.

키워드: 인용부호 자동부착, 참고문헌 목록 자동생성, 표 검사, 내용기반 유사도 계산

Abstract In this paper, the design and implementation of an automatic reference-citation-mark

attachment system are introduced. The system automatically attaches a citation mark to the end of

a sentence in a technical document if the corresponding statement has a high similarity to another

statement in the same document; simultaneously, the corresponding bibliographic data is automatically

created from the cited-document information. In accordance with functional specifications, a

Web-based, online service model and the development of its prototype system are proposed. The

developed system can help in the elimination of unexpected plagiarism issues, and will alleviate the

burdens of reference citation and reference-list creation for technical writers.

Keywords: automatic citation-mark attachment, automatic reference-list creation, plagiarism

detection, content-based similarity computation

1. 서 론

최근 여러 공직 후보자와 사회 명인사들의 논문표

로 인해 표 이 사회 인 이슈가 되고 있다[1]. 이러한

문제는 비단 국내에서만 문제가 되는 것이 아니라 해외

에서도 표 에 한 많은 문제들이 발생되어왔다[2]. 물

론 이와 같은 표 의 문제는 타인의 논문을 그 로 복제

하거나 자를 바꾸는 등과 같은 악의 인 유형도 많이

있었으나 자가 실수로 인용부호를 부착하지 못해 발생

하는, 미리 방이 가능한 문제들도 존재하 다[3].

이러한 표 련 문제들의 해결을 해 국내・외에서

는 표 의 유형 단 기 을 제정하고 표 문서를

정할 수 있는 시스템 개발에 한 노력을 지속 으로

경주하여 왔다. 그 결과로는 2008년에 교육인 자원부에

서 마련한 ‘표 가이드라인[4]’을 시작으로, 2010년에 한

국학술단체총연합회에서 제정한 ‘한국학술단체총연합회

Page 2: (Development of Automatic Reference-Citation-Mark ...kiise.or.kr/e_journal/2015/10/KTCP/pdf/01.pdf표절검출은 불가능하다[13,14]. 이러한 단점들을 해결하 고자 본

624 정보과학회 컴퓨 의 실제 논문지 제 21 권 제 10 호(2015. 10)

의 연구윤리지침’[5], 2010년 서울 학교에서 제정한 ‘연

구윤리지침’[6] 등이 있다. 표 을 탐색하는 시스템

서비스로는 2009년 이후에 (주)무하유에서 제공하고

있는 ‘Copy Killer’[7], (주)와이즈넛의 ‘WISE Referee’[8],

㈜코난테크놀로지의 ‘Meme Checker’[9], iParadigms의

‘Turnitin’[10] 등이 온라인 서비스 형태 는 독립 인

시스템으로 제공되었다[11].

그러나 이러한 상용시스템들은 작성이 완료된 문서에

해서 기존 발표 문서들과의 유사성 비교를 통해 표

을 검사하고 발하는 쪽으로만 집 하고 있어 표 유

형 복제형태의 악의 표 을 검출해 내고 이를

발하여 처벌하거나 그를 한 증거를 마련하는 쪽에는

강 을 가지고 있다. 그러나 앞서 살펴보듯이 표 의 유

형에는 악의 표 만 있는 것은 아니며 자가 의도하

지 않았거나 미리 방이 가능한 표 의심 형태가 존재

할 수 있다. 따라서 기술문서 작성자가 문서를 출 하기

에 미리 해당 문서와 유사한 내용을 기 발표한 문서

들을 내용기반 검색 방법으로 검출하고 이들을 포함하

는 유사 문서의 서지정보들을 모아서 참고문헌 목록을

작성하고 한, 문서의 해당 부분에는 참고문헌에 한

인용부호를 부착하도록 지원할 수 있는 서비스가 필요

하다. 이러한 서비스를 기술문서 작성자에게 제공함으로

써 불필요한 표 의혹 표 문제 자체를 사 에 방

지하도록 지원할 수 있다.

이러한 서비스를 제공하기 해서는 기존의 표 탐색

시스템들 보다 오히려 어문 작물의 출 서지정보

리 참고문헌 정리를 하여 사용되는 서지정보

리 로그램(Bibliographic Management Software)들

이 더 합하다. 서지정보 리 로그램이란 “연구자들

이 다양한 참고자료를 편리하게 리하고 기술문서 작

성 시 요구된 양식에 맞게 인용 참고문헌을 작성할

수 있도록 도와주는 로그램”이다[12]. 표 인 서지

정보 리 로그램으로는 RefWorks, EndNote 등이

존재한다. 그러나 이러한 서지정보 리 로그램들은

사용자가 직 참고문헌 목록에 들어갈 데이터베이스를

마련해야 하고, 작성 인 문서에서 참고문헌을 인용해

야할 부분이 어디인지 작성자가 정확히 알고 그 부분을

직 지정하여 인용부호를 부착해야만 한다는 불편함이

존재하며 이 로그램을 이용하는 경우에도 자가 인

식하지 못하는 사이 발생하게 된 표 의 유형들은 방

할 수 없다는 단 이 있다.

따라서 본 논문에서는 와 같은 문제 을 해결하고

자 참고문헌 인용부호 자동부착 지원 서비스를 제안하

고 이를 제공하기 한 로토타입 시스템을 개발한다.

참고문헌 인용부호 자동부착 지원 서비스의 이용자는

작성 인 문서의 간단한 구성 정보와 함께 해당 문서를

시스템에 업로드 한다. 서비스 지원 시스템은 문서의 단

락구성정보를 이용하여 문서의 문장을 서론 련연

구 부분과 본론 결론 부분으로 구분하고 온라인 표

탐색 시스템[13]을 이용하여 기존 문서의 문장들과 유

사성을 단한다. 일반 으로 기술 논문을 작성할 때,

서론 련연구 부분에서는 다른 문서의 내용을 참고

인용하여 논리를 개하며, 본론 결론 부분에서는

자의 제안 내용 실험에 해서 설명하기 때문에 다

른 문서의 내용을 인용하는 것이 일반 이지 않다. 따라

서 서론 련 연구 부분의 문장에 해서는 낮은 기

으로 유사성을 단하여 유사한 내용을 포함한 문서

를 참고문헌 목록에 포함시키고 이에 한 인용을 극

으로 부착할 수 있도록 지원한다. 한, 본론 결론

부분의 문장에 해서는 높은 기 으로 유사성을 단

하여 해당 문장의 인용에 해서 재차 검증할 수 있도

록 지원한다. 즉, 서론 련연구 부분의 검출 문장에

해서는 참고문헌 인용부호를 부착하고 유사한 원본문

서의 서지정보를 다양한 참고문헌 목록의 형식 에 사

용자가 선택해서 사용할 수 있도록 제공한다. 이와 달리

본론 결론 부분은 표 의심이 되는 원본문서의 문

장들과 그 유사도 수치를 제공한다. 이처럼 본 연구에서

는 기술 논문 작성 단계에서 논문 작성자가 편리하게

참고문헌목록을 작성할 수 있도록 하고 나아가 자가

인식하지 못하거나 의도하지 않은 표 이 발생하지 않

도록 지원하는 서비스를 제안한다.

본 논문의 구성은 다음과 같다. 2 에서는 련연구로

서 먼 서지정보 리 인용부호 부착을 지원하는

기존 서지정보 리 로그램을 소개한다. 한, 상문

서와 유사한 원본문서를 자동으로 탐색하고 원본문서

내 유사부분을 자동으로 검출해 낼 수 있으며 단순 복

제 유형뿐이 아니라 의역, 문장구조 변경 등의 지능

표 유형까지도 검출이 가능한 기존 표 탐색시스템

해 소개한다. 이어 3 에서는 이를 기반으로 한 참고

문헌 인용부호 자동부착 지원 시스템의 시스템 구조

온라인 서비스를 한 모듈 구성에 해서 자세하게 설

명한다. 마지막으로 본 논문의 결론 향후 연구에

해서는 4 에서 기술한다.

2. 련연구

2.1 서지정보 리 로그램

서지정보 리 로그램은 기본 으로 논문의 자들

이 논문의 작성 시 자신들이 구성한 인용 참고문헌

데이터베이스를 기 로 하여 논문양식에 맞는 한

참고문헌 목록을 작성할 수 있도록 도와주고 자가 지

정하는 부분에 인용부호를 부착시킬 수 있도록 하여 논

문 작성을 도와주는 로그램을 의미한다. 이러한 서지

Page 3: (Development of Automatic Reference-Citation-Mark ...kiise.or.kr/e_journal/2015/10/KTCP/pdf/01.pdf표절검출은 불가능하다[13,14]. 이러한 단점들을 해결하 고자 본

참고문헌 인용부호 자동부착 지원 시스템 개발 625

그림 1 온라인 표 문서 탐색 시스템의 구조

Fig. 1 Architecture of online plagiarism-detection system

정보 리 로그램은 각 제품별로 다양한 특징들과 장

들이 존재하나 기본 으로는 다음과 같은 공통 인

특징들을 가지고 있다[14].

∙인터넷을 통해 도서 DB 는 학술정보 검색포털

DB에 근하여 해당 DB내의 원문 그 서지정보를

수집할 수 있다.

∙이용자가 직 련 유사 문서를 선택하여 작성 인

문서 내에서 지정하는 부분에 인용부호를 부착할 수

있도록 지원하며 련 유사 문서들의 서지정보를 모

아 원하는 참고문헌 목록 형식으로 작성할 수 있도록

지원한다.

재 상용화 되어있는 서지정보 리 로그램 에

서 표 인 것으로는 EndNote와 RefWorks가 있다.

[15,16] EndNote는 개인용 컴퓨터에 설치하여 사용하는

독립(Stand-Alone) 시스템 형태의 로그램으로 사용하

기 때문에 별도의 라이 러리 일을 리해야 한다.

한 온라인 웹서비스가 지원되지 않아 근성이 떨어진

다는 단 이 있다. 그러나 그 기능은 강력하여 서지, 원

문 리와 Word 내 인용삽입기능, 시스템 안정성 등의

측면에 있어서는 다른 소 트웨어에 비해 월등히 우수

하다[15]. RefWorks는 온라인 웹 서비스 기반의 로그

램으로 별도의 설치과정 없이 사용할 수 있어 간편하고

별도의 라이 러리를 따로 개인용 컴퓨터에 리할 필

요가 없으며 여러 사람들이 동시에 공유하는 로젝트

에 합하다는 장 이 있다. 한 Word는 물론 HWP

에도 인용삽입기능이 연동되어 한 을 주로 사용하는

자의 경우에도 쉽게 인용정보 리를 할 수 있다는 장

이 있다. 다만 웹 기반 서비스의 특성상 기능이 간략

하고 사용자 개개인을 한 개인옵션기능이 부족하다는

단 이 있다[16].

이처럼 기존 서지정보 리 로그램은 참고문헌 라

이 러리 DB를 사용자가 직 구성해야한다는 , 인용

부호를 넣고자 하는 부분을 자가 직 지정해야 한다

는 등을 토 로 볼 때 자가 인식하지 못하는 사이

발생하게 된 표 의 유형들의 방하기에는 부족하다.

2.2 온라인 표 문서 탐색 시스템

기존의 표 문서 탐색 시스템들의 부분은 스트링 매

칭, 청크(Chunk)패턴 매칭, 해쉬코드 매칭, N-gram방식

등의 알고리즘을 이용하여 만들어졌기에 동일 문장 는

일정 개수 이상으로 연속되는 동일 청크들이 존재해야만

표 정이 가능하며 단어치환에 의한 의역, 문장구조

의 도치, 문장의 과도한 축약 등과 같은 지능 유형의

표 검출은 불가능하다[13,14]. 이러한 단 들을 해결하

고자 본 연구 에서는 그림 1과 같은 구조를 가지는 유

의어 사 기반의 표 문서 탐색 시스템을 개발하고 이

를 온라인 상에서 서비스 가능하도록 하 다[13].

본 시스템은 3단계( 처리단계, 유사문서 필터링단계,

유사문서 내 문장과 검사 상 문서 내 문장 간의 유사

도검사 단계)로 처리된다. 이 시스템을 통하여 복제형

표 은 물론이고 유의어 치환을 통한 의역, 문장구조의

도치 등의 지능 형태의 표 도 검출해 낼 수 있으며

다단계의 필터링을 통하여 량의 문서 군에 하여 신

Page 4: (Development of Automatic Reference-Citation-Mark ...kiise.or.kr/e_journal/2015/10/KTCP/pdf/01.pdf표절검출은 불가능하다[13,14]. 이러한 단점들을 해결하 고자 본

626 정보과학회 컴퓨 의 실제 논문지 제 21 권 제 10 호(2015. 10)

그림 3 문서 단락 정보 일 입력 화면

Fig. 3 Input screen for a document and its logical structural information

속하게 검사가 가능함을 확인하 다[13]. 한 각 처리

단계의 결과들을 이용하여 본 시스템은 이용자가 입력

한 검사 상문서와 어떤 문서가 유사한지는 물론 그 문

서들의 어느 부분이 검사 상 문서의 특정부분과 유사

한지까지도 제시할 수 있도록 하 다. 한 온라인 기반

으로 서비스를 제공하여 다수의 이용자 각자가 본인의

검사문서 기록과 그 검사결과를 독립 으로 리, 유지

할 수 있도록 하여 이용자가 언제든지 과거 본인의 검

사기록에 근, 확인할 수 있도록 하 다. 그러나 본 시

스템도 표 탐색 시스템 자체의 본질에 따라 이미 문

서에 존재하는 표 의심 부분을 검출해 주고 이에 한

세부정보를 제공하는 것이 부 다. 따라서 자를 도

와 표 을 방하고 좀 더 쉽게 논문을 작성할 수 있도

록 보조하는 측면에서 보자면 한계가 있다.

따라서 본 논문에서는 기술문서 작성자가 실수로 미

처 인식하지 못한 는 애 에 알 수 없었던 부분에 의

한 표 까지도 방할 수 있도록 자가 술한 논문의

표 의심 문장 부분을 자동으로 찾아주고 그 유사한 원

본문서의 목록을 자동으로 참고문헌 양식으로 구성해주

며 나아가 표 의심 상문장 뒤에 해당 참고문헌의

인용부호를 자동으로 부착 가능하도록 지원해주는 시스

템을 제안하여 본 연구 의 온라인 문서 표 탐색 시스

템이 가진 약 을 보완하고 논문 는 어문 작물의

자에게 논문 술 과정에 편의성을 제공하려 한다.

3. 참고문헌 인용부호 자동부착 지원시스템

본 에서는 기술 논문 작성자의 문서 작성을 지원하고

선의의 표 을 방하기 한 참고문헌 인용부호 자동부착

지원 시스템에 하여 기술하고 그 실시 를 설명한다.

그림 2 참고문헌 인용부호 자동부착 지원 시스템의 구조

Fig. 2 Architecture of reference-citation-mark-attachment

support system

본 시스템은 그림 2에서 보는 바와 같이 [13]의 온라

인 표 문서 탐색 시스템을 기반으로 이루어진다. 다만

본 시스템이 제공하는 서비스가 참고문헌 인용부호 자

동부착 지원인 만큼 차이가 존재한다. 서비스 이용자는

다음과 같은 단계를 통하여 서비스를 이용할 수 있다.

∙서비스 이용자는 자신이 검사 받기를 원하는 문서를

그림 3의 입력 페이지를 통하여 시스템에 업로드 하고

해당 논문의 단락구성 참고 문헌 인용의 가능성이

낮은 본론 결론 부분을 구분하여 시스템에 달한다.

∙해당 문서와 사용자가 입력한 문서의 단락 구성 정보

를 처리 단계(pre-processing)로 달하며 시스템은

처리 단계에서 그림 4와 같이 문서에 한 정보를

분석하여 데이터베이스에 장한다. 장되는 정보는

Page 5: (Development of Automatic Reference-Citation-Mark ...kiise.or.kr/e_journal/2015/10/KTCP/pdf/01.pdf표절검출은 불가능하다[13,14]. 이러한 단점들을 해결하 고자 본

참고문헌 인용부호 자동부착 지원 시스템 개발 627

그림 5 참고문헌 인용부호 자동 부착 지원 서비스

Fig. 5 Automatic reference-citation-mark attachment service

그림 4 처리 단계의 흐름도

Fig. 4 Flowchart of pre-processing phase

문서를 구성하는 문장, 문단, 그리고 단락 정보 등으로

이루어진다. 그림 4에서와 같이 본 서비스의 기능들은

문서의 목차 구성을 알 수 있어야 기능 구 이 가능하

다. 이를 해서는 문서의 텍스트 자체뿐 아니라 문서

에서 사용하고 있는 폰트 정보와 페이지 치 등 까지

도 이용함으로써 본문과 다른 형태로 쓰여 있는 단락

제목을 기 으로 단락을 구분하여 서론 련연구

부분과 본론 결론 부분을 정확하게 구분할 수 있다.

그에 따라 본 시스템은 기존 [13]의 시스템 코어에서

사용하던 Tika 라이 러리 신에 PDFtextstream

[17]을 이용하여 기존 시스템에서는 구할 수 없었던

텍스트의 폰트 정보나 문장이 치한 페이지 번호, 페

이지 내의 문단번호 등을 추출하 다.

∙ 처리 단계에서 구축된 DB를 이용하여 검사 상 문

서와 내부 데이터베이스에서 리하고 있는 원본문서

들 간의 유사도 검사를 실시한다. 이때 사용되는 데이

터베이스내의 원본문서는 표 탐색시스템의 기 사용

자들에 의해 업로드 된 원본문서와 리자에 의해 학

술정보 DB등에서 모아진 원본문서들로 이루어진다.

∙유사도 검사는 문장단 로 이루어지며 해당 문장의 단

락 치에 따라 서로 다른 유사도검사 문턱치를 가지고

검사를 수행한다. 해당 문장이 서론 련연구 부분

에 치하고 있는 경우에는 상 으로 낮은 문턱치

(문장 간 유사도 : 68%)를 설정하여 당한 수의 인용

문헌을 제공 할 수 있도록 하고 본론 결론 부분에

치하고 있는 경우에는 기존 [18]과 동일한 문턱치(문

장 간 유사도 : 78%)를 설정하여 정확한 표 여부의

검사를 수행할 수 있도록 한다. 이러한 문턱치 값들은

필요에 따라 다른 기 으로 변경할 수 있다.

∙유사도 검사가 완료되면 시스템은 검사 상문서의 단

락 정보에 따라서 서로 다른 형태의 결과를 제공한다.

서론 련연구 부분의 문장에 해서는 그림 5에서

와 같이 원본문서의 유사부분과 함께 해당 원본문서에

한 서지정보를 제공하고 이 게 제공된 원본문서들

의 목록을 기본 참고문헌양식으로 제공한다. 이때 제공

되는 참고문헌 목록의 양식은 사용자가 제출할 학회에

따라 선택 할 수 있도록 여러 가지 유형으로 제공하도

록 한다. 이와 달리 본론 결론 부분은 아래 그림 6

과 같이 원본문서와의 유사부분과 함께 해당 원본문서

들에 한 기본 정보(문서명 등)와 유사도 값 등을

제공한다.

이 게 실시된 유사도 검사를 통하여 이용자는 검사

문서 내 서론 련연구 부분에선 원본문서와 유사하

여 인용부호가 필요한 검사문서 상의 구간에 한 정보

와 해당 원본문서의 서지정보를 얻을 수 있고 본론

결론 부분에선 원본문서와 유사하여 표 로 의심될 수

있는 검사문서 상의 구간에 한 정보와 그 유사도, 그

리고 원본문서의 간략한 정보들을 자동으로 얻을 수 있다.

Page 6: (Development of Automatic Reference-Citation-Mark ...kiise.or.kr/e_journal/2015/10/KTCP/pdf/01.pdf표절검출은 불가능하다[13,14]. 이러한 단점들을 해결하 고자 본

628 정보과학회 컴퓨 의 실제 논문지 제 21 권 제 10 호(2015. 10)

그림 6 유사도 검사 서비스

Fig. 6 Plagiarism-detection service

그림 7 온라인 서비스 구성 흐름도

Fig. 7 Online-service architecture and flowchart

이를 통해 이용자는 자신이 의도하지 않았거나 인지

하지 못했던 타 문서와의 유사구간들을 제안한 시스템

을 통하여 자동 으로 확인하고 수정할 수 있어 향후

발생할 수 있는 표 의혹들을 선제 으로 방하는 효

과를 거둘 수 있다.

한 이용자는 술한 유사도검사를 통하여 검출된

문서들의 목록을 그림 7과 같은 구성 흐름을 가지는

온라인 서비스를 통하여 제공받을 수 있으며 그 상세한

기능은 다음과 같다.

∙유사도 검사의 결과로서 검출된 검사 상문서 내의 문

장들에 한 모든 유사문서들의 서지정보를 목록화 하

여 웹페이지 상에서 확인할 수 있도록 지원 하는 기능

∙유사도 검사의 결과로서 검출된 검사 상문서 내의

문장들에 한 유사문서들 이용자가 원하는 문서들

을 목록화 하여 자동으로 참고문헌 목록에 포함시키고

해당 참고문헌에 한 인용부호를 각각의 문장들에 부

착시키는 기능

∙유사도 검사의 결과로서 검출된 검사문서 내의 문장들

의 정보와 그에 한 모든 유사문서들의 서지정보를

제공하여 검사문서 내 문장들에 참고문헌에 한

인용부호를 부착 할 수 있도록 지원하기 해 사용할

수 있는 응용 로그램 인터페이스(API : Application

Program Interface)를 제공하는 기능

이와 같은 기능들을 통하여 이용자는 그림 8의 시와

같이 유사도 검사의 결과로서 검출된 유사문서들의 목록

을 참고문헌 양식으로 제공 받을 수 있도록 하되 그 제

공되는 형태를 다양화 하여 사용자가 자신이 사용할 양

식에 맞는 참고문헌 목록의 형태를 선택 할 수 있도록

하 다. 한 더 나아가 해당 목록을 그림 9의 시와 같

이 문서에 삽입할 수도 있도록 서비스를 제공한다.

한 이용자는 유사도 검사와 별개로 원본문서 DB에

구축되어 있는 원본문서들의 서지정보를 검색하여 그

결과를 확인 이용 할 수 있는 기능도 제공한다. 이를

통해 이용자는 논문 작성 에도 원본문서 데이터베이

스를 통해 손쉽게 작성할 논문에 련된 문서들의 원문

서지정보를 얻을 수 있다.

Page 7: (Development of Automatic Reference-Citation-Mark ...kiise.or.kr/e_journal/2015/10/KTCP/pdf/01.pdf표절검출은 불가능하다[13,14]. 이러한 단점들을 해결하 고자 본

참고문헌 인용부호 자동부착 지원 시스템 개발 629

그림 8 선택한 참고문헌 목록 양식으로 정리된 참고문헌 목록 화면

Fig. 8 Bibliography screen provided in the selected format

그림 9 참고문헌 목록 다운로드

Fig. 9 Downloaded bibliography

표 1 기존 표 문서 탐색 시스템과 참고문헌 인용부호 자동부착 지원시스템의 기능 비교

Table 1 Functional comparison between online plagiarism-detection system and automatic reference-citation-mark

attachment system

본 연구에서 개발한 참고문헌 인용부호 자동부착 지

원 시스템과 기존의 온라인 표 탐색 시스템([13])과의

기능 구 요소의 차이를 정리하면 표 1과 같다.

표 1에서 볼 수 있는 것처럼 기존[13]의 표 문서 탐

색시스템에서는 표 탐색을 한 처리 단계에서 입력

문서로부터 문단, 그리고 문단으로부터 구성 단어만을

구분하면 되기에 이를 제공할 수 있는 Apache TIKA[19]

만으로 충분하 다. 그러나 참고문헌 인용부호 자동부착

지원시스템의 처리 단계에서는 입력문서로부터 각 단

어의 출 치까지 악해야하기 때문에 문장의 치를

상세하게 인식 가능한 PDFtextstream[17]을 채택하여

사용하 다. 한, [13]의 기존 시스템에서는 문장의 출

치와 계없이 동일한 문턱치를 용하여 문장 간

유사도 검사를 수행하 으나 본 연구에서 개발한 시스템

에서는 문장의 문서 내 출 치별로 다른 서비스를 제

공하기 하여 서로 다른 유사도 검사 문턱치를 용하

다. 서론 련연구 부분의 출 문장에 해서는

기존 연구와 같이 68%의 기 값으로 유사 문장을 검출

하여 이에 해 인용부호 자동부착지원 서비스 참고

문헌 목록지원 서비스를 제공하고, 본론 결론 부분에

출 한 문장에 해서는 더 높은 기 값(78%)으로 유

사 문장을 검출하여 기술문서 작성자에게 표 여부를 방

지하기 한 사 확인을 할 수 있도록 지원하는 유사도

검사 서비스를 제공할 수 있다는 특징을 지닌다.

4. 결론 향후연구

본 연구에서는 기존의 유의어 사 기반의 표 문서

탐색시스템을 기반으로 하는 참고문헌 인용부호 자동부

착 지원시스템을 제안하 다. 한 제안된 시스템을 기

반으로 하여 웹기반 시범 서비스 모델을 설계하고 이를

실화하기 한 로토타입 시스템을 개발하 다. 이

시스템은 기존 표 탐색 시스템이 제공하고 있던 단순

한 표 검사 기능뿐 아니라 문서 내 표 구간까지 확

인할 수 있는 기능, 각 구간마다 검출된 유사문서의 서

지정보를 제공하는 기능, 제공된 문서들의 서지정보를

참고문헌 양식으로 목록화 하는 기능, 참고문헌 목록을

문서내로 복사할 수 있도록 삽입해 주는 기능, 표 검사

와 별도로 DB에 장되어 있는 원본문서들의 서지정보

Page 8: (Development of Automatic Reference-Citation-Mark ...kiise.or.kr/e_journal/2015/10/KTCP/pdf/01.pdf표절검출은 불가능하다[13,14]. 이러한 단점들을 해결하 고자 본

630 정보과학회 컴퓨 의 실제 논문지 제 21 권 제 10 호(2015. 10)

를 검색 할 수 있도록 하는 기능 등 온라인 서비스에서

사용될 다양한 기능들을 지원한다. 이를 통하여 자는

기술문서 작성자가 미처 인식하지 못한 표 부분을 자

동으로 찾아내고 이를 선제 으로 방할 수 있음은 물

론 제공되는 다양한 기능들을 통하여 논문 술에 편리

성을 확보할 수 있을 것이라 기 한다.

향후 연구로는 재 구 되어있는 문서에 한 참고

문헌 인용부호 자동부착 지원 뿐 아니라 HWP 등과 같

은 문서 일 는 PDF 문서에도 참고문헌 인용부호를

자동으로 부착할 수 있도록 하는 기능 는 그 기능을

지원 할 수 있도록 하는 방법 API의 제공을 진행할

정이다.

References

[ 1 ] Korea Higher Education Research Institute, "Pla-

giarism controversy of office candidate, University

how long stay with their mouth closed," 2014. (in

Korean)

[ 2 ] Jonathan Martin, "Senator’s Thesis Turns Out to

Be Remix of Others’ Works, Uncited," The New

York Times, 2014.

[ 3 ] National Research Council for Economics, Huma-

nities and Social Sciences, "Criteria of Research

Ethics and casebook," 2013. (in Korean)

[ 4 ] Ministry of Education, and National Research Foun-

dation of Korea, "Plagiarism guidelines," 2008. (in

Korean)

[ 5 ] The Korean Federation of Science and Technology

Societies, "The Korean Federation of Science and

Technology Societies Research Ethics Guidelines,"

2010. (in Korean)

[ 6 ] Seoul National University, "Seoul National University

Research Ethics Guidelines," 2010. (in Korean)

[ 7 ] Muhayu Corp., "COPYKILLER," [Online], Available:

https://www.copykiller.co.kr/

[ 8 ] Wizenut, "WISEReferee," [Online], Available: http://

www.wisenut.com/bigdata/wise-referee/

[ 9 ] Konan technology, "MemeChecker," [Online], Avail-

able: http://www.konantech.com/?products=ko nan-

memechecker

[10] iParadigms, "Turnitin," [Online], Available: http://

turnitin.com/ko/

[11] J. Y. Yi, "There may be plagiarism and better

Tweezers Solutions," bloter.net, [Online], Available:

http://www.bloter.net/archives/152118, 2013.

[12] Korea Research Institute for Library and Information,

"Commentary of Library Glossary," Vol. 47, 2009.

(in Korean)

[13] K. H. Song, J. H. Min, G. Y. Lee, and Y. S. Kim,

"Development of an Online Document Plagiarism

Detection System," Database Research, Vol. 30, No. 3,

pp. 13-23, 2014. (in Korean)

[14] K. I. Lee, "Uses of Paper Management Program,"

The Journal of the Korean Academy of Family Me-

dicine, Vol. 24, No. 4, pp. 518-520, 2005. (in Korean)

[15] RefWorks, [Online], Available: https://www.refwork

s.com/kr/

[16] EndNote, [Online], Available: http://www.endnote.com/

[17] PDFtextstream, [Online], Available https://www.sno

wtide.com/

[18] J. H. Min, K. H. Song, and Y. S. Kim, "Exploring

effective thresholds for massive document plagi-

arism detection system," Proceeding of Korean

Society for Bigdata Service Winter Conference, pp. 1-4,

2015. (in Korean)

[19] Apache TIKA, [Online], Available http://tika.apache.

org

송 호

2015년 인하 학교 정보통신공학과 학사

2015년~ 재 인하 학교 정보통신공학

과 석사과정. 심분야는 데이터베이스,

작권법, 빅데이터

민 지 홍

2015년 인하 학교 정보통신공학과 학사

2015년~ 재 인하 학교 정보통신공학

과 석사과정. 심분야는 빅데이터, 데이

터베이스

김 유 성

1986년 인하 학교 자계산학과 학사

1988년 한국과학기술원 산학과 석사

1992년 한국과학기술원 산학과 박사

1992년~ 재 인하 학교 정보통신공학

과 교수. 심분야는 멀티미디어 마이닝,

빅 데이터, 지능형 비디오 감시 시스템