13
882 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 (2013.12) 2013년도 학생논문 경진대회 수상작 신어를 찾아내고 의미를 기술하여 관리하는 신어 조사용 프로그램의 설계 및 구현 (Design and Implementation of Meaning Collecting Tool for New Words) 김동의 이상곤 †† (Dongeui Kim) (Samuel Sangkon Lee) 본 논문에서는 웹에 실시간으로 등록되는 언론 기사를 수집하는 웹 에이전트를 개발하여 텍스 트를 추출하고, 어휘 분석을 통하여 어미/조사를 자동으로 제거하고, 국어사전에 등록된 표제어를 제외하 여 새롭게 생성된 신조어의 추출 작업을 도와주는 도구를 제작한다. 본 프로그램은 웹 에이젼트를 개발하 여 주요 인터넷 포털 사이트인 네이버의 언론사별 뉴스 사이트에서 규칙적인 URL 패턴을 발견하고 자동 으로 뉴스 기사를 수집한다. 이를 통해 HTML 소스를 분석하여 언론 기사만을 추출하고 국어 전공자가 자신의 국어 지식을 토대로 신어(새로 생성된 말 혹은 신(), New Word)를 찾아내 그 단어가 사용된 용례를 참고하여 새롭게 생성된 신어의 의미를 기술하고 이를 검색 엔진 시스템의 내부에 준비해 두고 있 다가 고객의 검색 요구에 따라 새로 생성된 신어의 의미를 국민들에게 대민 서비스하는데 그 목적이 있다. 키워드: 신어, HTML 문서 분석, 한국어 어휘 분석, 지식베이스, 신어 처리기, 정보 검색 Abstract In this paper, we implement a web agent which is to extract texts and to gather for news articles. To find a correct meaning of a new word, we design a text lexical analysis tool which is helpful to a user for the work of a new word finding after eliminating headwords (or dictionary entries), that is in a Korean language dictionary. We collect some structured URL patterns in news web sites of Internet portal site Naver and also collect news text after the HTML source code analysis. When a Korean language expert is try to find a new word with his/her Korean knowledge, our system will take the usage of a new word through examples for a language expert to make a semantic description. The result that is a ready to show in a searching engine of the system is helpful for the understanding of a new word, and we suggest to meet user's demand with a proper semantic meaning for a new word. Keywords: New Words, Document Analysis for HTML, Lexical Analysis for Korean, Knowledge Base, Detecting Tool for New Word, Information Retrieval †† 학생회원 종신회원 논문접수 심사완료 : : : : 전주대학교 컴퓨터공학과 [email protected] 전주대학교 컴퓨터공학과 교수 [email protected] (Corresponding author) 201352720131028Copyright2013 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작 물의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처 를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든 유형의 사용행위를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야 합니다. 정보과학회논문지: 소프트웨어 및 응용 제40권 제12(2013.12) 1. 서 론 하루가 다르게 사회가 변하고, 지식의 폭발적인 증가 로 인해 한국어의 지식 생성과 관리의 새로운 국가적인 기획이 절실히 필요한 때이다[1]. 현대는 문화의 다양화 가 급격하게 이루어짐에 따라 인터넷에 새로운 개념이 나 문물이 계속하여 유입되고 새로운 제도도 생기고 있 . 또한 토착 지식의 관리 미비로 인해 표준어 규범의 외연에 있는 생활 어휘의 수집과 관리 강화가 필요하다. 이에 따라 전에 없던 개념이나 사물을 표현하기 위해 새로운 말(새말)도 생겨나게 된다. 외국으로부터 들어오

신어를 찾아내고 의미를 기술하여 관리하는 신어 조사용 프로그램의 …kiise.or.kr/e_journal/2013/12/sa/pdf/15.pdf · 2mb, 반쥐원정대, 강부자, 고소영

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • 882 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12)

    ■ 2013년도 학생논문 경진대회 수상작

    신어를 찾아내고 의미를 기술하여 관리하는 신어 조사용 프로그램의 설계 및 구현

    (Design and Implementation of

    Meaning Collecting Tool for New Words)

    김 동 의 † 이 상 곤 ††

    (Dongeui Kim) (Samuel Sangkon Lee)

    요 약 본 논문에서는 웹에 실시간으로 등록되는 언론 기사를 수집하는 웹 에이전트를 개발하여 텍스

    트를 추출하고, 어휘 분석을 통하여 어미/조사를 자동으로 제거하고, 국어사전에 등록된 표제어를 제외하

    여 새롭게 생성된 신조어의 추출 작업을 도와주는 도구를 제작한다. 본 프로그램은 웹 에이젼트를 개발하

    여 주요 인터넷 포털 사이트인 네이버의 언론사별 뉴스 사이트에서 규칙적인 URL 패턴을 발견하고 자동

    으로 뉴스 기사를 수집한다. 이를 통해 HTML 소스를 분석하여 언론 기사만을 추출하고 국어 전공자가

    자신의 국어 지식을 토대로 신어(새로 생성된 말 혹은 신(조)어, New Word)를 찾아내 그 단어가 사용된

    용례를 참고하여 새롭게 생성된 신어의 의미를 기술하고 이를 검색 엔진 시스템의 내부에 준비해 두고 있

    다가 고객의 검색 요구에 따라 새로 생성된 신어의 의미를 국민들에게 대민 서비스하는데 그 목적이 있다.

    키워드: 신어, HTML 문서 분석, 한국어 어휘 분석, 지식베이스, 신어 처리기, 정보 검색

    Abstract In this paper, we implement a web agent which is to extract texts and to gather for

    news articles. To find a correct meaning of a new word, we design a text lexical analysis tool which

    is helpful to a user for the work of a new word finding after eliminating headwords (or dictionary

    entries), that is in a Korean language dictionary. We collect some structured URL patterns in news

    web sites of Internet portal site ― Naver and also collect news text after the HTML source code

    analysis. When a Korean language expert is try to find a new word with his/her Korean knowledge,

    our system will take the usage of a new word through examples for a language expert to make a

    semantic description. The result ― that is a ready to show in a searching engine ― of the system

    is helpful for the understanding of a new word, and we suggest to meet user's demand with a proper

    semantic meaning for a new word.

    Keywords: New Words, Document Analysis for HTML, Lexical Analysis for Korean, Knowledge

    Base, Detecting Tool for New Word, Information Retrieval

    ††

    학생회원

    종신회원

    논문접수

    심사완료

    :

    :

    :

    :

    전주대학교 컴퓨터공학과

    [email protected]

    전주대학교 컴퓨터공학과 교수

    [email protected]

    (Corresponding author임)

    2013년 5월 27일

    2013년 10월 28일

    CopyrightⒸ2013 한국정보과학회ː개인 목적이나 교육 목적인 경우, 이 저작

    물의 전체 또는 일부에 대한 복사본 혹은 디지털 사본의 제작을 허가합니다.

    이 때, 사본은 상업적 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처

    를 반드시 명시해야 합니다. 이 외의 목적으로 복제, 배포, 출판, 전송 등 모든

    유형의 사용행위를 하는 경우에 대하여는 사전에 허가를 얻고 비용을 지불해야

    합니다.

    정보과학회논문지: 소프트웨어 및 응용 제40권 제12호(2013.12)

    1. 서 론

    하루가 다르게 사회가 변하고, 지식의 폭발적인 증가

    로 인해 한국어의 지식 생성과 관리의 새로운 국가적인

    기획이 절실히 필요한 때이다[1]. 현대는 문화의 다양화

    가 급격하게 이루어짐에 따라 인터넷에 새로운 개념이

    나 문물이 계속하여 유입되고 새로운 제도도 생기고 있

    다. 또한 토착 지식의 관리 미비로 인해 표준어 규범의

    외연에 있는 생활 어휘의 수집과 관리 강화가 필요하다.

    이에 따라 전에 없던 개념이나 사물을 표현하기 위해

    새로운 말(새말)도 생겨나게 된다. 외국으로부터 들어오

  • 신어를 찾아내고 의미를 기술하여 관리하는 신어 조사용 프로그램의 설계 및 구현 883

    는 전문(학술) 지식의 증대로 인해 국민들이 금융, I(C)T

    (Information (Communication) Technology, 정보 통신

    기술) / BT (Biotechnology, 생물공학) / CT(Culture

    Technology, 문화 기술) / NT(Nano Technology, 나

    노 기술) / ST(Space Technology, 우주 항공 기술) 등

    관련 용어, 방송과 통신의 융합과 디지털 신기술 용어에

    대한 이해도가 낮아져 국민들의 의사소통이 불편해지고

    있는 실정이다. 이를 위해 실용 국어의 시대를 지향할

    적극적인 사전(辭典) 정보의 국가적인 종합 지원이 필요

    하다. 또한 새로운 직종과 첨단 학문이 도입되면서, 이

    를 표현하고자 하는 전문적인 성격을 띤 새로운 말들,

    즉 신어(新語)1) 혹은 신조어(新造語)2), 전문(용)어(專門

    用語)들이 대량으로 생겨나고 있으며, 새로운 개념의 외

    국어 음차 표기 방법이 폭증하고 있다. 언어는 사회의

    변화를 가장 민감하고 빠르게 드러내 보여 주는 것이다.

    오늘날처럼 신어가 기하급수적으로 늘어가는 것은 우리

    사회가 그만큼 급속하게 변화하고 있음을 뜻한다[2]. 그

    러나 모든 신어가 그대로 굳어 오랫동안 통용되는 것은

    아니다. 어떤 말들은 온라인상에 일시적으로 출현하여

    사용되다 사라지기도 하고, 어떤 말들은 아주 오랫동안

    살아남아 국어사전에 실리기도 한다. 본 논문에서는 언

    론 기사에 나타난 신어를 발견하기 위해 그 용례를 찾

    아내서 시스템에 저장하여 두고 그 의미를 기술하는 사

    람에게 용례를 보여주어 의미 기술에 도움을 주는 시스

    템을 설계하였다. 이를 통해 국민들에게 새로운 단어의

    의미 지식을 서비스 하고자 한다. 이를 통해 구축된 언

    어 지식을 통합적으로 관리하여 국민들에게 지식 서비

    스를 하고자 한다.

    신어 생성의 이유는 신어의 개념에서 어느 정도 설명

    될 수 있는데, 신어는 청소년들의 채팅 용어에서 주로

    비롯되어 과거 통신체 줄여쓰기 방식이나 오타에서 비

    롯되는 경우도 있다. 또한 신어는 시대상과 사회 분위기

    를 반영하기도 한다. 특히, 리만브라더스, 버락스타,

    2MB, 반쥐원정대, 강부자, 고소영 등과 같이 경제 상황

    이나 정치 풍자도 신어에 가미된다. 특히 신어는 세계적

    인 현상이다. 중국도 시대상을 반영하는 신조어들이 생

    겨난다. 주요 연구는 참고문헌 [3-5]를 들 수 있다. 특

    히 중국의 교육부와 국가언어위원회는 지난해 중국 사

    회에 등장한 신조어 254개를 공식 중국어로 채택하였다.

    1) 신어(신조어)란 (1) 새로운 개념이나 사물을 표현하기 위해 생긴 말,

    (2) 개념이나 사물은 존재하는데 명칭이 없는 경우에도 어휘 체계의 빈

    자리를 채우기 위해서 생긴 말, (3) 이미 있던 개념이나 사물일지라도

    그것을 표현하던 말들의 표현력이 감소됐을 때 그것을 보강하거나 신선

    한 새맛을 가진 말로 바꾸기 위한 대중적 욕구에 의해서 생긴 말, (4)

    국어 순화 운동의 일환으로 생긴 말이다.

    2) 국립국어원에서 편찬한 표준국어대사전에서는 신어와 신조어를 동의어

    로 취급하고 있다.

    이러한 예로, 난민쭈(방세를 못 내 길거리로 내몰리는

    사람들을 빗댄 말), 콰이난(꽃미남 열풍에 잘생긴 남자

    를 뜻하는 말) 등을 예로 들 수 있다. 일본에서도 매년

    유행어/신조어를 발표하고 있다. 예를 들어, 우에노 413

    구(우에노 우키코 선수가 북경올림픽 여자소프트볼에서

    이틀 동안 413구를 던졌다고 해서 생긴 말), 아라포(40

    세 전후라는 뜻으로 ‘아라사’와 더불어 패션 업계에서

    쓰이던 용어가 드라마를 통해 세간에 알려지게 됨) 등

    이 있다[6].

    현대는 신어가 크게 양산되는 사회이다. 신문 기사나

    방송 자막, 연예인들의 대화까지 신어를 모르면 소통이

    불가능할 지경이며, 방송에서도 신어가 양산(예: KBS

    올드 앤 뉴)되고 있다. 이러한 문제는 인터넷과 젊은 세

    대만의 문제가 아니다. 신어가 일상어처럼 쓰이는 현실

    에서 단어의 뜻을 정확히 알지 못하거나 심지어 다르게

    알고 있는 사람이 많다는 것, 또한 신구 세대 간의 원만

    한 의사소통을 어렵게 한다는 것은 큰 문제가 아닐 수

    없다. 따라서 신어를 조사하고 그 의미와 사용 영역, 용

    례 등을 정확히 밝혀 인터넷 포털 사이트에서 일반 국

    민의 원활한 의사소통을 지원한다는 측면에서도 신어

    조사 연구는 반드시 필요하며 꾸준히 연구되어야 한다.

    새로 생겨난 신어들은 기존의 국어사전에는 등재되지

    못한 상태이다. 따라서 신어들의 정확한 의미와 함께,

    그 신어가 사용되는 전문 영역별 검색, 신어가 사용된

    용례문의 수집과 시간적인 흐름 사이에서의 인터넷 포

    털 사이트의 통합 검색과 과거 어느 시점에서의 최초

    생성 시기, 그리고 그 신어가 현재까지 동일한 의미로

    계속 재사용되는지의 여부, 혹은 그 신어의 의미 변화나

    혹은 변이 과정 등 특정 신어에 대해 다양한 추적 정보

    의 시대적 제공, 신어의 유형 및 특징 파악, 사용 양상

    등이 체계적으로 정리되어야 한다. 이러한 작업은 한국

    어의 어휘를 풍부하게 만드는 것이며, 동시에 새로운 어

    휘들이 어떤 유형으로 결합되어 단어나 구의 형태로 새

    로운 의미를 형성하는지에 대해 객관적으로 기술하여

    국어 어휘론 연구에 중요한 기초 자료로 이용되어야 한

    다. 이와 같은 연구는 언어 변이 과정의 방향을 가늠하

    여 국어 정책[7]을 세우는데 기초 자료로 활용될 수 있

    다. 이러한 연구 지원을 우리나라의 대표적 포털 사이트

    인 네이버(NAVER)가 그 연구 결과를 선도하여 우리나

    라의 국어 지식을 미국 위키피디아와 같이 개방된 형태

    의 지식 서비스로 발전시켜야 한다.

    본 논문에서는 다음과 같은 방법으로 연구를 진행한

    다. 웹 에이전트를 통해 언론 기사를 사이트 별로 자동

    으로 수집한다. 국내의 유명 인터넷 포털 사이트인 네이

    버의 언론사별 뉴스 사이트와 방송사의 웹 사이트에서

    URL 패턴을 확인하여 원하는 년/월/일자 별로 원문 기

  • 884 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12)

    사를 수집하고, 신어 작업자의 컴퓨터에 체계적으로 저

    장한다. (원문 기사는 저작권 정보이므로 조사 후에는

    삭제한다.) URL과 HTML 소스 분석을 통하여 정규화

    되지 못한 HTML 소스에서도 특정 정보인 기사의 제

    목, 게시 날짜, 기사 내용 등을 수집한다. 이와 동시에

    기사의 해당 분야를 구분하여 원하는 카테고리별 폴더

    에 저장한 후에 간단한 어휘 분석을 하고, 사전 표제어

    와 기존에 조사한 신어(이 두 가지 작업을 ‘확장형 비교’

    라 지칭하자)를 비교하여 제거한다. 왜냐하면 사전 표제

    어와 기존에 조사한 신어는 반드시 새로운 신어가 될

    수 없기 때문이다. 기사를 구성하는 문장을 배열로 저장

    하여 불필요한 어미와 조사를 제거한다. 한국어의 특성

    을 잘 나타내 주는 조사와 어미는 일반 언어학의 측면

    에서는 중요한 정보를 제공하지만, 신어의 발견을 위한

    정보 처리 관점에서는 필요 없는 정보이다. 따라서 이

    정보를 제거하고 추출된 어절에서 (중복된 신어 조사가

    되지 않도록) 기존 신어와 이미 등록된 국어사전의 표

    제어를 자동으로 제거하고 새롭게 생성된 단어로 신어

    를 추가하여 신어 후보 단어를 조사한다.

    본 논문의 목표는 신문, 방송 등 대용량(추후 빅데이

    터가 될 수 있다)의 언론 자료를 분석하고 여기에 나타

    나는 신어를 조사하여 이를 정리하기 위한 목적으로 신

    (조)어 조사에 적합한 프로그램을 만드는 것이다. 국어

    를 전공한 연구자들이 대상 자료를 통해 수집된 후보어

    를 효율적으로 정리하고 원어, 전문영역, 뜻풀이, 용례

    등을 손쉽게 기술할 수 있도록 지원 도구를 제공한다.

    또한, 신어의 유형을 파악하고 그 특징을 분석하는 기초

    자료를 국어 연구자에게 제공하였다. 본 논문의 조사 도

    구를 통해 크게 두 가지의 부목표를 실현하고자 한다.

    하나는 신문, 방송 등 언론 자료에 나타나는 신어를 망

    라적으로 조사하는 것이고, 다른 하나는 새롭게 조사된

    신어들의 유형과 특징을 파악하는 것이다. 본 논문의 구

    성은 다음과 같다. 2장에서는 신어 수집을 위한 대상 자

    료에 대해 기술하고, 3장에서는 신어 연구의 조사 방법

    과 정보의 기술 내용을 제시하고, 4장에서는 신어 조사

    를 위해 구현한 신어 조사 프로그램에 대해 설명한다.

    마지막으로 5장은 결론 및 향후의 연구를 제시한다.

    2. 대상 자료

    본 논문에서 신어 혹은 신어 후보어를 조사하는 대상

    자료는 21개의 주요 신문사(스포츠 한국, 스포츠 투데

    이, 경향신문, 내일신문, 뉴시스, 문화일보, 세계일보, 조

    선일보, 쿠키 뉴스, 한국일보, YTN, 국민일보, 노컷 뉴

    스, 동아일보, 서울신문, 연합뉴스, 중앙일보, 한겨례, 일

    간 스포츠, 스포츠 서울, 스포츠 조선 등)와 3개의 방송

    사(KBS 9시 뉴스, MBC 뉴스 데스크, SBS 8시 뉴스

    표 1 자료 수집 대상이 되는 사이트

    Table 1 Site of Collections

    # Internet Portal Site(Naver), Major National Daily

    Newspaper, and Broadcasting News

    1 경향신문 24스포츠

    한국26

    KBS 9시

    뉴스

    2 내일신문 25스포츠

    투데이

    3 뉴시스

    4 문화일보 11 노컷 뉴스

    5 세계일보 12 동아일보 18 프레시안

    6 조선일보 13 서울신문 19 오마이 뉴스

    7 쿠키 뉴스 14 연합뉴스 20 MBC-TV

    8 한국일보 15 중앙일보 21 SBS-TV

    9 YTN 16 한겨례 22 스포츠 서울

    10 국민일보 17SBS

    8 뉴스23 스포츠 조선

    등), 그리고 2개의 인터넷 언론사(프레시안과 오마이 뉴

    스)에 나타난 기사들이다[8]. 이 기사들은 네이버 혹은

    다음과 같은 인터넷 포털 사이트에서 제공하는 언론사

    별 뉴스의 웹 사이트에서 수집할 수 있다. 단, 스포츠

    한국, 스포츠 투데이, KBS 9시 뉴스 등의 기사는 이 포

    털 사이트에서 제공하지 않아 웹 로봇을 별도로 제작하

    여 해당 사이트를 직접 방문하여 수집하였다(표 13)).

    수집 대상 자료의 1년분 전체 분량은 다음의 표 2와

    같다. 분야 수는 스포츠, 연애, 생활/문화, 사회, 정치,

    경제, 국제, IT/과학, 세계, 칼럼, 영문 등 4장의 표 3과

    같이 각 사이트에서 공통적으로 나눈 11개의 카테고리

    로 구분하였다.

    표 2 수집 자료의 1년분 분량

    Table 2 Amount of One Year for Collection

    Period of

    Collections

    2012년 1월 1일∼ 12월 31일

    (1 Year)

    Number of

    Capacity

    263 GByte, (Be Permitted of Duplication

    in Each Process)

    (각 처리 단계별 중복 허용)

    Number of

    Characters

    1,415,000,000,000

    Characters (Korean)

    Separate Words Number of 361,336,577

    Files Number of 16,602,867

    Folders Number of 1,440,059

    Fields Number of 11

    3) 이 표에서 사이트의 나열 순서는 1∼23은 네이버 사이트에서 수집한 것

    이며, 24∼26은 기사를 네이버 사이트에서 제공하지 않아 해당 사이트

    에 직접 방문하여 대상 자료를 수집하였다. 이러한 이유로 번호 순서대

    로 나열하지 않았다.

  • 신어를 찾아내고 의미를 기술하여 관리하는 신어 조사용 프로그램의 설계 및 구현 885

    3. 연구 방법 및 내용

    본 논문의 연구를 위해 선정한 대상 자료에서 신어를

    조사하는 방법은 다음과 같다.

    3.1 조사 과정

    신어를 식별하기 위해서는 말뭉치에서 수집한 용례들

    을 기준으로 이 용례에서 특정 형태소를 결합하거나, 삭

    제하거나 혹은 대체하는 등 변형이 일어난 문자열을 프

    로그램이 찾아 주고 인간이 그 문법성 여부를 판단한다.

    새로운 신어를 조사하기 위한 연구의 조사 과정을 다음

    과 같이 아홉 단계로 나누어 살펴본다. ① 자료 수집 :

    조사 대상이 되는 사이트에서 언론 자료를 수집하고, 이

    를 체계적으로 저장하여 말뭉치화 한다. 이 기능을 하는

    프로그램은 반자동화4)된 자료 수집기라 할 수 있다. 이

    수작업은 인간이 하면 매우 힘든 작업이다. 반자동 수집

    기를 작성하는 것만으로도 인간의 작업을 크게 덜어 줄

    수 있다. ② 자료의 구조화 : 본 연구의 결과물 형태를

    세종 기초 말뭉치의 기본 형식과 유사하게 유지하고, 표

    제항 추출 : 각 신어의 용례별 탐색기를 개발하여 표제

    어를 추출하고, 그 사용 용례를 검색하여 보여준다. 국어

    전문가에게 사용 용례를 실시간으로 보여 주어야 신어를

    판단하는데 크게 도움이 된다. ③ 어미/조사 복합체의

    제거, ④ 표제항 비교 : 표준국어대사전, 기 조사된 신어

    표제항과 비교 분석, 기존에 조사된 신어(이하 기존 신

    어라 통칭)와 사전에 이미 등재된 표제어(참고문헌 [7]

    의 국립국어원에서 편찬한 표준국어대사전의 표제어 수

    420,957개(중복 제거), 이하 사전 표제어라 통칭)를 비교

    하여 추출하고, 그 결과를 이용하여 신어 1/2차 후보 추

    출 : 1차(단어 분석 과정에 의한 컴퓨터의 추출)/2차(국

    어 전공자의 선별 작업에 의한 추출)/3차(국어 전문가의

    최종 판단 작업) 신어 후보어의 목록을 각각 작성한다.

    ⑤ 2차 신어 후보어의 선택 및 추출 ⑥ 신어 표제항 확

    정 : 국어 고위 전문가가 신어의 확정 작업을 하는데 기

    초 자료(3차 신어 후보어 선정)로서 제공하고, ⑦ 신어

    용례 사전을 구축 : 신어가 사용된 전체 용례를 제시한

    다. 신어 자료집의 출판을 위해 조사된 신어 중에서 전

    부 혹은 일부를 선택하여 출간량을 조절할 수 있는 기능

    을 추가한다. ⑧ 신어의 어원, 분야, 의미 등을 기술, ⑨

    신어 구축에 이용된 전체 자료와 통계 정보의 제시 : 최

    종적으로 출간하기로 결정된 신어의 원어 정보와 뜻풀이

    등을 기술할 때 참고 자료를 제공하고, 실제 언론 기사

    에서 사용되는 적절한 용례를 탐색하여 최초의 출현 시

    4) 컴퓨터에 의한 자동화된 작업과 사람의 개입이 필요한 작업, 이것을 ‘반

    자동화라 표현’하였다. 논문의 그림 1과 그림 2에 지식 구축 지원 도구

    가 기계가 지원하는 부분과 사람의 개입에 의해 지원하는 도구를 나누

    어(반자동화는 빗금으로 표시한 부분) 도식화하였다.

    그림 1 신어 조사 과정의 9 단계

    Fig. 1 9-Processes for Finding New Words

    그림 2 자료의 구조화 과정의 세부 작업(자동화)

    Fig. 2 9-Processes for Data Structuring Process of

    Step (2) in Fig. 1

    기와 시간의 흐름에 따라 계속적인 사용 여부를 모니터

    링 하는 기능을 추가한다. 이와 같은 아홉 가지의 자동

    혹은 반자동 과정을 그림 1에 제시하였다. 이 그림에서

    (2) 자료의 구조화 과정을 완전 자동화가 되도록 하였는

    데, 이를 그림 2와 같이 그 자동화의 전체과정을 제시하

    였다.

    앞의 ①에서 제시한 일간지의 정치, 경제, 사회, 생활/

    문화, 스포츠, 연예, 국제, 정보통신 등 7개 분야의 기사

    와 뉴스 혹은 방송용 대본을 모아 모두 표 3과 같이 11

    개 분야가 하나의 말뭉치로 구성한다. 말뭉치는 일간지

    및 방송사 홈페이지의 기사 및 뉴스 원문을 매일 스캐

    닝/트래핑(trapping)할 수 있는 프로그램을 이용하여 구

    성하였다. 이렇게 말뭉치화 된 자료를 바탕으로 용례를

    탐색하는 탐색기를 이용하여 잘 정돈된 표제어를 추출

    한다. 추출된 표제어는 사전 표제어와 기존 신어 목록을

  • 886 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12)

    비교하여, 표제어로 등록되지 않은 것을 최종 신어 후보

    어로 추출한다. 신어 후보어의 추출에는 표제어 비교 프

    로그램을 제작하여 이용한다. 추출된 후보어는 1차/2차

    /3차로 나누어 시간적/질적 검토를 통해 점진적으로 정

    제해 나가야 한다.

    신어 후보를 선정할 때는 우선적으로는 단어가 표제

    어 후보가 될 것이지만, 표제어로 올릴 가치가 있다고

    판단되는 구(phrase)도 표제어로 선정하였다. 특히 전문

    (용)어는 구로 된 표제어가 많을 것으로 예상된다[9]. 표

    제어가 선정되면, 신어의 원어 정보와 의미 등을 기술하

    고, 적절한 용례를 함께 제시한다. 새로 발견된 신어의

    용례를 복수 개 저장할 수 있는 방법도 본 논문에서 제

    안하는 프로그램의 설계 기능으로 포함하고 있다.

    먼저 신어 선정 원칙의 일반 원칙을 참고문헌 [6]을

    토대로 크게 두 가지로 나누어 생각해 보았다. 첫째는

    현재 쓰거나 썼던 말 중에서 표제어로 올릴 가치가 있

    는 단어를 수록한다. 신어는 일상에서 널리 쓰는 말을

    수록한다. 국립국어원의 표준국어대사전에서 조사되지

    않았던 표준어는 ‘신어’로 판정하여 모두 수록한다[6].

    비표준어는 널리 쓰는 것을 우선 선별하여 수록하되, 대

    응하는 표준어와의 관계를 파악할 수 있도록 한다[6].

    조사연도에 새롭게 만들어진 어휘는 모두 수록한다. 조

    사연도 이전에 만들어진 어휘라 할지라도 기존의 신어

    과정에서 조사되지 못한 신어들은 ‘미등재어5)’로 간주하

    여 수록한다[6]. 둘째로 독립된 단어가 아니더라도 표제

    어로 올릴 가치가 있다고 판단되는 단어들은 수록하여

    국민들에게 실시간 검색 서비스로 제공한다. 예를 들어

    전문어를 예로 들 수 있는데, 단어보다 큰 단위의 용어

    도 수록한다. 이러한 일반적인 원칙을 토대로 신어 판정

    의 원칙을 다음과 같이 확정하였다. (1) 새로운 개념이

    나 사물을 표현하기 위해 생긴 말, (2) 개념이나 사물은

    존재하는데 명칭이 없는 경우 어휘 체계의 빈자리를 채

    우기 위해서 생긴 말, (3) 이미 있던 개념이나 사물일지

    라도 그것을 표현하던 말들의 표현력이 감소됐을 때는

    그것을 보강하거나 신선한 새맛을 가진 말로 바꾸기 위

    한 대중적 욕구에 의해서 생긴 말, 마지막으로 (4) 국어

    순화 운동의 일환으로 생긴 말을 신어로 판정한다[9].

    이상과 같이 네 가지에 해당하는 단어를 신어로 판정한

    다. 다음 절에서는 신어에 기술될 내용을 제시하였다.

    3.2 신어 정보의 기술 내용

    발견된 신어에 대한 원어 정보는 표 3과 같이 아홉

    5) 참고문헌 [9] 소강춘 외는 사전에 등재성 여부로 신어를 판단하는 경우

    사전의 범위를 국어사전으로 한정하고 사전 편찬 시, 표제어 등재 대상

    으로 삼은 것은 국어사전을 기준으로 한다고 하였다. 각 사전에서 신어

    로 판단한 표제어들이 다른 전문용어 사전에는 실려 있지만, 국어사전에

    실리지 않은 말들이 있다면 이것은 신어가 아니라 미등재어라 한다고

    정의하고 있다.

    표 3 분야(11개)별 대상 어절 수

    Table 3 Number of Separate Word of 11 Detail Fields

    #Fields

    분야

    Number of Separate Word

    대상 어절수

    1 사회(Social Science) 86,230,489

    2 스포츠(Sports) 51,226,961

    3 생활/문화(Living Culture) 48,326,048

    4 경제(Economy) 47,472,631

    5 정치(Politics) 46,903,554

    6 연애(Entertainment) 33,503,295

    7 세계(World News) 22,016,243

    8 칼럼(Magazine Column) 12,092,071

    9 IT/과학(IT/Sciences) 10,683,769

    10 국제(International) 2,879,598

    11 영문(English News) 1,918

    총 361,336,577

    표 4 신어 정보의 기술 내용

    Table 4 Descriptive Information of New Words

    Order Descriptive Information Tags

    1Headword

    표제어NW

    2Word Analysis(Morphological Analysis)

    단어 분석(형태소 분석)COMP

    3A Part of Speech Info.

    품사 정보POS

    4Field Info.

    분야 정보F

    5Semantic Meaning

    뜻풀이SEM

    6Example

    용례ILL

    7The First Appearance Media

    출전FAM

    8Appearance Date

    보도 연월일DATE

    9References

    참고 및 기타 특이 사항REF

    가지 정보로 나누어 기술한다. 이들 중에서 형태소 분

    석, 품사 정보, 사용 영역, 뜻풀이, 용례, 출전, 보도 연

    월일 등이 연구자에게 의미 있는 정보가 될 것이다. 신

    어가 한자어나 외래어인 경우에는 모두 원어를 밝혀 줌

    을 원칙으로 한다. 또한 원어가 어느 나라 언어인지 함

    께 제시한다. 품사 정보, 전문어 영역, 뜻풀이의 기본 원

    칙은 국어사전의 편찬 지침에 따라 기재한다. 용례는 가

    능한 한 그 의미를 정확히 보여줄 수 있는 것으로 제시

    하고, 그렇지 않을 경우에는 다양한 용례를 골라 제시하

    여 용례를 통해 표제어의 여러 쓰임새를 살펴볼 수 있

    는 연구를 하도록 한다. 용례나 인용문은 국립국어원의

    어문 규범[7]에 어긋나는 부분은 손질하여 제시하고, 해

  • 신어를 찾아내고 의미를 기술하여 관리하는 신어 조사용 프로그램의 설계 및 구현 887

    당 신어가 조사연도 이전에 발견되면, 인터넷 검색(네이

    버의 옛날 신문 검색)을 통해 가장 이른 시기에 사용된

    것으로 보이는 인용문을 제시하여 그 최초 생성 시기를

    사용자가 참고할 수 있도록 한다[2]. 용례 다음에는 반

    드시 출전을 표기한다. 필요에 따라 관련 어휘나 참고할

    만한 어휘가 있는 경우에는 뜻풀이 다음에 표제어의 구

    분, 기타 특기사항 등을 기록한다.

    3.3 신어의 특징 분석을 위한 준비 과정

    조사된 신어는 유형별로 여러 가지 특징을 보여준다

    [6]. 우리는 신어들을 품사별/기원별/조어별로 그 유형을

    나누고, 각각의 특징을 다음과 같이 살펴보는 연구를 하

    였다.

    1. 조사 목적,

    2. 조사 범위 및 대상,

    3. 품사별/기원별/조어별 특징

    신어 1차 후보어의 추출 작업은 프로그램으로 추출한

    다. 추출 작업은 대량의 언론 기사 중에서 작업자에게

    필요한 정보만을 추출하여 제공한다. 매일 대상 자료의

    홈페이지에서 뉴스와 기사를 자동으로 스캔하여 대용량

    의 말뭉치를 구성하고, 용례 탐색기를 이용한 표제어 추

    출, 표제어 비교 프로그램(1장에서 언급한 확장형 비교)

    을 제작하고, 신어 후보 목록을 컴퓨터에 의해 자동으로

    추출한다. 신어 2차 후보어 추출자는 한국어 교육의 실

    태 조사 사업에 참여한 경험이 있고, 국어 정보학에도

    능하여 신어 조사 사업의 보조자 역할을 할 것으로 기

    대된다. 마지막으로, 신어 3차 후보어 추출자는 국어학

    및 국어정보학 전공자로 국어 어휘를 매우 정확하게 이

    해하고 있으며, 우리말 단어 바로 쓰기에 관심이 많아

    우리말의 사용 실태를 정확히 파악하고 있다. 따라서 국

    어나 글쓰기와 관련하여 풍부한 경험을 가진 전문가이

    다. 겨레말 큰사전에서 진행하는 방언 어휘 조사 사업에

    참여하고 있거나 참여한 경험이 있어, 신어 연구에 큰

    기여를 할 수 있는 국어 최고 전문가이다. 이상과 같은

    방법으로 1차/2차/3차의 신어 후보어 추출 과정을 거치

    고 전문가가 최종적으로 신어 목록을 선정한다. 연구 작

    업의 성패를 위해서는 전산언어학자와 국어학자가 융합

    하여 신어 조사 작업에 참여하여야 한다, 따라서 신어

    조사팀은 다음의 아홉가지 공동 작업이 가능하도록 구

    성[7]하여야 한다.

    1. 업무 분담 및 조사 방법에 관한 소규모 세미나의

    지속적인 실시,

    2. 조사 작업을 위한 대상 자료의 선정,

    3. 신어 조사 대상 자료의 자동 스캐닝 프로그램의 제

    작 및 표제어의 비교/ 검색 프로그램의 공동 제작,

    4. 어휘 조사 지침 및 결과물의 작성 지침과 입력 방

    식의 개발,

    5. 신어의 집필 지침을 작성하고 지속적으로 업데이트,

    6. 매월 주요 일간지 및 방송 뉴스 대본 등을 대상으

    로 말뭉치를 구축하여 신어와 국어 사전의 미등재

    어 후보의 목록을 논의하여 추출,

    7. 수집된 신어와 사전 미등재어에 대해 원어, 전문영

    역, 뜻풀이, 용례 등의 기술,

    8. 신어 유형과 사용 양상의 분석,

    9. 신어 추적 자료(신어의 생성/성장/소멸 정보)의 조

    사 결과를 이용하여 국어 순화 대상어를 선정하고,

    극민들이 알기 쉬운 공공언어를 사용하도록 하는

    것 등이다.

    4. 시스템의 구성

    본 논문에서 설계한 프로그램은 다섯 가지 기능을 하

    며, 각 기능에 해당하는 개별 폼(form)을 제공한다. 이

    기능을 열거하면 기사의 URL6)을 얻기 위한 기능

    (Collection for URL)과 얻어진 기사의 URL을 가져오

    는 기능, 기사에서 불필요한 노이즈를 제거하는 필터링

    (Filtering), HTML 태그의 분리 기능(Separation), 수

    집된 기사 본문을 여러 종류(4.1절에 소개한 바와 같이)

    의 파일로 변환하는 기능(File Converting) 등이다. 국

    어 전공자의 신어 조사 작업을 용이하게 하기 위해서는

    다음의 두 가지 방법으로 신어 후보어를 추출한다. 첫째

    는 어휘 분석 방법(Word Analysis)이며, 둘째는 신어

    조사에 특화된7) 형태소 분석 방법(Morpheme Analysis)

    을 이용하였다.

    4.1 신어 조사기

    신어 조사기는 다음의 그림 3과 같이 신문, 방송 등의

    언론 기사 수집 로봇 및 신어 후보어의 추출을 목적으

    로 하는 프로그램이다. 통합적이고 일괄적인 제어가 가

    능하도록 구현하였다. 탐색기는 도구의 옵션에 설정된

    저장 경로의 하위 디렉토리의 내용을 보여 주며, 수집

    URL(인터넷의 유일한 주소)은 수집 기사에 대한 수집

    정보를 입력하고, 수집 URL에 수집되는 URL의 목록을

    보여준다. 분류기는 뉴스의 URL을 입력 받아 HTML

    소스, 제목, 내용, 날짜 정보를 추출한다. 수집 파일 뷰

    어(Viewer)는 수집된 URL을 가져와 URL 마다 각 기

    사 파일을 생성하며, 그 목록을 수집 파일 뷰어에서 보여

    준다. 가공 파일 뷰어는 수집 파일 뷰어에 저장된 각 파

    일의 위치를 이용하여 /collected, /textized, /sentenced,

    /segmented, /word-analyzed-compared, /morphologi-

    6) URL; Uniform Resource Locator(자원 위치 표시자)의 약자로 인터

    넷상의 파일 위치를 뜻하는 주소이다. 본 논문에서는 인터넷 상의 개별

    기사의 웹페이지 요소나 웹 문서의 유일한 주소를 뜻한다.

    7) 참고문헌 [9]의 이래호는 이러한 형태의 형태소 분석기를 신어 조사에

    특화된 지능형 형태소 분석기라 하였다.

  • 888 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12)

    그림 3 신어 조사기의 전체 시스템 구조

    Fig. 3 Overall Structure of a New Word Collector Program

    calized, /word-analyzed, /word-analyzed-and-compared,

    /compared 등의 파일로 각각 나누어 생성하며, 각종 목

    록을 가공 파일 뷰어에서 제공한다. 메뉴 “단어 분석기

    + 확장형 비교기”는 텍스트 파일 내에 출현하는 어절에

    서 어미(3,221개의 어미 연결체)와 조사(5,443개의 조사

    복합체)를 분리하고, 표제어, 기존 신어(구 형태도 포함)

    와 매칭하여 제거한다. 이들을 제거하는 이유는 이들 단

    어들은 결코 신어가 될 수 없기 때문이다. 어미와 조사

    의 정리 작업은 한국어 어미와 조사, 어미와 조사의 이

    형태, 계사의 활용형과 조사, 조사의 일부와 조사, 계사

    (繫辭8)), 용언의 활용형과 조사 등의 어미 연결체와 조

    사 구조체9)를 대상으로 삭제하였다. 한국어 어미는 이

    형태를 포함하여 1,087개이며, 조사는 163개로 조사되었

    다. 따라서 이들 두 가지로 조합 가능한 어미 연결체는

    3,221개, 조사 구조체(혹은 조사 복합체)는 5,443개 이었

    다. 이들 두 가지를 합한 문자열 8,664개가 신어 조사

    작업의 중요한 지식베이스가 되었다.

    형태소 분석기는 우선 일반적인 형태의 형태소 분석

    기를 사용하지만, 향후에는 신어 조사에 특화된 형태의

    분석기로 그 성능을 향상시키고, 프로그램 메뉴에서 “형

    8) 연결 동사(be, become 처럼 주어와 주격 보어를 이어주는 동사), =

    linking verb(copula)

    9) 향후에는 명사구와 조사, 파생 접미사와 조사, 의존 명사와 조사, 부사와

    조사 등도 추가하여야 한다.

    태소 분석기 +확장형 비교기”는 형태소 분석 결과에 확

    장형 비교를 실행시킨 결과를 사용자에게 보여준다. 단

    어 분석 후에 신어 후보는 파일을 가공하면서 “단어 분

    석기+확장형 비교기”의 기능을 수행하여, 각 단어 정보

    를 모아서 한번에 보여 주는 기능을 한다. 월/일별 신어

    후보의 자료 생성은 형태소 분석 후에 신어 후보는 파

    일을 가공하면서 “형태소 분석기+확장형 비교기”의 기

    능을 수행하여 각 단어 정보를 모아 한 번에 보여주는

    기능을 한다. 월별/일자별 신어 후보의 열람이 가능하도

    록 한다. 이 기능은 연구책임자가 여러 작업자에게 공평

    하게 일의 양을 나누어 분배하는데 적합한 기능이다. 단

    어 분석 후에 신어 후보를 토대로 연구자들이 수집한

    후보어를 최종 집계하게 되는데, 최종 연구자가 신어 후

    보들을 다시 확인하면 단어 분석기의 신어로 등록한다.

    형태소 분석기의 신어는 형태소 분석 후에 신어 후보를

    이용하여 연구자들이 신어 후보어를 수집하며, 최종 연

    구자가 후보어를 다시 재확인하면 단어 분석기에 의해

    신어 후보어로 최종 등록된다.

    4.2 신어 통합 관리기

    신어 통합 관리기는 크게 네 가지의 일을 하기 위해

    개발하였다. 먼저 기존 신어의 통합적인 관리 기능을 담

    당한다. 둘째, 국어 전공자들이 생성하는 2차 신어 후보

    어를 체계적으로 관리하며, 미래의 신어 추적[10] 조사

    작업을 위한 기초 데이터를 수집하는 기능을 한다. 마지

  • 신어를 찾아내고 의미를 기술하여 관리하는 신어 조사용 프로그램의 설계 및 구현 889

    그림 4 인터넷 포털 사이트 네이버에서 기사 URL의 자

    동 수집

    Fig. 4 URL Information of Auto Collection in Naver

    Portal Sites

    막으로 신어 통합 관리기는 신어 결과물의 종합적인 관

    리를 위해 관리자(공무원)에게 각종 통계 정보를 제공하

    는 일을 한다. 신어의 최초 출현 시기를 알려준다. 특정

    신어는 국민들의 지속적인 사용이 있다면 그 결과를 계

    량언어학적인 방법론을 적용하여 그 여부를 국어 순화

    연구자에게 알려 주어야 한다. 인터넷에 언론사의 뉴스는

    각 언론사별로 특정한 URL 형식이 존재한다. 언론 기사

    를 수집하기 위해서는 각 사이트의 특징을 파악하여야

    한다. 예를 들어, 어떤 URL에 해당하는 기사를 수집하려

    면 위의 그림 4와 같은 URL 정보에서 다음과 같이 세

    가지 인식 작업이 가능하도록 프로그래밍해야 한다[10].

    1. “sid = 번호” : 번호는 특정한 분야를 나타낸다. 예

    를 들어, 100은 정치, 101은 경제 등과 같이 번호

    별로 구분된다.

    2. “oid = 번호” : 언론사의 이름을 나타내는데, 예를

    들어, 숫자 023은 조선일보를, 024는 매경 이코노

    미를 나타낸다. 이와 같이 각 언론사가 특정 번호

    로 구분되어 있다.

    3. “date = 날짜” : 웹 기사의 날짜를 나타내는 부분

    으로, 년/월/일이 연속되어 나타난다. 해당 URL에

    있는 뉴스 기사를 컴퓨터로 자동 수집하고 해당

    기사는 파일로 저장한다.

    이상과 같이 웹 사이트에서 어떤 기사를 가져올 때에

    는 한 사이트를 나타내는 HTML 소스를 분석하는 처리

    를 해야 한다. 이러한 HTML 소스를 분석해 보면 그림 5

    와 같이 기사의 제목, 본문, 날짜가 있으며, 각 언론사별

    로 고유한 형태로 분리할 수 있도록 되어 있다. 이와 같

    이 언론사들을 조사하여 분류 지식을 잘 정렬해 두면

    프로그램이 소스 분석을 통하여 제목, 본문, 날짜로 분

    리할 수 있다.

    일반적으로 어휘 분석은 형태소 분석 방법이 많이 사

    용되는데, 자연 언어 이해(Natural Language Under-

    standing)의 입장에서 형태소 분석을 수행하면 한국어

    의미 단위(가장 작은 단위)인 형태소로 분리된다. 일반

    적인 형태소 분석 작업은 어휘 분석 작업이 매우 강력

    하게 이루어져 자칫 후보어의 조사 작업을 어렵게 만들

    수 있다. 다시 말하면 분석 프로그램이 신어의 구성 형

    그림 5 본문 텍스트의 분리 작업

    Fig. 5 Separation Process of Body Texts

    태소를 너무 잘게 분해하여 사전 표제어에 이미 존재하

    는 구성요소들로 분리되어 버려 뒤이어 진행되는 사전

    매칭 작업에서 기본 단어들로 인식되어 모두 빠져 나갈

    수 있다. 따라서 본 논문의 연구 방법에서는 체언과 용

    언(어절)에서 어미와 조사만을 분리하는 단어 분석 방법

    을 이용하였다. 단어 분석 방법은 어미/조사 목록

    (6,725/5,442)에서 그 길이가 가장 긴 순서대로 정렬(최

    장일치법)하여 기사에서 나온 단어를 음소별로 매칭한

    후 국어사전의 표제어 목록과 기존 신어 목록을 제외시

    켜 신어 조사자가 선택한 단어가 표제어 목록과 기존

    신어 목록에 없는 단어만을 대상으로 작업하도록 조사

    하는 작업이다. 그림 6에 단어 분석의 과정과 그 결과를

    제시하였다.

    본 프로그램의 실행은 위의 그림 7과 같이 언론 기사

    URL의 수집에서 출발한다. 주소 수집의 패널에서 수집

    정보(수집을 요하는 시작 날짜, 끝나는 날짜, 언론사의

    사이트 선택 등)를 입력하면 처음에는 기사의 URL만

    수집되며, 수집된 URL 목록은 그림의 오른쪽과 같이

    목록 화면(리스트 뷰)을 통해 사용자에게 제공되고, 실

    제 목록은 파일 형태로 저장 장치에 저장된다. 2012년도

    의 87개 사이트의 어절 수가 4,205,829건 이었다.

    URL 입력 창에 기사 URL을 입력하면 링크들이 제

    목/본문 내용/날짜에 따라 위의 그림 8과 같이 자동으로

    분리되어 텍스트 박스에 출력된다. 이 패널은 단지 사용

    그림 6 단어 분석과 지식베이스 비교 후의 후보 단어 추출

    Fig. 6 Extraction of Candidate Word after Comparison

    of Word Analysis and Knowledge Base

  • 890 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12)

    그림 7 URL 수집기의 예

    Fig. 7 Implementation of URL Collector

    그림 8 HTML 소스의 분리 과정

    Fig. 8 Separation Process of HTML Source Codes

    그림 9 파일의 변환 처리

    Fig. 9 Conversion Processing of Files

    자에게 수집된 URL을 보여주기 위한 목적으로 제작하

    였으며, 아울러 여러 모듈의 태스팅(testing) 목적을 위

    해서 개발하였다.

    파일 변환을 시작하면 그림 9와 같이 각 단계별 변환

    작업(7가지 형태)이 시작된다. 다음은 일곱 단계별 변환

    작업 중 주요 처리에 대한 설명이다. 먼저 문장 분리 작업

    (/sentenced)이 일어나고, 구 형태의 단어 처리(/phrasal-

    recognized), 어절별 분리 파일(/segmented)을 수행한

    다. 그리고 신어 추출의 목록 파일을 만들어 신어 후보

    목록 표시 화면에 3장에서 제시한 그림 3의 오른쪽과

    후보어들이 체크 박스와 함께 나타난다.

    신어 후보어 목록을 보여주는 패널은 추출 작업을 원

    하는 특정 날짜에 대한 신어 후보 목록을 보여줄 수 있

    는 “신어 후보 목록” 옵션이 있다. 이 신어 후보 목록을

    계산하여 출력하면 작업자가 신어 후보 선택 시, 기사

    원문과의 대조 작업을 용이하게 할 수 있다. 만약 두 번

    이상 출현한 단어(빈도 2 이상)는 두 번째 출현 이후부

    터는 복수 출현 여부를 보여 주어, 작업자가 중복하여

    작업하지 않도록 하는 기능도 추가하였다. 덧붙여, 신어

    추출 작업을 하면서 얻어진 필요 없는 단어(배제 정

    보10)[11])들을 그 날짜 이후부터는 신어 조사 화면에 나

    타나지 않도록 하여 작업자가 추후 검토하여야 할 양을

    지속하여 줄여갈 수 있도록 설계하여 프로그램의 효율

    성을 극대화 하였다. 이 배제 정보의 분석 작업은 추후

    신어 조사 작업의 주요 패턴 정보를 담고 있을 것으로

    판단된다. 이 정보에 대한 연구는 추후 논문을 통해 발

    표하고자 한다.

    신어 조사용 프로그램 개발을 위해 준비한 지식베이

    스11)에 대해 설명하면 다음과 같다. 첫째, 본 연구실에

    서 지금까지 조사한 1차 신어 후보어를 DB화 할 수 있

    도록 통일하여 정리하였다. 둘째, 국립국어원에서 제공

    하는 표준국어대사전의 표제어에서 동음이의어를 제외

    하고 420,957개를 준비하였다. 셋째, 한국어 어미와 조

    사의 이형태, 계사의 활용형, 계사/어미/조사 등이 결합

    가능한 복합체를 조사하였다. 여기서 어미는 1,087개, 조

    사는 163개, 어미 구조체는 3,221개, 조사 구조체는

    5,443개이었다. 본 프로그램은 MS-Windows 7 운영체

    제에서 Microsoft Visual Studio 2010의 개발 도구를

    이용하여 C# 언어[12,13]로 개발하였다.

    5. 결론 및 기대 효과

    본 논문에서는 언론 자료에 나타나는 신어 및 미등재

    어를 조사/정리하여 체계적으로 관리할 수 있는 프로그

    램을 개발하였다. 본 논문에서 개발한 프로그램은 언론

    10) 임희석은 참고문헌 [11]에서 ‘불필요한 분석 후보’라 하였다. 이것은

    형태소 분석기가 생성하는 분석 효율을 향상시킬 수 있는 음소나 음절,

    혹은 문자열 단위의 배제 정보(Exclusive Information)라 지칭한다.

    11) 지식베이스로 사용한 목록은 다음과 같이 12가지이다. 열거하면 (1) 전

    각문자(불필요한 태그) 3, 952개, (2) 표준국어대사전의 표제어 목록

    420,957개, (3a) 고유명사 27,309개, (3b) 고유명사의 기술 목록(기

    초) 167,793개, (4a) 인명 12,693개, (4b) 외래어로 된 인명 8,963개,

    (5a) 지명 7,373개, (5b) 외래어로 된 지명 9,671개, (6) 개인적으로

    조사한 단어 278개, (7) 조사 복합체 9,453개, (8a) 지금까지 추출한 2

    차 신어 후보어 37,607개, (8b) 올해 조사한 2차 신어 후보어 63,988

    개, 기존에 조사하여 확정된 기존 신어-2009까지 29,005개, (10) 어미

    로 구성한 구조체 11,340개, (11) 표준국어대사전의 동사/형용사 목록

    58,998 개(“-다”ㄴ는 삭제), 마지막으로, (12) 개방형 사전 연구팀[9]의

    신어 분과에서 제안한 배제 단어 목록 30,783 개 등이다.

  • 신어를 찾아내고 의미를 기술하여 관리하는 신어 조사용 프로그램의 설계 및 구현 891

    자료를 통해 수집된 신어 및 미등재어에 대해 원어, 전

    문 영역, 뜻풀이, 용례 등을 기술하는 작업자에게 편리

    하게 작업하도록 설계하였으며, 전체 신어의 유형과 특

    징을 분석하여 단일어, 파생어, 합성어 등으로 나누어

    연구하고, 그 내적 구성 방식의 연구도 가능하게 하는

    도구이다. 이 조사 도구를 이용하여 [부록]에서 제시한

    신어의 의미 기술과 용례, 최초 출현일 등을 지식서비스

    로 구축할 수 있다. 본 논문에서 제안하는 신어 조사 도

    구는 신문, 방송 등의 언론 기사 전용 수집 웹 로봇의

    개발, 신어 후보어 자동 추출 프로그램의 개발, 신어 정

    리 및 통합 관리 프로그램의 개발 등 세 가지 기능을

    갖고 있다. 이 도구를 이용하여 최종적으로 472개의 신

    어와 2,022개의 미등재어를 조사하였다[1].

    본 연구 결과를 통해 다음과 같이 인터넷 포털 사이

    트의 지식 서비스 개선 방안들을 생각해 볼 수 있다. 첫

    째, 기존의 자연언어처리 연구에서 사용하던 KWIC;

    Key Word In Context의 개념을 기반으로 신어 조사에

    적용하여 NWIC; New Word In Context의 개발 방안

    을 마련할 수 있다. 둘째, 수집된 12만 건의 기사 목록

    을 조사하여 중복성 문제를 대부분 해결하였으나 여전

    히 중복 기사가 있을 것으로 추정된다. 따라서 이에 대

    한 획기적인 연구 방안의 마련이 필요하다. 셋째, 신어

    를 모니터링 할 수 있는 메뉴의 필요성에 대한 조사 연

    구를 시작하여야 한다. 넷째, 배제 정보(결코 후보 신어

    가 될 수 없는 부분적인 문자열)에 추가되어야 할 사항

    에 대해 조사 및 토의가 필요하다. 다섯째, 기존에 조사

    되었던 신어 혹은 미등재어의 결과물과 당해연도에 조

    사된 결과물 간의 표준화 된 저장 방식을 마련할 수 있

    다. 여섯째, 2013년도 이전의 언론 기사 수집을 통해 신

    어의 생성, 발전(계속적인 사용), 소멸의 과정 즉, 신어

    의 추적 조사 작업이 가능함을 입증할 수 있다. 일곱째,

    신어의 선정 기준의 정밀한 분석 기준을 필요, 신어/미

    등재어의 선정을 위한 표준안을 마련할 수 있다. 마지막

    으로, 신어가 새로 발생하면 신어의 생성 여부를 알려주

    는 신어 경보기에 대한 연구 개발이 가능함을 보여 주

    었다.

    본 연구 결과를 얻기 위해 연구 대상 자료와 각 자료

    별 총 어절수를 크기순으로 표 5에 제시하였다. 또한 신

    어 조사의 최종 결과물 일부를 [부록]에 수록하였다. 향

    후에는 한국어의 지식을 집대성하고, 다국어 지원이 가

    능한 디지털 언어 지식 시스템을 체계화하여 신어가 국

    민들의 언어생활[9]에 즉시 반영되는 수요자 기반의 개

    방형 언어 지식 체계를 완성한다. 이를 위해 생활 용어,

    신어, 방언 등 다양한 언어 자료를 온라인상에서 개방적

    으로 수집하여 등록하고, 원어를 풀이하여 알기 쉬운 설

    명과 풍부하고 적절한 예문을 제공하고, 멀티미디어 정

    표 5 각 사이트의 어절 집계표

    Table 5 Summary Sheet of a Separate Word for Each

    Web Sites

    Sites

    사이트

    No. of Words

    어절 수

    스포츠 투데이 48,506,655

    연합뉴스 44,635,315

    뉴시스 32,234,052

    조선일보 16,299,354

    노컷 뉴스 16,262,921

    동아일보 15,319,110

    세계일보 15,055,579

    중앙일보 14,825,149

    경향신문 14,600,129

    한국일보 13,323,924

    KBS 9시 뉴스 12,454,940

    한겨례 11,532,225

    YTN 10,551,878

    서울신문 10,443,555

    국민일보 10,080,690

    오마이 뉴스 9,600,698

    문화일보 7,829,555

    쿠키 뉴스 7,430,493

    스포츠 한국 6,567,290

    프레시안 6,239,494

    내일신문 5,666,806

    일간 스포츠 4,752,996

    MBC 뉴스 데스크 3,789,760

    SBS 8 뉴스 3,679,845

    스포츠 조선 3,217,782

    스포츠 서울 3,092,606

    Total Words 347,992,801

    보도 제공할 수 있으면 위키피디아형과 같이 오픈된 사

    전의 구축이 가능하다[14]. 미국에서 성공한 위키피디아

    를 모델로 21세기형 한국어 지식 관리 체계를 구축하여

    단순히 종이 사전이 아닌 한국어 문화유산으로서의 디

    지털 언어 지식 관리 체계를 확립하고, 지식 사전 구축

    에 일반인의 참여를 이끌어 내고, 실시간 수집/등록/수

    정 등이 가능한 혁신적인 국가 언어 지식 관리 체계를

    구축한다. 본 연구의 최종 결과물을 네이버의 지식IN에

    추가하여 인터넷 포털 사이트의 지식 정보를 보다 충실

    하게 국민에게 제공하고 이 지식 정보를 국민들이 자신

    의 업무 분야에 잘 활용할 수 있기를 희망한다.

    References

    [ 1 ] In-sung Song, Hee-seok Jeong, Samuel Sangkon

    Lee, and Raeho Lee, "Design and Implementation of

    Detecting Tool for New Word in Korean Journal

    Articles," Proc. of the 31st KIPS Spring Confer-

  • 892 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12)

    ence, vol.16, no.1(I), pp.114-117, 2009. (in Korean)

    [ 2 ] The National Institute of the Korean Language,

    The New Word, which is Not in a Dictionary and

    appeared after 2002, Taehaksa, 2007.

    [ 3 ] Hongqiao Li, Chang-Ning Huang, Jianfeng Gao,

    and Xiaozhong Fan, "The Use of SVM for Chinese

    New Word Identification," Natural Language Proces-

    sing (IJCNLP 2004), Lecture Notes in Computer

    Science, vol.3248, pp.723-732, 2005.

    [ 4 ] Andi Wu, and Zixin Jiang, "Statistically-enhanced

    new word identification in a rule-based Chinese

    system," Proc. of the Second Workshop on Chinese

    Language Processing: Held in Conjunction with

    the 38th Annual Meeting of the Association for

    Computational Linguistics (CLPW 2000), vol.12,

    pp.46-51, 2000.

    [ 5 ] Goh Chooi Ling, Masayuki Asahara, and Yuji

    Matsumoto, "Chinese Unknown Word Identification

    Using Character-based Tagging and Chunking,"

    Proc. of the 41st Annual Meeting on Association

    for Computational Linguistics (ACL 2003), vol.2,

    pp.197-200, 2003.

    [ 6 ] Raeho Lee, "A Study on Teaching Methodologies

    about Neologism in Korean Language Education,"

    Joongwon Linguistic Society of Korea 2009 Spring

    Conference, pp.51-63, 2009.

    [ 7 ] The National Institute of Korean Language. Official

    Website [Online]. Available: http://www.korean.go.kr/,

    Chatki Madang/Eomoon Kujung (download 2013,

    May 20)

    [ 8 ] Samuel Sangkon Lee, "Methodology and Implemen-

    tation of Detecting Tool for New Words Occurring

    in Korean Document," Proc. of the HCLT(Human

    & Cognitive Language Technology), pp.271-276, 2009.

    (in Korean)

    [ 9 ] Kangchun So, Raeho Lee, and Kyoungmi Ju, "The

    Selection and Realization of the Entry of New Words

    in the Gaebanghyeong-Hangugeo-Jisik-Daesajeon,"

    Journal of Korealex, vol.20, pp.52-85, 2012.

    [10] Dongeui Kim and Samuel Sangkon Lee, "Design

    and Implementation of Monitoring System for New

    Words," Proc. of the 39th KIISE Fall Conference,

    vol.39, no.2(B), pp.127-129, 2012. (in Korean)

    [11] Heui-Seok Lim, Bo-Hyun Yun, and Hae-Chang

    Rim, "An Efficient Korean Morphological Analzer

    Using Exclusive Information," Journal of KIISE,

    vol.22, no.6, pp.957-964, 1995. (in Korean)

    [12] Andrew Troelsen, 6th Ed., "Pro C# 5.0 and the .NET

    4.5 Framework," Apress, ISBN 978-1-4302-4233-8,

    2012.

    [13] Joseph Albahari and Ben Albahari, "C# 5.0 in a

    Nutshell: The Definitive Reference," O'Reilly, ISBN

    978-144-932-0102, 2012.

    [14] The National Institute of Korean Language. Woo-

    rimal-Sam [Online]. Available: http://opendic.korean.

    go.kr:8901/main/serviceInfo (download 2013, May 20)

    [부록] 신어 결과물의 예

    1)

    #NW 공정-여행(公正旅行)

    #COMP 한+한

    #POS 명사

    #F 사회

    #SEM 현지인에게 최대한 수익이 돌아가도록 하면서

    현지인들의 삶에 대해 듣고 배우고 공유하면서 서

    로 관계를 맺는 여행.

    #ILL 평화운동단체 이매진피스, 대안학교인 간디학교 이

    우학교, 하자센터가 주축이 된 '아시아를 여행할 때

    가져야 할 자세에 대해 고민하는 모임' '평화를 만드

    는 아시아 여행자들-공정여행'이 바로 이같은 새로

    운 아시아 여행상을 추구하고 있는 모임이다. 이들은

    지난해 12월말 '공정여행축제'라는 토론 전시 프로

    그램을 열고, 공정여행 알리기에 나서기 시작했다.

    이 행사에 참여했던 사람들 중에서 특히 태국 메솟에

    관심 있는 사람들은 '메솟여행 돌아보기'라는 공정

    여행을 하고 있다.

    #FAM 경향신문, 2008. 01. 22.

    #DATE 2008년-01월 신어

    #REF

    2)

    #NW 감성-케팅(感性keting ← 感性marketing)

    #COMP 한+영

    #POS 명사

    #F

    #SEM 고객의 감성을 자극하는 마케팅 활동.

    #ILL 사회가 다양화되면서 마케팅도 감성케팅, 문화케

    팅, 브랜드마케팅, e마케팅, 스포츠마케팅, 스타마케

    팅 등으로 다양화되고 있다.

    #FAM 내일신문, 2008. 02. 05.

    #DATE 2008년-02월 신어

    #REF

    3)

    #NW 검역^주권(檢疫主權)

    #COMP 한^한

    #POS

    #F 정치

    #SEM 수입되는 물품의 검역에 대하여 어떤 나라의 간

  • 신어를 찾아내고 의미를 기술하여 관리하는 신어 조사용 프로그램의 설계 및 구현 893

    섭도 받지 않고 오직 해당 국가만이 행사하는 고유한

    권리.

    #ILL 이 관계자는 “이러한 외교적 조건과 함께, 우리 정

    부가 추가협상을 통해 검역주권 문제와 SRM 문제

    를 상당부분 해결했다는 점을 솔직히 설명하면 국민

    들도 어느 정도 납득할 것”이라고 기대했다.

    #FAM 내일신문, 2008. 05. 21.

    #DATE 2008년-05월 신어

    #REF

    4)

    #NW 몰입^교육(沒入敎育)

    #COMP 한^한

    #POS 명사

    #F 교육

    #SEM 제2언어를 가르치는 방법 가운데 하나로, 가르칠

    언어를 이용하여 다른 일반 교과목 수업을 하는 것.

    #ILL 몰입교육은 immersion(담그다, 빠뜨리다)이라는

    단어가 연상시켜주는 것처럼 아이들의 주위 환경을

    온통 영어로 만들어주는 것이다. 영어를 독립된 교과

    로 가르치는 것이 아니라 생물, 역사, 수학 등 일반

    교과목을 영어로 가르침으로써 자연스럽게 영어를

    학습하게 하는 교수기법이다.

    #FAM 서울경제, 2008. 01. 02.

    #DATE 2008년-01월 신어

    #REF

    5)

    #NW 과로^지수(過勞指數)

    #COMP 한^한

    #POS

    #F 사회

    #SEM 지나치게 일을 하여 느끼는 피로를 지수로 표현

    한 것.

    #ILL 2위 : 아나운서. (과로지수 9) 아나운서는 노동 강

    도가 매우 큰 직종으로 특히 여아나운서의 과로 정도

    는 매우 놀랄만할 수준이다. 3위 : 연예계 스타. (과

    로지수 8) 대부분의 일반대중들은 연예계 스타는 눈

    부시고 화려한 직종으로만 생각하고 있으나 사실상

    연예계 스타들의 노동 강도는 매우 심해 과로 직종인

    것으로 밝혀졌다.

    #FAM 내일신문, 2008. 12. 22.

    #DATE 2008년-12월 신어

    #REF

    6)

    #NW 독재^지수(獨裁指數)

    #COMP 한^한

    #POS

    #F 정치

    #SEM 한 나라의 지도자에 대해 대중의 증오도, 외교 정

    책의 위험도, 압제의 정도, 국내 희생자의 수 등을 종

    합해 산출한 수치.

    #ILL 영국의 독재 자료 사이트 '딕테이터 오브 더 먼스'

    는 히틀러와 스탈린, 무솔리니를 역사상 최악의 독재

    자로 꼽았다. 나름대로 '독재 지수'를 계산한 결과다.

    #FAM 경향신문, 2009. 02. 16.

    #DATE 2009년-02월 신어

    #REF

    7)

    #NW 로봇^농부(robot農夫)

    #COMP 영^한

    #POS

    #F 기계

    #SEM 농사를 짓는 로봇.

    #ILL 바닷물로 농사짓는 '해수 온실', 사막서도 재배 가

    능한 '슈퍼벼', 로봇 농부 등 다양한 기술 주목 농작

    물에 대한 비료와 물 공급 시기를 정확히 알려주는

    아이오와 주립대학 연구팀의 토양 센서도 주목을 받

    고 있다.

    #FAM 서울경제, 2009. 08. 26.

    #DATE 2009년-08월 신어

    #REF

    8)

    #NW 맹물^소주(--燒酒)

    #COMP 고+한

    #POS

    #F 사회

    #SEM 알코올 도수(度數)가 낮은 소주를 비유적으로 이

    르는 말.

    #ILL 경쟁 업체로부터 맹물 소주라는 비아냥을 들으면

    서 저도 소주 출시를 강행한 까닭은 뭘까.

    #FAM 한국일보, 2009. 08. 26.

  • 894 정보과학회논문지 : 소프트웨어 및 응용 제 40 권 제 12 호(2013.12)

    #DATE 2009년-08월 신어

    #REF

    9)

    #NW 초식-녀(草食女)

    #COMP 한+한

    #POS 명사

    #F

    #SEM 남자들에게 매력을 느끼지 못하고 개인적인 취미

    나 생활에만 몰입하는 여자.

    #ILL 조경 디자이너 진이(*** 분)는 여성적인 매력이라

    고는 찾기 어려운 사차원의 초식녀다.

    #FAM 뉴스엔, 2010. 10. 07.

    #DATE 2010년-10월 신어

    #REF

    10)

    #NW 클럽-춤(club-)

    #COMP 영+고

    #POS 명사

    #F

    #SEM 클럽에서 흔히 추는 춤.

    #ILL 클럽에서는 남성 그룹 ** 멤버들과 클럽춤을, 법

    정에선 성폭행 여아의 마음을 안심시키기 위해 발레

    까지 선보였다.

    #FAM 마이데일리, 2010. 04. 26.

    #DATE 2010년-04월 신어

    #REF

    김 동 의

    2013년 전주대학교 컴퓨터공학과(이학사)

    관심 분야는 한국어 정보처리, 상품평 분

    석 도구, 모니터링 시스템, 정보검색, 인

    공지능

    이 상 곤

    1994년 전주대학교 영어영문학과(이학사)

    1996년 전북대학교 컴퓨터과학과(이학사)

    1998년 전북대학교 전산통계학과(이학석

    사). 2001년 日本 국립 도쿠시마대학교

    지능정보공학과(공학박사). 2001년~2002

    년 원광대학교 음성정보 기술산업 지원

    센터 연구원. 2002년~현재 전주대학교 컴퓨터공학과 교수

    2011년~2012년 미국 Ohio주 신시네티대학교(UC; University

    of Cincinnati) 방문 교수. 관심 분야는 한국어 정보처리,

    한글 공학, 정보검색, 문서 분류 및 요약, 키워드 추출, 컴파

    일러, 인공지능