2016년 제26권 제4호·겨울 - korean.go.kr · 21세기 세종계획의 후속 사업이기도 한 것이다. ≪ 우리말샘 ≫ 은 그 성격상 1 회성 사업으로 마칠

국립국어원 2016-02-04정간위 심의필 95-13-4-21

ISSN 1225-7168

새국어생활제26권 제4호(2016년 겨울) Vol. 203

인쇄일·발행일 2016년 12월 30일

펴낸이 송철의

편집위원 남길임·박재현·이동은·이상혁·김윤종

기획·편집 정호성·박선·김지숙·신다원

제작 ㈜늘품플러스

펴낸 곳 국립국어원(www.korean.go.kr)

주소 07511 서울특별시 강서구 금낭화로 154(방화동 827번지)

National Institute of Korean Language

154, Geumnanghwa-ro, Gangseo-gu, Seoul, Korea

전화 (02) 2669-9775

전송 (02) 2669-9737

※ 정기 구독 신청 및 구독 소감, 건의 사항 등 문의

≪새국어생활≫ 담당자│(02) 2669-9633│[email protected]

2016년 제26권 제4호·겨울

[특집] 진화하는 국어사전 ≪우리말샘≫: ≪우리말샘≫, ≪한국어기초사전≫,

다국어 사전

새로운 언어 사전과의 만남: ≪우리말샘≫, ≪한국어기초사전≫,

≪한-외 학습사전≫············································································ 9

김선철

한국어 웹 사전 사용자의 행동에 관한 생각 ····································· 27

정 철

사전의 진화와 미래 ··········································································· 43

배연경

≪우리말샘≫ 편찬 경과 ···································································· 65

이현주

≪우리말샘≫의 활용과 발전 방향: 신어, 생활 용어의 구축 ············ 87

남길임

신생 분야인 스마트 그리드 용어를 포함한 전기, 전자, 컴퓨터 분야의

개방형 한국어 지식 대사전 집필 시스템 및 세계화를 위한 제언 ···· 95

김정훈

≪우리말샘≫의 정착과 발전을 위하여 ············································ 105

최경봉

≪한국어기초사전≫과 ≪국립국어원 한국어-외국어 학습사전≫의

편찬 경과와 의의 ·············································································· 111

박정아

≪한국어기초사전≫의 구축 ······························································ 127

강현화

한국어 학습용 다국어 사전의 구축을 위한 번역 전략 ····················· 131

정호정

한국어 학습 사전의 향후 발전 방향에 대하여 ································ 139

이동은

2016년 제26권 제4호·겨울

지금 이 사람

시는 예술 이전에 언어문화다

- 김대행 서울대학교 명예 교수 ······················································ 143

이경우

문학 속 우리말

시조가 그린 그리움 ·········································································· 159

조하연

세계의 언어 정책

리투아니아의 언어 정책: 러시아어의 배제와 축출을 향해서 ·········· 169

정경택

그분을 그리며

현대 국어학의 개척자 이숭녕 선생 ················································· 193

이병근

국어 산책

몇몇 웹 소설을 읽고 ········································································ 207

최인호

국립국어원 소식 ···················································································· 223

[부록] ≪표준국어대사전≫ 정보 수정 내용 ····································· 249

진화하는 국어사전 ≪우리말샘≫:

≪우리말샘≫, ≪한국어기초사전≫, 다국어 사전

9

새로운 언어 사전과의 만남: ≪우리말샘≫,

≪한국어기초사전≫, ≪한-외 학습사전≫

김선철

국립국어원 언어정보과장

1. 들어가기

2016년 10월 5일 2시, 국립국어원의 새 국어사전 3종류가 개통 행사를

통해 세상에 모습을 드러냈다. 이날 발표된 사전은 3종 12개였는데, 먼저

그 목록을 제시해 본다.

(1) 국립국어원 새 국어사전

유형 사전 명칭 개요 비고

사용자

참여형

국어

기술 사전

≪우리말샘≫

회원 가입을 통한

일반인의 편찬 참여

가능(직접 집필, 기존

정보 수정 제안 등)

시범

운영

한국어

학습용

국어

사전

≪한국어기초사전≫ 기초 5만 단어 수록

2012년～

2015년 9월

시범 운영,

2015년 10월

본 운영 시작

특집 1

10

유형 사전 명칭 개요 비고

한국어

학습용

이중 언어화

사전(10개)

≪한국어-러시아어 학습사전≫

≪한국어기초사전≫의

표제어와 뜻풀이를

번역하여 병렬

제시

시범

운영

≪한국어-몽골어 학습사전≫

≪한국어-베트남어 학습사전≫

≪한국어-스페인어 학습사전≫

≪한국어-아랍어 학습사전≫

≪한국어-영어 학습사전≫

≪한국어-인도네시아어 학습사전≫

≪한국어-일본어 학습사전≫

≪한국어-타이어 학습사전≫

≪한국어-프랑스어 학습사전≫

이 사전들을 세상에 내놓고자 했을 때 가장 먼저 받은 질문은 “왜, 어떻게

만들게 되었나?”였다. 그도 그럴 것이, 국립국어원에는 이미 51만 단어

규모의 ≪표준국어대사전≫이 있었고 국내 대형 들머리(포털) 사이트에는

외국어 사전들이 줄줄이 들어선 지 얼마 되지 않았기 때문이었다. 그런데 이들

사전들과 국립국어원의 새 사전들은 (1)에서도 간략히 드러나듯이 기존의

사전들과는 아주 다른 것들이고, 따라서 만들게 된 동기는 각각 뚜렷하다.

이 글에서는 이 3종 12개 사전의 개발 동기로부터 시작하여 각각 어떤

특징이 있고, 서로 어떻게 다른지, 그리고 앞으로 어떻게 보완하고 발전해

나갈 것인지를 개략적으로 설명하고자 한다.

2. 사전 편찬의 배경과 의의

지금으로부터 25년 전인 1991년에 국립국어원(당시 명칭은 ‘국립국어연

구원’)이 개원하고 이듬해인 1992년부터 ≪표준국어대사전≫이 편찬되기

11

시작하였다. ≪표준국어대사전≫은 1999년 한글날에 완간되었는데, 당시

만 해도 도서로 분류되는 인쇄 사전의 형태로만 존재하였기 때문에 나날이

발전하는 사전 편찬 기법이나 국어학의 성과를 더하는 대대적인 보완 등의

개정을 지원받지 못하고 있었다. 당시는 정부 예산 편성의 특성상 새로운

사전을 만드는 것만 신규 사업으로 인정될 수 있었던 시절이었는데, 대규모

의 국어사전을 이미 만들어 두고 새 사전을 만드는 것처럼 보이는 일은 있을

수 없는 일이었기 때문에 기본 사업비만으로 인터넷 사전화하거나(2002년),

소폭의 개정(2008년)을 하였을 따름이었다.

이러던 중 이명박 정부 초기에 날로 발전하는 우리 경제와 문화를 생각할

때 기존의 전통적인 사전이 지니는 단점을 보완하면서 외국의 유수한 사전

규모에 버금가거나 그것을 넘어서는 국어대사전, 그리고 한류의 확산을 도울

한국어 학습 사전들을 만들 필요가 있다는 제안이 받아들여져 ≪우리말샘≫

을 필두로 한 12개 사전을 만들 수 있는 계획이 승인되고 예산이 주어진

것이다. 그래서 2009년에 기본 계획이 수립되고 그 다음 해인 2010년부터

본격적으로 이들 사전의 개발 및 편찬이 시작되었다.

이 사전들 가운데 가장 주목을 받고 있는 것은 아무래도 ≪우리말샘≫이

며 그럴 수밖에 없는 상황임을 누구나 인정하는 듯하다. 왜냐하면, 지금껏

국립국어원은 어문 규범의 수호자, 또는 전통적인 언어 규범을 지키는 최후

의 보루쯤으로 여겨져 왔는데, ≪우리말샘≫은 규범과 무관하게 언어 현실을

최대한, 그리고 거의 있는 그대로 담아내는 이른바 ‘기술 사전’임을 표방하

기 때문이다. 즉, 규범 설정 및 보급을 맡은 기관에서 어떻게 규범 사전과

동시에 기술 사전을 운영할 것인가가 사회적 관심이 아닐 수 없다는 것이다.

이러한 면에서 국어 분야에 종사하는 분들은 지대한 관심과 함께 어떤 우려

를 나타내기도 하였는데, 그 주된 이유는 아주 순수한 기술 사전을 국가

기관에서 운영하기는 매우 난처한 경우도 많을 것이라는 추측에서였다.

개통 후 지금까지 운영해 온 경과를 바탕으로 이에 답하자면, 이러한 추측은

12

반은 맞고 반은 틀렸다고 할 수 있다. 대부분의 신규 제안 어휘에 대해서는

이미 객관적으로 타당하다고 여겨질 정도의 판정 기준을 들어 등록 여부를

가릴 수 있었고, 나머지는 미처 생각지 못한 어휘 유형들로서 그 처리 방안을

새로이 지침에 반영해 왔기 때문이다. 또한, 아무리 기술 사전이라 하더라도

법을 어기는 수준의 올림말을 수록하는 경우는 있을 수 없기 때문에 ≪우리

말샘≫의 현실 반영 수준은 세계 유명 사전들과 다르지 않다. 따라서, ≪우리

말샘≫은 사용자 참여(즉, 이른바 ‘집단 지성’)를 통해서 우리말의 어휘

자원을 총괄 수집하고 어휘나 각종 올림 표현들의 내적 정보들(국어 화자들

의 언어 지식)의 정확도를 높이자는 편찬 취지를 그 의의로 내세움에 부족함

이 없다고 여겨진다. 다만, 필자가 파악하기로는 세계 최초로 사용자 참여형

으로 운영되는 언어 사전이며 수록 항목 규모로도 현재 세계 최대인 사전이

≪우리말샘≫인데, 인터넷 시대인 지금 사전의 평가를 운영 방식이나 규모

로 내리는 것이 그리 설득력 있는 것은 아니기 때문에 다른 측면에 대한

평가나 의의 부여는 독자께서 각자 해 주시기 바란다.

3. 새 국어사전의 속성

｢한글 맞춤법｣, ｢표준어 규정｣, 그리고 ≪표준국어대사전≫으로 대표되

는 국립국어원의 국가적 어문 규범 정책으로 말미암아 ≪표준국어대사전≫

이 공공 영역에서 확고한 언어 지침이 된 지 벌써 오래이다. 단어의 정의가

필요한 신문 논설 등에서 ≪표준국어대사전≫을 인용하거나, 교과서를 비

롯한 각종 출판물의 편집 지침에서 ≪표준국어대사전≫의 표기와 띄어쓰기

가 주축인 것이다.

이러한 환경에서 다른 두 개의 국어사전이 탄생하였으므로 국민들이

이 두 사전에 대해서 이해하기 위해서는 ≪표준국어대사전≫을 축으로

13

삼아 서로를 비교해 보는 것이 필요해 보인다. 먼저 간단하게 각 사전의

속성을 표로 정리해 보자(2016년 11월 기준).

(2) ≪표준국어대사전≫, ≪우리말샘≫, ≪한국어기초사전≫ 비교

구분 ≪표준국어대사전≫ ≪우리말샘≫ ≪한국어기초사전≫

편찬

목적언어생활의 지침 제공

우리말 어휘 자산의 집결

무료 한국어 학습용어휘 사전 마련을 통한 한국어 확산에 기여

유형 규범 사전 기술 사전 규범 사전

어휘

규모약 51만 개 약 100만 개 약 5만 개

등재

단위어휘 의미(뜻풀이) 어휘

운영

방식폐쇄형

(국립국어원 단독 관리)

개방형(국민 참여 및 전문가 감수)

폐쇄형(국립국어원 단독 관리)

존재

형태인터넷 사전 인터넷 사전 인터넷 사전

콘텐츠

저작권국가 소유 저작권 없음 저작권 없음

발간(개통)연월

1999년 10월 2016년 10월 2016년 10월

잘 알려져 있듯이 ≪표준국어대사전≫은 종이 사전으로 출발한 국가

대표의 규범 사전으로, 편찬 이전에 각 민간 사전마다 달랐던 어휘별 표기,

발음, 의미 등으로 인해 언론, 출판 등에서 혼란이 적지 않았던 사회상을

배경으로 탄생하였다. 즉, 서구처럼 오랜 시민 사회를 겪으면서 자율적으로

어문규범이 확립되는 기회를 갖지 못하고 일제 치하에서 말살 직전에 이르

렀다가 광복과 함께 급작스러운 근대화를 맞이할 수밖에 없었던 우리 사회

는 자연스러운 언어 표준이 없었기 때문에 다소간 혼란을 겪고 있었고,

14

국가 체제 확립을 위해서 불가피하게 인위적인 언어 표준화가 단행되었다.

그 대표적인 것이 바로 4대 어문 규범으로 일컬어지는 ｢한글 맞춤법｣(1988),

｢표준어 규정｣(1988), ｢외래어 표기법｣(1986), ｢국어의 로마자 표기법｣(2000)

이었다. 그런데 표준어 규정만으로는 언어로서의 표준어나 단어로서의 표준

어를 정할 수 없었다. 개별 어휘의 표기를 규정하고자 한 ｢한글 맞춤법｣ 역시

국어의 모든 어휘를 직관 또는 전통적인 관습에 맞게 적는 기준으로는 부족

하였기 때문이다. 이를 기초로 한 민간의 사전들이 바로 그 증거였다.

따라서 교육, 공문서 작성, 방송 등의 공적인 영역에서 언어적 혼란 특히

최대한 단일하여야 하는 표기의 혼란이 있었고, 국민의 언어생활을 안내하

는 임무를 맡은 국립국어원으로서는 적어도 어휘와 표기의 측면에서 단일한

규범을 만들어야 했다. 그것이 ≪표준국어대사전≫이다.

발간 당시의 사전은 당연히 종이 사전 형태였고 사전에 오르는 단어들은

언어문화적 가치가 있는 것, 즉 표준어 혹은 규범어로 인정될 만한 것이

중심이었다. 이에 더하여 북한어, 방언, 옛말을 기존의 사전들보다 확장하여

싣거나 다소 비속하거나 비표준적인 것을 싣기도 하였지만 규범 안내를

위해서 고빈도를 보이는 것이어야 했으므로 등재어는 대단히 제약적일 수밖

에 없었다. 당연히 등재어나 뜻풀이 등 미시 구조의 변개는 매우 신중하게

이루어졌고 보수적인 어문 규범 정책의 핵심이 되었다. 2001년에는 종이

사전을 그대로 옮겨 시디 사전을, 2002년에는 인터넷 사전을 개통하였으나

내용이 달라진 것은 없었고 2008년 인터넷으로만 운영하기로 하고 개정하면

서 수천 개의 표제어가 추가되었다. 2010년부터는 정보보완심의위원회를

두고 분기별 1회씩 오류를 수정하거나 새로 정립된 언어 현상을 반영하는

등으로 관리되고 있다. 그러나 여전히 규범 안내 기능 중심의 규범 사전임에

는 변함이 없다.

이러한 규범 사전의 편찬 및 유지, 관리는 설립 당시부터 지금까지 수행하

여 온 국립국어원의 핵심 기능에 포함됨에 틀림이 없다. 그런데 이 외에도

15

국립국어원의 임무가 여럿 설정되어 있는데 그 가운데 하나가 국가 언어

자원의 수집 및 정보 서비스이다1). 이러한 자원 수집 및 분석이 뒷받침되지

못하면 규범의 합리적 수립이나 정비가 불가능하기 때문에 이는 매우 당연

한 임무라 할 것이다. 이러한 임무의 일환으로 추진되었던 대표적인 사업이

10년간 수행되어 2007년에 종료된 ‘21세기 세종계획’이었다. 이 사업에서는

주로 말뭉치, 기계용 전자사전 등 전산 처리용 자원을 구축하거나 옛 글꼴

등 전산화가 필요한 자료들을 전산화하고 또 흩어져 있던 여러 국어 자료들

을 한데 모아 정리하는 활동을 하였다. 여기에서 만들었던 국어 어휘 자원의

총집합체를 사전 형식으로 만든 결과가 곧 ≪우리말샘≫의 큰 부분을 차지

함을 부인하기는 어렵다. 즉, 어떤 면에서는 ≪우리말샘≫ 구축 사업이

21세기 세종계획의 후속 사업이기도 한 것이다.

≪우리말샘≫은 그 성격상 1회성 사업으로 마칠 수 없는 것이어서 영속적

으로 새 어휘를 더하여 가는 방법론이 필요했는데, 그 수단으로 개방형 체제

를 취하기로 결정되었다. 그것은 첫째, 현실적으로 국립국어원 자체 인력과

예산만으로 수행하기는 버겁고, 둘째로 개방성이 강조되는 사회 환경이 도래

하였으며, 셋째로 발달된 정보 통신 기술을 활용하여 일반 사용자가 편찬에

참여할 수 있는 시스템을 개발할 수 있음을 감안한 것이었다. 그런데 여기서

의 개방성은 위키피디아처럼 완전한 개방성 또는 동시 접속 편집 엔진을

뜻하는 것은 아니다.

≪우리말샘≫의 개방성은 두 가지 측면에서 따져 볼 수 있다. 첫째는

(2)에 나타낸 것과 같은 편찬자의 개방이다. 이 개념은 국립국어원 직원이

아닌 일반 국민이 회원 가입을 통해 편찬에 직접 참여할 수 있다는 것이다.

≪표준국어대사전≫에는 각 어휘 항목마다 화면 아래에 ‘의견 보내기’난이

있어서 본명이나 익명으로 오류나 개선안 제보를 할 수 있는데, 이것도

1) 국립국어원 누리집 > 국어원 소개 > 설립 목적 참조

16

일종의 참여 기능이라고 볼 수 있다. 그러나 ≪우리말샘≫에서는 이보다

훨씬 직접적으로 참여할 수 있어서 새 어휘의 미시 구조를 능력껏 집필해서

제안할 수 있고, 기존 어휘의 수정도 역시 능력껏 가할 수 있다. 그러나

그 활동 결과가 바로 노출 또는 검색되지는 않는다. ≪우리말샘≫에서는

대표적인 집단 지성 백과사전인 위키피디아의 정보를 학계에서 아직 신뢰하

지 못하는 점을 감안하여 집단 지성에만 의존하는 정보 생성 체계보다 더욱

빠르게 신뢰할 수 있는 정보가 완성되도록 하기 위한 방편을 채택한 때문이

다. 그래서 취지에 맞는 제안은 등록을 거쳐 우선 ‘참여자 제안 정보’에서

검색되며, 이에 대한 전문 감수가 완전히 끝나면 ‘전문가 감수 정보’에서

기본적으로 노출된다. 두 번째의 개방성은 수록 어휘나 구, 즉 표제항에

대한 것이다. ≪표준국어대사전≫은 앞서 말한 대로 제약적인 규범 사전이

어서 신어나 구어를 마음껏 올리지는 못하였으나, 자원 축적용 사전인 ≪우리

말샘≫은 사회성만 확인된다면, 그리고 단적으로 표현해서 사회 통념상

윤리적인 문제만 없다면 표제항을 한껏 수용하고자 하는 사전이다. 개통

당시에 ≪표준국어대사전≫에 올리지 못하였던 신어, 생활 용어, 전문 용어

를 40만 항목 정도 수록하였고, 개통 1개월 만에 약 1천 개의 어휘 또는

구가 사용자 제안으로 신규 등록되거나 수정되었다는 점을 고려하면 이러한

특징이 잘 구현되고 있음을 알 수 있을 것이다.

≪한국어기초사전≫은 학습 사전이기 때문에 보수성이 ≪표준국어대사

전≫에 준하는 사전이라고 할 수 있다. 다만 한국어의 규범에 대한 지식과

감각이 뒤떨어질 수밖에 없는 외국인의 한국어 학습용이기 때문에 언어

현실에서 자주 쓰이는 비표준적인 표현을 다수 실으면서 표준적인 것을

알려 주는 체제를 택하였다.

흔히 외국어를 공부할 때 용언 변화형이 잘 찾아지지 않아 곤란한 경우가

있다. 국어도 외국인 입장에서는 불규칙 용언이 불편한 요소라서 용언의

변화형이 찾아질 수 있도록 검색 대상화하였다. 또한 외국어에서는 한 단어인

17

데 국어에서는 둘 이상의 단어로 구성된 구 표현인 경우가 표제항으로 설정

되기도 하였다. 예를 들어 ‘-ㄴ 것 같다’, ‘-ㄹ까 싶다’, ‘-ㄹ 만큼’, ‘-에

관한’ 등인데 이를 ≪한국어기초사전≫에서는 문법‧표현이라고 일컫는다.

이러한 체제는 ≪한-외 학습사전≫에 그대로 이식되기 때문에 ≪한국어기

초사전≫과 ≪한-외 학습사전≫의 차이는 번역 여부이다.

≪한-외 학습사전≫은 표제어의 대응어, 그리고 뜻풀이의 번역이 추가된

다는 점에서 ≪한국어기초사전≫과 구별된다. 또한 메뉴나 도움말 같은

메타 요소들도 당연히 번역되어 있다. 앞으로 예문도 번역하여 제공하는

것이 과제 중 하나이다.

네 가지 사전의 미시 구조는 다음과 같다.

(3) ≪표준국어대사전≫, ≪우리말샘≫, ≪한국어기초사전≫, ≪한-외

학습사전≫의 미시 구조

미시 구조 ≪표준국어대사전≫ ≪우리말샘≫ ≪한국어기초사전≫≪한-외 학습사전≫

표제항표기

○ ○ ○ ○

원어 정보 ○ ○ ○ ○

발음 정보 ○ ○ ○ ○

발음 녹음 ○ ○ ○ ○

전문 분야정보

○(53개 분야)

○(67개 분야)

활용 정보 ○ ○ ○ ○

품사 정보 ○ ○ ○ ○

문형 정보 ○ ○ ○ ○

문법 정보 ○ ○ ○ ○

뜻풀이 ○ ○ ○

○(대응어, 번역된 뜻풀이 추가

제시)

18

미시 구조 ≪표준국어대사전≫ ≪우리말샘≫ ≪한국어기초사전≫≪한-외 학습사전≫

관용구/속담

○ ○ ○ ○

용례 ○ ○ ○ ○

관련 어휘 ○ ○ ○ ○

어원 정보 ○ ○ ○

사진/삽화/동영상

○(동영상 제외)

○ ○ ○

역사 정보(설명/이표기/

세기별 용례)

○(시대순 어휘변화의 나열에

한정)

○

어휘 지도 ○

규범 정보 ○ ○ ○

전문 지식정보

○

위 표에 드러나지는 않지만 ≪우리말샘≫의 미시 정보는 ≪표준국어대

사전≫의 것과 상당히 다른 점이 있다. 우선, ≪표준국어대사전≫에서는

발음 기호가 표기와 같으면 발음 정보를 생략하여 발음 정보를 주지 못한

북한어나 방언, 외래어, 기타 비규범어에 발음 정보가 있는 것인지 아닌지

선뜻 구분할 수 없었다. 이는 일러두기를 통해서만 알 수 있기 때문이다.

이와 같은 종이 사전의 공간 절약형 편찬 방식에서 오는 불편을 없애기

위해서 ≪우리말샘≫에서는 발음 기호와 표기가 같더라도 발음 정보를 채워

넣었다.

전문 분야 체계도 새로 설정하였는데, ≪표준국어대사전≫에서 53개로

나뉘었던 것을 ≪우리말샘≫에서 67개로 확장하였다. 이는 새로 추가된

다수의 전문 용어들을 처리하는 과정에서 분류 체계 재설정이 필요하다는

결론에 이른 때문이었다. 그 결과 새로운 분야가 추가되거나 기존의 분야

할당 지침이 다소 바뀌기도 하였다.

19

뜻풀이는 크게 달라지지 않았으나, 약 8만 8천 개 항목에서 ≪표준국어대

사전≫보다 쉽게 풀이한 것이 있다. 그러나 큰 틀에서는 ≪표준국어대사전≫

의 뜻풀이 지침이 거의 그대로 활용되었다.

가장 크게 달라진 것 가운데 하나가 관련 어휘이다. ≪표준국어대사전≫

에서는 동의어, 본말, 준말, 비슷한말, 반대말, 높임말, 낮춤말, 참고 어휘가

관련 어휘의 개념에 포함된다. 그리고 이것들은 미시 구조 맨 끝에 통합하여

제시되기 때문에 각각의 관련 어휘가 어느 의미에 해당하는지 알아보기가

수월치 않았다. 이러한 점을 모두 개선하였는데, 일단 ≪우리말샘≫의 등재

단위가 뜻풀이이기 때문에 그 각각마다 의미 단위의 관련 어휘들이 제시되

며, 비슷한말, 반대말, 높임말, 낮춤말, 본말, 준말, 상위어, 하위어, 방언,

옛말로 관련 어휘 목록이 조정되었다. 또한, 내용적으로 ≪표준국어대사전≫

의 관련 어휘 정보가 부족한 점이 없지 않아서 정비 사업을 통해 오류를

수정하거나 상위어, 하위어 등을 보충하였다. 이 가운데서 방언과 옛말을

제외한 의미 관계를 중심으로 어휘 지도가 그려져 서비스되고 있다. 어휘

지도는 각 어휘별 세부 내용 화면의 맨 아래에 배치되어 있기도 하고, 기본

상단 메뉴 중에서도 선택할 수 있어 별도의 창으로 이용할 수 있다.

역사 정보가 그다음으로 크게 바뀐 정보 영역이다. 이를 보면 세기별

어휘 표기를 제시하면서 그 아래에 역사적 변천에 대한 설명을 하고, 이표기

를 제시하면서 세기별 용례까지 보여 준다. ‘돌아가다’의 역사 정보를 예로

들면 아래와 같다. 이러한 처리가 되어 있는 것은 국어사 자료 여건이 허락된

5천 항목이다.

20

한편, 12,800여 개의 옛말 표제어에는 예문을 현대 국어로 번역하기도

하였다. ‘오얏’의 예는 다음과 같다.

21

규범 정보는 어휘마다 표기, 표현, 의미, 순화, 외래어 표기, 로마자 표기

등에 관련된 내용을 규범 관점에서 서술한 정보이다. 예를 들어 ‘작다’를

보면 “ ‘작다’와 ‘적다’를 혼동하여 쓰는 경우가 많으나 구별하여

써야 한다. ‘작다’는 크기의 개념으로 ‘키가 작다.’, ‘작고 조용한 마을’과

같이 쓰며, ‘적다’는 양의 개념으로 ‘적은 돈’, ‘관심이 적다.’와 같이 쓴다.

‘작다’의 반대말은 ‘크다’, ‘적다’의 반대말은 ‘많다’이다.”처럼 해당 영역을

밝히면서 내용을 전개하고 있으며, 약 2만 개의 어휘에 부가되어 있다.

한국어 학습 사전들에서는 (3)에서 보듯이 미시 구조가 조금 적게 설정되

었다. 한국어 학습자 관점에서 너무 많은 정보가 노출되는 것이 그다지

바람직하지 않다고 판단하였기 때문이다. 또한 관련 어휘도 조정되어 유의

어, 반대말, 큰말, 작은말, 센말, 여린말, 본말, 준말, 높임말, 낮춤말, 참고어가

제시된다. 여기서는 이러한 관련 어휘로 어휘 지도를 보여 주지는 않는다.

5만 단어 규모로는 어휘 지도가 그다지 유용하지 않기 때문이다.

4. 앞으로의 발전 방향

이번에 탄생한 새 국어사전들은 우리말이 사어가 되지 않는 한 완성이라

는 개념이 적용되지 않는다. 따라서 조금씩, 때로는 그보다는 많이 언어

22

변화가 반영되어 나갈 것이다. 그러나 이런 모습으로만 사전을 관리하고자

하는 것은 아니다. 보다 적극적인 발전의 여지가 있다는 뜻이다.

우선 ≪우리말샘≫에서 미시 구조 각각의 내용면에서 아쉬움이 없지

않다. 그런데 이는 상당 부분 기존의 종이 사전 체제에서 이어받은 유산이라

고 할 수 있다. 미시 구조 순서대로 몇 가지를 나열해 본다.

첫째, 북한어 표제어를 전면 재검토할 필요가 있다. ≪표준국어대사전≫

에서는 편찬 당시 남한 사전에 없는 ≪조선말 대사전≫의 기본 표제어, 즉

문화어를 북한어로 처리하였고, 발간 이후 북한어로 처리되어 있던 것 가운

데 남한에서도 쓰이는 것을 간간이 발굴하여 북한어에서 제외해 왔다. 그러

나 전체를 말뭉치나 언어 현실과 비교 검토하여 순수한 북한어와 그렇지

않은 것을 가릴 필요가 있다.

둘째, ≪우리말샘≫ 개발 당시에 역사 정보를 구축하면서 옛말 표제어로

쓸 만한 것들이 다수 발굴되었다. 그러나 여러 사정으로 이를 표제어화하지

못하였다.

셋째, 원어 정보이다. 기존의 사전처럼 ≪우리말샘≫에서도 외래어의

경우 해당 외국어에 실존하는 표현인지 아닌지에 대한 정보가 주어지지

않은 경우가 있다. 예를 들어, ‘선글라스’는 ‘(←sunglasses)’로 되어 있어

영어의 원래 표현이 있고 그것에서 형태가 변한 것임을 알려 주거나, ‘콩글리

시’처럼 ‘(▼Konglish)’로 표시하여 해당 언어에 존재하지 않는 표현임을

알려 주지만, ‘다운(down)하다’에는 그러한 표시가 주어지지 않는다. 기실

영어의 ‘down’에는 동사적 용법도 있어 ‘급히 먹다, 격추하다’ 정도의 의미가

있는데 정작 국어에 와서는 ‘(온라인에서)내려받다’로 쓰이므로 이는 영어에

없는 어법이다. 그렇다면 이른바 이는 콩글리시에 해당되는데, 이에 대한

명확한 지침이 없었던 상황이다. 이러한 점들을 면밀히 살펴서 외래어 및

외래어가 섞인 혼종어에서 원어 정보를 어떻게 처리해 주는 것이 일관적이

고 또 정보적 가치가 있을지 사전학적인 검토와 그에 따른 조치가 필요하다.

23

넷째, 발음 정보이다. ≪우리말샘≫은 기술 사전이므로 표준 발음뿐 아니

라 현실 발음도 사회성이 부여된 것이라면 충분히 추가할 수 있다. 아직은

일반 회원들이 발음을 추가한 사례는 거의 없는데, 아마 표기나 뜻풀이가

주요 관심 사항이기 때문일 것이다. 고빈도 어휘 표준어 가운데 간혹 과거에

는 충분히 표준 발음의 자격을 누렸던 것이 이제는 빈도가 떨어지고 다른

발음에 자리를 내주는 경우가 있어 적절한 범위 내에서 일괄 조사 후 추가

처리를 할 필요가 있어 보인다.

다섯째, 앞에서 ≪표준국어대사전≫에 비해 관련 어휘로서 방언과 옛말

이 추가되었다고 밝혔다. 여기에서의 옛말은 ≪표준국어대사전≫의 뜻풀이

가 ‘～의 옛말’인 표제어를 실었는데, 간혹 ≪우리말샘≫의 세부 정보에서

그 바로 밑에 나오는 역사 정보와 불일치하는 경우가 있다. 이는 우선 ≪표준

국어대사전≫에서 의미적 옛말이건 형태적 옛말이건 가리지 않고 ‘옛말’로

포괄적으로 지칭한 때문이고, 관련 어휘 구축과 역사 정보 구축이 동시에

이루어지다 보니 상호 참조가 되지 못한 탓도 있다. 따라서 우선 관련 어휘의

옛말을 어원적 옛말과 유의적 옛말로 구분하고2), 적어도 ≪우리말샘≫ 내에

등장하는 관련된 옛말을 빠짐없이 수록하는 것이 필요하다.

여섯째, 사동사와 피동사의 뜻풀이가 ‘～의 사동사’, ‘～의 피동사’로 종이

사전 시대의 형식에 머물러 있다. 그래서 독자는 ‘～’에 해당되는 동사를

다시 찾아 보아야 하는 불편을 겪어 왔다. ≪우리말샘≫의 등재 단위인

뜻풀이 숫자로 이러한 사동사는 847개, 피동사는 1,173개여서 뜻풀이를 풀어

헤쳐서 독자들이 종이 사전 시대의 불편을 겪지 않도록 할 필요가 있다.

일곱째, 다중 매체(멀티미디어) 정보의 확충이다. ≪표준국어대사전≫에

서 가져온 사진, 삽화와 더불어 추가로 구축한 동영상, 음성 파일이 다수

있으나 부족하며, 앞으로 무한히 등장할 새 어휘에 대한 정보 보충을 위해서

2) 사전 화면에서의 명칭은 별도로 고안해야 할 것이다.

24

이는 앞으로 계속 주기적으로 해야 할 일이다. 현재로서는 각종 전문 용어에

대한 자료가 우선 아쉽다. 복잡하고 어려운 설명보다 그림 한 장, 사진

하나가 큰 도움이 될 것이기 때문이다. 예를 들어, ‘디스트리뷰터’에는 “점화

코일에 발생한 고전압을 점화 순서대로 플러그에 점화하는 기계. 자동차

부품의 하나로, 단속기‧점화 시기 조정 장치‧배전부 따위로 이루어져 있다.”

라는 설명문만 뜻풀이로 제시되어 있을 뿐, 다중 매체 자료는 구비되어

있지 않다.

한국어 학습 사전류에서도 보충해야 할 점들이 적지 않다.

첫째, ≪한-외 학습사전≫에서는 꼭 필요한 표제어와 뜻풀이를 각 언어

로 번역해 두었다. 그러나 예문에도 어휘별 대응어가 부가되거나 문장 전체

가 번역되면 학습자에게 도움이 될 것이다.

둘째, 예문 전체를 녹음해서 들려주는 서비스도 학습자에게 유용할 것이다.

셋째, ≪우리말샘≫과 마찬가지로 다중 매체 정보가 충분히 갖추어질

필요가 있다. 다중 매체 정보는 특히 기본 어휘에 속하는 우리 문화에 독특한

면을 표현하는 명사는 물론 동사나 형용사, 상징어를 포함한 부사 등에서

우리말 특유의 의미 영역이 있을 수 있으므로 그 어의를 이해시키는 데

유용할 것으로 본다.

5. 나가기

지금까지 2016년에 개통한 ≪우리말샘≫, ≪한국어기초사전≫ 및 10개

≪한-외 학습사전≫에 대해서 개략적으로 살펴보았다.

≪우리말샘≫은 우리 사회에서 첫 대규모 기술 사전으로 인식되어 이번

개통의 얼굴 역할을 맡아서 사회적으로 주목받았으며, ‘진화하는 사전’이라

는 속성으로 홍보된 바 있다. 이는 사용자 참여형이라는 편찬 양식으로

25

말미암아 다른 사전보다 현재화 속도가 현저히 빠를 것이고, 사용자 편의도

날로 높게 하겠다는 국립국어원의 의지를 담은 것이기도 하다.

≪한국어기초사전≫과 ≪한-외 학습사전≫은 살아 있는 한국어를 배우는

사람들을 위한 사전이므로 관리 책임자가 항상 눈과 귀를 크게 언어 현실에

대고 있어야 그 가치를 구현할 수 있다. 이와 더불어 날로 발전하는 교육학적

성과를 반영하기도 해야 한다. 따라서 이 또한 진화‘해야 하는’ 사전이 아닐

수 없다.

이러한 의도가 제대로 구현될 수 있도록 될수록 많은 국민의 참여와

바람직한 기여, 관심이 이 모든 사전에 끊임없이 이어지기를 고대해 본다.

그러한 사회적인 주목이 이 사전의 관리 책임을 맡은 이에게 힘과 더욱

열심히 일하는 동기가 되기 때문이다.

27

한국어 웹 사전 사용자의 행동에 관한 생각

정 철

카카오 검색 기획 분야

1. 사용자의 행동은 읽기 어렵다

나는 웹 사전을 기획하는 사람이라 언중들이 사전을 어떻게 이용하고

있는가 알고 싶다는 욕망은 이전부터 계속 가져 왔다. 그래서 설문 조사나

심층 면접(FGI, Focus Group Interview) 등을 종종 해 보기도 했지만

거기서 얼마나 적절한 결론을 이끌어 냈는지는 의문이 있다. 사람들은 자신

의 행동을 개별적으로 인식하고 있지도 않을 뿐 아니라 그것을 있는 그대로

얘기하는 것도 어려워하기 때문이다. 이상한 공간에서 누가 관찰한다고

했을 때 사용자가 평소대로 행동할 것이라 100% 믿기는 어렵다.

그래서 사전 기능을 추가할 때는 아무래도 주관적인 발상을 통해 먼저

기획을 진행한 뒤 주변에 물어봐서 반응을 보고 결정하는 경우가 많았다.

물론 그것으로 인해 얼마만큼의 사용자 만족도가 증가했는가 등도 측정하기

어려웠다. 대략 주변인들의 평가 등을 통해 정성적으로 예상하는 것이 보통

이다. 이상하게 만들면 나쁜 피드백이 돌아오므로 별 피드백이 없고 사용률

이 떨어지지 않으면 ‘아, 괜찮은 기획이었나.’ 하고 생각하곤 했다.

사용자 만족도를 측정할 수 있는 극단적인 기회가 하나 있는데 그건

유지하던 기능을 없애는 것이다. 기능을 없앴다 살리는 방식으로는 기능

특집 2

28

유지 여부를 결정하진 않지만 가끔 특정 기능을 없애게 되면 그 기능을

쓰던 사용자들의 문의가 다수 들어오기 때문에 ‘아, 이것을 사용하는 사람들

도 꽤 있구나.’ 하는 피드백을 얻을 수 있다.

하지만 그것도 잠시뿐이고 다수의 사용자들은 침묵하거나 금방 적응해

버린다. 심지어 질적으로 더 좋은 사전을 제공해 주어도 기존의 익숙한

사전을 도로 내놓으라 하는 경우까지 있기 때문에 사용자의 요구와 행동

양상을 제대로 파악하는 것이란 보통 힘든 것이 아니다. 그래서 사전의

기능이나 내용은 점차 비대해질 뿐 내적으로 충실해지거나 오류를 지워

나가는 일들은 잘 일어나기 어렵게 된다. 다시 말해 사전 콘텐츠를 효과적으

로 정리하고 사전 기능을 꼭 필요한 기능 위주로 최적화하는 작업은 아직

걸음마 단계라고 볼 수 있다.

그래도 포털 사이트 내에서 서비스를 만드는 입장에서 기존 국어학 전공

자들이 보는 시각과는 다른 관점과 정보를 일부 가지고 있어 그것을 공유하

는 마음으로 이하 내용을 기술하려 한다. 이용자 행태를 좀 더 본격적으로

추적하기 위해서는 목적을 먼저 정하고 그 목적에 맞는 자료를 지속적으로

수집하는 것이 먼저임을 통감하는 계기가 되었다.

2. 웹 사전 이용자의 숫자

최근 10년간 개인용 컴퓨터(PC) 웹 사전 이용자의 숫자는 아래와 같다.

2008년, 2009년에 하루 이용자 1,600만 명으로 정점을 찍고 점차 감소하고

있다. 이 감소분은 다수가 스마트폰 환경으로 이동한 것이다. 웹 사전 이용자

의 숫자는 줄어들지 않았다.

29

표 1 개인용 컴퓨터 웹 사전 일 이용자 숫자

(네이버, 다음 등 모든 사전 서비스 포함한 결과, 출처: 코리안 클릭)

동일한 기관의 그래프가 아니므로 단순하게 비교할 수는 없지만 다음에

서 모바일 웹 서비스를 만든 2011년 이후 점차 모바일 웹 서비스의 일

방문자가 증가하고 있다. 개인용 컴퓨터와 모바일 사용자를 더하면 개인용

컴퓨터만 사용했을 때에 비해 이용자가 드라마틱하게 증가하진 않았다.(표

2) 전체적인 사용량도 마찬가지여서 인당 사전 페이지 조회 수는 대체로

일정했기 때문에 큰 차이가 없다.(표 3) 그래프의 세로축은 수치를 밝히기

어려워서 의미 없는 상댓값으로 바꾸었다.

표 2 개인용 컴퓨터+모바일 웹 사전 월 이용자 수 추이

(상대 수치, 출처: 다음 내부 자료)

30

표 3 개인용 컴퓨터+모바일 웹 사전 월 이용량 추이

(상대 수치, 출처: 다음 내부 자료)

거칠게 해석하자면 스마트폰 보급 이후 웹 사전을 이용하는 경로는 늘어

났고 사전 이용량도 늘었겠지만 크게 보아 최근 10여 년간 웹 사전 사용량

자체는 비교적 일정했다. 한국은 개인용 컴퓨터 환경일 때부터 인터넷 보급

률이 높았고 또 인터넷 초기부터 사전 서비스가 제공되어 왔으므로 웹 사전

을 이용하는 사람들의 숫자는 어느 정도 포화된 느낌이 있었다.

그리고 [표 1]에 보이는 1,600만 명 등의 수치는 정확하다고 말하긴 어렵

다. 왜냐하면 사전 검색 결과는 포털 사이트의 통합 검색 결과에 노출되는데

다수의 사람들이 통합 검색 결과만 보고 이탈해 버리는 경우가 많기 때문이

다. 사전 상세 페이지까지 와서 내용을 읽는 사용자는 드물다. 다시 말해

검색 결과 자체가 사전적인 효과를 가지고 있으므로 꼭 사전 내용이 노출되

지 않더라도 사람들의 의문은 검색 행위 자체만으로 해소된다. 그럼에도

불구하고 ‘1,600만’이라는 숫자는 언어 학습 욕구가 있는 대부분의 사람들이

필요할 때 사전을 찾아볼 수 있는 환경 속에 있다는 것을 의미한다.

31

3. 사전 이용 비율

다음에서 어떤 사전을 많이 사용하는가를 보면 압도적으로 영어 사전이

많다. 영어 사전이 69%, 한국어 사전이 11%, 중국어 사전이 9%, 한자

사전이 6%, 일본어 사전이 4%이다. 다국어 사전은 모두 합해도 1% 정도의

비율을 차지한다.(표 4)

한국에서 프랑스어, 스페인어, 러시아어 등 주요 유럽 언어를 직접 번역할

사람이 줄어들까 봐 걱정하는 것도 당연하다. 중국어와 일본어가 예전엔

비교적 엇비슷한 비율을 차지했었지만 지금은 일본어가 중국어의 절반 정도

에 불과하다. 다음 일본어 사전은 고지엔(広辞苑)이라는 훌륭한 일한사전을

서비스 중인데도 그러하다.

반면에 한자 사전의 6%라는 숫자는 꽤 고무적이다. 다음 한자 사전은

웹 한자 사전 중에서는 품질이 좋은 편이 아니므로 앞으로 충실한 사전으로

만들어 낸다면 숫자는 더 올라갈 것이다. 사람들의 언어생활 속에서 한자가

차지하는 비중은 의외로 엄청나게 높다. 한국어 사전을 찾는 비율이 한자

사전의 두 배밖에 되지 않는다는 것은 특기할 만한 사실이다.

표 4 2009년～2016년 월 평균 페이지 뷰의 사전별 이용 상대 비율

영어(59%)

한자(6%)

일본어(4%)

중국어(9%)

다국어(1%)

한국어(11%)

32

이러한 추이는 시계열적으로 살펴봐도 큰 차이가 없다. 영어 사전 이용은

60% 중반에서 후반으로 오히려 점차 상승했고 일본어와 중국어의 이용은

감소했다. 한국어 사전의 이용 비율은 비교적 일정하다.(표 5)

표 5 2009년～2016년 월 평균 사전별 이용 추이

영어

한국어

한자

중국어

일본어다국어

4. 무엇을 알고 싶어 하는가: 맞춤법, 철자, 띄어쓰기, 외래어

나는 사전 검색어 로그를 분석하여 그 결과를 정리한 것으로 석사 논문을

썼다. 그중 일부의 결과를 여기에 소개해 본다. 이것을 보면 사람들이 사전에

서 무엇을 알고 싶어 하는지 대략적으로라도 살펴볼 수 있기 때문이다.

이 자료는 2009년의 검색어 일부를 전수 검수 해서 정리한 것이다. 도저히

다시 정리할 엄두가 안 나는 작업이므로 시간이 좀 지났지만 다시 한 번

33

사용하기로 한다. 괄호 안의 숫자는 2009년의 한국어 사전 검색어 로그

122만 건 중에서 출현한 빈도수를 의미한다.

(1) 띄어쓰기

와 닿다(1,346) 와닿다(786), 와닫다(222), 와닺다(61), 와닷다(57),

와다았다(50), 와닿는(48), 와닸다(47), 와닿는다(41),

와닫는(23), 와닻다(11)

뿐만(622) 뿐 만(622)

더할 나위(259) 더 할 나위(259)

하 수상(195) 하수상(195)

본의 아니게(166) 본의아니게(166)

것이에요(925),

거예요(500)

거에요(290), 예요(83), 것 이에요(27), 것이예요(17),

거예요.(8)

내 것(149) 내꺼(149)

피치 못할(139) 피치못할(139)

허구한 날(788) 허구헌날(323), 허구한날(317), 허구헌(64),

허구헛날(47), 허구언날(37)

하는 대로(197) 하는대로(197)

가장 왼쪽의 것이 옳은 형태이고 오른쪽의 것들은 실제로 출현했던 오류

형태이다. 한국어 띄어쓰기 규정은 한국인들에게도 극히 어려우며 그것을

제대로 사용할 수 있는 사람들은 언론 출판계 종사자들 정도일 것이다.

그들조차도 자신만의 관행을 유지할 뿐 과연 띄어쓰기를 얼마나 엄밀하게

34

멋쩍다 머쩍다(59), 멎쩍다(26), 멎적다(25), 먹쩍다(21),

머쩍은, 멎쩍은

쑥스럽다 쑥쓰럽다(233), 쑥수럽다(36), 쑥쑤럽다

주꾸미 쭈꾸미(391), 쭈구미(36), 주꾸미

착잡하다 착찹, 착찹하다, 착찹한(513), 찹찹하다

찌뿌듯하다,

찌뿌둥하다

찌푸둥, 찌뿌등, 찌뿌등하다, 찌부둥, 찌뿌드,

찌부듯하다, 찌뿌드하다, 찌부드드하다, 찌푸둥하다,

찌부드드(254)

늦깎이 늦깍이(457), 늦깍기(96), 늦각이

지키고 있는가 의문이 든다. 그럴 경우 사람들은 자신이 제대로 띄어쓰기를

지키고 있는지를 확인하기 위해 사전을 검색해 본다. 사람들이 찾는 것들 중

다수는 구이거나 그냥 연어일 뿐이어서 당연히 사전에 등재되어 있지 않다.

물론 이 검색어들은 어휘가 아니므로 사전에 등재되지 않는 것이 맞는다.

하지만 고빈도로 출현 중이고 또 띄어쓰기를 안 하는 경향이 있다는 것은

한 단어로 점차 인식되어 가는 도중에 있다고도 할 수 있다. 따라서 완전한

어휘가 아니지만 교육을 위해서 어휘 취급을 해줄 필요가 있다. 사전에

등재해 놓고 문법적으로 어떠한 것인지 설명을 추가적으로 해 주는 것이

바람직하다.

그러나 띄어쓰기와 맞춤법이 동시에 틀린 경우는 자동 띄어쓰기 모듈을

개발하여 사용한다 하더라도 자동으로 고쳐 주기 어렵다. 따라서 고빈도로

출현하는 연어들의 사전 등재에 대해 고민할 필요가 있다. 인터넷 시대의

웹 사전은 ‘단어인가, 아닌가.’보다도 검색 가능성을 중요하게 바라봐야 하기

때문이다.

(2) 맞춤법, 철자

35

—ㄲ 닥다(154), 복음밥(33)

—ㄱ 바닦(473), 낚지(149))

언짢다 언잖다(343), 언찮다(111), 얹잖다, 언짠다, 언잔다,

얹짢다, 언찬다

점잖다 점잔다(31), 젊잔다(18)

같잖다 가짠다(29)

안— 않되다(1,225), 않하다(585), 않좋다(292)

외곬 외골수(317)

—률 용적율(577), 황금율(45), 달성율(148), 가동율(129),

유병율(118)

도롱뇽 도룡뇽(92), 도룡용(18), 도룡농(12), 도룡룡(12)

갑론을박 갑논을박(34), 갑을박론(24)

컨펌(confirm[kənfɜːm]) 컴펌(106), 컨폼, 컴폼, 컴품플래카드(placard[plǽkɑːd]) 플랜카드, 플랭카드, 프랭카드,

프랜카드, 프래카드, 플랑카드, 플랫카드,

플렌카드, 프렌카드

맞춤법 오류는 끝없이 발굴 가능하다. 사람들이 얼마나 희한한 철자를

입력하는지 보고 있으면 경이로울 정도이다. 사전 이용자들이 오류형을

입력했을 때도 오류를 수정한 정답을 잘 제시하는 수밖에는 다른 대안이

없다. 률/율, 룡/뇽 등을 구분해서 일반인들에게 사용하라는 요구는 아무래

도 좀 무리하게 느껴진다. 한 어휘 내에서의 맞춤법 오류는 현재의 자동

교정 기능으로 충분히 해결 가능하다.

(3) 외래어

36

레인지(range[réindƷ]) 전자렌지(120), 가스렌지(156)

어드밴티지

(advantage[ədvæːntɪdʒ])어드벤티지(28), 어드벤테이지(16)

스테인리스

(stainless[stéinlis])

스테인레스(242, 스테인레스강 포함),

스텐레스(192, 스탠레스, 스텐리스 포함)

스테이플러(stapler[stéiplər]) 스테플러(215, 스테플, 스태플러 포함)라이선스(license[láisəns]) 라이센스(543)로브스터(lobster[lɒbstər]) 랍스타(66), 랍스터(관행에 따라 표준

표기로 인정, 2016)

콘셉트(concept[kɒnsept]) 컨셉(1838), 컨셉트(361), 콘셉, 컨샙, 콘샙트, 콘세트

리플릿(leaflet[líːflit]) 리플렛(878), 리후렛(191), 리훌렛,

리플랫, 리프렛

외래어 표기 역시 맞춤법만큼이나 어렵기 때문에 사람들이 헷갈려서

검색해 보는 것은 당연한 일이지만 이 중 어떤 것은 표준으로 정해진 표기가

관습적인 표기와 차이가 커서 발생하는 문제이기도 하다. 이건 인명/지명의

고유 명사를 표기할 때 더욱 큰 문제가 되곤 한다. ‘레오나르도 디카프리오’의

바른 표기 ‘리어나도 디캐프리오’는 정말 정착할 수 있을지 심히 의문이

들 뿐만 아니라 텔레비전 방송에서도 자막에선 ‘리어나도’, 출연자들의 입말

에선 ‘레오나르도’가 등장하는 웃지 못할 경우까지 있었다.

37

5. 무엇을 고치고 싶어 하는가

천상천하 유아독존: 뜻풀이에 철학적 오류가 있음을 지적.

가족: 혈연 중심으로 설명되어 있어 입양 가족이 배제되어 있음.

독감: 독감과 감기는 다른 것임.

대축일: 종교에 대한 설명의 본문에서 ‘따위’라는 표현은 피하는 게 좋겠

다고 지적.

폐백: 뜻풀이에 오류가 있음.

닭싸움: 깨금발 싸움과 닭싸움은 다름.

적시다: 뜻풀이에 정조를 빼앗김이 들어 있는 것은 유교적임.

사레: 재채기와 기침은 다름.

간호조무사: 법정 자격과는 무관함.

입양: 가족이 되는 새로운 방법임.

임갈굴정: 왜 갈이천정은 없는가.

제주일보: 과거의 제주일보가 서술되어 있음.

바보: 비하하는 표현이 있음.

도급: 청부인과 도급인은 다른 것임.

제법: 품사 설명이 ≪표준국어대사전≫과 다름.

다음 ≪한국어사전≫에 대한 수정 요구는 지속적으로 들어온다. 이것들

을 그대로 여기 옮길 수는 없으므로 유형별로 내용을 요약해 보았다. 이것들

은 내용상의 오류, 이익 단체나 직업군의 입장 차이, 문법적인 질문(표준어와

의 차이), 시대에 맞지 않는 뜻풀이 등 몇 가지 유형으로 나눌 수 있다.

아무래도 불편하게 느꼈던 것들에 대한 것을 굳이 고객 센터에까지 연락해

가며 고치려고 하는 것들이기 때문에 일리 있는 내용들이 많으며 이것들은

다음 ≪한국어사전≫의 콘텐츠 공급자인 고려대 민족 문화 연구원에 전달되

38

어 개별적으로 수정, 반영되고 있다.

표준어와의 차이라는 부분은 사람들이 얼마나 표준어, 어법에 민감하게

반응하는가를 보여주는 지점이다. 사람들은 ≪표준국어대사전≫에 있는

것을 표준어라고 생각하는 경향이 강하며 고려대 ≪한국어 대사전≫과

≪표준국어대사전≫에 차이가 있으면 무척 혼란스러워한다. 두 사전의 표

제어가 왜 일치하지 않느냐는 의견을 많이 주고 있으며 고려대 ≪한국어

대사전≫에 수록된 어휘가 ≪표준국어대사전≫에 없을 경우 ≪표준국어대

사전≫에 없는 단어가 왜 나오느냐 하고 제보를 하기도 한다. 그만큼 ≪표준

국어대사전≫의 명칭에 담긴 ‘표준’이라는 단어가 사람들을 강력하게 장악

하고 있다고 말할 수 있을 것이다.

또 자신의 언어 감각과 다를 때 이런 말이 한국어에 있느냐고 따지는

경우들이 꽤 있다. ‘충진하다’처럼 예전에 쓰였으나 최근에 그 쓰임이 적은

것들에 대해 들어오는 제보들로, 이것은 한국어 모국어 화자라는 자신감에

기반을 둔 제안으로 보인다. 언중들은 사전을 언어의 역사적 기록이라는

생각까지는 크게 하지 않는 것인지도 모르겠다.

시대에 맞지 않는 뜻풀이의 경우는 페미니즘이나 가족 관련 어휘들에

대한 의견들이 많았는데 이것은 우리 사회의 여성관이 점차 개선되면서

벌어지는 현상이다. 이런 제안들도 이전의 뜻풀이가 사전에 담겨 있는 것이

라는 생각보다는 지금과 다르기 때문에 틀린 뜻풀이로 인식하여 발생하는

제보들이다. 이런 뜻풀이들에 대해서는 해당 뜻풀이가 어느 시대에 한정적

으로 쓰였다는 정보를 보강해서 해결할 문제들이다.

이익 집단의 제보는 자신이 속한 집단과 관련된 내용에 오류가 있을

때 들어오는 것들로 비교적 당연한 것들이 많다. 하지만 특정 직업의 자격증

은 국가 자격이 아니므로 자격이라는 내용을 지워야 한다거나, 사회적으로

통용되는 표현임에도 불구하고 법적으로 적절하지 않은 표현이라 해서 수정

을 요구하는 경우가 꽤 있었다. 주로 경쟁 관계에 있는 업계에서 자신들의

39

이익이 침해된다는 이유로 요구하는 편이지만 그 제보의 내용을 살펴보면

실제로 그들의 이익이 얼마나 침해당했는지는 의문이며 경쟁자들의 지위를

약화하는 것 자체가 목적으로 보인다. 이것은 포털 사이트뿐 아니라 국립

국어원이나 고려 대학교 등 사전을 만드는 모든 곳에서 받는 제보 유형이다.

6. 결론

언중들이 다음 ≪한국어사전≫에서 얻고자 하는 것은 ‘확실성’이다. 그

‘확실성’의 상당 부분을 차지하는 것은 어문 규범이다. 내가 올바른 한국어를

사용하고 있는가에 대해 상당히 예민하게 반응하고 있으며 그래서 다른

사전을 보더라도 ≪표준국어대사전≫을 함께 검색해 보는 경우도 흔하다.

맞춤법이라는 말에 ‘法’이라는 한자가 들어 있기 때문인지는 모르겠으나

규범을 지키지 못하면 법률을 위반한 양 불편해하는 사람들이 많다. 그런가

하면 맞춤법을 잘 모르면서도 열심히 사전을 검색하는 사람들 또한 많다.

그들은 의미를 알고 싶어 하기도 하지만 좀 더 올바른 규범을 알고 싶어

하기도 한다.

‘확실성’의 또 한 가지는 내용상의 확실성이다. 내용이 궁금해서 질문하기

도 하고 또 내용상의 오류를 발견하여 수정을 요구하기도 한다. 해당 내용에

대해서 지적하는 사람들은 상당수가 전문직 종사자여서 자신의 지식에 근거

해 제보하곤 하지만 어떤 이들은 자기 직업군의 이익에 충실하게 작성해서

수정할 것을 요구하기도 한다. 종종 법원의 판결문까지 첨부하는 공문을

발송하는 사례까지 있었다. 이 경우 사전 편찬자는 이익 당사자들의 입장을

최대한 고려하되 중립적으로 서술하는 수밖에 없다. 사람들은 여전히 국어

사전에 공신력이 있다고 생각하는 것이다. 위키 백과 이후 ‘사전은 옳다.’라

는 신화가 급격히 깨져 나가고 있는 시대이지만 그럼에도 불구하고 사람들

40

이 원하는 것은 ‘옳은 사전’인 것이다.

다음 ≪한국어사전≫ 이용자들 다수가 한국어를 모국어로 삼는 사람들이

기 때문에 학습을 위해 이용하는 경우는 드물다. 그렇기 때문에 학습자가

많은 영어 사전만큼은 이용하지 않지만 일상 속의 궁금함을 확인하거나

올바른 우리말을 쓰고 있는지 검증하기 위해 한정적으로 사전을 사용함에도

불구하고 전체 사용량의 15% 이상을 ≪한국어사전≫(과 한자 사전)이 차지

하고 있다. 일본이나 다른 나라들의 사전 이용 비율이 궁금해지는 지점이다.

종이 사전의 사용량은 확실히 줄어들었으며 이것은 2005년, 2010년의

국민의 언어 의식 조사 보고를 봐도 명확하다. 시디롬(CD-ROM) 사전이나

전자사전의 영향도 서서히 받았지만 개인용 컴퓨터 웹 사전에 이어 스마트

폰 모바일 사전이 등장하면서 사전 이용 매체가 결정적으로 변화하고 있다.

41

참고 문헌

김창영(2015) 외, 2015년 국민의 언어 의식 조사 보고서, 국립국어원.

양명희(2005) 외, 2005년 국민의 언어 의식 조사 보고서, 국립국어원.

양정환(2010) 외, 2010년 국민의 언어 의식 조사 보고서, 국립국어원.

정철(2011), 웹 사전 검색 실패어의 유형 연구: 사전학적 활용을 중심으로,

연세대학교 석사학위 논문.

특별취재팀(2014), ‘死典’ 된 국어사전… …죽어 가는 민족 지혜의 심장, 2014년

6월 30일 자, 세계일보.

43

사전의 진화와 미래

배연경

국제영어대학원대학교 영어교재개발학과 교수

지난 30년간 사전이 타고 온 변화의 물살은 전에 없이 빠르고 거셌다.

1998년 유럽 사전학회의 국제 학술 대회에서 그레펜슈테트(Grefenstette,

1998:25)는 “3000년도에도 사전 만드는 사람이 있을까?(Will there be

lexicographers in the year 3000?)”라는 발표문을 통해, 아무리 언어 통계

기술이 발전하여도 어휘의 의미를 분류하고 기술(記述)하는 일만은 적어도

앞으로 수백 년 동안은 사람의 몫으로 남아 있을 것이라고 전망하였는데,

그의 예측이 깨어지는 데는 채 한 세대도 걸리지 않았다. 그로부터 불과

14년 후, 2012년도에 개최된 유럽 사전학회의 원탁 좌담의 주제가 “2020년

에도 사전을 만드는 사람이 존재할까?”였다는 사실만 보아도 사전의 변화가

20세기 후반과 21세기를 전후하여 얼마나 급격한 물살을 탔는지를 짐작할

수 있다. 이제 사전학 관계자들은 2020년을 기점으로 뜻풀이 같은 전통적인

인적 편찬의 영역조차 대거 기계로 넘어갈 것으로 예상하고 있다. 더 나아가

2040년 무렵이 되면 사전의 형태가 지금까지와는 완전히 달라져 있을 것이

라는 전망도 나오고 있다(런델, 2012).

급속한 변화의 와중에는 대개 그렇듯이 미래와 과거가 각각 그 당위와

우위를 주장하며 경합하는 현상이 벌어진다. 사전 역시 그러한 상황에 처해

특집 3

44

있다. 한편에는 최첨단 기술로 무장한 사전 개발 모델이 제시되는가 하면

또 다른 한편에는 전통적인 사전의 패러다임이 디지털의 외형만을 갖춘

채 존속하고 있다. 기술적 편차가 점점 더 크게 벌어지는 가운데, 사전의

형태도 더욱 다양해지고 있다. 앞으로 사전이 어떠한 길을 걷게 될 것인지는

수십 년 앞은 물론이고 향후 십 년 내외를 범위로 잡더라도 정확히 예측하기

가 쉽지 않다. 그뿐만 아니라 현재 여기저기서 나타나는 사전의 변화 양상들

가운데 무엇이 앞으로 근본적인 혁신을 견인하는 큰 조류이고 무엇은 단기

적인 실험이나 시도의 거품으로 꺼지게 될지도 섣불리 예단할 수 없다.

다만 지금 우리는 여러 방향으로 경합하고 혼재하는 사전의 모델과 그 발전

의 전반적인 경향을 살펴 점차 분명하게 드러나고 있는 주요한 흐름을 짚어

볼 수는 있을 것이다. 이 글에서는 사전 발전의 흐름에서 두드러지게 나타나

는 변화의 패턴을 사전의 제작 주체와 방식 면에서, 그리고 구조와 내용

면에서 거시적으로 조망해 보고자 한다.

1. 사전의 제작 주체와 방식의 변화

사전 편찬 주체의 경계가 스러지는 현상은 크게 ‘자동화’와 ‘대중화’라는

두 가지 핵심어로 요약이 가능할 듯하다. 전자는 사전 편찬이 전문가의

영역에서 탈피하여 대중의 역동적인 참여로 이행하고 있는 현상을, 후자는

사전 편찬 과정이 사람에서 컴퓨터로 이행하는 현상을 일컫는다. 사전 편찬

방식의 변화는 ‘데이터베이스-사전의 2단계 개발 모델’이 대표적인 추세가

될 것으로 전망된다.

사전의 제작에 컴퓨터가 도입된 것은 50년 전으로 거슬러 올라간다(슈타

인과 어당, 1966). 컴퓨터를 제작에 도입한 최초의 사전은 1966년에 발간된

≪랜덤하우스 영어 사전(Random House Dictionary of English Language)≫

45

으로 알려져 있는데, 이 시기에 컴퓨터는 교차 참조 항목을 확인하고 조판의

일관성을 유지하는 정도의 제한적인 용도로 사용되었다. 비록 제한적인

용도이기는 하였으나, 이 시점 이후로 사전의 어휘 자료는 하나의 데이터베

이스로 인식되기 시작했다(런델과 킬가리프, 2011). 이후 1970년대에 들어

컴퓨터 조판을 활용한 사전 제작이 본격화하였고, 1980년대에 들어서는

편찬 단계의 후순위가 아닌 언어 자료의 수집 단계에서부터 컴퓨터가 활용

되기 시작했다. 현재 컴퓨터는 언어 자료 수집과 사전 편찬 과정에 보편적으

로 활용되고 있다.

컴퓨터와 인간의 협업으로 진행되는 사전 편찬의 과정은 대략 1) 사전의

기능과 목적에 따른 레마 추출, 2) 특정 레마에 대한 코퍼스 자료 인출, 3)

클러스터 분석, 4) 이에 따른 의미 및 결합 자질 분류, 5) 사전 정보의 기술(뜻

풀이, 용례, 화용 정보 작성 등), 6) 기술된 정보의 제시 단계로 나눌 수

있는데, 이 가운데 1, 2, 3, 6단계는 컴퓨터에 의해, 그리고 4단계와 5단계는

인간에 의해 이루어지고 있다. 즉 사전 편찬의 많은 영역이 기계로 넘어갔지

만 의미를 분류하고 기술하는 작업은 여전히 인간의 역할로 남아 있는 것이

지금까지의 추세였다고 볼 수 있다. 정리하면, 1960년대에 시작하였던 사전

편찬의 전산화는 1980년대를 기점으로 본격적으로 발전하였고, 그 이후

지금에 이르기까지 줄곧 사전 편찬의 영역을 확장하며 진행되었다고 볼

수 있다. 그런데 앞으로 진행될 사전 편찬의 전산화는 기존의 인간-기계

협업의 차원을 넘어설 것으로 보인다. 의미 영역에까지 ‘자동화’가 가능해지

는 시점이 눈앞에 다가오고 있는 것이다.

영어를 비롯한 몇몇 유럽 언어에 국한하여 보자면, 형태소와 품사 추출은

2000년대 초반에 이미 안정적으로 자동화하였다. 이어 지덱스(GDEX)와

같은 프로그램이 도입되어 연어의 수집과 추출도 자동화하였다(런델과 킬

가리프, 2011). ≪맥밀런 영어 사전(Macmillan English Dictionary for

Advanced Learners, 2007)≫이 지덱스를 이용하여 편찬된 대표적인 사전

46

으로, 8,000개의 연어에 대한 용례를 자동화 방식으로 추출하였다고 한다.

종래에 사전 편찬에서 노동 집약적인 과정을 요구하던 용례 작성 역시 자동

화하고 있다. 문장의 길이, 주변 어휘의 빈도나 고유 명사 포함 유무, 문장

길이와 복잡성, 대명사 수와 같은 필터를 적용하고 각각의 채택 기준에

가중치를 부여하면 컴퓨터가 자동으로 후보 용례들을 제시하고 사전 편찬자

는 그중에서 적절한 용례를 고르기만 하면 되는 정도로 자동화가 진척되었다.

기존의 어휘에 새로운 뜻이 추가되는 어휘 변천 관련 증거 수집도 이제는

자동화될 전망이다. 2011년 전자사전 학회에 소개된 사전 편찬 로봇

(dictionary-droid)이 이러한 기술적 발전을 보여 주는 예이다. 현재 신어

추출은 많은 부분 자동화된 프로세스를 이용할 수 있지만 이미 존재하는

어휘에 새로운 의미가 생성되는 경우는 기계적으로 추적하는 것이 쉽지

않았다. 그런데 특정 어휘의 의미는 그 어휘를 둘러싼 다른 어휘들과의

연관 속에서 드러나므로 종래의 결합 패턴과 동떨어진 패턴이 발견된다면

그 어휘의 의미가 달라졌음을 나타내는 신호가 될 수 있을 것이다. 사전

편찬 로봇은 바로 그 점에 착안하여 만들어진 기술이다. 이름에서 알 수

있듯이 이것은 일종의 웹 크롤러로서, 수많은 웹 사이트 링크를 따라다니면

서 문서를 수집하는 과정에서 특정 레마의 결합 패턴이 기존의 패턴과 어긋

난 경우를 감지한다. 이 기술은 아직 초기 단계에 머물러 있지만, 머지않은

장래에 상용화가 가능할 것으로 전망된다(매킨, 2011).

사전 편찬 단계에서 가장 ‘인간적인 영역’으로 남아 있는 뜻풀이마저

점차 기계로 이양될 조짐도 보인다. 사전 편찬 로봇을 활용하고 있는 워드니

크(wordnik.com)와 같은 일부 인터넷 사전은 웹 코퍼스에서 정의문과 비슷

한 구조를 취하는 대목(예: ** refers to～, ** means～) 등을 찾아내어

표제어의 뜻풀이를 대신하려는 시도를 하고 있다. 많은 신어들은 이 같은

과정을 통해서 상당 부분 뜻풀이에 해당하는 정보를 얻을 수 있다. 이처럼

데이터마이닝 기법을 이용하여 뜻풀이 작성을 자동화하는 것이 하나의 흐름

47

이라면, 또 다른 흐름으로 아예 전통적인 뜻풀이 기술 방식을 버리고 인용구

추출 방식으로 의미 기술을 대신하려는 추세도 있다. 인용구 추출 방식에

의한 뜻풀이는 특정 레마의 의미를 명시적으로 분류하여 제시하는 것이

아니라 해당 레마가 다른 어휘와 결합하는 표층 구조를 분석한 결과를 묶어

서 제시하는 방식이다. 사실 특정 레마의 의미가 마치 그 레마에 내재적으로

귀속된 것인 양 의미 목록을 만들어 제시하는 전통적인 사전의 표제항 구조

에 대해서는 그동안 사전학계에서도 비판이 적지 않았다(행크스, 2000).

따라서 인용구 추출 방식을 통해 귀납적으로 의미를 제시하는 방식은 기존

의 사전 정보 기술상의 한계를 보완할 수도 있을 것이다. 의미 정보 기술의

자동화 추세와 관련하여 관찰할 수 있는 또 다른 변화로 웹 온톨로지와

결합한 어휘 연결망 모형을 들 수 있다. 이는 레마에 대한 뜻풀이 대신

어휘 연결망을 통해 레마의 의미 네트워크를 도식화해 보여 주는 것이다.

워드넷(WordNet)이나 프랑스어 어휘망(French Lexical Network) 프로

젝트가 대표적인 예이다(폴게르, 2014).

사전 제작 주체의 대중화란 전통적인 사전 편찬 전문가와 민간이 함께

사전의 콘텐츠를 생산하는 협업적 사전 편찬을 가리킨다. 사전 편찬에 대중

의 도움이 보태어진 것이 21세기에 새롭게 나타난 현상은 아니다. 19세기

중반에 시작된 ≪옥스퍼드 영어 사전(Oxford English Dictionary, 1857～

1928)≫에는 당시 각계각층의 사람들이 보내 온 600만 개의 인용구가 녹아

들어 있다. 그러나 웹 2.0이 몰고 온 협업화의 양상은 과거의 그것과는

확실히 다른 것이다. 사용자가 실시간으로 직접 데이터를 제공하고 서로

간에 공유할 수 있는 환경은 사전 편찬자의 고유 영역에 해당하던 작업의

경계를 허물어 놓았기 때문이다.

협업적 사전 편찬은 신어 및 속어, 전문 용어, 소수 언어와 위기 언어,

방언 및 지역어의 수집과 기술에서 잠재력이 크다. 대표적인 민간 참여형

사전 서비스의 예로는 속어 사전으로 널리 알려진 ≪어번딕셔너리(urban

48

dictionary.com)≫라든가 ≪윅셔너리(wiktionary.com)≫ 등을 들 수 있

다. 영어가 국제 공용어가 되면서 전 세계의 지역 영어들도 협업적 사전

편찬에 가세하고 있는데, 그 한 예가 ≪중국영어 사전(cnglish.org)≫이다

(친, 2015). ≪중국영어 사전≫은 영어에 들어온 중국어 및 중국의 영어

학습자들이 사용하는 영어 어휘, 중국어에 들어온 영어 외래어 등이 수집

대상이다. 협업적 사전 편찬은 다국어 사전 편찬에도 적극 도입되고 있다.

벤저민(2015)의 ≪카무시 사전(kamusi.org)≫은 자발적인 참여자들의 협

업만으로 구축된 다국어 사전 사이트이다. 이 사이트는 일종의 게임 러닝

형식을 이용하여 참여자들에게 특정 단어의 대응어-정의문-용례 등을 단계

적으로 기술하도록 하고, 다른 참여자들의 평가를 통해 어휘 정보의 완성도

를 측정하는 방식을 채택하고 있다. 자금 조달의 어려움 등으로 이 프로젝트

가 성공적으로 안착할 수 있을지는 좀 더 두고 보아야 할 듯싶다. 기성

사전 출판사들도 협업적 사전 편찬을 일부 도입하고 있다. ≪메리엄웹스터

오픈 사전(learnersdictionary.com)≫이나 ≪맥밀런 오픈 사전(macmillan

dictionary.com)≫ 서비스가 그 좋은 예로, 신어나 지역 영어, 외래어와

같은 어휘 항목에 대해 일반 사용자의 참여를 적극적으로 반영하고 있다.

협업적 사전 편찬은 민간 주도로만 이루어지는 것은 물론 아니다. 대표적인

예가 국립국어원에서 서비스를 시작한 ≪우리말샘≫일 것이다.

이러한 개방적, 협업적 사전 편찬에 대한 우려의 목소리도 없지는 않다.

온라인 어휘 정보의 최대 강점이 찾으려고 하는 단어에 대한 정보를 발견할

확률이 종이 사전에 비할 수 없이 크다는 데에 있고, 이러한 장점은 협업적

사전 편찬 환경에서 극대화될 수 있을 것이다. 그럼에도 온라인 사전의

이용 만족도에 대한 대규모 조사(뮐러스피처, 2014)에서 알 수 있듯, 사용자

들은 여전히 어휘 정보의 질과 신뢰성을 가장 중요한 만족 요인으로 꼽고

있는데, 개방형 사전에 대해서는 이러한 정보의 신뢰성이 높은 수준으로

유지될 수 있을지에 대한 우려가 일각에서 제기된다. 또 한편으로 사용자

49

참여형 환경이 특수한 사회 집단이나 이해관계가 첨예한 사안들에 정치적으

로 이용될 위험이 있음을 경고하는 목소리도 나온다. 그러나 위키피디아를

비롯한 여러 개방형 지식 사이트의 전반적인 흐름으로 볼 때, 단일한 출처의

제한된 정보보다는 여러 출처의 경합하는 정보가 다수 제시될 경우 정보의

평균적인 질이 더 높아지는 집단 지성의 효과가 분명히 존재하며, 이는

개방형 어휘 사전이 효과적으로 운영될 경우 사전의 외연과 기능을 높일

수 있는 중요한 기회가 될 수 있음을 시사한다.

사전 제작 방식의 변화 흐름은 ‘데이터베이스-사전의 2단계 개발 모델’로

대표된다(앳킨스와 런델, 2008). 이것은 말 그대로 사전 편찬의 과정을 특정

한 사전 결과물을 목표로 한 단일한 프로세스로 두는 것이 아니라 어휘

데이터베이스를 개발하는 과정을 별도로 두고 사전 제품은 이를 기반으로

그때그때 필요한 기능과 유형에 따라 편집 가공하는 이원적 프로세스를

일컫는다. 이러한 과정이 가능할 뿐만 아니라 더욱 효율적인 것으로 이해되

고 있는 데는 사전의 어휘 정보에 대한 사람의 수요 못지않게 기계의 수요가

큰 데다, 사전에 기술될 정보와 그 정보의 속성을 분리할 수 있는 다층적인

메타데이터 마크업이 갈수록 정교해지고 있는 상황에 힘입은 바 크다.

특정 단어를 레마로 지정하고 그것을 표제어로 하여 세부 의미를 기술하

는 위계적인 사전 정보 기술 방식은 인간 사용자의 직관적인 언어 인식을

반영하는 형식인 반면 기계에 의한 언어 정보 처리에는 매우 비효율적이다.

따라서 2단계 모델에서의 어휘 데이터베이스란 단지 특정 사전의 편찬을

위해 전자적으로 작성된 구조물이라기보다는 다른 출처의 어휘 데이터베이

스 및 여타 웹 데이터와도 연결-병합-확장이 가능하고 의미 있게 활용될

수 있는 형식이어야 한다. 그러면서도 사전 개발 주체의 고유성과 저작권이

유지되어야 한다. 엑스엠엘(XML, eXtensible Markup Language)을 비롯해

링크트데이터(Linked Open Data)나 렉시컬 마크업 규격(Lexical Markup

Framework) 등 사전에 기술될 정보와는 별도로 마크업이 가능한 메타언어

50

가 이미 사용되고 있으며 더불어 이에 대한 국제적 협약의 요구가 커지는

와중이기 때문에 단일한, 혹은 호환 가능한 데이터 포맷은 보급이 가속화할

것으로 보인다.

데이터베이스와 사전 기술의 2단계 개발 모델이 더욱 효율적인 사전

편찬 모델이 될 수 있는 것은 이렇게 함으로써 원자료(어휘 데이터베이스)를

각기 다른 2차, 3차 사전 제품에 중복 활용할 수 있고, 사전별로 각기 다른

구조를 취하면서도 추후에 서로 다른 사전 간의 재병합이 용이하며, 호환

가능한 데이터 포맷을 공유하는 조건이라면 타사의 사전 콘텐츠와도 연결이

가능하다는 데 있다. 2단계 모델에서의 어휘 데이터베이스는 레마를 기준으

로 한 위계적 구조를 취하지 않고, 대신 ‘레마-의미’ 쌍 하나하나가 개별적인

절대 주소를 갖는 단위(node)로 독립되어 있다. 그리고 같은 방식으로 부여

된 다른 노드들과 특정 노드와의 관계를 속성으로 연결하는 구조를 취하고

있기 때문에 전체적으로 데이터의 구조가 기호 중심이 아닌 의미 중심의

네트워크를 취하게 된다. 이는 사전이 3000년 이상 속박되어 왔던 거시

구조와 미시 구조상의 경직성을 깨고 자모순 배열과 의미별 배열을 넘나들

면서 재구조화할 수 있는 기반을 만들어 준다. 이러한 시도는 현재 다국어

어휘망 구축 사업에서 특히 활발히 진행 중이다. 다국어 어휘망 구축에

사활이 걸린 유럽 연합을 중심으로(예: LIDER project: liderproject-eu)

이스라엘의 커너만(Kernerman) 사는 40여 개 언어의 어휘망을, 옥스퍼드

대학 출판사에서도 100여 개 언어의 다국어 어휘망을 링크트데이터를 기반

으로 하여 구축하는 중이다.

지금까지 사전 편찬 주체와 방식이라는 이 두 영역에서 사전의 변화

발전 양상을 살펴보았다. 이 두 영역은 서로 긴밀한 관련을 맺고 있는데

사전 제작의 자동화와 더불어 1차 데이터와 2차 사전 자료가 각각 독립된

구조와 내용을 가지고 개발되는 현상은 앞으로 정보 통신 및 언어 분석

기술이 발전하면서 더욱 가속화할 것으로 보인다. 더 중요한 것은 자동화가

51

더욱더 심화됨에 따라 1차 데이터-2차 사전 제작이라는 2단계 제작 모형조

차 급속히 허물어질 수 있다는 사실이다. 부연하면, 1단계에 완성된 어휘

데이터가 사전 편찬이라는 별도의 인적 가공을 전혀 거치지 않고도 곧바로

기존의 사전과 다름없는 구성과 내용으로 변환 가능해지는 것이다. 이것이

현실화한다면, 어휘 데이터베이스가 사전을 위한 원재료인 것이 아니라

사전이 어휘 데이터베이스의 부수적 파생물이 되는 셈이다(레프, 2011).

이러한 현상은 학습자 사전 분야에서는 이미 부분적으로 나타나고 있다.

다음 [그림 1]은 렉시컬 컴퓨팅 리미티드에서 운영하는 스케치 엔진의 ‘스켈

(SkELL, Sketch Engine for Language Learning)’이라는 영어 학습자

서비스이다(the.sketchengine.co.uk). 이 메뉴에서 단어 ‘tooth’를 입력하고

검색한 결과를 보자.

그림 1 스켈에서의 ‘tooth’ 검색 결과

화면은 ‘tooth’와 관련하여 ‘tooth’의 동사 연어, 형용사 연어, 한정사 연어

및 명사 연어 등을 분류하여 보여 주고 있다. 특정 연어(예: brush)를 클릭하

52

면, ‘to brush teeth’가 나오는 코퍼스의 모든 예문을 선별하여 보여 준다.

홈페이지 상단의 메뉴 바에서 ‘example’을 클릭하면 ‘tooth’가 들어간 예문

들이 사전의 용례처럼 정연하게 제시되어 있다. 메뉴 바에서 연관어(similar

words) 항목으로 이동하면 그 밖의 신체 부위(예: body, arm, heart), 치아

관련 어휘(예: nail, surface, plate, hole), 치아와 밀접한 신체 부위 어휘(예:

tongue, mouth, lip) 들이 제시된다. 스켈이 이 같은 어휘 정보를 추출하고

제시하는 전 과정은 자동으로 이뤄진다. 연관어 검색 역시 자동화된 프로세

스의 결과이다. 지정한 단어와 연어 결합 구조와 성분이 최대한 유사한

단어들을 골라냄으로써 연관어를 추출할 수 있고, 반대로 연어 결합의 성분

이 상반되는 것을 고른다면 반의어가 추출될 수 있다. 그림에서도 보이듯이

스켈은 매우 사용자 친화적인 정보 제시 구조를 취하고 있다. 뜻풀이 항목이

없다는 것만 제외하면 언뜻 보아 매우 잘 만들어진 학습자 사전과 구별되지

않는다. 앞으로는 점점 더 많은 코퍼스 데이터가 이와 같은 유사 사전의

형태를 취하며 대중에게 서비스될 것으로 전망된다.

2. 사전의 구조와 내용의 진화

사전의 구조와 내용 면에서의 진화 발전 양상은 크게 ‘사전의 구조적

해체와 정보 간의 융합’, 그리고 ‘사용자 맞춤형 사전’의 등장으로 설명할

수 있다. 통상적으로 사전은 특정한 분류 기준에 따라 언어 사전(辭典)

대 백과 사전(事典), 뜻풀이 사전 대 관련어 사전, 의미 사전 대 결합 사전,

단일어 사전 대 이어(또는 다언어) 사전, 일반 언어 사전 대 전문 용어

사전 등으로, 혹은 일반 사전 대 학습자용 사전 등으로 나뉠 수 있었다(하트

만과 제임스, 1998). 이러한 분류법은 사전의 특정 기능 및 잠재적 사용자와

이에 따른 유형을 전제하고 이를 기준으로 사전의 내용과 구조를 갈래 지어

53

보려는 접근법이라고 할 수 있다. 그러나 이러한 개별적 사전 차원의 구조와

내용은 디지털 시대를 맞아 크게 흔들리고 있다. 이렇게 사전이 ‘헤쳐 모이는’

과정에서 생기는 역설적인 효과의 하나는, 사전이 실제 사용자 한 사람

한 사람의 구체적인 검색 패턴과 검색 욕구에 더욱 세심하게 부응할 수

있는 가능성을 열었다는 점이다.

개별 사전의 정태적 구조와 기능에 입각한 이분법의 붕괴는 전방위로

일어나고 있다. 먼저 사전 간의 연결과 통합 현상이 광범위하게 진행되고

있다. 이것은 사전의 정보 융합 현상과 내장형 표제항(embedded entry)

구조, 하이퍼링크 검색 필드의 확장 등으로 나타나고 있다. 사전들 간의

외형적 경계가 사라지고 하나의 검색 키워드 아래 통합하는 현상은 전자

사전 단말기가 보급된 시점부터 활발히 이루어져 왔으며 이러한 경향은

앞으로도 지속될 것으로 보인다. 사전 콘텐츠의 통합 양상은 현재 다양하게

나타나는데, 크게 보아 1) 사전 조합(dictionary sets), 2) 포털 사전(dictionary

portal), 그리고 3) 사전 정보 수집 제시형(dictionary content aggregator)

으로 나뉜다(레프, 2011). 이 중 사전 조합과 포털 사전은 1990년대부터

죽 있어 왔던 방법이며, 사전 정보 수집 제시형 방식이 근래에 들어 주목받고

있다.

첫째 사전 조합 방식은 가장 오래된 사전 정보 융합 방식으로, 특정 사전

회사가 자사의 사전 제품들을 하나의 온라인 사전 사이트에 병합해 제시하

는 방식을 일컫는다. 이러한 사전 조합은 온라인 사전 이전에 보급되었던

시디롬 사전에서도 흔히 볼 수 있었다. 현재는 대부분의 사전 회사들이

자사의 사전 콘텐츠를 유료 혹은 무료로 온라인상에 제공하고 있다. 조합형

사전의 사용자 인터페이스는 다양하여 페이지의 상단에 원하는 사전의 종류

를 선택하는 방식과, 표제항 내부에 각기 다른 종류의 사전 정보가 병합

제시되는 방식(내장형 표제항), 이 둘을 조합한 방식 등 다양하다.

둘째 사전 포털 방식은 현재 일반 대중에게 가장 보편적으로 이용되고

54

있는 사전 정보 제공 방식이라고 할 수 있을 것이다. 과거 여러 출처와

종류의 사전 수십 종이 하나의 단말기에 탑재되어 있던 휴대용 전자사전이

온라인으로 옮겨 간 것이 사전 포털 방식이라고 할 수 있다. 보통 사전

편찬과는 무관한 온라인 콘텐츠 제공 업체가 중심이 되어 서비스를 제공하

고 있는데, 한국에서는 네이버나 다음의 사전 포털 서비스가 가장 많이

이용되고 있다. 사실 한국의 네이버나 다음이 제시하는 사전 포털 서비스는

상당히 독특한 유형의 서비스 제시 방식이라고 할 수 있다. 야후!나 구글과

같은 다국적 포털에서는 네이버나 다음처럼 사전 메뉴를 별도로 운영하지

않고 다른 사전 사이트의 링크 정보를 제공할 뿐이다. 국내에서 개발된,

야후!나 구글과 유사한 서비스로는 게리홈(garyshome.net)이 있는데, 이

사이트에서는 85개의 사전 링크를 제공하고 있다. 이들 포털은 여러 온라인

사전의 링크를 한데 모아 사용자가 특정 온라인 사전을 선택할 수 있도록

해 놓았을 뿐 네이버나 다음처럼 자체적으로 사전의 콘텐츠를 제휴하거나

제작하여 사용자에게 제공하지 않는다. 네이버나 다음과 같은 사전 서비스

모델은 특수한 한국적 맥락에서 개발된 사례라고 할 수 있다(배와 네시, 2014).

마지막으로 사전 정보 수집 제시형(CA)은 사전 간 정보의 융합이 가장

적극적으로 진척된 모델이다. 이 방식은 여러 종의 사전 정보를 한데 취합해

서 하나의 웹 사이트에 제공하는 방식이라는 측면에서는 사전 포털 �

Documents

2016년 제26권 제4호·겨울 - korean.go.kr · 21세기 세종계획의 후속 사업이기도 한 것이다. ≪ 우리말샘 ≫ 은 그 성격상 1 회성 사업으로 마칠