7
1. 서서 날날날 날날날 날날날날 날날날 날날날 날날날 날날 날날날 날날날날 날날날날 날날. 날날 날날 날날날 날날날날날 날날날날 날날날날 날날날 날날날날날 날날 날날날 날날 날날날날 날날날 날날날날. 날날 날날날날날 날날 날날날날 날날날 날날날 날날날날 날날 날날 날날날, 날날 날날날날 날날날날 날날날 날날날 날날날날 날날날날. 날날 날날 날날 날날날날 날날날 날날 날날날 날날날 날날 날날 날날 날날날 날날. 날날날날 날날날 날날날날 날날날날날날날 날날날날날 날날날 날날날 날날 날날날 날날날 날날날날날. 날날날 날날날 날날 날날날 날날날 날날날날 날날날 날날날 날날날 날 날날. 날날날, 날날날 날날날날 날날날날 날날 날날날날 날날날날 날날날날 날날날 날날날 날날 날날날 날날날 날날 날날날 날날날날날 날날날 날날날날날 날날날. 날날날 날날 날날날날 날날 날날날 날날 날날날 날날날날 날날날 날날날 날 날날날 날날날날 날날날날날. 날날날 날날날날 날날 날날날 날날날 날날날 날날날날 날날날날 날날날 날날 날날날 날날날날 날날날 날날 날날날날 날날 날날날날 날날날 날 날 날날 날날날, 날날날 날날날날 날날날 날날 날날날 날날날 날 날 날날. [1] 날날 날날날 날날 날날날날날 KORTERM날 날날날날날날날날날날 날날날날 날 날날날날날날 날날 날 날날날날 날날날 날날날 날날 날날날 날날날 날 날날 날날날 “날날날날 날날날”날 날날날날, 날날날날 http://korterm.or.kr날날 날날날날날날 날날날날 날날. 날날날 날날날 날날날날날 날날날날 날날 날날 날날 날날날 날날 날날 날날날 날날날 날날 날날날날 날날날날 날날. 날날날, 날날날 날날날날날날날날 날날날 날날 날날날 날날 날날날 날날날날 날날날 날 날날날 날날날 날날 날날, 날날날 날날날 날날 날날날날날날, 날날날 날날날 날날날 날날날날 날날 날날날 날날날날. 날날날 날날 날날날 날날 날날 날날 날날 “automatic frequency control”날 날날날날 날, 날날날 날날날날날날 날날날 날날 날날날 날날날 날날. 서서 서서서 서서서서 서서 날날날 KAIST/KORTERM 날날날날날날 [email protected] Developing Retrieval System for Word Formation of Terminology Seo Chung-won Dept. of EECS, KAIST/KORTERM 날날날 날날 날날날날 날날날 날날 날날 날날날 날날 날날날 날날날 날날날 날 날날날 날날날날 날날날날날. 날날날 날날날날날 날날날 날날 날날날 날날 날날 날, 날날날 날날날날 날날날 날날날 날날 날날날 날날날날 날날날 날날날 날날 날날날날 날날 날 날날. 날날날 날날날 날날 날날날날날날 날날 날날 날날날 날날날 날날날날 날날 날 날날날 날날날 날날 날날날 날날날날날 날날날날, 날 날날날날날 날날날 날날 날날 날날, 날날 날날날 날날날날날 날날날날 날날날 날날날 날날날날날 날날, 날날 날날날 날날날 날날날날날. 날, 날날 날날날 날날날 날날날날 날날날 날날 날날날 날날날 날날날 날날날 날날 날날날 날 날날날날, 날날날 날날날 날날날 날날 날날날 날 날 날날 날날날 날날날날날.

Software Requirrment Analysis를 위한 정보 검색 …semanticweb.kaist.ac.kr/service/softwares/cwseo/MunHwa/... · Web view통합 조어법 검색 시스템 4.1 조어법 검색

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Software Requirrment Analysis를 위한 정보 검색 …semanticweb.kaist.ac.kr/service/softwares/cwseo/MunHwa/... · Web view통합 조어법 검색 시스템 4.1 조어법 검색

1. 서론

날마다 수많은 분야에서 새로운 기술의 개발과 함께

새로운 용어들이 생성되고 있다. 전문 분야 문서를

효과적으로 처리하기 위해서는 새로이 만들어지는

전문 용어에 대한 효과적인 처리가 필요하다. 새로

만들어지는 전문 용어들은 대부분 기존의 용어들이

뜻을 달리 하거나, 다른 용어들과 결합하여 새로운

개념을 나타내는 형태이다. 새로 생성 되는 용어들은

분야에 따라 일정한 법칙에 의해 생성 되는 경우가

많다. 전문용어 센터의 전문용어 정비사업에서는

전문용어의 한국어 용어에 대한 조어법 분석을

실시해왔다. 조어법 분석은 조어 체계의 경향을 추적하고 일반화

하는데 사용할 수 있다. 하지만, 기존의 용어들은

일관성이 없이 직관적인 기준으로 생성되어 보급된

경우가 많기 때문에 기존의 조어 체계의 분석만으로

규칙을 찾아내기는 어렵다. 조어법 검색 시스템은 조어 규칙의 규명 보다는

조어법의 경향을 파악할 수 있도록 도와주는

시스템이다.기존의 조어법에 대한 검색뿐 아니라 새로이

등장하는 용어들도 기존의 조어 정보를 사용하여

경향에 맞는 신조어의 생성 후보들을 제시해 줄 수

있기 때문에, 새로운 용어들의 일관성 있는 생성에

도움을 줄 수 있다. [1]현재 조어법 검색 시스템으로 KORTERM의

전문용어정비사업에서 추진되어 온 기초과학분야

화학 및 생물분야 용어의 조어법 분석 결과를 검색할

수 있는 일종의 “조어검색 도우미”를 개발하여, 웹사이트 http://korterm.or.kr에서 검색서비스를

제공하고 있다.

통합 조어법 검색기의 개발

서충원 KAIST/KORTERM 전자전산학과

[email protected]

Developing Retrieval System for Word Formation of Terminology

Seo Chung-won Dept. of EECS, KAIST/KORTERM

요 약

조어법 검색 시스템은 기존의 조어 분석 결과를 통해 조어의 경향을 파악할 수 있도록 도와주는 시스템이다. 조어법 검색에서는 새로운 영어 용어가 들어 왔을 때, 기존의 조어법의 대역어 정보와 조어 정보를 사용하여 가능한 한국어 조어 후보들을 제시 해 준다. 기존의 조어법 검색 시스템에서는 분야 별로 색인된 조어법 데이터를 통해 그 분야의 가능한 조어 후보를 나열하는데 그쳤으나, 본 연구에서는 분야별 조어 검색 외에, 다른 분야의 조어정보를 참조하는 분야간 검색이 가능하도록 하여, 조어 정보의 부족을 해소하였다. 또, 조어 후보에 대하여 코퍼스와 조어법 분석 결과에 기반한 가중치 계산을 통해 순서화 해 줌으로써, 새로운 용어의 수용에 보다 도움이 될 수 있는 정보를 제공하였다.

Page 2: Software Requirrment Analysis를 위한 정보 검색 …semanticweb.kaist.ac.kr/service/softwares/cwseo/MunHwa/... · Web view통합 조어법 검색 시스템 4.1 조어법 검색

기존의 수행된 연구에서는 신조어에 대한 국어 용어

제안을 통해 기존 용어의 정비를 위한 기초자료

제공하고 있다.하지만, 기존의 검색시스템에서는 생물과 화학

분야에 대한 조어법 정보만을 검색할 수 있도록

구성이 되어 있고, 분야간 조어법 정보 검색이라든지, 제시된 신조어 후보의 적합성에 대한 연구가

부족했다. 새로운 용어 후보가 그냥 나열 되는 경우 “automatic frequency control”를 검색했을 때, 조어법

검색기에서는 다음과 같은 결과를 출력해 준다.자동 진동 제어자동 진동 조절자동 진동 지배자동 진동 관리자동 진동 조정자동 진동 전자자동 주파 제어자동 주파 조절…

실제로, ‘지배’나 ‘관리’, ‘조정’ 과 같은 것은 ‘진동’이나

‘주파수’와 같은 단어와 같이 쓰인다고 보기는 힘들다. 또한, “제어”나, “조절”과 같은 것들은 적합한

대역어로 판단하는 사람에 따라 어떤 것을 선택할지

애매한 경우가 생기기도 한다.검색 정보를 통해서 기존의 조어법에 대한 경향을

파악 할 수 있지만, 신조어 생성에서는 주관적인

판단이 필요해져서 일관성 있는 용어의 생성이

힘들게 된다.조어 후보의 순서화를 통해 적합한 신조어 생성에

대한 기준을 제시하여 새로운 용어의 생성에

일관성을 부여 할 수 있다.본 연구에서는 기존 조어법 검색 시스템의 확장을

통해 분야간 조어 유형의 비교를 하고, 신조어

생성에서 일관성 있는 기준을 제시할 수 있는 조어

후보의 순서화에 대한 연구를 수행하였다.

2. 관련연구

조어 분석은 분야별 전문용어의 대역어 생성 유형을

파악하여 기존 용어의 정비 및 신조어의 생성에

참조하기 위한 기초작업이다. 문화부 과제의

일환으로 수행된 KORTERM의 전문용어 정비사업을

통해 물리, 화학, 생물 분야의 조어법 정보를

구축하였으며, 의학 분야의 조어법 정보를 구축하고

있다.http://korterm.or.kr에서 제공되고 있는 조어법

검색 시스템은 다음과 같다.

그림 1 조어법 검색기 (구 버전)

화학과 생물 두 가지 분야에 대해서 신조어 대역

후보를 제시해 주고, 각 대역 후보 별로 조어 빈도수

정보와 실제 사용된 조어법의 예를 보여 줌으로써, 신조어 생성을 위한 정보를 제공해 주고 있다.기존 검색 시스템의 경우 다음과 같은 색인 구조를

갖는다.

색인 정보: <규칙 번호>: <조어법 규칙><영어 용어>: {<대역어>: <규칙

번호>}+

검색할 영어 용어가 들어 올 경우 영어의 각 단어별로

대역어 목록을 얻는다. 대역어 목록과 함께 각

조어법의 규칙 번호를 얻는데, 규칙 번호를 사용해

원래의 조어법 규칙에 대한 정보를 가져 올 수 있다.위 검색 시스템에서는 각각의 분야 별로 따로 색인을

구성하여 분야별로 분리된 색인 파일로 관리하고

있다. 색인이 분야별로 분리 되어 있기 때문에, 분야가 적을 때는 관계가 없지만, 분야가 늘어날

경우, 다른 분야에서의 조어 유형을 참조하기

Page 3: Software Requirrment Analysis를 위한 정보 검색 …semanticweb.kaist.ac.kr/service/softwares/cwseo/MunHwa/... · Web view통합 조어법 검색 시스템 4.1 조어법 검색

어려워지는 문제가 생긴다.본 연구에서는 조어법 정보의 분야를 확장하고, 통합하여 검색 할 수 있도록 조어법 정보의 색인 및

검색 시스템을 확장하였다.

3. 조어법 데이터 정렬

조어법 정보를 검색하기 위해서는 데이터의 색인이

필요하다. 이때, 영어 단어에 대한 한국어 대역어

정보를 얻으려면, 영어 단어와 한국어 조어 단위

사이에 정렬이 필요하다.조어법 분석 정보는 한국어 용어에 대한 형태소 구성

정보가 된다. 조어법 정보로 주어지는 정보는

영어용어와 한국어 대역어, 대역어의 형태소 구성

정보이다.구축된 조어법 정보는 각 분야에 대해서 다음과 같은

형식으로 DB에 저장 되어 있다.

표 1 조어법 데이타 형식

영어

용어

한글

용어

석1

태1

어1

석2

태2

어2

석3

태3

어3

tunable dye laser

가변

염료

레이저

nn ch 염

nn ch 레

Nn

ie

여기서는 ‘tunable’이 ‘가변’으로, ‘dye’는 ‘염료’로, ‘laser’는 ‘레이저’로 대응이 되는 것을 알 수 있다.이때, tunable이 한국어의 ‘가변’이라는 용어로

바뀐다는 정보를 알기 위해서는 각 영어 단어들을

한국어 조어 단위와 대응시켜 정렬할 필요가 있다. 조어 단위의 정렬에서 1:1로 대응되는 경우에는

문제가 없지만, 영어의 조어 단위와 한국어의 조어

단위가 불일치 하는 경우에 조어 단위를 일치 시켜

주어야 정확한 대역어 정보를 얻을 수 있게 된다. 한국어는 수식어구가 나타날 때, 중심어의 앞쪽에

나타나는 전치 수식어구만 존재하지만, 영어의 경우

전치 수식어구와 후치 수식어구가 모두 존재를 하기

때문에, 어순이 일치하지 않는 경우가 있다.하지만, 조어법 분석에서 사용된 영어 용어의 경우,

정렬에서 어순을 고려해서 정렬을 해야 하는 경우는

3~5% 정도이다. 여기서는 어순이 일치하지 않는 경우는 고려하지

않았다. 어순을 고려하지 않았을 때, 정렬의 유형을

보면 크게 5가지 경우가 있다.

1) 1:1 대응: 영어와 한국어의 조어 단위가

일치 하는 경우

2) 1:N 대응: 하나의 영어 단어가 N개의 한국어

조어 단위와 일치하는 경우

3) N:1 대응: N개의 영어 단어가 1개의 한국어

조어 단위와 일치하는 경우

4) M:N 대응 (M>N): M개의 영어 단어가 N개의 한국어 조어 단위와 일치하는 경우(2개

이상의 영어 단어가 하나의 한국어 단어와

일치)5) M:N 대응 (M<N): M개의 영어 단어가 N

개의 한국어 조어 단위와 일치하는 경우(2개

이상의 한국어 단어가 하나의 한국어 단어와

일치)

1:1 대응일 경우와 1:N, N:1 대응일 경우는 정렬의

오류 없이 정렬이 가능하다. 4), 5)의 경우 불일치한 조어 단위에 대한 정렬이

필요하다.본 연구에서 사용한 조어법 분석 정보의 경우

수작업으로 구축했기 때문에, 대체로 조어 단위가

일치하여, 85%~90% 정도가 1), 2), 3)에 속한다. 4), 5)에 해당하는 경우는 10%~15% 정도로 이들

중 많은 수가 영어 단어와 한국어 조어 단위의 차가 1인 것들이다. 대표적인 정렬의 오류 유형들을 살펴 보면 다음과

같다.

접사에 의한 분리 오류Allihn condenser: 알린/npp/ie 냉각/nc/ch

기/xs/ch 알린/npp/ie 냉각기/nc/chheatronic molding: 고/xp/ch 주파/nc/ch

가열/nc/ch 고주파/nc/ch 가열/nc/ch

합성 명사

Page 4: Software Requirrment Analysis를 위한 정보 검색 …semanticweb.kaist.ac.kr/service/softwares/cwseo/MunHwa/... · Web view통합 조어법 검색 시스템 4.1 조어법 검색

gas producer: 가스 nc/ie 발생 nc/ch 장치 nc/ch 가스/nc/ch 발생장치/nc/ch

관형형 동사finned tube: 지느러미 nc/ko 붙은

va/ko 관/nc/ch 지느러미 붙은/va/ko 관/nc/ch 명사 파생 동사

entrained bed: 분출 nc/ch 흐름 vn/ko 층 nc/ch 분출 흐름/vn/ko 층 nc/ch

형태소 미분리sea surface wind: 해상 nc/ch 풍

xs/ch 해/nc 상/nc 풍/xs 번역 단위 불일치

Standard Mean Ocean Water: 표준 nc/ch 해수 nc/ch Standard Mean (표준) Ocean(해) Water (수)

어순 불일치survey for basic maps of the sea: 해양

nc/ch 기본 nc/ch 도 xs/ch 조사 nc/ch

위의 오류들 중 접사에 의한 분리와, 동사 파생에 의한

부분에 대한 정렬 오류들을 다음의 규칙으로

처리하였다. 조어 단위가 영어 단어 개수보다 많을 때, 접사를 앞/뒤 단어와 결합

Allihn condenser: 알린/npp/ie 냉각기/ncheatronic molding: 고주파/nc/ch

가열/nc/ch

- 화학: 1735개의 오류 중 1271개 해결- 생물: 827개의 오류 중 678개 해결- 물리: 1740개의 오류 중 1271개 해결

조어 단위가 영어 단어 개수보다 많을 때, 동사 전성부분을 합침

finned tube 지느러미 붙은 va/ko 관 nc/ch

entrained bed 분출 흐름 vn/ko 층 nc/ch

- 화학: 1259개의 오류 중 168개 해결- 생물: 668개의 오류 중 9개 해결 - 물리: 648개의 오류 중 10개 해결

기타 오류

- ‘-‘에 의한 오류Aharonov-Bohm effect 아로노프 npp

- sy 보옴 npp SP sp 효과

- Space 에 의한 오류Anderson localization 앤더슨 npp SP

sp 한 nu 곳 nb 되기

위에서 사용한 규칙들로 90~95%의 용어들이 정렬이 가능했다.규칙으로 해결되지 않는 조어법의 수는 각각 다음과 같다.

- 화학 용어 1555개- 생물 용어 808개- 물리 용어 2203개

위의 오류에는 조어 단위의 수와 영어 단어의 수가

1:1로 같지만, 오류들이 복합적으로 작용해 불일치

하는 경우는 포함되지 않았는데, 이와 같은 경우는

수작업으로 보정을 해 주었다.

4. 통합 조어법 검색 시스템

4.1 조어법 검색 시스템

조어법 검색 시스템은 조어법 데이터의 정렬을 통해

얻은 영어와 한국어 대역 쌍과 조어법 데이터를 색인

해 주는 색인 모듈과 영어 용어가 들어 왔을 때, 대역어를 생성해 주는 검색 모듈의 두 부분으로

구성되어 있다.기존의 시스템에서는 색인 구조가 분야 정보를

포함하고 있지 않고, 분야별로 별도의 색인 파일로

관리가 되고 있었다. 본 연구에서는 다른 분야의 조어 정보를 참조하여

검색 할 수 있는 통합 검색 기능을 지원하기 위해 색인

구조에 분야 정보를 포함하여 하나의 색인 파일로

관리가 될 수 있는 형태로 구조를 변경하였다.

(변경 전)색인 정보: <규칙 번호>: <조어법 규칙>

<영어 용어>: {<대역어>: <규칙

번호>}+

(변경 후)색인 정보: <규칙 번호>: <분야><조어법

규칙><영어 용어>: {<대역어><

분야>: <규칙 번호>}+

Page 5: Software Requirrment Analysis를 위한 정보 검색 …semanticweb.kaist.ac.kr/service/softwares/cwseo/MunHwa/... · Web view통합 조어법 검색 시스템 4.1 조어법 검색

색인 구조의 변경을 통해 기존에 분산되어 관리되던

색인 파일들을 하나로 통합하여 관리하는 형태로

변경되었다.입력으로 영어 용어가 들어 오면, 각 단어 별로

대역어를 검색하게 되고, 검색된 대역어에 포함된

분야 정보를 사용하여 분야별 검색과 통합 검색에

사용한다.검색 프로그램의 구조는 다음과 같다.

그림 2 조어법 검색 프로그램 구조

대역 패턴 검색에서는 각 단어에 대하여 가능한

한국어 대역어를 검색하고, 사용한 조어 정보들을

가져온다. 조어 후보의 생성에서는 대역어들을

어순에 맞게 배열하여 가능한 신조어 후보들을

생성한다.분야별 검색에서는 대역어 중에서 분야가 일치하는

부분만을 정보로 사용하여 검색을 수행하여 기존

시스템과 같은 결과를 출력해 준다.분야간 검색에서는 다른 분야의 대역어 정보를

참조하여 검색을 수행하게 된다. 예를 들어 ‘ideal gas equation’을 검색 했을 때, 분야 별 검색에서는 결과가 다음과 같이 출력 된다.

생물: ideal 가스 equation, ideal 기체 equation

화학: 이상 기체 식, 이상 기체 방정식 이상

기체 반응식, …

물리: 이상 기체 방정식, 이상 기체 상태, 이상

기체 미분, …

“ideal gas equation’은 화학 용어로, 생물 분야에서

검색을 했을 때는, ‘ideal’이나 ‘equation’이 생물

분야의 조어법 데이터에 나타나지 않아서 대역어를

생성하지 못하고 있다. 실제로, 조어법 분석 결과는 수작업으로 구축이 되기

때문에 비용이 많이 들어서 대량의 데이터를

구축하기 힘들고, 확장하는 것도 쉬운 작업은 아니다. 용어가 속한 분야에 대역어 정보가 없는 경우 다른

분야의 대역어 정보를 이용할 수 있다면, 분야는

다르더라도 용어의 생성에 도움이 될 수 있다. 또, 물리 분야 같은 경우 한글화된 용어들이 많이 있어서, 다른 분야의 용어들을 한글화 하고자 할 때도, 참조하여 사용할 수 있다. 생물분야에서 다른 분야 정보를 참조하여 조어후보를

생성하면 다음과 같은 결과를 얻을 수 있다.Ideal gas equation생물: 이상 기체 방정식, 이상 기체 식, 이상 기체

반응식, …실제로 어휘의 분포 특성을 살펴 봤을 때, 하나의

분야에만 나타나고 있는 용어들이 각각 물리 1708개, 화학 4297개, 생물 8498개이고, 2분야에 걸쳐서

나타나는 용어는 2451개로 다른 분야 정보를 참조

했을 때, 대역어의 확장에 도움이 될 것을 예상할 수

있다.실제로, 물리분야에만 나타나는 영어 단어들 중에서

‘completeness’나 ‘workshop’, ‘world’같은

단어들은 공통적으로 쓰일 수 있는 단어들이다. 분야간 검색에서 조어 후보의 생성에서는 분야

정보가 일치하는 대역어에 우선 순위를 부여하여, 분야 정보를 반영하도록 하고 있다.우선순위는 다음과 같은 3단계로 나누어 진다.

1. 해당 분야에만 나타나는 단어일 경우 1순위

2. 해당 분야에 포함되는 단어일 경우 2순위 (2분야 혹은 3분야에 걸쳐서 나타나는 단어)

3. 해당분야에 포함되지 않는 단어일 경우 3순위

그림 3 조어법 검색 프로그램

Page 6: Software Requirrment Analysis를 위한 정보 검색 …semanticweb.kaist.ac.kr/service/softwares/cwseo/MunHwa/... · Web view통합 조어법 검색 시스템 4.1 조어법 검색

우선순위와 분야에 따른 구분은 서로 다른 색을

부여하여 구분을 하고 있다.

4.2 검색 결과 순위화

검색 시스템에서 조어 후보 생성 결과는 순서 없이

나열되고 있다.‘ideal gas equation’ 의 경우 출력 결과는 다음과

같다.이상 기체 방정식

이상 기체 식

이상 기체 상태

이상 가스 방정식

이상 가스 식…

‘ideal gas equation’의 경우 한국어 용어로는 ‘이상

기체 방정식’이 사용되기 때문에 제시된 조어

후보로부터 바른 정보를 얻을 수 있다.하지만, ‘constant boiling mixture’의 경우는

한국어 용어로는 ‘불변 끓음 혼합물’이 사용되지만, 출력 결과는 다음과 같다.

상수 끓는 혼합물

상수 끓는 혼합액

상수 끓는 혼합

상수 끓임 혼합물

상수 끓임 혼합액

상수 끓임 혼합

상수 끓음 혼합물

상수 끓음 혼합액

상수 끓음 혼합…불변 끓는 혼합물

불변 끓는 혼합액

불변 끓는 혼합

불변 끓임 혼합물

불변 끓임 혼합액

불변 끓임 혼합

불변 끓음 혼합물

불변 끓음 혼합액

…이 경우는 조어 후보의 개수가 많고, 자연스러운

표현인 ‘불변 끓임 혼합물’이나 사전에서 원래

대역어로 사용되는 ‘불변 끓음 혼합액’과 같은 것들이

뒤에 나타나서 출력 결과만을 보고 좋은 용례 후보를

찾기가 힘들다. 본 연구에서는 코퍼스를 통해 수집한 uni-gram과 bi-gram 정보와 조어법 분석 결과를 통해 수집한 조어

패턴 정보와 조어 참여 정보 등을 통해 조어법 분석

결과를 순위화 하여 사용하였다.코퍼스에서 수집한 bi-gram 정보가 자연스러운

표현을 위해서는 가장 좋은 정보가 되겠지만, 분야

사전과 코퍼스 사이에 어휘 일치도가 적어서

보완하기 위해 조어 정보에서 수집한 bi-gram 정보를

같이 사용을 하였다.

코퍼스에서 형태소 bi-gram 수집 - 인접 형태소에 대한 정보 수집

“꼬리 모양”“나트륨 이온”“농도 변화”

“뇌 활동”

조어 정보에서 bi-gram 수집- 조어 정보 구성

ST – 형태소1 – 형태소2 … - 형태소n – ED

(ST, 형태소1)(형태소1, 형태소2) …(형태소n, ED)

그리고, 조어에 활발히 참여하는 형태소를 포함한 경우 가중치를 부여 할 수 있도록 다음과 같이 조어 참여 정보를 반영하였다.

조어 참여 정보: (왼쪽 결합 가능 형태소+오른쪽 결합 가능 형태소)

- 왼쪽 결합 가능 형태소{ST:28 겹:2 교차:1 띠:2 마이켈슨:1 보강:2 빛:1 산란:2 상쇄:2 스펙트럼:1 양성:1 양자:1 음성:2 의:1 지움:1 파:1 페로:2 항성:1 흩뜨림:1} + 간섭 결합 어휘 수: 18 (ST 제외)

- 오른쪽 결합 가능 형태소간섭 + {ED:17 가락지:1 거르개:2 계:7 굴절:1 그림:

Page 7: Software Requirrment Analysis를 위한 정보 검색 …semanticweb.kaist.ac.kr/service/softwares/cwseo/MunHwa/... · Web view통합 조어법 검색 시스템 4.1 조어법 검색

1 꺽임:1 무늬:4 분광:3 상:1 실:1 여러:1 원:1 자:1 재개:2 조건:1 측정:1 필터:1 현미경:2} 결합 어휘 수: 19

교류 + {ED:3 기:1 기전:2 물매:1 발전:2 세:1 전기:1 전동:2 전류:2 전압:4 전원:1 정류:1 폴라로그라피:1 홑:1 회로:2 흐름:2} 결합 어휘 수: 16

가중치의 계산은 다음의 3가지 함수를 사용하였다. 코퍼스 기반 bi-gram 사용

코퍼스 기반 bi-gram+ 조어법 정보 bi-gram 사용

조어법 정보 bi-gram 사용 + 조어 참여 정보 사용

5. 결과

통합 조어법 검색 시스템은 신조어에 대한 대역어 정보를 제공하여 신조어의 생성에 도움을 주는 시스템이다. 시스템의 평가를 위해서, 기존의 조어법 분석 결과에 포함되지 않는 전문 용어 들 중 2어절 이상의 용어를 대상으로 검색을 하였다.

화학 용어 예)absorption photometry absorption rate absorption refrigeration system absorption resonance absorption spectrometry …air cycle refrigeration…

“air cycle refrigeration(공기 순환 냉동)”을 검색해 보면 다음과 같은 결과를 얻을 수 있다.공기 고리 냉동

공기 고리 냉각

공기 고리 냉장

공기 순환 냉동…

기류 주기 냉동

기류 주기 냉장

기류 회로 냉동

기류 회로 냉장

기류 사이클 냉동…

코퍼스 기반 bi-gram을 사용했을 때와 조어정보bi-gram+조어 참여 정보를 사용했을 때는, 다음과 같은

결과를 얻었다.공기 순환 냉각공기 주기 냉각대기 순환 냉각공기 고리 냉각공기 회로 냉각대기 주기 냉각…조어법 정보 bi-gram 과 조어 참여 정보를 사용했을 때는 다음과 같은 결과를 얻었다.공기 고리 냉동대기 고리 냉각공기 주기 냉각공기 순환 냉각공기 회로 냉각공기 고리 냉각…

코퍼스에서 수집한 bi-gram 의 매치 비율은 낮기

때문에 uni-gram 으로 보정해 주지 않으면, 결과에

거의 영향을 주지 않는다. 위의 결과에서 살펴 보면, 코퍼스에서 수집한 정보를

썼을 때, ‘공기 순환 냉각’이 가장 높은 순위를 가지는

것을 볼 수 있다. Bi-gram이 매치되는 비율은 조어법 정보에서 수집한

bi-gram이 높지만, 조어법 정보에서는 어휘 분포가

실제 사용빈도에 따르는 것이 아니고 조어 참여

정도에 따라 달라지기 때문에, 위와 같은 경우에서는

“공기 고리 냉동”이 높은 순위를 갖게 되는 결과를

출력 해 준다. 가중치 함수의 계산에서 코퍼스에서 수집한 bi-gram 정보는 적용률이 떨어지기 때문에 많은 도움이 되지

않지만, 실제 사용되는 용어와 가까운 조어 생성

결과를 찾는데 도움이 된다. 조어법 분석 결과에서 수집한 bi-gram 정보는 경우에

Page 8: Software Requirrment Analysis를 위한 정보 검색 …semanticweb.kaist.ac.kr/service/softwares/cwseo/MunHwa/... · Web view통합 조어법 검색 시스템 4.1 조어법 검색

따라 실제 사용되는 용어보다는 조어에 많이

참여하는 단어들을 우선시하게 되어 잘 못 된 결과를

출력해 줄 수 있지만, 코퍼스에서 수집한 bi-gram 정보보다 적용률이 높은 장점이 있다.가중치를 적절히 조합하는 것에 대한 연구가

필요하다.

6. 결론

전문용어 정비사업의 일환으로 구축된 조어법 분석

결과에 대한 색인 및 검색 시스템을 구축하였다. 통합

조어법 검색 시스템은 기존의 조어법 분석 결과들에

대한 검색을 통해 새로운 영어 용어에 대한 한국어

조어의 대역어 정보를 제공하여 전문용어 신조어의

생성에 도움을 주는 시스템이다. 통합 조어법 검색 시스템에서는 새로운 영어 용어를

영어 용어의 조어 단위를 바탕으로, 기존의 조어 분석

결과를 검색하여 한국어 조어 대역어 후보를 출력해

준다.대역어 후보의 순서화에서 코퍼스에서 추출한 bi-gram과 조어법 분석 결과에서 추출한 bi-gram, 조어

참여 정보를 이용한 가중치를 사용해서 대역어를

순서화 하였다. 하지만, 코퍼스에서 추출한 bi-gram의 경우는 적용율이 낮았고, 조어법에서 추출한 bi-gram의 경우도 오류가 발생하였다. 조어 참여

정보에 대한 가중치의 경우는 수식하는 위치에

놓이는지, 수식 받는 위치에 놓이는 지에 따라 다른

가중치로 부여가 되어야 하는데, 이는 용어의

문법적인 구성 정보와 관련이 있다. 코퍼스의 확충을 통한 통계적인 순서화 모델의

보완과 문법적인 지식을 활용한 자연스러운 조어

후보의 생성에 대한 연구가 필요하다.또, 생성에서 문제가 되는 잘못된 정렬에 대한

오류들은 수작업으로 일일이 해결하기에는 양이 많아

자동으로 정렬에 대한 오류를 수정하는 방법이

필요하다.향후 연구로, 조어법 분석 결과의 정렬의 성능을

높이기 위한 정렬 모델의 개발이 필요하며, 생성된

조어 정보의 자연스러운 생성을 위한 대역어의

조합과 선정에 대한 연구와 객관적인 비교를 위한

평가 방법의 개발이 필요하다.

참고 문헌

[1] 21세기 세종계획 과제 보고서. 전문용어의 정비. 문화관광부, 국립국어 연구원.