101
- i - 연구보고서2002년21세기 세종계획 전문용어의 정비 연구책임자 : 최 기 선(한국과학기술원) 문 화 관 광 부 국립국어연구원

Á Ý Á & y ¯Dsemanticweb.kaist.ac.kr/research/korterm/korean/term...L 8 : à Ó ´ 7 ß Ò y > Ø À ² y ¯ D º ¿ 8 K ' Þ ¯ : X ¸ À à Ý ÿ 8 w x ã À : ç ; a Ä × y

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

  • - i -

    연구보고서【2002년】

    21세기 세종계획

    전문용어의 정비

    연구책임자 : 최 기 선(한국과학기술원)

    문 화 관 광 부

    국립국어연구원

  • - ii -

    사업보고서【2002년】

    21세기 세종계획

    전문용어의 정비

    연구책임자 : 최 기 선

    문 화 관 광 부

    국립국어연구원

  • - iii -

    제 출 문

    문화관광부 장관 귀하

    전문용어 정비에 관하여 귀부와 체결한 연구

    용역 계약에 의하여 연구 보고서를 작성하여 제출합니다

    2002년 11월

    총괄연구 책임자 : 최기선

    • 세부과제명 : 전문용어의 정비

    책 임 자 : 최기선

    연 구 원 : 신효식, 김혜경

    연구보조원 : 권혜진 외 11인

    • 세부과제명 : 전문용어의 국어학적 연구

    책 임 자 : 서상규

    연 구 원 : 강현화

    연구보조원 : 조은경, 봉미경

  • - iv -

    요 약 문

    1. 사업명

    전문용어의 정비

    2. 연구의 목적

    전문용어의 정비는 지식정보화 사회에서 요구되는 효율적인 정보의 교환, 확산에

    있다. 정보의 기본단위인 용어의 사용에 대한 사회적 약속이 투명할 때 정확한

    정보의 유통이 가능하지만, 현재와 같은 다원화된 지식공급의 체계하에서는 용어

    들의 난립현상이 더욱 두드러지고 있다. 전문용어 연구 2단계(2001~2003)는 실용

    화 단계로 2차년도인 2002년에는 다음과 같은 연구목표에 초점을 두고 연구를

    진행하였다.

    (1) 전문용어의 표준화 기반 확립 (생물학분야)

    (2) 전문분야 전문용어 기초 자료 데이터베이스 구축 (의학분야)

    (3) 전문용어 표준화를 위한 통합검색시스템의 갱신

    (4) 전문용어 연구를 위한 국내조직의 활성화

    3. 연구의 필요성

    (1) 유럽, 일본을 비롯한 선진국은 오랜 전통 속에서 전문용어의 중요성을 인

    식하고 용어정비 작업에 대한 기술을 축적함에 비해 우리나라는 전문용어 연구

    에 대한 전통이 일천함

    (2) 현재의 지식정보화 사회를 맞이하여 정보의 효율적 유통을 위해 용어의

    정비는 국가 산업의 인프라로 인식됨

    (3) 용어의 정비는 물론 새로운 용어의 생성과 확장을 위한 전문용어관리시스

    템의 확립과 개발공정의 체제 구축이 필요

    (4) 전문분야 정보의 대중화로 인한 용어정보의 서비스 필요성이 증대

    (5) 전문분야별 용어학적 특성연구를 바탕으로 정보산업 응용기술 개발에 기

  • - v -

    4. 연구내용 및 결과물

    당해연도에 수행한 전문용어 표준화의 연구내용과 결과는 다음과 같다.

    1) 전문용어 기초자료 데이터베이스 구축

    (1) 의학전공서적 및 학술지 100만 어절 구축

    (2) 생물학 용어 한-영-일 3개국 대응목록 5천 건 추가 구축 (누적 1만 5천

    건) 및 한국생물과학협회 심의

    (3) 의학 용어 한-영-일 3개국 대응목록 1만5천 건 구축 및 대한의사협회 심

    2) 전문용어의 표준화

    (1) 생물학 분야 한국어 용어의 국어학적 분석

    - 한국어 표제어 기준 약 1만 5천건 조어법 분석

    - 표준화심의안을 위한 맞춤법 분석 (1만 5천건)

    (2) 생물학 용어 표준 데이터베이스화

    - 생물학 용어 한-영-일 대응목록 및 조어법 결과를 용어 정보관련 국제

    표준 마크업 언어인 MARTIF 형식으로 데이터베이스화

    3) 전문용어 연구를 위한 국내조직 활성화

    (1) 자문위원회 운영 및 전문용어

    (2) 각 학회와의 연계사업 추진

    4) 전문용어 표준화를 위한 통합검색시스템의 확립

    (1) 물리, 화학, 생물학 분야 한-영-일 3개국 대역어 및 조어법 분석 결과 교

    차 검색

    (2) 의학 분야 3개국 대역어 교차 검색

    5. 연구결과의 활용

    1) 연구결과로 구축된 대역어 목록은 국어학적 분석 결과를 토대로 용어의 표준

    화 기초자료로 이용된다.

    2) 구축된 분야별 코퍼스는 용어의 신조어 추출에 사용되고, 전문용어 언어 모델

    링 및 용역학적 특징 분석에 사용된다.

  • - vi -

    3) 국어학적 분석이 된 대역어 목록은 코퍼스와 함께, 용어 통합검색시스템에 이

    용된다.

    - 코퍼스로부터 용어 빈도수 계산 및 용례추출이 이루어진다.

    4) 통합검색 시스템은 용어 정보를 제공함으로써, 용어의 보급을 통해 표준화에

    기여한다.

  • - vii -

    차 례

    I. 전반적인 연구개요 ·········································································································· 1

    1. 연구의 목표 ··················································································································· 1

    2. 전문용어 정비공정 ······································································································· 1

    1) 전문용어 관련 ISO 표준규격의 지역화 ······························································ 1

    2) 분야별 언어자원 수집 ····························································································· 2

    3) 용어 관리/개발 환경 구축 ····················································································· 2

    4) 언어자원의 입력 및 가공 ······················································································· 2

    5) 다국어 용어 대역어 목록의 구축 ········································································· 3

    6) 전문 용어의 국어학적 분석 ··················································································· 3

    7) 용어의 표준 데이터베이스화 ················································································· 4

    8) 용어 및 말뭉치의 용어학적 분석 ········································································· 4

    9) 분야별 언어공학적 자원 구축 ············································································· 4

    10) 용어뱅크 구축 ········································································································· 4

    11) 통합검색시스템 개발을 통한 용어검색 서비스 ············································· 5

    12) 전문용어 관련 연구 정보의 배포 및 홍보 ··················································· 5

    3. 지금까지의 연구 실적 ································································································· 5

    1) 연구의 최종목표 ······································································································· 6

    2) 1단계(1998-2000) 연구 실적 ·············································································· 7

    3) 2단계(2001~2003) 1차년도(2001년) 연구실적 ··············································· 9

    4. 2002년도 연구과제 ··································································································· 10

    1) 연구 목표 및 내용 ································································································· 10

    2) 추진일정 ············································································································· 12

    3) 기대효과 ··················································································································· 12

    II. 전문용어 기초 자료 데이터베이스 구축 ································································· 14

    1. 말뭉치의 구축 (의학분야) ······················································································ 14

    1) 개 요 ························································································································· 14

    2) 말뭉치 구축의 기본 원칙 ····················································································· 15

    3) 의학 전문용역 말뭉치의 구성 ··········································································· 15

    2. 한-영-일 3개 국어 대응 용어목록 구축 ····························································· 21

    1) 대응목록 구축과정 ································································································· 21

    2) 언어자원의 수집 ····································································································· 22

    3) 언어자원의 입력 ····································································································· 23

  • - viii -

    4) 언어자원의 가공 ····································································································· 24

    5) 대응목록의 획득 ····································································································· 25

    6) 전문가에 의한 용어 대응목록의 심의 ······························································· 27

    7) 생물학 용어 추가 목록 구축 ··············································································· 27

    III. 전문용어의 국어학적 분석 및 표준 데이터베이스화 ········································· 29

    1. 서 론 ··························································································································· 29

    2. 생물학 용어의 조어 분석 ······················································································· 31

    1) 연구의 개요 ············································································································· 31

    2) 연구의 방법 및 원칙 ····························································································· 31

    3) 생물학 용어 분석 결과 및 특징 ········································································· 36

    4) 향후 연구를 위한 제안 ························································································· 40

    3. 문화부 용어심의를 위한 표준화 기초작업 ······················································· 41

    1) 연구의 내용 ··········································································································· 41

    2) 연구 방법 및 추진 과정 ····················································································· 41

    3) 연구 결과 ··············································································································· 42

    4) 향후 처리에 관련된 문제점 ················································································· 54

    4. 생물학 용어 대응목록의 표준 데이터베이스화 ··················································· 55

    1) 개요 ····························································································································· 55

    2) MARTIF의 문법적 구조 ························································································ 55

    3) MARTIF화의 실례 ·································································································· 57

    IV. 전문분야 말뭉치에 기반한 전문용어학 연구 ······················································· 59

    1. 전문용어 추출기 ········································································································· 59

    1) 관련연구 ····················································································································· 59

    2. 용어 정의문 자동 추출기 ························································································· 72

    1) 서론 ··························································································································· 72

    2) 관련연구 ····················································································································· 72

    3) 시스템의 구현 ··········································································································· 73

    4) 시스템 평가 ··············································································································· 75

    5) 결론 및 향후 계획 ··································································································· 77

    6) 참고 문헌 ··················································································································· 77

    3. 전문용어 조어 검색기 ····························································································· 79

    1) 개요 ····························································································································· 79

    2) 내용 및 목적 ············································································································· 79

    3) 시스템 소개 ··············································································································· 80

    4. 통합검색기 갱신 ········································································································· 82

  • - ix -

    1) 개 요 ··························································································································· 82

    2) 통합검색시스템의 설계 ··························································································· 82

    3) 사용법 ························································································································· 84

    V. 전문용어 표준화를 위한 제반 조직의 활성화 ······················································ 91

    1. 국제표준화 기구 전문용어기술원회(ISO/TC 37) 활동 ····································· 91

    1) ISO/TC 37/SC 4 국제회의 ················································································ 91

    2) ISO/TC 37 연례총회 ······························································································ 93

    2. 학술 활동: 국제라운드테이블 개최 ··································································· 108

    3. 전문용어 정보 보급화: 출판 ················································································· 110

    1) 자문회의 ·················································································································· 110

    2) 평가회의 ·················································································································· 110

    VI. 결론 및 향후 추진 전망 ························································································· 112

    ■ 부록: CD-ROM 소록 결과물 내용 일람

    [부록 1] 의학 코퍼스

    [부록 2] 생물학 용어 목록 추가구축 심의후 자료

    [부록 3] 한영일 3개국 대응 의학 전문용어 목록 심의전 자료

    [부록 4] 한영일 3개국 대응 의학 전문용어 목록 심의후 자료

    [부록 5] 생물학 용어 조어법 분석

    [부록 6] 생물학 용어 표준심의안

    [부록 7] 생물학 용어 조어단위 빈도표

    1. 서론

  • - x -

    가. 전반적인 연구의 목표 및 내용

    본 “전문용어의 정비사업” 연구과제는 시기별로 크게 4단계의 과정을 가진다. 제

    1단계에서 제3단계까지는 전문용어 연구를 전개하기 위한 기초적인 연구 수행

    단계이고, 제4단계는 최종 목표 마무리를 위한 단계이다. 이를 단계별로 요약하

    면 다음과 같다.

    나. 지금까지의 연구 실적

    구 분 연구목표 연 구 내 용

    1단계

    (1998-2000)

    개발환경 구축 및

    기본자료 집성

    - 전문용어 집성 (경제분야 및 기초과학분

    야)

    - 전문용어 3개국 대응 목록의 작성

    - 전문용어 개발 환경의 정비 및 체계 표

    준화

    - 전문용어 학문화 및 교육 저변 확대

    2단계

    (2001-2003)실용화

    - 전문용어집성 (기초과학분야 및 과학기

    술분야 용어)

    - 전문용어 3개국 대응 목록의 작성

    - 기초과학기술용어 확장 및 관리

    - 전문용어 분야 확대 및 고품질화

    - 언어산업에 의한 응용성 강화

    - 고신뢰도 검증 및 보급

    - 위의 사업을 위한 KORTERM의 위상

    확립을 위한 범부처적 협력

    3단계

    (2004-2007)운용

    - 전문용어 집성 (인문사회과학용어)

    - 경제, 과학기술용어 확장 및 관리

    - 전문용어 대규모 통합정보베이스

    - 전문용어 교육 체계화 완성

    - 다양한 응용 제품 개발

    4단계

    (2008- )관리확장

    - 전문용어의 문화화

    - 전문용어 통합정보베이스 보급

    - 지속적 전문용어 확장 관리

  • 1) 1단계(1998-2000) 연구 실적

    1단계 3년에 걸친 연구실적을 요약하면 다음과 같다.

    ◎ 1차년도 : 전문용어 사업 전개를 위한 전문용어개발공정의 구축 및 부분

    적 가동

    ◎ 2차년도 : 전문용어 개발 공정의 총체적 점검과 전문용어 표준화를 위한

    기반 연구 수행

    ◎ 3차년도 : 본격적인 전문용어 대역어 목록 작성과 보급을 위한 학회와의

    공동 작업 및 개발 공정의 확립

    각 연차별 연구 실적은 다음과 같다.

    1) 1차년도 (1998년)

    (1) 전문용어 정비를 위한 기존 사전의 입력 및 집성

    - 경제분야 사전을 입력하여 어휘 데이터베이스와 목록 구축 (1만건)

    (2) 코퍼스 자동 구축 및 다국어 전문용어 통합정보베이스를 위한 언어 공학

    적 연구

    - Web Robot의 설계

    (3) 학회와 국어학자에 의한 전문용어 표준화를 위한 심의 및 제안

    - 경제분야 전문가에 의한 전문용어의 표준화 DB의 작성 (100개)

    (4) 전문용어 국제표준 포맷 MARTIF 시범 데이터 (1000건)

    (5) 국내외 유관 단체의 규합과 조직화

    - 물리, 화학, 생물, 의학, 문헌정보 분야의 용어위원을 중심으로 한 자

    문위원회 구성

    (6) 국제 표준화 기구 활동을 통한 국내외 연구동향 및 활동 파악과 공조 체

    제확립

    (7) 국내외 심포지엄 개최를 통한 전문용어 사업의 학문화

    - 제1회 전문용어언어공학 심포지엄 개최

    (8) 홈페이지 작성

    2) 2차년도 (1999년)

    (1) 전문용어 정비를 위한 코퍼스 구축과 기존 사전의 입력 및 집성을 통한

    기초 자료 DB 구축

    - 경제분야 코퍼스 구축 (100만 어절)

  • - 경제분야 상세 의미 기술 (100건)

    - 경제 전문용어의 조어 유형화 (1000건)

    - 물리학 교과서 코퍼스 구축 (50만 어절)

    - 물리학 전문용어 한-영 목록 (1만건)

    - 물리학 전문용어의 구조화 (1,000건)

    - 물리학 전문용어의 조어 유형화 (500건)

    - 물리분야 동사 구조화 문형 (100건)

    - 한-영-일 3개국 대응 물리학 대응 목록 (영어 표제어 기준 1만 5천

    건)

    (2) 학회와 국어학자에 의한 전문용어 표준화를 위한 심의 및 제안

    - 전문용어의 용어사 작성 (물리학 300건, 경제분야 1,000건)

    (3) 국내외 유관 단체의 규합과 조직화

    - 자문위원회 운영

    - Infoterm, EAFTerm, JTA와의 정규 모임 및 의견 교환

    (4) 국제 표준화 기구 활동을 통한 국내외 연구 동향 및 활동 파악과 공조

    체제 확립

    - Infoterm, EAFTerm과의 대외적 협조 관계 지속

    (5) 국내외 심포지엄 개최를 통한 전문용어 사업의 학문화

    - 제2회 전문용어언어공학 심포지엄 개최

    - 제1회 국제원탁회의 개최

    - KORSUM`99 세미나 개최

    (6) Newsletter 및 전문용어언어공학연구센터 홈페이지를 이용한 전문용어

    의 국민적 관심 고조와 저변확대 및 교육

    - KORTERM 홈페이지의 내용 갱신 및 3회에 걸친 Newsletter 발행

    3) 3차년도 (2000년)

    (1) 전문용어 정비를 위한 코퍼스 구축과 기존 사전의 입력 및 집성을 통한

    기초 자료 DB 구축

    - 화학 전문분야 코퍼스 구축 (100만 어절)

    - 화학 한-영 전문용어 목록 (한국어 표제어 기준 1만 5천건)

    (2) 코퍼스 자동 구축 및 다국어 전문용어 통합정보베이스를 위한 언어 공학

    적 연구

    - 전문용어 사전을 이용한 문서 표현 방식 연구

    (3) 학회와 국어학자에 의한 전문용어 표준화를 위한 심의 및 제안

    - 물리학 전문용어 조어법 분석 (1만건)

  • - 물리학 전문용어 표준화 유형화 분석 (5천건)

    (4) 국내외 유관 단체의 규합과 조직화

    - 자문위원회 운영

    - Infoterm, EAFTerm, JTA와의 정규 모임 및 의견 교환

    (5) 대역어 정보 부여를 위한 각 국의 전문용어 대역 사전의 수집과 입력 및

    집성

    - 한, 영, 일 전문용어 사전 및 용어집의 입력 및 집성을 통한 한영일

    3개국 물리학 대응 목록의 1만 5천건 구축 (2차년도 미 대응어 5,000건에 대한

    한국어 대역어 구축)

    - 화학 한영일 3개국 대응목록 작성 5천건

    (6) 국제 표준화 기구 활동을 통한 국내외 연구 동향 및 활동 파악과 공조

    체제 확립

    - Infoterm, EAFTerm과의 대외적 협조 관계 지속

    (7) 국내외 심포지엄 개최를 통한 전문용어 사업의 학문화

    - 제3회 전문용어언어공학 심포지엄 개최

    - 제2회 국제원탁회의 개최

    - KORSUM'2000 세미나 개최

    (8) Newsletter 및 전문용어언어공학연구센터 홈페이지를 이용한 전문용어

    의 국민적 관심 고조와 저변확대 및 교육

    - KORTERM 홈페이지의 내용 갱신과 영어판 작성 및 3회에 걸친

    Newsletter 발행

    3년에 걸친 전문용어 사업 전개를 통해 기본적인 전문용어 공정 체제 확립과

    이에 필요한 연구 자료의 기반을 다질 수 있는 토대를 마련하였고, 여러 분야 전

    문가들에게 전문용어 정리 작업의 중요성에 대한 공감대를 마련하고 의견을 토

    론하고 제안할 수 있는 장을 마련하였다.

    2) 2단계(2001~2003) 1차년도(2001년) 연구실적

    (1) 전문용어 정비를 위한 코퍼스 구축과 기존 사전의 입력 및 집성을 통한

    기초 자료 DB 구축

    - 생물분야 코퍼스 구축 (100만 어절)

    - 한.영.일 3개국 대응 화학 전문용어 목록 구축: 1만건 (누적 1만 5천

    건)

    - 한.영.일 3개국 대응 생물 전문용어 목록 구축: 1만건 (일본어 대응

  • 률 70%)

    - 화학 및 생물분야 전문가에 의한 용어 심의

    (2) 화학 분야 전문용어의 표준화를 위한 기반 연구로서의 국어학적 분석 (1

    만 5천건)

    - 화학 용어의 조어법 분석

    - 맞춤법, 외래어 표기 검토

    - 화학용어의 표준화를 위한 심의 목적의 제안지 작성

    (3) 화학분야 전문용어 정보의 국제표준형식(MARTIF) 데이터베이스 구축

    (4) 전문용어 표준화를 위한 전문용어 통합검색시스템 개발

    (5) 전문용어 분류를 위한 영역 분류체계 연구

    (6) 전문용어 연구 활성화를 위한 제반 활동

    - 전문용어 관련 국내외 전문가 초청 워크샵 및 제4회 전문용어 심포

    지엄 개최

    - 전문용어 관련 국제표준화기구 총회, EAFTERM 등 국제회의 참가를

    통한 국제적 연대 활성화

    - 전문용어 연구, 소식지 발행, 번역, 웹서비스 개선 등 전문용어 연구 정

    보의 보급

    다. 2002년도 연구과제

    1) 연구 목표 및 내용

    전문용어 연구 2단계(2001~2003)는 실용화 단계로 2차년도인 2002년에는 다음

    과 같은 연구내용을 주된 목표로 한다.

    (1) 전문용어 기초용어 데이터베이스 구축

    - 의학분야 코퍼스를 구축

    - 한.영.일 3개국 대응 의학용어 대역어 목록 작성

    - 전년도에 연이어, 생물학 분야 한.영.일 3 개국 대응 대역어 목록

    작성

    (2) 관련 학회와의 공동작업으로 대역어 목록 심의

    (3) 생물 분야 전문용어의 국어학적 조어법 분석 및 국어 표준화를 위한 심

    의 목적의 제안지 작성

    (4) 생물분야 전문용어 정보의 국제표준형식(MARTIF) 데이터베이스 구축

    (5) 전문용어 연구 활성화를 위한 제반 학술활동 및 홍보체계 확립

  • 2단계 2차년도(2002년)의 구체적 연구목표 및 연구 내용을 상술하면 다음과 같

    다.

    연구목표 연구내용 및 범위 비고

    전문용어의 표준

    화:

    생물분야

    • 한․영․일 3개국 대응 생물 전문용어 목록 구축: 5천건 (누적 1만 5천건)

    • 생물분야 전문가에 의한 용어 심의 및 재검토

    • 생물분야 한국어 표제어의 국어학적 분석: 1만 5천

    - 조어법 분석

    - 맞춤법, 외래어 표기 검토

    • 생물학 전문용어 정보 국제표준형식(MARTIF) 데이

    터베이스 구축: 1만 5천건

    예산

    사업

    전문용어 기초용

    어 데이터베이스

    구축: 의학분야

    • 의학 전문분야 코퍼스 구축: 100만 어절

    • 한․영․일 3개국 대응 의학 전문용어 목록 구축: 1만5천건

    • 의학분야 전문가에 의한 용어 심의

    예산

    사업

    전문용어 표준화

    를 위한 제반 조

    직의 활성화

    • 자문위원회 운영

    • 각 학회와의 연계하여 전문용어 심포지엄, 워크샵

    개최

    • 전문용어 연구 정보 확산을 위한 학술지 출판 및 뉴

    스레터 발간 배포

    • 전문용어 정보, 연구 결과물 공개를 통한 웹서비스

    개선

    비예산

    사업

    전문용어 표준화를 위한 통합검색시스템의 갱신

    • 기존 전문용어 통합검색시스템에 생물 및 의학 분야

    용어 정보 추가

    비예산

    사업

    2) 추진일정

  • 연 구 내 용추 진 일 정

    비 고3월 4월 5월 6월 7월 8월 9월 10월 11월

    ㅇ 전문용어 표준화: 생물

    - 한영일 3개국 대응 목록 구축

    - 전문가 검증

    - 국어학적 분석

    - 전문가의 재검토

    - 국제표준형식 DB 구축(MARTIF)

    ㅇ 전문용어 기초용어 데이터베이스 구축:

    의학

    - 코퍼스 구축

    - 한영일 3개국 전문용어 목록 구축

    - 전문가 검증

    ㅇ 전문용어 통합검색시스템 갱신

    ㅇ 보고서 작성 및 자체평가

    예산

    사업

    예산

    사업

    비예산

    사업

    3) 기대효과

    (1)직접적 활용 및 기대 효과

    - 전문용어 다국어 대역목록 구축으로 용어 검색 자료로 활용

    2. - 한국어 용어의 국어학적 분석 결과 및 코퍼스상의 빈도정보를 이용한

    용어의 표준화 기초자료 제공

    3. - 용어의 통합검색 시스템을 통한 분야간 용어 정보 교환 자료로 이용

    4. - 대역어 목록의 용어 사전 구축을 통한 전문분야 언어공학적(태깅 및 파

    싱) 처리에 이용

    5. - 대역어 목록의 MARTIF 형식으로의 국제표준 DB화를 통해 국제교류

    호환성 확보

  • 6. - 코퍼스 분석으로 용어의 사용 빈도 추출 및 용어 결합 정보 획득을 통

    해 전문분야 용어사전 구축자료로 활용

    7. - 코퍼스 주석화를 통한 전문분야 언어의 용어학적 특성화 연구에 기여

    8. - 문서의 영역분류 체계를 통한 분야별 대용량 코퍼스 구축 및 신조어를

    포함한 용어 목록 획득에 기여

    9. - 전문용어 연구관련 출판 및 심포지엄을 통한 전문용어 연구 정보 확산

    및 전문용어학 확립에 기여

    10.

    11.

    (2)간접적 활용 및 기대 효과

    12. - 웹상의 정보검색의 성능향상 제고

    13. - 전문용어 지식의 대중적 확산을 통한 지식정보화 수준 제고

    14. - 용어목록 구축 및 전문분야 코퍼스의 전문분야 언어모델링을 통한 자

    연언어처리 시스템의 성능향상 제고

    15.

    가.

  • 16. 전문용어 기초 자료 데이터베이스 구축

    다양한 종류의 데이터베이스(문서 DB, 카탈로그 DB, 이미지 DB, 영상 DB를 포

    함)를 개발하거나 사용하고자 할 때 문제는 접근성의 어려움에 있다. 즉, 상이한

    종류의 데이터베이스에 접근하기 위해서 명령어를 새로이 배워야 하는 문제 등

    으로 정보의 공유가 어려워진다. 언어자원(사전, 코퍼스, 온톨로지 등을 포함)이

    언어경계를 초월하여, 또 개발기관 혹은 국가를 초월하여 다목적으로 사용 가능

    하고, 서로 교환 가능하고, 언제라도 재사용 가능한 방향으로 구축하여, 효율성을

    극대화하기 위한 추세가 국제적으로 확산되고 있다. 심지어는 언어자원 관리를

    위한 전문위원회가 ISO/TC 37/SC 4에 설치되었다. 이를테면, 자원관리의 효율

    성 제고를 위해서는 메타데이터에 대한 국제적 표준이 마련되어야 한다는 것이

    다.

    이러한 추세를 반영하여 본 과제에서도 전문분야 코퍼스 및 다국어 용어 대응

    목록도 국제 표준 규격에 부합할 수 있도록 구축하고자 노력하고 있다.

    가. 코퍼스의 구축 (의학분야)

    1) 개 요

    정보의 디지털화로 인해서 문서의 생산 및 배포는 양적으로 엄청난 증가를 보이

    고 있다. 더욱이 다매체 기술의 발달로 인해 언어데이터는 기존의 문서와 음성

    코퍼스뿐만이 아니라, 동영상, 음악 등의 데이터로 확장되고 있는 것이 현재의

    추세다. 그럼에도 불구하고, 언어데이터의 보고로서 가장 대중적이고 전통적인

    언어의 표현 매체인 문서의 중요성이 간과될 수는 없다. 문서는 해당 언어의 모

    든 언어학적/전문분야 지식의 구현체로서 해당 언어/분야의 용어학적 정보가 모

    두 반영되어 있다. 따라서, 문서를 잘 분석하면 그 언어/분야의 지식처리를 자동

    화할 수 있는 정보를 얻을 수가 있다. 그러한 이유에서 문서는 코퍼스화를 통해

    서 언어의 전산적 처리를 위한 기본 자원으로 인식된다. 오늘날 사전 자원 못지

    않게 대량의 코퍼스를 구축하는 것이 언어 정보산업의 인프라로 간주되어, 국가

    적인 차원에서 대단위 프로젝트들이 수행되고 있다. 특히 코퍼스가 여러 층위에

    서 언어 정보를 마크업 언어를 통해 주석화하여 담고 있을 때, 그 언어/분야의

    특성을 전산적으로 습득하여 대용량의 문서를 자동적으로 처리하는 것이 가능해

    지기 때문에 각종 주석화도 시급히 요망되고 있는 실정이다.

    본 과제에서는 다음과 같은 일반론적인 입장에 토대하여 의학분야 코퍼스를 구

    축했다.

  • 2) 코퍼스 구축의 기본 원칙

    코퍼스는 모집단을 연구하기 위해 구성된 표본집단처럼 대표성을 띨 수 있도록

    구축되어야 한다. 구축된 코퍼스는 다양한 언어/용어 연구에 활용될 수 있어야

    한다. 그러기 위해서는 균형성과 대표성을 확보해야 한다.

    (1)균형성

    모집단을 대표할만한 코퍼스를 구축하기 위한 방법으로는 모집단에 대한 정통한

    지식에 근거하여 표본집단을 적절히 구성하는 것이 있을 수 있다. 무조건 다양한

    텍스트들을 균등하게 모으는 것이 균형성이 아니고 텍스트들의 용어학적 특성을

    참조하여 상대적인 기준을 가지고 구성하는 것이 균형성을 확보할 수 있다.

    그렇지만, 표본집단이 될 수 있기 위해서는 코퍼스의 양이 어느 정도 수준이상이

    어야 한다. 너무 적은 양의 코퍼스에 근거하여 이루어진 통계결과에는 신뢰성의

    문제가 생기기 때문이다.

    (2)정보성

    온라인 데이터의 급증에 따라 데이터의 단순한 구축량이 중요하지는 않다. 코퍼

    스의 가치는 어느만큼 정보가 부가되어 있는가 하는 방향으로 이행되고 있다.

    코퍼스에 부가하는 정보에는 크게 텍스트의 논리적 구조와 언어적 정보로 구분

    할 수 있다. 텍스트의 논리적 구조는 예를 들어, 전문서적이라면 분야명, 제목,

    저자명 등과 같은 서지정보 및 차례, 본문 등으로 이루어질 것이며, 본문은 장,

    절, 단락, 문장으로 이루어지는 계층구조를 가질 것이다. 텍스트의 논리적 구조를

    통일성 있게 체계적으로 명시하는 방법이 SGML, XML과 같은 마크업 언어를 사

    용하는 것이다. 본 과제에서도 텍스트의 논리적 구조에 대한 마크업을 실시했다.

    텍스트의 언어정보에는 문장의 형태소, 구문, 의미 정보 등이 있다. 이들 정보는

    컴퓨터로 자동 부여하는 것이 어느 정도 가능하다. 본 과제에서는 텍스트의 언어

    정보에 대한 마크업은 고려되지 않고 있다.

    3) 의학 전문용역 코퍼스의 구성

    (1)입력방식

    본 과제에서 의학 분야의 코퍼스는 한국어 총 100만 어절 분량으로 구축하는 것

    이 목표였다. 이를 위해서 세부 분야별로 텍스트를 선정하였다.

    대상 목록은 다음과 같다.

  • 위 목록의 수작업 및 OCR(광학적 문자읽기 장치) 등으로 컴퓨터에 입력하여 기

    계가독형 문서로 변환되었다.

    (2)텍스트의 구조화를 위한 마크업

    다음은 의학분야 텍스트 코퍼스의 구조화에 관련한 마크업 예이다.

    표 4 의학 분야 코퍼스 입력 대상 목록

    오늘의 진단 및 치료 / 전국의과대학교수 역 37판 : 도서출판 한우리,1999

    가정의학 / 의학교육연수원 편 : 서울대학교출판부, 1999

    내과학 키워드/서울대학교의과대학 내과학교실 역/군자출판사/1999

    조직학/고정식 외24명/고분사/1999

    HARRISON'S 내과학 (I,II)/ Kurt J. lsselbacher, Eugene Braunwald, Jean D.

    Wilson,

    Joseph B. Martin, Anthony S. Fauci, Dennis L. Kasper : 정담 , 1997

    최신 임플란트 치과학/Carl E. Misch/나래출판사/2000

    신경정신과학 / 대한신경정신의학회 편 : 하나의학사, 1997

  • 오늘의 진단과 치료

    전국의과대학교수 역

    37판

    도서출판 한우리

    1999

    Current Medical Diagnosis & Treatment

    Lawrence M. Tierney; Stephen J. McPhee; Maxine A.

    Papadakis

    37th ed

    < o_publish>Appleton & Lange publishing Co.

    < o_year>1999

    1. 환자에게로의 접근방식 건강 유지와 질병의 예방 및 흔한 증상들

    환자에게로의 일반적인 접근방식

    환자의 순응도

    가정의학

    의학교육연수원 편

    전정판

    서울대학교출판부

    1999

    1. 가정의학의 개념 (Concept of Family Medicine)

    유태우(서울대학교병원 가정의학)

  • 표 11 마크업된 의학 코퍼스의 내부 모습

    조직학

    고정식 외24명

    고분사

    1997

    그림 1. 간, 베스트카아민 염색,\times400,흰쥐

    그림 2. 샘창자의 가로절단면, 헤마톡시린-에오진 염색,

    \times 400, 흰쥐...............

    1.간세포 hepetocyte

    2.골지복합체 Golgi complex

    3................

    조직학

    고정식 외24명

    고분사

    1997

    그림 1. 간, 베스트카아민 염색,\times400,흰쥐

    그림 2. 샘창자의 가로절단면, 헤마톡시린-에오진 염색,

    \times 400, 흰쥐...............

    1.간세포 hepetocyte

    2.골지복합체 Golgi complex

    3................

    조직학

    고정식 외24명

    고분사

    1997

    그림 1. 간, 베스트카아민 염색,\times400,흰쥐

    그림 2. 샘창자의 가로절단면, 헤마톡시린-에오진 염색, \times 400, 흰

    쥐...............

    1.간세포 hepetocyte

    2.골지복합체 Golgi complex

    3................

  • 위 마크업에는 다음과 같은 지침이 적용되었다.

    (I)각 파일의 첫부분은 아래의 내용을 항상 포함해야 한다.

    책제목

    저자

    조직학

    고정식 외24명

    고분사

    1997

    그림 1. 간, 베스트카아민 염색,\times400,흰쥐

    그림 2. 샘창자의 가로절단면, 헤마톡시린-에오진 염색,

    \times 400, 흰쥐...............

    1.간세포 hepetocyte

    2.골지복합체 Golgi complex

    3................

    신경정신과학

    대한신경정신의학회

    하나의학사

    1997

    일반적으로 시상핵은 특수 중계핵specific relay nuclei, 연합연결핵

    association relay nuclei, 산발적인 투사핵 diffuse projection nuclei 및

    망상핵 reticular nucleus으로 나뉜다.

  • 판차

    출판사

    출판년도

    원서의 책제목

    원저자

    원서의 출판사

    원서의 출판년도

    (II) ""과 ""사이에는 그 태그에 해당하는 내용이 채워져

    야 한다.

    (III) o_tilte, o_author, o_editon, o_publish, o_year는 번역서인 경우 원서 정보

    를 입력하는 것이다.

    (IV) 파일 입력 방법 :

    * 자세한 입력 형식은 각 분야별 형식이 달리 지정된다.

    * 원칙적으로 가능한한 책의 모든 부분을 입력하는 것으로 한다.

    * 원문에 줄이 분리되어 있어도 무시하고, 문장과 문단의 구분을 꼭 한다.

    * 하나의 문장이 끝나면 엔터를 쳐서 줄을 바꿔주는 것을 기본으로 한다.

    * 편집상 나타나는 빈 줄은 무시한다.

    * 항목별 구분을 위하여 아래와 같은 태그를 추가하여 입력한다. 하나의 태그가

    나타나면 반드시 그 태그를 마감하는 "/" 태그가 나와야 한다.

    * 제목 구분 : 제목의 형식으로 나타나는 것은 모두 ""과 ""으로

    묶는다.

    * 문장 구분 : 문장의 시작과 끝에 각각 ""과 ""를 부착한다.

    * 문단 구분 : 문단의 시작과 끝에 각각 "

    "과 "

    "를 부착한다.

    * 표 : 표는 해당 위치에 ""과 ""을 사용하여 표번호와 표이름만

    입력한다. (표의 위치는 문장의 흐름상 적당한 곳에 둔다.)

    * 그림 : 그림은 해당 위치에 ""와 ""를 사용하여 그림의 번호만 입력

    한다. (그림의 위치는 문장의 흐름상 적당한 곳에 둔다.)

    * 수식 : 수식은 LaTex형식을 따른다.

    * 수식에 번호가 붙어 있는 경우 LaTex의 equation 환경으로 입력하고 수식번

    호는 입력에서 제외한다. 즉 "\begin{equation} 수식

    \end{equation}"가 된다.

    * 기타 본문 가운데에 나오는 특수문자는 LaTex 형식을 따른다.

    * 위첨자, 아래첨자는 각각 "^{ }", "_{ }"를 사용한다. 사전입력과 다르므로 주

  • 의한다.

    - v2 --> v^{2}

    - VAB --> V_{AB}

    * 굵은 글씨로 나타나는 주요 용어는 로 묶어 입력한다.

    * "*" "(" 등의 주석이나 설명, 표시기호는 모두 무시한다.

    * 태그 표시와 태그 안에 입력되는 내용 사이에 빈 칸을 삽입하지 않는다.

    - 1 측정 (X) -> 1 측정 (O)

    나. 한-영-일 3개 국어 대응 용어목록 구축

    본 과제에서는 작년도에 이어서 생물학 용어 5천 건(누적 1만 5천건, 일본어 용

    어 대응률 70%)이 추가로 구축되었으며, 신규로 의학 용어 1만 5천 건(일본어

    용어 대응률 70%)이 구축되었다. 구축된 용어는 전문가 집단의 검증을 받는 절

    차를 취하고 있다.

    1) 대응목록 구축과정

    대응목록의 구축은 다음과 같은 일련의 과정을 거쳐 이루어졌다.

    첫째는 용어 사전 혹은 용어집의 전자문서화를 통한 DB화이다. 즉, 입력은 수동

    입력 혹은OCR 입력을 통해서 이루어지거나, 웹을 통해 혹은 출판사로부터 전자

    문서를 직접 얻는 방법이 있다. 전자문서화하는 과정에서 용어 표제어, 분야, 정

    의 등 정보별로 일정한 구분자(delimiter)를 입력한다. 이를 토대로 DB화를 한

    다. 다국어 용어 사전 DB로부터 다국어(영어-한국어-일본어) 용어 대응목록이

    획득된다.

    둘째는 학술논문이나 전문분야 교과서와 같은 텍스트의 코퍼스화이다. 이 경우에

    도 주로는 아직까지도 수동입력이나 OCR 입력에 의존하고 있지만, 점차 웹이나

    출판사로부터 전자문서를 입수하는 추세가 높아가고 있다. 이 경우에도 앞 장에

    서 언급한 바처럼 마크업 언어를 통해 텍스트의 논리적 구조를 반영한다.

    셋째는 코퍼스와 용어 DB의 연결이다. 즉, 용어 DB로부터 획득된 용어 목록은

    코퍼스상의 빈도조사를 하여, 상대적으로 많이 사용되는 용어를 중심으로 용어목

    록을 정렬하여, 고빈도 용어 대응목록을 획득한다. 더 나아가 코퍼스로부터 전문

    용어 추출을 통해서 기존의 전문용어 DB의 용어목록에 없는 새로운 용어리스트

    를 추가하여 확대 대응목록을 구축함으로써 전문가 집단에게는 기존 용어 사전

  • 의 갱신을 유도하며, 정보검색 차원에서는 용어의 포괄성을 제고한다.

    2) 언어자원의 수집

    용어 목록의 구축을 위한 전단계로서 용어의 DB화를 위해서는 용어 사전이 우

    선적인 기초자원이 된다. 한국의 영어-한국어 의학용어 사전/집 및 일본의 영어-

    일본어 의학용어집이 수집되었다. 가능하면, 해당 전문가 집단에서 공신력있게

    참조되는 사전자원을 확보하고자, 한국어 의학용어 사전의 경우에는 대한의사협

    회(용어심의위원회)와 협의하였다. 생물의 경우에는 2001년에 이미 생물과학협

    회와 협의하여 생물학 용어집을 확보한바 있어 기초 자원으로 활용하였다. 뿐만

    아니라, 병행적으로 사용되는 용어 전반의 현상을 파악하기 위해서 여타 기관/협

    회 혹은 출판사에 펴낸 용어집들도 수집하였다.

    수집된 용어집의 현황은 다음과 같다.

    3) 언어자원의 입력

    (1)입력방법

    한국어 용어 사전의 경우에는 입력지침 하에 구분자를 넣으면서 수동으로 입력

  • 하였으며, 일본어사전의 경우에는 OCR 입력을 하였다. 수동 입력은 많은 시간이 소요된다는 단점이 있었지만, 입력 후 철자검사와 구분자 오류만 수정하면 되었으므로 후처리 과정이 간단하다는 장점이 있었다.반면, OCR로 입력한 일본어 용어 사전은 문자인식 후 일어와 영어 철자교정 및 파일을 정제하여 일어용어와 영어용어를 일대일 대응시키는 작업에 있어 많은

    후처리 과정이 필요하였다.

    (2)입력지침

    아래에 기술한 사항은 사전을 입력하기 위한 기본 양식이다.

    I. 파일명(DOS/HWP)

    - 각 사전은 분야별로 별도의 디스켓에 수록한다.

    - 각 분야별로 표시된 페이지의 내용을 입력한다.

    - 분야별로 지시된 내용에 따라 입력한다.

    II. 각 파일 첫부분에 각 파일에 대한 정보 기록

    : 책제목/입력 시작페이지, 입력 마지막 페이지 등

    III. 파일 입력 방법

    - 자세한 입력 형식은 각 분야별 형식이 달리 지정되며,

    표 12 주요 용어자원

    분야 영어-한국어 용어집 영어-일본어 용어집

    의학

    의학용어집 - 대한의사협

    회 편저, 2001

    일본 의학회 의학용어사전-일본의학회의

    학용어관리위원회 편, 남산당, 1993

    2002 MeSH(Medical Subject Headings) 영어의학용어 시소러스

    생물학생물학용어집 - 한국생물

    과학협회 편, 2001

    학술용어집-동물학편, 일본문부성(일본동

    물학회), 1988

    학술용어집-식물학편, 일본문부성(일본식

    물학회), 1990

    학술용어집-유전학편, 일본문부성(일본유

    전학회), 1993

    표 13 참조 용어자원

    분야 영어-한국어 사전영어-일본어

    사전

    의학1. 표준의학사전 - 아카데미서적, 1993

    2. 의학약어와 해설 - 현문사, 1997없음

    생물학1. 생물학 사전 - 아카데미서적, 1998.

    2. 미생물학.분자생물학 사전 - 대학서림, 1997없음

  • - 하나의 항목은 한 줄에 입력한다. 원문에 줄이 분리되어 있어도 무시한다.

    - 항목별 구분을 위해 특수 문자들을 추가하여 입력한다.

    ▪ 한 항목의 시작 : !

    ▪ 한글용어 : #

    ▪ 영어용어 : @

    ▪ 약어 : &

    ▪ 해설 : $

    ▪ 해설의 시작 : {

    ▪ 해설의 끝: }

    ▪ 분류 기준이 존재하는 경우는 '[분류기준]' 형식으로 적는다.

    ▪ 동의어(=, 혹은 (동))가 존재하는 경우 : '=' 부호 사용

    ▪ 반의어가 존재하는 경우 : '+' 부호 사용

    ▪ 참조어(손모양)가 존재하는 경우 : "->' 부호 사용

    ▪ 유사어(=>)가존재하는 경우 : '=>' 부호 사용

    각 용어 항목이 여러개인 경우는 용어와 용어 사이에 "/"로 구분

    ▪ 해설부분에 한글과 영어 해설이 모두 존재하는 경우는 '/'로 구분한다.

    ▪ 한자 부분이 한글용어를 대신해야 되는 경우는 한자의 음독으로 대신

    한다. 그 외의 한자는 입력 대상에서 제외한다.

    ▪ 입력이 불가능한 수식 부분이 있는 경우는 "수식부"라는 글자로 대신

    한다.

    ▪기본 골격(영어용어와 한글용어, 약어 부분)이 없는 경우는 특수 문자만

    치고 공백(빈 칸 두 개)으로 남겨둔다.

    예) 영어 용어 부분이 없는 경우 : #한글용어@ ${해설}

    ▪ 아래 첨자의 경우는 "_ _"로 표시한다.

    예) C 2 SO 4 : C__2SO__4

    ▪ 위첨자의 경우는 "**"로 표시한다

    예) E b : E*

    4) 언어자원의 가공

    (1)작업환경 개발

    수정작업의 편의를 위하여 웹인터페이스를 위한 작업환경을 개발하였다.

    (2)작업내용

    수동 입력 및 특히 OCR 입력을 통해서 구축된 일본어 사전 파일은 표제어 등재

  • 형식의 차이로 인해 라인정렬, 괄호 사용의 수정 등 많은 가공을 요구하였다.

    구체적인 작업내용은 다음과 같다.

    일-영 의학사전을 OCR 입력기로 문자인식을 한 후, 교정프로그램을 사용해 수

    동으로 직접 철자교정을 하고, 동시에 기계적인 처리를 위하여 라인정렬을 병행

    하였다. 이렇게 1차 교정한 OCR 파일을 유니코드된 텍스트로 바꾸고, 일어와

    영어코드를 구분하여 중간에 탭을 삽입하는 프로그램을 만들어 일어 용어와 영

    어 용어를 분리하였다. 이렇게 가공된 파일을 OCR파일에서 텍스트파일로 바꾸

    는 과정, 탭을 삽입하는 과정 등에서 발생한 영어와 일어용어가 제대로 분리되

    지 않거나 글자가 깨진 문제, 1차 철자교정에서 넘어간 부분 등을 다시 2차로

    수동교정을 하였다. 마지막으로 괄호문제를 해결하고, 컴마로 분리된 영어용어

    들을 ‘일어용어-영어용어’의 일대일대응으로 완성하였다.

    에서처럼 OCR 로 입력된 파일은 수정 작업을 통해서 으로 가

    공되었다.

    5) 대응목록의 획득

    의학용어의 영-한-일 다국어 대응목록을 구축하는 데 있어서, MeSH의 영어용어

    를 우선적으로 포함시켰다. 즉, MeSH의 영어 용어는 총 3만7천 건 되었으며,

    영어를 축으로 하여 영-한 용어 목록 및 영-일 용어 목록으로부터 공통된 용어

    표 14 일본 의학용어 사전의 OCR 입력 예

    上直筋 ((眼球の))superior straight (rectus) muscle,

    musculus rectus superior

    周期性精神病 躁うつ病

    affective psychosis, manic-

    depressive psychosis, circul-

    ar psychosis, cyclic psychosis,

    periodic psychosis[小]ろば赤血球&lt〔シジョ

    ツロバセッケッキュウ>

    iburro red blood

    cell (BRBC)

    靜脈間隆起

    in tervenous tuberc[u]le, tu-

    berculum interveIlosumラ

    靜脈內投与くジヨウミャクナイトウョ> medication by vein (venoclysis) 蒸留裝置×ジョウリュウソウチ 〔distillator] still

  • 를 약 7천여 건 뽑았다. 또한 MeSH와 영-한 용어 목록으로 공통된 용어를 3천

    여 건 뽑았다. 영-한 용어 목록과 영-일 용어 목록으로부터도 대응되는 용어 목

    록을 2만여 건 뽑았다. 결과적으로 MeSH 등장한 용어 1만여 건과 한국과 일본

    의 의학용어집에서 2만건을 뽑아, 총 3만건의 목록을 구축했다. 특히 한국과 일

    본 의학용어집에서 나온 2만건에 대해서는 약 300만 어절 사이즈의 KORTERM

    의학분야 코퍼스에서 빈도수를 산출하여 상위 1만여 건을 확보했다. MeSH에 등

    장하는 1만여 용어와 합하여 2만건의 용어 목록을 구축하여, 본 과제의 목표량

    인 1만 5천건의 용어를 대한의사협회의 용어심의위원회에서 선별하도록 자문을

    구했다.

    위와 같은 용어의 선정작업을 위한 예비목록 구축에 있어서 기준과 취지는 다음

    과 같았다.

    첫째, MeSH의 영어 시소러스어는 코퍼스 상의 빈도수에 상관없이 용어의 분류

    어로서 중요하므로 우선 순위를 둔다.

    둘째, 특히 MeSH의 영어 용어가 한국어 및 일본어 용어 목록에도 공통적으로

    들어 있을 경우 최우선 순위들 둔다. 일본어 용어 목록에는 없지만, MeSH와 한

    국어 용어목록에 공통되는 용어 목록은 차우선 순위를 둔다.

    셋째, 한국과 일본 의학용어집에 공통적으로 등장하는 용어는 상대적으로 중요한

    용어로 간주하였으며, 코퍼스 상의 빈도수를 고려하여 순위를 판별하도록 한다.

    넷째, 이와 같은 기준에 의해서 마련된 후보 목록을 제공하는 것은 전문가 집단

    표 15 수정된 일본어 의학용어 사전의 예

    上直筋((眼球の)) superior straight muscle

    上直筋((眼球の)) superior rectus muscle

    上直筋((眼球の)) musculus rectus superior

    周期性精神病躁うつ病 affective psychosis

    周期性精神病躁うつ病 manicdepressive psychosis

    周期性精神病躁うつ病 circular psychosis

    周期性精神病躁うつ病 cyclic psychosis

    [小]ろば赤血球 iburro red blood cell BRBC

    靜脈間隆起 in tervenous tubercule

    靜脈間隆起 in tervenous tubercle

    靜脈間隆起 tuberculum interveIlosum

    靜脈內投与くジヨウミャクナイトウョ> medication by vein 靜脈內投与くジヨウミャクナイトウョ> medication by venoclysis蒸留裝置×ジョウリュウソウチ still

    蒸留裝置×ジョウリュウソウチ distillator still

  • 이 최종 목록을 선별하는데 개관적인 기준을 마련해 줄 것이다.

    획득된 용어 목록은 예는 다음과 같다.

    금년도에 추가 구축된 생물학 용어는 한국생물과학협회의 생물학용어제정심의위

    원회가 편찬한 추가 생물학 용어 목록 위주로 5천건을 구축했다. (구체적인 작업

    과정은 작년도 보고서에 준함)

    6) 전문가에 의한 용어 대응목록의 심의

    구축된 용어의 대응목록은 전문가 집단의 심의 거쳐서 검증되는 절차를 밟는다.

    심의 초점은 해당 분야내에서 중요성에 따라 용어의 선정이 제대로 이루어졌는

    지가 검토되며, 한국어 용어의 선정이 표준화의 입장에서 제대로 되었는지, 혹은

    대응되는 한국어 용어가 없는 경우에는 바람직한 용어로 채워 넣는 작업을 수행

    한다.

    금년도 의학용어 대응목록이 심의는 KORTERM에서 마련한 후보 목록에서 용어

    를 선정하는 작업과 한국어 용어의 선정을 검토하여 바로 잡는 작업이 주를 이

    룬다.

    표 16 3개 국어 대응 의학 용어 목록 예

    영어 용어 한국어 용어 일본어 용어abdomen 복부 腹〔部〕

    musculoskeletal system 근육골격계통 筋骨格系

    ligamentum flavum 황색인대 黃色靭帶((脊椎の))

    orbit 안와 眼窩

    thumb 엄지 母指((手の)) おやゆび

    urinary tract 요로 尿D

    zygoma 광대뼈 頰骨

  • - 1 -

    17. 전문용어의 국어학적 분석 및 표준 데이터베이스화

    가. 서론

    1) 연구의 목표

    이 연구는 문화관광부의 지원으로 한국과학기술원 전문용어언어공학센터와 연세대학교

    언어정보개발연구원 전문용어연구센터가 공동으로 수행하는 “전문용어의 정비” 사업의 일

    부인 “전문용어의 국어학적 분석”에 해당한다.

    금년도는 지난 1998∼2001년의 4년간 수행된 전문용어에 대한 기초적 연구, 사전 기술

    모형에 대한 연구, 경제학, 물리학, 화학 용어의 국어학적 분석과 심의에 이은 것으로, 그

    분야를 확장하여 생물학 분야의 용어에 대한 국어학적 분석과 심의를 진행한다. 이에, 전문

    용어 표준화 과제에 있어 생물학 용어의 현실적인 문제점을 언어학적 관점에서 제시함과

    동시에 그 해결의 기초를 마련해 가는 데에 목표를 둔다.

    2) 지금까지의 연구 실적

    (1) 1998년

    ○ 위탁과제명 : 다국어 대응 전문용어 번역 시스템 개발을 위한 전문용어의 언어학적

    연구

    ○ 연구 내용 : 경제학 전문용어 사전의 국어학적 분석

    - 기존 전문용어 사전의 문제점 분석

    - 전문용어 사전 모형 개발

    - 전문용어 표준화를 위한 어휘 기술

    (2) 1999년

    ○ 위탁과제명 : 다국어 대응 전문용어 번역 시스템 개발을 위한 전문용어의 언어학적

    연구

    ○ 연구 내용 : 경제, 물리용어의 국어학적 분석 및 자료 구축

    - 전문용어 조어 유형화 : 경제 용어 1천 건, 물리용어 300건

    - 경제관련 전문용어 100개 용어 표준화 작업(사전적 기술)

    - 경제 분야 말뭉치 구축 : 130만 어절

    (3) 2000년

  • - 2 -

    ○ 위탁과제명 : 경제, 물리 용어의 국어학적 분석과 심의

    ○ 연구 내용 : 경제, 물리 용어의 조어 분석 및 표준화 심의안 작성

    - 연구 대상 : 경제 용어 약 1만 건, 물리 용어 약 1만 건

    - 전문용어 조어 분석 : 형태론적 지식에 기반한 조어 분석.

    - 표준화 심의안 작성 : 어문규범에 기준한 표준안을 제시하고 현실적 문제점에

    대한 제안 마련.

    (4) 2001년

    ○ 위탁과제명 : 전문용어의 국어학적 분석 - 화학 분야

    ○ 연구 내용 : 화학 용어의 조어 분석 및 표준화 심의안 작성

    - 연구 대상 : 화학 용어 약 1만 5천 건

    - 전문용어 조어 분석 : 형태론적 지식에 기반한 조어 분석.

    - 표준화 심의안 작성 : 어문규범에 기준한 표준안을 제시하고 현실적 문제점에

    대한 제안 마련.

    3) 2002년도 연구과제의 내용

    1) 내용

    ○ 전문용어의 조어 분석 작업을 통해 이후 응용될 수 있는 근거 제공

    ○ 어문규범에 기준한 전문용어의 표준안 제시 및 국어학적 제안

    2) 대상

    ○ 한국과학기술원의 Korterm에서 연세대학교의 언어정보개발연구원에 제공

    ○ 약 16,657건의 용어 항목으로 구성된 생물학 용어 한영 대역 목록

    연구과제는 크게 다음과 같은 2개 부문 조어 분석, 표준화 심의안 작성으로 나뉘어 수행

    되었고, 여기서 편의상 전자를 1과제, 후자를 2과제로 부르기로 한다.

    ◈ 1과제: 전문용어의 조어 분석

  • - 3 -

    ○ 조어 분석 표지 부착 : 형태론적 지식과 전문용어의 언어적 특성을 반영한 조어단위

    로 분석하고 각 단위에 대해 형태 정보와 원어 정보의 상세 표지(tag)를 부착함으로

    써 생물학 용어의 조어 유형 및 세부 특성을 고찰한다.

    ○ 조어단위 빈도표 : 위의 상세 표지 부착 자료를 활용하여 빈도 자료를 작성함으로써

    조어단위(어기별, 접사별)의 생산성을 측정한다.

    ○ ‘조어 분석’은 다음과 같이 각 용어 항목에 대한 분석에 이어 상세 정보(형태 정보,

    원어 정보)를 부착하는 방식으로 진행된다.

    ID 영어 용어 한글 용어 분석1 형태1 원어1 분석2 형태2 원어2 분석3 형태3 원어3

    001

    07

    Achilles' tendon

    reflex

    아킬레스 힘줄

    반사아킬레스 npp ie 힘줄 nc ko 반사 nc ch

    ID 영어 용어 한글 용어 분석1 형태1 원어1 분석2 형태2 원어2 분석3 형태3 원어3

    002

    28

    adenosine

    diphosphate아데노신 이인산 아데노신 nc ie 이 nu ch 인산 nc ch

    ◈ 2과제: 문화부 용어심의를 위한 표준화 심의 자료 작성

    ○ 각 용어에 대해 언어 규범에서 벗어난 것을 교정하여 표준화 심의를 위한 자료로 제

    공한다. 이를 위해 각 용어가 가진 규범적 문제를 맞춤법, 띄어쓰기, 외래어 표기법의

    문제로 나누어 각 용어의 표준안을 제시한다.

    ○ 동시에 전문용어에 있어서의 언어규범과 현실적인 국어학적 제안점도 마련한다.

    ○ 용어 표준화 심의안은 다음과 같이 문제성 있는 용어 항목에 대해 바람직한 용어의

    심의안을 제시하는 방식으로 진행된다.

    ID 영어 용어 한글 용어 맞춤법 띄어쓰기 외래어 표기법

    0165

    3Canada balsam 카나다 발삼 //캐나다 발삼 ^캐나다 발삼

    0165

    4Canada balsam 카나다발삼 ^캐나다 발삼

    ID 영어 용어 한글 용어 맞춤법 띄어쓰기 외래어 표기법

    0271

    2crop growth rate 작물생장율 $작물 생장률 //작물 생장률

  • - 4 -

    4) 추진 일정

    연구 과제의 효율적 달성을 위해 1과제 작업과 2과제 작업으로 나누어 동시에 진행하도

    록 한다.

    연 구 내 용 연구자 기 간

    1 2 3 4 5 6 7 8 9 10 11 12

    1과제 :

    전문용어의 조어 분석

    조어단위 상세

    정보 부착

    서상규

    조어단위

    빈도표 작성

    2과제 :

    문화부 용어심의를 위한

    표준화 심의안 작성

    맞춤법 및

    외래어 표기법

    검증

    강현화

    사업 진도 (%) 35 50 15

    5) 기대성과 및 활용가치

    가) 1과제 : 1과제의 결과물과 그 의의는 다음과 같다.

    ○ 조어 분석 데이터(생물학 분야 16,657건)

    ○ 조어단위 빈도표

    1과제는 용어 표준화를 위한 기술적인(descriptive) 접근으로서 전문용어 형성에 이용되는

    어휘나 형태에 관한 경험적인 관찰의 결과를 제공함으로써 전문용어의 형성에 있어서의 가

    장 일반적인 방식을 구하고 이후 새로운 용어 형성에 참조가 되는 방식을 제시한다. 특히 1

    과제의 결과물은 응용연구에 활용될 수 있는 기초자료로서의 성격을 갖는다.

    조어단위 빈도표는 각 전문분야 용어에서의 어기, 어근, 접사 등의 생산성을 측정하고 나

    아가 새로운 용어 조어에도 참고가 될 것이다.

    이러한 작업의 결과는 이전 단계에서 이루어진 경제학, 물리학, 화학 용어에 대한 분석

    결과물과 각 분야별 전문용어에 대한 심도있는 이해와 비교의 자료로 활용될 것이며, 또한

    다음 단계에 이루어질 의학, 수학 등 다른 분야의 전문용어 연구를 위한 근거 자료로 활용

    될 수 있을 것이다.

  • - 5 -

    나) 2과제 : 2과제의 결과물과 그 의의는 다음과 같다.

    ○ 문화부 용어심의를 위한 표준화 심의 자료(생물학 분야 16,657건)

    2과제는 용어 표준화를 위한 보다 직접적이며, 규범적(prescriptive) 접근으로서 맞춤법과

    외래어표기법 등의 부분과 맞물린 것으로 전문용어에 있어서의 언어적 규범의 역할에 대한

    보다 실증적인 문제를 제시한다.

    과학 기술의 발전과 국제화의 영향으로 외래어 용어에 대한 검토가 필수적인 당면 과제

    이며, 이를 위해 언어 규범에 입각하여 해당 용어의 표준안을 제시할 뿐만 아니라, 문제성

    있는 용어에 대한 언어학적 관점을 제시하도록 한다.

  • - 6 -

    나. 생물학 용어의 조어 분석

    1) 연구의 개요

    본 연구는 생물학 용어 한영 대역 목록을 대상으로 하여 조어단위 분석과 조어단위의 세

    부정보를 부착함으로써 전문용어로서 생물학 용어의 국어학적 특성을 밝히는 것을 목적으

    로 한다. 생물학 용어의 분석 및 연구는 전년도 연구과제였던 경제학, 물리학, 화학 용어의

    분석 결과를 토대로 하면서 이를 보완해 가는 연속적 연구임과 동시에 생물학 분야의 전문

    용어가 갖는 특징적 측면을 보고하는 것이다.

    본 연구의 자료로는 Korterm에서 구축한 생물학 용어 16,657건을 대상으로 하였으며

    이중에는 일반어의 어떤 개체를 가리키는 명칭의 의미를 갖는 ‘학명(nomanclature)’이

    2,035건 포함되어 있다. 학명은 학명이 아닌 다른 용어들에 비해 다소 다른 어휘적 양상을

    보이고 있었다.

    2) 연구의 방법 및 원칙

    이 장에서는 특히, 생물학에서의 학명과 관련하여 학계에서 사용하고 있는 명명규약에

    대해 살펴보고, 지금까지 전문용어 조어 분석의 지침이 된 원칙을 생물학 용어에 맞추어

    기술하도록 한다.

    다. (1) 생물학 학명에 대한 명명 규약

    학명(nomanclature)이란 ‘nomen("name")’과 ‘calare("to call")’에서 온 말로 ‘이름으로

    부르는 것(to call by name)’이란 뜻이다.

    생물학에서의 학명은 크게 식물학, 동물학으로 구분되어 각각의 분류 원칙을 가지

    고 이루어진다.

    식물학 학명에 대한 명명 원칙은 ‘국제식물명명규약(1972)’에 정해져 있다. 이는 계

    층적 구조를 이루고 있는데 ‘(식물)계->문->강->목->과->속->종’의 단위로 세분된다. 이

    는 다시 더 세분화될 수 있는데, ‘강’을 세분하여 ‘아강’으로, ‘과’ 밑에 ‘아과’, 다시

    ‘족’으로 나눈 다음 ‘속’으로 나뉘어진다1). 식물명명규약2)에 대해 주된 내용만 언급하

    면 다음과 같다.

    1) 이러한 분류는 식물학 학명들간의 개념적 위계를 표현하는 것으로 식물학 용어 시소러스나 식물

    학 용어 의미체계를 자동으로 구축할 수 있게 한다.

    2) 모든 분류계급에 있어서 분류문제가 나올 때, 모든 나라 모든 식물학자들이 공통으로 사용할 수

    있는 가장 보편적이며, 지켜야만 하는 규약

  • - 7 -

    ○ 동물명명규약과는 독립적이다

    ○ 특별한 경우를 제외하고는 출판의 선취권3)에 따른 단 하나의 정명(正名)4)을 가진다

    ○ 분류군의 학명은 반드시 라틴어이거나 라틴어화해야 한다5)

    동물학에서의 학명에 대한 명명 원칙도 식물학과 마찬가지로 국제적 규약을 가지고

    있는데, 이도 계층적 구조를 가지며 ‘(동물)계->문->(아문)->강->목->과->속->종’의 단

    위로 세분된다. 동물명명규약에 대해 주된 내용만 언급하면 다음과 같다.

    ○ 동물 명명법은 다른 명명법체제와는 독립적이다.

    ○ 처음 명명한 저자의 이름과 출판일 등이 적용되어 출판의 선취권에 따른다.

    ○ 하나의 분류군에 하나의 학명을 사용한다.

    ○ 실존하는 동물 또는 실존했던 동물(fossil species)에게 학명을 부여하며, 가상적인 존재에게는 부여하지 않는다.

    ○ 분류군의 학명은 라틴어이거나 라틴어화해야 한다

    그 외, 학명의 구성과 수정(26조, 30조)에 관련된 내용으로 다음과 같은 것을 주목

    할 수 있다.

    ○ 복합어를 사용할 경우 보통 하이픈 없이 연결한다.

    ○ 발음부호, 아포스트로피, 분음표, 하이픈 등을 사용하지 않는다.

    라. (2) 조어단위 분석

    3) 여기에 대해서는 예외적인 규정이 있다. 이를 ‘보존명(nomia conservanda, non. con.)’이라고

    하는데, 어떤 과나 속이나 종 이름이 흔히 사용하고 알려져 있는 경우에 위원회에서 인정하면

    그 이름을 보존하는 것을 말한다. 예를 들어, ‘economic plant(경제작물)’에 대해서 (1).

    Forsythia Vohl Enun 139(1804), (2). Forsythia Walter Fl. Carl. 153(1788)을 보면 (2)가

    (1)보다 앞서지만 (1)을 보존한다.

    4) Scientific name(학명)이 정명으로 인정받기 위해서는 1)식물의 라틴명이 합법적으로 출판되고

    (legitimate), 2)명명규약에 따라 라틴명으로 출판되고(Valid), 3)알려진 식물학회지나 잡지, 책에

    라틴명으로 출판되어야 한다(Effective).

    5) 이는 한국어에 관한 것이 아니라 국제적인 생물학 전문가들간의 의사소통을 위해 마련된 것이

    다.

  • - 8 -

    ‘조어단위’는 전문용어를 조어분석하기 위한 기준이 되는 최소단위로, 형태소와 달리 전

    문용어를 형성하기 위한 단위이다.6) 다시 말해, 전문용어를 ‘생산적으로’ 형성하는 단위를

    말한다. 여기에서는 생물학 용어의 경우를 대상으로 히여 조어단위 분석 방법을 살펴본다.

    가) 한자어

    일반어의 한자어 형태소 분석에서는 한자 하나 하나가 가진 어휘적 의미와 한어의 통사

    적 구조를 중시하여 모두 분석하기도 하였으나, 전문용어를 형성하는 생산적 단위로서의

    조어단위로 분석할 때 이러한 분석은 유의미하지 않다. 따라서 아래의 경우 ‘혐(嫌)+기(氣)’

    로 분석하지 않고 ‘산소를 싫어함’의 뜻을 가진 ‘혐기(嫌氣)’를 하나의 조어단위로 분석한다.

    anaerobe 혐기성생물 → 혐기-성-생물

    anaerobic 혐기성 → 혐기-성

    anaerobic bacteria 혐기성세균 → 혐기-성-세균

    anaerobic culture 혐기성배양 → 혐기-성-배양

    anaerobic metabolism 혐기성대사 → 혐기-성-대사

    나) 고유어, 고유어+한자어

    고유어 용언의 활용형을 용언의 어간과 어미로 분석하면 어미들이 조어단위로 설정되는

    문제가 생기며 실제로 어떤 용언이 전문용어에 쓰인다 하더라도 그 용언의 활용형이 다양

    하게 전문용어에 이용되는 것은 아니므로 용언의 어미는 분석하지 않는다. 즉, 아래의 경우

    에 ‘무딜, 무뎌’, ‘눌릴, 눌려’, ‘들뜰, 들떠’ 등으로 다양하게 쓰이지 못하므로, ‘무디+ㄴ’,

    ‘눌리+ㄴ’, ‘들뜨+ㄴ’가 아니라 ‘무딘’, ‘눌린’, ‘들뜬’을 조어단위로 분석해 낸다.

    crenate 무딘톱니꼴 → 무딘-톱니-꼴

    depressed orbicula 눌린 원형 → 눌린-원형

    excited state 들뜬 상태 → 들뜬-상태

    다) 외래어+한자어, 외래어+고유어, 외래어

    6) 조은경(2000) “전문용어의 어휘형태적 특성 연구” 연세대학교 국어정보학 협동과정 석사학위논문 참

    고.

  • - 9 -

    외래어와 한자어, 고유어가 결합되는 경우에는 그 경계에서 분석한다.

    cryoplankton 빙설플랑크톤 → 빙설-플랑크톤

    egg albumin 알알부민 → 알-알부민

    외래어만으로 구성된 용어는 기본적으로 외래어의 단위를 하나의 조어단위로 분석하며

    외국어의 조어기준을 기준으로 분석하지는 않는다. 아래에서 영어 용어를 비교해 보면 ‘아

    세틸’이 분석될 수 있겠지만 영어 용어를 음차하여 형성된 외래어에서도 같은 기준을 적용

    하여 분석하는 것은 무리가 따른다. 따라서 ‘아세틸콜린’, ‘아세틸무람’을 하나의 조어단위

    로 분석한다. 그러나 외래어 '아데닌‘, ’뉴클로이드‘에 의해 형성된 ’아데닌 뉴클로이드‘의

    경우에는 ’아데닌+뉴클로이드‘로 분석한다.

    acetylcholine 아세틸콜린 → 아세틸콜린

    acetylmuramic acid 아세틸무람산 → 아세틸무람-산

    adenine 아데닌 → 아데닌

    adenine nucleotide 아데닌 뉴클로이드 → 아데닌-뉴클로이드

    마. (3) 세부 정보 표지

    분석한 조어단위에는 다음과 같은 형태・품사 정보 표지와 원어 정보 표지를 부착하였다. 세부 정보의 표지는 한편으로는 전년도 전문용어의 분석 결과를 반영하면서 다른 한편

    으로는 생물학 용어 분석 과정에서 나타나는 특징을 반영한 것이다.

    가) 형태・품사 정보 표지

    다음은 조어단위의 형태・품사 정보 표지인데 분류 기준과 각 표지가 지시하는 바는 전년도 연구결과물과 다르지 않다.

    올해부터 미등록어 표지(unk)가 추가되었다. 이는 의미적으로 파악이 되는 것이면

    서 형태상으로 분리가 되는7) 조어단위이지만 사전8)에 등록되어 있지 않아서 어떤 표

    지를 주기가 어려운 것이 있을 때에 붙인 것이다. 보류 표지(tt)는 이것과 달리 형태상

    으로 분리가 되고 사전에도 등록되어 있지 않으면서 의미파악이 안되는 것에 대해 붙

    여진 것이다.

    7) 다른 여러 가지 조어단위와 결합하는 생산적인 양상을 보임.

    8) 표준국어대사전, 연세한국어사전, 금성국어대사전

  • - 10 -

    형태・품사 표지 형태・품사 표지기호 sy 기본형 vb

    보류(임시), 미등록어 tt, unk 용언 명사형, 명사파생접미사 결합형 vn

    보통명사 nc 관형형 va

    대명사 np 연결형 vc

    명사류 고유명사 npp 조사 pa

    의존명사 nb 체언 형용사, 부사 af

    수사 nu 이외의 동사 vf

    아라비아숫자포함명사 nu-cc 외래어 전치사 pf

    관형사 an 접속사 cf

    부사 av 접사 xf

    접사 접두사 xp 단일 단위 준말 표지-c

    접미사 xs 복합 단위 준말 표지-cc

    어근적 형태소 mm 약어 acn

    형태・품사 표지 중에서 nu-cc는 생물학 용어를 분석하면서 새로 설정한 표지로, 아라비아숫자를 포함한 명사를 표시하기 위한 것이다.

    fraternal twin 이란성 쌍생아 fraternal twin 2란성 쌍생아

    hexose 육탄당 hexose 6탄당

    binary fission 이분법 binary fission 2분법

    위의 ‘이란성, 2란성’ 등에서 보듯이 수(數)의 의미를 지닌 형태소가 두 가지 표기로 쓰이

    고 있는데 아라비아숫자를 별개로 분리해 내기 위해서 ‘2-란성’으로 분석하면 ‘이란성’ 역

    시 분석해야 하는 문제가 생기고 이는 지나친 분석보다는 전문용어를 생성하는 조어단위를

    분석하고자 하는 목적에 어긋난다. 따라서 숫자를 분석하지 않는 대신 이표기(異表記)의 정

    보를 표현해 주는 표지 nu-cc를 별도로 설정하고 다음과 같은 정보를 부착한다.

    fraternal twin 이란성 쌍생아 → 이란성^nc + 쌍생아^nc

    fraternal twin 2란성 쌍생아 → 2란성^nu-cc + 쌍생아^nc

    hexose 육탄당 → 육탄당^nc

    hexose 6탄당 → 6탄당^nu-cc

    binary fission 이분법 → 이분^nc + 법^xs

    binary fission 2분법 → 2분^nu-cc + 법^xs

  • - 11 -

    나) 원어 표지

    원어 표지는 고유어, 한자어, 한자어와 고유어의 복합형, 일본어, 일본어나 한자어를 제

    외한 외래어로 나눈다.

    여기서 외래어 표지를 붙이게 된 것에는 1) 영어나 외국어를 음차한 것, 2) 우리말

    화되었지만 어원적으로 외국어에서 온 것, 3) 글자까지 외국어이지만 한글과 결합하여

    쓰인 것 등이 있다. 3)은 한국어 용어의 요소라는 측면에서 외래어에 포함된 것이다.

    고유어 ko (korean)

    한자어 ch (chinese)

    한자어+고유어 sk (sino-korean)

    일본어 ja(japanese)

    외래어 ie

    다) 추가 정보

    추가 정보는 용어의 조어 단위 분석 과정에서 나타난 문제점이나 분석표지 이외의 정보

    로서 작업 데이터에서 고유번호9) 다음 열에 입력되었다. 이를테면, 입력 오타에 대해 수정

    되었음을 표시하거나 중복 입력이나 원본 목록에서의 오류를 지적하는 내용으로 구체적인

    사항은 다음과 같다.

    9) Korterm에서 작성한 생물학 용어 목록의 원본에 작업의 편의나 데이터 보존을 위해

    고유번호를 부착하고 작업하였다.

  • - 12 -

    추가 정보 내용

    원본 데이터에서 용어의 문자열 부분이 아닌 것을 삭제하고 조어분석에 필요

    한 용어열만 남긴 경우(대응 영어 용어를 참고하여 수정함)

    ꃚ $\beta$ 갈락토시다아제!& ADP → beta갈락토시다아제

    경쟁$\codt$배타의 법칙 → 경쟁codt배타의 법칙

    맞춤법이 틀린 경우에 올바른 조어단위 분석을 위하여 수정한 경우

    ꃚ원분활 → 원-분할 화학적 산소용구량 → 화학-적-산소-요구-량

    한 레코드(하나의 영어 용어)에 한국어 용어가 둘 이상 제시된 경우에 새로운

    레코드를 추가하여 하나의 레코드에 하나의 한국어 용어가 있게 함. 이 때

    추가된 레코드에 를 표시함.

    ꃚ 처음: 00023 abiogenesis 자연발생(설)

    수정: 00023 abiogenesis 자연발생

    00023a abiogenesis 자연발생설 ←

    영어 용어, 한국어 용어 모두 일치하는 항목으로 중복된 것에 표시함.

    ꃚ 00967 assimilation 동화

    00968 assimilation 동화 / 동화작용 ←

    00969 assimilation 동화작용

    조어 분석의 표지를 붙이기에 애매성이 있는 경우(웹이나 기타 다른 관련 문

    헌에서 해당 용어를 찾지 못함). 이는 뜻풀이 정보가 없는 문제점이기도 하

    다.

    ꃚ 소태나무이과 → 소태/나무/이/과

    위의 예에서 ‘이’는 생물의 ‘이’인지 수 표현인지 ‘이(二)’인지 애매한 경우이

    다.

    한국어 용어가 없는 경우, 83항목이 영어 용어에 대해 한글 용어가 비어 있

    었다.

    1) 생물학 용어 분석 결과 및 특징

    바. (1) 용어의 구조 정보 : 생물학 용어의 형태 결합 방식

    생물학 용어의 일반적인 형태 결합 방식은 조어단위에 대한 형태・품사 표지들의 결합 방식을 통해서 살펴볼 수 있다.

    전문용어의 형태결합방식은 매우 다양하다. 이는 전문용어가 단일용어(single term)보다

    는 여러 조어단위들이 결합한 복합용어(complex term)가 많기 때문이다.

  • - 13 -

    형태 결합 방식 중 고빈도 일부를 예와 함께 제시하면 아래 표와 같다. 최종 결과물에서

    의 형태결합 방식의 고빈도 결과는 중간보고물(약 6천여 건)에서의 형태결합 방식10)와 거의

    유사한 양상을 보인다. 굵게 표시한 것은 새로 고빈도의 형태로 추가된 것이나 빈도순위가

    현격이 상승한 것이다. 이는 학명(nomanclature)의 조어방식들에 기인한 것으로 이들은 다

    른 용어들보다 더 길고, 고유어도 많이 쓰는 경향을 갖고 있다.

    10)

    순위 빈도 형태 결합 방식

    1 1,889 nc^nc

    2 1,611 nc

    3 724 nc^xs

    4 294 nc^nc^xs

    5 234 nc^nc^nc

    6 226 nc^xs^nc

    7 131 xp^nc

    8 69 xp^nc^nc

    9 48 nc^mm

    10 44 npp^nc

    11 44 xp^nc^xs

    12 39 mm^nc

    13 39 mm^xs

    14 37 nc^pa

    15 36 acn

    16 28 nc^xs^nc^xs

    17 27 nc^nc^nc^nc

  • - 14 -

    [ 생물학 용어 형태결합 방식 : 전체 16,699