38
Korea Terminology Research Center for Language and Knowledge Engineering - 뇌뇌뇌뇌뇌뇌뇌뇌 2 뇌뇌 뇌뇌뇌뇌뇌뇌 - 인인인 인인인인 인인인인 인인 인인인인 인인 인인인 인인 인인 인 인인 인 인 인 인인인인인인인 인인인인 인인인인 : 인인인인인인 , 인인인인인

- 뇌신경정보학사업 2 단계 자유공모과제 - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Embed Size (px)

DESCRIPTION

- 뇌신경정보학사업 2 단계 자유공모과제 - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용. 최 기 선 한국과학기술원 전산학과 참여기업 : 나눔정보테크 , ㈜ 오롬정보. 순서. 연구개요 목표 및 내용 연차별 연구개발 추진체계 연구내용 문서 영역의 설정 및 지식 구조 분석 질병 영역 지식 구조 분석 지식 습득과정의 모델링 문장단위 의미 분류 기술 지식 저장 형태 연구 지식 탐색 및 질의 응답 모델 결론 1 차년도 연구 성과. 연구 개요. 연구목표 - PowerPoint PPT Presentation

Citation preview

Page 1: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

- 뇌신경정보학사업 2 단계 자유공모과제 -

인간의 지식처리 모델링을 위한전문분야 지식 베이스 원형 구축 및 활용

최 기 선한국과학기술원 전산학과

참여기업 : 나눔정보테크 , ㈜오롬정보

Page 2: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

2

순서 연구개요

목표 및 내용연차별 연구개발 추진체계

연구내용문서 영역의 설정 및 지식 구조 분석

질병 영역 지식 구조 분석지식 습득과정의 모델링

문장단위 의미 분류 기술지식 저장 형태 연구지식 탐색 및 질의 응답 모델

결론1 차년도 연구 성과

Page 3: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

3

연구 개요 연구목표

인간의 지식처리 모델링을 위한전문분야 지식베이스 원형 구축 및 활용

연구내용언어 영역에서의 지식을 대표할 수 있는 문서 영역을 찾아그 안에서의 지식의 습득 및 표현 , 언어 이해 과정의 모델링

Page 4: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

4

연구개발 추진체계

자동 습득 지식

습득과정 모델 정립습득과정 모델 정립

지식 습득 시제품 개발지식 습득 시제품 개발

지식 습득 도구 개발지식 습득 도구 개발

질의 응답 시제품 개발질의 응답 시제품 개발

일반화일반화

지식 저장 형태 연구지식 저장 형태 연구

지식 변환 모델 연구지식 변환 모델 연구

지식 탐색 모델 연구지식 탐색 모델 연구

질의 응답 모델 연구질의 응답 모델 연구

자동 습득 지식

수동 습득 지식 1 차년도

2 차년도

3 차년도

100 node

1000 node

2000 node

Page 5: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

5

구현될 시스템의 예심장판막증심장의 판막에 장해가 생기는 병 . 심장이 비대하여 운동을 조금만해도 숨이 차고 현기증이나며 , 박동이 심하게 된다 .판막부가 좁아져서 혈액의 흐름에 방해를받는 협착증이 있다 .원인으로는 선천적인 기형 ,류머티즘 , 동맥경화 , 세균성인 심내막염 등이다 .

심장판막증심장의 판막에 장해가 생기는 병 . 심장이 비대하여 운동을 조금만해도 숨이 차고 현기증이나며 , 박동이 심하게 된다 .판막부가 좁아져서 혈액의 흐름에 방해를받는 협착증이 있다 .원인으로는 선천적인 기형 ,류머티즘 , 동맥경화 , 세균성인 심내막염 등이다 .

문서 언어해석 /의미 태깅

사건 추출

정의 : 심장의 판막에 장해가 생기는 병 .증세 : 심장이 비대하여 운동을 조금만 해도숨이 차고 현기증이 나며 ,박동이 심하게 된다 .종류 : 판막부가 좁아져서혈액의 흐름에 방해를 받는 협착증이 있다 .원인 : 원인으로는 선천적인 기형 , 류머티즘 , 동맥경화 ,세균성인 심내막염 등이다 .

정의 : 심장의 판막에 장해가 생기는 병 .증세 : 심장이 비대하여 운동을 조금만 해도숨이 차고 현기증이 나며 ,박동이 심하게 된다 .종류 : 판막부가 좁아져서혈액의 흐름에 방해를 받는 협착증이 있다 .원인 : 원인으로는 선천적인 기형 , 류머티즘 , 동맥경화 ,세균성인 심내막염 등이다 .

심장판막증

정의 증세종류 원인

생기다

장해가판막에

심장의동맥경화 세균성

류머티즘선천적 기형

협착증 심하다

차다

지식베이스에 습득된 지식 추가

사용자 A

심장판막증이 무엇입니까 ?

사용자 B

질의 의도분석

질의 의도분석

응답 형태추정

응답 형태추정

운동을 조금만 하면 숨이 차고 현기증이 나면서 심장 박동이 심한데요 무슨 병일까요 ?

심장 판막증이란 심장의 판막에 장해가생기는 병으로 증세는 … 종류는 …

원인은… 입니다 .

심장판막증으로 추정 됩니다 .종류는 판막부가 좁아지는 ..

원인은 … 입니다 .병원에 가셔서 … .

지식습득

질의응답

질의 변환질의 변환

지식탐색

지식베이스탐색 및 추론

지식베이스탐색 및 추론

언어 생성언어 생성

지식변환

개념별분류

개념별분류

심장의 판막에장해가 생기는 병

운동을 조금만 해도 숨이 차다현기증이 나며 박동이 심하다

판막부가 좁아지는 협착증

정의

선천적인 기형류머티즘동맥경화

세균성

증세

증세

종류원인원인원인원인

병명심장판막증

Page 6: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

6

연차별 연구개발 목표 및 내용 : 1 차년도 인간 지식을 반영하는 문서로부터 지식의 추출 연구

문서 영역 설정인간 지식활동을 대표할 수 있는 문서 영역 설정

지식 습득 과정 모델 정립문장단위 의미 분류 기술 개발설정된 문서로부터 사건 추출 과정 연구통사구조 , 의미구조 , 형태론적 구조 파악

지식 저장 형태 연구설정된 문서의 지식 저장 및 지식 표현 연구지식 수동 습득 : 초기 100 노드

지식 습득 시제품 개발지식 습득을 통한 지식 구축 시제품 개발

Page 7: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

I. 문서 영역의 설정 및 지식 구조 분석

Page 8: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

8

문서영역 설정 설정된 문서 영역

질병영역지식의 습득 / 탐색에 적합한 응용

백과사전여러 가지 개념에 대한 잘 정리된 지식을 제공질병영역에 대한 다양한 질병백과사전 존재

코퍼스 수집질병영역 백과사전

계몽백과 사전 , 휴메딕 의료사전Joins 헬스케어 의약도서관 의학백과사전헬스조선 의약정보도서관 , 야후 ! 건강정보

질병상담 예문야후 ! 건강정보 FAQ, Doctor.co.kr

Page 9: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

9

설정된 영역의 지식구조 분석 계몽백과사전의 예 : ‘ 위궤양’

브리타니카사전의 예 : ‘pneumonia’

<id>15103<title> 위궤양<contents>위의 점막이 헐어서 점막 밑에 있는 조직이 파괴되는 병 . 위궤양은 자극이 심한 음식을 지나치게 먹거나 정신적인 피로가 원인이 된다 .증세로는 식후에 위가 아프거나 대변에 피가 섞이기도 한다 .30∼40 세의 남자에게 많이 생긴다 .자극이 심한 음식물과 정신적인 피로를 피하고 감정이 상하지 않도록 주의한다 .

일련번호 표제어 서술명사구

주제어

inflammation and consolidation of the lung tissue as a result of infection, inhalation of foreign particles, or irradiation. Many organisms, including viruses and fungi, can cause pneumonia, but the most common causes are bacteria, in particular species of Streptococcus and Mycoplasma. Although viral pneumonia does occur...

Page 10: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

10

질병의 특성 분류

의미범주 수동 태깅

/DEF: definition ( 정의)

/CAU: cause ( 원인 )/SYM: symptom ( 증상

)/REM: remedy ( 치료 )/PRE: prevention (

예방 )/PRO: progress ( 경과

)/OBJ: object ( 대상 )/SOR: sort ( 종류 )/IFT : if-then ( 조건 )/OTH: others ( 기타 )

위의 점막이 헐어서 /CAU 점막 밑에 있는 조직이 파괴되는 병 . /DEF위궤양은 자극이 심한 음식을 지나치게 먹거나 정신적인 피로가 원인이 된다 . /CAU 증세로는 식후에 위가 아프거나 대변에 피가 섞이기도 한다 . /SYM30∼40 세의 남자에게 많이 생긴다 . /OBJ 자극이 심한 음식물과 정신적인 피로를 피하고 감정이 상하지 않도록 주의한다 . /REM

‘ 질병’ 개념을 구성하는 특성은

무엇인가 ?

Page 11: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

11

대표 의미속성 선택 대표 의미 속성 선택

특성의 상대빈도에 의한 주요 특성을 대표 의미 속성으로 선택상대빈도 (RF: Relative Frequency)

선택된 대표 의미 속성증상 , 원인 , 치료

)}(/),({)(1

mSCmSCRFn

mii

Ci : 질병 개념의 i- 번째 특성S(m, Ci) : m번째 항목에서 Ci 를 나타내는 단문의 수S(m) : m번째 항목의 단문의 수

특 성 (Ci)

상대빈도

증상 10.9

원인 10.1

치료 3.48

종류 1.87

결과 1.21

대상 0.96

경과 0.92

Page 12: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

II. 지식 습득과정의 모델링- 문장단위 의미 분류 기술 -

Page 13: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

13

문장단위 의미분류 기술 모델링 문장의 의미분류

목적 : 질병영역 내 사용된 문장에 대해 의미속성 부여방법 : 질병영역 내 코퍼스 분석 , 특성 어휘 추출

특성어휘 분석대표의미속성 ( 원인 / 증상 / 치료 ) 문서로부터 분석사용된 특성 어휘

문형 (Sentence patterns)서술어 (Predicates)명사 (Nouns)명사 - 술어 공기 (Noun-predicate concurrence)연결어미 (Conjunctive endings)

Page 14: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

14

문형 자질의 예 ‘ 원인’ 문서

~에 [로 ] 의하 (다 )/ 말미암 (다 )/ 인하 (다 )~ 때 [경우 ]에 생기 (다 )/ 나타나 (다 )~ 때문에 일어나 (다 )/ 나타나 (다 )

‘ 증상’ 문서~이 [가 ] 나타나 (다 )/ 생기 (다 )/일어나 (다 )~게 되 ( ㄴ 다 )~수 [ 것 ] (도 )있 (다 )

‘ 치료’ 문서~해야 하 ( ㄴ 다 )~시키 (다 )

Page 15: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

15

서술어 자질의 예 서술어 구성 품사

일반동사 (/pvg)성상 형용사 (/paa)동작성 명사 (/ncpa) + 동사 파생접미사 (/xsv)상태성 명사 (/ncps) + 형용사 파생접미사 (/xsm)

특성 용언 추출1 단계 : 일반 코퍼스에 나타난 고빈도 형태소 제외2 단계 : 수렴값 이상의 상대빈도를 갖는 서술어만 포함 3 단계 : 각 특성 문서에 유일하게 나타나는 술어에 가중치 부여

Page 16: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

16

명사 자질 특성 의존도에 따른 명사 분류

제 1 군 명사 : 단서어로서 특성 자체를 명시 제 2 군 명사 : 특성을 설명하는 어휘

특성 원인 증상 치료제 1 군명사

원인 , 이유 증상 , 증세 치료 , 처치 , 요법

제 2 군명사

결핍 , 부족 , 세균 , 병원체 ,자극 , 먼지 , 알레르기 , 불균형 , 피로

현기증 , 통증 , 갈증 ,맥박 , 숨 , 호흡 ,설사 , 복통 , 열 ,출혈

휴식 , 안정 ,운동 , 식사 ,주사 , 수혈 , 소독

Page 17: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

17

명사 - 서술어 공기 자질 ‘ 증상’문서의 예

서술어 논항 1 논항 2

생기다 염증 , 통증 , 물집 , 장해 ,기관지염 , 폐렴

각막 , 점막 , 판막 ,외이염 ,귀 , 코 , 손 , 발

나오다 피 , 기침 , 가래 , 소변 , 고름 피부 , 잇몸 , 근육 , 뼈

나타나다 증상 , 증세 ,감기 , 몸살 , 권태 , 통증

일어나다 현기증 , 출혈

아프다 피부 , 위 , 귀 , 목

Page 18: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

18

의미속성 자동 부착 실험 의미속성 자동 분류 모델

각 문장의 특성 (C) 측정 : 최대값의 특성으로 선택M(C) = a S+ c P + e EM’(C) = a S + b W + c P + d N + e E

- S: 문형 점수- W: 단서어휘 (clue word) 점수- P: 술어 점수 - N: 명사 점수- E: 연결어미 점수

(a>b>c>d>e : 계수가 클수록 문장의 특성 결정에 중요하다 )

의미속성 자동부착 실험학습자료 : 계몽백과사전에서 추출한 35 개 항목평가자료 : 계몽백과사전에서 추출한 18 개 항목1 차 실험 : M(C) 사용 (문형 , 술어 , 연결어미 사용 )2 차 실험 : M’(C) 사용 (단서어휘 , 명사 점수 추가 사용 )

Page 19: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

19

의미속성 자동 부착 실험 결과

재현률 : Rc = N(R) / (N(S)- N(I))N(R): 특성 문서에서 옳게 인식된 문장 수N(S): 특성 문서의 문장 수 N(I): 특성문서의 吳분류 문장 수

오류율 : Er = N(I) / N(R) 吳분류 문장

:특성 문서에 포함되었으나 실제로 해당 특성을 포함하지 않는 문장 .

특성 문장 실험 재 현 률(Rc)

오류율

원인CAU

26 1 차 0.84 0.012 차 0.88

증상SYM

56 1 차 0.76 0.02

2 차 0.78

치료REM

26 1 차 0.61 0.012 차 0.77

- 평균 재현률 (%)

학습자료

평가자료

1 차 89.3 73.7

2 차 94.6 81.0

Page 20: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

20

의미속성 자동부착 실험 (II) 비훈련 지식원에 대한 실험

훈련집합 : 계몽백과사전에서 추출한 35 개 항목실험집합 : Joins 헬스케어에서 추출된 20 개 항목

‘ 원인’문서내 114 개 단문

실험결과Accuracy : 0.711Recall : 0.753Precision : 0.786F-measure : 0.770

원인 ~ 원인‘ 원인’으로 추출된 단문

55 15

다른 의미속성으로 추출된 단문

18 26

합계 73 41

Page 21: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

21

의미속성 반자동 부착 과정

의미속성의 반자동 부착대상자료 : Joins 헬스케어에서 추출된 180 개 노드검증자료 : Joins 헬스케어에서 추출된 20 개 노드반자동 부착과정

초기모델 : M’(C)검증자료 수동부착모델 재훈련 : M’’(C)

Threshold 교정

대상자료 자동부착 수작업 교정

모델 재훈련 : M’’’(C) 특성어휘 교정

최종 결과의미 속성이 수동 / 반자동 부착된 200 개 질병 문장

대상자료(180 개 )

검증자료(20 개질병 )

지식노드(20 개 )

지식노드(180 개 )

수동부착

자동부착 후

수동교정

M’(C)

M’’(C)

M’’’(C)

Page 22: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

22

의미속성 부착 프로그램 의미속성 부착 모델

1 단계 : 입력된 단문의 각 의미속성별 확률치 추출특성어휘 사용Mc : 원인점수 , Ms : 증상점수 , Mr : 치료점수

2 단계 : 입력된 단문에 적합한 의미속성 선택원인 , 증상 , 치료 , 혹은 기타

기타 : 구축하고자하는 대상이 아닌 내용 예 : 질병에 관련되지 않은 내용

2 개의 임계치 사용 Cut-off T : if( MAX{Mc, Ms, Mr} < T ) 문장속성 = 기타 otherwise 문장속성 = MAX{Mc, Ms, Mr} Differencial D : if(MAX{Mc, Ms, Mr} – NOT_MAX{Mc, Ms, Mr} < D) 문장속성 = 기타 o

therwise 문장속성 = MAX{Mc, Ms, Mr}

Page 23: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

III. 지식저장 형태연구

Page 24: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

24

지식의 구조화 지식의 구조

지식구조정보 +지식내용개념의 특성에 기반한 개념지도 (concept map)

지식의 구조정보구조화된 지식노드

상 / 하위 노드관계속성의 상속

지식의 내용사건리스트논리형태로 표현

소화불량소화불량

정의정의

증세증세원인원인

치료치료

소화기에생기는

소화기에생기는

병 피로하다피로하다

운동부족운동부족

지나치게많이 마시다 .

지나치게많이 마시다 .

지나치게많이 먹다지나치게많이 먹다

소화가안 되는

음식물을먹다

소화가안 되는

음식물을먹다

소화가충분히

이루어지지않는다 .

소화가충분히

이루어지지않는다 .

식욕이감퇴된다 .

식욕이감퇴된다 .

위가아프다 .

위가아프다 .

구토구토

설사를일으키다설사를

일으키다

Page 25: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

25

지식의 저장 형태 지식의 내용

논리형태 (Logical Form)예 : 배 (x2), SUB_가 (x2, e3), 아프 (e3)

구문구조로부터 자동 추출 가능한 형태 고려사건 / 개체간의 관계는 구문관계를 기준

표층격 사용

단순화 고려사건의 존재에 큰 변화를 주지 않는 구문요소는 제외사건 / 개체 / 관계 /특성 / 조용 형태로 구분

Page 26: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

26

논리 형태의 추출

구문구조로부터 자동추출 “상한 음식물을 먹고 , 배가 아프다 .”의존구조

상하 (e1), MOD_ ㄴ (e1, x1), 음식물 (x1), OBJ_을 (x1, e2), 먹 (e2), CON_고 (e2, e3), 배 (x2), SUB_가 (x2, e3), 아프 (e3)

상한음식물을

먹고배가

아프다MOD

OBJ

CON

SUBJ

Page 27: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

27

논리 형태의 종류 (1/2)

사건 (event) 형태먹 (e1), 아프 (e2), 일으키 (e3), …

개체 (Entity) 형태위 (x1), 설사 (x2), 운동 (x3), 부족 (x4), …

관계 (Relation) 형태주어관계

SUB_가 (x1, e2) : 위 (x1)가 아프다 (e2) 목적어관계OBJ_를 (x2, e3) : 설사 (x2)를 일으키다 (e3)

연결관계CON_고 (e13, e14) : 배가 아프고 (e13) 식욕이 없다 (e14)

수식관계

Page 28: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

28

논리 형태의 종류 (2/2)

수식관계MOD_의 (x5, x6) : 눈 (x5)의 전염병 (x6)MOD_에 (x7, e7) : 각막 (x7)에 외상을 입다 (e7)MOD_ ㄴ (e8, x9) : 상한 (e8) 음식물 (x9)MOD_게 (e9, e10): 낮게 (e9) 하다 (e10)MOD__(a1, e1) : 많이 (a1) 먹다 (e1)

조용형태 : -이 -, -하 -, -되 -, …ZOY_하 (e0, x0) : 피로 (x0)하다 (e0)ZOY_이 (e11, x11) : 세균성 (x11)인 (e11) 심내막염 (x12)

특성형태많이 (a1), 오래 (a2), …

Page 29: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

IV. 지식탐색 및 질의응답 모델

Page 30: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

30

질의 응답을 통한 지식탐색 (1/2)

실행 예

Q1: “ 기침이 아주 심합니다 .”A1: “ 감기 , 천식 등의 증상으로 보입니다 . 다른 증세가 있으시면 말씀해 주십시오 .”

Q2: “ 천식을 고치는 방법을 알려주십시오 .”A2: “ 천식의 치료법은 …”

Q3: “앞으로 어떤 증상이 생기는지요 ?”A3: “ 질병의 이름이나 다른 증세를 말씀해 주십시오 .”

Page 31: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

31

질의 응답을 통한 지식 탐색 (2/2)

내부지식 구축지식원의 의미속성 부착지식원의 논리형태 변환

사용자 질의 분석질의의 의도분석질의의 논리형태 추출

지식탐색질의의 의미속성 태깅지식 노드 탐색

답변 생성정보제시추가정보 요구

내부지식

형태소분석형태소분석품사태깅품사태깅

구문분석구문분석

지식원지식원지식원사용자질의

질의 의도

질의 LF

구절분리구절분리의미태깅의미태깅

LF 변환LF 변환

이벤트탐색이벤트탐색

의도분석의도분석

지식습득

탐색된 LF

답변생성답변생성

답변

Page 32: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

32

지식 탐색 (1/2)

지식탐색입력 : 단문단위 논리형태출력 : 단문의 의미속성 및 해당 지식노드 (질병 ) 명

Prob(n,f|p) = Prob(f|p) * Prob(n|f,p)

Prob(f|p) : 의미속성 확률Prob(n|f,p) : 지식노드 확률

p : 단문 “소화가 안돼서요”f : 의미속성 SYMPTOMn : 지식노드명 KB_식체

Page 33: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

33

지식 탐색 (2/2)

의미속성확률 : Prob(의미속성 |구절 )구절이 어떠한 의미속성을 담고 있는가 ?“ 소화가 안돼서요”가 증세일 확률내부지식에 저장된 각 속성별 논리형식에 발현하는 사건 , 개체 ,특성 형태의 등장횟수P(f|p) = P(f|LF1…n) iP(f|LFi), s.t. LFi {사건 / 개체 /특성 }

지식노드확률 : Prob(지식노드 |의미속성이 밝혀진 구절 )구절이 어떠한 지식노드의 의미속성인가 ?“ 소화가 안돼서요”가 증세일 때 , 식체의 증세일 확률질의의 논리형식과 부합하는 사건 / 개체 / 관계 형태수

Page 34: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

34

지식탐색 실험실험집합

사용된 지식베이스 : 계몽 사전에서 추출된 34 개 질병 노드평가집합KMDIC1 : 지식베이스 구축에 사용된 34 개 질병의 정의문

총 110 개 문장 (원인 :44 개 , 증세 :48 개 , 치료 :18 개 )

KMDIC2 : 계몽사전 8 개 질병의 정의문 총 21 개 문장 (원인 :7개 , 증세 :9 개 , 치료 :5 개 )

실험방법구축된 지식베이스의 탐색탐색된 지식노드의 후보 중 높은 확률값을 가진 노드만 선택

Page 35: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

35

지식탐색 실험 결과평가기준치

역순위 평균 (Mean Reciprocal Rank)

의미속성 추정결과

지식노드 추정결과

문장수 단독 1 위 실패 MRR

KMDIC1 110 107 0 3 97.3

KMDIC2 21 20 1 0 100

문장수 단독 1 위 2 위 실패 MRR

KMDIC1

100 70 21 3 16 84.1

n

i in rank

11MRR

Page 36: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

36

구현된 지식 탐색 시연 시스템 지식베이스

계몽백과사전

34 개 질병노드

지식의 구조4 개 의미속성

질병명 / 원인증세 / 치료

논리구조형태

사건의 저장

질의응답의도 추정지식의 탐색탐색된 지식 제시

Page 37: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

결론

Page 38: -  뇌신경정보학사업  2 단계 자유공모과제  - 인간의 지식처리 모델링을 위한 전문분야 지식 베이스 원형 구축 및 활용

Korea Terminology Research Center for Language and Knowledge Engineering

38

1 차년도 성과 인간 지식을 반영하는 문서로부터 지식의 추출 연구

문서 영역 설정질병영역 질병백과사전 코퍼스

지식 습득 과정 모델 정립문장단위 의미 분류 기술 개발설정된 문서로부터 논리식 추출 과정 연구

통사구조 , 의미구조 , 형태론적 구조 파악

지식 저장 형태 연구설정된 문서의 지식 저장 및 지식 표현 연구지식의 수동 / 반자동 습득

질병영역 지식 구축 (134 개 노드 )

지식 습득 시제품 개발지식 습득을 통한 지식 구축 시제품 개발