Download pptx - 인공지능시대의 한국어 정보처리

인공지능시대의 한국어 정보처리

1

인공지능시대의 한국어 정보처리

- 언어기초정보 처리의 중요성 -2016-08-29

정휘웅

2016-08-29

인공지능시대의 한국어 정보처리 2

발표자 소개

• 약력

• 부산대학교 인지과학협동과정 다국어정보처리 전공 ( 석 / 박사수료 )부산대학교 언어정보연구실 , KISTI, ETRI 등과 다수의 연구개발 과제 수행(~2006)

• 다이퀘스트 기술기획팀 차장(2007~2011)

• 공개 SW 역량프라자 수석 (2013~ 현재 )

• 주요 연구분야

• 다국어 정보 치리와 어휘 의미망(WordNet 기반 )

• 사전편찬학 및 의미론

• 자연언어처리

• 기업 검색

• 주요 관심분야

• 어휘의미망 (Lexical Semantic Net-work)

• 말뭉치 언어학 (Corpus Linguistics)• 어휘 중의성 해소 (Word Sense Disam-

biguation)• 내용어 추출 (NER: Named Entity

Recognition)• 문서 범주화 (document categoriza-

tion)• 맥락 분석 (Context Analysis)

2016-08-29


빈도수 및 유사도 검색의 함정

2016-08-29


왜 이런 현상이 발생할까 ?• 빈도수와 유사도에 의해서 결정되는 시스템

• 다수의 사람들이 입력하는 검색 키워드에서 출발 ( 다수가 찾는 검색어 )• 다수가 검색한 뒤 , 이에 파생되고 유사도가 가장 높은 검색 키워드를 다시 검색

• 통계적으로 자동처리 되어버림

• 검색 키워드를 정제하고 유사도를 측정하면 답을 얻을 수는 있지만 , 텍스트 본문을 정확하게 분석해야 잘못된 정보를 검색할 수 있음 ( 매우 어려움 ) 인간의 심리 , 머릿속에 기억되는 저장 기제가 문제

2016-08-29

사람들이 특정 단어와 연관성을 짓기 시작

용어의 의미가 변화하기 시작


영어는 이런 경우가 없을까 ?

2016-08-29

아재개그는 형태소 분석 오류와의미 중의성에서 출발


Galaxy

2016-08-29


자연어처리기술 연구자를 괴롭히는 중의성

2016-08-29


두 경우의 어려운 점

• 기존 의미에 새로운 의미가 부여되는 경우

• 나라 : 국가의 우리 말

• 일본의 고대 유적이 많은 도시

• + 걸그룹 헬로비너스 멤버

• ( 예 ) 해운대 , 터널 , 곡성

• 한 단어의 의미 중요도가 변화하는 경우

• 김정은

• 연예인 (~2009) 정치인 (2010~)

2016-08-29


다국어간 관계에서 언어 중의성

2016-08-29

은행 bankginkgo둑


자연어처리 연구자들을 괴롭히는 문제들

• 형태소 분석기의 성능

• 어지간한 형태소 분석기의 성능을 95~96% 내는 것은 누구나 다 할 수 있는 일

• 그러나 99.9% 이상의 정확도를 내는 형태소 분석기를 만들기도 매우 어려움 ( 특히 한국어 )

• 신어와 전문용어

• 지카 바이러스 , 드론 , 콘클라베 , 쭈타누깐 , 화웨이 , 일베 , 메갈리아 , …• 어휘 의미 중의성

• 김정은 , 은행 , 골프 , • 미등록어

• 올레드 (OLED)• 새로운 용어 조합

• 아재개그

2016-08-29

의미의 파악과 형태소 분석


기계에게 스스로 학습을 시키면 ?( 누구나 다 아는 )

2016-08-29

좌우로 이동하고 , 저 것은 점수야


만약 저 방법에 자연언어를 넣으면 ?• גדות גל• גדות גל• , - דייגו סן קון קומיק בכנס 2016גדות• לידה תאריך (31בת ) 1985באפריל 30• לידה מקום Flag of Israel.svg ראש

ישראל, העין• הפעילות שנות הווה–2004• פרסים ישראל ) של היופי (2004מלכת• ידועה דמות ) ועצבני' ) מהיר ישר ל גיז• ) סופרמן ) נגד באטמן וומן וונדר• ) עספור ) קיקה

• नरेन्द्र मोदी• इस लेख अथवा भाग में इस समय विवस्तार अथवा सुधार

वि+या जा रहा है। इस+ो बनाने एवं सम्पादिदत +रने में आप+ी वि+सी भी सहायता +ा स्वागत है।

• यदिद इस पृष्ठ +ो बहुत दिदनों से सम्पादिदत नहीं वि+या गया है, +ृपया यह टैग हटाए।ँ

• इस +ो अन्तिन्तम बार Anamdas (वाताA| योगदान) द्वारा सम्पादिदत वि+या गया था। (2 महीने पहले) (परिरष्+रण)

2016-08-29

간단한 규칙으로 설명 가능하다면 기계가쉽게 학습할 수 있으나 , 결국 인간이 모르면 기계도 모릅니다 .


중의성을 해소하기 위한 노력들 , 그리고 실패들

• 의미 부여를 위한 노력은 지속

• Semantic Web( 팀 버너스 리가 주장 , 추진은 부족 )• Ontology( 궁극적 의미의 구조화 )• Linked Open Data Freebase.net• Wiktionary( 현재도 지속 )• WordNet BabelNet

• 그러나 쉽지 않고 명맥만 유지

• 영어가 피봇 언어

2016-08-29


WordNet 과 한국어의 연계 , KorLex

2016-08-29


명맥이 유지되는 시스템들

2016-08-29

WolframAlpha DBPedia


OpenCalais

2016-08-29

“All Eyes on Apple’s Cook as Watch Launch Expected”

Semantic Annotation


한국어 정보처리는 정말 낙후되어 있는가 ?• 지속적인 투자가 이루어지지 않아 답보 상태

• 세종계획으로 대용량 말뭉치 , 태그드 말뭉치가 구축되었으나 활용도가 낮고 오류가 많은 편 (6,800 만 어절 )

• 기계 학습에는 충분하지 않은 분량과 규칙

• 기계 학습이 충분히 이루어지기 위해서는 최신성 , 정제 및 정확성 , 균형성이 담보되어야 함

• 세종말뭉치로는 현재 발생하는 언어 현상을 제대로 반영할 수 없는 실정

• 기업들은 작은 시장규모로 형태소 분석기를 위한 충분한 기능 개선 및 데이터 수집에 필요한 투자 예산을 확보하지 못하고 있음

• 다국어간 번역에 필요한 병렬 말뭉치 , 의미 네트워크를 구축하지 못하고 있음

2016-08-29


한국어 형태소 분석 예시

• 4 월 4 num 월 nbu• 12 개월된 12 num 개 ncn 월 ncn 되 pv ㄴ efa• 아가와 아가 ncn 와 j• 태국여행을 태국 nq_loc 여행 ncp 을 j• 예약해두었습니다 . 예약 ncp 하 xsp 어두 ep 었 ep 습니다 ef . sf• 그런데 그런데 ma• 얼마전부터 얼마전 ma 부터 j• 사회적 사회적 ncn• 이수가 이수가 nq_per• 되고 되 pv 고 ef• 있는 있 pa 는 efa• 지카바이러스 지 ncn 카바 ncn 이 j 러스 ncn

2016-08-29


기계 번역의 어려움

2016-08-29

인공지능시대의 한국어 정보처리 202016-08-29

너는 이미 빅데이터다


한국어 정보 처리가 발전하려면• 형태소 분석 기술이 떨어지면 그 이후 기술은 사상누각

• 95% 까지는 누구나 갈 수 있으나 , 99% 는 누구나 갈 수 없음

• 한국어 형태소 분석기의 오류를 줄이기 위한 대규모 태그드 말뭉치 필요

• 한국어 형태소 분석기의 성능을 끌어올리기 위한 노력 필요 ( 기계학습 + 수작업 + 규칙 개선 )• 다국어간 연계성을 확보하기 위한 국제적인 DB 구축에 참여

• N-Gram 기반 맥락 정보 분석 기술 개발

• 한국어의 특성상 형태소 주변에 발생하는 어휘의 다양성이 매우 높고 , 빈도수의 차이가 많지 않음

• 빅데이터 수준의 대용량 말뭉치를 통하여 끊임 없이 학습하여 맥락정보를 찾아내는 작업을 지속적으로 수행해야 함

• 시계열 기반 언어 정보 분석 및 용어의 라이프 사이클 기술 구축

• 의미의 변화는 시간을 통해서 이루어지고 있으며 , 의미의 변화는 실시간 빅데이터 환경에서 발생

• 정교한 형태소 분석 기술과 정확한 용어 추출 / 분석을 통하여 용어의 중의성을 해소

2016-08-29