인공지능시대의 한국어 정보처리
1
인공지능시대의 한국어 정보처리
- 언어기초정보 처리의 중요성 -2016-08-29
정휘웅
2016-08-29
인공지능시대의 한국어 정보처리 2
발표자 소개
• 약력
• 부산대학교 인지과학협동과정 다국어정보처리 전공 ( 석 / 박사수료 )부산대학교 언어정보연구실 , KISTI, ETRI 등과 다수의 연구개발 과제 수행(~2006)
• 다이퀘스트 기술기획팀 차장(2007~2011)
• 공개 SW 역량프라자 수석 (2013~ 현재 )
• 주요 연구분야
• 다국어 정보 치리와 어휘 의미망(WordNet 기반 )
• 사전편찬학 및 의미론
• 자연언어처리
• 기업 검색
• 주요 관심분야
• 어휘의미망 (Lexical Semantic Net-work)
• 말뭉치 언어학 (Corpus Linguistics)• 어휘 중의성 해소 (Word Sense Disam-
biguation)• 내용어 추출 (NER: Named Entity
Recognition)• 문서 범주화 (document categoriza-
tion)• 맥락 분석 (Context Analysis)
2016-08-29
인공지능시대의 한국어 정보처리 3
빈도수 및 유사도 검색의 함정
2016-08-29
인공지능시대의 한국어 정보처리 4
왜 이런 현상이 발생할까 ?• 빈도수와 유사도에 의해서 결정되는 시스템
• 다수의 사람들이 입력하는 검색 키워드에서 출발 ( 다수가 찾는 검색어 )• 다수가 검색한 뒤 , 이에 파생되고 유사도가 가장 높은 검색 키워드를 다시 검색
• 통계적으로 자동처리 되어버림
• 검색 키워드를 정제하고 유사도를 측정하면 답을 얻을 수는 있지만 , 텍스트 본문을 정확하게 분석해야 잘못된 정보를 검색할 수 있음 ( 매우 어려움 ) 인간의 심리 , 머릿속에 기억되는 저장 기제가 문제
2016-08-29
사람들이 특정 단어와 연관성을 짓기 시작
용어의 의미가 변화하기 시작
인공지능시대의 한국어 정보처리 5
영어는 이런 경우가 없을까 ?
2016-08-29
아재개그는 형태소 분석 오류와의미 중의성에서 출발
인공지능시대의 한국어 정보처리 6
Galaxy
2016-08-29
인공지능시대의 한국어 정보처리 7
자연어처리기술 연구자를 괴롭히는 중의성
2016-08-29
인공지능시대의 한국어 정보처리 8
두 경우의 어려운 점
• 기존 의미에 새로운 의미가 부여되는 경우
• 나라 : 국가의 우리 말
• 일본의 고대 유적이 많은 도시
• + 걸그룹 헬로비너스 멤버
• ( 예 ) 해운대 , 터널 , 곡성
• 한 단어의 의미 중요도가 변화하는 경우
• 김정은
• 연예인 (~2009) 정치인 (2010~)
2016-08-29
인공지능시대의 한국어 정보처리 9
다국어간 관계에서 언어 중의성
2016-08-29
은행 bankginkgo둑
인공지능시대의 한국어 정보처리 10
자연어처리 연구자들을 괴롭히는 문제들
• 형태소 분석기의 성능
• 어지간한 형태소 분석기의 성능을 95~96% 내는 것은 누구나 다 할 수 있는 일
• 그러나 99.9% 이상의 정확도를 내는 형태소 분석기를 만들기도 매우 어려움 ( 특히 한국어 )
• 신어와 전문용어
• 지카 바이러스 , 드론 , 콘클라베 , 쭈타누깐 , 화웨이 , 일베 , 메갈리아 , …• 어휘 의미 중의성
• 김정은 , 은행 , 골프 , • 미등록어
• 올레드 (OLED)• 새로운 용어 조합
• 아재개그
2016-08-29
의미의 파악과 형태소 분석
인공지능시대의 한국어 정보처리 11
기계에게 스스로 학습을 시키면 ?( 누구나 다 아는 )
2016-08-29
좌우로 이동하고 , 저 것은 점수야
인공지능시대의 한국어 정보처리 12
만약 저 방법에 자연언어를 넣으면 ?• גדות גל• גדות גל• , - דייגו סן קון קומיק בכנס 2016גדות• לידה תאריך (31בת ) 1985באפריל 30• לידה מקום Flag of Israel.svg ראש
ישראל, העין• הפעילות שנות הווה–2004• פרסים ישראל ) של היופי (2004מלכת• ידועה דמות ) ועצבני' ) מהיר ישר ל גיז• ) סופרמן ) נגד באטמן וומן וונדר• ) עספור ) קיקה
• नरेन्द्र मोदी• इस लेख अथवा भाग में इस समय विवस्तार अथवा सुधार
वि+या जा रहा है। इस+ो बनाने एवं सम्पादिदत +रने में आप+ी वि+सी भी सहायता +ा स्वागत है।
• यदिद इस पृष्ठ +ो बहुत दिदनों से सम्पादिदत नहीं वि+या गया है, +ृपया यह टैग हटाए।ँ
• इस +ो अन्तिन्तम बार Anamdas (वाताA| योगदान) द्वारा सम्पादिदत वि+या गया था। (2 महीने पहले) (परिरष्+रण)
2016-08-29
간단한 규칙으로 설명 가능하다면 기계가쉽게 학습할 수 있으나 , 결국 인간이 모르면 기계도 모릅니다 .
인공지능시대의 한국어 정보처리 13
중의성을 해소하기 위한 노력들 , 그리고 실패들
• 의미 부여를 위한 노력은 지속
• Semantic Web( 팀 버너스 리가 주장 , 추진은 부족 )• Ontology( 궁극적 의미의 구조화 )• Linked Open Data Freebase.net• Wiktionary( 현재도 지속 )• WordNet BabelNet
• 그러나 쉽지 않고 명맥만 유지
• 영어가 피봇 언어
2016-08-29
인공지능시대의 한국어 정보처리 14
WordNet 과 한국어의 연계 , KorLex
2016-08-29
인공지능시대의 한국어 정보처리 15
명맥이 유지되는 시스템들
2016-08-29
WolframAlpha DBPedia
인공지능시대의 한국어 정보처리 16
OpenCalais
2016-08-29
“All Eyes on Apple’s Cook as Watch Launch Expected”
Semantic Annotation
인공지능시대의 한국어 정보처리 17
한국어 정보처리는 정말 낙후되어 있는가 ?• 지속적인 투자가 이루어지지 않아 답보 상태
• 세종계획으로 대용량 말뭉치 , 태그드 말뭉치가 구축되었으나 활용도가 낮고 오류가 많은 편 (6,800 만 어절 )
• 기계 학습에는 충분하지 않은 분량과 규칙
• 기계 학습이 충분히 이루어지기 위해서는 최신성 , 정제 및 정확성 , 균형성이 담보되어야 함
• 세종말뭉치로는 현재 발생하는 언어 현상을 제대로 반영할 수 없는 실정
• 기업들은 작은 시장규모로 형태소 분석기를 위한 충분한 기능 개선 및 데이터 수집에 필요한 투자 예산을 확보하지 못하고 있음
• 다국어간 번역에 필요한 병렬 말뭉치 , 의미 네트워크를 구축하지 못하고 있음
2016-08-29
인공지능시대의 한국어 정보처리 18
한국어 형태소 분석 예시
• 4 월 4 num 월 nbu• 12 개월된 12 num 개 ncn 월 ncn 되 pv ㄴ efa• 아가와 아가 ncn 와 j• 태국여행을 태국 nq_loc 여행 ncp 을 j• 예약해두었습니다 . 예약 ncp 하 xsp 어두 ep 었 ep 습니다 ef . sf• 그런데 그런데 ma• 얼마전부터 얼마전 ma 부터 j• 사회적 사회적 ncn• 이수가 이수가 nq_per• 되고 되 pv 고 ef• 있는 있 pa 는 efa• 지카바이러스 지 ncn 카바 ncn 이 j 러스 ncn
2016-08-29
인공지능시대의 한국어 정보처리 19
기계 번역의 어려움
2016-08-29
인공지능시대의 한국어 정보처리 202016-08-29
너는 이미 빅데이터다
인공지능시대의 한국어 정보처리 21
한국어 정보 처리가 발전하려면• 형태소 분석 기술이 떨어지면 그 이후 기술은 사상누각
• 95% 까지는 누구나 갈 수 있으나 , 99% 는 누구나 갈 수 없음
• 한국어 형태소 분석기의 오류를 줄이기 위한 대규모 태그드 말뭉치 필요
• 한국어 형태소 분석기의 성능을 끌어올리기 위한 노력 필요 ( 기계학습 + 수작업 + 규칙 개선 )• 다국어간 연계성을 확보하기 위한 국제적인 DB 구축에 참여
• N-Gram 기반 맥락 정보 분석 기술 개발
• 한국어의 특성상 형태소 주변에 발생하는 어휘의 다양성이 매우 높고 , 빈도수의 차이가 많지 않음
• 빅데이터 수준의 대용량 말뭉치를 통하여 끊임 없이 학습하여 맥락정보를 찾아내는 작업을 지속적으로 수행해야 함
• 시계열 기반 언어 정보 분석 및 용어의 라이프 사이클 기술 구축
• 의미의 변화는 시간을 통해서 이루어지고 있으며 , 의미의 변화는 실시간 빅데이터 환경에서 발생
• 정교한 형태소 분석 기술과 정확한 용어 추출 / 분석을 통하여 용어의 중의성을 해소
2016-08-29