21
마마마마마마마마마마 마마 마마 마마마 마마 마마 마마 마마 마마마 ( 마마마마 마마마마마마 )

황승원 포항공대 교수

Embed Size (px)

Citation preview

Page 1: 황승원 포항공대 교수

마이크로소프트연구소인재 육성 플랫폼교수 협력 사례 발표황승원 ( 포항공대 컴퓨터공학과 )

Page 2: 황승원 포항공대 교수

마이크로소프트연구소와의 협업 영역

커리큘럼 혁신

• 교재 및 수업 개발• 커리큘럼 자원제공• 초청강연

인재육성• 인턴십• 박사과정 펠로우십• 패컬티 펠로우십

연구협력• 연구 주제별

프로젝트• 패컬티 특별

프로젝트• 방문 연구원

프로그램

학술교류• 연례교수회의• 21 세기 컴퓨팅

컨퍼런스• 지역 별 워크샵

컴퓨터 공학의 발전 과학적 발견과 연구 가속화 차세대 공학도 육성

Page 3: 황승원 포항공대 교수

마이크로소프트연구소와의 협업 소개

Page 4: 황승원 포항공대 교수

연구 내용 요약 : Data(-driven) Intelligence

• 기존 검색 결과에 지능을 더함• 지능은 웹 사용자들에 의해 자동적으로 훈련되며 계속적으로 진화• 검색뿐 아니라 모든 소프트웨어의 공통 지능 역할을 함

Page 5: 황승원 포항공대 교수

연구 내용 요약 : Data(-driven) Intelligence

• 제품사례 : Microsoft Spartan/Cortana, Wearable device 구글 지식그래프

Page 6: 황승원 포항공대 교수

연구협력 분야에서의 협업• 지식 그래프 구축• 지식 번역 ( 자연어그룹 협업 , 사례 #1)

ACL, EMNLP, ACM TOIS, IEEE TKDE 등 저명 학회 및 저널 게재 • 지식 확장 ( 데이터베이스그룹 협업 , 사례 #2)

ICDE, VLDB, VLDB Journal 등 저명 학회 및 저널 게재

• 플랫폼으로서의 검색• 성능 예측 및 선택적 가속화 ( 시스템그룹 협업 , 사례 #3)

Bing 검색엔진 적용 , SIGIR, WSDM 저명 학회 학술상

• 특이점• 학술교류 ( 토양 )– 다양한 그룹에의 노출 (3 그룹 , 10 명의 연구원과 협업 )• 공동 연구 프로젝트 ( 씨앗 ) 방문연구원 및 인턴쉽 프로그램을 통해 지속성과

영향력 증대

Page 7: 황승원 포항공대 교수

인재육성 분야에서의 협업

선발 과정 인턴 기간 인턴 이후

공동 연구를 진행하면서 연구자로서의 통합적 평가를 통해 인턴십 선발

지속적 멘토링 제공

인턴십이 끝나도 멘토링이 지속된다기간 중 공동 연구 진행 , 공동 멘토링을 통한 학생 역량 강화 기간 후 협력 지속을 통해 새로운 주제 발굴 , 장기적 선순환아시아 (6m): 5 명 , 레드몬드 (3m): 4 명 , 펠로우 : 2 명 , 3 PhDs

Page 8: 황승원 포항공대 교수

커리큘럼 분야에서의 협업• 인재육성 협업의 수혜범위를 전체로 확대• 교육환경에서 다루기 힘든 큰 코드를 교육에 활용 가능 • 윈도우 코드를 운영체제 강의에 활용• 윈도우 아키텍트의 강연 , 저서 등을 교육교재로 활용• 대학 간 교재개발 교류 및 공유

• Azure 사용을 통해 빅 데이터를 교육에 활용 가능• 대규모 소셜네트워크의 분석 가능• 병렬화를 통한 가속화 프로젝트

Page 9: 황승원 포항공대 교수

마이크로소프트연구소와의 협업의 특징 • 주제 선정의 자율성• 학술교류를 통해 다양한 분야의 전문가와 협업 지원 • 인턴쉽을 통한 학생 공동 멘토링 및 협력 지속 • 학교에서 얻기 힘든 규모의 데이터와 시스템 사용 기회• 저명 학회 등 학문적 수월성 독려• 연구 결과를 제품화 하는 경험

Page 10: 황승원 포항공대 교수

연구 내용 상세 소개

Page 11: 황승원 포항공대 교수

사례 #1 지식 확장Microsoft 는 유명한 개체이므로 지식이 잘 구축되어있지만…

어려운 자연어 문제

Page 12: 황승원 포항공대 교수

사례 #2 지식 번역

• 자동번역을 어색하게 만드는 주범 , 자연어분야 오래된 골치거리

• 微软 [weiruan] 은 mary 와 달리 발음상 유사성 없음

Page 13: 황승원 포항공대 교수

두 문제는 사실상 동일한 문제이다

#1 #2

Page 14: 황승원 포항공대 교수

부트스트래핑 기법

• 1 단계 : Mary 와 같이 확실한 번역쌍으로 초기화

• 2 단계 : Microsoft 의 경우 관련 개체들의 번역쌍 점수를 전파

• 3 단계 : 2 단계를 더 이상 변화가 없을때까지 반복함

Rij

Rij

Page 15: 황승원 포항공대 교수

번역과 확장 모두에서 제품의 성능을 능가

• 기존 제품은 발음유사도가 크거나 , 기번역쌍이 존재하는 잘 알려진 개체에 대해서만 좋은 성능을 보임

• 부트스트래핑 기법을 통해 잘 알려진 개체의 높은 정확도를 덜 알려진 개체에 전파하여 비슷한 수준으로 끌어올림

기존 제품 새로운 방법0

10

20

30

40

50

60

70

80

잘 알려진 개체덜 알려진 개체

Page 16: 황승원 포항공대 교수

사례 #3 플랫폼으로서의 지능

• 다양한 소프트웨어에서 끊임없이 검색이 일어남• 검색어의 복잡도와 관계없이 고르게 즉각적인 결과 필요

“Mi-crosoft”

Long

Short

비용예측 자원관리자

Prediction model

Page 17: 황승원 포항공대 교수

데이터 지능 활용

•검색어 중요도 (idf) 및 점수 분포 (min, max, var, ..)를 근거로 유추

Inverted index for “Microsoft”

Processing Not evaluated

Doc 1 Doc 2 Doc 3 ……. Doc N-2 Doc N-1 Doc N

Docs sorted by static rankHighest LowestWeb documents

……. …….

Page 18: 황승원 포항공대 교수

•검색어 외의 복잡도 요소를 모델링하고 예측함

검색엔진 기능 모델링

<Fields related to query execution plan>rank=BM25Fenablefresh=1 partialmatch=1language=en location=us ….

<Fields related to search keywords>Redmond (MS or Microsoft)

Page 19: 황승원 포항공대 교수

Bing 제품화 : 50% 효율향상

50 100 150 200 250 300 350 400 450 500 550 600 650 700 750 800 850 900 95050

100

150

200

Sequential Degree=3

Predictive

Query Arrival Rate (QPS)

Resp

onse

Tim

e (m

s)

50% throughput increase

Page 20: 황승원 포항공대 교수

향후 협업 계획 및 발전 방향• IoT 검색 플랫폼• 지식의 생성 및 질의가 위치를 가진 기기에서 이루어짐• 질의어에 시공간의 의미가 더해질때 , 검색 성능 최적화 , 예측 , 및 가속을 위한

연구협업 진행 중

Page 21: 황승원 포항공대 교수

Q&A