23
융융융융융융 융융융 융융 융융융융융 융융 융융융 선선선선선선 SRC 1

Src10대 과제 - 1. 총괄파트

  • Upload
    srcdsc

  • View
    253

  • Download
    1

Embed Size (px)

Citation preview

융합으로서의 데이터 과학대표과제와 업적

이영조

선도연구센터 SRC

1

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

2

총괄

목차

I

II

III

센터 소개

과제 도출

과제의 선도성

IV 과제의 융합성

V 업적

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

3

총괄

센터 소개 – 연구 인력

• 총 12 명의 통계학 , 컴퓨터 공학 , 산업 공학 및 의학 전공 분야의 핵심 교수 참여• 다양한 전문 분야의 4 명의 협력교수 , 5 명의 연구교수 , 3 명의 박사후 연구원 참여

제 1 총괄과제 핵심교수

이영조 교수서울대학교 통계학과

임요한 교수서울대학교 통계학과

이재용 교수서울대학교 통계학과

오희석 교수서울대학교 통계학과

신동완 교수이화여자대학교 통계학과

제 2 총괄과제 핵심교수

이상구 교수서울대학교 컴퓨터공학부

서진욱 교수서울대학교 컴퓨터공학부

제 3 총괄과제 핵심교수

박용태 교수서울대학교 산업공학과

조성준 교수서울대학교 산업공학과

박종헌 교수서울대학교 산업공학과

김유경 교수서울대학교 의과대학 핵의학교실

유경상 교수서울대학교 의과대학임상약리학교실

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

4

총괄

센터 소개 – 홈페이지

• http://srcdsc.snu.ac.kr/

• 센터 소개 , 구성원 , 공동 연구 활동 , 성과 , 보도자료 등 소개

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

5

데이터과학의다학제적

학문 체계 정립

데이터 과학의융합적

연구 모형 개발

세계를 선도하는데이터 과학 연구 및 브레인 풀 구축

데이터 활용의선도적 응용 연구

총괄

연구 주제의선도성

기존의 데이터를 그대로 분석하는 수동적 접근이 아닌 요구하는 데이터를 탐색하여 구축하고 지식을 창출하는 능동적 / 혁신적 접근

국내 최고의 인력들이 연구한 최신 이론 및 기법을 바탕으로 데이터와 지식 생성을 위한 과학적 연구 방법 제시

연구 방법 / 인력의선도성

연구성과의선도성

다양한 곳에서 생성된 복잡한 데이터로부터 데이터의 특성을 올바르게 반영한 미래 지향적 지식을 창출

센터 소개 - 연구 목표

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

6

총괄

과제 도출 – 과학 혁명의 패러다임

새로운 자연적 현상

새로운 사회적 문제

새로운 경제적 과제

수수께끼 (Enigma)

새로운 패러다임 : 문제해결과정

정상과학 (Normal science)

새로운 이론기반 새로운 기술기반

과학혁명의 과정

Thomas Kuhn, The Structure of Scientific Revolutions, 1962

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

7

총괄

과제 도출 – 과학 혁명의 패러다임

새로운 자연적 현상

새로운 사회적 문제

새로운 경제적 과제

수수께끼 (Enigma)

새로운 패러다임 : 문제해결과정

정상과학 (Normal science)

새로운 이론기반 새로운 기술기반

과학혁명의 과정

Thomas Kuhn, The Structure of Scientific Revolutions, 1962

데이터 과학은 새롭게 출현하는 사회적 , 경제적 , 자연적 이슈들에 대응하여 ,

방대하고 복잡한 데이터를 다학제적 융합 (muti-disciplinary convergence) 과

시스템적 접근 (systems approach) 을 반영하여 창의적 지식 (creative knowledge) 으로 전환하는

활동으로 정의함

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

8

총괄

과제 도출 – 과제 영역 도출

새로운 자연적 현상

새로운 사회적 문제

새로운 경제적 과제

수수께끼 (Enigma)

새로운 패러다임 : 문제해결과정

정상과학 (Normal science)

새로운 이론기반 새로운 기술기반

과제 도출 영역 I – 이슈 대응 과제

과제 도출 영역 III – 기술 기반 과제

과제 도출 영역 II – 이론 기반 과제

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

9

총괄

과제 도출 – 대표과제 도출

이슈 대응 과제

기술 기반 과제

이론 기반 과제

단계 1

단계 2

단계 3

새로운 과학 패러다임의 출현을 견인하는 사회적 / 경제적 / 자연적 이슈

새로운 과학 패러다임의 이슈들에 대응하는 기술 기반의 구축

새로운 과학 패러다임의 이슈들에 대응하는 이론 기반의 구축

사회적 문제

경제적 과제

자연적 현상

생명의료 (Bio-Medical)

기술 관리 (Techno-Managerial)

기후변화 (climatological)

통계분석 Tool

통합 Database

시각화 Algorithm

한국형 통계패키지 개발

이질적 데이터 통합 구축

시각화 패키지 개발

불확실성

고차원성

지식공간

불확실성 측도 이론 개발

분산처리 기법 이론 개발

지식공간 확장 이론 개발

이슈 과제

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

10

총괄

과제 도출 – 연구과제의 내용

과제 기반에 따라 도출된 영역에 맞춰 새로운 지식을 창출하고 , 분석 이론을 구체화 하고 , 이론 체계를 확립할 대표과제를 수행

과제기반 과제영역 과제주제이론 기반 불확실성 측도 불확실성 측도 연구 h-likelihood 측도 기법

지식공간 확장 통계모형 지식공간의 확장 – HGLM 확장

미분방정식에 기반한 동적 모형 연구

기술 기반 패키지 SRC-STAT 국산 통계 패키지 개발

플랫폼 이질적 데이터 통합 및 분석 기반 구축

구조화 희소특징학습의 분산처리와 응용

이슈 기반 생명의료 영상 데이터로부터의 지식발견 기법

전자의무기록 정보를 이용한 질병 극복

의료정보의 시각적 분석

기술관리 신성장 동력 기술의 발굴

생산성 혁신을 위한 순간 최적화 엔진

빅데이터 기반 비즈니스 인텔리전스

기후변화 미래형 기후예측 시스템

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

11

총괄

과제의 선도성 – 1 총괄

이론 : 데이터 모델링과 이론 연구

( 모델링 ) 기존에 다루지 못하는 복잡한 데이터를 모형화 하는데 크게 기여( 이론 ) 최근 등장하는 다양한 형태의 데이터를 분석하는 이론적 밑거름을 제공

연구 방법 / 인력의 선도성 연구 성과의 선도성연구 주제의 선도성

수요가 크게 증가하고 있는 고차원 / 시공간 데이터 처리 기법 개발

국내의 기술만을 바탕으로 만든 차세대 국산 통계 패키지 (SRC-Stat) 개발

고차원 / 시공간 데이터 처리를 위한 새로운 방법을 제안하고 , 최신의 이론을 도입하여 검증

기존의 이론을 개선한 새로운 이론 제공

분석이 어려운 고차원 / 시공간 데이터에 대한 효과적인 분석 시도

최신의 이론을 토대로 데이터 분석 알고리즘의 효율성 향상

LM GLMGLM

MJGLM

Causality

MDHGLM

DHGLM HGLM

SEM Factor Model∩ ∩ ∩

∩ ∩

+

+

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

12

총괄

과제의 선도성 – 2 총괄

연구 방법 / 인력의 선도성 연구 성과의 선도성연구 주제의 선도성

대용량의 이질적 데이터를 통합하여 분석이 용이한 융합적 데이터 구축

복잡도가 높은 데이터를 시각화하여 지식 창출을 위한 근거 자료 제공

그래프와 같은 최적화된 이론을 데이터 분야에 적용하여 데이터를 통합

기계적 제시가 아닌 요구 사항에 맞는 시각화 방법과 전처리 과정 제시

요구되는 모든 목적에 부합하는 데이터 구축 및 지식 창출 기법 제시

모든 데이터에 통합적으로 적용할 수 있는 시각화 기법을 통해 지식 창출

기술 : 데이터 테크놀로지

( 데이터 기술 ) 다양한 유형의 대용량 데이터 간 유연한 접근 및 통합 방법 개발( 시각화 기술 ) 통계학적 분석 기술과 시각화 기술을 통합하는 데이터과학적 접근 방법 개발

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

13

총괄

과제의 선도성 – 3 총괄

연구 방법 / 인력의 선도성 연구 성과의 선도성연구 주제의 선도성

창의적 / 체계적 알고리즘을 바탕으로 한 사회과학 및 공학적 지식 및 전략 창출

데이터 축적을 바탕으로 미래 질병 및 의료에 대한 예측 결과 창출

지식가치 사슬을 통합함으로써 기술 및 산업에 대한 다각적 지식 창출

다학제간 연계를 바탕으로 의료 데이터로부터 미래 지향 지식 창출

접근 및 분석이 어려운 기술 및 사회 데이터를 통합하고 활용하여 , 지식 창출의 영역의 확장

이전 의료 데이터로부터 숨겨진 지식을 찾고 이를 통해 새로운 지식 생성

3 총괄

산업공학

의학

이론 : 지식발견 및 생성

( 사회기술 ) 기술 - 제조 - 서비스로 이루어지는 산업 사이클에 맞추어 혁신적 시스템 구축 ( 의학 ) 복합 의료 정보 데이터의 체계적 분류 및 재구조화를 통한 효과적인 활용 및 분석

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

14

총괄

과제의 융합성 – 기술 이론 이슈의 융합

Data Mining

ExplorativeTechnology Applied

Statistics

이슈

Data Science

기술 ( 컴퓨터공

학 )

이론 ( 통계학 )

이슈 ( 의학 ,

산업공학 )

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

15

총괄

과제의 융합성 - 융합 과학으로서의 데이터 과학

융합 과학으로서의 데이터 과학 가치KnowledgeCreation

확장성 Modeling& Analysis

속도 Huge DataVarious Data

데이터 기반 새로운 지식 탐색 및 창출 의료 , 기술 , 기후 분야 : 예측력이

경쟁력

대용량의 다양한 데이터를 EMR

등으로 체계적으로 관리 하둡 / 맵리듀스 등을 이용 실시간적 ( 속도 ) 으로 제공함

대용량의 데이터를 분석하는 두뇌 통계처리분석 / 모델링 / 예측 , 새로운 국산 패키지 개발 확장성이 매우 중요

이슈 : 생명의료 , 기술관리 , 기후변화

기술 : 대용량 , 다차원 , 성능

이론 : 모형화 , 분석

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

16

총괄

과제의 융합성 – 원천기술의 개발과 응용

데이터 구축 / 처리 방법 및 기술적 지원 ( 소프트웨어 )

제공

지식창출을 위한 데이터와 근거 자료 제공

데이터 과학( 원천기술 개발 )

데이터 처리 및 분석에 대한 원천 기술 제공 컴퓨터 과학 , 산업공학 , 의학 분야의 요구에 맞는

다양한 형태의 데이터 처리 기법 및 노하우 제공

통계학 (1 총괄 ) 컴퓨터 과학 (2 총괄 )

산업공학 , 의학 분야의 요구에 맞는 데이터 구축 및 통합에 대한 원천 기술 제공

데이터 생성 및 지식 창출을 위한 시각화 기법 제공

컴퓨터 과학 (2 총괄 )원천기술 결합

지식 창출( 원천기술 응용 )

산업공학 (3 총괄 ) 원천 기술들을 바탕으로 사회과학 및 공학의 실증

사례로부터 지식을 창출 제조업 , 기술경영 등 다양한 분야로부터 얻을 수

있는 데이터를 가공하여 혁신적 지식을 창출

산업공학 (3 총괄 ) 의학 (3 총괄 ) 원천 기술들을 바탕으로 생명과학 및 의학의 실증

사례로부터 지식을 창출 바이오 / 의학 분야에서 얻을 수 있는 고차원

데이터와 복합 정보 데이터를 가공하여 혁신적 지식을 창출

의학 (3 총괄 )지식 결합

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

17

총괄

과제의 융합성 - 연구의 융합형 추진 시스템

새로운 과학적 , 사회적 , 경제적 이슈에 대응하기 위한 다학제적 융합과 시스템 접근을 통해 연구를 추진

이슈 기반 – 생명의료

이슈 기반 – 기술관리

이슈 기반 – 기후변화

이론 기반

기술 기반통계적 방법론을 이용한 기후예측

향상

수치 및 텍스트 기반 복합의료 정보를 이용한

질병 극복

뇌졸중 연구 혁신을 위한 시각적 분석

시스템

신성장 동력 기술의 발굴

제조업 생산성 혁신

정보 서비스 혁신 시스템

SRC-STAT 국산 통계 패키지

개발

이질적 데이터 통합 분석을 위한

기반 구축

불확실성 측도 연구

통계 모형의 지식공간 확장

구조화 희소특징학습의 분산처리와 응용

미분방정식에 기반한 동적 모형

연구

영상 데이터를 이용한 지식 발견

기법

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

18

총괄

업적 – 연구성과

• 4 차년도 기준 총 연구실적은 논문 125 편으로 목표치인 104 편을 121% 정도로 초과 달성했으며 ,

논문 실적의 달성도와 공동 연구 논문의 수는 시간이 지날수록 꾸준히 증가

1 차년도 2 차년도 3 차년도 4 차년도 ( 진행중 )

0

13

25

38

50

43.80%

104.00%

181.80%

187.50%

SCI 급 비 SCI 급 달성도

1 차년도 2 차년도 3 차년도 4 차년도 ( 진행중 )

0

4

7

11

14

0.00%7.14%

12.50%

28.89%

공동연구논문 공동연구비율

공동 연구논문 성과 초기에는 연구 실적이 목표치에 미달하였으나 , 이후 실적이 꾸준히 증가하여 , 3,4 차년도에는 목표의 180% 이상의 연구 실적 달성

초기에는 공동연구가 진행되지 않았으나 , 이후 꾸준히 공동연구 논문의 수와 비중이 증가

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

19

총괄

업적 – 인력 양성

• 4 차년도 기준 총 양성한 인력은 총 119 명 ( 석사 73 명 , 박사 46 명 ) 으로 목표치인 90 명을 119% 로 초과 달성했으며 , 매 년 목표 인원 이상의 인력을 배출

1 차년도 2 차년도 3 차년도 4 차년도 ( 진행중 )

0

6

12

18

24

30

23

20

23

>7

19

13

7 >7

석사 박사

1 차년도 2 차년도 3 차년도 4 차년도 ( 진행중 )

0.00%

42.50%

85.00%

127.50%

170.00%

212.50%

155.56%

132.00%

166.67%

>70.00%

달성도

• 4 차년도의 2015 년 8 월 졸업 예정자 자료는 반영되지 않음

인력 양성 성과 달성도인력 양성 성과

모든 연도 별로 석사와 박사 졸업생을 꾸준하게 배출하고 있으며 , 석사는 매년 20 명 이상 배출

3 차년도까지 목표치의 150% 에 가까운 인력 양성 성과를 냈으며 , 4 차년도 전반기 실적 또한 목표의 50% 이상 달성

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

20

업적 – 국산 통계 패키지 SRC-STAT

총괄

• 순수 국내 기술을 바탕으로 데이터 처리에 대한 다양한 분야의 요구를 모두 만족

자료 시각화에 강점

2014 년 미래창조과학부 주관 R&D 성과확산대전 출품

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

21

업적 – 특허

총괄

제조 / 서비스 시스템에 적용할 수 있는 데이터 기반의 원천 기술 창출

데이터 기반의 적용 가능한 새로운 시스템 관련 원천 지식 창출

페트리넷과 발사 추천기에 기반한 최적화 시스템 및 구현 방법

유사도 특성을 이용한 메타휴리스틱 알고리즘에 기반한 시스템 및 그 제어 방법

계획 검색 및 수정 기법을 이용한 고속 자원 할당 계획 방법

키스트로크 다이나믹스 패턴 정보에 기초한 사용자 인증 방법 및 장치

메신저 서비스 수행 시 정당 사용자 여부 판단을 위한 시스템

• 데이터과학과 지식 창출을 위한 여러 형태의 원천 기술을 확보하여 총 5건의 특허 확보

원천 기술 및 지식 창출 관련 특허

기술 창출

지식 창출

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

22

업적 – 유상기술이전

총괄

• 다단계일반화선형혼합모형 (DHGLM) 알고리즘 기술을 주식회사 에스이랩에 유상기술이전

GLM JGLM HGLM DHGLM MHGLM ∙∙∙LM

일반화 선형 모형 (GLM) 의 확장 단계

발명 신고서 발명 신고서기술이전 계약서 기술이전 공문

총괄 | 융합으로서의 데이터 과학 대표과제와 업적

23

데이터 확보 데이터베이스

탐색데이터

데이터확장

질환정보

약물정보

실험실검사

당뇨환자데이터베이

전자의무기록 (EMR)

• 전자의무기록 (Electronic Medical Records, EMR) 에 축적되어 있는 당뇨환자 자료를 데이터베이스화 하여 , 다각도적 분석에 용이하게 활용할 수 있도록 함 .

업적 – 의료데이터베이스 (EMR) 당뇨 자료 구축

총괄

데이터추출

변수추가

Schema

데이터베이스의 구조 (schema) 데이터의 가시화 및 활용 예

• 성별• 연령• 체중 / 키• 혈압• 질환명• 처방 일자• 처방 약물• 용법 /

용량• 검사내역• 이상반응• 경과• …

• 연도별 처방 경향성 확인• 약물별 처방 빈도 확인• 처방에 따른 검사 수치 변화 확인