25
상무이사 인공지능 사업화를 위한 데이터 과학 추진전략

인공지능사업화를위한 데이터과학추진전략 · 학습 sw 개발 모델 연구 데이터 ... 대화학습 선호추천 사용자모델 추론 지식관리매니저 심층질의응답엔진

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

강 정 우 상무이사

인공지능 사업화를 위한

데이터 과학 추진전략

2009 ~ 2014 2013 ~ 2017

빅데이터 기술 발전 단계

2016 ~ 2020

Smart Level 1Format and Schema

기계 가독성 데이터▶ Automated

▶ Cost Reduction

Smart Level 2Pattern with Volume

기계학습가능데이터▶ Predictable

▶ Proactive Service

Smart Level 3Context in Network

의미이해 가능 데이터▶ Reasonable

▶ Smart Behavior

빅데이터에서 스마트 데이터로

2

인공지능

기계학습

딥러닝

3

기호적접근방법(명시적지식, 연역추론)

지식그래프/온톨로지

비기호적접근방법(암묵적지식, 귀납적추론) 인공신경망/딥러닝

★인공지능의 미래

X

4

데이터 규모

연산 비용

2000 2005 2010 2015 2020 2025 20301980 1985 1990 1995

매뉴얼모델링

기계학습

심층 신경망(딥러닝)

0

2

4

6

8

10

12

14

90% 95% 99%

데이터품질과 DNN 성능(CNN Classification)

Errors(%)

DataAccuracy

0

2

4

6

8

10

12

14

N 2N 4N

데이터크기와 DNN 성능(CNN Classification)

Errors(%)

Volume

5

학습데이터의 크기, 품질

6

소프트웨어

컴퓨터공학

수 학

통계학

도메인및

절차지식

기계

학습

SW

개발

모델

연구

데이터

사이언스

데이터 분석에서 데이터 과학으로

7

원시데이터수집 / 분석

원시데이터정제 / 필터링

기계학습용데이터준비

기계학습,모델최적화

모델최적화,패턴추출

지능시스템품질평가

분석결과시각화/평가

노이즈포함원시데이터

데이터분석,모델선정

도메인과문제의이해

데이터 과학의 표준 절차

8

데이터 큐레이션 6단계

이미지, 음성, 텍스트, 센서, 웹, 소셜 데이터 등

원시 데이터 수집/구축과 기본 메타데이터 생성

데이터의 안전한 저장과 이질적 데이터의

통합, 중복제거, 데이터 셋 버전 관리

데이터 정제, 오류/이상 데이터 식별,

분석, 학습을 위한 데이터 변환

데이터 집계/통계 분석,

데이터 어노테이션, 학습준비

학습/분석 알고리즘

선정과 실험, 최적화

기계학습

품질 평가

수집/구축

저장관리/통합

정제/변환

학습/분석 준비

학습/분석 최적화

품질 평가, 검증

9

현대자동차 삼성전자 국방부ETRI KT 솔트룩스

웹/소셜 데이터 수집, 정제음성 인식/합성 데이터 구축

수천 개의 웹/소셜 데이터 소스로부터 하루수백만 데이터 수집, 추출과 실시간 분석

20개국 이상의 다국어와 지역별, 성별나이별 음성 인식과 합성을 위한 데이터 구축

삼성전자 언론진흥재단 신한은행

심층 자연어처리, 의미이해를 위한 대규모고품질, 다국어 코퍼스(말뭉치) 구축

지식 그래프/베이스 구축

NH은행 우리은행 삼성전자

인공지능 고객 상담시스템, 심층 질의응답,NLU와 의미분석을 위한 지식 베이스 구축

다국어 자동번역 코퍼스 구축

IBM LG전자 김앤장

번역메모리, NMT 기반의 자동번역 엔진구현을 위한 다국어 병렬 코퍼스 구축

데이터 큐레이션 사례

영상/이미지 데이터 어노테이션

부산시 솔트룩스 관광공사

DNN기반 이미지, 영상 인식 서비스와자율자동차 구현을 위한 고품질 어노테이션

자연어처리 코퍼스 구축

10

사람과 기계의 협력, Human-in-the-Loop

1. 학습용 데이터 셋 2. 기계 학습 3. 품질(신뢰도) 평가

5. 실용 AI 시스템▪ 문제와 목표 이해 ▪ 시스템 제약조건

▪ 기계학습 전문지식 ▪ 도메인 전문지식 4. 휴먼 큐레이션

Human-in-the-loop+

(데이터 추가 수정/정제) (모델 최적화)

11

솔트룩스의 이중나선 방법론

수집/구축 변환/저장 연계/검색 분석/지능화 발견/예측 시각화/결정 평가/피드백

• 데이터 소스 관리

• 데이터 수집

• 메타 데이터 추출

• 분석용 데이터 구축

• 텍스트/이미지 래핑/변환

• 가비지 제거

• 자동 분류

• 주제 추출

• 자연어처리

• 저장과 색인

• 데이터 연계

• 연계 데이터 검증

• 분석 대상 데이터검색

• 분석 위한 데이터전처리

• 통계, 연관, 시계열, 네트워크 분석

• 분석/예측 모델최적화

• 기계학습, 딥러닝수행

• 상황 조기 감지, 시계열, 공간 패턴발견

• 의외성 발견

• 분석/발견 결과의해석

• 신뢰성 검증

• 분석결과 정리와시각화

• 대안 추천과 근거제시

• 위험 분석

• 의사결정과 실행지원

• 분석 및 의사결정효과/영향력 평가

• 고객 및 전문가 피드백

• 분석 개안선 도출

• 웹 크롤러

• 빅데이터 수집/관리 엔진

• 언어자원 구축 도구

• 사전 정체/통합도구

• 형태소, 개체명, 구문, 의미역 분석

• SVM 등 자동 분류기

• 사건(이벤트) 및정보 추출

• 색인 시스템

• 의미기반 데이터매핑

• 시맨틱 검색

• 패싯 필터링

• 데이터 클러스터링

• ETL 및DBMS 도구들

• 통계분석 패키지(R 외)

• CRF, SVM, 베이지안 넷 외

• 감성/사회망분석, 추론

• 딥러닝 예측, 회귀모델

• 이슈감지(CEP), 랭킹 도구

• 통계분석 검증 도구

• 샘플링 정량,정성평가

• 근거검색, 연관검증 도구

• Rainbow, R 등의시각화, 대시보드

• 의사결정 지원시스템

• Deep QA

• 시나리오 수립 도구

• 실시간 소셜 피드백 수집, 분석

• 크라우드 소싱, SNS 분석

• 포커스 그룹 인터뷰 (델파이 외)

사람

• 수집 데이터 소스검토

• 수집 및 관리 정책수립

• 데이터 유용성 정성평가

• (전문가) 분석 데이터 구축

• NLP, 분류 위한사전, 학습 데이터구축

• 필터링 품질 검증, 사전/규칙 추가

• 저장/검색 시스템의 운용

• 검색주제, 필터링범위 선정

• 검색결과 평가와개선

• 데이터 연계 체계수립

• ETL 규칙 작성 및관리

• 분석 모델 최적화수행

• 기계학습, 딥러닝품질 개선

• 확대 연관 분석 대상 선정/적용

• 다양한 조건의 분석결과 비교

• 분석 결과 정량/정성 검증

• 분석 정확성, 재현성 확인

• 이슈/이벤트 패턴도출, 설정

• Middle-out 의외성 발견

• 시각화 목표, 개념설계

• 다양한 그래프 대시보드 구성

• 지식베이스 구축과 질의응답

• 추천품질 검증, 시나리오 구성

• 분석 결과 및 의사결정 피드백 분석

• 전문가/사용자 인터뷰 검증

• 프로젝트 보고서작성, 평가

• 시사점, 개산안 도출과 반영

12

프로세스, 도구 그리고 훈련된 사람

13

기업 데이터 지능화

문서중앙화/자동분류 (현대자동차) 정보허브/비정형분석 (포스코) 정보포털/군집 (삼성중공업)

신기술 센싱/예측 (삼성전자,KISTEP) 개인 맞춤 추천 (KT IPTV) 차세대 미디어 플랫폼 (KBS)

14

고객 데이터 지능화

실시간 고객목소리분석 (KT) 회사/상품 평판분석 (한화그룹) 글로벌 시장/경쟁자 분석 (현대자동차)

15

고객 데이터 지능화 (현대차 사례)

• 소셜 빅데이터 기반 차량 사용자 경험 분석: 내수, 북미,

중국 출시 예정 10개 차급 30 차종 빅데이터 약 100만 건

수집

• 빅데이터 기반 차급/지역별 소비자 담론 조사: 차량 내

이슈 기술 테마 3개에 대한 소셜 미디어 데이터 약 6.5만

건 수집(북미)

• 신차 반응 조사 및 당사 사양 경쟁력 분석: 6개 차급 18

차종(약 27만 건)에 대한 경쟁사 및 당사 판매차량 사양

경쟁력 분석

• 고객 니즈 분석 및 실시간 리스크 모니터링을 위한 멀티 채널

외부 데이터 수집

• 전세계 다양한 채널에 대한 On-Demand 데이터 수집

(고객사 보유 1,500개 사이트 + α), 커스텀 데이터

수집과 분석

• 멀티 채널 외부 데이터를 활용한 적극적 마켓 센싱으로

고객 만족도 향상 및 시장 경쟁력 강화

16

안보/국방 데이터 지능화

북한 정세분석 (통일부) 국방 복합체계분석 (국방부) 첩보 및 징후 분석 (ADD, 국방부)

17

국토/범죄 데이터 지능화

18

뉴스 데이터 지능화

대화매니저

대화 모델

NLU(자연어이해)

음성인식

텍스트/UI 입력

NLG(자연어생성)

음성합성

UX생성

챗봇의 구성 (규칙 기반)

19

서비스채널들

대화형 인공지능

지식베이스

대화학습

선호추천

사용자 모델

추론

심층 질의응답 엔진지식 관리 매니저

톡봇의 구성 (지식기반)

코어지식• 정답타입(X) = 직업

• 직업(Y) = X

• 고향(Y) = 경상도

• 출신대(Y) = 경희대

• 경험(Y) = 감옥수감

• 출신대(Y.아내) = 출신대(Y)

• 직업(Y.아내) = 음악가

• 직업(Y.동료) = 인권변호사

• 나이(Y) = 환갑 + 4

경상도가 고향인 이 사람은 경희대 재학

중 감옥에 수감된 바 있으며, 같은 대학

출신의 음악가와 결혼 후 부산에서 후에

정치인이 된 유명 인권 변호사와 같은

직장에서 근무했다. 4년전 환갑이었던

이사람의 현 직업은 무엇인가?

NLU

단순탐색(그래프매칭)

????

복합추론

시맨틱추론

공간추론

규칙추론

불확실확률추론

문재인(90%)

박영선(17%)

박근혜(5%)

노무현

김정숙문재인아내

대통령 직업

직업

대한민국

수반

경희대

졸업

근무

친구

법무법인 부산

고향

성악

숙명여고

졸업

직업

인권변호

서대문구치소

졸업

1953.1.24

생일거제도

업무

수감

근무

파편화된 지식의

학습과 증강

20

심층 질의응답 Deep QA

정체성 질문과 백과지식 학습 / QA

지도, 이미지, 산술, 날씨 플러그

복잡한 질문의 이해와 강력한 추론

전문 지식 학습을 통한 도메인 확

솔트룩스 아담 어시스턴트

22

1. 지식학습 단계

상담 로그, 매뉴얼 등 각종

데이터 수집/통합, NLP와

딥러닝 기반 언어/지식 학습

2. 심층QA 단계

지식베이스 구축과 추론,

지식/검색/생성 기반의

심층 QA 엔진들을 앙상블

3. 대화모델링 단계

심층 대화 모델링과 의도

분석기를 최적화, 앙상블

QA 시스템과 통합/검증

4. 상담서비스 단계

스마트폰, 전화 등의 다양한

채널 통한 AI 자동 상담, 미처

상담에 대한 인간 전문가 연결

23

솔트룩스 아담 톡봇

“컴퓨터는놀랍게빠르고, 정확하지만대단히멍청하다.

사람은놀랍게느리고, 부정확하지만대단히똑똑하다.

이둘이힘을합치면상상할수없는힘을가지게된다.”

-알버트아인슈타인 -

솔트룩스는 사람과 사람, 사람과 기계,

기계와 기계가 지식소통 하는 세상을 꿈꿉니다.

We Communicate Knowledgefor the People