48
Insight Korea Big Data Solution: Insight Deep MininG Service

Insight Korea Big Data Solution: Insight Deep MininG Servicenew.insight-korea.com/download/Insight_Korea_Deep_… ·  · 2017-02-10Web SNS Client 의사결정활용-5 ... Data &

Embed Size (px)

Citation preview

Insight Korea Big Data Solution:

Insight Deep MininG Service

Insight Korea Big Data Solution :

Insight Deep MininG Solution System

- 3 -

Insight Korea Big Data Solution System

Deep Learning 기반Big Data Solution

Platform & SI SystemPartner

Marketing Research & Consulting

Deep Learning기반Mining(STT, TTT)

Technology Partner

• 한국전자통신연구원(ETRI)의 뛰어난텍스트마이닝 특허 기술 적용(국내특허 10건, 국제특허 6건)

• 한국전자통신연구원(ETRI)의 뛰어난음성인식 특허 기술 적용(국내특허 11건, 국제특허 6건)

- 4 -

비정형데이터를 정형데이터와 결합하여 빅데이터 인프라를 통해 사용자 요구에 맞는 서비스 결과를 제공합니다.

Insight Korea Big Data Solution System Framework

Customer

STT(음성인식)

TA(텍스트분석)

ARS녹취서버

빅데이터 분석 인프라

Hadoop

Impala/Spark

Machine Learning

Python RSolr

Analysis Model

STT/TA 결과 소셜빅데이터

정형데이터

Crawling(정보수집)

저장

수집

설정

Analysis(텍스트분석)

Issue/Risk Detect

Text Mining

NLP

Insight 도출(데이터가공)

데이터 추출

키워드 정제

목적/관점

시각화

데이터 추출

키워드 기준

목적/관점

User-DrivenAnalysis

(데이터분석)

사용자 UI

사용자주도분석

분석가 의사결정자

Dashboard

전화상담

음성합성

대화생성

대화관리

Virtual Agent(가상상담원)

Batch

Real-time

NLP

Text Mining

Detection

Deep Neural Network

음성인식

음성학습

Legacy

게시판상담 채팅상담 이메일상담

고객DB 상품DB 거래DB ∙∙∙

Call

e-mail

Web

SNS

Client 의사결정 활용

- 5 -

Insight Korea Big Data Analysis Process

활용분석수집 / 전처리원천 Data

내부 Data

외부 Data

트위터, 페이스북블로그, 뉴스, 인스타그램

Contact Center, A/S Center메일, 제품정보, 고객리뷰 등

Pre-Processing

1) Taxonomy

2) Speech to Text

Web Crawling

Text Mining (Unstructured)

3) 자연어 처리(NLU)

4) Keyword 추출

5) Classification

6) 감성 분석

(긍정/부정, 선호도)

Data Mining (structured)

7) Statistics

8) Association

9) Risk Scoring

10) Predictive Analysis

Risk 대응

Marketing 활용

제공 방법

•위기감지•불만요인 분석•경영층 보고서•이슈 분석

•제품 개선•마케팅 효율화•SCM 운영 개선•신제품 개발•기업 이미지 개선

Dashboard Report

Text

- 6 -

프로젝트 과정

M1 M2 M3 M4

장비설치 Engineer 지원 System 구현 전략

속기사 전사 학습 기존 음성파일 텍스트 전환성능테스트

분석 목적 정의 탐지 결과 해석현업 인터뷰

Text data 수집사전구축

(TAXONOMY,HMD)자연어 처리 탐지

현황 파악 정형 Data Modeling 비정형 Data 포함 Modeling

1. Infra &Engineering

2. STT 학습

3. TA

4. Biz 분석

5. Modeling

Insight Korea Big Data Solution:

Insight Deep MininG Service 분야

- 8 -

산업별 Big Data 활용 분야?산

비즈니스 활용영역

빅데이터 기반광고

금융기관리스크 관리

헬스케어빅데이터

콜센터 효율화빅데이터 분석

소비재산업마케팅

IoT홈오토메이션

음성인식 자연어처리 감성분석 이미지분류 데이터마이닝 빅데이터 딥러닝 질의응답

Insight Deep MininG Service의 마케팅 활용 분야

- 10 -

Insight Deep MininG Services의 Marketing 활용 분야

트랜드 변화 요인과

트랜드 방향은?

• 고객들의 라이프스타일 변화는?

• 라이프스타일 변화에 따른 고객들의 니즈

변화와 추구하는 핵심 가치는 무엇인가?

• 트랜드 변화에 따라 새로이 부각되는 상품과

서비스는 무엇인가?

국내/해외 신상품 동향 및

향후 벤치마킹은?

• 해외/국내 신상품/서비스의 동향은?

• 신상품들의 핵심 경쟁 요인들은 무엇인가?

• 새로 도입 및 벤치마킹 할 수 있는 상품/서비스

아이디어는?

신상품의 초기 반응과

대응책은?

• 자사 신상품의 수용도 및 개선점은 무엇인가?

• 신상품의 고객은 누구이며 어떻게 포지셔닝

되고 있는가?

• 초기 신상품의 핵심 성장 요인과 장애 요인은?

• 초기 커뮤니케이션 효과는 어느 정도이고, 향후

확대 방향은 무엇인가?

- 11 -

Insight Deep MininG Services의 Marketing 활용 분야

기존 상품의 개선점 및

Innovation 방향은?

• 기존 상품에 대한 반응과 매출 증감 변화의

원인은 무엇인가?

• 향 후 확장 가능한 점들이나 Renovation 방향은

무엇인가?

경쟁 상품의 경쟁력 및

판매전략은?

• 경쟁 상품의 경쟁력은? 강점과 약점은 무엇인가?

• 경쟁 상품들의 온라인 채널에서의 판매전략은

무엇인가?

• 가장 매출 효과가 있는 온라인 유통채널은?

소재나 제품 요소들은 어떻게

소비자 효익으로 전달해야 하는가?

• 건강 식품이나 각종 제품 소재 중심인 제품들의

고객 가치를 전달하기 위한 소비자 언어는

무엇이고 어떻게 communication 해야 하나?

• PR, Campaign을 위한 소비자 핵심 언어는

무엇인가?

- 12 -

Insight Deep MininG Services의 Marketing 활용 분야

광고/홍보 효과는?

• 광고 상품의 효과는 어느 정도이고 전달되는

메시지는 무엇인가?

• 광고 상품의 광고 모델은 효과적인가? 더 적합한

광고 모델은 없는가?

• 광고로 인해 상품의 포지셔닝 변화는 있는가?

온라인 몰, 홈쇼핑, 소셜 커머스 등

유통에서의 성장 가능한 품목은?

• 어떤 세부 품목들이 온라인 유통 채널에서 성장

또는 감소하며 어떤 품목을 집중해서 sales 해야

하는가?

• 고객들이 선호는 품목 추세는? 향후 성장이나

쇠퇴가 예측되는 품목은?

상담의 업무 효율화는

어떻게 할 수 있는가?

• 상담사 교육은 누구를 어떻게 시켜야 하고 각

상담사의 역량과 성과는 어느 정도인가?

• 상담사들이 고객 유형별로 어떻게 응대해야

하는가?

• 상담사들의 전문성을 키워 고객 만족도를

높이는 방법은 무엇인가?

- 13 -

Insight Deep MininG Services의 Marketing 활용 분야

• 고객 유형별 대처를 통해 고객

설득력을 높여 매출을 증대하는

방법은 무엇인가?

• TM들의 불완전 판매원인은

무엇이고 무엇을 개선해야 하는가?

• 전문 상담원의 코칭 및 시너지

기능 강화를 시킬 수 있는 관리

시스템은 없는가?

• 모든 기록을 녹취하고 즉각

분류해서 생산성 향상을 위해

활용할 수 없는가?

• 대화 중에 필요한 정보나 주의를

기해야 할 요인들을 감지하고

대비하게 할 수 있는가?

• 상담인력 감축을 통해 비용을 줄여

수익성을 높이는 방법은 무엇인가?

• 고객별 이탈 가능성 실시간으로

어느 정도이고 대처 최적 방안은?

• 고객별 불만 정도 예측과 불만의

근본 원인은 무엇이고 해결책은?

• 고객들의 불만과 고객들의 수익성

기여 정도에 영향력과 그 에 따른

고객들을 대처해야 하는 정도는?

• 다양한 고객 접점에서 접수되는

모든 정보들을 하나로 통합해서

일괄 관리 및 해당 부서에서

대응할 수 있게 하는 시스템은

없는가?

TM의 업무 효율화와

매출 증대를 위한 방법은?

Q/A, TM, A/S의

생산성을 높이는 방안은?

고객들의 불만 원인을

감지하고 즉각

대처할 수 있는방안은?

고객들의 요구와 소리를

통합해서 총괄 관리는

어떻게 해야 하나?

- 14 -

Deep Learning 기반 Data Minging을 통한 활용 분야

Fraud Detection, Customer Retention, Pricing

소비 Trend/사용패턴 추정

환자 초기 진단 Early Detection of Impending Physiological Disorder (EDIP)

거시환경 변화에 따른 총 수요시장 변화 추정

Sales Promotion 고객군 파악

개별 고객맞춤 상품/서비스 추천

이탈/유입 고객 예측 및 비율 추정

가격 시뮬레이션/Dynamic Pricing

Optimal Media Planning

상품/서비스 가입/구입율 추정

Insight Deep MininG Service를활용한 통합 VOC Management 서비스

- 16 -

소셜 데이터 포함,기업 내·외부 VOC

통합관리

Integrated VOC Management

과거 대부분의 기업들은 수집된 VOC 데이터를 제대로 활용하지 못하고 VOC 해소 여부만을

모니터링 하였으나 이제는 Big data 분석, 가공 및 활용 방안을 도입하여 진정으로 고객이 원하는 것이 무엇인지 확인할 수

있게 됨

VOC 관리체계에 Big data가 활용된 배경

통합 VOC 관리의 의미 Ⅰ

콜센터 중심 VOC 관리 Social Data 통합VOC

콜센터VOC

커뮤니티Blog

SNS

홈페이지Q&A

Portal검색

콜센터VOC

커뮤니티Blog

SNS

홈페이지Q&A

Portal검색

콜센터VOC

커뮤니티Blog

SNS

홈페이지Q&A

Portal검색

통합 VOC란 Call Center 등 경로로 유입된 고객의 직접적 Voice 뿐만 아니라

Social Network상에서 교환되고 있는 간접적 Voice까지

‘통합’ 관리하는 모델을 말합니다.

- 17 -

Integrated VOC Management

통합 VOC 관리의 성공의 열쇠는 Technology 측면의 접근만이 아닌 정보를 어디에 활용할 수 있는지 명확하게 정의하는 것

통합 VOC 관리의 성공 요소

• Insight추출

• 관련부서 활용

통합 VOC 관리의 의미 Ⅱ

‘통합’관리의 두 번째 측면은 Insight 추출 후 관련부서로의 피드백 프로세스까지

포함한다는 것입니다.

조기경보

신상품개발

마케팅전략

고객응대개선

상품/서비스개선포인트

도출

제품/서비스 개발

서비스 불만요인 및추가 필요기능 정의

마케팅

캠페인ROI 평가체계 구축

고객관리

‘Customer Experience’체계 연계

리스크관리

부정적 평판조기대응

담당부서로의 적극적인 피드백 및활용 프로세스 구축

- 18 -

Integrated VOC Management

고객사의 규모와 요구사항, VOC 활용목적에 따라 통합 VOC 관리체계 및 데이터 분석 플랫폼을 고객사에 직접 도입하거나

분석 서비스 형태로 제공받는 크게 두 가지 방식으로 서비스 유형을 선택하시거나, 두 가지 방식을 결합한 하이브리드 방식의

도입도 가능

Our Service Category_서비스 유형

VOC 분석서비스 제공

(Analysis as a Service)

Deep Mining이 보유하고 있는 VOC 분석엔진과

Tool을 활용한 분석 및 인사이트 리포트 제공 서비스

• Deep Mining이 보유하고 있는 VOC 분석엔진과 Tool을

활용하여 콜데이터 또는 SNS상의 데이터를 분석하여

찾아낸 인사이트를 리포트로 제공하는 서비스.

• 월별 또는 분기별 등 다양한 주기로 정기적인

분석서비스를 제공

VOC 분석체계 도입 지원

(Embedding)

고객사의 자체적인 VOC 분석체계 구축을 지원하는

서비스

• VOC를 수집/가공/분석/활용하는 체계를 자체적으로

구축하고자 하는 고객사를 종합적으로 지원하는 서비스

• 진단 및 마스터플랜, 개별 고객사 맞춤형 통합 VOC

분석체계 설계, 분석엔진 및 툴 도입 지원, 시스템 구축

지원

+

Insight Deep MininG Service Analysis Tools

Data Mining을 분석 Tools

- 21 -

Machine Learning Algorithms

• Clustering & Dimensionality Reduction- SVD- PCA- K-means

Unsupervised

Continuous

• Regression- Linear- Polynomial

• Decision Trees

• Random Forests

Supervised

• Association Analysis- Apriori- FP-Growth

• Hidden Markov Model

Cate

gorica

l

• Classification- KNN- Trees- Logistic Regression- Naïve-Bayes- SVM

- 22 -

H2O Modeling 과정 및 Output

Text Mining Analysis Tools

- 24 -

Data & Text Mining Analysis Contents

언어 분석

문장 분리

형태소 분석

어절 단위 구문 분석

개체명 인식

텍스트 마이닝

어휘 중요도 분석

연관어 분석

감성/속성 분석

이슈 군집 분석

DATA 마이닝

고객 분석

Risk 탐지

상품/서비스 반응 분석

마케팅 효과 분석

- 25 -

Data

Processing

EXTERNAL DATA INTERNAL DATA

CONNECTCOLLECT

Analyse

Activate

CONTEXT EMOTION AUDIENCE ROOT-CAUSE PREDICTIVE

고객 이탈방지 리스크 관리 서비스개선 잠재 고객 발굴 신규 상품개발

Management HMDTEXONOMY사용자사전 키워드

감성분석

TextMining

자연어처리

음성인식

음성인식학습

산업별 트렌드

이벤트/리스트

키워드/연관어분석

지도학습

비지도학습

Voice

(음성)

Social

(SNS)

Web

Crawling

Log

(로그)

Structured

Date

(정형데이터)

실시간 결과 제공 End User-UI Main 화면내용

- 26 -

빅데이터 분석 > Keyword

Category ▼

업무유형

해지 처리

보상금 신청

계약

고객 요구사항

없음

RC교체

보험_대출

보험_계약

고객 불만사항

없음

불만

고불만

선택한 부분만 화면에

표시됨 - 업무유형은

Default로 1개 이상

체크되어야 함

Period

2016.03.01 ~ 2016.03.07

화살표를 이동하여 기간

조정 가능

업무 유형

CategoryCalls Count

고객요구사항

고객불만사항

해지처리 ● 12 ● 7 ● 2

보상금신청 ● 2 ● 1 ● 1

계약 ● 1 ● 1 ● 1

해지 처리

30%

보험금 신청

24%

Count

12

Volume of the Callsfor the current selection업무유형 별 키워드 비율

업무유형 클릭 시키워드 수 표시

키워드 기준 업무유형 별 전체 Count, 업무유형별 고객요구사항, 업무유형별 고객불만사항표시

문서리스트 차트 or Count 수를 클릭 했을 때 해당 문서리스트를 표시

# PID DID Date File 유형 Sentence

1 hli_data2 20160222 20000 11U^KGIQ07811369_CONV RC교체

여보세요. 네 여보세요. 네 고객님 여기 아까. 방금 전에 통화했던 한화 생명 김현정인데요. 네도 현진님되실까요. 네 네 고객님 다름이 아니고 고객님 아까. 외환 은행으로 약관 대출 이자 변경해드렸는데 네 부분 고객님 이십오일 날까. 구월달 이십오 일부터 이자 부분 출금이 되세요. 그러세 지금네 확인해 보니까. 고객님 아까. 가상 계좌말씀해 주셨는데요. 네 약관 대출은 고객님 그 가상 계좌가 있습니다. 우리 은행요. 네 네 예 알겠습니다. 고객님근데 우리 은행 계좌 번호하구요. 금액도 같이 문자로 좀 보내드릴까. 알겠습니다. 네 김현정었습니다. 늘 건강하세요.

2 hli_data2 20160222 20001 10UW$TK$10411368_CONV 자동이체 행복을 전하는 상담원 김은영입니다

3 hli_data2 20160222 20002 1-MQL2KA11311371_CONV 카드수납 행복을 전하는 상담원 아라입니다

4 hli_data2 20160222 20003 1-G$HH($09911370_CONV 서비스불만 고객과 함께 하는 상담원 조희주입니다

문서리스트를 클릭 했을 때 팝업 형태로 표시

고객 요구사항 / 불만사항

8

Volume of the Calls for the current selection업무유형 별 고객요구사항과 불만사항 표시 -업무유형 클릭 시 달라짐

고객요구사항 or 고객불만사항 Count

53

53

57 8

4 53

6 6 7

2

1

13

43

5

33

1

1 23

140104 140105 140106 140107 140108 140109 140110 140111 140112 140113 140114 140115 140116

고객요구사항 고객불만사항

- 27 -

빅데이터 분석 > Solr 검색

- 28 -

QA효율화 > 이슈 Call 분석

Category

Period

2016.03.01 ~ 2016.03.07

기간 별 이슈 추이상담그룹

전체 ▼

1. 김상담

2. 이상담

3. 박상담

4. …

5. …

6. …

7. …

8. …

9. …

10. 유상담

11. …

12. …

상담원

김상담

53

53

57

8

45

3

6

140104 140105 140106 140107 140108 140109 140110 140111 140112 140113 140114

상담원 이슈 Call 빈도수 날짜 별/누적 Issue Score

140101 140102 140103 140104 140105 140106

선택 상담원 이슈 건수 누적 선택 상담원 이슈 건수

10

76

김상담 이상담 박상담

이슈건수: 10 / 녹취 수: 12상담원: 김상담 상담일: 2016-03-09

Cumulative Sum: 37:00상담일: 2016-03-09Day Sum: 15:00

상담원 TOP 목록 선택 상담원 이슈추이

140104 140105 140106 140107 140108 140109 140110 140111 140112 140113 140114

모든 상담원 이슈 평균 선택 상담원 이슈순위 상담그룹 상담원명 이슈건수 녹취수

1 그룹1 김상담 10 12

2 그룹2 이상담 8 10

3 그룹3 박상담 5 6

● 이슈 ● 녹취

Insight Korea Big Data Solution Technology Partner:

MINDs Lab. Solution 차별점

- 30 -

MINDs Lab. Solution 차별점

최고의 STT 인식률1 최고 성능 한국어 NLP6

음성 톤 분석 통합2 실시간 음성인식 및 텍스트 분석7

강력한 탐지력을 가진 다중탐지 사전3 빅데이터 분석 인프라8

딥러닝 감성분석 및 분류 엔진4 자연어 검색엔진 Solr 내장9

자동 사전보강 프로세스5 최신 머신러닝 분석툴 H2O 내장10

- 31 -

현재까지 달성한 인식률 분석결과 도메인별 분리학습을 실시할 경우 평균 인식률이 음절단위 85%이상, 키워드 단위 95%이상 도달. DNN의 로직으로 볼 때 인식률의 한계선은 없으며 학습에 의해서 계속 개선.

1. 최고의 STT 인식률

인식률

STT

키워드기준

STT

음절기준

舊버전

100시간 학습

新버전

100시간 학습

normal

新버전

100시간 학습

최고 기록

300시간

학습

77.3%

85%

현재시점

음절 최고기록

94.78%

평균

음절 인식률

90%이상

STT

新버전(DNN)

평균

키워드 인식률

95%이상

현재시점

키워드 최고기록

95%

- 32 -

2. 음성 톤 분석 통합

Raw Data (pcm) 음성의 Volume / Pitch 분석 등을 추가해서 고정밀 감성분석 가능

Pitch 산정 위한 가공데이터

Spectrum Analyzer (저/중/고음)

Volume 최종판정

Pitch & Volume Data by Time

- 33 -

Hierarchical Multiple Dictionary (다중 탐지어 사전)

i-VOC

3. 강력한 탐지력을 가진 다중탐지 사전

다중 탐지어 사전(HMD)은 마인즈랩의 Text Analytics 엔진인 i-VOC TA에 의해서 지원됩니다.

마인즈랩 i-VOC를 활용한 다중탐지어 구현

중요 어휘도 기술 세부감성 분석 내용기반 자동 분류 기술+ +

- 34 -

기존의 알고리즘 대비 높은 성능을 보이는 딥러닝 감성분석엔진과 분류엔진을 내장

4. 딥러닝 감성분석 및 분류 엔진

Data Set Model Accuracy

MobileTrain : 4543Test : 500

SVM (word feature) 85.58

RAE (word feature) + Word Embedding

87.57

CNN (relu, karnel3, hid50)+ Word embedding

(word feature)91.20

CNN (relu, karnel3, hid50) + Random init.

89.00

85

86

87

88

89

90

91

92

0 50 100 150 200

SVM Iatent SVM CNN(relu,k3) CNN(relu,k5)

- 35 -

데이터가 쌓일수록 정확해지는 딥러닝 & 탐지사전간 자동 사전 보강프로세스 내장됨

5. 자동 사전보강 프로세스

국민연급

국민연금 보험료 인상시기를놓치면 국채발행이라는 최후의

수단을 통해 연명할 수밖에없다는 우려가 제기됐다.

재해

일본 화산 폭발' '아소산 분화' 일본 각지에서 자연재해가

잇따르고 있다.

원문

국민연금 보험료 인상시기를놓치면 국채발행이라는 최후의

수단을 통해 연명할 수밖에없다는 우려가 제기됐다.

일본 화산 폭발' '아소산 분화' 일본 각지에서 자연재해가

잇따르고 있다.

딥러닝(Deep Learning)엔진

Output

Classifier

Input Data, Label

Feature Extractor

4. 학습 이미지 획득

재해

일본 기상청은 15일 이 분화가땅속의 마그마에 닿은 지하수등이 수증기가 돼 폭발하는

'마그마 수증기 폭발'일가능성이 높다고 발표했다.

종합

사전방식과 기계학습 방식이

결합된

종합 분석결과

다중탐지어사전 (HMD)

L1 국민연금

국민연금$국채발행

인상@시기@놓치

국민연금 $ 보험료

어휘분류체계(Taxonomy)

L1 재해

국민연금

레저

L2 화산

부과방식

수상스포츠

폭발

고갈

한강홀릭

쇼핑 백화점 홈쇼핑 1.사전작업

2.사전기반탐지

6. 엔진 실행 결과 사전 반영

3. 딥러닝 학습

5. 분류엔진 실행

- 36 -

제안 NLP 특장점

• 국립국어원의 세종계획

말뭉치, 국내외

대학/연구소의 다양한

언어자원 및 언어처리 기술

성과를 바탕으로

연구/개발된 ETRI의 한국어

언어처리 기술 및 노하우

반영

• 170여 분류의 개체명 인식

성능 제공(개체명 분류 관련

세계 최다 분류체계 구축)

• 각 단계에 걸쳐, 전처리/

후처리를 위한 각종 사전,

규칙 등이 적용 가능하여

신조어 등에 효과적으로 대응

가능

“대한은행이 인터넷을 통해 중도금대출 서류 작성을 편리하게 할 수 있는 서비스를 마련했다. 복잡한 중도금대출을 온라인으로 신청·접수할 수 있는

중도금대출 온라인 신청 서비스를 시행한다고 25일 밝혔다.”

마인즈랩 NLP는 국책연구기관인 한국전자통신연구원(ETRI)에서 30여간 연구/개발한 한국어처리 핵심기술로서 한국어 처리를 위한 대용량의 분석 사전과 정확성 향상을 위한 기계학습 기반의 기술이 포함되어 있음.

6. 최고 성능 한국어 NLP(자연어처리)

수집 문서를 기계 학습에 기반한 문장 분리 모델을 통해 문장 단위로 분리

“대한은행이 인터넷을 통해 중도금대출 서류 작성을 편리하게 할 수 있는 서비스를 마련했다”

“복잡한 중도금대출을 온라인으로 신청·접수할 수 있는 중도금대출 온라인 신청 서비스를 시행한다고 25일

밝혔다”

1. 문장분리

수집 문서를 가장 작은 의미 단위인 형태소 단위로 분할

대한/nc+은행/nc+이/jc 인터넷/nc+을/jc 통하/pv+어/ec 중도금/nc 대출/nc 서류/nc 작성/nc+을/jc

편리/nc+하/xsm+게/ec 하/px+ㄹ/etm 수/nb 있/pa+는/etm 서비스/nc+를/jc 마련/nc+하/xsv+었/ep+다/ef

2. 형태소분석

문장에 포함된 인물명, 기업명, 장소, 숫자 표현 등의 개체명(Named-entity) 인식

<<OGG_Economy:대한/nc+은행/nc>>+이/jc 인터넷/nc+을/jc 통하/pv+어/ec 중도금/nc 대출/nc 서류/nc

작성/nc+을/jc 편리/nc+하/xsm+게/ec 하/px+ㄹ/etm 수/nb 있/pa+는/etm 서비스/nc+를/jc

마련/nc+하/xsv+었/ep+다/ef

3. 개체명인식

문장에서 주어, 목적어, 서술어 등의 수식 관계 문장구조 식별

((((((대한은행이/NP_SBJ 인터넷을/NP_OBJ 통해)/VP (((중도금/NP 대출)/NP 서류)/NP 작성을)/NP_OBJ

편리하게/VP_AJT 할)/VP_MOD 수)/NP_SBJ 있는)/VP_MOD 서비스를)/NP_OBJ 마련했다)/ROOT

4. 구문분석

- 37 -

산업 도메인 및 고객 특성에 유연한 대처가 가능하도록 대용량 기본사전 및 사용자 사전을 제공

6. 최고 성능 한국어 NLP(자연어처리)

형태소 분석

사전

• 기본 사전 30만 어휘

• 기분석 사전(부분 어절에 대한 형태소 분석 결과를 미리 구축하고 다양한 복합 명사에 대한

복합어 분해 사전 포함) 160만 어휘

• 인명 및 기타 분석 사전으로 약 10만 어휘 구축

개체명 사전

• 15개 대분류: PERSON, STUDY_FIELD, THEORY, ARTIFACTS, ORGANIZATION, LOCATION, CIVILIZATION,

DATE, TIME, QUANTITY, EVENT, ANIMAL, PLANT, MATERIAL, TERM

• 170여 유형에서 약 360만 어휘에 대하여 개체 유형을 부착한 사전을 구축

이형태 인식

사전

• 축약형(건국대학교 -> 건대), 혼용형(국민학교 -> 초등학교), 약칭형(미래창조과학부 -> 미창부), 별칭형,

이동형, 생략형 등 다양한 이형태 표현에 대하여 원형 복원 사전을 통해 일관성 있는 어휘 관리를 지원함

• 약 8만 어휘에 대한 분석 사전 구축

- 38 -

마인즈랩 iVOC는 실시간 STT 뿐만 아니라 실시간 TA까지 완벽히 지원됨

7. 실시간 음성인식 및 텍스트 분석

Real-Time STT-TA : 실시간 Text 전환, Keyword 분석,

패턴분석,감성분석 및 콜 분류와 요약

수집/분배서버

수집 분배

음성인식서버

STT

STT

STT

STT

TA 서버

NLP

키워드

패턴

감성분석

콜분류

요약

결과 처리∙분석 서버

ImpalaSolr

Hadoop

Web/WAS Dashboard

실시간 이슈Keyword

녹취파일

VOC 전사QA 평가 상담요약 분류

- 39 -

8. 빅데이터 분석 인프라

i-VOC는 비정형(음성/텍스트)과 정형 데이터, 내부와 외부 VOC를 아우르는 통합 플랫폼입니다.

내부

시스템

고객사 정형 DW

정형분석내부

데이터

I/F

외부

시스템

외부

데이터

I/F

STT/TA 영역

STT

음성인식결과

언어모델학습

음성모델학습

NLP

구문분석

개체명인식

형태소분석

문장분리

TM

감성 분석

내용기반자동분류

어휘중요도분석

연관어분석

Streaming 영역

Spark

정형

데이터

비정형

데이터

H

D

F

S

배치분석

H2O Prediction Engine

SDK/API

Rapids QueryR-engine

Nano FastScoring Engine

In-MemMap ReduceDistributedfork/join

Deep Learning

MemoryManagerColumnar

Compression

Clu

ster

Cla

ssify

Regre

ssio

nTre

es

Boost

ing

Fore

sts

Solv

ers

Gra

die

nts

Ensembles

Impala

R

실시간 분석

화사용자

- 40 -

9. System Infra & 자연어 검색엔진 Solr 내장

- 41 -

10. 최신 머신러닝 분석 알고리즘 제공

• 선형 모델 (GLM)

• Cox Proportional Hazards

• Naïve Bayes

• Random Forest

• Distributed Trees

• GBM

• R 패키지- Super Learner

Ensembles

• Multi-layer Feed-Forward Neural

Network

• Auto Encoder

• Anomaly Detection

• Deep Features

• K-Means

• Principal Component Analysis

• Generalized Low Rank Models

• Generalized ADMM Solver

• L-BFGS (Quasi Newton Method)

• Ordinary Least-Square Solver

• Stochastic Gradient Descent

• Integrated R-Environment

• Slice, Log Transform

Insight Korea Big Data Solution:

Technology Partner MINDs Lab. 소개

- 43 -

2015. 12 삼성화재 Data 분석 기반 혁신 과제 추진 프로젝트 수주

2015. 12 현대카드 '콜센터 음성인식율 검증 POC 프로젝트

2015. 11 건강보험심사평가원 '지식기반 심사시스템 고도화사업' 텍스트분석 부문 수주

2015. 11 '딥러닝 기반의 스마트홈 음성인식 장치 기술 개발' 연구소기업 R&BD 프로젝트

수주

2015. 10 LG전자 콜센터 효율화 프로젝트(실시간 STT)

2015. 10 CJ쇼핑 음성분석시스템 구축 프로젝트 참여

2015. 9 GS쇼핑 콜센터 STT PoC 프로젝트

2015. 9 인사이트코리아 소셜빅데이터 분석플랫폼 구축 프로젝트

2015. 8 VC로부터 투자유치 성공

2015. 8 ING생명 Big Data PoC 프로젝트

2015. 8 삼성화재 STT 솔루션 PoC 프로젝트

2015. 6 국민권익위원회 행정심판 내용분석 프로젝트

2015. 4 스타벅스코리아 트렌드센싱 프로젝트

2014. 12 한화생명 빅데이터 Assessment 수행 POC

2014. 12 MINDs Seminar II 성과창출의 New Agenda 빅데이터로 찾아내는 고객의 소리

2014. 9 한국환경정책평가연구원 보도자료를 활용한 우리나라 과거 기후변화 관측영향

자료구축 및 분석

2014. 7 미래창조과학부 국가연구개발 우수성과 100선 선정

2014. 7 덴츠코리아 소셜빅데이터를 통한 토요타 캠리 KBF 분석 프로젝트

2014. 7 HS애드 LG전자 페이스북 분석리포트 용역

회 사 명 ㈜마인즈랩 대 표 자 유 태 준

사 업 분 야음성인식, 텍스트분석 소프트웨어 및 빅데이터 분석

컨설팅서비스 제공

주 소

[본사] 대전광역시 유성구 가정북록 96, 307호(장동,대전경제통상진흥원)

[기술센터] 경기도 성남시 분당구 대왕판교로 660 유스페이스 1-B동 12층

전 화 번 호 031-625-4340

회사 설립년도 2014 년 1 월

해당부문 종사기간 2014 년 1 월 ~ 2015 년 7 월 (1년 7개월)

마인즈랩은 머신러닝과 빅데이터 기술을 기반으로 다양한 솔루션과 서비스를 제공하는 ETRI연구소기업입니다

ETRI 맞춤형기술지원지정기업

국가연구개발우수성과 선정

Minds Lab 소개

- 44 -

한국전자통신연구원과 기술협력 파트너십을 통해 엑소브레인 SW개발 프로젝트에 공동 참여하여 상시적인

핵심연구의 공동협력체계를 구축하고 있습니다.

Minds Lab 소개

엑소브레인 연구

< 관련기사>

국가 중장기 연구과제 엑소브레인 참여기업

단계별 연구목표와 연구결과

엑소브레인 과제는 ‘세계 최고인공지능 기술 선도’라는 비전을 달성하기 위하여 미래창조과학부 소프트웨어 분야의 국가 혁신기술 개발형 R&D 과제임. 과제의 목표는 ‘자연어를 이해하여 지식을 자가학습하며, 전문직종에 취업 가능 수준의 인간과 기계의 지식소통이 가능한 지식과 지능이 진화하는 SW’인 엑소브레인 SW를 개발하는 것으로 현재 엑소브레인 연구 과제 참여기업으로 연구중임.

1단계(혁신 기술 개발)

2단계(응용 기술 개발)

3단계(글로벌 기술 개발)

단계별 목표일반지식 융합응답 분석형

엑소브레인 SW

전문지식 융합협업기반 응답 추론형

엑소브레인 SW

다중 도메인글로벌 지식융합

문제해결형엑소브레인 SW

연구 결과개념 검증 도전과제

콘테스트[예: 퀴즈, 시험]

전문분야 실용화[예: 의료, 법률, 금융]

글로벌 문제 해결형,상용화

[예: 예측]

2015 2017 2020 2023

지능 진화형 WiseQA 개념도

세부과제별 역할

엑소브레인 SW개발 프로젝트 마인즈랩 공동 참여

- 45 -

Minds Lab 소개

마인즈랩은 Big Data와 Deep Learning을 결합한 첨단 Solution과 Service를 제공하고 있습니다.

- 46 -

한국전자통신연구원(ETRI)의 뛰어난 음성인식 특허 기술 적용 (국내특허 11건, 국제특허 6건)

ETRI 특허기술

채널 정규화 장치 및 방법

발화검증기반 대용량 음성 데이터

자동처리 장치 및 방법

한국어 연속 음성인식을 위한 컨퓨젼

네트워크 리스코어링 장치 및 이를

이용한 컨퓨젼 네트워크 생성 방법 및

리스코어링 방법

언어모델 군집화 기반 음성인식

리스코링 기술

Weighted Finite State

Transducer 기반의 끝점검출

자동음성인식을 위한

새로운 동적 특징추출 방법

K

K

K

K

KUS

KUS

실내 측위 기술을 사용한 잡음 제거

방법 및 장치

화자 변이 정규화 방법에 기반한

강인한 음성 인식 시스템

연속어 음성 인식장치 및 방법

자동음성인식을 위한 새로운 동적

특징추출 방법

다중 음향 공간 GMM을 이용한

음향모델 생성 방법

불확실성을 이용한 잡음 환경에서의

음성 인식 방법 및 장치

엔베스트 인식 단어 계산량 감소를

위한 2단계 발화검증 구조를 갖는

음성인식 장치 및 방법

음성 인식 장치 및 방법

음성 인식 방법 및 이를 위한 시스템

음성인식에 있어 유사 어휘 및 어휘

패턴을 사용하는 화자군에 기반하는

언어 모델 적응 방법

음성인식을 위한 실시간 채널정규화

방법

KUS : 국제(미국)특허 : 국내특허

- 47 -

ETRI 특허기술

한국전자통신연구원(ETRI)의 뛰어난 텍스트마이닝 특허 기술 적용 (국내특허 10건, 국제특허 6건)

언어 처리 장치 및 그 방법

K

감성 어휘 정보 구축 방법 및 장치

KUS

텍스트 기반 감성분석 결과를

제공하기 위한 장치,시스템 및 그 방법

K

토픽별 오피니언과 소셜

영향력자를 기반으로 토픽을 탐지하고

추적하는 시스템 및 방법

KUS

상품 정보 자동 추출 방법 및 장치

KUS

이슈 템플릿 추출 기반의

웹 동향 분석 방법 및 장치

KUS

소셜미디어에서 영향력있는 사용자를

검색하기 위한 장치, 시스템 및 그

방법

K

소셜웹 콘텐츠에서의 예측기반 리스크

관리 장치 및 그 방법

K

이슈일지를 제공하는 단말기,

이슈일지를 생성하는 서버 및

이슈일지 제공 및 생성방법

KUS

소셜 미디어 분석을 기반으로

복합이슈를 탐지하기 위한 장치,

시스템 및 그 방법

KUS

KUS : 국제(미국)특허 : 국내특허

Insight Korea Ltd.

137-040 서초구 반포4동 96-8 대선빌딩 2층/ 3층

2F/3F Daesun B/D 96-8 Banpo4-Dong, Seocho-Gu,

Seoul 137-040, Korea

T (82 2) 3483 0500 F (82 2) 3481 9033

http://www.insight-korea.com/