빅데이타 기반 음성언어 기술 동향 - KRnet · 음성인식 서비스를 통한 실 사용자의 음성 데이터 수집 English Google Voice Search Traffic / a day : 17,530

빅데이타 기반 음성언어 기술 동향

2012. 6. 26 한국전자통신연구원

박상규

1/39

목차

빅데이타와 애플 Siri

음성인식 기술과 빅데이타

텍스트 빅데이타 기반 지식마이닝 기술

자동번역 기술과 빅데이타

2/39

목차





3/39

단말은 소형화되는 반면, 응용/서비스/데이타는 폭발적으로 증가하며 복잡해지고 있음

미국의 경우, 2009년 모바일 단말을 통한 인터넷 기반 응용 시장의 연평균 증가율 58.2% (IDC, 2010)

?

Apple Siri와 빅데이터의 관련성

4/39

SRI CALO (Cognitive Assistant that Learns and Organizes) Project 추론/학습을 통해 사용자의 의사결정을 지원 (http://caloproject.sri.com)

DARPA, 총 2억 달러 연구비 지원 (AI분야 역대 최대 규모, 2003-2008)

이 프로젝트 결과물로 Siri가 Spin-off

모바일 단말을 이용한 지능형 소프트웨어 에이전트 상용화 사용자 음성을 인식하여 원하는 정보 제공 및 서비스 실행

(식당, 영화, 택시, 행사 등 검색/예약)

2007. 12: 설립 개인비서 S/W를 iPhone 앱으로 공개

2400만 달러 투자 유치

2010. 4. 28: Apple이 인수 2억 달러(추정)

2011. 10. 4: Iphone4S에 탑재 아이폰5(2012 하반기 출시 예정) : 한국어지원

애플 iTV에 탑재 예정

Siri : Virtual Personal Assistant

5/39

Apple SIRI 서비스

다양한 분야에서 음성 검색 및 개인비서 서비스 지원 구글 검색 위협

다양한 구어체 문장의 음성 질문을 빠른 속도로 이해하기 위하여 클라우드

기반 시스템 필요

빅데이터 질문 패턴 DB를 기반으로 고속 분석 및 이해

검색, 추천, 상식 등 다양한 종류의 정보서비스를 위하여 빅데이터 기반 자연

어처리 기술, 패턴매칭 기술, 기계학습 기술을 활용하고 있음

지식 엔진 Wolfram Alpha 검색

SIRI 서비스를 지원하기 위하여 빅데이터 분석 및 서비스 플랫폼 필요

6/39

SIRI 사용 통계

SIRI의 영향으로 iPhone4S 사용자의 데이터 사용량이 급증함

iPhone4 사용자의 2배, iPhone 3 사용자의 3배

SIRI의 영향이 큼: 정보서비스 및 음성인식

iPhone4S 사용자의 87%는 적어도 1달에 1번 SIRI 사용

전화걸기, 인터넷 정보서비스, 메시지 보내기, 이메일

개인별 맞춤형 서비스 : 빅데이타 처리

음성인식의 맞춤형 서비스

PIMS, 사용자 프로파일, 사용자 log 데이터 이용한 맞춤형정보제공

결제정보를 이용한 금융서비스 예상

7/39

목차





8/39

클라우드 컴퓨팅 인프라의 발달로 인하여 빅데이터에 기반한 음향/

언어 모델 진화 의해 음성인식 성능이 비약적으로 발전 (대표적인

사례: ‘구글’)

음성언어 기술 발전을 위해 방대한 분량의 음성언어 DB 구축/처리 기술

필요

장기간에 걸친 음성언어 DB 인프라 구축이 필요하며, 음성언어 관련 서

비스를 통한 사용자 로그 정보 축적이 기술 발전을 위해 매우 중요함

특정언어 중심의 음성언어 서비스가 활성화 될 경우, 음성언어 로그 축

적의 불균형을 가져와 장기적으로 특정언어의 기술만 발전하는 불균형

현상을 심화시킴

빅데이타 이용 음성인식 기술 진화

9/39

...

T

사용자 log 데이터의 중요성

10/39

임베디드 환경

메모리 제약 및 계산 능력 제약으로 인하여

소용량의 음향 및 언어 모델 생성 및

이를 이용한 제한적인 하드웨어 환경에서 디코딩

클라우드 환경

언제, 어디서나 네크워크를 통한 데이터 전송 가능

실질적인 음성인식의 수행은 클라우드 내의 다중 서버에서 동작

음성 데이터 및 특징이 네트워크 망을 통해 서버로 전달

일반 PC 이상 스펙으로 여러 대 이상의 서버 활용 가능

음성인식이 동작하는 하드웨어 환경의 변화

11/39

대용량 학습 자료 수집 및 확보 가능

음향 모델 학습 자료 수집

음성인식 서비스를 통한 실 사용자의 음성 데이터 수집

English Google Voice Search Traffic / a day : 17,530 시간 [1]

1 person * 24시간 * 365일 * 2년 (2011.06 기준)

언어 모델 학습 자료 수집

Facebook 및 Twitter와 같은 SNS으로 생성된 대용량의 텍스트 수집

Twitter : 200M tweets/day (2011.06 기준) [2]

12/39

음성인식 관련 big-data 처리 이슈 사항

단계

이슈 사항

음향 모델 (Acoustic Model)

언어 모델 (Language Model)

학습 단계 (Training)

* Large-scale Speech Data 지속적 반영

* Unsupervised Learning

* Large-scale Text Data 지속적 반영

* Big size n-gram 구현 * Text Normalization

탐색 단계 (Search)

* GPU등을 이용한 Vector Computation 분산 처리

* Big size n-gram 에 대한 lookup 분산처리

13/39

구글의 big-data 기반 음성인식 연구 동향

Acoustic Modeling

1000시간 이상 분량의 acoustic data (English, Japanese, …)

~10k states, ~300k Gaussians 훈련

1000대 machine을 사용 하루에 AM 학습

Language Modeling

Google.com 의 Query : 1년에 700M의 unique words (in English)

Vocabulary size : 1M words, oov rate 0.57%

훈련 corpus size : 230B words 이상

Distributed LM Training (MapReduce)

1st pass 15M 3gram LM Decoding

2nd pass 12B 5gram LM Lattice Rescoring (Distributed LM)

14/39

ETRI의 big-data 기반 음성인식 연구 동향

고속 디코딩을 위한 병렬 처리

Instruction-level

Single Instruction Multiple Data (SIMD) 명령어 사용

4개의 부동 소수점 데이터에 대해 동시 연산

GMM 및 HMM 연산

CPU-level

Multi-core 사용

N개의 연산 core를 사용한 병렬 처리

Computer-level

Heterogeneous computing 사용

Multi-core CPU와 Many-core GPU를 동시에 사용

15/39

분산환경 기반 대용량 언어모델(LM) 학습

MPI/socket 기반 ngram count 추출 및 LM 생성

Hadoop 기반 ngram count 추출 및 LM 생성

분산환경 기반 Lattice rescoring

Long-span 언어모델 학습

High-order LM + MI + MELM + Structural LM 등의 통합 구축

Trie기반 LM 메모리 DB 구축

분산환경 기반 LM global optimization

이종 LM 자원 통합의 최적화

Socket streaming 기반 실시간 lattice rescoring

ETRI의 big-data 기반 음성인식 연구 동향

16/39

목차





17/39

텍스트 빅데이터 기반 지식마이닝 기술 이란 ?

폭발적으로 생산되는 빅데이터를 자연어 처리, 정보추출을 통해 지식베이스를 구축하고,

빠르고 신속한 전문가의 데이터 기반 의사결정 지원을 위한 지식을 제공하는 기술

수집 정제 분석

지식화 검색

소셜웹 이슈 탐지-모니터링 기술

Deep Question Answering 기술

자연어 이해/정보추출/기계학습 기술

http://techbuddha.files.wordpress.com/2011/09/big-data-dump-truck.jpg

18/39

• (국내) 키워드 기반 검색 → 키워드 빈도 및 감성분석 기반 소셜웹 트렌드 분석 • (국외) 패턴/사전 기반 정보추출 → 빅텍스트 활용 기계학습 기반 오픈 정보추출 • (국외) 자연어 이해 기반 인공지능 기술 개발을 활발하게 시도 중

국내외 연구개발 현황

자연어 이해 기반 비정형 데이터로부터 정보를 추출하여 구조화 정보 생성

소셜웹 콘텐츠를 분석하여 이슈의 징후를 탐지하고, 지속적으로 전개과정을 모니터링

기존 데이터를 계량적 방법, 질적접근 방법, 기계학습 방법 등을 통해 향후 이슈의 전개과정에 대한 예측모형 모델링 및 예측분석

19/39

Google 독감 트렌드 분석

작동원리 특정 검색어가 독감 유행 수준을 파악하기 위한 지표로 사용

집계된 Google 검색 데이터를 사용하여 현재 전 세계 독감 유행 수준을 거의 실시간으로 예측

대부분의 보건 기구는 일주일에 한 번만 예상 수치를 업데이트

Google 독감 트렌드는 18개 국가를 대상으로 매일 업데이트되므로 기존의 시스템을 보완

20/39

Google 자동차 판매량 예측분석

오바마 정부가 경기부양책의 일환으로 “노후 차량 보상 프로그램으로 10억 달러 배정” (2009) 정부는 경기불향으로 인해 예산이 빨리 소진되지 않을 것으로 전망하였으나,

조기 소진되어 20억 달러의 추가 예산 편성

구글은 웹 검색빈도수로 예산의 조기 소진을 예측함

21/39

ETRI 소셜웹 이슈 탐지-모니터링 기술

소셜웹 이슈 탐지-모니터링 및 예측분석 기술이란?

소셜웹 콘텐츠로부터 이슈를 탐지/모니터링하여, 이슈의 향후 전개과정에 대한

예측 모형을 제시하는 기술 → 전문가 의사결정 지원을 위한 ‘Insight’ 제공

소셜웹: 뉴스, 블로그, 트위터, 게시판, 카페 등

이슈: 시간/지역별 특성을 반영한 중요한 주제 또는 사건

(공공) 셧다운제에 대한 여론의 향후

추이는?

(기업) 겔럭시S2의 향후 판매추이는?

(회귀분석+시계열분석+패턴기반 +기계학습기반 예측분석 모델)

이슈 탐지 및

모니터링

이슈 예측분석

이슈 질의응답

이슈 탐지 기반 예측분석 시스템

http://en.wikipedia.org/wiki/File:Linear_regression.png

http://en.wikipedia.org/wiki/File:Svm_separating_hyperplanes.png

22/39

요소 기술 세부 요소 기술

(1) 소셜웹 콘텐츠 수집 및 필터링 기술

• 문장 단위 중복 콘텐츠 필터링

• 허위평판 분류를 위한 오피니언 스패머 탐지

• 트윗 사용자 간 영향력, 트윗 영향력 계산

(2) 소셜웹 콘텐츠에 강건한 의미분석 기술

• 소셜웹 실생활 구어체 전처리 기술(문장분리, 띄어쓰기 등)

• 최신 기계학습 기반 세계 최다 180여개 개체명 인식

• 17개 분류 감성 분석 및 감성 강도 10단계 분류

• 템플릿 정보추출을 위한 의미관계 분석 기술

(3) 소셜웹 이슈 탐지-모니터링 기술

• 이슈 도메인/유형/레벨별 지식베이스 구축

• 키워드 빈도가 아닌 이슈 중요도 산정에 의한 이슈 탐지 및 모니터링

• 연관관계 및 경쟁관계 이슈 탐지-모니터링

소셜웹 이슈 탐지-모니터링 기술 개발현황

23/39

ETRI QA 기술

사용자의 질문(Question)의 의도를 파악하여 다양한 웹 콘텐츠로부터 정확한 답(Answer)을 찾아서 제시하는 기술

OWL 위키 웹문서

노벨 위원회는 오늘 노르웨이 수도 오슬로에서 올해

노벨 평화상 수상자로 지구온난화의 위험을 경고한

앨 고어 전 미국 부통령과 IPCC, 즉 유엔 정부간기후변화위원회로 공동 선정했다고 밝혔습니다.

• 2007년 노벨상 수상자

- 노벨 평화상: 앨 고어, IPCC

- 노벨 경제학상: 후르비치, 매스킨, 마이어슨

- 노벨 문학상: 도리스 레싱

- 노벨 물리학상: 페르, 그륀베르크

- 노벨 화학상: 게르하르트 에르틀

- 노벨 의학상: 카페키, 스미시스, 에번스

• 노벨 평화상 역대 수상자

수상 년도 수상자 혹은 수상 단체

1901년 앙리 뒤낭 (스위스), 프레데리크 파시 (프랑스)

1902년 엘리 뒤코묑, 샤를 알베르 고바 (스위스)

…….. ……..

2006년 그라민 은행, 무함마드 유누스 (방글라데시)

Q 2007년 노벨 평화상을

탄 사람이 누구지?

A 2007년 노벨 평화상 수상자는 앨 고어, IPCC 입니다.

수상 이유는 지구온난화의 위험을 경고하였기 때문입니다.

24/39

ETRI QA 기술 개발 현황

오픈 웹QA 핵심기술 확보 및 실용화

- 형태소 분석, 개체명 인식, 구문분석, 기계학습 기술

- 맛집 QA 기술 (주)KTH 서비스 실시(11.3)

지역생활 모바일 지능형 검색 실용화

- 국내 최초 음성검색 기술 개발(‘09.12, TV 방송, 신문 보도)

- 아이폰 앱 스토어 서비스 실시(10.12.5)

- 안드로이드폰 앱 스토어 서비스 실시(11.2) : 개인화 강화

25/39

빅데이터 기반 지식마이닝 기술 발전방향

빅데이터 기반 자연어 처리 및 정보추출 기술 고도화

다양한 분야의 실시간 의사결정 지원을 위한 빅데이터 분석 기반 Deep QA 기술

26/39

목차





27/39

자동번역 기술

자동 번역

컴퓨터가 인간의 언어 표현을 이해하고, 본래의 의미를 다른 언어의

표현으로 변환하는 기술

언어장벽 해소

인간 vs 인간의 소통을 돕는 인공지능 서비스

28/39

자동번역 기술의 발전

1980 1990 2000 2015

번역률

1970 1960 1950

Text 환경 WWW 환경

50%

30%

70%

90% 동종 언어간 자동번역

ALPAC (1966)

규칙기반 (1970)

이종 언어간 자동번역

WWW (1989)

베트남-영 번역기

러-영 번역기

영/불 번역기

영/불/독/러 번역기

영/불/독/서/이/러 번역기

영-일 번역기

영/한 번역기

일/한 번역기

중/일 번역기

일-영 번역기

중/한 번역기

인간과 인간간의 언어장벽 해소

예제기반 (1984)

통계기반 (1990)

하이브리드 (2000)

중-영 번역기

아랍-영 번역기

- : 단방향

/ : 양방향 데이터 규모

Mega byte

Giga byte

Peta byte

Tera byte

29/39

자동번역 방법론의 장단점

장점 단점

규칙기반

- 대표적인 언어규칙 적용에

의해 초기 시스템 개발 용이

- 문법적 문장 번역 품질 좋음

- 언어규칙을 언어전문가가 직접

구축해야 함

- 다른 분야로의 확장이나 성능 개선을

위한 규칙의 수정이 어려움

예제기반 - 대용량의 번역 패턴 구축에 드는

비용을 절약

- 어휘/구문 유사도 계산에 의존

- 방대한 탐색공간, 번역시간 지연

- 예제 지식의 획득이 어려움

패턴기반 - 번역 패턴 추가에 의해,

점증적인 성능 개선이 가능

- 숙어 표현 처리 가능

- 대용량 번역 패턴 구축 필요

통계기반 - 언어적 배경 없이 번역

말뭉치만으로 엔진 구현 가능

- 언어 및 분야에 독립적인 번역

시스템 구축 가능

- 방대한 양의 이중말뭉치 필요

- 방대한 탐색공간, 번역시간 지연

- 장문의 텍스트 번역에 한계

대량의 말뭉치로부터 일반화/객관화된 번역지식을 자동학습 하는 자동번역 방법으로 확장

자동학습에 의해 번역 규칙을 보정하는 등, 언어학적 특성을 이용한 자동학습

이종의 번역 방법론과 자동 학습 방법을 같이 적용하는 하이브리드 시스템의 구성이 가능

문제점 해결 : 대량의 데이터에 의한 자동 학습 방법

30/39

SMT : 빅데이터 자동학습 기반 자동 번역 등장

기존 자동 번역에 관한 회의론 수많은 자동 번역의 문제점들

문제의 해결?

MT Summit IX, New Orleans, 2003 Panel Discussion

자동 번역을 실현할 수 있는 궁극적인 해결책을 우리는 찾은 것인가?

자동 번역의 문제점 자동 학습 기반 방법론의 해결책

번역 지식의 구축 어려움 쉽게 수집 가능한 말뭉치에서 자동

추출 및 학습

언어/도메인 확장의 불편함

대상 언어/도메인의 말뭉치만 있으면

즉시 가능

1:1 직역 중심의 기계적 표현

인간이 사용한 표현을 문장 단위로

자동 학습하여 사용

언어 분석의 오류 발생 단어/음절 단위의 어휘 정보만으로

번역을 수행

지속적인 성능 향상이 어려움

학습 대상인 말뭉치의 규모 확장으로

점진적 성능 향상 보장

Have We Found The Holy Grail ?

31/39

통계 기반 기계 번역 기술

Translation

Model

Language

Model

Decoder f1···fJ e1···eI

)|Pr( 11

IJ ef )Pr( 1

Ie

Statistical Alignment & Analysis Statistical Language Modeling

Korean English Broken

English

What hunger have I

Hungry I am so

I am so hungry

Have I that hunger

…

저는 배가 몹시 고픕니다. I am so hungry

영어 텍스트 한국어/영어 대역말뭉치

대용량의 병렬 말뭉치로부터 자동으로 번역 모델을 학습, 통계기반 생성

32/39

자동 번역을 위한 빅데이터 필요성(1/2)

병렬코퍼스의 규모화의 이점: 병렬코퍼스의 양 증가

번역 성능 지속적으로 증가

최근 연구: 동경대 [Neubig외 ACL ’11] 논문

코퍼스의 크기

기계 번역 성능

33/39

자동 번역을 위한 빅데이터 필요성(2/2)

단일어 코퍼스의 규모화 언어 모델 개선

기계 번역의 획기적 성능 향상

대표적 연구: 구글 번역기 [Brants외 EMNLP '07]의 논문

기계 번역 성능

코퍼스의 크기

34/39

자동번역 방법론의 변화와 전망

확장성

성능

빅 데이터 기반 해결 방법 모색 증가되는 학습 데이터의 규모와 비례되는 점진적 성능 향상이 보장되는 번역기술

다양한 언어 지식 단계를 활용한 번역 지식의 자동 학습 효율화

대용량 데이터에 기반한 다양한 방법의 하이브리드 번역 방법론

35/39

빅데이터 기반 번역 기술 현황

빅데이터

언어 모델 규모화 변환 지식 자동 구축

클래스기반 언어 모델링의 규모화 (2008, 구글) - 어휘 클러스터링을 위한 분산 알고리즘 개발

분산 언어 모델 개발 (2009~) - 분산 Suffix Array 기반 언어 모델 - 클라우드 기반 분산 아키텍쳐 연구 등 언어 모델의 웹 스케일화

대용량 이중언어 코퍼스로부터 대조 코퍼스 자동 구축 (2005~)

이중언어 코퍼스로부터 단어 재순서화, 대역어 변환 모델 학습 (2006~) - 초기 프레임워크 (2006) - 목적어 코퍼스만을 이용한 통계 변역 방법론 (2011) - 번역 모델 학습법 일반화 (2012) (병렬코퍼스+대규모단일어코퍼스)

번역 성능 향상 !

36/39

적용 사례 – 구글 번역 시스템

특징 세계 최대의 빅데이터에 기반한 완전 통계 번역 방식

빅 병렬코퍼스

약 200억 단어

빅 단일어코퍼스

구글에서 색인된 방대한 웹 - 잠재적으로 구글 웹

전체를 사용 가능

57개 언어에 대한 양질의 번역 서비스 제공

데이터 계속적 확보 번역 성능 지속적으로 개선!

세계 최대 사용자층 확보

빅데이터 기반 최고 성공 사례

37/39

적용 사례 – EuroMatrix 프로젝트

특징 빅데이터에 기반한 하이브리드 형태의 통계 번역 방식

: 통계적 방법이 메인 컴포넌트

모든 유럽언어에 대한 자동 번역 프로젝트

빅 병렬코퍼스

약 4억 단어: - 각 언어별 약 3-4천만 단어

빅 단일어코퍼스로 활용

다수 유럽 언어에 대해 안정적인 번역 성능 제공

규칙과 하이브리드를 통한 추가 개선

38/39

적용 사례 – ETRI 번역 시스템

온라인 발생 대화체 및 웹 데이터 실시간 수집과 정제

대용량 말뭉치를 이용한 번역 지식 반자동 구축

통계 및 데이터 기반 하이브리드 자동번역 엔진 개발 및 도메인 특화

로그 데이터 웹 데이터 원시언어 말뭉치 이중언어 말뭉치

대화체 자동 번역

대화체 언어 분석

축약처리 주어복원

대화체 표현 변환 및 생성

다양한 양태 표현 처리

번역 패턴

번역 사전

TM/문형

언어 모델

언어 분석지식

의미 모호성

변환/생성지식

도메인 특화

기업 문서 자동 번역

장문 분절 특수 기호 처리

문어체 분석 단문연결생성

전문용어 구축 및 생성

작문지원도구 상호작용번역

지식 학습 말뭉치

대용량 번역 지식 반자동 구축

한중영 자동 번역 시스템

39/39

맺음말

음성언어기술 분야의 빅데이타 처리 중요성

사용자 log 데이터의 중요성

진입장벽, 산업/서비스/기술 생태계 점령

ETRI의 자동통역 대국민 서비스 실시 예정

2012년 하반기 앱 출시: 한영 자동통역

2012년 말(한일), 2013년 하반기(한중)

Documents

빅데이타 기반 음성언어 기술 동향 - KRnet · 음성인식 서비스를 통한 실 사용자의 음성 데이터 수집 English Google Voice Search Traffic / a day : 17,530