41
음음음음 음음음 음음음 음음 음음 994766 음음음

음성인식 기술의 개요와 최근 동향

  • Upload
    aileen

  • View
    192

  • Download
    2

Embed Size (px)

DESCRIPTION

음성인식 기술의 개요와 최근 동향. 994766 정두원. < 목 차 >. 제 1 장 서 론 제 2 장 음성인식 기술의 개요 1. 음성인식 시스템의 종류 가 . 화자독립 시스템 / 화자종속 시스템 나 . 고립어인식 시스템 / 연속어 인식 시스템 다 . 소용량 시스템 / 대용량 시스템 2. 음성특징 추출 가 . LPC(Linear Predictive Coding) 나 . MFCC(Mel Frequency Cepstral Coefficients) - PowerPoint PPT Presentation

Citation preview

Page 1: 음성인식 기술의 개요와 최근 동향

음성인식 기술의 개요와 최근 동향

994766정두원

Page 2: 음성인식 기술의 개요와 최근 동향

< 목 차 > 제 1 장 서 론 제 2 장 음성인식 기술의 개요 1. 음성인식 시스템의 종류 가 . 화자독립 시스템 / 화자종속 시스템 나 . 고립어인식 시스템 / 연속어 인식 시스템 다 . 소용량 시스템 / 대용량 시스템 2. 음성특징 추출 가 . LPC(Linear Predictive Coding) 나 . MFCC(Mel Frequency Cepstral Coefficients) 다 . 고역강조 (Pre-emphasis) 라 . 창 함수 (Windowing)

Page 3: 음성인식 기술의 개요와 최근 동향

3. 음성인식 방법 가 . VQ(Vector Quantization) 나 . HMM(Hidden Markov Model) 다 . DTW(Dynamic Time Warping) 4. 음성인식 기술의 발전과정제 3 장 결론 1. 각 국가별 음성인식 기술의 추진 동향 가 . 국외 기술 동향 나 . 국내 기술 동향 2. 음성인식 기술이 최근 주목 받는 이유 3. 음성인식기술의 최신 동향과 전망참고문헌

< 목 차 >

Page 4: 음성인식 기술의 개요와 최근 동향

제 1 장 서 론

음성인식 기술은 사람이 기계를 사용하는데 있어 편의성을 높이기 위해 그 필요성이 증대

기존의 사람과 기계간의 인터페이스는 사람이 원하는 바를 기계가 인식할 수 있는 형태로 전환하여 줌으로 , 사용에 불편함이 따르고 기계에 대한 거부감이 생기는 문제 발생

사람의 의도를 기계가 인식하여 원하는 대로 구동하는 새로운 인터페이스가 주목받기 시작

Page 5: 음성인식 기술의 개요와 최근 동향

제 1 장 서 론

음성은 가장 자연스러운 정보 전달 수단이며 전달에 있어 고가 장비가 불필요한 장점 때문에 사용자 편의성 개선의 돌파구

음성인식기술은 산업 전반에 걸친 Konwledge 와 Technology 의 결합을 요하는 첨단 기술

음성인식과 관련된 응용 분야로는 음성 다이얼 ,

무선 단말기의 음성명령이 우선 고려

Page 6: 음성인식 기술의 개요와 최근 동향

제 1 장 서 론

정보 통신의 발달 , 개인 휴대 단말기의 보급화로 인한 버튼 조작의 불편함을 해소하기 위해 음성 인터페이스의 요구 확대

음성인식 기술은 1970 년대부터 시작했지만 알고리즘의 복잡도로 인해 발전못함

20 세기 후반 고속의 컴퓨터 개발 , 디지털신호처리 기술의 향상 , 대용량 메모리의 가격하락에 힘입어 비약적인 발전

Page 7: 음성인식 기술의 개요와 최근 동향

제 1 장 서 론

기술을 확보한다면 매우 다양하고 유망한 새로운

사업분야로 개척할 수 있는 능력을 갖추게 될 것임

음성인식은 향후 많은 분야에서 활용되어 관련시장이

급속도로 팽창할 것으로 전망

Page 8: 음성인식 기술의 개요와 최근 동향

제 1 장 서 론

음성인식 처리 순서

Page 9: 음성인식 기술의 개요와 최근 동향

제 1 장 서 론

음성 인식 과정도

Page 10: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요 1. 음성인식 시스템의 종류 가 . 화자독립시스템과 화자종속시스템 - 인식의 대상으로 삼는 화자에 따라 화자독 립과 화자종속 인식기술로 분류 - 화자종속 음성인식은 화자독립 음성인식에 비해 인식률이 높아 실용화 하기에 유리 - 대체적으로 화자종속 시스템의 성능이 화자독립의 시스템 보다 높게 나옴 - 최근 화자독립 시스템을 구축하고 사용할 때 사용자 음성에 적합하도록 인식 모델을 변형하는 기법들이 개발 ( 화자적응 기술 ), 이 시스템을 화자적응 시스템

Page 11: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요

1) 화자종속 시스템 - 특정 화자의 음성을 인식하기 위한 시스템 - 현재 휴대폰에 탑재되어 사용되는 Voice dialing 시스템이 대표적 - pattern matching 기법 사용 ※ pattern matching 기법 : 사용자 음성을 저장 , 등록 , 실제 인식을 수행할 때는 입력된 음성의 패턴과 저장된 음성의 패턴을 비교 하는 기법 ex) 스프린트가 서비스하는 보이스 폰카드 ( 전화걸 때 사람이름만 이야기하면 , 그 사람의 전화 번호를 찾아 자동으로 전화를 걸어주는 것 )

Page 12: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요

2) 화자독립 시스템 - 불특정 다수 화자의 음성을 인식하기 위한 시스템 - 시스템 동작전 음성 등록의 번거로움이 없음 - 다수화자의 음성을 수집하여 통계적인 모델을 학습 시키고 , 학습된 모델을 이용하여 인식을 수행 - 각 화자의 특징적인 특성은 사라지고 각 화자간에 공통적으로 나타나는 특성이 부각 ex) AT&T 가 수신자 부담 전화를 응용한 것으로 수신자 부담 전화를 수신자가 수신할 것인지 여부의 대답 인식하는 기능

Page 13: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요 1. 음성인식 시스템의 종류

나 . 고립어인식 시스템과 연속어 인식 시스템

- 발음의 형태에 따라 고립어 인식 시스템과 연속어

인식 시스템으로 분류

Page 14: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요 1) 고립어 인식 시스템 - 짧은 음성명령이나 간단한 음성제어 등에 주로 사용 - 숫자음을 인식하여 음성버튼으로 사용하는 경우 「 1」이라는 다이얼 버튼을 누르는 대신 「일」이라

말함 - 각 단어가 또박또박 발음되고 각 단어 사이에 충분한 길이의 묵음구간이 존재한다고 가정 되야함 - 인식 초점이 각 단어가 다른 단어와 얼마나 다른가에 있고 인접한 단어의 영향은 무시 - 인식률 높고 구현하기 간단해 널리 이용되고 있으나 사용자 이용하기가 불편 ex) 현 휴대폰에서 사용되는 voice dialing

Page 15: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요 2) 연속어 인식 시스템

- 문장 단위로 인식을 수행하는 시스템 - 문장을 인식하기 때문에 사용자가 단어 단위로 끊어 발음하지 않아도 됨 - 문장은 평상시와 같이 발음되며 , 특별히 단어 사이의 묵음은 첨가되지 않음 - 연속어 경우 , 한 단어 특성이 인접한 단어의 발음에 의하여 영향을 받는데 , 이를 조음효과 (Coarticulation Effect) 라 한다 - 조음효과는 연속어인식을 어렵게 한다

Page 16: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요

1. 음성인식 시스템의 종류

다 . 소용량 시스템과 대용량 시스템

- 어휘수에 따라 소용량 시스템과 대용량 시스템으로

분류

Page 17: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요 2. 음성 특징 추출방법 가 . LPC(Linear Predictive Coding) 추출 - 과거의 일정 개수의 샘플값들에 계수를 각각 곱하고 이를 총 합한 값으로 현재의 샘플값을 예측하려는 시도에서 출발 - 계수는 선형예측계수 (LPC) 라 하고 전달함수 입장에 보았을 때 전극 (All-pole) 모델을 이룸 - LPC 를 추출하는 과정으로는 구간내 자기상관계수를 구하고 이를 재귀적인 방법을 통해서 빠르게 계산 - LPC 계수를 기반으로 하여 음성인식에 효과적인 켑스 트럼 계수로 변환하여 사용

Page 18: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요

2. 음성 특징 추출방법 나 . MFCC(Mel Frequency Cepstral Coefficients) 추출 - 사람의 귀가 주파수 변화에 반응하게 되는 양상이 선형적이지 않고 로그스케일과 비슷한 멜스케일을 따르는 청각적 특성 반영한 켑스트럼 계수 추출 방법 - 멜 스케일에 따르면 낮은 주파수에서 작은 변화에 민감히 반응하지만 , 높은 주파수로 갈수록 민감도가 작아지므로 특징 추출시에 주파수 분석 빈도를 이와 같은 특성에 맞추는 방식

Page 19: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요

2. 음성 특징 추출방법

다 . 고역강조 (Pre-emphasis)

- 성문신호 영향을 최소화하여 음성과 잡음의 구분을

뚜렷하게 하기 위해 고주파 성분을 강조

- 하나의 차수를 갖는 전달 함수로 표현되며 시간상에

1 차의 미분 형태로 구현

Page 20: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요

2. 음성 특징 추출방법

라 . 창 함수 (Windowing)

- 특징 추출 과정은 음성신호를 짧은 길이의 구간으로

나누어 분석하는 것이 일반적

- 구간으로 나누는 과정에서 구간사이의 신호의 연속

성이 반영되지 못하여 주파수 왜곡현상이 발생

- 구간 앞뒤에서의 신호의 단절로 인한 왜곡현상을

최소화하기 위해서 구간 앞뒤를 감쇠시킨 형태의

창 함수 값을 신호 성분에 곱하여 분석

Page 21: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요

3. 음성 인식 방법 가 . VQ(Vector Quantization) - 연속 혹은 떨어진 벡터들을 코드 북과 mapping 시켜 통신하기에 적절한 digital sequence 로 부호화하는 방법 - VQ 의 목적은 데이터 감축으로 데이터의 충실도를 잃지 않으면서 비트율의 감소 - 스칼라 대신 벡터 코딩 방식을 사용하는 것은 데이터 감축에 있어 스칼라 대신 벡터로 조합된 신호를 코딩 하는 것이 적은 데이터 율로서 좋은 성능을 얻을 수 있기 때문

Page 22: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요 3. 음성 인식 방법 나 . HMM ( 통계적 패턴 인식을 이용 ) - 음성단위에 해당하는 패턴들에서 통계적인 정보를 확률모델 형태로 저장하고 미지의 입력패턴이 들어 오면 각각의 모델에서 이 패턴이 나올 수 있는 확률 계산 - 음성신호를 상태천이확률과 각 상태에서의 관찰확률 이라는 두 단계에 걸친 확률과정으로 표현 - 현재 음성인식을 위한 패턴인식 방법으로 가장 널리 사용 - 통계적 언어모델 사용될 경우 HMM 방법은 음성처리 및 언어처리를 단일구조로 처리할 수 있다는 장점

Page 23: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요 3. 음성 인식 방법

다 . DTW ( 템플릿 기반의 패턴 매칭 방법을 이용 )

- DTW 을 이용한 음성인식 시스템은 화자종속 고립어

인식시스템 구성에 주로 이용

- 인식률이 높다

- 단어 수가 증가하면 계산량이 상당히 늘어난다

Page 24: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요 4. 음성인식기술의 발전과정 가 . 국외 발전과정 1) 1970 년대 - 미국방성 주도 ARPA 프로젝트 일환으로 연속음성 인식에 대한 본격적인 연구 시작 - 음성합성 시스템 개발 및 최초 상품화 2) 1980 년대 - 미국 DEC 사 음성 합성기 DECtalk 를 비롯 다양한 음성합성 시스템을 상품화 - 공동이용 목적의 대형 음성 DB 구축을 시작 - 통계적 모델링 방법에 의한 음성인식 방식을 정착 - 고립단어인식 기술에 의한 Dictation 프로그램을 상품화

Page 25: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요 4. 음성인식기술의 발전과정 가 . 국외 발전과정 1) 1990 년대 - LDC, ELRA 등 공통 DB 보급기관 설립 전화교환 등 전화망을 통한 서비스를 시작 - 대용량 DB 기반의 음성합성방식을 개발 - 연속음성인식기술에 의한 Dictation 프로그램을 상품화 - 다수의 음성인식 및 음성합성 칩을 개발 2) 2000 년대 - Voice portal 서비스가 본격화 - 가전 , 자동차 , 컴퓨터 , 정보단말 등의 분야에서 음성기술의 응용분야가 급속히 확산되는 추세

Page 26: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요 4. 음성인식기술의 발전과정 나 . 국내 발전과정 1) 1980 년대 ~ 1990 년대 초 - 음성인식이 운영체제와 함께 출현 - 대학 , 출연연구소 등에서 음성기초연구가 시작 - 'TTS' 기능이 탑재된 PC 광고를 대대적으로 하면서 컴퓨터와 음성인식기술이 하나로 합쳐진 다양한 실험들이 출현 2) 1990 년대 중반 - 음성에 의한 증권조회 서비스와 음성통역 기초 연구가 시작 - 음성 전문기업이 등장

Page 27: 음성인식 기술의 개요와 최근 동향

제 2 장 음성인식 기술의 개요 4. 음성인식기술의 발전과정 나 . 국내 발전과정 1) 2000 년대 초반 - 음성기술전문 및 응용기업 급증 - 정부의 관심이 집중되었으며 협회 , 협의회 , 지원 센터 등이 설립 - 타산업분야로 응용이 대폭 확대될 것으로 예상 2) 2000 년대 중반 - 음성이 man-machine interface 주력 수단 역할 - 전 산업분야에 음성정보기술이 응용 확산

Page 28: 음성인식 기술의 개요와 최근 동향

제 3 장 결 론 1. 각 국가별 음성인식 기술의 추진 동향 가 . 국외기술 동향 1) 미국 - 국방부 - 산하 DARPA(Defense Advanced Research project Agency) 의 장기적인 지원하에 국가적인 규모의 연구개발을 체계적으로 진행 - 1992 년 대학 , 기업 , 정보연구기관과 컨소시엄 형태로 LDC(Linguistic Data Consortium) 를 구성 - 음성 및 텍스트에 관한 코퍼스 및 데이터의 수집 및 배포

Page 29: 음성인식 기술의 개요와 최근 동향

제 3 장 결 론 1. 각 국가별 음성인식 기술의 추진 동향 가 . 국외기술 동향 2) 유럽 - 1983 년부터 ESPRIT프로젝트를 중심으로 하여 현 재까지 약 40 여개의 프로젝트를 수행 - 최근 대화체 음성인식과 사회적 요구에 중심을 둔 새로운 프로젝트들이 진행중 - 텍스트와 텍스트 - 음성 변환 시스템 , 대화 시스템 등 광범위한 연구가 진행 - EU의 지원하 유럽각국의 국가연구소 , 대학 , 기업 들이 컨소시엄 형태로 장기개발 계획 추진중 - 1995년에 ELRA(European Language Resources Association) 를 설립 음성언어자원을 개발 보급

Page 30: 음성인식 기술의 개요와 최근 동향

제 3 장 결 론 1. 각 국가별 음성인식 기술의 추진 동향 가 . 국외기술 동향 3) 일본 - 1986년이래 15년간의 장기 계획으로 자동통역 전화개방을 추진 - 1987 년에는 국가 주도에 의한 인간과 기계와의 구어체 대화를 목표로 하는 “ Advanced Man- Machine Interface Through spoken Language" 계획이 시작 - 통산성 , 우정성 등의 지원하에 산학연 컨소시엄 형태의 지속적인 연구개발 추진 - 미국 및 유럽과 같은 컨소시엄 없으나 최근 언어 데이터 공유계획 준비중

Page 31: 음성인식 기술의 개요와 최근 동향

제 3 장 결 론 1. 각 국가별 음성인식 기술의 추진 동향 가 . 국외기술 동향 4) 세계시장규모 - 가전 , 게임 , 정보통신 등의 기존 시스템 분야에 음성인식 및 합성기술이 추가되면서 고속 성장

세계 시장 규모

( 단위 : 억불 )

구분 1999년  2003년 2005년 연평균증가율음성기술산업 24 384 900 82.9

디지털가전 165 1,099 1,243 38.8

반도체 1,554 2,125 3,000 11.5

Page 32: 음성인식 기술의 개요와 최근 동향

제 3 장 결 론

1. 각 국가별 음성인식 기술의 추진 동향

나 . 국내시장 기술 동향

1) 1980 년도에 본격적인 음성인식에 관한 연구

2) 한국전자 통신 연구소의 자동통역시스템 , 한국통신

증권정보안내시스템 , 삼성전자의 음성구동 퍼스널

컴퓨터 , 음성구동 셀룰러폰 ( 삼성 /LG), 음성메모장치

(공성통신 ) 등이 개발됨

3) 음성에 의한 로봇제어에 관한 연구와 음성에 의한

자동항법 장치 등에 관한 연구도 활발히 진행

Page 33: 음성인식 기술의 개요와 최근 동향

제 3 장 결 론

1. 각 국가별 음성인식 기술의 추진 동향

나 . 국내시장 기술 동향

4) 1999 년부터 응용개발상품 출시 , 시장 형성기 진입

5) 2000 년도부터 전화망에서의 시장형성 , 산업으로

태동

6) 현재 음성기술산업의 비중은 타 산업 대비 저조하나

최근의 기술개발과 산업화 추세로 향후 급격히 커질

것으로 전망

Page 34: 음성인식 기술의 개요와 최근 동향

제 3 장 결 론

1. 각 국가별 음성인식 기술의 추진 동향

나 . 국내시장 기술 동향

7) 국내시장은 2000 년 1 억불 규모로 연평균 75% 이상

성장할 것으로 전망

연도 1999년  2000년 2001년 2002년 2003년

시장규모 60 107 248 389 573

국내 시장 규모

( 단위 :백만불 )

Page 35: 음성인식 기술의 개요와 최근 동향

제 3 장 결 론

1. 각 국가별 음성인식 기술의 추진 동향

나 . 국내시장 기술 동향

8) 시장환경 호조 및 벤처기업 열풍 등으로 90 년대

말부터 100 여개 업체가 창업

9) 5% 업체만이 원천기술을 보유하고 있으며 대부분

내수중심이나 일부 선도기업은 중국 , 미국 등 해외

진출중

10) 음성인식 칩과 음성 인터넷 브라우저 개발 , 일부

업체에서 Voice Portal 서비스 개시

Page 36: 음성인식 기술의 개요와 최근 동향

제 3 장 결 론 2. 음성인식 기술이 최근 주목 받는 이유

가 . 이유 1) 음성인식 기술이 상용화 단계로 올라서고 , 인터넷과 결합되어 다양한 시너지 효과 창출이 기대 2) 휴대용 디바이스에 음성인식 기술이 접목되면 음성 으로 인터넷 정보 이용 , 전자상거래 이용 , 자유로운 이동뿐만 아니라 음성 주파수를 인식하기 때문에 보안성도 좋음 3) 인터넷을 말로써 제어함으로써 차량 이동 중이나 기타 행동의 제약을 줄여줌

Page 37: 음성인식 기술의 개요와 최근 동향

제 3 장 결 론

2. 음성인식 기술이 최근 주목 받는 이유

가 . 이유

4) 음성 컨텐트를 공급 , 소비함으로써 유저의 다양한

필요를 충족

5) 대부분 포탈이 보이스 채팅 , 음성메일 , 음성 팩스 ,

음성개인 정보관리 , 날씨와 증권정보등을 음성으로

서비스

Page 38: 음성인식 기술의 개요와 최근 동향

제 3 장 결 론 3. 음성인식기술의 최신동향과 전망

- 미국에서 가장 오래된 과학기술저널인 ‘MIT 테크놀로지

리뷰지’가 21 세기 과학과 기술은 선도하게 될 젋은 지성

100 인을 선정하여 이들에게 과학과 기술의 발전전망에

대해 물어본 결과 “향후 10 년간 음성인식 기술의 발달이

소프트웨어 분야의 가장 두드러진 특징이 될 것” 이라고

전망했다 . 』

- 최근 음성인식기술은 미국 중심으로 구체적 응용분야가

개척되어오고 있고 멀티모드 /멀티미디어 환경속에서의

다른 미디어와 통합에 관한 연구가 진행

Page 39: 음성인식 기술의 개요와 최근 동향

제 3 장 결 론 3. 음성인식기술의 최신동향과 전망

- 다른 미디어와 통합에 관한 연구가 진행

※ 정보기기의 입출력 인터페이스 , 자동차 네비게이션

시스템 , 시각 장애자를 위한 서비스 시스템 , 대화형

자판기 , 대화형 Robot 등

- 국내적으로 하루 빨리 대규모 한국어 음성데이터베이스

구축으로 많은 음성연구자들이 공동으로 이용 서로의

연구결과를 평가하고 , 그 결과를 공유할 수 있는 기반이

조성되어야 할 것으로 생각

Page 40: 음성인식 기술의 개요와 최근 동향

참 고 문 헌가 . 음성인식개요 - http://kin.naver.com/browse/db_detail.php?d1id=11&dir_id=

110209&docid=325447&ts=1062477935

나 . 음성인식 ( 실시간통역기의 실용화의 시기 )

- http://kin.naver.com/open100/entry.php?docid=104210

다 . 음성인식 기업 코원

- http://www.cowon.com/cowon/3_3.html

라 . “음성인식기술”

- 박원배 지음 , 아이런닷컴 [출판 ]

마 . “음성인식”

- 이건상 지음 , 한양대학교출판부 [출판 ]

Page 41: 음성인식 기술의 개요와 최근 동향

I love you so much

감사합니다 ^^