(Speech Recognition for the Korean Vowel ‘ㅣ Waveform ... · 이미 애플과 삼성, 구글, 네이 버, 다음 등 다양한 기업에서 제공하고 있는 음성인식 서

ISSN 2383-6318(Print) / ISSN 2383-6326(Online)

KIISE Transactions on Computing Practices, Vol. 22, No. 2, pp. 69-76, 2016. 2

http://dx.doi.org/10.5626/KTCP.2016.22.2.69

․이 논문은 2015년도 정부(교육부)의 재원으로 한국연구재단 기 연구사업

지원을 받아 수행된 것임(NRF-2013R1A1A2013155)

․본 연구는 숙명여자 학교 교내연구비지원에 의해 수행되었음(과제번호 1–

1503-0169)

논문 수 : 2015년 10월 14일

(Received 14 October 2015)

논문수정 : 2015년 11월 18일

(Revised 18 November 2015)

심사완료 : 2015년 11월 26일†

††

†††

비 회 원

종신회원

정 회 원

:

:

:

숙명여자 학교 멀티미디어과학과

[email protected]

숙명여자 학교 멀티미디어과학과 교수

(Sookmyung Women's Univ.)

[email protected]

(Corresponding author임)

성신여자 학교 IT학부 교수

[email protected]

(Accepted 26 November 2015)

CopyrightⒸ2016 한국정보과학회ː개인 목 이나 교육 목 인 경우, 이 작물

의 체 는 일부에 한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때,

사본은 상업 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처를 반드시

명시해야 합니다. 이 외의 목 으로 복제, 배포, 출 , 송 등 모든 유형의 사용행

를 하는 경우에 하여는 사 에 허가를 얻고 비용을 지불해야 합니다.

정보과학회 컴퓨 의 실제 논문지 제22권 제2호(2016. 2)

형 특징 추출과 신경망 학습 기반 모음 ‘ㅣ’ 음성 인식

(Speech Recognition for the Korean Vowel ‘ㅣ’ based on Waveform-feature Extraction and Neural-network Learning)

노 원 빈† 이 종 우

†† 이 재 원

†††

(Wonbin Rho) (Jongwoo Lee) (Jaewon Lee)

요 약 최근 모든 산업에서 사물인터넷에 한 심이 집 되면서 집, 회사, 차, 길거리 등 인간이 생

활하는 모든 환경에 컴퓨 기술이 목되고 있다. 이 같은 사물인터넷 환경에서 음성인식은 요한 HCI

수단으로 자리 잡고 있다. 존하는 서버 기반의 음성인식은 속도가 빠르고 꽤 높은 인식률을 보여주고는

있지만, 데이터베이스 내에 장되어 있는 단어 단 로 인식하기 때문에 인터넷 연결과 복잡한 컴퓨 이

필수 이다. 본 논문은 한국어 음소 모음 ‘ㅏ’, ‘ㅓ’ 인식에 한 휴리스틱 알고리즘에 이은 연구로 모음

‘ㅣ’에 한 음성 인식을 구 하고자 한다. 모음 ‘ㅣ’ 음성의 여러 형 패턴들을 찰한 결과 모음 ‘ㅏ’,

‘ㅓ’와는 다른 특정한 형의 패턴을 가지고 있음을 발견하 고, 그 패턴을 인식하는 알고리즘을 제시한다.

한, 제시한 알고리즘에 신경망 학습을 용하여 인식성공률을 높이는 실험 결과도 제시한다. 모음 ‘ㅣ’에

한 본 알고리즘은 형의 특징 인 부분 추출 기반으로 인식하며, 신경망 학습까지 용한 후 실험한

결과 90% 이상의 정확도로 모음 ‘ㅣ’를 인식하는 것을 확인하 다.

키워드: 음성인식, 모음, 형특징 , ‘ㅣ’, 신경망

Abstract With the recent increase of the interest in IoT in almost all areas of industry, computing

technologies have been increasingly applied in human environments such as houses, buildings, cars,

and streets; in these IoT environments, speech recognition is being widely accepted as a means of HCI.

The existing server-based speech recognition techniques are typically fast and show quite high

recognition rates; however, an internet connection is necessary, and complicated server computing is

required because a voice is recognized by units of words that are stored in server databases. This

paper, as a successive research results of speech recognition algorithms for the Korean phonemic

vowel ‘ㅏ’, ‘ㅓ’, suggests an implementation of speech recognition algorithms for the Korean phonemic

vowel ‘ㅣ’. We observed that almost all of the vocal waveform patterns for ‘ㅣ’ are unique and different

when compared with the patterns of the ‘ㅏ’ and ‘ㅓ’ waveforms. In this paper we propose specific

waveform patterns for the Korean vowel ‘ㅣ’ and the corresponding recognition algorithms. We also

presents experiment results showing that, by adding neural-network learning to our algorithm, the

70 정보과학회 컴퓨 의 실제 논문지 제 22 권 제 2 호(2016. 2)

voice recognition success rate for the vowel ‘ㅣ’ can be increased. As a result we observed that 90% or

more of the vocal expressions of the vowel ‘ㅣ’ can be successfully recognized when our algorithms are used.

Keywords: Speech recognition, Vowel, Waveform feature, ‘ㅣ’, Neural network

1. 서 론

최근 모든 산업에서 사물인터넷에 한 심이 집 되

고 있다. 집, 회사, 차, 길거리 등 인간이 생활하는 모든

환경에 컴퓨 기술이 목될 수 있게 되었기 때문에 생

활공간 자체가 인터넷 환경이 되었다. 이러한 환경 속에

서 수많은 기기를 인간이 쉽게 제어할 수 있도록 하는

서비스를 제공하기 해서는 인간-기계 소통의 요성이

더욱 부각 되었다. 재 인간이 편리하게 기기를 제어하

는 기능으로는 음성 인식이 가장 많이 사용되고 있으며

보편 으로 자리 잡았다. 이미 애 과 삼성, 구 , 네이

버, 다음 등 다양한 기업에서 제공하고 있는 음성인식 서

비스를 많은 사용자들이 편리하게 이용하고 있다.

하지만 이 같은 존하는 음성인식 서비스에는 서버

기반의 음성인식 기술이 사용되고 있다. 서버 기반의 음

성인식은 속도가 빠르며 꽤 높은 인식률을 보여주고 있

지만, 데이터베이스 내에 장되어 있는 단어 단 로 인

식하기 때문에 인터넷 연결과 복잡한 컴퓨 이 필수

이다. 한 데이터베이스 내에 인식 단어가 없을 경우

가장 유사한 단어를 제시해 으로써 사용자가 원하지

않는 단어가 제공되는 경우가 많아 불편할 때도 많다.

본 논문에서는 한국어 음성 인식의 기본 단 로 음소

를 사용하 으며 그 모음 ‘ㅣ’에 한 음성 인식을

구 한다. 모음 ‘ㅣ’ 음성의 여러 형 패턴들을 찰한

결과 모음 ‘ㅏ’, ‘ㅓ’와는 다른 특정한 패턴을 가지고 있

음을 발견하 다. 인식률을 높여 수 있도록 그 특정

패턴 집합에 해 신경망을 용하여 학습시켜 패턴을

인식하는 알고리즘을 제시한다. 제시한 알고리즘을 학습

/검증 음성 집합이 아닌 새로운 상의 음성집합에

해 실험하여 모음 ‘ㅣ’에 한 본 알고리즘의 인식 성능

을 평가하 다.

본 논문의 구성은 다음과 같다. 먼 2장에서 본 연구

와 련된 음성 인식 연구에 해서 소개한다. 3장에서

는 모음 ‘ㅣ’ 형의 특징을 악하여 패턴을 분석하고,

이를 인식하기 한 알고리즘을 제안한다. 4장에서는 이

를 구 한다. 5장에서는 본 논문에서 제안한 모음 ‘ㅣ’

인식 알고리즘의 성능을 실험하고 평가한다. 6장에서 결

론을 맺는다.

2. 련 연구

음성의 경우 동일한 단어라도 발성자의 습 이나 성

별, 지속 시간의 차이, 그리고 조음 환경에 따른 조음

결합 상 등의 향으로 동일한 단어라도 그 특성이

다르다. 이러한 특성 때문에 컴퓨터가 음성을 정확히 인

식하는 것은 매우 어렵다. 재까지 개발된 음성인식 시

스템은 부분 으로 음성을 어느 정도 인식하는 수 에

머물러 있으며, 오히려 인식된 음성을 분석하는 역만

이라도 높은 성능을 나타내도록 하는 연구가 활발히 이

루어지고 있다[1,2].

최근까지 많이 사용되고 있는 음성인식 기술에는

HMM(Hidden Markov Model)이 있다. HMM은기

패턴이 되는 단어 에서 테스트 패턴과의 유사도를 계

산하여 그 가장 비슷한 단어로 인식하는 기본 철학

으로 시작한다[3]. 한, TDNN 구조를 이용한 음소 인

식 시스템은 Waibel에 의해 제안된 음운 식별용 신경망

으로 화자종속 음운 인식에 있어서 매우 높은 인식률을

나타내는 시스템이다[4]. 자음/모음 인식기, 자음그룹 인

식기와 모음그룹 인식기, 각 음소 그룹에서의 음소인식

기로 나 어져 있으며, 각각의 인식기는 TDNN으로 구

성되어 있다. 연속 단어 화자 독립이나 실시간처리가 아

니며 모음의 인식률이 80%정도로 낮은 편이다[3].

기존 연구로는 스마트폰 환경에서 실시간 모음 음성

인식을 이용하여 마우스 제어 방법에 용한 연구가 있

다[5]. 스마트폰에서 실시간으로 음성 신호를 입력받아

핵심 음성신호를 추출하고 MFCC(Mel Frequency Cep-

stral Coefficient)를 이용하여 특징을 추출한다. 학습되

어 있는 코드 북을 이용하여 양자화를 진행하고 HMM

을 이용하는 방법이다. 이 연구에서는 HMM이 가지는

시간지연성 때문에 다른 별알고리즘을 권고하고 있다.

본 연구에는 HMM을 사용하지 않고 공통특징을 추출하

는 기법을 사용하기 때문에 [5]와는 근법이 다르다.

음소를 기본 단 로 하는 한 음성인식 련연구는

‘ㅅ’, ‘ㅈ’, ‘ㅊ’ 인식에 한 연구가 있다[6]. 한국어 마찰

음인 ‘ㅅ’, ‘ㅆ’, ‘ㅎ’과 찰음인 ‘ㅈ’, ‘ㅉ’, ‘ㅊ’에 한

형을 분석하여 동일한 특징을 가지고 있는 ‘ㅅ’, ‘ㅈ’, ‘ㅊ’

을 묶어서 인식하고자 했다. 부호 분포와 부호 분포 변

동성이라는 새로운 지표를 제안하여 이를 이용해 찰

음과 열음을 구분하 다. 기존의 교차율(ZCR)방법

에 비해 정 하게 형을 분석하여 찰음과 열음을

구별한다. 한, [7]에서는 입력 음성 신호를 구성하는

각각의 블록에 해 계산되는 변동성 지표와 환 지

표를 결합하여 음소 인식을 수행하는 인식 알고리즘을

제시하 다.

한, 본 연구의 선행 연구로 모음 ‘ㅏ’ 인식 연구[8]

과 모음 ‘ㅓ’ 인식 연구[9]가 있다. 모음 ‘ㅏ’과 ‘ㅓ’의

형 특징 추출과 신경망 학습 기반 모음 ‘ㅣ’ 음성 인식 71

그림 1 음성 형 특징 추출 과정

Fig. 1 Processing for extracting features of waveform

형을 분석하고 공통 특징을 추출하여 각각의 모음에

해 인식하고자 했다. [8]과 [9]에서 사용한 형 시 스

공통 특징 추출 과정은 그림 1과 같은데 첫 번째 단

계는 음성 데이터를 입력한 뒤, 형을 수치화하는 것이

다. 형의 마디와 마디 사이 형태, 진폭과 주기를 분석

하여 모음 형 모형에 해서 특정 구간의 특징 인

부분을 추출하고 구간을 설정한다. 추출한 특징구간을

가지고 음성 데이터 분석을 시작한다. 음성 데이터의

형 내에 모음 ‘ㅏ’, ‘ㅓ’의 특징을 가지고 있는 구간이 많

이 검출되면 검출되는 만큼의 정수 값의 수치가 높게

나타나게 된다. 이 수치가 높을수록 모음 ‘ㅏ’ ‘ㅓ’라고

별되는 확률이 증가되며 출력 결과로는 수치가 나타

나는 동시에 ‘ㅏ’, ‘ㅓ’라고 별을 하게 된다. 한, 기존

의 과정에서 검출된 정수 값을 이용하는 신경망 학습을

추가하 다.

모음 ‘ㅏ’와 ‘ㅓ’는 비슷한 형 형태를 가지고 있다.

그림 2와 그림 3은 모음 ‘ㅏ’와 ‘ㅓ’의 형 인 형으

로, 두 모음의 첫 번째 형 구간을 보면 A가 B와 C보

다 상 으로 두껍지만, ‘ㅏ’의 A가 ‘ㅓ’의 A보다 더 얇

다는 것에 의해 ‘ㅏ’와 ‘ㅓ’는 A구간을 통해 구별할 수

있다. 모음 ‘ㅏ’에 한 연구는 90%이상 모음 ‘ㅏ’를

별해낼 수 있는 우수한 성능을 보여주었으며, 모음 ‘ㅓ’

의 인식률은 약 82% 정도로 ‘ㅏ’에 비해서는 부족한 인

식률을 보 다.

본 연구는 모음 ‘ㅏ’, ‘ㅓ’ 인식에 한 이은 연구로써

모음 ‘ㅏ’와 모음 ‘ㅓ’에 이어 같은 설계 방법으로 모음

‘ㅣ’에 한 형을 분석하 으며, ‘ㅏ’와 ‘ㅓ’에서는 용

그림 2 형 인 모음 ‘ㅏ’ 형의

Fig. 2 Example of typical waveform of vowel ‘ㅏ’

그림 3 형 인 모음 ‘ㅓ’ 형의

Fig. 3 Example of typical waveform of vowel ‘ㅓ’

하지 않았던 신경망을 추가 으로 용하여 모음 ‘ㅣ’를

인식한 연구라 할 수 있다.

3. 모음 ‘ㅣ’ 인식

모음 ‘ㅣ’ 인식을 한 실험 방법은 선행 연구[8,9] 설

계와 동일하게 진행하 다. 그 과정은 2장 기존 연구에

서 설명하 다. 모음 ‘ㅣ’에 한 인식도 같은 과정으로

형의 공통 특징을 추출한다. 모음 ‘ㅣ’ 형에서 반복

으로 나타나는 특징 인 형을 분석하는 과정은 다

음과 같다.


그림 4 형 인 모음 ‘ㅣ’ 형

Fig. 4 Typical waveform of vowel ‘ㅣ’

그림 5 그림 4의 A, B구간을 확 한 ‘ㅣ’ 형

Fig. 5 Waveform of vowel ‘ㅣ’ by magnifying sections

A and B of Figure 4

그림 4는 음성데이터 단어 ‘지네다리’ ‘리’의 ‘ㅣ’에

해당하는 형을 나타내고 있다. 실험에 사용된 수백 개

의 ‘ㅣ’ 형들을 찰해본 결과도 이와 유사했는데 그

림 4에 있는 A, B 형이 연속 으로 계속 반복됨을

알 수 있었다.

그림 5는 반복되고 있는 그림 4의 A, B부분을 확

한 형으로, 모음 ‘ㅏ’의 형 그림 2와 ‘ㅓ’의 그림 3에

비해 형의 고 변화가 심하고 기울기가 매우 격하

게 변하는 특징을 보이고 있다. 따라서 변하는 기울기

에 한 크기 값과 몇 번 기울기 부호가 변하는지, 주된

기울기 부호에서 역행하는 기울기를 별하면 모음 ‘ㅣ’

의 특징을 알아낼 수 있다.

3.1 형의 고 변화 값 변동성

먼 특징 별에 필요한 용어를 정의하고자 한다.

형의 부호가 바 기 직 의 값들의 집합을 벌크(bulk)라

고 정의한다. 형의 값은 모든 음성 데이터의 형을

수치화하면서 진폭과 주기를 각각 일정한 값으로 나

어 단 길이를 설정하 으며 형의 길이를 정수 값으

로 나타내었다. 단 길이는 1이다.

그림 5의 A 형 치()를 찰한 결과, A가

번째 벌크라고 가정하면 번째 벌크는 축 아래에

치하고 있으며, 벌크의 길이()는 25 이상의 값

을 가지고 있었다. 이를 수식화하면 식 (1)과 같다.

단는파형의함수라가정

(1)

A부분의 변하는 기울기에 한 크기 값을 구하는

방법은 그림 6과 같다. 번째 벌크의 가장 피크 지 을

찾아 피크부분으로부터 20만큼 떨어진 왼쪽과 오른쪽 부

분으로 나 다. 벌크의 시작 부터 피크지 까지의 주

기울기에 역행하는 기울기들의 정수 값을 더한다. 피크

지 부터 벌크의 마지막 까지 주 기울기에 역행하는

기울기들의 정수 값을 더한다. 이는 형의 고 변화 값

변동성을 이용하려는 방법이다. 이 두 정수 값이 2000을

넘기면 모음 ‘ㅣ’가 가지는 특징을 추출한 형이다. 해당

특징 형이 많이 검출되면 모음 ‘ㅣ’를 가진 음 이라

할 수 있다. 이 값을 변동성-A(variability-A)로 정의한다.

그림 5에서 형 A와 B의 구간에서 특히 기울기 부

호가 많이 변동되는 구간을 찾아 주된 기울기 부호에서

역행하는 기울기를 별하는 방식은 그림 7과 같다. 앞

의 방법과 다른 것은 형 A만 보는 것이 아니라 형

B까지 용한 구간으로 형 A와 B에 걸쳐서 볼 수 있

는 가장 변동성이 큰 구간을 찾는다. 이를 변동성-AB

(variability-AB)로 정의한다.

그림 7에서 포인트는 top, bottom, mid가 있다. mid

는 첫 번째 특징 인 벌크인 A부터 다음 특징 벌크인

A’까지의 심 으로, top은 제일 낮은 피크인 bottom

부터 mid까지 탐색하여 제일 정수 값이 높은 지 을

top으로 값을 얻는다. 그 후 다른 포인터가 bottom부터

top까지 주된 기울기에서 역행하는 값들이 얼마나 나오

는지에 해서 단하게 된다. 이 방법을 통해 형 A

부터 B까지 걸친 구간에서 가장 부호 변동이 큰 구간을

찾을 수 있게 된다.

그림 6 형의 고 , 기울기 특징 별

Fig. 6 Determining features about highlow and slope of

waveform


그림 8 모음 ‘ㅣ’의 신경망 학습과정

Fig. 8 Neural-network-learning process of vowel ‘ㅣ’

그림 7 형 A, B에 걸친 큰 고 변화를 보이는 구간

Fig. 7 A part showing a large highlow variability over

the waveforms A and B

3.2 형의 고 변화 수

모음 ‘ㅣ’를 가진 음성 형 구간 A, B에 해서 격

하게 기울기 부호의 증감이 몇 번 이루어졌는지에 한

특징은 한 벌크에서 기울기 부호가 변하는 지 을 별

하면 알 수 있는데, 이 지 의 개수가 많으면 ‘ㅣ’에

한 특징이라고 할 수 있다. 이는 고 변화 개수를 의미

하는 highlow라고 정의한다. 한, wave는 음성 데이터

가 가진 모든 벌크에 해서 2개로 나 구간에 해서

형에 정해놓은 수치 이상의 격한 증감이 있었는지

에 한 별을 하는 변수이다. 지 까지 실험한 모든

모음에 해서 모음 ‘ㅣ’만이 가진 특징으로 highlow와

wave에 해서 유독 높은 수치를 나타내고 있었다. 모

음 ‘ㅏ’와 ‘ㅓ’는 불규칙하게 낮은 값들을 보여주고 있는

반면에 모음 ‘ㅣ’는 ‘ㅏ’와 ‘ㅓ’에 비해 매우 높은 수치를

보여주고 있는 것이다. 3.1 은 규칙 으로 나타나는 하

나의 형 A의 고 변화 값과 두 형 A, B에 걸친

고 변화 값을 기 으로 하 다면 3.2 은 변화의 개수

를 기 으로 설명한 것이다.

3.3 모음 ‘ㅣ’ 형특징에 한 신경망 학습

기존 연구에서는 다양한 형을 통해 추출되는 특징

들을 정수 값으로 계산하여 해당 모음으로 정의하 다.

그러나 추출된 특징의 인식 결과에 해서 불특정한 정

수들의 값을 가지고 있었기 때문에 하나의 특징에 한

튀는 값이 있을 경우, 해당 모음이라고 정의하기에 번거

로움이 있었다.

신경망 학습은 이와 같이 분산된 특징 정보를 신경망

을 통해 상호 연결할 수 있다. 한, 하나의 특징에 오

인식을 유발시키는 결함이 발생하더라도 체 인 인식

시스템에 향을 주지 않도록 하는 장 이 있기에 신경

망을 도입하 다. 한, 간단한 라미터를 신경망에 입

력하여 나온 가 치를 이용하는 방식은 복잡한 컴퓨

이 필요하지 않다.

신경망 도입 과정은 다음과 같다. 학습하려는 모음

‘ㅣ’의 패턴들을 가진 단어 수백 개를 학습 집합 로 정

의한다. 집합 에 해 3.1 의 추출한 모음 ‘ㅣ’의 특징

라미터를 가 치를 계산하여 학습시킨다. 신경망에

용되어 모음 ‘ㅣ’에 한 패턴이 학습된 ′을 검증집합

와 연산하여 최종 인식 결과를 나타낸다. 집합 의

입력벡터는 식 (2)와 같다.

⇒ ≧ ≧

(2)

이때 ′에 용된 입력벡터는 ,과 , ,

는 3.1 에서 설명한 변동성-A와 형 치,

형의 길이이다. 3.2 에서 설명한 고 변화 수의 변

수인 와 는 특징 추출로써의 역할을 하며

신경망 학습에는 포함되지 않았다.

실험은 학습에 참여하지 않은 단어들의 집합인 검증

집합 내에서 진행한다. 그림 8과 같은 과정으로 모음

‘ㅣ’에 한 특징을 학습하여 출력 값으로 0이면 모음

‘ㅣ’가 아닌 형인 것으로 별, 1이면 모음 ‘ㅣ’를 가진

형으로 인식결과를 보여 다. 출력벡터는 식 (3)과 같다.

′⋅

∋ ≠ ′ㅣ′ ∈ ′ㅣ′ ∈

단 ′ 신경망적용된집합⋅

검증집합 출력벡터

(3)

4. 모음 ‘ㅣ’ 인식 구

본 실험의 구 환경은 Window7 운 체제에서 Visual

Studio 2010이다. 모음 ‘ㅣ’의 특징을 추출하여 인식하는

구 과정은 3장에서 설명한 기울기 형 고 의 특

징 추출을 토 로 알고리즘을 설계하여 구 하 다. 잡


음이 들리는 환경에서 진동수가 높게 나오는 데이터는

부호변화와 변동성을 이용하여 자동 삭제되도록 설계하

다. 3.1 의 고 변화 변동성의 변동성-A는 그림 9

와 같은 코드와 그림 10으로 나타낼 수 있다.

그림 9는 3.1 의 내용을 코드로 그 로 나타낸 것이

다. 벌크의 치가 축 아래에 있으며 벌크의 길이가

25 이상의 형만 별하여 그 구간 내에서 피크지 을

심으로 양 쪽으로 주된 기울기에 역행하는 기울기들

의 정수 값을 더해주고, 그 길이의 값들이 2000이 넘으

면 모음 ‘ㅣ’라고 별되는 변수 determination count

값이 커진다. 변수 determination count가 높을수록 모

음 ‘ㅣ’를 가지고 있는 음 이라고 할 수 있다. 그림 10

은 코드를 한 과정을 설명한 것이다.

변동성-AB는 3.1 에서 설명한 내용을 그림 11과 같

은 코드로 나타낼 수 있다.

포인터 bottom과 mid, top을 구하고 bottom부터 mid

까지 탐색하여 제일 큰 integer값을 top에게 입하여

bottom부터 top까지의 역행하는 기울기의 값들을 합한

다. 그 값이 크기 때문에 모든 변동성-AB에 한 값들

은 일정한 값으로 나 어 실험에 용하 다.

if (bulksize[k]<0 && bulklength[k]>25)

for // main direction is negative

if (integer[i]-integer[i-1] > 0)

peak_left = integer[i]-integer[i-1]; …

for // main direction is positive

if (integer[i-1] - integer[i] > 0)

peak_right = integer[i-1]-integer[i]; …

if (peak_left>2000 && peak_right>2000)

determination count++;

그림 9 고 변화 변동성-A 코드

Fig. 9 Code of highlow-change variability-A

그림 10 고 변화 변동성 코드를 한 과정

Fig. 10 Process for coding of highlow change variability

그림 11 고 변화 변동성-AB 코드

Fig. 11 Code of highlow-change variability-AB

5. 실험 평가

3장, 4장에서 제시한 모음 ‘ㅣ’ 인식을 한 알고리즘

의 성능을 평가하기 해 총 단어 633개의 음성 데이터

로 실험하 다. 데이터 구축은 모음 ‘ㅓ’ 인식 성능을 평

가할 때 쓰 던 음성 데이터와 동일한 조건이다[9]. 음

성데이터는 총 남녀 8명의 발화자가 실험에 참가하여

음성 데이터는 16kHz, 16bit, 스트 오(stereo)로 녹음되

었다. 한 일반 인 잡음이 들리는 환경에서 스마트폰

을 이용하여 녹음된 데이터이다.

실험 결과는 표 1과 같다. 단어 633개에서 총 모음

‘ㅣ’의 개수는 413개이며, 모음 ‘ㅣ’에 한 인식을 올바

르게 인식한 개수는 375개이며, ‘ㅣ’라고 오인식된 개수

는 38개로 인식률은 약 90%이상으로 나타났다. 한,

최종 인식 별에서는 기존 연구에서 수행된 모음 ‘ㅏ’와

‘ㅓ’의 결과까지 확인 가능하다.

어 에 해서 phoneme은 어 이 가지고 있는 모음

에 한 변수이며, variability-A와 variability-AB는 변

동성에 한 정수 값이며 highlow와 wave는 고 변화

수에 한 정수 값의 결과로 수치가 높을수록 모음 ‘ㅣ’

에 한 특징을 가지는 확률이 크다는 것을 의미한다.

첫 번째 인 어 ‘개미허리’는 형을 음 로 나

어 ‘개’에서는 ‘ㅐ’, ‘미’에서 ‘ㅣ’, ‘허’에서 ‘ㅓ’, ‘리’에서

‘ㅣ’를 별하는 것이 목표이다. 따라서 형 ‘ㅣ’에서 추

출한 특징 형을 가지고 추출한 별조건인 변동성-A

와 변동성-AB, 그리고 다른 모음들에 비해 모음 ‘ㅣ’만

가지는 높은 값의 변수 wave, highlow로 별할 수 있

다. 변동성-A는 모음 ‘ㅣ’가 ‘ㅐ’, ‘ㅓ’에 비해서 상당한

높은 수치를 가지고 있다. highlow와 wave에서도 모음

‘ㅣ’가 각각 786, 336, 915, 107로 매우 높은 정수 값을


표 1 실험 결과

Table 1 Test results

voice datadetermination of ‘ㅣ’

for the phoneme

개미

허리

phoneme ㅐ ㅣ ㅓ ㅣ

variability-A 6 54 0 38

variability-AB 515 746 22 652

highlow 47 786 0 336

wave 0 915 0 107

final determination

using neural networknull ㅣ ㅓ ㅣ

공릉

피부과

phoneme ㅗ ㅡ ㅣ ㅜ ㅘ

variability-A 0 0 62 1 0

variability-AB 98 105 728 24 69

highlow 10 0 344 12 18

wave 0 0 318 0 0

final determination

using neural networknull null ㅣ null null

까치

phoneme ㅏ ㅣ

variability-A 0 14

variability-AB 540 1486

highlow 9 77

wave 0 6

final determination

using neural networkㅏ ㅣ

러

보이

phoneme ㅓ ㅡ ㅗ ㅣ

variability-A 0 0 0 33

variability-AB 4 4 15 637

highlow 0 0 0 286

wave 1 0 0 12

final determination

using neural networkㅓ null null ㅣ

the total number

of ‘ㅣ’ : 266

recognized as ‘ㅣ’ misrecognized

227 39

recognition rate (%) :

375 / 413 * 100 = 90.80

가지고 있는 것으로 정되었다. 그러나 외로 음

‘개’에서 변동성-AB가 높게 나타나고 wave에서 47로

미미한 수치를 보이지만 신경망을 용하여 학습시켰기

때문에 변동성A나 wave의 값이 모음 ‘ㅣ’에 한 특징

과 맞지 않기 때문에 ‘ㅣ’로 별되지 않는 것이다. 따라

서 어 ‘개미허리’의 모음 최종 결과로는 null, ‘ㅣ’, ‘ㅓ’,

‘ㅣ’로 인식된다.

6. 결 론

본 논문에서는 한국어 음소의 단모음 모음 ‘ㅣ’의

음성 형을 분석하고, 이를 인식하는 알고리즘을 제시

하 다.

음성 인식 기술은 사용자에게 쉽고 편리하게 서비스

를 제공하는 기술 하나이기 때문에 스마트폰, 태 릿

PC과 같은 소형기기에 국한되지 않고 스마트홈, 스마트

카와 같이 사물인터넷의 다양한 환경에 있어서 필수

인 요소이다. 그러나 부분 리 활용되고 있는 음성

인식은 서버 기반 시스템으로 데이터베이스 근에 용

이하게 사용하기 해 인터넷 망 연결이 필수 인 상황

이다. 이러한 문제 을 해결하기 해서 본 논문에서는

기존의 인터넷 망이라는 불편한 을 보완하고 데이터

베이스 근이 필요 없는 한국어 음소에 한 인식을

해 모음 ‘ㅏ’, ‘ㅓ’의 연구에 이어 모음 ‘ㅣ’에 한 인

식을 구 하 다. 모든 한국어 음소에 한 인식 개발

과정이 끝난다면 장소와 환경에 구애받지 않고 음성으

로 편리하게 서비스를 쉽게 즐길 수 있고 정보를 달

할 수 있다. 한 데이터베이스에 없는 단어를 인식했을

경우 오인식 검색 기법을 활용한 알고리즘 연구와 융합

한다면 좋은 인식률을 기 할 수 있다.

향후 연구에서는 지 까지 개발된 모음들의 인식률

향상과 다른 단모음 복모음에 한 인식 과정 구

을 한다. 본 연구에서는 모음 ‘ㅢ’나 ‘ㅟ’ 같이 ‘ㅣ’가 들

어간 복모음이 실험되지 않았기 때문에 향후 추가 연구

를 통해 확인되어야 한다. 한, 음성 데이터의 다양성

을 확 하여 실험할 정이다.

References

[ 1 ] Y. K. Lee, "Speech Interface Technology and

Service Trend under the Smart Phone Environ-

ment," Information & Communications Magazine,

Vol. 29, No. 4, pp. 3-9, 2012. (in Korean)

[ 2 ] H. S. Baek, S. H. Cho, D. S. Yook, "Connected

Korean Digit Speech Recognition Using Syllable-

based Recognition Units," Proc. of the KMMS Con-

ference 2010, pp. 514-515, 2010. (in Korean)

[ 3 ] H. Jung, "Korean Speech Recognition Using Neural

Networks," Korean Institute of Information Scien-

tists and Engineers, pp. 63-82, 1993.

[ 4 ] D. K. Kim, C. G. Jeong, and H. Jeong, "Hierarchy

and Modulatity in Time-Delay Neural Networks for

Korean Phoneme Recognition using HMM," IEEK,

Vol. 16, No. 1, pp. 81-84, 1994.

[ 5 ] T. W. Jang, H. Y. Kim, B. M. Kim, C. H, "Imple-

mentation of Real-time Vowel Recognition Mouse

based on Smartphone," KIISE Transactions on

Computing Practices, Vol. 21, No. 8, pp. 531-536,

2015.

[ 6 ] J. H. Lee, J. W. Lee, J. W. Lee, "Korean Phonemes

‘ㅅ’, ‘ㅈ’, ‘ㅊ’ Recognition based on Sign Distribution

Volatility," Communications of the Korean Institute

of Information Scientists and Engineers, Vol. 19,

pp. 377-382, 2013. (in Korean)

[ 7 ] J. W. Lee, "Speech Recognition of Korean Phonemes

‘ㅅ’, ‘ㅈ’, ‘ㅊ’ based on Volatility and Turning

Points," KIISE Transactions on Computing Prac-


tices, Vol. 20, No. 11, pp. 579-585, 2014.

[ 8 ] W. B. Roh, J. W. Lee, "Implementation of Korean

Vowel ‘ㅏ’ Recognition based on Common Feature

Extraction of Waveform Sequence," KIISE Trans-

actions on Computing Practices, Vol. 20, No. 11, pp. 567-

572, 2014.

[ 9 ] W. B. Rho, J. W. Lee, "Implementation of Waveform

Sequence Feature Extraction For Korean Vowel ‘ㅓ’

Recognition," KCC2015, pp. 128-130, 2015 (in Korean)

노 원 빈

2010년～2013년 숙명여자 학교 멀티미

디어과학과 학사. 2014년～ 재 숙명여

자 학교 멀티미디어과학과 석사. 심분

야는 Speech Recognition, Mobile Sys-

tem Software, Internet of Things

이 종 우

1990년 서울 학교 컴퓨터공학과(학사)

1992년 서울 학교 컴퓨터공학과 학원

(석사). 1996년 서울 학교 컴퓨터공학과

학원(박사). 1996년～1998년 자

(주) 정보시스템사업본부 과장. 1998년～

1999년 정보기술(주) 책임연구원. 1999

년～2002년 한림 학교 정보통신공학부 조교수. 2002년～

2003년 운 학교 컴퓨터공학부 조교수. 2003년～2004년

아이닉스소 트(주) 개발이사. 2004년～ 재 숙명여자 학

교 멀티미디어과학과 교수. 2008년 뉴욕주립 스토니 룩

Research Scholar. 2012년～2013년 숙명여자 학교 지식정

보처장. 2015년～ 재 뉴욕시립 John Jay College 방문

교수. 심분야는 Mobile System Software, Storage Sys-

tems, Computational Finance, Cluster Computing, Parallel

and Distributed Operating Systems, Embedded System

Software

이 재 원

1990년 서울 학교 컴퓨터공학과(학사)

1992년 서울 학교 컴퓨터공학과 학원

(석사). 1998년 서울 학교 컴퓨터공학과

학원(박사). 1999년～ 재 성신여자

학교 IT학부 부교수. 심분야는 Finance

Engineering, Artificial Intelligence, Ma-

chine Learning, Natural Language Process

Documents

(Speech Recognition for the Korean Vowel ‘ㅣ Waveform ... · 이미 애플과 삼성, 구글, 네이 버, 다음 등 다양한 기업에서 제공하고 있는 음성인식 서