구개열 환자 발음 판별을 위한 특징 추출 방법 분석 · Complex Consonants ㄲ,ㄸ,ㅃ,ㅆ,ㅉ Vowels ㅏ,ㅓ,ㅗ,ㅜ,ㅡ,ㅣ,ㅐ/ㅔ 2.1 구개열 환자 데이터

ISSN 2383-630X(Print) / ISSN 2383-6296(Online)

Journal of KIISE, Vol. 42, No. 11, pp. 1372-1379, 2015. 11

http://dx.doi.org/10.5626/JOK.2015.42.11.1372

․본 연구는 2013년 인천 학교 연구비 지원으로 수행하 습니다. 논문 수 : 2015년 5월 4일

(Received 4 May 2015)†

††

†††

††††

비 회 원

비 회 원

비 회 원

종신회원

:

:

:

:

인천 학교 정보기술 학 컴퓨터공학부

[email protected]

인천 학교 정보기술 학 컴퓨터공학부 교수

[email protected]

서울 학교 의과 학 이비인후과교실 교수

[email protected]

[email protected]

인천 학교 정보기술 학 컴퓨터공학부 교수

(Incheon National Univ.)

[email protected]

(Corresponding author임)

논문수정 : 2015년 8월 18일

(Revised 18 August 2015)

심사완료 : 2015년 9월 16일

(Accepted 16 September 2015)

CopyrightⒸ2015 한국정보과학회ː개인 목 이나 교육 목 인 경우, 이 작물

의 체 는 일부에 한 복사본 혹은 디지털 사본의 제작을 허가합니다. 이 때,

사본은 상업 수단으로 사용할 수 없으며 첫 페이지에 본 문구와 출처를 반드시

명시해야 합니다. 이 외의 목 으로 복제, 배포, 출 , 송 등 모든 유형의 사용행

를 하는 경우에 하여는 사 에 허가를 얻고 비용을 지불해야 합니다.

정보과학회논문지 제42권 제11호(2015. 11)

구개열 환자 발음 별을 한 특징 추출 방법 분석

(Analysis of Feature Extraction Methods for

Distinguishing the Speech of Cleft Palate Patients)

김 성 민† 김 우 일

†† 권 택 균

††† 성 명 훈

††† 성 미

††††

(Sung Min Kim) (Wooil Kim) (Tack-Kyun Kwon) (Myung-Whun Sung) (Mee Young Sung)

요 약 본 논문에서는 구개열 환자의 장애 발음과 정상인의 발음을 자동으로 구분하여 별하는데 사

용될 수 있는 특징 추출 방법들의 성능을 분석하는 실험에 하여 소개한다. 이 연구는 발성 장애인의 복

지 향상을 추구하며 수행하고 있는 장애 음성 자동 인식 복원 소 트웨어 시스템 개발의 기 과정이다.

실험에 사용된 음성 데이터는 정상인의 발음, 구개열 환자의 발음, 그리고 모의 환자의 발음의 세 그룹으

로부터 수집된 한국어 단음 로서 14개의 기본 자음과 5개의 복합 자음, 7개 모음이다. 발음의 특징 추출

은 LPCC, MFCC, PLP의 세 가지 방법으로 각각 수행하 고, GMM 음향 모델로 인식 훈련을 한 후, 수

집된 단음 데이터를 상으로 하여 인식 실험을 실시하 다. 실험 결과, 정상인과 구개열 환자의 장애

발음을 구별하기 하여 특징을 추출함에 있어서 MFCC 방법이 반 으로 가장 우수하 다. 본 연구의

결과는 구개열 환자의 부정확한 발음을 자동으로 인식하고 복원하는 연구와 구개열 장애 발음의 정도를

측정할 수 있는 도구에 한 연구에 도움이 될 것으로 기 된다.

키워드: 구개열 환자, 발음 별, 음성 인식, 특징 추출, LPCC, MFCC, PLP

Abstract This paper presents an analysis of feature extraction methods used for distinguishing

the speech of patients with cleft palates and people with normal palates. This research is a basic study

on the development of a software system for automatic recognition and restoration of speech disorders,

in pursuit of improving the welfare of speech disabled persons. Monosyllable voice data for

experiments were collected for three groups: normal speech, cleft palate speech, and simulated clef

palate speech. The data consists of 14 basic Korean consonants, 5 complex consonants, and 7 vowels.

Feature extractions are performed using three well-known methods: LPC, MFCC, and PLP. The

pattern recognition process is executed using the acoustic model GMM. From our experiments, we

concluded that the MFCC method is generally the most effective way to identify speech distortions.

These results may contribute to the automatic detection and correction of the distorted speech of cleft

palate patients, along with the development of an identification tool for levels of speech distortion.

Keywords: Distorted speech of patients with cleft palates, Sound recognition, Feature extraction,

LPCC, MFCC, PLP

구개열 환자 발음 별을 한 특징 추출 방법 분석 1373

1. 서 론

두개안면부에 생기는 선천성 기형 가장 높은 발생

빈도를 보이는 구개열(cleft palate; 언청이)은 선천 으

로 구개 혹은 입천장이 갈라져서 구강과 비강이 연결된

상태를 말한다. 최근 논문에 따르면, 우리나라에서 2005

년과 2006년에 출생한 883,184명의 신생아 25,335명

이 기형아로 출생을 하 는데 이는 10,000명 286.86

명 발생함에 해당한다. 이 구개열만 있는 환자는 492

명, 구순열과 구개열이 같이 있는 환자는 243명으로 신

생아10,000명 당 8.32명으로 구개열이 발생한다고 보고

되고 있다[1].

정상인이 발성을 할 때는 연구개(soft palate; 입천장)

가 비강(nasal cavity)과 구강(oral cavity)을 차단시켜

비음을 막는 것에 반해, 구개열(cleft palate; 언청이) 환

자는 경구개 혹은 연구개가 갈라져 있거나 연구개가 선

천 으로 짧아 구개인두부 (velopharyngeal insuffi-

ciency; VPI)이 발생하며 성도로부터 나온 공기흐름이

비강과 구강이 동시에 공명하게 됨으로써 음성장애, 공

명장애 조음장애가 발생한다[2]. 음성장애는 쉰소리

(hoarseness)로 발 되고, 공명장애는 과비음 (hyper-

nasality) 는 비음 (hyponasality)으로 발 되며, 조

음장애는 해부학 인 조음 오류와 언어습득 과정에서

발생하는 보상 인 조음 오류로 발 된다[3].

구개열 환자는 발성 조음 장애로 인해 타인과의

소통에 어려움을 겪고, 연령 층의 경우 언어 지능

발달에 장애를 가져올 가능성이 높다. 따라서 구개열 환

자가 정상 상태의 음성을 발성할 수 있도록 도와주는

의료 시술 과학기술 지원이 필요하다. 특히, 발

달된 정보기술을 활용하여 장애인의 음성을 정상인의

음성으로 자동 복원 개선해 수 있다면 장애인의

복지 향상과 차별성 해소에 크게 도움을 수 있을 것

이다.

스마트폰에서 사용할 수 있는 음성 명령 기능이나 음

성 명령 ARS기능들을 구 한 음성 인식 시스템은 정상

인 발화 음성 데이터를 기 으로 개발되었기 때문에,

구개열 환자의 장애 발음에 한 음성인식 정확도가 매

우 떨어진다. 선행 연구인 구개열 환자 음성의 모음과

자음 분석[4]에 따르면, 모음의 경우 실제 환자의 발음

에서는 /아/, /오/ 발음을 제외한 부분의 모음 발음이

오인식 되었는데, /어/, /우/, /으/는 /오/로, /이/는 /으/

로 오인식 되었다. 자음은 실제 환자의 경우 /ㅈ/, /ㅊ/,

/ㅉ/와 연구개음인 /ㅇ/, /ㄱ/, /ㄲ/, /ㅋ/도 인식률이 낮

았다. 치조음은 /ㄹ/을 제외하고는 /ㅅ/, /ㅆ/, /ㄴ/, /ㄷ/,

/ㄸ/, /ㅌ/ 모두 거의 제 로 인식되지 못하 다[4].

본 과제의 최종 목표는 구개열 환자의 장애 발음을

자동으로 인식하고 정상인의 발음으로 복원하여 자동으

로 출력하는 소 트웨어 시스템을 개발하는 것이다. 본

연구는 구개열 장애 발음 인식 복원기를 개발하는

노력의 기 과정으로서, 구개열 환자의 장애 발음과 정

상인의 발음을 구분하여 자동으로 별할 수 있는 특징

을 가장 효과 으로 추출할 수 있는 방법에 하여 실

험을 통하여 분석해 보고자 수행되었다. 본 연구의 일부

내용은 학술 회에서 소개되었다[4]. 본 논문에서는 보

다 정확한 검출 성능 분석을 도출할 수 있도록 환자 데

이터 모의 환자 데이터를 보완하여 추가 실험을 실

시한 결과를 포함한다.

장애 음성 인식과 련된 국내의 연구에는 “발성 장

애인을 한 개인 맞춤형 내장형 명령어 인식기 개발”

(2010.5～2014.5) 과제를 심의 연구들이 있다. 그러나

이 과제는 발성 장애의 원인이 뇌성마비 등 뇌병변에

의한 마비 말 장애(dysarthria)인 경우 만을 상으로

하 다. 연구 결과는 언어학 인 근에 의한 마비 말

장애인의 조음 오류 분석[5], 마비 말 장애 음성 DB 구

축[6], 마비 말 장애 음성 인식 모델링[7,8] 등이다. 한

편, 국내의 구개열 발성 장애와 련된 연구에는 구개열

아동의 발성에 한 포먼트 분석[9], 구개열 아동의 말

명료도 분석[10] 등이 있다. 이러한 연구들은 구개열 장

애 발음을 자동으로 인식하고 정상 발음으로 복원하는

소 트웨어 시스템을 개발하고자 수행 인 본 연구와

는 근이 많이 다르므로 직 인 비교가 어렵다.

국외의 련 연구로는 음성 운율(prosody) 특징을 이

용한 구개열 장애 발음의 자동 검출 연구[11], 구개열

발음의 과비음과 자음 조음 장애 자동 검출 연구[12] 등

을 들 수 있다. 이들 연구는 모두 MFCC(Mel-Frequency

Cepstral Coefficients)[13,14] 특징추출 방법과 단일 요

소 GMM (Gaussian Mixture Model) 확률분포함수를

사용하 다. 그러나 본 연구에서는 이 연구들과 달리

MFCC특징 추출 방법뿐 아니라 자주 사용되는 음성 특

징 추출 방법인 LPCC(Linear Predictive Cepstral Coef-

ficients)[15]와 PLP(Perceptual Linear Prediction)[16]

방법에 해서도 비교 찰하 다. 한 GMM의 가우

시안 요소의 개수를 32개까지 증가시켜가며 정확성을

높이고 이에 따른 성능을 찰하 다는 에서 기존의

연구와 차별화된다.

본 논문의 구성은 다음과 같다. 1장의 서론에 이어 2

장에서는 구개열 장애 발음 수집 방법에 하여 설명하

고, 3장에서는 장애 음성 검출을 하여 용할 수 있는

특징 추출 방법들을 소개하고, 4장에서는 3장의 방법들

을 용하여 장애 발음을 검출하는 성능 실험에 하여

알아보고 그 결과를 분석한다. 그리고 마지막으로 5장에

서 결론을 맺겠다.

1374 정보과학회논문지 제42권 제11호(2015. 11)

2. 구개열 장애 음성 데이터 수집 방법

이번 에서는 본 연구에서 사용한 구개열 장애 음성

데이터 수집 방법에 하여 알아본다. 표 인 구개열

장애 환자인 구개열 환자를 상으로 하여 데이터를 수

집하 다. 이 연구에서 정상인의 구개열 장애 모의 발

화 기법이 실제 환자의 음성을 비교 효과 으로 모의

하는 것을 설문과 음향 분석 실험을 통하여 확인한 바

있다[17]. 그러므로, 구개열 모의 환자의 데이터도 실험

상으로 포함하 다.

구개열 환자 음성의 음향 분석을 하여 한국어 자음

과 모음의 음소 발음들을 수집 상으로 하 다. 자음

발음의 평가를 한 목록으로는, 화자(speaker)의 발음

과 듣기 평가 과정을 용이하게 하기 하여, 표 1의 14

개 성 자음과 모음 /ㅏ/가 결합된 단음 과 5개 복합

자음과 모음 /ㅏ/가 결합된 단음 을 합하여 총 19개의

단음 (/가/, /나/, /다/, /라/, /마/, /바/, /사/, /아/, /

자/, /차/, /카/, /타/, / /, /하/, /까/, /따/, /빠/, /싸/, /

짜/)을 선정하 다. 그리고, 모음 발음의 목록으로는 단

모음 7개 (/ㅏ/, /ㅓ/, /ㅗ/, /ㅜ/, /ㅡ/, /ㅣ/, /ㅐ/)를 선정

하 다.

표 1 실험에 사용된 한국어 단음

Table 1 Korean monosyllabic words used in the experiments

Initial Consonants ㄱ,ㄴ,ㄷ,ㄹ,ㅁ,ㅂ,ㅅ,ㅇ,ㅈ,ㅊ,ㅋ,ㅌ,ㅍ,ㅎ

Complex Consonants ㄲ,ㄸ,ㅃ,ㅆ,ㅉ

Vowels ㅏ,ㅓ,ㅗ,ㅜ,ㅡ,ㅣ,ㅐ/ㅔ

2.1 구개열 환자 데이터 수집

음성 녹음에 조가 잘 되고, 발화 목록에 따른 발음

이 히 되도록 하기 해 만 10세 이상의 구개열 환

자를 상으로 하 다. 모집과정에서 구개열 환자의 녹

음 의지를 확인한 후 피험자 동의서를 받았다. 부분의

발화자들은 구순구개열 수술 후 언어 치료를 해 외래

에 정기 으로 내원하는 환자로 구성되었다.

녹음은 주변 환경 소음을 최 한 피하기 해 외래

진료 후 언어치료실 한 곳을 지정하여 시행하 다. 녹음

과정에는 음성 언어치료사, 의공학과 연구원, 이비인후

과 의사가 참여하 고, 언어치료사의 주도하에 발화자가

긴장하지 않도록 최 한 편한 분 기를 조성하 다. 입

으로부터 40 cm 떨어진 치에 고감도 마이크를 설치

하여, 개50개 단어와 19개 단음 과 7개 모음에

하여 녹음을 실시하 다. 마이크로부터 나오는 음성신호

를 다목 USB 녹음장치인 U46XL(SuESI Audio-

technik GmbH, Leonberg, Germany)을 이용하여 주

수 44.1 kHz, 양자화 비트수 16 bit로 디지털화하고

Cubase LE5 소 트웨어를 이용하여 녹음 일을 취득

하 다[3]. 구개열 장애 환자의 경우, 표 1에 정리되어

있는 26개 한국어 단음 음소 세트를 3회 반복 발음하

도록 하여 녹음하 다.

2.2 구개열 모의 환자 데이터 수집

모의 환자 데이터도 구개열 환자와 유사한 방법으로

수집하 다. 정상 발음을 가진 성인 모의 환자 군을 포

함시킨 것은 같은 발화 내용에 해서 환자와의 발음

비교 분석을 수월하게 하고 향후 발음 교육에 활용하기

해서이다. 한국어 표 말을 사용하고 청력장애가 없는

건강한 성인 5명을 정상 모의 환자 군으로 하 고, 이들

의 연령은 27세에서 33세까지 평균 28세 다.

정상인으로부터 실험 으로 구개열 환자의 발음을 유

발하기 해 1mm 내경을 가지는 고무 인 넬라톤 카테

더(nelaton catheter)를 사용하 다. 그림 1과 같이 카테

터를 양측 비강을 통해 넣고, 긴장도가 없는 상태에서의

치를 지 겸자(hemostatic clamp)로 표시해 놓고, 통

증을 유발하지 않는 선에서 최 의 긴장도가 생성되는

치를 표시하 다. 넬라톤 카테터가 최 의 긴장도

치에 있을 때를 구개열 모의 환자 증(severe) 상태로

하 고, 긴장도가 없는 상태와 최 긴장도의 간 치

에 있을 때 구개열 발음이 녹음된 것을 경도(mild) 상

태로 정의하 다. 그림 1의 선 부분이 구개열 장애를

유발하는 치이다[3].

정상인 모의 환자의 경우, 정상상태에서 26개 음소 세

트를 5회 발화하여 녹음하 다. 그리고 실험 으로 구개

열 발음을 시뮬 이션 하기 하여 구개열 환자와 같은

발화 목록으로 5회 발음하는 방식으로 두 번 더 녹음하

다.

그림 1 넬라톤 카테터를 사용하여 구개인두부 증을 모

의한 그림[2]

Fig. 1 Illustration of simulated velopharyngeal insufficiency

with 3-french nelaton tube[2]

3. 구개열 장애 음성 특징 추출 방법

장애 음성 검출을 하여 사용할 수 있는 표 인

특징 추출 방법인 LPCC, MFCC, PLP기법에 하여

간단히 알아본다.


그림 2 LPCC 특징 추출 기법의 블록 다이어그램

Fig. 2 Block diagram of LPCC feature extraction

3.1 LPCC 기법

선형 측 캡스트럼 계수(Linear Predictive Cepstral

Coefficients; LPCC) 기법은 시스템 측 등의 사용되

는 알고리즘으로서, 음성 는 화자 인식 등에 가장

리 쓰이는 특징 추출 방법이다. LPCC 기법은 재 시

에서의 신호는 과거 신호의 선형 조합으로 근사화 될

수 있다는 것을 기본 제로 한다. LPCC 특징 추출 기

법은 이러한 LPC 계수를 추출한 후 음성 인식에 효과

인 캡스트럼(cepstrum) 계수로 변환하는 특징 추출

방법이다. 캡스트럼은 로그 스펙트럼을 다시 푸리에

(Fourier) 역변환한 것이므로, 일정한 시간 간격으로 반

복되는 주기를 결정하는데 리 이용되고 있다. 이러한

특징 추출 방법을 장애 음성 분석에 용하면, 장애 음

성 스펙트럼의 체 인 윤곽을 효과 으로 모델링 할

수 있다. 본 연구에서는, 로그 에 지를 포함한 총 13차

원의 LPCC 계수에 1차 미분, 2차 미분을 추가하여 총

39차원의 특징 벡터를 사용하 다. 그림 2는 본 연구에

서 사용한 LPCC 기법의 블록 다이어그램을 나타낸다.

3.2 MFCC 기법

Mel-주 수 캡스트럼 계수(Mel-Frequency Cepstral

Coefficients; MFCC) 특징 추출 기법은 재 음성 인식

시스템의 특징 추출 기법으로 가장 리 사용되고 있는

방법이다. MFCC 추출 방법에서는 우선 오디오 샘 의

아날로그 신호를 푸리에 변환을 통해 주 수 역의 스

펙트럼으로 변환한다. 그 후 Mel 스 일의 필터 뱅크

(Mel scale filter bank) 분석을 통해 얻은 계수를 로그

를 취한 후 이산 코사인 변환(Discrete Cosine Trans-

form; DCT)을 용함으로써 캡스트럼 계수로 변환된

다. Mel 스 일은 사람이 1kHz 이하의 소리를 잘 듣는

인간의 청각 시스템을 모방하여, 1kHz 이하의 주 수

역을 촘촘히 분석한 주 수 스 일을 말한다. 본 연구

에서는 13차원의 MFCC 계수(c0-c12)에 1차 미분, 2차

미분을 추가하여 총 39차원의 특징 벡터를 사용하 다.

그림 3은 일반 인 MFCC 특징 추출 기법의 블록 다이

어그램을 나타낸다.

3.3 PLP 기법

지각 선형 측(Perceptual Linear Prediction; PLP)

그림 3 MFCC 특징 추출 기법의 블록 다이어그램

Fig. 3 Block diagram of MFCC feature extraction

특징 추출 기법은 LPCC 기법의 변형된 형태로서, 심리

음향 지식을 용한 청각스펙트럼으로부터 LPC 특징

을 추출하는 기법이다. 음성의 스펙트럼의 주 수 축을

Mel-주 수와 유사한 비선형 주 수 축으로 변형하고,

스펙트럼의 크기에 동음량 곡선(Equal-loudness curve)

를 용하여 인간의 청각 시스템을 모델링 한 스펙트럼

을 얻는다. 얻어진 스펙트럼으로부터 LPC 특징을 계산

하면 PLP 특징을 얻을 수 있다. 본 실험에서는 HTK

(The Hidden Markov Model Toolkit)[18,19]를 사용하

여 PLP 특징을 추출하 으며, LPCC와 동일하게 스

트럼 역으로 변환하 다. PLP 특징은 일반 LP 기반

의 특징과 비교하여 화자(speaker) 변이에 강하고 잡음

환경에 우수한 음성 인식 성능을 나타내는 것으로 알려

져 있다. PLP 기법의 처리 흐름은 그림 2에서 보여주는

LPCC 기법의 블록 다이어그램과 유사하다.

4. 실험 방법 결과

실험에 사용된 음성 데이터는, 정상인 5명, 구개열 모

의 환자(정상인으로부터 실험 으로 구개열 환자의 발음

을 유발하도록 하여 수집)[3] 5명, 구개열 환자 3명으로

구성된 세 개 그룹으로부터 수집한, 단음 26세트이다.

표 1에 정리하 던 14개의 기본 성 자음과 5개의 복

합 자음, 그리고 7개 모음이 실험에 사용한 단음 26세

트의 구성이다[3].

그림 4는 수집한 데이터의 시로 /자/ 발화에 한

형들이다. 그림 4(a)는 정상인 2의 /자/ 정상 발화

형이며, (b)는 정상인 2의 /자/ 모의 발화 형이다. 그리

고 (c)는 구개열 환자 1의 /자/ 발화 형이다. 동일한

사람이 발음한 (a) 정상 형과 (b) 모의 발화 형만

1376 정보과학회논문지 제42권 제11호(2015. 11)

그림 4 /자/ 발화 형 비교: (a) 정상인 2의 /자/ 정상 발화

형, (b) 정상인 2의 /자/ 모의 발화 형, (c) 환자

1의 /자/ 발화 형

Fig. 4 Waveform comparison for articulation /자/: (a)

Normal articulation /자/ of normal speaker 2, (b)

Simulated articulation /자/ of normal speaker 2, (c)

Articulation /자/ of patient 1

비교해 보아도 에 지 분포에 차이가 있음을 직 으

로 알 수 있다. 그러나 형만으로는 각 발음의 음향

특성을 제 로 악하기는 어렵다.

선행 연구[17]에서 정상인의 구개열 모의 발음이 실제

구개열 환자의 음성을 비교 효과 으로 모의하는 것을

음향학 분석을 통하여 확인한 바 있다. 그림 5는 구개

열 환자 모의 발음의 듣기평가에서 공통 으로 오인

식이 많이 나타난 단모음 /자/에서 자음 /ㅈ/ 부분의 평

균 스펙트럼을 (a) 정상인 1, (b) 정상인 2, (c) 환자 1에

해 나타낸 것이다. 그림 (a)와 (b)에서 선은 정상 발

음, 실선은 모의 발음을 나타내며, 그림 (c)에서 선은

정상인 1과 2의 평균, 실선은 환자 1의 발음이다. 모의

발음과 실제 구개열 환자의 자음 /ㅈ/ 발음의 경우 정상

발음에 비해 3kHz 이상의 고주 수 성분의 크기가 유사

한 형태로 작아진 것을 알 수 있다. 이 게 모의 발음의

음향학 특성이 실제 구개열 환자의 발음의 음향학

특성을 상당히 유사하게 모의함을 검증하 기에, 은 양

의 환자 발음만으로 음성 모델을 생성하기 보다는 모의

발음을 보완 으로 사용하여 정확도를 높이고자 하 다.

발음의 특징 추출은 3장에서 소개한 세 가지 특징 추

출 기법인 LPCC, MFCC, PLP의 세 가지 방법으로 각각

수행하 다. HTK를 이용하여 GMM(Gaussian Mixture

Model)을 기반으로 하는 통계 분류기(classifier)를 설

계하 으며, 혼합 모델의 가우시안 요소의 개수를 증가

시켜가며 학습을 수행하 다. 각각의 가우시안 요소는

평균(mean)과 분산(variance)으로 표 되는 가우시안

확률분포함수를 나타낸다. 새로운 가우시안 확률 도함

그림 5 자음 /ㅈ/의 스펙트럼 비교: (a) 정상인 1의 정상

모의 발음, (b) 정상인 2의 정상 모의 발음,

(c) 구개열 환자 정상 발음[5]

Fig. 5 Spectrum comparison for consonant /ㅈ/: (a) Normal

speaker 1, (b) normal speaker 2, and (c) cleft palate

patient[17]

표 2 실험 방법 요약

Table 2 Summary of the experiments

Experiment 1

Normal Speech

vs.

Simulated Speech

N1 vs. S1

∼

N5 vs. S5

Experiment 2

Generalized Normal Speech

vs.

Generalized Patient Speech

(N1∼N5)

vs.

(P1∼P3)

수가 혼합될 때마다 좀 더 정확하게 데이터의 분포 특

성을 나타낼 수 있을 것으로 상되므로, 가우시안 혼합

(Gaussian Mixture)의 개수를 1에서 32개까지 증가시

킴에 따른 성능의 변화를 찰하여 보았다.

구개열 장애 발음을 별하는 효과 인 특징 추출 방법

을 알아내기 하여 어렵게 수집한 구개열 환자와 모의환

자의 단음 음성 데이터를 최 한 활용하여 표 2에 요약

되어 있는 바와 같은 두 가지 실험을 수행하 다.

표 2의 N1～N5, S1∼S5, P1∼P3는 2 에서 소개한

방법으로 수집한 26개 음소 데이터 세트를 의미한다.

N1∼N5는 정상인의 정상 발음 데이터이며, S1∼S5는

동일한 정상인의 모의 환자 발음 데이터를 뜻한다. P1

∼P3는 구개열 환자의 장애 발음 데이터를 의미한다.

4.1 실험 1: 정상인의 정상발음 vs. 모의환자 발음

5명의 정상인의 정상 발음 N1∼N5의 음성 데이터와


그림 6 정상인과 모의 환자 발음 별율(%): 자음, 모음,

평균

Fig. 6 Detection rates of normal individuals and simulated

patients: Consonant, Vowel, and Average

모의 환자 발음 S1∼S5의 음성 데이터로부터 LPCC,

MFCC, PLP 각 특징 추출 기법을 이용하여 특징을 추

출하 다. 각 특징 추출 기법 별로, 정상인 1인의 각 음

소에 해 정상 발음 모델과 모의 발음 모델을 훈련을

통해 얻었다. 입력된 테스트 음성에 해 정상/모의 발

음 모델에 한 확률값을 계산하여 정상 발음인지 모의

발음인지 구별하는 인식 실험을 실시하 다. 실험에서는

모델 훈련과 테스트에 사용하는 데이터가 복되지 않

도록 하 다.

그림 6은 실험 1의 결과로서, 왼쪽부터 자음의 별

율, 모음의 별율, 별율 평균(26개 음소에 한 평균)

을 보여 다. 실험 결과, 자음의 별 성능이 모음의

별 성능 보다 반 으로 더 좋았다. 한, 가우시안 혼

합 모델의 용에 있어서 혼합의 개수를 늘림에 따라

인식 성능이 높아졌으며, 모음의 별율이 자음의 별

율 보다 향상의 폭이 큼을 확인하 다. 아울러, 자음의

경우 혼합의 개수가 늘어날수록 세 방식의 차이가 다소

감소하는 반면, 모음의 경우에는 세 방식의 차이가 다소

커지는 상도 찰이 되었다. 실험 1에서는 MFCC 방

법이 정상인과 모의환자 발음을 구분하는 성능이 가장

우수하고 LPCC 방법이 가장 열등한 것으로 나타났다.

4.2 실험 2: 일반화된 정상 발음 vs. 일반화된 환자 발음

실험 2에서는 정상인의 발음 모델을 일반화시키기

하여 정상인 N1∼N5의 음성 데이터를 혼합하여 “일반

화된” 정상인 모델을 만들고, 환자 P1∼P3의 음성 데이

터를 혼합하여 “일반화된” 환자 모델을 만들어서 훈련

을 시킨 다음 별 실험을 실시하 다. 개별 환자에

한 음성 별 실험을 할 경우 단순히 화자(Speaker)의

그림 7 일반화된 정상인과 환자 발음 별율(%): 자음,

모음, 평균

Fig. 7 Detection rates of generalized normal individuals

and simulated patients: Consonant, Vowel, and

Average

음색을 별하는 실험과 구분이 되지 않기 때문에, 본

논문에서는 일반화된 구개열 환자 음성 모델을 생성하

여 별 실험을 실시하 다.

실험 2의 결과, 그림 7에서 보는 바와 같이 자음에

한 별율이 모음보다 높고, 평균 으로 MFCC 특징 기

법이 가장 우수한 별 성능을 보 다. 이와 같은 결과는

모의 환자 발음과의 별을 실시한 실험 1의 결과와 유

사한 양상을 나타낸다. MFCC 특징 기법과 32개의 가우

시안 혼합을 사용할 경우 평균 89.18%의 별율을 보이

는데, 이러한 성능 수치는 MFCC 특징과 가우시안 혼합

모델을 이용하여 정상인의 음성과 구개열 환자의 음성을

효과 으로 자동 별할 수 있음을 증명한다.

5. 결 론

본 연구의 최종 목표는 발성 조음 장애로 인해 타

인과의 소통에 어려움을 겪고 있는 구개열 환자의 장애

발음을 자동으로 인식하고 복원하는 기술의 개발이다.

이 목표를 한 기 과정으로, 음성인식 시스템에서 많

이 사용되는 표 인 음성 특징 추출 방법인 LPCC,

MFCC, PLP 어느 방법이 구개열 장애 발음과 정상

인의 발음을 별하는데 가장 효과가 있는지를 실험을

통하여 분석하 다.

본 연구에서 찰된 주요 내용은 아래와 같다:

∙가우시안 혼합 모델의 용에 있어서 혼합의 개수가

증가함에 따라 별율이 향상되었으며, 자음의 별율

에서는 향상의 폭이 작았지만 모음의 별율에서는 향

상의 폭이 큰 것이 찰되었다.

1378 정보과학회논문지 제42권 제11호(2015. 11)

∙자음의 경우에는 세 가지 특징 추출 방법 사이의 별율

차이가 그다지 크지 않았으나, 모음의 경우에는 세 가지

방법들 사이의 별율 차이가 비교 크게 나타났다.

∙모든 경우에 자음의 별 성능이 모음의 별 성능보

다 우수하 다. 음성인식에 있어서 모음의 인식율이 자

음의 인식율 보다 더 우수한 것이 일반 이다. 그러나

본 실험은 구개열 장애 발음의 특징을 추출하여 학습

하고 정상 발음과 장애 발음을 별하는 실험이다. 그

러므로, 자음의 별 성능이 더 우수한 것은 구개열 환

자가 모음을 정상 으로 발음하기 보다 자음을 정상

으로 발음하기가 더 어려운 특성이 잘 반 된 결과라

고 단된다.

∙정상인과 구개열 환자의 장애 발음을 구별하기 하여

특징을 추출함에 있어서, 표 3에서 보는 바와 같이,

MFCC 특징 기법과 32개의 가우시안 혼합을 사용할

경우, 실험 1에서는 평균 86%, 실험 2에서는 평균 89.18%

의 별율을 보이는데, 이러한 성능 수치는 MFCC 특

징과 가우시안 혼합 모델을 이용하여 정상인의 음성과

구개열 환자의 음성을 효과 으로 자동 별할 수 있음

을 증명한다.

본 연구의 이러한 실험 결과는 정상인의 발음과 환자

의 발음을 음향학 으로 별할 수 있음을 증명하며, 음

향학 특성을 이용하여 구개열 환자의 발음을 자동으

로 별하고, 발성 장애의 정도를 공학 으로 측정할 수

있다는 가능성을 시사한다.

국내의 연구 결과에는 본 연구와 직 비교할 만한

연구가 아직 없다. 본 논문의 독창성은 은 양의 환자

발음을 이용하여 음성 모델을 생성할 때 모의 발음을

보완 으로 활용하여 모델의 인식 정확도를 높 다는

에서 발견할 수 있다. 한, 장애 음성 인식을 하여

가장 효과 인 특징 추출 방법을 알아내고자 MFCC 방

법뿐 아니라 자주 사용되는 LPCC PLP 방법과도 비

교 찰한 과 GMM의 가우시안 요소의 개수를 32개

까지 증가시켜가며 정확성을 높이고 이에 따른 성능을

찰한 이 다른 연구들과 차별화 된다. 그리고 본 논

문은 정상인의 음성 특징 추출에 있어서 우수함이 인정

표 3 실험 결과 요약: 평균 별율

Table 3 Summary of experimental results: average detection

Experiment 1 Max Average Standard Deviation

LPCC 97.5 76.9 6.74

MFCC 100 86 7.01

PLP 100 85.17 7.48

Experiment 2 Max Mean Variance

LPCC 99.2 86.57 5.79

MFCC 93.6 89.18 3.43

PLP 97.6 85.46 3.69

되고 있는 MFCC 방법이 구개열 장애 발음의 별에

있어서도 과연 우수함을 실험을 통하여 확인하 다는

에서 의미를 가진다.

본 연구에서 찰된 결과는 정상인의 발음만을 잘 인

식할 수 있는 음성인식 시스템에서 구개열 환자의 발음

을 구분하여 한 모델로 인식을 실시함으로써 인식

성능을 향상시키는 연구에 응용될 수 있을 것이다.

한, 구개열 환자의 부정확한 발음을 인식하고 복원하는

연구와 구개열 장애 발음의 정도를 측정할 수 있는 도

구에 한 연구에도 도움이 될 것으로 기 되며, 궁극

으로는 발성 장애인의 의사소통과 복지 향상에 기여할

것이다.

향후 연구에서는 본 연구의 결과 최 으로 단된

MFCC 특징 추출 방법의 성능을 개선하고자 한다. 성

주변의 비선형 기류를 표 하는데 효과 인 것으로

알려진 TEO(Teager Energy Operator) 등 다양한 음

향 모델링 기법을 선형 특성을 나타내는 MFCC 방법

에 결합 용하여 구개열 환자의 음성 별 성능을 보

다 향상시키는데 집 하려고 한다.

References

[ 1 ] C. W. Lee, et al., "Prevalence of orofacial clefts in

Korean live births," Obstet Gynecol Sci, Vol. 58,

No. 3, pp. 196-202, May. 2015.

[ 2 ] S. G. Fletcher, "Theory and instrumentation for

quantitative measurement of nasality," Cleft Palate

Journal, Vol. 7, pp. 601-609, 1970.

[ 3 ] J.-E. Lee, et al., "Research on Construction of the

Korean Speech Corpus in Patient with Velopharyn-

geal Insufficiency," Korean Journal of Otorhino-

laryngol - Head & Neck Surgery, Vol. 55, No. 8,

pp. 498-507, 2012. (in Korean)

[ 4 ] S. M. Kim, et al., "Analysis of the Feature Extrac-

tion Methods for Detecting the Distorted Speech of

Cleft Palate Patients," Proc. of the KSCSP 2014,

Vol. 31, No. 1, pp. 107-109, Aug. 2014. (in Korean)

[ 5 ] Y. M. Lee, J. E. Sung, H. S. Sim, "Consonant

Confusions Matrices in Adults with Dysarthria

Associated with Cerebral Palsy," Journal of Korean

Society of Speech Sciences, Vol. 5, No. 1 pp. 47-54,

2013. (in Korean)

[ 6 ] D.-L. Choi, B.-W. Kim, M. H. Chung, Y.-J. Lee,

"Design and Creation of Speech Database for

Development of QoLT Software Technology," Proc.

of the HCI 2012, pp. 121-124, 2012. (in Korean)

[ 7 ] M. J. Kim, J. H. Yoo, H. R. Kim, "Dysarthric

Speech Recognition Using Dysarthria-Severity-

Dependent and Speaker-Adaptive Models," INTER-

SPEECH 2013, pp. 3622-3626, 2013.

[ 8 ] W. K. Seong, J. H. Park, and H. K. Kim, "Dysar-

thric speech recognition error correction using weighted


finite state transducers based on context-dependent

pronunciation variation," Computers Helping People

with Special Needs, Vol. 7383, pp. 475-482, Jul. 2012.

[ 9 ] H.-G. Shin, O.-W. Kim, H.-G. Kim, "The Speech

of Cleft Palate Patients using Nasometer, EPG and

Computer based Speech Analysis System," Speech

Sciences, Vol. 4, No. 2, pp. 69-89, 1998. (in Korean)

[10] J. S. Han, H. S. Sim, "Comparison of the Percen-

tage of Correct Consonants, Speech Intelligibility,

and Speech Acceptability among Children with Cleft

Palate, Children with Functional Articulation Dis-

order, and Normally Developing Children," Korean

Journal of Communication Disorders, Vol. 13, No. 3,

pp. 454-476, 2008. (in Korean)

[11] A. Maier, F. Hönig, T. Bocklet, and E. Nöth,

"Automatic detection of articulation disorders in

children with cleft lip and palate," Journal of Acous-

tical Society of America, Vol. 126, No. 5, pp. 2589-

2602, Nov. 2009.

[12] L. He, J. Zhang, Q. Liu, H. Yin, M. Lech, "Auto-

matic Evaluation of Hypernasality and Consonant

Misarticulation in Cleft Palate Speech," IEEE Signal

Processing Letters, Vol. 21, No. 10, Oct. 2014.

[13] J. R. Deller, Jr., J. H. L. Hansen, and J. G. Proakis,

Discrete-Time Processing of Speech Signals, IEEE

Press, 2000.

[14] Y.-G. Jung, M.-S. Han, and S.-J. Lee, "Effective

Feature Vector for Isolated-Word Recognizer using

Vocal Cord Signal," Journal of KIISE : Software

and Applications, Vol. 34, No. 3, pp. 226-234, Mar.

2007. (in Korean) (in Korean)

[15] L. R. Rabiner and R. W. Schafer, Digital Processing

of Speech Signals, Prentice-Hall, 1978.

[16] H. Hermansky, "Perceptual Linear Predictive (PLP)

Analysis of Speech," Journal of Acoustic Society

America, Vol. 87, No. 4, pp. 1738-52, Apr. 1990.

[17] M. Y. Sung, et al., "Analysis on Vowel and Conso-

nants Sounds of Patient’s Speech with Velopharyn-

geal Insufficiency (VPI) and Simulated Speech,"

Journal of Korea Institute of Information and Com-

munication Engineering, Vol. 18, No. 7, pp. 1740-

1748, Jul. 2014. (in Korean)

[18] S.-H. Chung and M.-U. Park, "A Parallel Speech

Recognition System based on Hidden Markov

Model," Journal of KIISE : Computer Systems and

Theory, Vol. 27, No. 12, pp. 951-959, Dec. 2000. (in

Korean)

[19] The Hidden Markov Model Toolkit (HTK). [Online].

Available: http://htk.eng.cam.ac.uk

김 성 민

2015년 인천 학교 일반 학원 컴퓨터공

학과 공학석사. 2015년～IBK시스템 시스

템개발자. 심분야는 가상 실, 햅틱스,

음성인식

김 우 일

2003년 고려 학교 자공학과 공학박사

2004년～2005년 미국 카네기 멜론 학

교 박사후 연구원. 2005년～2012년 미국

텍사스 주립 (University of Texas at

Dallas) 연구원 연구교수. 2012년～

재 인천 학교 컴퓨터공학부 조교수.

심분야는 신호처리, 패턴인식, 음성인식, 휴먼 컴퓨터 인터

페이스

권 택 균

2006년 서울 학교 의과 학 의학박사

2003년～2004년 미국 피츠버그 의과 학

Voice Clinic Fellow. 2012년～2013년

미국 샌디에고 학 Clinical Research

석사과정. 2012년～ 재 서울 학교 의

과 학 이비인후과학 부교수. 심분야는

음성수술, 음성질환진단, 음성분석, 임상시험 연구

성 명 훈

1991년 서울 학교 의과 학 의학박사

1990년～1999년 서울 학교 의과 학 이

비인후과 조교수. 1993년～1995년 미국

피츠버그 의과 학 Research Fellow

1999년～2004년 서울 학교 의과 학 이

비인후과 부교수. 2004년～ 재 서울

학교 의과 학 이비인후과 교수. 심분야는 두경부 종양,

음성수술, 음성질환, 임상시험 연구

성 미

1990년 랑스 INSA de Lyon 컴퓨터공

학 박사. 1990년～1993년 한국 자통신

연구소 선임연구원. 1993년～ 재 인천

학교 컴퓨터공학부 교수. 2001년～

2002년 미국 카네기 멜론 학교 교환교

수. 2008년～2009년 미국 UC 버클리

학교 교환교수. 심분야는 가상 실, 햅틱스, 멀티미디어,

음성인식

Documents

구개열 환자 발음 판별을 위한 특징 추출 방법 분석 · Complex Consonants ㄲ,ㄸ,ㅃ,ㅆ,ㅉ Vowels ㅏ,ㅓ,ㅗ,ㅜ,ㅡ,ㅣ,ㅐ/ㅔ 2.1 구개열 환자 데이터