영상 - BrainStrom Co.Ltd [unityBoard]unit.mokwon.ac.kr/board/loadFile.ht?fileNm=2011... · PPT file · Web view제 2장. 사운드 목차 사운드의 개념 사운드 데이터

© 김명호멀티미디어 시스템 © Kim, Lee and Chung, 2005. All rights are reserved.

제 2 장 . 사운드

2 장 – 사운드2/63멀티미디어 시스템 개론

목차 사운드의 개념 사운드 데이터 코딩 미디 음성 데이터의 처리 음성을 기반으로 한 사용자 인터페이스 요약 및 참고문헌


사운드의 개념 사운드의 원리

– 정의» 물체의 진동으로 인해 일어나는 물리적 현상

예 ) 바이올린 현을 켜거나 심벌즈를 부딪칠 때 나는 진동– 물리적 원리

» 물체의 진동이 주변 공기로 퍼지면서 형성된 압력이 가해지면서 생성– 파형

» 일정 간격으로 같은 패턴을 반복하는 압력의 파동 모양


사운드의 개념 ( 계속 )

공기압에 의해 형성된 파형한 주기 (one period)

공기압(air pressure)

시간의 경과

진폭(amplitude)

한 주기 (one period)

공기압(air pressure)

시간의 경과

진폭(amplitude)


사운드의 개념 ( 계속 )– 주파수 (frequency)

» 1 초당 주기 수 , 주기 값의 역수

– 주기» 같은 파형이 한 번 나타나는 데 소요되는 시간

» 주기적인 형태의 사운드 (periodic sounds)인지할 수 있는 주기성을 갖는 사운드

악기 , 성악 , 바람 소리 , 새의 지저귐

» 비주기적인 형태의 사운드 (non-periodic sounds)주기적 사운드의 반대 개념

기침 , 재채기 , 노이즈 , 물이 흐르는 소리


사운드의 개념 ( 계속 ) 사운드 신호의 가청 주파수

– 사람의 대역폭 : 20 Hz ~ 20 kHz» 음악 사운드 및 음성의 주파수» 멀티미디어 시스템에서 주로 사용됨» 가청 주파수의 대역폭은 동물마다 다름 : 예 ) 박쥐

– 사운드 신호의 변조 , 하드웨어 설계 등 사운드 데이터 처리에 이용» 샘플링

아날로그 신호를 디지털 데이터로 변환 샘플링 기법 : 일정한 시간 간격으로 알아낸 아날로그 신호의 크기를 디지털 데이터의 형태로 저장

원래의 아날로그 신호가 갖는 주기보다 2 배 이상 빠른 주기로 샘플링 하면 원래 신호와 거의 차이가 없는 사운드 정보를 얻게 됨 예 ) CD : 1 초에 44.1 k 번 (44.1 kHz) 샘플링


사운드의 개념 ( 계속 ) 주파수와 사운드의 강도

– 주파수 » 초당 주기 수 (Hz) 또는 초당 사이클 (cycle) 수 (cps)

표 2 - 1 주파수 영역의 구분구분 해당 범위

초 저주파 (infrasonic) 0 ~ 20 Hz

인간의 가청 영역 (audiosonic) 20 Hz ~ 20 kHz

초음파 (ultrasonic) 20 kHz ~ 1 GHz

극 초음파 (hypersonic) 1 GHz ~ 10 THz


사운드의 개념 ( 계속 )– 사운드의 강도 (intensity)

» 심리적인 요인을 배제한 물리적인 사운드의 크기 cf. 세기 (loudness) : 심리적으로 느끼는 사운드의 크기

» 데시벨 (decibel)사운드의 강도를 표현하는 기준 단위

고통 임계값 (threshold of pain) : 100 dB ~ 120 dB 사운드 매체를 표현하고자 할 때 처리할 사운드의 강도를 어느 정도의

범위로 잡느냐 하는 결정에 유용하게 사용될 수 있음

dB = 20 log10(A / B)


사운드의 개념 ( 계속 ) 스펙트럼

– 파형» 푸리에 (Fourier) 분석을

이용해 여러 개의 다양한 주파수와 진폭을 갖는 스펙트럼 인자로 분해하여 표현 가능

아날로그 신호에 푸리에 분석을 적용한 예

진폭(amplitude)

시간의 경과

(a) 아날로그 파형

(b) 푸리에 분석된 결과

진폭(amplitude)

주파수의 크기

진폭(amplitude)

시간의 경과

(a) 아날로그 파형

(b) 푸리에 분석된 결과

진폭(amplitude)

주파수의 크기


사운드의 개념 ( 계속 )» 각 스펙트럼 인자들을 중첩 (superimpose) 시키면 분석되기

이전의 원래의 파형 모양에 근사하게 됨스펙트럼 인자들의 개수를 증가시키거나 더 큰 주파수 범위에서

스펙트럼 인자들을 구하면 더 정확한 파형 모양을 얻을 수 있음» 고 차원의 사운드 처리 기법들을 다룰 수 있으므로 , 다양한 응용

분야에 이용되고 있음


사운드의 개념 ( 계속 )

f(t) = A sin at + B sin bt + C sin ct + D sin dt + E sin et + . . . [ f(t) : 시간 t 에 따른 기압 , 기체 밀도 등의 변화를 나타낸 함수 A, B, C, D, E, … : 진폭을 나타내는 상수 a, b, c, d, e, … : 진동수를 나타내는 상수 ]

☞ 푸리에 분석

=> 아무리 복잡한 형태의 파형 이라도 진동수와 진폭이 다른 여러 개의 사인파들의 합으로 나타낼 수 있음


사운드 데이터 코딩 사운드 데이터 코딩 (coding)

– 인코딩 (encoding)» 아날로그 사운드 신호를 디지털 신호로 변환한 후 전송 선로를

통하여 전송하거나 기억 장소에 저장하기 전에 압축하는 과정

– 디코딩 (decoding)» 전송되거나 기억 장소에 저장된 디지털 신호를 원래의 아날로그

사운드 신호로 복원하는 과정

– 코딩 기법» 파형 코딩

» 음원 코딩

» 혼성 코딩


사운드 데이터 코딩 ( 계속 )

음성의코딩방법에따른음질비교

음질(MOS) 매우

좋음

좋음

보통

나쁨

매우나쁨

혼성 코딩

파형 코딩

전송률 (Bit Rate)

음원 코딩

2 4 8 16 32 46

음질(MOS) 매우

좋음

좋음

보통

나쁨

매우나쁨

혼성 코딩

파형 코딩

전송률 (Bit Rate)

음원 코딩

2 4 8 16 32 46


사운드 데이터 코딩 ( 계속 ) 파형 코딩 (waveform coding)

– 사운드를 1 차원 시 계열 (time-series) 데이터로 규정하여 사운드의 파형 자체를 복원 가능하도록 코딩하는 방법

– PCM, DPCM, ADPCM 방법 존재» 4 장에서 더 자세히 다룸


사운드 데이터 코딩 ( 계속 )– PCM

» 연속적으로 변화하는 아날로그 신호의 강도를 주기적으로 샘플링 하는 방법» 양자화 잡음 (quantization noise)

표현된 신호 값과 원래 신호 값과의 차이원래 아날로그 신호가 갖고 있는 강도의 변화 폭이 작거나 디지털 데이터의 단위당 비트 수가 클수록 그 크기가 감소


사운드 데이터 코딩 ( 계속 )

아날로그 신호를 PCM 방식을 통해 코딩하는 예

시간의 경과s1 s2 s3 s4 s5 s601234567

신호의강도

시간의 경과s1 s2 s3 s4 s5 s601234567

01234567

신호의강도


사운드 데이터 코딩 ( 계속 )– DPCM

» 바로 이전에 샘플링 되었던 신호 값과의 차이를 코딩하는 방법아날로그 신호는 인접한 범위 내에서 그 크기 변화가 심하지 않기

때문에 DPCM 이 가능

– ADPCM» 미리 예상한 신호 값과 원래의 신호 값의 차이에 따라 스케일 (scal

e) 을 다르게 하여 코딩하는 방법압축 알고리즘의 단순성과 뛰어난 음질로 여러 분야에서 응용 되고

있음


사운드 데이터 코딩 ( 계속 )– 예 ) 사람의 음성

» 대역폭 : 약 4 kHz, 샘플링 : 8 kHz(16 kHz)

» 샘플 당 사용되는 데이터 최소 비트 수 : 2 bits

» 코딩에 필요한 최소 전송률 : 8 kHz * 2 bits = 16 Kbps

» 16 Kbps 이상의 전송률을 사용하면 , 원음과 가깝게 재현할 수 있음


사운드 데이터 코딩 ( 계속 )– SBC (Sub-band coding)

» 아날로그 신호를 주파수 대역 상에서 다수 개의 주파수 대역으로 분리하고 , 그 후에 각 아날로그 신호에 대해 코딩 방법을 적용 예 . 1) 아날로그 신호의 주파수 대역을 5 개로 분할 2) 각 주파수 대역에서만 성분을 갖도록 하는 대역 통과 필터를 통과시킴 3) 5 개의 새로운 신호를 얻게 됨 4) 각각의 새로운 신호에 대해 PCM, DPCM, ADPCM 등의 기존에 사용되고 있는 음성 코딩 방법을 적용

» 장점인간의 청각 특성을 이용한 처리가 용이 특정 주파수 대역에 대한 코딩 과정에서 일어날 수 있는 양자화 에러는 다른 주파수 대역의 코딩에 영향을 미치지 않음


사운드 데이터 코딩 ( 계속 ) 음원 코딩 (source coding)

– 인간의 음성 생성 과정을 기본 모델로 하는 음성 코딩 기법– 장점

» 음성을 몇 개의 파라미터로 코딩 하므로 , 정보량이 작음

– 단점» 기존에 개발된 음성 생성 모델이 인간의 음성 생성 과정에 비해

매우 단순함» 원음으로부터 여기 신호 추출 과정이 어려우므로 , 고품질

합성음 코딩에 적절치 않음

– 적용 사례» 미국 표준 부호기인 LPC-10(linear predictive coding), MELP(mi

xed excitation linear prediction)암호와 방어를 요구하는 군 (military) 용 시스템 등 비상용

시스템에서 많이 사용됨


사운드 데이터 코딩 ( 계속 )– 혼성 코딩 (hybrid coding)

» 파형 코딩을 이용하여 여기 신호를 생성하고 , 음원 코딩을 사용하여 조음 기관의 공명 특성을 반영하는 정보를 재현

» 적용 사례RELP(Residual Excited Linear Prediction), MBE(Multi-Band Excitation) MP-LPC(Multi Pulse LPC)CELP(Codebook Linear Excited Prediction)


사운드 데이터 코딩 ( 계속 ) 사운드 데이터 저장

– 사운드 카드 » Analog-to-Digital / Digital-to-Analog Converter 역할

– 오디오 화일 포맷■ waveform

MS 와 IBM 에 의해서 지원 받고 있는 포맷 (wav)압축 없이 사운드 데이터를 저장

■ CD-Audio 필립스 사와 소니 사의 공동 연구 결과로 등장한 CD 의 사운드

정보를 담기 위해 사용하고 있는 포맷 (cda)

■ Creative VoiceCreative Lab 의 Sound Blaster 와 Sound Blaster Pro 오디오

카드에서 사운드 정보를 저장하는데 사용하고 있는 포맷 (voc)


사운드 데이터 코딩 ( 계속 )■ MP3

MPEG-1 Audio Layer-3 의 줄임말로 , 효과적인 오디오 신호의 사용을 위해 고안된 압축 방식

지각 코딩 (Perceptual Coding) 기법 사용 인간의 감각적인 특성 ( 청각 심리 모델 ) 을 사용하여 감도가 낮은

세부의 정보를 생략하여 코딩량을 절감하는 방법 디지털 사운드를 미리 분석해서 인간의 두뇌가 걸러낼 사운드를

미리 잘라내는 방식으로 압축을 수행 압축 과정

1. 인간의 가청 주파수를 32 개의 밴드로 분해2. 분해된 각각의 신호를 서브밴드 코딩 , 변형 이산 코사인 변환 , 허프만 코딩을

통해 다시 코딩 (각각이 18 개의 밴드로 또 다시 분해되므로 , 총 576 밴드 )3. 각 밴드에서 가장 강한 음의 성분에 대한 정보만을 선택하고 , 나머지 음에 대한

정보를 삭제4. MP3 화일 완성


사운드 데이터 코딩 ( 계속 )■ Real Audio

네트워크로 데이터를 전송하는 실시간 스트리밍 기술에 의해 만들어진 화일 포맷 (ra, ram, rm)

■ WMA, WMVMS 사가 만들었으며 , 스트리밍을 지원하고 데이터 용량이 MP3 의

절반 수준인 화일 포맷 (wma, wmv)

■ VQFNTT 에 의해서 개발된 오디오 압축 기술 (TwinVQ) 로 만들어진

디지털 화일 포맷 (vqf)원음을 12:1 ~ 96:1 까지 압축할 수 있으며 , 스트리밍을 지원


사운드 데이터 코딩 ( 계속 )■ A2b

AT&T 가 개발한 오디오 화일 포맷으로서 , 특허 낸 압축 알고리즘으로 20:1까지 압축 가능 (a2b)

CryptoLib 라는 보안 라이브러리를 사용해 저작권 문제를 해결

■ OGGMP3 에 대항하기 위해 만들어진 무료 음악 화일 포맷 (ogg)5:1~18:1 에 이르기 까지 높은 압축율을 자랑하며 , 다양한

음질을 설정할 수 있음


미디 (Musical Instrument Digital Interface)

미디– 각 악기들이 일관된 표준 인터페이스를 따름으로써 , 서로 다른

회사의 악기들을 연결하여 연주할 수 있도록 함– 구성요소

» 하드웨어 연결 (connect) 미디 장치 사이의 연결이나 전자 신호를 다루는 미디 케이블

» 데이터 포맷음악 연주 정보의 코딩과 미디 메시지


미디 ( 계속 ) 미디 장치 (device)

– 미디 표준 ( 하드웨어 연결 및 데이터 포맷 ) 을 만족시키며 채널을 통해 미디 표준을 만족하는 다른 기기 ( 악기 ) 들과 통신할 수 있는 기기 ( 악기 ) 들을 총칭» 신디사이저 (synthesizer)

일반적으로 키보드 (건반 ) 인터페이스를 통해 음을 합성하는 하드웨어

최근에는 키보드와 음원 모듈이 분리된 형태로 제공됨포터블 키보드 v.s. 마스터 키보드 ( 미디 제어 기능이 탁월 )

» 샘플러임의의 자연 사운드를 파형으로 받아 , 미디 악기의 음원으로

사용하는 기기


미디 ( 계속 )» 미디 인터페이스

PC, 마스터 키보드 , 미디 음원 모듈을 연결시켜 주는 미디 장치컴퓨터 주변 장치 변화에 따라 USB 포트용 미디 인터페이스 , 블루투스를

기반으로 한 무선 미디 인터페이스 등이 개발 또는 출시 중에 있음

» 시퀀서 신디사이저가 컴퓨터로 보낸 음악 데이터를 편집할 수 있는 미디 프로그램 요즘은 단순 미디 만을 연출하지 않고 오디오 및 비디오를 합성 접목하고

있음

» 소프트 신디 사이저컴퓨터에 내장되어 있는 소프트 신디 사이저

Microsoft® 의 GS Wavetable

사운드 카드에 내장되어 있는 소프트 신디 사이저 가상 소프트웨어 신디사이저 : CPU 를 이용해 PCM 데이터를 디코딩 함


미디 ( 계속 ) 미디 네트워크 구성

– 커넥터에 의한 하드웨어 연결» 신디사이저 , 미디 인터페이스 , 컴퓨터 , 미디 음원 모듈 , 스피커 , 믹서 , 이펙터 등

» 연결 방법 “In”, “Out”, “Thru”


미디 ( 계속 )

미디 연결의 전형적인 형태


미디 ( 계속 ) 미디 규약 (protocol)

– 미디 메시지 전송 방법과 미디 메시지의 의미를 규정

– 미디 코드 (code) : 미디 메시지를 처리하는 Byte 단위» 상태 Byte 와 데이터 Byte 로 구성 : MSB 로 구분

미디 메시지 = 1 개의 상태 Byte + 0~2 개의 데이터 Byte 로 구성상태 Byte 는 상위 4 bits( 채널 메시지 ) 와 하위 4bits( 채널 ) 로 나뉨데이터 Byte 는 상태 Byte 에 따라 설정됨10bits = 전송 시의 동기화를 위한 2 bits + 미디 코드 Byte (8bits)

» 31.250 KBaud(bps) 로 미디 네트워크에 방송 (broadcast)


미디 ( 계속 )

A 신디사이저에서 B 신디사이저로 전달되는 미디 메시지 예

음의 강도(건반을누른속도)

Note Number(건반의 위치)

채널표시(1 채널은피아노)

Note on 이벤트(건반누름)

20 = 323c = 60 (C4음)0 = 1ch9 = note on001000000011110000001001

Data ByteStatus Byte





20 = 323c = 60 (C4음)0 = 1ch9 = note on001000000011110000001001






20 = 323c = 60 (C4음)0 = 1ch9 = note on001000000011110000001001






20 = 323c = 60 (C4음)0 = 1ch9 = note on001000000011110000001001



미디 ( 계속 )

여러 가지 미디 메시지들의 예

Pitch bender changes0v0vEn

n : 사운드 채널 번호 - 각 악기에 할당된 채널 번호를 나타낸다.k : 음조(note) 번호 - 음표 선택에 관련된것이다.v : 속도(velocity) - 건반을 치는 속도나 세기에 관련된것이다.c : 제어기(controller) – pedal의 세기를 표현한 것이다.p : 프로그램 번호 – 지정되어 있는 128 가지의 voice 중 하나를 지정하는 데쓰인다.Note off : 128 개의건반중 하나를 눌렀다가 떼는것을 표시한다.Note on : 한 건반이 눌려졌다는것을 의미한다.Polyphonic key pressure – 건반 1 개가 눌려진 후, 그 압력(pressure)에얼마나 반응하느

냐와 관련된 메시지이다.Program change – 음색버튼을 누르거나 음색 번호 증감키로 음색을 변화시킬 때 생성되

는 메시지이다.Channel pressure – 한 개의 건반에 대한 압력 신호가 그 사운드의 모든음에서 적용되게

하는 메시지이다.Control change – 컨트롤러들의 움직임을 나타낸다.Pitch bender changes – 피치 벤더(pitch bender)가 움직인 것을 표시한다. 피치 벤더란

신디사이저에서 손잡이 또는 바퀴 모양으로 생긴 것인데, 건반 옆에 위치해 있다. 건반을 눌러 사운드가 나는 상태로 피치벤더를움직이면 미세한 단위로 음높이의 변화를 일으킬 수 있다.

Channel pressure0vDn

Program Change0pCn

Control change0v0cBn

Polyphonic key pressure(건반에 관련)0v0kAn

Note on0v0k9n

Note off0v0k8n

MeaningData Byte 2Data Byte 1Status Byte(hex)

Pitch bender changes0v0vEn

n : 사운드 채널 번호 - 각 악기에 할당된 채널 번호를 나타낸다.k : 음조(note) 번호 - 음표 선택에 관련된것이다.v : 속도(velocity) - 건반을 치는 속도나 세기에 관련된것이다.c : 제어기(controller) – pedal의 세기를 표현한 것이다.p : 프로그램 번호 – 지정되어 있는 128 가지의 voice 중 하나를 지정하는 데쓰인다.Note off : 128 개의건반중 하나를 눌렀다가 떼는것을 표시한다.Note on : 한 건반이 눌려졌다는것을 의미한다.Polyphonic key pressure – 건반 1 개가 눌려진 후, 그 압력(pressure)에얼마나 반응하느

냐와 관련된 메시지이다.Program change – 음색버튼을 누르거나 음색 번호 증감키로 음색을 변화시킬 때 생성되

는 메시지이다.Channel pressure – 한 개의 건반에 대한 압력 신호가 그 사운드의 모든음에서 적용되게

하는 메시지이다.Control change – 컨트롤러들의 움직임을 나타낸다.Pitch bender changes – 피치 벤더(pitch bender)가 움직인 것을 표시한다. 피치 벤더란

신디사이저에서 손잡이 또는 바퀴 모양으로 생긴 것인데, 건반 옆에 위치해 있다. 건반을 눌러 사운드가 나는 상태로 피치벤더를움직이면 미세한 단위로 음높이의 변화를 일으킬 수 있다.

Channel pressure0vDn

Program Change0pCn

Control change0v0cBn

Polyphonic key pressure(건반에 관련)0v0kAn

Note on0v0k9n

Note off0v0k8n

MeaningData Byte 2Data Byte 1Status Byte(hex)


미디 ( 계속 ) 미디 규약 발전

– GM 1(General MIDI Level 1) » 미디 장비 제조업자와 컨텐츠 제공업자 사이의 호환성을 위한 플랫폼을

지원하기 위해 Yamaha® 제안한 국제적인 표준 규약 (1991)

– GM 2(General MIDI Level 2) » GM1 을 확장했으며 , GS, XG 를 포함하는 국제적인 표준 규약 (1999)

» 2003년 9월에 버전 1.1 로 업데이트

– GM Lite» GM 1 에 정의된 풀셋을 지원할 수 없는 장비들을 위해서 만들어진 규약

» 모바일 애플리케이션에서 사용 가능 (2001)

– XMidi (eXtended MIDI)» 기존 미디 문제점을 극복한 새로운 미디 시스템으로서 제안된 프로젝트

» 벨기에의 Eric Lukac-Kuruc 이 창시 (1999)


음성 데이터 처리 음성 인식

– 음성에 포함된 언어적인 정보를 추출하여 컴퓨터가 이해할 수 있는 표현 방법으로 변환하는 과정» 패턴 정합법

참조 패턴과 주어진 입력 패턴을 비교하여 둘 간의 유사성 정도를 측정

예 ) 동적 정합법 (dynamic time warping) : 인식 대상 어휘가 작은 고립 단어 인식에 사용됨

» 지식에 기반을 둔 방법사람의 음성 인식 과정을 규칙 (rule) 의 형태로 저장한 후 입력되는 음성에 대하여 저장된 규칙을 적용하여 인식하는 방법

예 ) Spectrogram Reading Expert 시스템


음성 데이터 처리 ( 계속 )» 벡터 양자화를 이용한 방법

입력 패턴과 양자화 코드북 내에 있는 코드워드라고 불리는 일종의 표준 패턴들 사이의 거리를 측정하여 거리가 가장 가까운 코드워드에 입력 패턴을 매칭하는 방법

벡터 양자화 과정


음성 데이터 처리 ( 계속 )» 통계학적 방법

은닉 마르코프 모델 (Hidden Markov Model) : 가장 널리 쓰이는 방법HTK(HMM ToolKit)

HMM 을 이용한 음성 인식 시스템 중에 최근의 연구에 많이 쓰임 HMM 을 만들고 조작하는 데 사용되는 포터블 툴킷 C 소스로 된 라이브러리 모듈과 툴로 구성되어 있음 예 ) SPHINX, SONIC

» 신경 회로망 (Neural Network) 뇌의 정보처리 과정을 공학적으로 모델링 한 방법고립 단어 , 음소 인식에 뛰어난 성능을 보임

» HMM/NN 혼성 네트워크 기존의 신경 망 모델에 HMM 방법을 첨가 하는 방법


음성 데이터 처리 ( 계속 )HMM 의 통계적 방법의 범주 안에서 신경망을 도입하는 방법HMM 인식 방법을 신경 회로망의 형태로 재구성하여 음성 인식을

수행하는 방법 예 ) Viterbi-net, Alpha-net


음성 데이터 처리 ( 계속 )– 음성 인식 과정 : 화자에 의해 발성된 음성이 여러 단계를

거쳐 최종적으로 컴퓨터에 의해 인식되는 것» 전처리 (preprocessing)

음성 신호로부터 의미 있는 음성 구간을 검출하고 , 음향학적인 파라미터로 변환

» 분할 (segmentation) 인식을 위해 정의된 인식 단위로 입력된 음성을 잘라내는 것

» 인식 (recognition) 분할된 음성 단위들을 인식하는 것


음성 데이터 처리 ( 계속 )

음성 인식 과정

전처리(특징 추출) 분할 인식 과정

표준패턴생성

훈련 과정

인식 결과

음성 입력

음성 인식기훈련 과정

전처리(특징 추출) 분할 인식 과정

표준패턴생성

훈련 과정

인식 결과

음성 입력

음성 인식기훈련 과정


음성 데이터 처리 ( 계속 )음성 인식의 분류

기준 분류 내용

인식 대상 화자 독립 불특정 다수의 화자의 음성 만을 인식화자 종속 특정한 화자의 음성을 인식

인식 대상의 어휘

고립 단어 인식 하나의 단어 만이 발성되었음을 인식연결 단어 인식 여러 개의 단어가 짧은 휴지 기간을 가지고 서로 연결되어 있음을 인식연속 음성 인식 일상적인 대화체처럼 여러 단어를 연속적으로 발음한 것을 인식핵심어 인식 일상 대화체에서 핵심 단어만 인식


음성 데이터 처리 ( 계속 ) 화자 인식

– 음성에 포함되어 있는 화자 정보를 추출하여 개인을 확인하는 기술

– 인식 대상에 따라 분류» 화자 식별

입력된 미지의 음성이 등록된 여러 화자 중 어떤 화자에 의해 발성된 음성인 지를 판정

예 ) 자동 회의록 작성» 화자 확인 ( 검증 )

입력된 음성이 지정된 화자의 것인지 여부 판정예 ) 신분 확인 , 출입 통제



화자 식별과 화자 인식 비교

화자 수와 무관화자 수에 비례오류 확률1 회N 회비교 횟수

승인 (accept) / 거부 (reject)특정 화자결정 방법

1 개화자 수 (N)대상 패턴

화자 확인화자 식별 방법 항목



화자인식과정

특징추출 결정 인식 화자

음성입력

유사도 비교

화자 정보

특징추출 결정 인식 화자

음성입력

유사도 비교

화자 정보



– 음성 인식과의 비교» 음성 인식

발성된 음성의 언어적 측면에 초점» 화자 인식

발성된 음성에 포함된 화자의 개인성 정보에 초점


음성 데이터 처리 ( 계속 ) 음성 합성

– 기계를 이용하여 사람의 음성을 인공적으로 생성해 내는 것» 합성된 음성 신호를 실제로 말할 때 나타나는 발음 현상을

적용하여 일상 대화에서 듣게 되는 음성 신호와 같게 만들어 주어야 함

– 고려해야 할 사항» 음향학적 측면

인간의 실제 음성에 더 가까운 사운드를 내기 위함

» 언어학 ( 음운학 ) 적 측면동일한 단어가 문맥에 따라 다른 발음되는 현상을 고려함예 ) “ 신을 신고 신고하러 간다” , “ 양복 한 벌” v.s. “옷 한 벌”


음성 데이터 처리 ( 계속 )– 분류

» 제한 어휘 합성 기법 미리 정해진 수의 어휘를 저장하고 , 조합하여 음성 신호 생성구현은 쉽지만 어휘를 단순 연결하므로 , 나오는 사운드가

부자연스럽고 어색함예 ) 자동 응답 시스템 , 지하철 등의 안내 방송

» 무제한 어휘 합성 기법임의의 문장을 입력 받아 무제한으로 음성을 합성예 ) TTS(Text-to-Speech)


음성 데이터 처리 ( 계속 ) TTS(Text-to-Speech)

– 정의 » 임의의 문장을 입력 받아 해당하는 음성 신호로 변환하는 음성

합성 장치

– 종류» 코퍼스 (Corpus) 기반 TTS, 감정 (Emotion) 기반 TTS

기계적인 음성 합성에서 탈피하여 , 자연스러운 음성 합성을 만드는 방법으로서 제안된 기법


음성 데이터 처리 ( 계속 )– 코퍼스 기반 TTS 의 음성 합성 과정

» 전처리 입력 받은 문장을 분석하여 , 일반적인 문자 이외의 글자에 대해서

어떻게 발음할 것인지를 결정

» 언어 처리부구문 분석 단계로서 , 문장 내의 각 단어들이 어떤 품사로 쓰이고

있는 지를 결정하고 , 문장의 운율 정보를 합성음에 반영하기 위해 정확한 문장 구조를 파악하는 부분

형태소 분석부 : 입력된 문장의 품사들을 분류 구문 분석부 : 분류된 품사들을 가지고 운율 정보를 생성 발음 변환부 : 입력된 문장을 소리 나는 대로 변환

» 합성부 실제로 사람의 목소리에 가까운 합성음을 생성해 내는 단계



코퍼스 기반 TTS 시스템의 음성 합성 과정

문장 입력 전처리 언어 처리부 합성부 합성음

음성 입력

음성 분석부

Corpus대용량 음성데이터베이스

단위 음성데이터베이스


음성 입력

음성 분석부

Corpus대용량


음성 입력

음성 분석부

Corpus대용량 음성데이터베이스

단위 음성데이터베이스


음성 입력

음성 분석부

Corpus대용량


음성 데이터 처리 ( 계속 )– 활용 예제 ( 표 2 – 4 참고 )

» TTS 가 사용중인 국정 알림터http://www.allim.go.kr/warp/webapp/speech/list?meta_id=

syn_speech

» VoiceWare http://www.voiceware.co.kr/demo/demo_text.html

» CoreVoice 웹 사이트 http://www.corevoice.com

» 동아닷컴 뉴스 듣기 서비스http://www.donga.com

» ARS 텔레뱅킹 및 전화 주문을 위한 TTS

» 자동차 네비게이션 시스템에 TTS 가 도입됨

http://www.allim.go.kr/warp/webapp/speech/list?meta_id=syn_speech




http://www.voiceware.co.kr/demo/demo_text.html

http://www.voiceware.co.kr/demo/demo_text.html

http://www.corevoice.com/

http://www.donga.com/


음성을 기반으로 하는 사용자 인터페이스 음성 데이터의 활용

– 정보통신 분야» 휴대폰 음성인식

음성 작동 다이얼 , 통화자 확인 Sanyo®, Toshiba ®, Innovative Devices ® 의 음성 작동 전화 개발

잡음 환경에서 동작 가능한 잡음 처리 알고리즘 개발

» 대화형 음성인식 연속된 다량의 어휘의 처리가 가능한 음성 인식기 개발의미 분석 및 대화 흐름 처리가 가능한 대화형 음성 인식기 개발

» 말하는 웹 브라우저 : IBM Home Page Reader for Low Vision Users

음성 명령 만으로 인터넷에 접속해 필요한 정보 검색사용자와 대화하면서 인터넷을 검색한 후 내용을 낭독TTS 가 탑재된 ViaVoice 음성 인식 엔진을 사용


음성을 기반으로 하는 사용자 인터페이스 ( 계속 )

– 운송 분야» 자동차 네비게이션 시스템

내장형 음성 작동 시스템을 탑재네비게이션 목적지 지정을 위한 음성 인식 모듈 개발

– 교육 분야» IBM SpeechViewer™

» 인간의 언어 습관을 교정

– 재활 분야» 음성으로 작동하는 휠체어

» 음성 인식 프로세서를 통한 문서 작성

– 보안 분야» 사용자 출입을 위한 신원 확인과 조회



VoiceXML– 음성 응답 애플리케이션 개발을 위한 음성 대화형 마크업 언어

– 전화로 음성을 통해 인터넷 정보를 검색할 수 있는 기능을 지원 ( 전화 + 인터넷 )

– 장점» 기존 웹 기반 서비스를 활용하여 음성 정보 시스템을 구축할 수 있게 됨

웹 기반 서비스 = 비즈니스 로직 + 사용자 인터페이스 (HTML -> VoiceXML)

» 음성 합성 및 음성 인식 기술을 기반으로 한 음성 정보 시스템으로의 다양한 입출력이 가능하게 됨

» 인터넷을 사용하므로 , 국내외 음성 정보 서비스가 가능하게 됨

– 스펙 (specification)» VoiceXML 2.0 Recommendation : 2004년 3월 16 일 발표

» VoiceXML 2.1 Working Draft : 2004년 3월 23 일 ~ 현재



– 전체 구조

VoiceXML 기반 시스템 구조와 VoiceXML 문서 처리 과정

ASR(Automatic Speech Recognition),DTMF(Dual Tone Multi Frequency)

VXML

HTML

인터넷

VXML

HTML

VoiceXML 게이트웨이(사용자의 전화를 받을 수 있는 장치 +

VoiceXML 파일 해석기음성 인식 장치 + 음성 합성 장치)

TTS,Audio Player

웹 서버

ASR : 자동 음성 인식DTMF: 전화 버튼을 통해 보내지는 신호


VXML

HTML

인터넷

VXML

HTML



TTS,Audio Player

웹 서버


VXML

HTML

인터넷

VXML

HTML



TTS,Audio Player

웹 서버

ASR : 자동 음성 인식DTMF: 전화 버튼을 통해 보내지는 신호



<?xml version="1.0"? encoding=”euc-kr” ?><vxml version="1.0"> <menu> <prompt> <emp> 날씨 , 스포츠 , 경제 , 정치 중에 원하시는 서비스를 말씀해 주세요 . <enumerate /></emp> </prompt> <choice next=”weather.vxml”> 날씨 </choice> <choice next=”sports.vxml”> 스포츠 </choice> <choice next=”economy.vxml”> 경제 </choice> <choice next=”politics.vxml”> 정치 </choice> <nomatch> 죄송합니다 . 다시 한 번 말씀해 주세요 . <enumerate /></nomatch> <noinput> 한 가지만 말씀해 주십시오 . </noinput> </menu> </vxml>

VoiceXML 문서 예제



VoiceXML 엘리먼트에 대한 설명

<vxml>: VoiceXML 문서의 시작을 나타내는 엘리먼트이다 .<menu>: 여러 가지 선택할 수 있는 메뉴를 사용자에게 제시하고 그 중에 하나만을 선택할 수 있도록 설계된 다이얼로그를 나타내는 엘리먼트이다 .<choose>: <menu> 에서 선택할 수 있는 각각의 아이템을 나타내는 엘리먼트이다 .<enumerate>: 사용자가 선택할 수 있는 모든 선택 메뉴를 자동적으로 생성하는 엘리먼트이다 .<emp>: 강조해서 말해야 할 텍스트의 영역을 설정하는 엘리먼트이다 .<prompt>: 미리 녹음된 오디오 화일과 함께 음성 합성될 텍스트 데이터를 들려 준 후 , 사용자의 입력을 기다리는 엘리먼트이다 .<nomatch>: 사용자가 입력한 내용이 음성 및 DTMF 문법과 매치되지 않을 경우에 생기는 이벤트를 처리하는 엘리먼트이다 .<noinput>: 사용자의 입력이 없을 경우에 생기는 이벤트를 처리하는 엘리먼트이다 .



음성 정보 시스템 : 날씨 , 스포츠 , 경제 , 정치 중에 원하시는 서비스를 말씀해 주세요 .시스템 사용자 : 과학음성 정보 시스템 : 죄송합니다 . 다시 한 번 말씀해 주세요 .시스템 사용자 : 날씨음성 정보 시스템 : weather.vxml로 이동

음성 정보 시스템과 시스템 사용자의 대화


요약 사운드의 특성에는 주파수 , 강도 , 스펙트럼이

있다 사운드 데이터 코딩에는 파형 코딩 , 음원 코딩 ,

혼성 코딩 , 사운드 데이터 저장의 방법이 있다 미디는 전자 음악을 생성하고 편집하는데 널리

사용되고 있는 전자 악기들의 연결 표준이다 음성 인식 , 화자 인식 , 음성 합성 , TTS 등의

기법을 통해 음성 데이터를 처리한다 VoiceXML 은 음성을 기반으로 한 사용자

인터페이스이다


참고문헌 Buford, John F. K., ”Multimedia Systems,” New York: Addision-We

sley Pub. Company, 1994. Rosenborg, V. et al., ”A Guide To Multimedia,” Indiana: New Riders

Pub. Company, 1993. Andleigh, P. K. and Kiran Thakrar, “Multimedia Systems Design,” P

rentice Hall, 1996. Steinmetz, R. and Klara Nahrstedt, “Multimedia: computing, comm

unications and applications,” Prentice Hall, 1995. Rabiner, L. and Biing-Hwang Juang, “Fundamentals of Speech Rec

ognition,” Prentice Hall, 1993. Saito, S. and Kazuo Nakata, “Fundamentals of Speech Signal Proc

essing,” Academic Press, 1981. Furui, S., “Digital Speech Processing, Synthesis and Recognition,”

Dekker, 1991. Kondoz, A. M., “Digital Speech,” John Wiley & Sons Ltd., 1994.


참고문헌 ( 계속 ) Rabiner, L. R. and B. H. Juang, “An Introduction to Hidden Markov

Models,” IEEE ASSP Magazine, January 1986. Burton, D. K., “Text-Dependent Speaker Verification Using Vector

Quantization Source Coding,” IEEE Transactions on Acoustic, Speech, and Signal Processing, Vol. ASSP-35, No. 2, February 1987.

T. Kawaharam M.Araki and S. Doshta, “Reducing Syntactic Perplexity of User Utternaces with Automaton Dialogue Model,” Proc. Of International Symposium on Spoken Dialogue, pp.65~67, Kyoto, 1993.

Y. Sobashima, “Local Context analysis of Dialogues using Bilingual Corpus,” Proc. of International Symposium on Spoken Dialogue, pp 61 ~ 64, Kyoto, 1993

M.T. Vo, A. Waibel, “Multimodal Human-Computer Interaction,” Proceedings ISSD-93, pp.95 ~ 101, 1993


참고문헌 ( 계속 ) Lindblom, J. and P. Hedelin, “Packet loss concealment based on si

nusoidal extrapolation,” Acoustics, Speech, and Signal Processing, IEEE International Conference on Vol.1, pp.173 176, 2002∼

Gunduzhan, E. and K. Momtahan, “Linear prediction based packet loss concealment algorithm for PCM coded speech, Speech and Audio Processing,” IEEE Transactions on Vol.9, Nov, pp.778 785, 2∼001

오영환 , 음성 언어 정보 처리 , 홍릉과학 출판사 , 1998 장경애 , 정민화 , 김재인 , 구명완 , “ 코퍼스기반 음성 합성기의

데이터베이스 감축 방안 ,” 말소리 44 호 Ferencz, A., S. Choi, H. Song, and M. Koo, “Corpus-based implem

entation of the Korean Hansori Text-to-speech synthesis,” Eurospeech, 2001

Kim Silverman et. al., “Design and collection of a corpus of polyphones and prosodic contexts for speech synthesis research and development,” Eurospeech, 1999


참고문헌 ( 계속 ) Ralf Steinmetz, Klara Nahrstedt, “Multimedia Fundamentals,” Volu

me 1 박섭형 , “ 음성 웹 애플리케이션 구축을 위한 VoiceXML,”

한빛미디어 , 2001 웹 문서

– 미디 :http://www.hongmidi.com/main.html– http://www.midi.org/about-midi/gm/gminfo.shtml– http://www.borg.com/~jglatt/index.htm – http://www.interq.or.jp/japan/se-inoue/e_pic7_1_h.htm#4– 오디오 압축 포맷 : http://www.sericyb.com.au/sc/audio.html – http://sound.media.mit.edu/mpeg4/audio/#mpeg2 – 음성 인식 : http://htk.eng.cam.ac.uk/ – http://cslr.colorado.edu/beginweb/speech_recognition/sonic.html – TTS: http://tcts.fpms.ac.be/synthesis/introtts.html – VoiceXML Spec: http://www.w3.org/TR/2004/REC-voicexml20-200403

16/

Documents

영상 - BrainStrom Co.Ltd [unityBoard]unit.mokwon.ac.kr/board/loadFile.ht?fileNm=2011... · PPT file · Web view제 2장. 사운드 목차 사운드의 개념 사운드 데이터