2.4.3 디지털 사운드의 압축 방식 디지털 사운드는 용량이 크기 때문에 대부분 압축을 하여 사용함 ADPCM

1

22 장 사운드장 사운드

2.4.3 디지털 사운드의 압축 방식 디지털 사운드는 용량이 크기 때문에 대부분 압축을 하여 사용함 ADPCM

• 앞에서 언급한 바와 같이 ADPCM 은 이론적으로 표준화어 있지만 각 방식간의 호환성은 없음

• ITU-T(International Telecommunication Union-Telecommunication)에서 ADPCM 방식으로 32Kbps 에서 음성을 전송할 수 있는 방식으로 G.721 제정

• 각 표본화 값의 차이를 4bit 로 표현하고 표본화율 (Sampling Rate) 은 8KHz 를 사용

2


A-law, u-law • 음성 통신을 목적으로 정한 압축 방식 • 두 방식 모두 양자화 과정에서 오차를 줄이기 위해 만들었으며

비슷한 방식을 사용 • 사람은 대화시 큰소리의 변화보다는 작은 소리의 변화를 더 잘

감지한다는 사실을 이용한 비균등 코딩 (Non-uniform Coding) 방식

TrueSpeech • DSP(Digital Speech Products) 사에서 음성의 실시간 전송을 위해

만든 방식으로 3.7Kbps 에서 8.5Kbps 까지 전송 가능 • 사람과 사람이 대화할 때 대화 사이의 공백은 디지털 데이터로

전송할 필요가 없다는 사실을 이용하여 최대 40:1 까지 압축 가능

3


MP3 또는 MPEG Layer 3 • 동화상 압축 표준인 MPEG(Moving Picture Expert Group) 에서

오디오 부분의 압축을 의미 • PCM 관련의 압축 방식과 다른 손실 압축 (Lossy Compression)

• MPEG-1 의 오디오 부분의 Layer 3 를 MP3 라는 이름으로 사용 • MPEG-2 의 오디오 부분은 AAC(Advanced Audio Coding) 라고

하여 사용 • 음성 심리학적인 방법인 마스킹 (Masking) 효과를 이용 • 마스킹 효과 : 큰소리와 작은 소리가 동시에 발생하면 작은 소리는

들리지 않게 되는 것처럼 어떤 소리에 의해 다른 소리가 가리워지는 현상을 의미

• MPEG-1 의 오디오 트랙에는 Layer 1( 압축률 1:4 정도 ), Layer 2( 압축률 1:6 - 1:8 정도 ), Layer3( 압축률 1:10 - 1:12 정도 ) 가 있음

4


RealAudio • RealNetwork 사에서 실시간으로 음성을 보내기 위해 만든 압축

방식으로 별도의 서버가 필요 • 스트리밍 기술을 이용 , 실시간에 사운드를 전송받으며 재생할 수

있는 사운드 형식 • 네트워크 속도에 따라 선택적으로 전송 가능

5


2.4.4 디지털 사운드의 파일 포맷 Wav

• Microsoft 사와 IBM 사가 PC 상의 사운드 표준 형식으로 공동 개발

• Windows 기반 PC 에서 주로 사용 • 머리 (Header) 와 몸체 (Body) 로 구성 • 머리 : 압축방식 , 표본화율 등의 정보를 설정 • 몸체 : 머리 부분에서 정의한 형식에 맞추어 사운드 데이터를 저장 • 같은 wav 확장을 가져도 구체적인 압축 방식은 상이할 수 있음 • 일반적으로 ADPCM 방식이 많이 사용되고 , 그 외에 Truespeech, u

-Law 등도 많이 사용

6


Au• u-law 방식으로 압축된 형식으로 유닉스 환경에서 사용 • 일반적인 형식이며 다른 형식으로 변환하기 위한 크로스 플랫폼

형식 • Sun 이나 NeXT 가 표준으로 채택

MP2, MP3 • 압축효과가 뛰어나고 , 음질도 우수 • 인터넷 상에서 음악을 압축하는데 많이 사용 • Layer 2 는 .mp2, Layer 3 는 .mp3 의 확장자를 갖음

7


vqf(plug-In)• 일본 Yamaha 사에서 만든 사운드 형식 • 압축율이 MP3 보다 뫂고 파일 크기는 작음 • MP3 가 사람과 음악 정보에 포괄적으로 적용되는 압축방식을

사용하고 있으나 VQF 는 음악에 대해 특화된 압축 방식을 이용 • 압축률은 MP3 에 비해 30% 이상 향상되었으나 인코딩과 디코딩은

MP3 보다 시간이 많이 걸림 Real Audio (.ra, .rm)

• 인터넷 상에서 스트리밍 기술을 이용 , 실시간에 사운드를 전송받으며 플레이할 수 있는 사운드 형식

• 기존의 방식은 접속시 처음의 대역폭에 따라 음질이 결정 • 대역폭이 동적으로 변함에 따라 음질도 동적으로 변화시키는 SureS

treaming 이라는 기술을 이용하여 항상 최적의 음질을 재생시켜줌

8


ASF(Advanced Streaming Format) • 1996 년 인텔이 개발한 멀티미디어 파일 형식 • 통합 멀티미디어 파일로 파일 안에는 오디오 , 비디오 , 이미지 , UR

L, 실행 프로그램까지 포함 가능 • 스트리밍방식을 지원하며 56K 모뎀 정도면 부드럽게 재생 가능

9


2.6 미디 (MIDI)2.6.1 개요 미디 (MIDI:Musical Instrument Digital interface) 는 1983 년

세계 악기 제조업체들이 미국 캘리포니아주 산호세에 모여 제정한 전자 악기와 컴퓨터 간의 상호 정보교환을 위한 규약임

음의 높이 및 음표의 길이 , 음의 강약 등에 대한 정보 실제 음을 듣기 위해서는 그 음을 발생시켜주는 기계 (

신디사이저 , Synthesizer) 가 필요함 이전에는 전자 악기 간의 호환이 불가능하였으나 MIDI 를

이용하여 여러 전자 악기들에 대해 일관된 방식의 제어가 가능해졌고 , 동시에 여러 악기들에 대한 제어가 가능해짐

10


2.6.2 시스템의 구성

미디 시스템의 구성

11


MIDI 시스템의 흐름 1. 음의 입력 : 신디사이저에서 음을 발생 => 미디 인터페이스 카드

=> 컴퓨터로 전송 2. 음의 처리 : 컴퓨터에서 미디 프로그램 ( 시퀀서 등 ) 을 이용하여 편집

3. 음의 출력 : 컴퓨터 => 미디 인터페이스 카드 => 신디사이저 등의 미디 장치를 통해 음을 스피커로 출력 (앰프를 이용하여 스피커로 출력할 수도 있음 )

미디 인터페이스와 신디사이저와 같은 미디 장치들은 자료를 입력 받는 MIDI-IN단자 , 처리된 자료를 출력하는 MIDI-OUT단자 , 자료를 전달 (bypass) 시키는 MIDI-THRU단자를 가짐

12


2.6.3 하드웨어 장비(1) 신디사이저 전기적인 신호를 합성하여 음을 생성하는 장치 소리를 발생시키는 음원부와 음원부를 이용하여 연주하는 건반부로 구성

음원모듈은 건반부가 없는 것을 마스터 키보드는 음원부가 없는 것을 의미

신디사이저

13


음을 합성하는 방법 1. FM 방식

sine 파의 합성• sine 파를 기본으로 하여 소리를 합성하는 방식• Yamaha 사의 초기의 DX 시리즈와 근래의 TG 시리즈나 MU-80

등

14


2. PCM 방식 • 소리를 디지털로 변환하여 저장하였다가 사용하는 방식 • 음질은 좋으나 정보의 양이 많고 , 소리의 변형이 자류롭지는

않으나 원음 재현이 뛰어남 • Roland 사의 SC 시리즈 , JV 시리즈 , Yamaha 사의 AWM(Advanc

ed Wave Memory) 방식 등이 있음

15


3. AI 방식 • 여러 음에 걸쳐서 여러 번 샘플링한 결과를 음원 모듈로 사용 • 일반적인 신디사이저에서 사용하는 대표음을 녹음하는 방식은 저음부와

고음부에서 약간 차이가 있음 • 음을 합성할 경우에도 FM 방식 뿐 아니라 샘플링된 음도 사용하는 방식 • 향상된 PCM 방식과 FM 방식의 합성이라고 볼 수 있음

(2) 샘플러 (Sampler) 신디사이저가 각 악기 음의 대표적인 음을 갖고 있는데 반해 샘플러는 악기의 모든 음을 갖고 있음

실제 소리를 녹음하여 악기로 변환하여 쓰거나 각종 효과음으로 활용할 수 있도록 해주는 장비

좀더 정교한 음을 사용하고자 할 때나 음원에 없는 새로운 음을 만들고자 할 때 사용

16


(3) 믹서 (Mixer) 여러 개의 오디오 출력을 섞어서 하나의 출력으로 만들어 주는

역할 각 출력의 균형 등을 맞추어 주는 이퀄라이저 (Equalizer) 가

장착되어 있어 음악의 균형을 맞추어 녹음하고 연주하는데 많이 이용

(4) 드럼 모듈 드럼의 소리들만을 담아둔 모듈 일반 음원 모듈이나 신디사이저의 드럼 소리보다 훨씬 좋은

소리를 내장

17


(5) MIDI 인터페이스 카드 시퀀서 프로그램이 실행되는 컴퓨터와 미디 모듈 간의 신호

체계가 다른데 이를 연결해 주는 기능을 함 Roland 사의 MPU-401 은 미디 초창기에 개발되어 거의

표준으로 사용되고 있음 (6) 미디 전용 케이블 (7) 앰프와 스피커

18


2.6.4 미디의 표준 모드 미디에는 최소한의 규정만 있을 뿐 악기 번호에 대한 것과

이펙터 ( 음을 연주할 때 특수한 효과를 주는 것 ) 를 조정하는 방식 등에 관한 규정이 없음 • 예를 들어 A 라는 사람은 악기번호 1번에 바이올린을 할당하여 곡을 만들었는데 그 곡을 B 라는 사람이 듣는데 B 라는 사람의 환경은 악기번호 1번에 피아노가 할당되어 있다면 이상한 소리가 연주 됨

19


2.6.5 미디의 소프트웨어(1) 작곡용 프로그램 ( 시퀀서 ,Sequencer)　 음원 모듈에 어떤 악기를 얼마의 강도로 얼마나 오랫동안 소리를

내라고 명령함 미디 신호를 입출력할 수 있고 , 저장되어 있는 미디 데이터를 연주 , 편집하는 기능이 있음

미디 신호는 미디 메시지로 표현 • 미디 장치간에 음악적인 사건 정보를 전달 • 음악적인 사건 : 악기를 연주하면서 연주자가 취하는 동작

• 건반을 누르거나 건반에서 손을 떼는 등의 행동 • 채널 별로 송수신 되는 메시지와 미디 시스템 전체를 제어하는

시스템 메시지로 구분

20


CakeWalk• PC 로 미디 작곡이나 편곡 등을 하는데 가장 널리 사용되고 있는

프로그램 • 마이크로소프트 ActiveMovie 지원 , 실시간 음향 효과 지원 , DirecS

ound 지원 등 강력한 미디 사운드와 웨이브 사운드 편집 기능 지원 • 128 트랙의 오디오를 미디와 함께 레코딩 가능하며 , 24 비트의

오디오 및 96KHz 표본화율을 지원 • 오디오 및 미디 트랙과 함께 AVI, MPEG, QuickTime 등의

동화상을 동기화시키는 기능 , 믹스 기능 제공 • Cubase

• Logic

21


(2) 악보용 프로그램 (Notation, Scoring 프로그램 )　 • 모니터 상에 악보를 그리고 (scoring), 프린터로 출력하는 출판용

프로그램 • 출판 기능 뿐 아니라 편집 기능을 제공하고 있어서 시퀀서와 더불어

많이 이용 • Coda 사의 Finale , Passport Design 사의 Encore 등

(3) 음색편집용 프로그램 (Voice Editor, Sound Editing 프로그램 ) • 소리를 편집 , 수정하는 프로그램으로 미디 음원 모듈이나

신디사이저에 있는 각종 음색과 효과음을 바꾸거나 새로 만들 때 사용하는 프로그램

• 오딧세이소프트 (OdysseySoft) 사의 Classic-B, KORG 사의 X5DR 등

22


음성

음성인식 - 음성에 포함된 언어적인 정보를 추출하여 컴퓨터가 이해할 수 있는 표현방법으로 변환하는 과정

음향학 , 음운학 , 언어학등의 지식 포함 목적 : 컴푸터를 사용하여 입력된 사용자의 음성을 자동으로

인식할 수 있는 시스템 개발 및 기술개발 목적

23


분류 :

패턴정합법 - 주어진 입력패턴 비교 하여 유사성 정도 측정 - 동적 정합법

지식기반 방법 - 음성인식과정을 규칙 형태로 저장한 후에 입력되는 현상에 애하여 저장된 규칙을 적용 인식 - spectro gra

m reading Expert 은닉 마르코프 모델 - 마르코프 체인 모델을 기반으로

음성데이타의 확률적 모델간의 유사도를 사용하여 인식 수행 -SPHINX

24


훈련과정

분할 인식과정전처리

표준패턴생성

음성인식기 훈련과정

음성입력

인식결과

음성인식과정

25


전처리단계• 휴지 제거

분할단계• 음소단위로 분할

인식단계• 후처리과정 포함하여 오류 교정

26


화자인식

음성에 포함되어 있는 화자정보를 추출하여 개인을 확인하는 기술

효과적인 보안기술의 하나 1962 년 Kersta 가 성문이라고 명명한 spectrogram 에서 비롯 패턴 정합법 , 은닉 마르코프 방법 , 신경회로망 , 벡터양자화

27


벡터양자화기법

입력패턴과 양자화코드북내에있는 코드워드표준패턴들 사이의 거리를 측정하여 가장 거리가 가까운 코드워드에 입력패턴 매칭

( 그림 2-8 참조 )

28


화자식별 화자 확인

대상패턴 화자 수(N) 1개

결정방법 특정화자 승인/거부

비교횟수 N회 1회

오류확률 화자 수에 비례 화자 수와 무관

화자식별과 화자 인식

Documents

2.4.3 디지털 사운드의 압축 방식 디지털 사운드는 용량이 크기 때문에 대부분 압축을 하여 사용함 ADPCM