Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
1
• Kodning av tal • Kodning av musik • MPEG-4 Audio toolbox
2
Kodning av bild och ljud bygger på modeller (Fö.1)
t
S(t)
Genereringsmodeller
• 3D-objekt • belysning • kameraprojektion • ljudgenerering
Signalmodeller Syn/hörsel-modeller • determ. modeller • statistiska modeller
• spatio/temporal modeller • maskeringsegenskaper
Modellbaserade kodningsmetoder
vågformskodning Perceptionsbaserade kodningsmetoder
3
I. Talkodning
Jämför generell audio ”HiFi”: FM-radio, CD, ca 20 KHz (128-700 kbit/s)
Tal - kvalitetsnivåer ”Broadcast quality”: AM-radio, ca 10 kHz, (>64 kbit/s) ”Network (toll) quality”: fast telefoni, ca 3 kHz, (16-64 kbit/s) ”Communication quality”: mobiltelefoni, (4-16 kbit/s) ”Synthetic quality”: talsyntes (< 4 kbit/s)
4
Talkodning – Historik
• 1926 - PCM – föreslogs oberoende av Paul M. Rainey och av Alex Reeves (AT&T Paris) år 1937. Installerades i USAs telenät 1962
• 1952 - delta modulation, differential PCM
• 1957 - µ-law kvantisering introduceras - standardiseras för telefoni 1972
(8 KHz * 8 bits = 64 Kbit/s, logaritmisk kvantisering) (G.711)
• 1974 – Adaptiv DPCM (G.726)
Modellbaserad kodning
• 1939 – ”Channel Vocoder” (talsyntes)
• 1984 – LPC/CELP vocoder (de flesta kodningsstandarder för tal- signaler idag använder någon variant av CELP)
Vågformskodning (PCM, DPCM)
5
Talgenerering
• lungor (lungs) • luftrör (trachea) • stämband (vocal cords) • luftväg mun (oral tract) • luftväg näsa (nasal tract)
6
Talsignalen - vokaler
2
7
Talsignalen - konsonanter
8
Avancerade talkodare baserar sig på modeller av hur talet genereras:
Puls- generator
Brus- generator
Vocal tract
pitch
Voiced/unvoiced
9
Exempel på ”Vocal tract filter”
BP1
BP2
BPn
Fast filterbank (bandpassfilter)
g1
g2
gn
10
Första modellbaserade talsyntetisatorn utvecklas av Homer Dudley på AT&T labs - VODER
1939 – “Channel vocoder”
11
Första publika presentationen av ”VODER”
12
Noggrannare modellering av talsignalen
Komponenter i talsignalen: • spektrala resonanser (formanter, rörliga) • periodisk excitation (tonande, grundton (“pitch”) + grundtonskontur • brusexcitation (frikativ, tonlös, ingen grundton) • transienter (“stop-release bursts”) • amplitudmodulation (nasal) • “timing”
3
13
F1-F2 diagram Formantpositioner
Vokaler
Karaktäriserad av formanter; I allmänhet tonande (“voiced”); Ljudet formas av tungan och läpparna. Exempel på vokaler: a, e, i, o, u, ah, oh. Stämbandsfrekvens: män 50 - 250Hz, kvinnor upp till 500Hz. Vokaler varar i medel mycket längre än konsonanter. Det mesta av den akustiska energin i talsignalen bärs av vokaler.
14
Styrbart ”vocal tract filter”
V(z)
Styr-parametrar
x y
”OVE” formant synthesis (Prof. Gunnar Fant, KTH), 1953
15
Kombinera exitationsmodellen enligt tidigare (brus/pulsgenerator) med styrbart filter.
Obs: ej att förväxlas med vanlig prediktiv kodning (DPCM)!
LPC är en modellbaserad metod medan vanlig prediktiv kodning är en vågformskodningsmetod.
16
Blockschema - LPC kodare
17
1. LPC-parametrar (ai, G):
2. PARCOR (partial correlation coefficients) kan beräknas rekursivt från ai (se Sayood sid 507). Lämpar sig bättre att kvantisera än LPC-parametrarna.
3. LSF (Line spectrum frequences) utgår från inversfiltret 1/V(z)
18
1. Signalen delas lämpligen upp i korta segment (ex.vis 20 ms).
2. För varje segment estimeras vocal tract parametrarna (ai, G) samt pitch och V/UV-tillståndet. Filterparametrarna kan fås genom att minimera en felvarians (jmf beräkning av optimal prediktor).
3. V/UV-estimeringen baseras på energi- och frekvensinnehåll.
4. Pitch-frekvens fås genom att söka efter periodiciteter (typiskt 20-160 samples).
4
19
V/UV: 1 bit Pitch: 6 bitar Vocal tract: 46 bitar (10+1 parametrar) Synk.: 1 bit _____________________________ Tot: 54 bitar => 2.4 kbit/s
20
1. Byt ut V/UV-exiteringen mot en tabell som innehåller ett stort antal förlagrade exciteringssignaler (jfr VQ):
kodbok
V(z)
2. Sök efter bästa exiteringssignalen genom att pröva samtliga. Här ges möjlighet att även applicera modell av hörselsinnet.
21
Code Excited Linear Prediction Coding (CELP)
• LPC analys ->V(z) • Definiera ett perceptuellt filter W(z). Detta skall tillåta ökat brus vid formant- frekvenserna (maskering!) • Syntetisera talet genom att testa varje kodbokssekvens i tur och ordning • Beräkna optimala förstärkningen som minimerar den perceptuellt viktade
felenergin i varje ram • Välj kodbokssekvensen som ger lägsta felet
Avkodning: • Ta emot LPC parametrarna och kodboksindex • Återsyntetisera talet via V(z)
Kodning:
• Skicka LPC parametrarna och kodboksindex
Prestanda: • 16kbit/s: MOS=4.2, Delay=1.5 ms, 19 MIPS • 8 kbit/s: MOS=4.1, Delay=35 ms, 25 MIPS • 2.4kbit/s: MOS=3.3, Delay=45 ms, 20 MIPS
22
Exempel på CELP-kodare
G.728: V(z) är ett stort FIR filter (M=50) Kodboken innehåller 127 sekvenser,
GSM: Kodboken består av regelbundna pulståg med variabel frekvens och amplitudvärden.
MELP: (Mixed exitation linear prediction). Kodbok kombinerad med brusgenerator.
23
– Talkodare för hög datatakt (CELP, 5-24 kb/s) – Talkodare för låg datatakt (HVXC, < 4 kb/s) – Text-to-speech (TTS, talsyntes)
Codebook index k
LPC filter Perceptual w. filter
e(n)
gk
xk(n)
s(n)
MPEG-4 CELP-kodare
24
HVXC – talkodare för låga datatakter 8 kHz sampling, 2 – 4 kbit/s. Under 1.2 kbit/s i variable rate mode. Kombination av LPC och CELP-kodning
baserad på utfallet av FFT-analys. Vektor-kvantisering av enveloppen för spektrat.
5
25
HVXC - blockschema
26
Sammanfattning: kodare avsedda för telefoni (8kHz sampling rate)
27
Principer:
• Generell ljudkodare (MP3, AAC…)
• Modifierad generell kodare (SBR, HILN,…)
• Syntetiskt ljud (SAOL, SASL, MIDI)
De flesta av dessa metoder har utvecklats genom MPEG-4 samarbetet.
28
HILN, kodare för låg datatakt (4-16 kbit/s) – Harmoniska och individuella toner plus brus – ”delbandskodare” Endast en frekvens per delband
29
TTS – Text-To-Speech – MPEG-4 definerar ett interface, inte särskild TTS funktion
SAOL - Structured Audio Orchestra Language – SAOL beskriver hur olika instruments skall genereras
SASL - Structured Audio Score Language – SASL beskriver vilket instrument som skall spela – MIDI är en delmängd av SASL
30
Generellt naturligt ljud – AAC
BSAC TwinVQ
– HILN (parametric) Naturligt tal
– CELP – HVXC (parametric)
Synthetiskt ljud – TTS – SAOL – SASL
Sammansättning – Mixing – Re-sampling – 3D-rendering
6
31
Quality
Cellular
Telephone
AM
FM
CD
2 4 8 16 32 64 kbit/s
Parametric speech (HVXC)
High quality speech (CELP)
General audio (AAC, TwinVQ)
Parametric audio (HILN)
32
Original audio
Music coder (TwinVQ)
6 kbit/s
Music coder (HILN) 6 kbit/s
Speech coder (CELP) 6 kbit/s
Speech coder (HVXC) 2 kbit/s
Speech
Simple music
Complex music