6
1 • Kodning av tal • Kodning av musik • MPEG-4 Audio toolbox 2 Kodning av bild och ljud bygger på modeller (Fö.1) t S(t) Genereringsmodeller • 3D-objekt • belysning • kameraprojektion • ljudgenerering Signalmodeller Syn/hörsel-modeller • determ. modeller • statistiska modeller • spatio/temporal modeller • maskeringsegenskaper Modellbaserade kodningsmetoder vågformskodning Perceptionsbaserade kodningsmetoder 3 I. Talkodning Jämför generell audio ”HiFi”: FM-radio, CD, ca 20 KHz (128-700 kbit/s) Tal - kvalitetsnivåer ”Broadcast quality”: AM-radio, ca 10 kHz, (>64 kbit/s) ”Network (toll) quality”: fast telefoni, ca 3 kHz, (16-64 kbit/s) ”Communication quality”: mobiltelefoni, (4-16 kbit/s) ”Synthetic quality”: talsyntes (< 4 kbit/s) 4 Talkodning – Historik • 1926 - PCM – föreslogs oberoende av Paul M. Rainey och av Alex Reeves (AT&T Paris) år 1937. Installerades i USAs telenät 1962 • 1952 - delta modulation, differential PCM • 1957 - μ-law kvantisering introduceras - standardiseras för telefoni 1972 (8 KHz * 8 bits = 64 Kbit/s, logaritmisk kvantisering) (G.711) • 1974 – Adaptiv DPCM (G.726) Modellbaserad kodning • 1939 – ”Channel Vocoder” (talsyntes) • 1984 – LPC/CELP vocoder (de flesta kodningsstandarder för tal- signaler idag använder någon variant av CELP) Vågformskodning (PCM, DPCM) 5 Talgenerering • lungor (lungs) • luftrör (trachea) • stämband (vocal cords) • luftväg mun (oral tract) • luftväg näsa (nasal tract) 6 Talsignalen - vokaler

Kodning av bild och ljud bygger på modeller (Fö.1) · 2009-05-19 · Kodning av bild och ljud bygger på modeller (Fö.1) t S(t) Genereringsmodeller Syn/hörsel-modeller • 3D-objekt

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Kodning av bild och ljud bygger på modeller (Fö.1) · 2009-05-19 · Kodning av bild och ljud bygger på modeller (Fö.1) t S(t) Genereringsmodeller Syn/hörsel-modeller • 3D-objekt

1

•  Kodning av tal •  Kodning av musik •  MPEG-4 Audio toolbox

2

Kodning av bild och ljud bygger på modeller (Fö.1)

t

S(t)

Genereringsmodeller

•  3D-objekt •  belysning •  kameraprojektion •  ljudgenerering

Signalmodeller Syn/hörsel-modeller •  determ. modeller •  statistiska modeller

•  spatio/temporal modeller •  maskeringsegenskaper

Modellbaserade kodningsmetoder

vågformskodning Perceptionsbaserade kodningsmetoder

3

I. Talkodning

Jämför generell audio ”HiFi”: FM-radio, CD, ca 20 KHz (128-700 kbit/s)

Tal - kvalitetsnivåer ”Broadcast quality”: AM-radio, ca 10 kHz, (>64 kbit/s) ”Network (toll) quality”: fast telefoni, ca 3 kHz, (16-64 kbit/s) ”Communication quality”: mobiltelefoni, (4-16 kbit/s) ”Synthetic quality”: talsyntes (< 4 kbit/s)

4

Talkodning – Historik

•  1926 - PCM – föreslogs oberoende av Paul M. Rainey och av Alex Reeves (AT&T Paris) år 1937. Installerades i USAs telenät 1962

•  1952 - delta modulation, differential PCM

•  1957 - µ-law kvantisering introduceras - standardiseras för telefoni 1972

(8 KHz * 8 bits = 64 Kbit/s, logaritmisk kvantisering) (G.711)

•  1974 – Adaptiv DPCM (G.726)

Modellbaserad kodning

•  1939 – ”Channel Vocoder” (talsyntes)

•  1984 – LPC/CELP vocoder (de flesta kodningsstandarder för tal- signaler idag använder någon variant av CELP)

Vågformskodning (PCM, DPCM)

5

Talgenerering

•  lungor (lungs) •  luftrör (trachea) •  stämband (vocal cords) •  luftväg mun (oral tract) •  luftväg näsa (nasal tract)

6

Talsignalen - vokaler

Page 2: Kodning av bild och ljud bygger på modeller (Fö.1) · 2009-05-19 · Kodning av bild och ljud bygger på modeller (Fö.1) t S(t) Genereringsmodeller Syn/hörsel-modeller • 3D-objekt

2

7

Talsignalen - konsonanter

8

Avancerade talkodare baserar sig på modeller av hur talet genereras:

Puls- generator

Brus- generator

Vocal tract

pitch

Voiced/unvoiced

9

Exempel på ”Vocal tract filter”

BP1

BP2

BPn

Fast filterbank (bandpassfilter)

g1

g2

gn

10

Första modellbaserade talsyntetisatorn utvecklas av Homer Dudley på AT&T labs - VODER

1939 – “Channel vocoder”

11

Första publika presentationen av ”VODER”

12

Noggrannare modellering av talsignalen

Komponenter i talsignalen: •  spektrala resonanser (formanter, rörliga) •  periodisk excitation (tonande, grundton (“pitch”) + grundtonskontur •  brusexcitation (frikativ, tonlös, ingen grundton) •  transienter (“stop-release bursts”) •  amplitudmodulation (nasal) •  “timing”

Page 3: Kodning av bild och ljud bygger på modeller (Fö.1) · 2009-05-19 · Kodning av bild och ljud bygger på modeller (Fö.1) t S(t) Genereringsmodeller Syn/hörsel-modeller • 3D-objekt

3

13

F1-F2 diagram Formantpositioner

Vokaler

Karaktäriserad av formanter; I allmänhet tonande (“voiced”); Ljudet formas av tungan och läpparna. Exempel på vokaler: a, e, i, o, u, ah, oh. Stämbandsfrekvens: män 50 - 250Hz, kvinnor upp till 500Hz. Vokaler varar i medel mycket längre än konsonanter. Det mesta av den akustiska energin i talsignalen bärs av vokaler.

14

Styrbart ”vocal tract filter”

V(z)

Styr-parametrar

x y

”OVE” formant synthesis (Prof. Gunnar Fant, KTH), 1953

15

Kombinera exitationsmodellen enligt tidigare (brus/pulsgenerator) med styrbart filter.

Obs: ej att förväxlas med vanlig prediktiv kodning (DPCM)!

LPC är en modellbaserad metod medan vanlig prediktiv kodning är en vågformskodningsmetod.

16

Blockschema - LPC kodare

17

1. LPC-parametrar (ai, G):

2. PARCOR (partial correlation coefficients) kan beräknas rekursivt från ai (se Sayood sid 507). Lämpar sig bättre att kvantisera än LPC-parametrarna.

3. LSF (Line spectrum frequences) utgår från inversfiltret 1/V(z)

18

1.  Signalen delas lämpligen upp i korta segment (ex.vis 20 ms).

2.  För varje segment estimeras vocal tract parametrarna (ai, G) samt pitch och V/UV-tillståndet. Filterparametrarna kan fås genom att minimera en felvarians (jmf beräkning av optimal prediktor).

3.  V/UV-estimeringen baseras på energi- och frekvensinnehåll.

4.  Pitch-frekvens fås genom att söka efter periodiciteter (typiskt 20-160 samples).

Page 4: Kodning av bild och ljud bygger på modeller (Fö.1) · 2009-05-19 · Kodning av bild och ljud bygger på modeller (Fö.1) t S(t) Genereringsmodeller Syn/hörsel-modeller • 3D-objekt

4

19

V/UV: 1 bit Pitch: 6 bitar Vocal tract: 46 bitar (10+1 parametrar) Synk.: 1 bit _____________________________ Tot: 54 bitar => 2.4 kbit/s

20

1.  Byt ut V/UV-exiteringen mot en tabell som innehåller ett stort antal förlagrade exciteringssignaler (jfr VQ):

kodbok

V(z)

2. Sök efter bästa exiteringssignalen genom att pröva samtliga. Här ges möjlighet att även applicera modell av hörselsinnet.

21

Code Excited Linear Prediction Coding (CELP)

•  LPC analys ->V(z) • Definiera ett perceptuellt filter W(z). Detta skall tillåta ökat brus vid formant- frekvenserna (maskering!) •  Syntetisera talet genom att testa varje kodbokssekvens i tur och ordning •  Beräkna optimala förstärkningen som minimerar den perceptuellt viktade

felenergin i varje ram • Välj kodbokssekvensen som ger lägsta felet

Avkodning: •  Ta emot LPC parametrarna och kodboksindex •  Återsyntetisera talet via V(z)

Kodning:

•  Skicka LPC parametrarna och kodboksindex

Prestanda: •  16kbit/s: MOS=4.2, Delay=1.5 ms, 19 MIPS •  8 kbit/s: MOS=4.1, Delay=35 ms, 25 MIPS •  2.4kbit/s: MOS=3.3, Delay=45 ms, 20 MIPS

22

Exempel på CELP-kodare

G.728: V(z) är ett stort FIR filter (M=50) Kodboken innehåller 127 sekvenser,

GSM: Kodboken består av regelbundna pulståg med variabel frekvens och amplitudvärden.

MELP: (Mixed exitation linear prediction). Kodbok kombinerad med brusgenerator.

23

–  Talkodare för hög datatakt (CELP, 5-24 kb/s) –  Talkodare för låg datatakt (HVXC, < 4 kb/s) –  Text-to-speech (TTS, talsyntes)

Codebook index k

LPC filter Perceptual w. filter

e(n)

gk

xk(n)

s(n)

MPEG-4 CELP-kodare

24

 HVXC – talkodare för låga datatakter  8 kHz sampling, 2 – 4 kbit/s.  Under 1.2 kbit/s i variable rate mode.  Kombination av LPC och CELP-kodning

baserad på utfallet av FFT-analys. Vektor-kvantisering av enveloppen för spektrat.

Page 5: Kodning av bild och ljud bygger på modeller (Fö.1) · 2009-05-19 · Kodning av bild och ljud bygger på modeller (Fö.1) t S(t) Genereringsmodeller Syn/hörsel-modeller • 3D-objekt

5

25

HVXC - blockschema

26

Sammanfattning: kodare avsedda för telefoni (8kHz sampling rate)

27

Principer:

•  Generell ljudkodare (MP3, AAC…)

•  Modifierad generell kodare (SBR, HILN,…)

•  Syntetiskt ljud (SAOL, SASL, MIDI)

De flesta av dessa metoder har utvecklats genom MPEG-4 samarbetet.

28

HILN, kodare för låg datatakt (4-16 kbit/s) –  Harmoniska och individuella toner plus brus –  ”delbandskodare” Endast en frekvens per delband

29

  TTS – Text-To-Speech –  MPEG-4 definerar ett interface, inte särskild TTS funktion

  SAOL - Structured Audio Orchestra Language –  SAOL beskriver hur olika instruments skall genereras

  SASL - Structured Audio Score Language –  SASL beskriver vilket instrument som skall spela –  MIDI är en delmängd av SASL

30

  Generellt naturligt ljud –  AAC

  BSAC   TwinVQ

–  HILN (parametric)   Naturligt tal

–  CELP –  HVXC (parametric)

  Synthetiskt ljud –  TTS –  SAOL –  SASL

  Sammansättning –  Mixing –  Re-sampling –  3D-rendering

Page 6: Kodning av bild och ljud bygger på modeller (Fö.1) · 2009-05-19 · Kodning av bild och ljud bygger på modeller (Fö.1) t S(t) Genereringsmodeller Syn/hörsel-modeller • 3D-objekt

6

31

Quality

Cellular

Telephone

AM

FM

CD

2 4 8 16 32 64 kbit/s

Parametric speech (HVXC)

High quality speech (CELP)

General audio (AAC, TwinVQ)

Parametric audio (HILN)

32

Original audio

Music coder (TwinVQ)

6 kbit/s

Music coder (HILN) 6 kbit/s

Speech coder (CELP) 6 kbit/s

Speech coder (HVXC) 2 kbit/s

Speech

Simple music

Complex music