JAKOŚĆ USŁUG TELEKOMUNIKACYJNYCHptitni.tele.pw.edu.pl › _KURS_Badanie_jakosci_uslug_telekomunikacyj… · drugim skończony podzbiór liczb rzeczywistych. Dobrze znanymi przykładami

JAKOŚĆ USŁUG TELEKOMUNIKACYJNYCH

Sławomir Kula

Przemysław Dymarski

Marcin Golański

Warszawa, maj 2015

Spis treści 1. Wstęp ........................................................................................................................... 5

2. Techniki kodowania sygnałów akustycznych i obrazów............................................. 6

2.1. Cechy sygnału mowy ........................................................................................... 6

2.2. Percepcja dźwięków przez człowieka .................................................................. 7

2.3. Kodowanie kompresyjne sygnału mowy ............................................................ 8

2.4. Kodowanie sygnałów audio ............................................................................... 15

2.5. Kodowanie obrazów ........................................................................................... 17

3. Subiektywne metody badania jakości ........................................................................ 19

3.1. Subiektywne metody badania jakości mowy ..................................................... 19

3.1.1. Kategoryzacja.............................................................................................. 19

3.1.2. Testy konwersacyjne ................................................................................... 20

3.1.3. Testy odsłuchowe ........................................................................................ 20

3.1.4. Badanie wyrazistości .................................................................................. 21

3.2. Subiektywne metody badania jakości obrazów ruchomych .............................. 22

4. Parametryczne metody badania jakości ..................................................................... 23

5. Obiektywne metody badania jakości na poziomie mediów ...................................... 25

5.1. Sygnał mowy ...................................................................................................... 25

5.1.1. SNR w ujęciu globalnym i segmentowym .................................................. 25

5.1.2. Metody PSQM i PESQ ............................................................................... 26

5.1.3. Metoda POLQA .......................................................................................... 28

5.1.4. Metoda 3SQM ............................................................................................. 28

5.1.5. Testowanie algorytmów PESQ i POLQA ................................................... 28

5.1.6. Badanie jakości mowy w usłudze VoIP z wykorzystaniem PESQ ............. 30

5.2. Ocena jakości szerokopasmowych sygnałów akustycznych .............................. 32

5.2.1. Maskowanie zakłóceń ................................................................................. 32

5.2.2. Metoda PEAQ ............................................................................................. 34

5.2.3. Testy i badania z wykorzystaniem PEAQ................................................... 35

5.3. Sekwencje wideo ................................................................................................ 37

5.3.1. Zakłócenia i zniekształcenia obrazu ........................................................... 37

5.3.2. Modele percepcji obrazu ............................................................................. 38

5.3.3. Strukturalne podobieństwo obrazów (SSIM) .............................................. 42

5.3.4. Zalecenie J.144 ........................................................................................... 43

5.3.5. Zalecenia J.247, J.246, J.341 i J.342 ........................................................... 44

6. Ocena jakości multimediów na podstawie pakietów i strumienia binarnego ............ 45

7. Ocena jakości gry interaktywnej ............................................................................... 47

8. Podsumowanie ........................................................................................................... 48

Literatura ........................................................................................................................... 49

1. Wstęp

We współczesnych systemach i sieciach telekomunikacyjnych i teleinformatycznych

stosowanych jest wiele rozwiązań, w których sygnał mowy, sygnały akustyczne i sygnały

wideo podlegają różnego rodzaju przekształceniom i przetworzeniom w celu ich sprawnego i

efektywnego przesyłania, gromadzenia, rozpoznawania i syntetyzowania. Stosowanych jest

wiele różnych typów koderów, sieci dostępowe i transmisyjne opierają się na nowych

rozwiązaniach, a integracja sieci telekomunikacyjnych i informatycznych stała się faktem. W

tej sytuacji ważnym problemem staje się pomiar i kontrola jakości usług, jak VoIP (Voice

over IP), VT (Videotelephony), VoD (Video on Demand), IPTV, Wideokonferencja.

Podstawowym czynnikiem wpływającym na jakość usługi QoS (Quality of Service) jest

jakość dźwięku i obrazu. Oprócz tego uwzględnia się inne czynniki, jak skuteczność

nawiązywania połączeń, częstość ich zrywania, itp. Choć wpływają one na stopień

zadowolenia użytkownika z usługi QoE (Quality of Experience), nie będą one rozważane w

niniejszym referacie.

Odbiorcą dźwięku i obrazu jest człowiek, z tego względu subiektywne metody badania

jakości, odwołujące się do ocen grupy odbiorców, są uważane za najdokładniejsze i są

wykorzystywane do kalibracji innych metod pomiaru jakości. Metody subiektywne, w

odniesieniu do mowy, innych sygnałów fonicznych, obrazu ruchomego i przekazu

audiowizualnego zostały włączone do zaleceń ITU-T i ITU-R (Tab.1). Polegają one na

przeprowadzaniu sformalizowanych odsłuchów dźwięku i pokazów ruchomego obrazu, co

jest trudne od strony organizacyjnej, długotrwałe i kosztowne. W tej sytuacji dąży się do

zastąpienia metod subiektywnych oceny jakości metodami obiektywnymi, niewymagającymi

zaangażowania grupy odbiorców.

Metody obiektywne można podzielić na kilka grup, w zależności od danych wejściowych

wykorzystanych do oceny jakości. W metodach funkcjonujących na poziomie mediów

wykorzystuje się obraz i dźwięk:

W metodach z pełnym odniesieniem (full reference), zwanych też

„intruzyjnymi” (intrusive) jest to sygnał przetworzony (docierający do

odbiorcy przez sieć) i sygnał oryginalny

W metodach z częściowym odniesieniem (reduced reference) jest to sygnał

przetworzony i pewne parametry sygnału oryginalnego

W metodach bez odniesienia (no reference), zwanych też „nieintruzyjnymi”

(nonintrusive) jest to wyłącznie sygnał przetworzony (tzn. zniekształcony

dźwięk i obraz)

Dla stałej kontroli jakości usług wygodniejsze są metody, opierające się na badaniu

strumienia pakietów IP. Nie wymagają one dostępu do dźwięku i obrazu, a do oceny jakości

wykorzystują opóźnienie pakietów, jitter opóźnienia, prawdopodobieństwo utraty pakietu,

jego uszkodzenia, itd. Znane też być muszą wykorzystywane kodeki i algorytmy maskowania

skutków utraty pakietów (jeśli takie są używane). Jeśli w badaniu jakości usługi chcemy

uwzględnić stan warstwy fizycznej kanału, to metody pomiaru jakości muszą wykorzystywać

jako dane wejściowe parametry strumienia binarnego (BER, itd.). Można w ten sposób

uwzględnić działanie kodów zabezpieczających przed błędami binarnymi (przy działaniu na

poziomie pakietów nie jest to możliwe). Poza tym można uwzględnić wpływ przekłamania

poszczególnych bitów na jakość dźwięku czy obrazu.

Do planowania sieci i doboru terminali pod kątem zapewnienia jakości usług nadają się

metody parametryczne, wykorzystujące jako dane wejściowe parametry połączenia

telekomunikacyjnego (rodzaj kodeka, przepływność binarna, opóźnienie w transmisji, itp.).

Najbardziej popularny jest tu E-model (zalecenie G.107 dla telefonii).

Obecnie ITU stymuluje badania nad hybrydowymi metodami pomiaru jakości, np.

mającymi dostęp do mediów i do strumienia binarnego (np. projekt J.bitvqm).

Tabela 1 Wybrane normy ITU-T i ITU-R odnoszące się do pomiaru jakości

Metody subiektywne obiektywne

poziom mediów poziom

pakietów/bitów

parametryczne hybrydowe

Mowa P.800

P.810

P.830

P.861

P.862 (PESQ)

P.863 (POLQA)

P.563 (3SQM)

P.564 G.107 (E-model) P.CQO*

Audio BS1116

BS1284

BS1387 (PEAQ)

P.1201, P.1202

(P.NAMS*

P.NBAMS*)

G.113

Wideo BT500

P.910

J.140

J.144

BT1683

J.246, J.247

J.341, J.342

G.1070

G.OMVS*

J.343

J.bitvqm*

Multimedia P.911 J.148

*nazwy robocze

W kolejnych podrozdziałach referatu skoncentrowano się na prezentacji wybranych

subiektywnych i obiektywnych metod oceny jakości mowy, sygnału audio i sygnału wideo

dla potrzeb badania różnego rodzaju połączeń, którymi są przesyłane te sygnały oraz

urządzeń, systemów i sieci realizujących takie połączenia.

2. Techniki kodowania sygnałów akustycznych i obrazów

2.1. Cechy sygnału mowy

Sygnał mowy ludzkiej ma widmo zawarte w zakresie od kilkunastu Hz do nawet powyżej

17 kHz. W sygnale tym, który ma fragmentami cechy sygnału quasi stacjonarnego można

wyróżnić fragmenty mowy dźwięcznej (odpowiadające głoskom dźwięcznym – struny

głosowe drgają), mowy bezdźwięcznej (odpowiadające głoskom bezdźwięcznych – struny

głosowe nie drgają) i ciszy. Cisza występuje w wielu miejscach sygnału mowy. Może być

ciszą międzyzdaniową, międzywyrazową, a także wewnątrzwyrazową. Czas trwania głosek

jest zależny od rodzaju głoski (zwykle głoski dźwięczne są dłuższe od głosek

bezdźwięcznych), ale też od pozycji głoski i od akcentowania. Głoski dźwięczne są z reguły

mocniejsze (głośniejsze). Ich energia jest większa. Przejście między kolejnymi głoskami jest

związane ze zmianami w trakcie głosowym i jest nazywane transjentem. Na rys. 2.1 pokazano

przykładowy przebieg sygnału mowy.

Rys. 2.1. Sygnał mowy

2.2. Percepcja dźwięków przez człowieka

Percepcja sygnału mowy przez aparat słuchowy człowieka jest procesem

skomplikowanym i do pewnego stopnia zależy od indywidualnych cech słuchacza. W

szczególności warto zwrócić uwagę na maskowanie sygnałów. Może ono mieć miejsce w

dziedzinie częstotliwości – rys.2.2 (dźwięki występuję jednocześnie, ale różnią się

częstotliwością) oraz w dziedzinie czasu – rys. 2.3 ( dźwięki występuję po sobie).

Maskowanie w dziedzinie czasu może być zarówno maskowaniem wprzód jak i wstecz. W

wyniku maskowania sygnału maskowanego nie słyszymy.

Rys. 2.2. Maskowanie w dziedzinie częstotliwości

Rys.2.3. Maskowanie w dziedzinie czasu

2.3. Kodowanie kompresyjne sygnału mowy

Kwantyzacja Kwantyzacja jest podstawowym procesem stosowanym w technikach kodowania

stratnego. Występuje ona we wszystkich algorytmach kompresji stratnej, albo jako jedyny

blok (kodowanie PCM), albo jako jeden z bloków. Ogólnie można powiedzieć, że

kwantyzacja polega na odwzorowaniu nieskończonego albo bardzo licznego zbioru w

skończony zbiór o mniejszej, najczęściej niewielkiej liczbie elementów. Niewielka liczba

elementów drugiego zbioru pozwala na ich przedstawienie za pomocą niewielkiej liczby

bitów. Najczęściej pierwszym zbiorem jest przedział, albo cały zbiór liczb rzeczywistych,

drugim skończony podzbiór liczb rzeczywistych. Dobrze znanymi przykładami układów, w

których jest wykonywana kwantyzacja to przetworniki analogowo/cyfrowe. Kwantyzacja jest

integralną częścią procesu cyfryzacji sygnałów analogowych.

Kwantyzację sygnału realizuje układ zwany kwantyzatorem, albo kwantyzerem. Dany

kwantyzator jest scharakteryzowany za pomocą dwóch zestawów liczb: progów kwantyzacji i

poziomów kwantyzacji. Progi kwantyzacji określają podział zbioru liczb rzeczywistych na

przedziały kwantyzacji. Wszystkie liczby z danego przedziału kwantyzacji są reprezentowane

za pomocą jednego poziomu kwantyzacji.

Symbolicznie, jeżeli 121 ... Nxxx są progami kwantyzacji )( 11 Nxx , a

Nyyy ,...,, 21 - poziomami kwantyzacji, to działanie kwantyzatora można opisać następująco.

Niech x będzie próbką wejściową kwantyzatora. Odpowiadająca jej próbka wyjściowa x’ jest

równa yi wtedy i tylko wtedy , gdy ),[ 1 ii xxx . W praktyce kwantyzator dzieli się na dwa

układy. Pierwszy z nich i znajdujący się w koderze, oznaczany dalej jako funkcja Qc(x),

oznacza przedział kwantyzacji, do którego należy próbka wejściowa x i generuje indeks i -

numer tego przedziału ))(( xQi c . Zakodowany binarnie indeks i jest przesyłany do

dekodera, w którym drugi układ kwantyzatora , oznaczany jako funkcja Qd(i), generuje na

podstawie indeksu odpowiedni poziom kwantyzacji )(iQy di . Liczba poziomów

kwantyzacji jest na ogół wybierana jako potęga 2, gdyż umożliwia to użycie całkowitej liczby

bitów )(log2 N do przedstawienia dowolnego indeksu przedziału kwantyzacji. Czasem zbiór

indeksów koduje się jedną z technik kodowania bezstratnego, np. kodu Huffmana.

Różnica:

)]([' xQQxxxe cd

jest zwana błędem kwantyzacji albo szumem kwantyzacji. We wszystkich technikach

kodowania stratnego błąd kwantyzacji jest przyczyną różnicy pomiędzy sygnałem

oryginalnym a zrekonstruowanym. Jego występowanie jest jednak nieuchronne, jeżeli chcemy

uzyskać duży współczynnik kompresji.

Zależnie od użytego kwantyzatora, kwantyzacja może być równomierna albo

nierównomierna, stała, albo adaptacyjna.

Kwantyzacja równomierna Kwantyzatory równomierne są najprostszymi kwantyzatorami. Działać one mogą w

oparciu o jedna z dwóch charakterystyk )]([' xQQx cd . Wspólną cechą kwantyzatorów

równomiernych jest stosowanie jednakowego, stałego skoku kwantyzacji definiowanego

następująco:

1 ii xx

Wyjątek mogą stanowić skrajne przedziały. O wartości skoku kwantyzacji decyduje

różnica pomiędzy maksymalną Xmax i minimalną Xmin wartością próbek sygnału

podlegającego kwantyzacji oraz liczba poziomów kwantyzacji. Z wyjątkiem skrajnych

przedziałów, błąd kwantyzacji w kwantyzatorze równomiernym spełnia warunek:

2/2/ e

Szum kwantyzacji jest dobrze charakteryzowany za pomocą wartości średniej kwadratu

błędu kwantyzacji. Pomijając dowód, możemy przyjąć, że jeżeli sygnał ma równomierny

rozkład amplitud próbek, to wartość średnia kwadratu szumu kwantyzacji wynosi 12

2.

Przykład

[Porównaj dwa nagrania. W tym celu kliknij na ikonę Bar32– liczba poziomów

kwantyzacji wynosi 8, a następnie na ikonę Bar128 – liczba poziomów kwantyzacji 16.

Kwantyzacja nierównomierna W przypadku sygnałów o dużej dynamice (np. sygnał mowy – po głośnym fragmencie

następuje fragment cichy) kwantyzacja równomierna może powodować bardzo istotny

percepcyjnie błąd. Jeżeli dla takiego sygnału zastosujemy kwantyzator o dużym skoku

kwantyzacji to próbki o małej amplitudzie „wpadać” będą w jeden przedział (w skrajnym

przypadku może im być przypisana wartość 0) i w odbiorniku będą nie do rozróżnienia. Z

kolei zastosowanie małego skoku kwantyzacji spowoduje wzrost liczby poziomów

kwantyzacji, by pokryć cały przedział minmax XX , a więc potrzebę korzystania z większej

liczby bitów do ich kodowania. Względny błąd kwantyzacji x

e w kwantyzatorze

równomiernym jest większy dla próbek o małej amplitudzie niż dla próbek o dużej

amplitudzie. Aby uniezależnić względny błąd kwantyzacji od amplitudy próbek rozmiar

przedziału kwantyzacji powinien być proporcjonalny do modułu liczby należącej do tego

przedziału. Innymi słowy przedziały kwantyzacji powinny być mniejsze dla małych amplitud

i większe dla dużych amplitud.

Implementacja zmiennego skoku kwantyzacji może być dokonana dwojako: albo stosując

kwantyzator o nierównomiernym skoku kwantyzacji rosnącego wraz z amplitudą próbek

wejściowych, albo stosując kwantyzator równomierny, ale wcześniej przekształcając wartości

próbek sygnału kwantowanego, w taki sposób, by zmniejszyć dynamikę sygnału. W obu

przypadkach efekt końcowy będzie taki sam. Wprowadzenie kwantyzacji nierównomiernej

ma na celu zapewnienie w miarę stałego względnego błędu kwantyzacji, w całym zakresie

dynamiki sygnału. Istotne znaczenie ma wybór charakterystyki zmian skoku kwantyzacji

wraz ze zmiana amplitudy próbek, to jest wybór tak zwanej krzywej kompresji. W przypadku

sygnału mowy, krzywą najlepiej spełniającą to zadanie jest krzywa logarytmiczna C(x)

opisana następującym wzorem:

)1log(

)1log()(

xxC

Kwantyzacja adaptacyjna Większe możliwości kompresji sygnału można uzyskać, gdy skok kwantyzacji

(równomierny albo nierównomierny) jest zmieniany dynamicznie w zależności od amplitudy

próbek sygnału poddawanego kwantyzacji. Podobnie jak w przypadku realizacji

kwantyzatorów nierównomiernych także i tu osiągniecie celu jest możliwe dwoma sposobami

– albo zmieniamy skok kwantyzacji w zależności od energii sygnału, albo nie zmieniając

skoku kwantyzacji dokonujemy normalizacji amplitudy sygnału, w taki sposób by jego

dynamika była zawsze taka sama, przed podaniem próbki na wejście kwantyzatora.

Dane przesyłane do odbiornika (dekodera) powinny zawierać kolejne indeksy przedziałów

kwantyzacji. Informacja o aktualnych parametrach kwantyzatora musi być znana w

odbiorniku. Możliwe jest jej przesyłanie, z każdym razem, gdy parametry kwantyzatora się

zmieniają i wtedy mamy do czynienia z adaptacją w przód. Inne rozwiązanie opiera się na

wyznaczaniu w odbiorniku parametrów kwantyzatora na podstawie energii odebranych

próbek Jest to adaptacja wstecz.

Kwantowanie skalarne i wektorowe Dotychczas omawialiśmy metody kwantowania skalarnego, to znaczy takie, w których

analogowej wartości próbki (skalarowi) przypisywana jest jedna wartość ze skończonego

zbioru - również wartość skalarna. Kwantyzatory wektorowe operują wektorami a nie

skalarami. Zarówno próbka kwantowana, jak i wynik kwantyzacji są wektorami, ogólnie

wektorami z przestrzeni N-wymiarowej.

Podstawową trudnością projektowania kwantyzatorów wektorowych jest określenie

komórek oraz położenia centroidów, tak by zminimalizować błąd kwantyzacji. Zauważmy, że

błąd kwantyzacji jest nieco inaczej definiowany niż w kwantyzacji skalarnej. Najczęściej

stosowaną jego miarą jest błąd kwadratowy:

N

i

ii xxxxd1

2)(),(

Jedną z metod projektowania kwantyzatorów wektorowych jest metoda klastrowa, zwana

również metodą LBG.

Próbkowanie Reprezentacja cyfrowa sygnału analogowego wymaga wykonania dwóch operacji:

próbkowania i kwantowania. Próbkowanie polega na zastąpieniu sygnału analogowego

sekwencją próbek pobieranych w jednakowych, bądź niejednakowych odstępach czasu. W

jednym i drugim przypadku sygnał po spróbkowaniu nazywa się sygnałem dyskretnym. Jego

próbki mają taką samą amplitudę, jak sygnał pierwotny w chwili próbkowania. Ze względów

praktycznych najczęściej stosuje się próbkowanie równomierne, w którym próbki są

pobierane z sygnału regularnie w ostępach czasu Tp, czyli częstotliwość próbkowania fp,

wynosi: p

pT

f1

. Okazuje się, że powrót do analogowej postaci sygnału, bez wprowadzenia

w nim jakichkolwiek zniekształceń jest możliwe. Podstawowe znaczenie ma wybór

częstotliwości próbkowania. Częstotliwość ta powinna spełniać twierdzenie o próbkowaniu, z

którego wynika, że:

Bf p 2 ,

gdzie: B oznacza szerokość pasma częstotliwościowego sygnału analogowego.

Twierdzenie o próbkowaniu nazywane jest również twierdzeniem Nyquista, twierdzeniem

Shannona lub twierdzeniem Kotielnikowa. Połowa częstotliwości próbkowania jest nazywana

częstotliwością Nyquista. Podane wymaganie na częstotliwość fp wymaga komentarza. Często

podaje się powyższy wzór z nierównością nieostrą ( ). Łatwo wykazać, ze tak być nie

może. Na przykład, jeżeli próbkujemy sygnał sinusoidalny o częstotliwości f0 i częstotliwości

fp =2f0, to może się zdarzyć, że wszystkie próbki będą miały wartość zerową (rys.2.4). Z

próbek o wartości zerowej nie możemy odtworzyć sygnału sinusoidalnego. Druga uwaga

dotyczy szerokości pasma sygnału próbkowanego. Najczęściej podając twierdzenie o

próbkowaniu przyjmuje się, że częstotliwość próbkowania powinna być dwukrotnie większa

od największej częstotliwości składowej fmax sygnału próbkowanego. Tak by było, gdyby

sygnał zajmował pasmo od zera do wspomnianej częstotliwości, wtedy B=fmax. Jeżeli sygnał

zajmuje pasmo z przedziału [fmin ; fmax], to może on być próbkowany z częstotliwością:

)(2 minmax fff p , a nie z częstotliwością max2 ff p . Do odtworzenia postaci analogowej

sygnału trzeba jednak dodatkowo znać częstotliwość minf , albo maxf .

Rys.2.4. Ilustracja procesu próbkowania

Cyfryzacja sygnału telefonicznego Szczególne znaczenie i wpływ na współczesną teleinformatykę miała cyfryzacja sygnału

mowy na potrzeby przesyłania go w sieci telefonicznej. Pasmo sygnału telefonicznego

zawiera się w zakresie od 300 Hz do 3,4 kHz. Wystarczyło by zatem próbkować ten sygnał z

częstotliwością niewiele większą od 3,1 kHz. Ponieważ jednak, filtry ograniczające pasmo

sygnału nie działają idealnie, a także z innych powodów, związanych z rozwiązaniami

przyjętymi w systemach teletransmisyjnych zdecydowano się przyjąć częstotliwość

próbkowania fp równą 8 kHz. Przed określeniem liczby poziomów kwantyzacji

przeprowadzono badania i okazało się, że gdy użyjemy 256 poziomów kwantyzacji, to szum

kwantyzacji jest wtedy na tyle mały, że nie ma istotnego wpływu na wrażenia percepcyjne po

przywróceniu sygnałowi postaci analogowej.

Przykład

[Klikając na ikonę PCM64 możesz posłuchać sygnału mowy próbkowanego z

częstotliwością 8 kHz i kwantowanego z użyciem 256 poziomów kwantyzacji]

Ponieważ do zapisania w postaci binarnej każdego z 256 poziomów wystarczy 8 bitów

( )25628 . Zatem przepływność binarna sygnału mowy wynosi 64 kbit/s (8 kHz . 8 bitów).

Wielokrotności tej przepływności, jak również jej wybrane podwielokrotności są typowymi

przepływnościami stosowanymi, nie tylko do transmisji sygnału mowy. Na przykład typowe

przepływności binarne w systemach dostępu do sieci Internet wynoszą 128 kbit/s, 256 kbit/,

512 kbit/s itd., a więc odpowiednio 2, 4, 8 razy przepływność 64 kbit/s.

Kodowanie sygnału mowy Techniki kodowania sygnału mowy w celu jego kompresji rozwijały się przez wiele lat ze

względu na niewystarczające możliwości transmisyjne wielu systemów telekomunikacyjnych.

Po raz pierwszy z problemem oszczędnego wykorzystywania dostępnych zasobów

transmisyjnych stykamy się już w analogowych systemach telefonicznych wykorzystujących

kable podmorskie. Przyjęto wtedy rozwiązanie oparte na wykrywaniu przerw w mówieniu

(ciszy), ich usuwaniu w nadajniku i odtwarzaniu w odbiorniku, dzięki czemu uzyskano

możliwość jednoczesnego przesyłania większej liczby rozmów. Rozwiązanie tp znalazło

również zastosowanie w telefonii międzynarodowej, a w wersji cyfrowej, na przykład w

systemach satelitarnych. Kodowanie kompresyjne to nie tylko zawężanie pasma sygnału czy

eliminacja ciszy – to także techniki kodowania sygnału mowy, który wcześniej poddany

został cyfryzacji, a więc techniki, które pozwalają zmniejszyć przepływność binarną sygnału.

Wszystkie techniki kodowania kompresyjnego sygnału mowy– szerzej sygnałów odbieranych

przez zmysł słuchu i wzroku – są technikami kodowania stratnego. Ich praktyczne

wykorzystanie jest możliwe dzięki, tak zwanej redundancji sygnału mowy. Sygnał mowy

zawiera informacje mało istotne, albo zupełnie nieistotnych z punktu widzenia słuchacza i

celu kompresji, które można z niego usunąć. Wiemy już, że pasmo sygnału mowy można

znacząco ograniczyć, usunąć z niego ciszę, kwantować, stosując 256 poziomów kwantyzacji,

a mimo to akceptujemy jego jakość, gdy jest to sygnał telefoniczny. Na pewno jednak nie

uznalibyśmy jego jakości za wystarczająco dobrą, gdyby był on nagrany na płytę CD.

Opracowano wiele różnych metod kodowania kompresyjnego cyfrowego sygnału mowy z

myślą o zastosowaniach telekomunikacyjnych. Ich praktyczne implementacje nazywane

kodekami (koder i dekoder) mogą być zarówno hardwareowe, jak i softwareowe. Najprostsze

kodeki to zwykłe przetworniki A/C, nazywane kodekami PCM (modulacja impulsowo-

kodowa). Bardziej skomplikowane rozwiązanie to, tak zwana różnicowa modulacja kodowo-

impulsowa DPCM. W koderach PCM każda bieżąca próbka jest kodowana niezależnie od

wcześniejszych i późniejszych próbek sygnału. Tymczasem, nawet pobieżna obserwacja

przebiegi czasowego mowy pozwala zauważyć w nim pewną powtarzalność. Nie powinno to

nas dziwić, jeżeli uzmysłowimy sobie, że wypowiadane głoski mają pewien czas trwania

(najczęściej rzędu kilkudziesięciu milisekund). Z dużym przybliżeniem można powiedzieć, że

cechy sygnał w trakcie trwania głoski, a przynajmniej w jej stacjonarnej części, niewiele się

zmieniają. Jeżeli sygnał jest próbkowany z częstotliwością 8 kHz, to w czasie, np. 50 ms

mamy 400 jego próbek. To, że przez cały czas trwania głoski słyszymy i rozpoznajemy ja

jako tę właśnie głoskę oznacza, że próbki mowy są ze sobą skorelowane (zależne jedna od

drugiej). Dotyczy to nie tylko głosek dźwięcznych, gdzie powtarzalność przebiegu jest

spowodowana okresowością drgań strun głosowych i zauważalna w ich przebiegu czasowym,

ale również głosek bezdźwięcznych, których przebiegi nie wykazują wizualnie

powtarzalności. Korelacja pomiędzy próbkami pozwala w przybliżeniu określić amplitudę

bieżącej próbki na podstawie pewnej liczby próbek wcześniejszych albo próbek

następujących po próbce bieżącej. Schemat kodera i dekodera DPCM jest pokazany na rys.

2.5..

Rys. 2.5. Schemat blokowy kodera DPCM.

Amplituda x(n) każdej bieżącej (wejściowej) próbki sygnału mowy jest porównywana z

amplitudą )(~

nx dla niej przewidywaną, w bloku, tak zwanego predyktora. W kwantyzatorze

jest kwantowany nie sygnał wejściowy, ale błąd predykcji r(n) definiowany następująco:

)()()(~

nxnxnr

Błąd predykcji ma z reguły dużo mniejszą amplitudę niż sam sygnał, a zatem może być

kodowany za pomocą mniejszej liczby bitów. Na wejście predyktora podawany jest sygnał

błędu predykcji oraz przewidywana próbka sygnału mowy

Rozszerzenie modulacji DPCM o techniki adaptacji skoku kwantyzacji, o których

mówiliśmy wcześniej prowadzi do kodowania ADPCM. Typowe przepływności binarne

kodera ADPCM to 16-32 kbit/s.

Rys. 2.6. Schemat blokowy kodera ADPCM.

W telefonii GSM oraz technice VoIP dominują obecnie kodery CELP (Code Excited

Linear Prediction). Koder CELP łączy dwie efektywne techniki kompresji: kwantowanie

wektorowe i liniową predykcję. Sygnał mowy na wyjściu dekodera (x*) powstaje przez

filtrację wektorów sygnału pobudzenia jc , pomnożonych przez odpowiedni współczynnik

wzmocnienia Gc. Wektory te, w koderach GSM, składają się z 40 próbek sygnału. Jako sygnał

pobudzenia stosuje się również sygnał opóźniony, co pozwala na odtworzenie sygnałów

mowy dźwięcznej, o charakterze zbliżonym do okresowego.

Rys.2.7 Koder CELP (jeżeli pominie się sumator po prawej stronie, otrzyma się dekoder

CELP).

Otrzymany w ten sposób wektor jci

p cGG * filtruje się z wykorzystaniem filtru

predykcyjnego H. Filtr ten adaptuje się do kodowanego sygnału x, nadając sygnałowi x*,

który powstaje na wyjściu odbiornika, odpowiedni kształt widmowy. Typowe przepływności

binarne kodera CELP zawierają się między 4kbit/s a 16 kbit/s.

Niższe przepływności binarne wymagają zastosowania kodera parametrycznego, tzw.

wokodera. W tego typu urządzeniu nie dąży się do dokładnego odtworzenia fali akustycznej,

a jedynie do wygenerowania sygnału o widmie zbliżonym do widma sygnału mowy.

Rys.2.8 Uproszczony schemat syntezy mowy w wokoderze - d=1: mowa dźwięczna, d=0:

mowa bezdźwięczna, T0 - okres tonu krtaniowego (okres drgań strun głosowych)

Sygnałami pobudzającymi zmienny w czasie filtr H (podobny do filtru stosowanego w

koderze CELP) są impulsy symulujące działanie krtani oraz szum wykorzystywany do

generowania mowy bezdźwięcznej. Do przeprowadzenia syntezy mowy wystarcza

aktualizacja parametrów filtru (dzięki temu możemy generować różne głoski), informacja o

dźwięczności mowy, oraz (dla mowy dźwięcznej) okres tonu krtaniowego. Przesyłanie tych

parametrów wymaga szybkości transmisji od kilkuset do około 2500 bit/s.

2.4. Kodowanie sygnałów audio

Kodery szerokopasmowych sygnałów fonicznych najczęściej operują w dziedzinie

częstotliwości. Podział skali częstotliwości na podpasma pozwala na wykorzystanie innego

kwantyzatora w każdym z podpasm. Każdy z tych kwantyzatorów adaptuje się do amplitudy

przetwarzanego sygnału pasmowego (amplitudy mogą się bardzo różnić) i może pracować z

różną rozdzielczością (różna liczba bitów na kwantowanie próbki sygnału). Pozwala to na

zmniejszenie błędu kwantyzacji (postrzeganego jako szum) i na „ukrycie” (zamaskowanie)

widma szumu kwantyzacji widmem sygnału audio. Redukcja objętości sygnału jest możliwa

właśnie dlatego, że słuch człowieka nie jest doskonały. Najogólniej można powiedzieć, że

człowiek nie słyszy pewnych dźwięków w obecności innych. Jest to tak zwany efekt

maskowania (będzie o tym mowa w dalszej części tekstu). Niesłyszalne są dźwięki słabe

występujące w sąsiedztwie dźwięków mocnych o zbliżonych częstotliwościach – maskowanie

w dziedzinie częstotliwości. Czasami niesłyszalne są również dźwięki o różniących się

znacznie częstotliwościach, jeżeli dźwięk o małym natężeniu występuje bezpośrednio przed

(maskowanie wstecz) albo po (maskowanie wprzód) dźwięku o dużym natężeniu.

Wrażliwość na dźwięki zależy również od ich częstotliwości i natężenia. Dźwięki o zbyt

małym natężeniu nie są w ogóle słyszalne.

Ogólny schemat typowego kodera i dekodera sygnału audio pokazano na rys.2.9.

Rys.2.9. Schemat kodera i dekodera sygnału audio

Za pomocą transformaty (najczęściej wykorzystywana jest dyskretna transformata

cosinusoidalna DCT) lub zestawu filtrów pasmowych otrzymuje się sygnały pasmowe, z

których każdy kwantowany jest z wykorzystaniem innego kwantyzatora. Rozdziału bitów

pomiędzy kwantyzatory dokonuje się tak, aby zmniejszyć moc błędu kwantowania całego

sygnału lub tak, aby zamaskować szum kwantyzacji (analiza psychoakustyczna).

Rys.2.10. Zmniejszenie mocy szumu kwantyzacji po zastosowaniu odrębnych kwantyzatorów

w podpasmach częstotliwości

Pojedynczy kwantyzator, jeśli jest dobrze dopasowany do sygnału, generuje błąd kwantyzacji

na poziomie około 6b decybeli niższym od mocy kwantowanego sygnału (b – liczba bitów na

skwantowanie jednej próbki). Szum kwantyzacji jest sygnałem nieskorelowanym i ma dość

płaskie widmo, w związku z tym nie jest dobrze zamaskowany widmem sygnału audio

(rys.2.10 po lewej). Podział skali częstotliwości na podpasma pozwala na dokonanie adaptacji

zakresu pracy kwantyzatorów do różnych amplitud sygnałów podpasmowych (rys.2.10 w

środku). Dalsze obniżenie szumu kwantyzacji jest możliwe dzięki nierównomiernemu

rozdziałowi bitów pomiędzy kwantyzatory (rys.2.10 po prawej).

Uwzględnienie zjawiska maskowania szumu kwantyzacji przez sygnał audio wymaga

obliczenia tzw. krzywej maskowania (lub progu maskowania), który jest funkcją

częstotliwości i wskazuje największą moc zakłócenia, które jest jeszcze niesłyszalne w

obecności sygnału audio (będzie o tym mowa w dalszej części tekstu). Bity rozdziela się w

taki sposób, aby widmo szumu kwantowania znalazło się pod krzywą maskowania.

Koder MP3 Koder MP3 koduje sygnał zapisany w formacie wave (pliki .wav), w taki sposób by

znacząco zredukować rozmiar pliku zajmowanego przez sygnał, nie powodując istotnej utraty

jakości sygnału. W formacie wave sygnał jest próbkowany z częstotliwością 44,1 kHz , każda

jego próbka reprezentowana za pomocą sekwencji 16 bitowej, a więc plik z jednosekudowym

sygnałem stereofonicznym plik zajmuje aż 1,4112 Mbit. Koder MP3 wykorzystuje analizę

psychoakustyczną (Rys.2.11). Dzieli sygnał na interwały czasowe, a ponadto pasmo

zajmowane przez sygnał dzieli na 32 podpasma, które w kolejnym etapie są dzielone, z

wykorzystaniem zmodyfikowanej transformaty kosinusoidalnej (MDCT), na 18 części, co w

sumie daje 576 wąskich podpasm. W każdym interwale eliminuje dźwięki o bardzo dużych i

bardzo małych częstotliwościach. Ponadto eliminuje dźwięki maskowane (niesłyszalne, albo

słabo słyszalne). W niektórych segmentach sygnału audio kodowana jest tylko niewielka

część podpasm (Rys.2.12). Dodatkowo dla sygnałów stereofonicznych koduje się ich różnicę

i sumę, a nie każdy kanał osobno. Dzięki temu uzyskuje się przeciętnie 10-12 krotne

zmniejszenie objętości pliku w stosunku do pliku wave.

Rys.2.11 Schemat kodera MPEG1 Audio, layer3 (MP3)

Filtry Subpasmowe

Model Psychoakustyczny

MDCT

FFT

Zewnętrzna Pętla Kontroli Zniekształceń

Wewnętrzna Pętla Sterowania Prędkością

Kodowanie Huffmana

Informacje Dodatkowe

Formatowanie strumienia

Pętla Powtórzeń

Sygnał Audio (PCM)

Przełączanie Okna

32 pasma

Zakodowany Sygnał Audio

576Współ.

Rys.2.12. Widmo sygnału audio krzywa maskowania i kwantowane podpasma [Toczko]

Przykład [Odsłuchaj dwa pliki dźwiękowe klikając na ikony Wave (standard wave) i MP3 (koder

MP3). Porównaj jakość. Czy zauważasz różnicę?]

2.5. Kodowanie obrazów

Kodowanie obrazów nieruchomych Najpopularniejszym standardem kompresji obrazów nieruchomych (np. zdjęć

fotograficznych, rysunków, obrazów graficznych) jest standard JPEG. Jego nazwa pochodzi

od akronimu nazwy międzynarodowego zespołu ekspertów (Joint Photographics Experts

Group) powołanego przez kilka organizacji międzynarodowych. Wynikiem prac zespołu jest

opublikowany w 1991 roku standard JPEG.

Standard JPEG wyróżnia dwa tryby kodowania: bezstratny i stratny. Tryb bezstratny polega

na kodowaniu predykcyjnym DPCM oraz wykorzystywaniu kodu Huffmana albo kodu

arytmetycznego. W trybie bezstratnym uzyskuje się średnio stopień kompresji 2. Tryb stratny

pozwala osiągnąć dużo wyższy średni stopień kompresji 10÷20. Opiera się on na

wykorzystaniu dyskretnej transformaty kosinusowej DCT, zróżnicowanym kodowaniu jej

współczynników, a następnie, tak jak w trybie bezstratnym, użyciu jednej z metod kodowania

bezstratnego.

Obraz źródłowy to zbiór, tak zwanych pikseli równomiernie rozmieszczonych w przestrzeni

dwuwymiarowej Piksel to najmniejszy element cząstkowy obrazu. Każdy piksel jest

określany za pomocą zestawu komponentów. Mogą to być różne komponenty. Najczęściej

stosuje się dwa następujące zestawy komponentów:

zestaw kolorów podstawowych RGB (czerwony-Red, zielony-Green i niebieski-Blue);

Jasność, barwa i nasycenie (luminancja i chrominancja).

W koderze JPEG obraz źródłowy jest dzielony na bloki o wymiarze 8x8 pikseli, które

podlegają kodowaniu kompresyjnemu. Dla każdego bloku i każdego komponentu osobno jest

obliczana 64 punktowa transformata DCT. W wyniku wykonanych obliczeń dla każdego

bloku i każdego komponentu otrzymujemy 64 współczynniki transformaty (liczby

rzeczywiste). Współczynniki DCT są następnie kwantowane. Najczęściej po kwantowaniu

wiele współczynników ma wartość zerową, dzięki czemu stosując jedną z metod kodowania

bezstratnego uzyskuje się duży stopień kompresji.

W koderze JPEG obraz źródłowy jest dzielony na bloki o wymiarze 8x8 pikseli, które

podlegają kodowaniu kompresyjnemu. Dla każdego bloku i każdego komponentu osobno jest

obliczana 64 punktowa transformata DCT. W wyniku wykonanych obliczeń dla każdego

bloku i każdego komponentu otrzymujemy 64 współczynniki transformaty (liczby

rzeczywiste). Współczynniki DCT są następnie kwantowane. Najczęściej po kwantowaniu

wiele współczynników ma wartość zerową, dzięki czemu stosując jedną z metod kodowania

bezstratnego uzyskuje się duży stopień kompresji.

Przykład [Obejrzyj trzy kolejne obrazy klikając na ikony o nazwach JPEG512, JEPG64 i JPEG32

Pierwszy plik ma rozmiar 5 Mbit, drugi 64 kbit i trzeci 32 kbit. Wyciągnij wnioski]

JPEG512

JPEG512

JPEG512

Kodowanie obrazów ruchomych Kompresja obrazów ruchomych opiera się na:

Zmniejszeniu rozdzielczości obrazu: format CIF (4:1), format QCIF (16:1).

Zmniejszeniu częstotliwości próbkowania;

Zmniejszeniu liczby poziomów kwantyzacji;

Zmniejszenie częstotliwości ramkowania (zmniejszenie liczby klatek w czasie);

Kompresji obrazu w ramce;

Redukcji informacji z ramki na ramkę;

Estymacji ruchu.

Jedną z najczęściej stosowanych metod kompresji obrazów ruchomych jest metoda opisana w

standardzie MPEG. Podobnie, jak w przypadku standardu JPEG nazwa standardu wywodzi

się od akronimu nazwy grupy ekspertów (Moving Picture Experts Group) powołanych do

opracowania standardu kompresji obrazów ruchomych. Owocem pracy tej grupy był standard

MPEG-1, opracowany już w 1990 roku, a następnie standardy MPEG-2 (1991), MPEG-4

(1998) i MPEG-7 (2006).

Strumień danych MPEG można podzielić na dwie grupy;

Grupa danych systemowych zawierająca informacje o synchronizacji czasu w celu

odpowiedniego ich połączenia w procesie dekodowania.

Dane skompresowanego obrazu i dźwięku.

Sekwencja wideo składa się z nagłówka, grupy obrazów i znacznika końca sekwencji wideo.

Każdy obraz to trzy macierze opisujące składowe luminancji i chrominancji. W procesie

kodowania obraz dzieli się na plastry zawierające kolejne makrobloki ułożone z lewej strony

na prawą i z góry na dół. Makroblok to macierz 16x16 współczynników luminancji i macierze

8x8 współczynników chrominancji. W przypadku sekwencji wideo kolejne obrazy najczęściej

niewiele się między sobą różnią. Zatem nie ma potrzeby pełnego kodowania każdej klatki

(obrazu). Różnice pomiędzy obrazami dotyczą zwykle występujących na nich obiektach

ruchomych. Chcąc zminimalizować ilość informacji należy wyznaczyć kierunek ruchu

obiektów w obrazie, skompensować ten ruch, a następnie zakodować różnicę między

obrazami punkt po punkcie. Wyznaczanie ruchu obiektów jest dokonywane na bazie

makrobloków. Dla każdego makrobloku w obrazie aktualnym jest poszukiwany najbardziej

podobny do niego makroblok w obrazie poprzednim. Informacja o kierunku ruchu

makrobloku (wektor ruchu) jest przesyłana do dekodera. W koderze makrobloki koduje się

korzystają z metod predykcyjnych. Jeżeli kierunek ruchu jest poprawnie określony to

kodowanie błedu predykcji wymaga mniejszej liczby bitów niż kodowanie oryginalnego

obrazu. Wyróżnia się trzy typy obrazów:

Obrazy wewnętrzne (I) zakodowane z wykorzystaniem informacji zawartych tylko w nich

samych;

Obrazy prognozowane (P), zakodowane z wykorzystaniem informacji o najbliższym

poprzednim obrazie I albo P. Jest to, tak zwane przewidywanie wprzód. Obrazy

dwukierunkowo prognozowane (B), to znaczy takie, których kodowanie wykorzystuje

obrazy będące zarówno poprzedzające jak i następujące po obrazie B . Obrazów B nie

używa się nigdy jako obrazy odniesienia. Takie dwukierunkowe przewidywanie

umożliwia bardzo wydajną kompresję bez powielania (propagacji) błędów, które może

mieć miejsce w przypadku wykorzystywania obrazów P. Obrazy B odtwarza się

poprzez interpolację danych z dwóch sąsiednich obrazów typu I lub P (jednego

poprzedzającego i jednego następującego).

Średni stopień kompresji w standardach MPEG wynosi od kilkudziesięciu do stu (?) razy.

Oprócz kodeków MPEG stosowane są inne standardy, np. H.263.

Przykład [Klikając kolejno na ikony o nazwach Klip, Klip 128 i Klip 32 obejrzyj ten sam wideo klip, ale

najpierw w wersji oryginalnej, następnie po kodowaniu koderem MPEG-4 z przepływnością

128 kbit/s i 32 kbit/s. Wyciągnij wnioski]

3. Subiektywne metody badania jakości

W tej części pracy omówiono metody subiektywne badania jakości mowy, sygnałów

audio i obrazów ruchomych. Należy podkreślić, że metody subiektywne, angażujące grupę

odbiorców, są podstawowym narzędziem służącym do kalibracji pozostałych metod oceny

jakości. Są one jednocześnie najbardziej kłopotliwe w stosowaniu, gdyż wymagają

zorganizowania sformalizowanych i czasochłonnych badań eksperymentalnych .

3.1. Subiektywne metody badania jakości mowy

3.1.1. Kategoryzacja

Subiektywne metody badania jakości mowy sprowadzają się do bezpośredniego

wykorzystania w eksperymencie osób, których zadaniem jest - na podstawie wrażeń

słuchowych. określenie cech mowy pozwalających bezpośrednio lub pośrednio oszacować jej

jakość. Na rys. 3.1 pokazano schematycznie strukturę, w jakiej przeprowadza się testy

subiektywne.

Rys. 3.1. : Struktura, w której przeprowadza się testy subiektywne

Osoby biorące udział w ocenie jakości mowy mają za zadanie ocenić mowę w ramach

przyjętej kategorii. W testach subiektywnych używanych jest kilka typów kategorii. I tak da

się wyróżnić następujące kategorie: bezwzględną, porównawczą i degradacyjną. W każdym

przypadku osoba oceniająca jakość mowy przypisuje jej ocenę według przyjętej skali

punktowej. Oceny następnie uśrednia się, otrzymując wartość MOS – Mean Opinion Score.

W tabeli 2 przedstawiono skale punktowe dla wyżej wymienionych kategorii.

Tabela 2: Skala punktacji dla poszczególnych typów kategoryzacji

Punktacja Kategoryzacja

Bezwzględna Porównawcza Degradacyjna

5

4

3

2

1

0

-1

-2

-3

Jakość Porównanie jakości Pogorszenie jakości

Doskonała

Dobra

Zadowalająca

Słaba

Zła

-

-

-

-

-

-

Dużo lepsza

Lepsza

Nieznacznie lepsza

Jednakowa

Nieznacznie gorsza

Gorsza

Dużo gorsza

Niezauważalne

Nie przeszkadzające

Lekko przeszkadzające

Przeszkadzające

Bardzo przeszkadzające

-

-

-

-

3.1.2. Testy konwersacyjne

W tym teście, dwóch jego uczestników (osoby przypadkowe, nie związane z personelem

technicznym laboratorium, ani pomiarami jakości mowy) znajduje się w odrębnych kabinach

o ściśle określonych gabarytach, umieszczonych w laboratorium badawczym. Pomiędzy

kabinami jest łączność telefoniczna. Parametry połączenia telefonicznego są modelowane.

Zadaniem osób prowadzących rozmowę jest ocena jej jakości w skali 5-punktowej oraz

udzielenie binarnej odpowiedzi na pytanie: czy występowały trudności w trakcie rozmowy?

Dodatkowo mierzony jest poziom odbieranych sygnałów oraz czas trwania rozmowy. Na

podstawie oceny rozmówców określa się wartość MOS.

3.1.3. Testy odsłuchowe

Testy odsłuchowe nie uwzględniają wszystkich czynników występujących w trakcie

korzystania z łączności telefonicznej. Niemniej są one wygodne na przykład w fazie

opracowywania nowego systemu lub kodera mowy. Sygnał mowy jest wcześniej rejestrowany

w pamięci komputera, a w czasie testu odczytywany i przesyłany przez badany system.

Lektorzy biorący udział w przygotowaniu nagrań muszą spełniać odpowiednie wymagania. W

teście odsłuchowym mowa podlega ocenia według skali bezwzględnej przez grupę słuchaczy.

Do najważniejszych subiektywnych metod oceny jakości transmisji mowy obecnie zalicza

się te metody, które dają ocenę bezpośrednią MOS w pięciostopniowej skali jakości. Są to

następujące metody:

ACR – Absolute Category Rating,

DCR – Degradation Category Rating Ocenę jakości można uzyskać też pośrednio, poprzez

pomiary wyrazistości i zrozumiałości:

metoda DRT – Diagnostic Rhyme Test,

metoda MRT – Modified Rhyme Test.

Integralną częścią metody – niezależnie od sposobu dojścia do oceny MOS – winna być

miara odniesienia pozwalająca na porównanie i uśrednienie wyników MOS uzyskanych

różnymi sposobami, w różnych ośrodkach i dla różnych języków.

Metoda ACR, polegająca na bezpośrednim określeniu jakości mowy w pięciostopniowej

skali ocen jest obecnie najczęściej stosowana, gdyż pozwala na stosunkowo szybki i tani (jak

na metody subiektywne) pomiar. Umożliwia to przeprowadzenie badań dla wielu obiektów z

różnymi wartościami parametrów wpływających na jakość transmisji lub kodowania.

Dodatkowo metoda ACR jest unormowana w zaleceniach ITU-T P.800 [P.800]. Wadą

metody jest brak precyzji w zdefiniowaniu zadania dla grupy odsłuchowej i naturalna

niezdolność słuchaczy do stabilnej i powtarzalnej oceny w skali punktowej takiej cechy, jak

„jakość transmisji mowy”. Jest tu więc konieczne wykonanie pomiaru dla licznej ekipy

słuchaczy (większej od 12), kilku głosów po stronie nadawczej, staranne przeszkolenie i

trenowanie słuchaczy. W tej metodzie wykorzystywane są listy testowe złożone z prostych,

krótkich, nie związanych z sobą semantycznie zdań. Lista podzielona jest na grupy złożone z

pięciu zdań. Zdania nie powinny być zbyt krótkie, jak również zbyt długie; powinny trwać 2-

3 s. Słuchacze, po wysłuchaniu grupy zdań podają swoja opinię w pięciostopniowej skali

jakości odsłuchu, wysiłku słuchowego lub preferowanej głośności. Ocena 5 odpowiada

bardzo dobrej jakości, natomiast 1 – niedostatecznej. Ocena średnia (MOS) obliczana jest dla

każdego badanego warunku transmisji mowy oraz dla każdej skali ocen, jako wynik

uśrednienia po słuchaczach i mówcach.

Metoda DCR, także unormowana zaleceniami ITU-T P.800 [P.800], jest alternatywnym

rozwiązaniem dla metody ACR. Pomiar polega na porównaniu wzorcowego sygnału mowy o

wysokiej jakości z sygnałem przesłanym przez badany kanał telekomunikacyjny. Sygnał

wzorcowy prezentowany jest zawsze jako pierwszy. Słuchacze określają stopień pogorszenia

jakości sygnału badanego w stosunku do sygnału wzorcowego w pięciostopniowej skali ocen.

Pomiar wykonywany jest dla licznej ekipy słuchaczy i kilku mówców (podobnie jak w

metodzie ACR). Ocena średnia (DMOS) obliczana jest dla każdego badanego warunku

transmisji mowy oraz dla każdej skali ocen, jako wynik uśrednienia po słuchaczach i

mówcach.

W metodach opartych o testy DRT/MRT materiałem testowym jest zbiór słów

jednosylabowych różniących się najczęściej między sobą początkową lub końcową głoską.

Miarą oceny jakości mowy jest – podobnie jak w metodach wyrazistościowych – stosunek

poprawnie odebranych jednostek do liczby jednostek nadanych . Zbiór jednostek testowych

jest najczęściej ograniczony i nieliczny (np. 6 jednostek), natomiast dla danego pomiaru

jednostki są prezentowane słuchaczom wielokrotnie w losowej kolejności. Głoski różnicujące

zbiór testowy dobierane są z tej samej grupy artykulacyjnej (typowy jest tu zbiór głosek

zwartych: p, d, t, d, k, g).

Testy DRT/MRT różnią się od metod wyrazistościowych liczebnością zbioru testowego,

brakiem zrównoważenia fonematycznego i strukturalnego materiału testowego oraz

możliwością (wykluczoną w metodach wyrazistościowych) wielokrotnego powtarzania tej

samej jednostki.

3.1.4. Badanie wyrazistości

Jedną z częściej używanych w Polsce subiektywnych metod oceny jakości mowy jest

badanie wyrazistości. Metoda ta nie daje pełnej informacji o jakości a jedynie uwzględnia

aspekt rozumienia wypowiadanych jednostek akustycznych takich jak: logatomy, sylaby,

wyrazy czy zdania. Najczęściej badania te dotyczą wyrazistości logatomowej. Logatomy to

nic nie znaczące w danym języku wyrazy (jedno-, dwu- lub trzysylabowe). Rozpoznanie

logatomu jest zatem wyłącznie wynikiem usłyszenia wszystkich wchodzących w jego skład

fonemów, a nie skojarzenia ze znanym wyrazem lub analizy kontekstowej. Pomijając kwestie

proceduralne można powiedzieć, że badanie wyrazistości logatomowej polega na określeniu

procentowym stosunku poprawnie rozpoznanych przez N słuchaczy logatomów z L do

całkowitej liczby logatomów odczytanych.

N

n

L

l

lnWNLW1 1

,

1)(

(1)

W podanym wzorze Wn,l oznacza liczbę poprawnie rozpoznanych logatomów przez n-

tego słuchacza z l-tej listy w stosunku do liczby logatomów odczytanych z tej listy.

Szczegółowy opis metody podaje polska norma [PN-90].

3.2. Subiektywne metody badania jakości obrazów ruchomych

W wyniku kompresji i rekonstrukcji, a także wskutek utraty transmitowanych pakietów,

obraz ruchomy ulega zniekształceniu i nakładają się na niego zakłócenia. Te niekorzystne

zjawiska zależą od rodzaju kodeka, przepływności binarnej (stopnia kompresji), samego

obrazu, stopy utraconych pakietów. Najczęściej występują następujące zniekształcenia i

zakłócenia:

efekty blokowe, wynikające z zastosowania kompresji w blokach, np. 8x8 pikseli –

obserwator zauważa granice bloków

„przytrzymanie” obrazu, wskutek podstawienia ostatniej poprawnie zdekodowanej ramki

za szereg niepoprawnie zdekodowanych ramek (występuje przy dużych zakłóceniach w

kanale transmisyjnym i zbyt niskiej przepływności kanału)

chwilowy zanik obrazu lub jego części, często połączony z pojawieniem się na ekranie

kolorowej tekstury – występuje przy b. dużych zakłóceniach

nieciągłość ruchu, związana z nazbyt wielką kompresją obrazu

zniekształcenia konturów (nieostrość, załamania, poruszanie się, a także wystąpienie

„fałszywych konturów”) – wynik kompresji

błędy w odtworzeniu kolorów (zmiana odcieni, nasycenie)

błędy kwantyzacji (szum typu „sól i pieprz” lub „śnieżenie”)

Wymienione czynniki charakteryzują się różną dokuczliwością dla odbiorcy. Ich wpływ

na percepcję obrazu można stwierdzić przeprowadzając subiektywne badania jakości. Ich

metodyka nie odbiega od odpowiednich badań dla mowy: stosuje się skalę MOS (najczęściej

od 1 do 5, choć proponuje się również skale 1-10 i 0-100). Odpowiednie normy określają

warunki przeprowadzania testów:

Podobnie jak w pomiarach jakości dźwięku, stosuje się tu metody ACR i DCR [P.910]. W

metodzie DCR porównuje się w niej sekwencje obrazów parami. Podczas sesji, której czas

jest ograniczony do pół godziny, osoby oceniające (obserwatorzy) oglądają serie sekwencji w

przypadkowej kolejności, parami (sekwencja bez zniekształceń a po niej sekwencja

zniekształcona). Tło na ekranie powinno być w trakcie wyświetlania sekwencji jednolite i

niezmienne. Osoba oceniająca po obejrzeniu drugiej sekwencji z pary ocenia pogorszenie jej

jakości – degradację jakości, w stosunku do sekwencji odniesienia. (Tabela 2).

Ponieważ oceny mogą się różnić, nawet u tego samego obserwatora, wskazane jest by

sekwencja obrazów badanych oceniana była wielokrotnie, w tych samych warunkach. Dzięki

temu można określić rozrzut wyników oceny pogorszenia jakości.

Na scenariusz testu są nakładane ograniczenia czasowe. Zobrazowano je graficznie na rys.

3.2. Jak wspomniano wcześniej najpierw jest pokazywana sekwencja odniesienia. Po

dwusekundowej przerwie pokazywana jest sekwencja badana. Między sekwencjami, na całym

ekranie powinien być wyświetlany jednolity obraz w kolorze szarym. Czas trwania każdej z

sekwencji powinien wynosić w przybliżeniu 10 sekund. Po wyświetleniu dwóch

porównywanych par obserwator ma do 10 sekund czasu na wystawienie oceny.

Czas oceny może być nieco skrócony albo wydłużony w zależności od prezentowanych

sekwencji.

Rys. 3.1: Przebieg oceny subiektywnej metodą DCR

W zaleceniu [P.910] przedstawiono metodę zmodyfikowaną DCR-SP. Modyfikacja

polega na równoczesnym, synchronicznym wyświetlaniu na tym samym monitorze, w dwóch

oknach par sekwencji (źródłowej i podlegającej ocenie). Tło powinno być szare, sekwencja

odniesienia powinna być zawsze wyświetlana po tej samej stronie ekranu. Zalecane jest

również powtarzanie tych samych sekwencji kilkakrotnie. Na rysunku 3.3 zilustrowano

graficznie przebieg oceny jakości za pomocą zmodyfikowanej metody DCR.

Rys. 3.2: Przebieg oceny subiektywnej zmodyfikowaną metodą DCR

Główną zaleta metody zmodyfikowanej jest skrócenie czasu trwania badań. Ma ona

jednak wady, do których zaliczyć trzeba przede wszystkim trudności w zachowaniu

koncentracji przez obserwatorów podczas całego testu, trudność w „wychwyceniu”

niewielkich różnic między obrazami, a także konieczność starannej synchronizacji prezentacji

obu sekwencji tworzących parę.

Rys.3.4 Przykładowe wyniki subiektywnych pomiarów jakości wideo przeprowadzone w

Inst, Telekomunikacji PW [Thanh]

4. Parametryczne metody badania jakości

O jakości transmitowanej mowy decyduje wiele czynników wprowadzanych w procesie

transmisji. Do niedawna istotne były jedynie tłumienie i zniekształcenie widma

częstotliwościowego w kanale transmisyjnym. Ocenie wpływu w.w. czynników na jakość

mowy służą modele: Transmission Rating (amerykański), Information Index (francuski), czy

japoński o nazwie OPINE)

Obecnie, gdy pojawiły się nowe systemy telefoniczne i systemy transmisyjne takie jak np.

analogowa lub cyfrowa telefonia komórkowa oraz możliwości zarządzania jakością konieczne

staje się udostępnienie operatorowi i projektantowi sieci telefonicznej nowych metod oceny

jakości mowy w łańcuchu telefonicznym. Opracowany w tym celu E-model, opisany w

Zaleceniu G.107 służy zarządzaniu jakością rozmów telefonicznych [G.107], a jego wariant

opisany w Zaleceniu G.113 – jakością transmisji sygnałów audio o poszerzonym paśmie. E-

model został zmodyfikowany w zaleceniach ETSI [ETS101], [ETS102].

E-model należy do metod parametrycznych, w których tworzony jest matematyczny

model uwzględniający wszystkie elementy wchodzące w skład testowanej sieci lub systemu.

Na jego podstawie obliczany jest parametr łączny. Dla szeregu wartości tego parametru

określana jest metodą subiektywną jakość mowy. Otrzymana w ten sposób krzywa

odwzorowania jest wykorzystywana do określenia, w następnych testach, jakości mowy

wyłącznie na podstawie parametru łącznego.

Wpływ strat pakietów na ocenę jakości wideo w

skali MOS dla wszystkich sekwencji

0

1

2

3

4

5

0,01 0,1 1

Straty pakietów [%]

Skala

MO

S Uśredniona ocena

MOS

Funkcja

aproksymująca

Wpływ bitowej stopy błędów na ocenę jakości wideo

w skali MOS dla wszystkich sekwencji

0

1

2

3

4

5

0,01 0,1 1

Bitowa stopa błędów [%]

Skala

MO

S

Ocena MOS w skali

uśrednionej bitowej

stopy błędów

Funkcja

aproksymująca

W E-modelu wyznacza się parametr R będący łączną miarą jakości mowy. Może on być

obliczony z następującej zależności:

AIIIRR edso

(1)

gdzie: Ro reprezentuje podstawowy stosunek mocy sygnału do mocy szumu, zależny

zarówno od poziomu sygnału jak i szumów,

Is reprezentuje zniekształcenia pojawiające się równocześnie z sygnałem mowy takie jak

szumy kwantyzacji PCM, czy sygnały wybierania tonowego,

Id reprezentuje zniekształcenia wynikające z opóźnień wnoszonych w procesie

przetwarzania i transmisji,

Ie reprezentuje transmisyjne zniekształcenia wnoszone przez urządzenia takie jak

niskoprzepływnościowe kodery, systemy DSI itp.,

A jest składnikiem korekcyjnym zależnym od specyfiki dostępu do łącza.

Nowymi elementami wprowadzonymi do E-modelu są parametry Ie oraz A. Parametr Ie

jest bezpośrednio zależny od zniekształceń wnoszonych przez kodery łańcucha. Może on być

wyrażony jako suma parametrów K poszczególnych N koderów wchodzących w jego skład:

N

n ne KI1

(2)

Wartość parametru K wynosi 0 dla kodera PCM (G.711) 64 kbit/s, 7 dla ADPCM (G.726)

32 kbit/s, 20 dla LDCELP (G.728) 16 kbit/s i 15 dla ACELP (G.729) 8 kbit/s. Wartość

składnika korekcyjnego A wynosi 0 dla tradycyjnej telefonii przewodowej, 5 dla DECT, 10

dla GSM i 20 dla telefonii satelitarnej. .

Współczynnik R może być obliczony na podstawie danych o systemach i sieciach. A

zatem bez dokonywania pomiarów można określić jakość sygnału mowy, ponieważ związek

pomiędzy parametrem R a subiektywną miarą jakość MOS jest określony (rys. 4.1)

Rys.4.1.: Zależność MOS od parametru R

W wielu ośrodkach n-b kontynuowane są prace mające na celu lepsze dopasowanie E-

modelu do nowych sposobów świadczenia usług telefonicznych, przede wszystkim VoIP

[Ding],[Carvalho]. Prowadzone są również badania mające na celu powiązanie parametru R z

innymi miarami subiektywnymi. W pracy [Trz00] pokazany jest związek pomiędzy

parametrem R a wyrazistością logatomową. Niestety model nie został dokładnie przebadany z

punktu widzenia zastosowań do sieci pakietowych i sieci o zmiennym opóźnieniu.

Model parametryczny został opracowany również dla wideotelefonii i opisany w

Zaleceniu ITU-Y G.1070. W trakcie opracowania jest Zalecenie (pod roboczą nazwą

G.OMVS) odnoszące się do IPTV. Pojawia się tu problem łącznej oceny jakości ruchomego

obrazu i towarzyszącego mu dźwięku. Oceny cząstkowe dla dźwięku MOS-A i obrazu MOS-

V są kojarzone w tzw. core model i przeliczane na ocenę łączną dla przekazu

multimedialnego MOS-MM [Taka].

5. Obiektywne metody badania jakości na poziomie mediów

5.1. Sygnał mowy

Cechą charakterystyczną obiektywnych metod oceny jakości mowy jest wyznaczanie

odległości - według przyjętej miary - pomiędzy wybranym lub wybranymi parametrami

sygnału mowy oryginalnej i sygnału przetworzonego (przesłanego), a następnie na podstawie

krzywej odwzorowania, określenie oceny w mierze subiektywnej. Na rysunku 5.1 pokazano

ogólny schemat metody obiektywnej badania jakości mowy na podstawie analizy parametrów

sygnału.

Rysunek 3.1: Schemat blokowy obiektywnej metody oceny jakości mowy opartej na analizie

parametrów sygnałów

Uwzględniony na rys.5.1 sygnał odniesienia występuje jedynie w metodach

intruzyjnych i w postaci szczątkowej – w metodach z częściowym odniesieniem. W

przypadku metod nieintruzyjnych jakość oceniana jest w oparciu o charakterystyczne

zniekształcenia pojawiające się w transmisji, np. szumy i nieciągłości przebiegu czasowego

(skutek przerw w transmisji).

5.1.1. SNR w ujęciu globalnym i segmentowym

Najprostszą miarą obiektywną jest SNR (ang. Signal to Noise Ratio), wyrażany

najczęściej w dB. Mając dane próbki frazy oryginalnej }{ nx i przetworzonej }{ *

nx oblicza się

różnicę (błąd kwantyzacji) }{ *

nnn xxe , następnie moc sygnału oryginalnego i błędu w

obrębie frazy liczącej M próbek.

M

nn

eMe

M

nn

xMx

1

212

1

212

Następnie oblicza się SNR: 2

2

log10][ 10

e

xdBSNR

Tak obliczona „globalna” wartość SNR jest bardzo wrażliwa na przesunięcie czasowe

obu fraz (potrzebna jest synchronizacja), a także na zmianę poziomu (amplitudy). Poza tym

na wartość tego wskaźnika głównie wpływają głośne fragmenty wypowiedzi, a ciche w

znikomym stopniu. Z tego względu lepszym wskaźnikiem jest SNR w ujęciu segmentowym

(Rys.5.2). Wartości SNR oblicza się w obrębie segmentów o czasie trwania krótkiej głoski

(10-20 ms), a następnie uśrednia się te wartości.

Rys.5.2 SNR w ujęciu segmentowym (Ms – liczba segmentów)

Segmentowy SNR niekiedy odbiega od ocen słuchaczy, gdyż nie uwzględnia zjawiska

maskowania szumu kwantyzacji sygnałem mowy. Z tego względu ITU-T proponuje bardziej

złożone algorytmy obiektywnej oceny jakości, uwzględniające zjawiska psychoakustyczne.

5.1.2. Metody PSQM i PESQ

W pierwszej połowie lat dziewięćdziesiątych ITU prowadziło intensywne prace

zmierzające do opracowania obiektywnej metody badania jakości mowy kodowanej. Ich

efektem było opracowanie kilku metod (PAMS, PARCEWAL, PSQM, PAQM, z których w

wyniku weryfikacji wybrano metodę nazywaną PSQM (Perceptual Speech Quality Measure).

Opisuje ją zalecenie P.861 [PSQM].

Istota metody PSQM sprowadza się do określenia odległości pomiędzy rzeczywistym

sygnałem mowy, a sygnałem otrzymanym w wyniku jej przetworzenia (głównie kodowania).

Zanim to porównanie zostanie dokonane obydwa sygnały podlegają transformacji z postaci

fizycznej na postać psychofizyczną – odzwierciedlającą przetwarzanie akustycznego sygnału

mowy przez ucho człowieka. Na operację transformacji sygnału z postaci fizycznej na postać

psychofizyczną składa się:

odwzorowanie czasowo-częstotliwościowe;

przeskalowanie częstotliwości;

przeskalowanie poziomu natężenia.

Pierwsza z operacji jest realizowana za pomocą ramkowania sygnału oknem Hanninga o

czasie trwania 32 ms (N=256 próbek w przypadku częstotliwości próbkowania 8 kHz albo

N=512 próbek przy częstotliwości próbkowania 16 kHz), a następnie obliczenia N-punktowej

krótkookresowej dyskretnej transformaty Fouriera, i na jej podstawie obliczenia

krótkookresowej mocy sygnału.

Druga z operacji ma na celu zrealizowanie filtracji za pomocą tzw. filtrów barkowych.

System słuchowy człowieka jest znany ze słabszej dyskryminacji w zakresie wysokich

częstotliwości niż w zakresie częstotliwości niskich. To, wraz ze zjawiskiem maskowania w

dziedzinie częstotliwości, doprowadziło do zamodelowania analizy dokonywanej przez ucho

ludzkie za pomocą filtrów barkowych. Model ten wymaga przetwarzania sygnałów przez

grupę takich filtrów, z odległościami częstotliwości środkowych i szerokościami pasm

rosnącymi wraz z częstotliwością. Filtry te mogą być traktowane jako krzywe przestrajania

nerwów słuchowych. Ich rozstawienie odpowiada półtoramilimetrowym odcinkom wzdłuż

membrany podstawowej. Ciągłe widmo uzyskane w wyniku tej operacji zostało nazwane

rozkładem pobudzeń, gdyż odpowiada ono rozkładowi bodźców w nerwach słuchowych.

Przeskalowanie poziomu natężenia w decybelach na poziom głośności wyrażany w

fonach, a następnie jego wyrażenie w skali sonowej ma na celu uwzględnienie faktu, że

subiektywne odczucie głośności nie zależy liniowo od poziomu natężenia sygnału (przejście

ze skali decybelowej na fonową), oraz że subiektywne wrażenie zwiększenia głośności

zmienia się nieliniowo wraz ze zmianą głośności (przejście ze skali fonowej na sonową)

[Kula01]. Maskowanie jest uwzględniane w modelu w prosty sposób. Efekt maskowania jest

brany pod uwagę tylko wówczas, gdy dwie składowe pojawiają się w tym samym czasie i

mają zbliżone częstotliwości.

Opisane pokrótce przekształcenie z wykorzystaniem modelu percepcyjnego obejmuje

zarówno sygnał oryginalny jak i sygnał przetworzony, którego jakość ma być określona.

Uproszczony algorytm metody PSQM przedstawiono na rys.5.3. Reprezentacje wewnętrzne

obu sygnałów są porównywane, a obliczona odległość między nimi (tzw. wskaźnik PSQM)

jest bezpośrednio związana z jakością testowanej mowy. Ostatnim krokiem w metodzie

PSQM jest odwzorowanie skali obiektywnej na subiektywną. Nie jest to konieczne, jeżeli

metoda jest stosowana np. do porównywania różnych typów koderów.

Metoda PSQM, choć stosunkowo prosta realizacyjnie, wiąże się z szeregiem

problemów obliczeniowych. Dotyczą one przede wszystkim obliczenia widma w skali

barkowej. Próbki widma obliczone za pomocą dyskretnej transformaty Fouriera „nie trafiają”

w próbki widma barkowego, co zmusza do stosowania interpolacji do określania ich wartości.

Rys. 5.3: Uproszczony schemat algorytmu badania jakości mowy metodą PSQM

Metoda PSQM ma symulować subiektywną percepcję mowy w warunkach

rzeczywistych. W procesie przekształcania sygnału mowy na jego psychofizyczną

reprezentację, która jest odpowiednikiem sygnału jaki dociera do mózgu, korzysta się z wielu

charakterystyk i stałych odzwierciedlających sposób percepcji dźwięku przez człowieka.

Transformacja dokonywana jest zarówno na sygnale wejściowym jak i wyjściowym z

badanego kanału telekomunikacyjnego. Miarą jakości jest wówczas odpowiednio

zdefiniowana odległość między psychofizycznymi reprezentacjami obydwu sygnałów zwana

wskaźnikiem PSQM. Wartość PSQM można przetransformować na wartość MOS, która

odpowiada subiektywnej ocenie, przy czym zależność między MOS i PSQM może być różna

dla różnych języków. Stosując metodę PSQM należy więc uwzględnić specyfikę danego

języka.

Wadą metody PSQM jest słaba korelacja otrzymywanych wyników z subiektywnymi

ocenami w przypadku telefonii internetowej. Przyczyną występowania takich rozbieżności są

zaburzenia w dziedzinie czasu (bulk delays) występujące podczas transmisji sygnału mowy w

sieciach pakietowych przeznaczonych pierwotnie do transmisji danych. Rozwiązaniem okazał

się mariaż modułu synchronizacji czasowej zaczerpnięty z metody PAMS ze standardem

PSQM. Nowo opracowaną metodę pomiaru znacznie udoskonalono i nazwano PESQ

(Perceptual Evaluation of Speech Quality). W 2001 ITU-T zaaprobowało PESQ jako nowy

standard P.862 [PESQ], który zastąpił wcześniej stosowaną metodę PSQM.

Idea pomiaru PESQ opiera się podobnie jak w przypadku PSQM, na tzw. reprezentacji

wewnętrznej będącej teoretyczną postacią sygnału mowy w umyśle człowieka. Sygnałem

wzorcowym (oryginalnym) jest nagrany sygnał mowy naturalnej – najlepiej 2 frazy dla głosu

męskiego i żeńskiego. Tak przygotowany sygnał oryginalny przesyłany jest badanym

kanałem telekomunikacyjnym tworząc na wyjściu systemu sygnał „zdegradowany”. Oba

sygnały stanowią dalej podstawę oceny. W pierwszym etapie oceniane jest opóźnienie między

próbkami i ewentualnie wprowadzana jest odpowiednia korekcja. Następnie oba sygnały

zostają poddane szeregowi transformacji modelujących poszczególne etapy przetwarzania

dźwięku w ludzkim układzie słuchowym, włączając w to przede wszystkim: specyficzną

analizę w częstotliwości i nieliniowość przetwarzania intensywności dźwięku. Ewentualne

przesunięcia próbek w czasie są uwzględniane w dalszych etapach obróbki sygnału. Na końcu

zaimplementowano tak zwany model kognitywny, którego zadaniem jest wydanie ostatecznej

oceny na podstawie porównania reprezentacji wewnętrznych obu sygnałów.

5.1.3. Metoda POLQA

Metoda POLQA (ang. Perceptual Objective Listening Quality Analysis) należy do metod

nowej generacji i wykorzystuje zaawansowane algorytmy wykrywania zakłóceń [POLQA].

Uwzględnia specyfikę współczesnych sieci telekomunikacyjnych (takich jak sieci IP i sieci

komórkowych). Ostatecznym wynikiem jej działania jest ocena jakości mowy w skali MOS-LQO.

Algorytm POLQA (standard ITU-T P.863) jest dostosowany do sygnałów

wąskopasmowych (do 4kHz), szerokopasmowych (do 8 kHz) i super-szerokopasmowych (do

16 kHz). Pozwala na ocenę transmisji mowy z wykorzystaniem koderów EVRC, a także w

usłudze VoIP. Mimo iż zakres zastosowania jest znacznie większy dla POLQA niż dla PESQ,

to błąd predykcji MOS jest znacznie mniejszy. Testy przeprowadzone przez ITU-T wskazują,

iż wyniki metody POLQA dla sygnałów wąsko i szerokopasmowych są znacznie lepsze (mają

większą korelację z wynikami subiektywnymi) od wyników algorytmu PESQ. W dalszej

części tekstu zaprezentowane będą wyniki badań własnych przeprowadzonych w Politechnice

Warszawskiej.

5.1.4. Metoda 3SQM

Jest to metoda nieintruzyjna, nie wymagająca znajomości sygnału oryginalnego,

znormalizowana przez ITU-T (Zalecenie P.563 [3SQM]]). Jakość mowy jest oceniana na

podstawie analizy typowych zniekształceń i zakłóceń: widm odbiegających od typowych

widm mowy, obecności szumu, nieciągłości sygnału w czasie. Badania wykazują, że odbiorca

koncentruje się na najbardziej dokuczliwym zniekształceniu i głównie to zniekształcenie

wpływa na jego ocenę. Badania przeprowadzone w wielu ośrodkach wykazują dużą korelację

wyników (MOS) metody 3SQM i metody PESQ.

5.1.5. Testowanie algorytmów PESQ i POLQA

Wśród ograniczeń algorytmu PESQ, w aneksie do Zalecenia P.862 [PESQ] i w

Zaleceniu P.862.3 [PESQ1] wymienia się nieokreślone wyniki dla sygnałów z echem, nagrań

zawierających mniej niż 75% sygnału mowy, sygnałów muzycznych, itp. Algorytm PESQ nie

jest w stanie zastąpić testów konwersacyjnych, gdyż nie uwzględnia np. wpływu opóźnienia i

echa. W Zaleceniu P.862.3 formułuje się szereg wskazówek co do sposobu przeprowadzenia

badań jakości mowy. W szczególności:

Zalecany czas trwania nagrania to 8-12 s, dopuszczalny 3,2 – 30 s, w żadnym

wypadku nie powinien przekroczyć czasu trwania miliona próbek.

Zawartość sygnału mowy w nagraniu powinna mieścić się w granicach 40%-80%

(reszta to cisza międzywyrazowa i fragmenty ciszy na początku i na końcu nagrania),

aktywny sygnał mowy winien trwać co najmniej 3,2 s.

W testach powinno się uwzględniać wpływ mówcy, wskazane jest użycie nagrań

mowy pochodzącej od 2 kobiet i 2 mężczyzn.

Cisza poprzedzająca sygnał mowy i występująca na końcu nagrania powinna trwać od

0,5 s do 2 s.

Czas trwania odcinków ciszy początkowej i końcowej nie powinien, dla obu

porównywanych nagrań, różnić się o więcej niż 25%.

W Inst. Telekomunikacji PW przeprowadzono badania implementacji algorytmu PESQ

oraz podjęto próbę weryfikacji jego przydatności do badania jakości mowy przesyłanej w

sieci pakietowej w ramach usługi VoIP. Jej wynikiem jest sformułowanie dodatkowych

zastrzeżeń i wskazanie na inne ograniczenia tej metody [KST10]. Najważniejsze ustalenia

opublikowane w [KST10] przedstawiono poniżej.

W przypadku stosowania w łączu telekomunikacyjnym urządzeń typu VAD (Voice

Activity Detector) następuje zamiana cichych fragmentów nagrania ciągiem próbek o wartości

zerowej lub szumem o niewielkiej mocy (comfort noise). Niekiedy następuje „wyciszenie”

początków wyrazów lub skrócenie czasu ich wybrzmiewania. W eksperymencie

wykorzystano 2 frazy testowe spełniające warunki określone w Zaleceniu P.862.3 (mowa

męska i żeńska, czas trwania około 6 s, szum tła około 60 dB pod poziomem najgłośniejszych

segmentów) [PESQ1]. Polegał on na zastępowaniu ciszy międzywyrazowej ciągami próbek o

wartości zerowej (w krańcowym przypadku następowało „wyciszenie” początków i końców

wyrazów graniczących z ciszą). Po zastąpieniu próbkami o wartości zerowej wyłącznie ciszy

międzywyrazowej wartości MOS i MOS-LQO spadały do około 3,6, po niesłyszalnym dla

słuchaczy (badania miały charakter nieformalny) uszkodzeniu początków i końców wyrazów

graniczących z ciszą oba wskaźniki osiągały wartości około 2,5-2,2, a zauważalny

(aczkolwiek niedokuczliwy) efekt występował dopiero przy wartościach MOS i MOS-LQO

poniżej 2.

Rys.5.4 Zastąpienie ciszy międzywyrazowej próbkami o wartości zerowej [Sadowska]

Jest to przykład bardzo dużej rozbieżności między oceną słuchaczy a wynikami

algorytmu PESQ. Należy zatem unikać sytuacji, gdy w systemie działa detektor cisza-mowa

(VAD). Można też zaproponować modyfikację algorytmu, polegającą na zmniejszeniu

wpływu segmentów cichych i segmentów usytuowanych na granicy cisza – mowa na wynik

końcowy MOS. Dla porównania algorytm POLQA okazał się w mniejszym stopniu wrażliwy

na tego rodzaju modyfikacje sygnału – otrzymywano wartości MOS-LQO w okolicach 3.6.

W algorytmie PESQ jest stosowany precyzyjny system dwustopniowej synchronizacji,

jednak omówione w niniejszym punkcie wyniki mogą świadczyć o nie zawsze poprawnym

jego działaniu. Do testów użyto frazy mowy żeńskiej, spróbkowanej z częstotliwością 8 kHz,

o rozdzielczości 16 bit, trwającej około 6,2 s. Zauważono, iż w przypadku generowania ciszy

wraz z wydłużeniem fragmentu mowy, dla dłuższego segmentu wstawianej ciszy otrzymuje

się, w pewnych przypadkach, większą wartość MOS (Rys.5.5). Ponadto większa liczba

fragmentów ciszy niekoniecznie powoduje obniżenie wartości MOS. W eksperymencie,

którego wynik podano na Rys.5.5, kolejne odcinki ciszy wstawiano zawsze w tych samych

miejscach, a więc stopień degradacji powiększał się wraz ze zwiększaniem się liczby

wstawianych odcinków ciszy i ich długości.

Rys.5.5. Wpływ wstawiania ciszy (z proporcjonalnym zwiększeniem czasu trwania nagrania) na

wartości MOS i MOS-LQO, otrzymane z PESQ

W Zaleceniu [PESQ1] jest mowa o zależności wartości MOS, mierzonej z

wykorzystaniem algorytmu PESQ, od rodzaju frazy i mówcy. Zaleca się użycie 2 fraz

wypowiadanych przez 2 mówców. Badania przeprowadzone na PW wykazują, że rozrzuty

wartości MOS dla tego samego kodera mogą sięgać 0.9 (Rys.5.6). Z tego względu, dla

osiągnięcia powtarzalnych wyników, należy wykorzystać nagrania większej liczby mówców i

fraz.

Rys.5.6. MOS dla wybranych kodeków i fraz mowy (4 mówców wypowiadających po 4

frazy) [Sadowska]

5.1.6. Badanie jakości mowy w usłudze VoIP z wykorzystaniem PESQ

Badania przeprowadzono w Instytucie Telekomunikacji PW i opisano w pracy [KST10].

W skład środowiska testowego (Rys.5.7) wchodził serwer pełniący funkcję emulatora sieci

oraz 2 stacje klienckie z zainstalowanymi softphonami. Modyfikacji parametrów ruchu i sieci

dokonywano za pomocą emulatora sieci – Netem (Network Emulator) . Dzięki niemu można

było zmieniać m.in. następujące parametry: opóźnienie pakietów, jitter opóźnienia, stopę

utraconych pakietów (PLR), stopę uszkodzonych pakietów.

Rys.5.7. Schemat stanowiska pomiarowego wykorzystywanego w badaniach

Jako softphone wykorzystano aplikację Ekiga w wersji 3.2.6. Program Ekiga umożliwia

wykonywanie połączeń dźwiękowych i wideo do użytkowników z oprogramowaniem lub

sprzętem zgodnym z SIP (np. Windows Messenger, Gizmo) lub H.323 (np. Microsoft

NetMeeting). Ekiga umożliwia ustawienie 12 różnych konfiguracji 8 kodeków,

charakteryzujących się różną przepływnością binarną, opóźnieniem kodowania, złożonością

obliczeniową i jakością kodowanego głosu. Jako frazy testowe wykorzystano nagrania głosu

4 mówców dokonane w komorze bezechowej. Frazy mowy polskiej były fonetycznie

zrównoważone, ich średni czas trwania wynosił 4,5 s. Wypowiadały je dwie osoby płci

żeńskiej (ozn. F1, F2) i dwie męskiej (ozn. M2, M3).

Pierwsza seria badań odnosiła się do koderów mowy stosowanych w VoIP. W badaniach

porównawczych najlepsze wyniki notuje się dla koderów o przepływności 64 kbit/s (G.722,

G.711 PCM), ponadto, kodery te wykazują najmniejszą zależność od mówcy i frazy. Nie jest

to zaskakujące, gdyż są to tzw. kodery fali akustycznej, z przetwarzaniem skalarnym, w

mniejszym stopniu niż kodery CELP zależne od właściwości sygnału. Kodery oparte na

algorytmach typu CELP (GSM, iLBC, Speex) wykazują się niezłą jakością mowy i to przy

niższych przepływnościach binarnych. Niskie przepływności nie służą koderom ADPCM;

przy 16 kbit/s (kwantyzator skalarny 4-poziomowy) jakość mowy kodowanej w systemie

G.726 jest słaba.

Następnie badano wpływ utraty pakietów (PLR – Packet Loss Rate). Wyniki, pokazane

na Rys.5.8, otrzymano drogą uśredniania wartości MOS z 16 eksperymentów (4 mówców i 4

frazy). Wskutek utraty pakietów najwięcej „tracą” kodery o wyższej jakości i większej

przepływności tak, że przy PLR=1% niemal wszystkie kodery charakteryzują się podobną

jakością mowy. Wyjątkiem są kodery ADPCM o niskiej (jak na ten rodzaj kodera)

przepływności: G.726-16 kbit/s i 24 kbit/s.

Rys.5.8. MOS w funkcji PLR [Sadowska]

Rys.5.9. MOS w funkcji zmienności opźnienia pakietów [Sadowska]

W badaniach wpływu utraty pakietów (Rys.5.8) i zmienności ich opóźnienia (Rys.5.9)

PESQ generował sensowne oceny jakości mowy i okazał się pomocnym narzędziem. Należy

jednak podkreślić,że wykorzystywano 16 fraz (4 mówców wypowiadających po 4 frazy).

5.2. Ocena jakości szerokopasmowych sygnałów akustycznych

5.2.1. Maskowanie zakłóceń

Obiektywne metody oceny jakości sygnału audio na poziomie mediów wykorzystują

analizę psychoakustyczną, w podobny sposób, jak kodery audio (model maskowania zakłóceń

jest tu jednak bardziej złożony).

W modelu psychoakustycznym uwzględnia się tzw. absolutny próg słyszenia. Jest to

najmniejsza wartość ciśnienia akustycznego, która wywołuje postrzegalne wrażenie

słuchowe. Czułość słuchu jest największa w zakresie częstotliwości 2000 – 3000 Hz i maleje

dla częstotliwości niskich i wysokich. Przebieg absolutnego progu słyszenia pokazano na

Rys.5.10 :

Rys.5.10 Absolutny próg słyszenia [Zwicker]

Innym elementem analizy psychoakustycznej są pasma krytyczne. Pasma krytyczne mają

związek rozdzielczością częstotliwościową procesów słyszenia i maskowania. Odpowiednim

pasmom odpowiadają odcinki na błonie podstawnej ucha. Szerokość pasm krytycznych

wzrasta w funkcji częstotliwości, wprowadzono więc nieliniową skalę tzw. barkową. Jeden

Bark odpowiada szerokości pojedynczego pasma krytycznego. Najczęściej wyróżnia się

około 24-25 pasm. Zależność pomiędzy liniową skalą częstotliwości a skalą barkową

pokazano na rys.5.11.

Rys.5.11.Zależność pomiędzy liniową i barkową skalą częstotliwości

Maskowanie równoczesne (zwane też maskowaniem w dziedzinie częstotliwości)

analizuje się z pasmach barkowych. Skuteczność maskowania jest uzależniona przede

wszystkim od częstotliwości oraz poziomów ciśnienia akustycznego sygnału maskowanego i

maskera. W przypadku gdy ton jest maskowany wąskopasmowym szumem, próg słyszalności

podnosi się gdy następuje zbliżenie częstotliwości środkowej pasma szumu do częstotliwości

tonu, a najsilniejsze maskowanie występuje gdy te częstotliwości są równe. Krzywe

maskowania są symetryczne względem częstotliwości środkowej pasma szumu jedynie gdy

poziom maskera nie przekracza 60 dB, w przeciwnym przypadku stają się one bardziej strome

po stronie niższych częstotliwości( Rys.5.12 ).

-10

0

10

20

30

40

50

60

70

80

90

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

po

zio

m [d

B]

częstotliwość [kHz]

Rys.5.12 Podwyższenie progu słyszalności tonów, maskowanych szumem pasmowym o

szerokości pasma 90 Hz i częstotliwości środkowej 410 Hz ; krzywe maskowania opisano wartościami

poziomu ciśnienia akustycznego pasma szumu [Sęk]

Progi maskowania poszczególnych sygnałów nakładają się na siebie w sposób

nieliniowy, tworząc krzywą maskowania.

5.2.2. Metoda PEAQ

Koncepcja metody PEAQ nie odbiega od PESQ, jednak z uwagi na pełne pasmo

akustyczne, struktura algorytmu jest bardziej złożona. Opis metody można znaleźć w pracy

[Kabal]. W algorytmie można wyróżnić następujące etapy przetwarzania sygnału

oryginalnego i przetworzonego (np. po kompresji z wykorzystaniem jednej z metod MPEG-

Audio):

Przetwarzanie wstępne: przepróbkowanie do 48 kHz, podział na okna 2048 próbek

z przesuwem co 1024 próbki,

Nałożenie okien i obliczenie DFT (wykorzystuje się okno Hanninga),

Kalibracja poziomu głośności, modelowanie ucha zewnętrznego,

Dekompozycja widma na pasma krytyczne (skala barkowa) z uwzględnieniem

szumu wewnętrznego ucha,

Uwzględnienie stałych czasowych ucha w poszczególnych pasmach krytycznych,

oraz maskowania w dziedzinie czasu (pre- i post-masking)

Ekstrakcja parametrów z sygnału oryginalnego i przetworzonego, stanowiących

bazę do porównania obu sygnałów,

Obliczenie wstępnego, wektorowego wskaźnika jakości (MOV – Model Output

Variable). Pochodzi on z przetwarzania 5 lub 11 wskaźników cząstkowych

(zależnie od wersji algorytmu PEAQ), w tym pasma sygnału oryginalnego i

przetworzonego, stosunku sygnału do poziomu maskowania w dziedzinie

częstotliwości, struktury widma (harmoniczna, szumowa), itp.

Obliczenie, z wykorzystaniem sieci neuronowej, stopnia degradacji sygnału

przetworzonego w stosunku do sygnału oryginalnego ODG (Objective Difference

Grade). Stosuje się 5-punktową skalę: 0 oznacza brak słyszalnego pogorszenia

jakości, -4 to bardzo dokuczliwe pogorszenie jakości. Odpowiada to utracie

jakości w skali MOS. Skala ocen (ODG) generowanych przez algorytm PEAQ jest

zatem następująca:

0 – pogorszenie jakości niesłyszalne

-1 – wyczuwalne, ale nie przeszkadzające

-2 – nieznacznie przeszkadzające

-3 – przeszkadzające

-4 – bardzo przeszkadzające

Algorytm PEAQ jest również przystosowany do oceny jakości sygnału stereofonicznego

(dwukanałowego). Jest znormalizowany przez ITU-R w Zaleceniu BS 1387 [PEAQ].

Twórcy tej normy publikują wyniki badań porównawczych: ODG w funkcji SDG

(Subjective Difference Grade, czyli utrata jakości sygnalizowana przez słuchaczy) – Rys.5.13.

Dla sygnałów o dobrej jakości obie metryki jakościowe nie odbiegają od siebie, jednak dla

sygnałów o niskiej jakości różnice mogą być znaczne.

Rys.5.13 Porównanie metryk ODG (generowana przez PEAQ) z SDG (uśrednione

wrażenia słuchaczy) [PEAQ]

5.2.3. Testy i badania z wykorzystaniem PEAQ

Istnieją dwie wersje algorytmu PEAQ. Różnica między nimi polega głównie na

zastosowaniu innych modeli psychoakustycznych:

PEAQ Basic – mniejsza dokładność, krótki czas testu (tylko tę wersję testowano)

PEAQ Advanced – większa dokładność, dłuższy czas testu

Przeprowadzono m.in. badania jakości plików dźwiękowych poddanych kompresji z

wykorzystaniem kodera MP3. Na uwagę zasługuje duża zależność ODG od frazy (co

potwierdzają nieformalne nadania odsłuchowe). Najmniejszą utratą jakości po kompresji

charakteryzują się sygnały o charakterze dolnopasmowym (np. fortepian). Wynika to z

wykorzystania nielicznych podpasm częstotliwości, które otrzymują większą liczbę bitów.

Rys.5.14 Badanie kodera MP3 z wykorzystaniem różnych plików dźwiękowych

[Kołodziejczyk]

Badano również wpływ zawężenia pasma sygnału mowy. Wyniki (Rys.5.15) wykazują

zbyt radykalną reakcję PEAQ na obniżenie pasma; słuchacze nie oceniali wąskopasmowej

mowy tak krytycznie.

Tab.3 ODG w funkcji zawężenia pasma 4 fraz mowy [Kołodziejczyk]

Zauważono podobną reakcję na „wyzerowanie” przerw międzywyrazowych w sygnale

mowy, jak miało to miejsce w algorytmie PESQ – Tabela 3. Metryka ODG zareagowała

spadkiem, podczas gdy słuchacze z trudem zauważali różnicę między oryginałem a sygnałem

poddanym obróbce.

Tabela 4 ODG w funkcji czasu trwania „wyzerowanej” ciszy międzywyrazowej

[Kołodziejczyk]

Testowana w Inst. Telekomunikacji PW implementacja algorytmu PEAQ [Kabal]

charakteryzowała się brakiem odporności na przepróbkowanie sygnału, nawet w niewielkim

zakresie. Operacja ta nie wywołuje zauważalnych dla słuchacza efektów, natomiast wpływa

na radykalne obniżenie ODG – Tabela 5..

Tabela 5. Wpływ przepróbkowania sygnału (częstotliwość próbkowania sygnału

oryginalnego wynosiła 48kHz) na ODG [Kołodziejczyk]

Reasumując, wnioski z testowania dostępnej implementacji algorytmu PEAQ [Kabal] są

następujące:

• Dla większości analizowanych sygnałów wartości ODG są zgodne z wrażeniami

słuchowymi

• Badana implementacja PEAQ generuje oceny niezgodne z oceną subiektywną przy

odsłuchu sygnałów w następujących sytuacjach:

• zmianach w obrębie bardzo cichych fragmentów

• ograniczeniu pasma mowy

• skróceniu ciszy międzywyrazowej o niezauważalną dla słuchacza wartość

• przepróbkowaniu sygnału

5.3. Sekwencje wideo

5.3.1. Zakłócenia i zniekształcenia obrazu

Obraz nieruchomy lub ruchomy, poddany kompresji, oraz przetransmitowany do

odbiorcy, ulega zmianom, które mogą obniżać jego postrzeganą jakość. Typowe

zniekształcenia i zakłócenia to:

• efekty blokowe, wynikające z zastosowania kompresji w blokach, np. 8x8 pikseli –

obserwator zauważa granice bloków

• „przytrzymanie” obrazu, wskutek podstawienia ostatniej poprawnie zdekodowanej

ramki za szereg niepoprawnie zdekodowanych ramek (występuje przy dużych

zakłóceniach w kanale transmisyjnym)

• chwilowy zanik obrazu lub jego części, często połączony z pojawieniem się na ekranie

kolorowej tekstury – występuje przy b. dużych zakłóceniach w kanale

• nieciągłość ruchu, związana z nazbyt wielką kompresją obrazu

• zniekształcenia konturów (nieostrość, załamania, poruszanie się, a także wystąpienie

„fałszywych konturów”) – wynik kompresji

• błędy w odtworzeniu kolorów (zmiana odcieni, nasycenie)

• błędy kwantyzacji (szum typu „sól i pieprz” lub „śnieżenie”)

Przykład (Rys.5.15): Obraz (jedna z klatek sekwencji wideo) został poddany kompresji, a

następnie został przesłany kanałem z dużą stratą pakietów. Widać „rozmycie” konturów i

tworzenie się bloków, skutkiem utraty części informacji niezbędnej do jego prawidłowego

odtworzenia.

Rys.5.15 Utrata jakości obrazu skutkiem kompresji i transmisji

5.3.2. Modele percepcji obrazu

Modelowanie percepcji obrazu jest procesem bardziej złożonym, niż modelowanie

percepcji dźwięku. Dużym problemem jest sam wybór testowych sekwencji obrazów,

naturalnych lub wygenerowanych sztucznie [ANSI801]. Najprostszym do obliczenia

wskaźnikiem jakości jest PSNR (peak signal to noise ratio). Jest to stosunek maksymalnej

mocy zniekształcenia (w 8-bitowym zapisie 2552) do błędu średniokwadratowego (MSE):

2)),,(),,((

1

p m n

nmponmpdNMP

MSE

gdzie indeksy m,n odnoszą sie do współrzędnych piksela, a p do kolejnych ramek sekwencji

wideo. Korelacja tego wskaźnika z wrażeniami percepcyjnymi odbiorcy jest słaba (np.

niewielka zmiana jasności lub kontrastu wpływa na obniżenie SNR, podczas gdy percepcyjnie

jest ona nieistotna). Na Rys.5.16 pokazano 3 kopie obrazu, charakteryzujące się tą samą

wartością MSE (a więc i PSNR), jednak wyraźnie różniące się postrzeganą jakością.

Rys.5.16 Porównanie obrazów charakteryzujących się tą samą wartością MSE [Xiao]

Lepsze wyniki daje badanie krawędzi: dokonuje się ekstrakcji krawędzi w obrazie

naturalnym i odtworzonym (np. z wykorzystaniem filtrów Sobela [Umb98]), a następnie

porównuje się otrzymane krawędzie. Odejmując kolejne ramki od siebie, otrzymuje się

oszacowanie ruchu. Przeprowadzając takie oszacowanie osobno dla sekwencji oryginalnej i

odtworzonej można zbadać zakłócenia ruchu (niepłynność ruchu, zatrzymanie obrazu, itd.).

Dokładność odtworzenia dużych plam i szczegółów można badać porównując obrazy

przetransformowane lub ich części (z wykorzystaniem dwuwymiarowej transformaty DFT).

Wadą wymienionych metod jest brak odniesienia do systemu percepcji obrazów przez

człowieka.

Cechy zmysłu wzroku mają wielkie znaczenie w procesie oceny jakości obrazu. Istotne

znaczenie ma czułość wzroku, maskowanie obiektów tłem, wrażliwość na barwy (np. oko jest

bardziej czułe na barwę zieloną, niż na czerwoną i niebieską), bezwładność (w dziedzinie

czasu), rozdzielczość przestrzenna (kątowa). Zmysł wzroku szczególnie jest uwrażliwiony na

kontrast, uwypuklając granice pomiędzy polami o niewiele różniącej się luminancji. Z drugiej

strony, niejednorodne tło jest w stanie całkowicie zamaskować obiekt (staje się on

niezauważalny). Percepcja kolorów zależy od tła, a także od czasu (uprzednio nadany obraz

wpływa na odbiór kolejnego). Uprzednio oglądany obiekt utrzymuje się w pozornym polu

widzenia (niekiedy jako negatyw – tzw. powidok.) Niektóre kolory, po ich zmieszaniu,

wywołują wrażenie innej barwy (np. czerwony+żółty = pomarańczowy), inne nie mają takiej

właściwości – nazywamy je przeciwstawnymi (opponent colors). Podstawowe pary kolorów

przeciwstawnych to czarny-biały (B-W), czerwony-zielony (R-G) i niebieski-żółty (B-Y).

Konstrukcja algorytmu szacowania jakości obrazu ruchomego musi opierać się na modelu

percepcji (HVS – human visual system). W modelu należy uwzględnić zjawiska przestrzenne

i zachodzące w czasie. Modelując zjawiska „czasowe”, uwzględnia się dwa rodzaje

bezwładności oka: krótko- i długookresową. Wymaga to przepuszczenia sekwencji wideo

przez dwa filtry – dolnoprzepustowy i pasmowy (Rys.5.17).

Rys.5.17 Filtry modelujące bezwładność oka [Winkler]

Najważniejszym problemem w modelowaniu HVS jest uwzględnienie wrażliwości na

kontrast, oraz spadku tej wrażliwości w obecności niejednorodnego tła (maskowanie).

Maksymalna wrażliwość na kontrast (minimalny próg detekcji) występuje w procesie

obserwowania obiektów o rozmiarach ok. ¼ stopnia kątowego („częstotliwość przestrzenna”

4 cykle na stopień). Dla mniejszych „częstotliwości przestrzennych” wrażliwość na kontrast

(CSF – contrast sensitivity function, zdefiniowana jako odwrotność progu detekcji) powoli

spada, a dla większych częstotliwości – spada b. szybko (Rys.5.18).

Rys.5.18 Wrażliwość na kontrast w funkcji częstotliwości przestrzennej [Winkler]

Również w obecności kontrastowego tła CSF spada, tym bardziej, im bardziej

kontrastowość tła przekracza kontrastowość obserwowanego obiektu. Modelowanie zjawiska

maskowania polega na znalezieniu zależności CSF od tła. Jeśli kontrastowość tła osiąga

wielkość porównywalną z wielkością kontrastu obiektu względem tła, wówczas próg detekcji

obiektu podnosi się (wrażliwość oka maleje – zaznaczają się maskujące właściwości tła) –

Rys.5.19.

Rys.5.19 Maskowanie: próg detekcji obiektu w funkcji kontrastowości tła [Winkler]

Na zjawisko maskowania ma wpływ rozmiar obiektu – wymaga to odfiltrowania obrazu z

wykorzystaniem filtrów „przestrzennych” (pierwszy filtr przepuszcza duże pola, a ostatni –

drobne szczegóły obrazu). Filtry te uwzględniają również orientację obiektów w płaszczyźnie

obrazu – osobne filtry reagują np. na pionowe i poziome pasy. Jest to potrzebne, gdyż np. tło

złożone z pionowych pasów dobrze zamaskuje obiekt o orientacji pionowej, a w ogóle nie

zamaskuje obiektu o orientacji poziomej (Rys.5.20).

Rys.5.20 Maskowanie zakłóceń pionowych przez obraz o strukturze pionowej

[Żochowski]

Zbadano widmo zakłóceń o charakterze pionowym i poziomym, obecnych w obrazach z

Rys.5.20. Widmo zakłóceń poziomych koncentruje się wokół osi pionowej i vice versa – rys.

5.21.

Rys.5.21 Widma zakłóceń o strukturze poziomej i pionowej [Żochowski]

Aby znaleźć w obrazie niezamaskowane (a więc dobrze widoczne) zakłócenia, należy na

widmo obrazu oryginalnego i zakłóconego nałożyć kierunkową maskę, a następnie obliczyć

SNR. Kierunek maski należy zmieniać, aż osiągnie się minimum SNR. Niska wartość tego

minimum oznacza, że w obrazie istnieją niezamaskowane zakłócenia, a więc jego jakość jest

niska. Na Rys.5.22 pokazano stosowane maski.

Rys.5.22 Maski kierunkowe nakładane na widma obrazów [Pokorski]

Metoda obliczanie „kierunkowej” wartości SNR okazała się skuteczna: Dla obrazu trzcin

(Rys.5.20) najniższa wartość SNR wynosiła 13 dB dla zakłóceń pionowych i 7 dB dla

zakłóceń poziomych [Pokorski]. Jest to zgodne z postrzeganiem tych zakłóceń przez

oglądającego obrazy. Należy przypomnieć, że w obu przypadkach wartość PSNR była

identyczna.

5.3.3. Strukturalne podobieństwo obrazów (SSIM)

Rys. 5.23 Schemat algorytmu SSIM [Wang]

Rys.5.24 Porównanie SSIM i PSNR

5.3.4. Zalecenie J.144

Jest to w zasadzie zbiór algorytmów bez wskazania na konkretne rozwiązanie [J144].

Wszystkie z nich bazują na ogólnym schemacie metody intruzyjnej podanym na Rys.5.25.

Rys. 5.25: Obliczenie MOS z uwzględnieniem modelu percepcji obrazu

Geneza tego zalecenia jest następująca: W końcu lat 90-tych zawiązała się grupa

badawcza (VQEG – Video Quality Experts Group), stawiająca sobie za cel opracowanie i

przedstawienie ITU-T do normalizacji, algorytmu obiektywnej oceny jakości sygnału wideo

(VQM – Video Quality Metric). Rozpisano konkurs, w którym wzięły udział zainteresowane

ośrodki badawcze. VQEG przeprowadziła badania porównawcze jakości testowych sygnałów

wideo – porównując wyniki otrzymane metodami subiektywnymi i obiektywnymi. Wyniki

obiektywne otrzymano wykorzystując metody i oprogramowanie dostarczone przez ośrodki

badawcze biorące udział w konkursie (w skrócie nazwijmy je proponentami). Wyniki

subiektywne otrzymano, prezentując (dwukrotnie) pary sekwencji wideo kilkudziesięciu

osobom (nie informując tych osób, która z prezentowanych sekwencji jest oryginałem).

Osoby te zaznaczały swoją ocenę jakości na ciągłej skali, dla obydwu porównywanych

sekwencji. Następnie obliczano różnicę ocen (raw difference) między sekwencją oryginalną

(SRC - source) i przetworzoną . Przetworzenie (HRC – Hypothetical Reference Circuit)

polegało na zapisie sekwencji wideo w różnych formatach, kodowaniu w systemie MPEG-2 z

różną rozdzielczością, itp. Różnica ocen była następnie normalizowana do zakresu <0,1> i

uśredniana dla grupy osób biorących udział w teście (przy czym wyniki zdecydowanie

odbiegające od pozostałych były odrzucane). W końcu ocena subiektywna była porównywana

z obiektywną, z wykorzystaniem szeregu narzędzi statystycznych (korelacja Pearsona itd.).

Wyniki badań porównawczych VQEG zamieściła w dwóch raportach [VQEG1],[VQEG2].

W pierwszej edycji konkursu wzięło udział 10 ośrodków badawczych: CPqD,

Tektronix/Sarnoff, NHK, KDD, EPFL, Tapestries, NASA, KPN/Swisscom, NTIA, IFN. Nie

przyniosła ona rozstrzygnięcia – wszystkie proponowane metody charakteryzowały się

podobną zgodnością z metodą subiektywną [VQEG1]. Jedynie algorytm Tapestries, w

statystycznie istotnej mierze, odbiegał nieco od pozostałych, dając wyniki mniej skorelowane

z wynikami otrzymanymi metodami subiektywnymi. Co więcej, prosta metoda PSNR nie

odbiegała w statystycznie istotnej mierze, od pozostałych. W związku z powyższym

postanowiono ogłosić następny konkurs, a jednocześnie ulepszyć metody porównywania ocen

obiektywnych i subiektywnych. W konkursie udział wzięły następujące ośrodki badawcze:

NASA, British Telecom, Yonsei, CPqD, Chiba, NTIA. W wyniku wszechstronnych badań

porównawczych, ostatecznie wyselekcjonowano 4 algorytmy: British Telecom, Yonsei,

CPqD, NTIA. Metodami analizy statystycznej nie udało się udowodnić przewagi którejś z

tych 4 metod [VQEG2]. Badania przeprowadzone w Inst. Telekomunikacji PW wykazały

duży rozrzut wartości MOS mierzonych metodą subiektywną dla sekwencji wideo

charakteryzujących się tą samą wartością VQM – Rys.5.26.

Rys.5.26 Porównanie VQM z oceną subiektywną (MOS) [Dymarski]

Zalecenie J.144 odnosi się do sygnału wysokiej jakości, wykorzystywanego w TV

kablowej: przepływność binarna zakodowanego sygnału wynosi od 768 kbit/s do 5 Mbit/s.

Metoda nie jest zalecana w warunkach występowania błędów kanałowych, nadaje się

raczej do porównywania koderów wideo.

5.3.5. Zalecenia J.247, J.246, J.341 i J.342

Ze względu na ograniczone zastosowanie algorytmów oceny jakości opisanych w

Zaleceniu J.144, VQEG rozpisała nowy konkurs, do którego zgłosiły się następujące ośrodki

badawcze: NTT, OPTICOM, Psytechnics, Yonsei University i SwissQual. W wyniku szeroko

zakrojonych badań porównawczych [VQEG3], VQEG zaproponowała:

Jako metody obiektywne z pełnym odniesieniem (intruzyjne), zalecić 4

algorytmy, proponowane przez NTT, OPTICOM (Rys.5.27), Psytechnics, Yonsei

University. Skutkiem tej decyzji jest norma ITU-T J.247 [J247].

Jako metodę obiektywną z częściowym odniesieniem zalecić algorytm

proponowany przez Yonsei Univ. Skutkiem tej decyzji jest norma ITU-T J.246

[J246].

Na razie nie zalecać żadnego algorytmu nieintruzyjnego (bez odniesienia), mimo

relatywnie dobrych wyników otrzymanych przez SwissQual.

Rys.5.27 Algorytm Perceptual Evaluation of Video Quality (PEVQ) – wg materiałów firmy

OPTICOM

Korelacja pomiędzy metryką VQM oraz metodą subiektywną

1

2

3

4

5

0

0,05

51

0,05

51

0,06

17

0,06

17

0,09

29

0,12

48

0,13

92

0,19

27

0,32

49

0,35

78

0,43

07

0,45

53

0,54

82

0,75

75

1,03

2

1,32

23

1,62

72

2,11

23

2,51

57

2,85

68

3,43

72

Metryka VQM

Skala

MO

S

MOS

Aproksymacja

Podstawową cechą w.w. algorytmów jest możliwość ich wykorzystania w warunkach

błędów kanałowych i spowodowaną tym utratą i uszkodzeniem pakietów, zakłóceniem

ciągłości ruchu itp. We wszystkich czterech algorytmach intruzyjnych położono duży nacisk

na synchronizację sygnału przetworzonego i sygnału odniesienia w dziedzinie czasu. Np. w

algorytmie NTT zastosowano dwuetapową synchronizację w makroskali i w mikroskali (w tej

ostatniej mamy do czynienia z „przetrzymaniem” obrazu i nieciągłością ruchu skutkiem utraty

pakietów). Stosuje się również dopasowanie obu obrazów w przestrzeni, co umożliwia

porównanie obrazu pełnego i obrazu o obciętych brzegach. Po uzyskaniu synchronizacji

czasowej i przestrzennej oblicza się szereg wskaźników cząstkowych, uwzględniających

dokładność odwzorowania luminancji, chrominancji, krawędzi, oraz detekcję efektów

blokowych i utraconych elementów obrazu (w algorytmie PEVQ proponowanym przez

OPTICOM jest pięć takich wskaźników, w algorytmie Psytechnics - osiem). Algorytm Yonsei

Univ. w głównej mierze opiera się na porównywaniu krawędzi. W związku z tym nie wymaga

on znajomości całego obrazu odniesienia, a tylko cząstkowej informacji odnoszących się do

krawędzi. Ta informacja zajmuje od 1 kbit/s do 128 kbit/s, w zależności od rozdzielczości

obrazu. Pozwoliło to na zaproponowanie algorytmu z częściowym odniesieniem, który został

opisany w Zaleceniu J.246 [J246]. W 2011r. ITU-T opracowała ulepszoną wersję tego

algorytmu, obejmującą również badanie jakości HDTV – jest to norma J.342 [J342].

Podobnie norma J.247 została rozszerzona, w oparciu o badania firmy SwissQual, na badania

jakości HDTV z pełną referencją. Jest to norma J.341 [J341].

6. Ocena jakości multimediów na podstawie pakietów i strumienia binarnego

Metody oceny jakości z pełną lub częściową referencją wymagają transmisji określonej

sekwencji wideo czy frazy dźwiękowej – są więc metodami intruzyjnymi. Wygodniejsze w

stosowaniu są metody nieintruzyjne, wykorzystujące jedynie aktualnie transmitowaną treść

(content). Jeszcze wygodniejsze byłoby uniknięcie dekodowania dźwięku i obrazu i ocenianie

jakości jedynie na podstawie strumienia pakietów docierających do odbiornika.

Przykładem takiego podejścia jest zespół algorytmów VQmon firmy Telchemy. Do

estymacji jakości VQmon wykorzystuje:

parametry związane z transmisją strumieni przez sieć: bitowa stopa błędów

(BER), poziom strat pakietów (PLR), opóźnienie pakietów, opóźnienie w pętli,

zmienność (jitter) opóźnienia, przepustowość łącza;

parametry związane z obrazem wideo: rozpoznawanie ramek (I, P, B),

rozdzielczości obrazu, kodeka;

parametry związane z sygnałem audio: kodek, przepływność binarna.

Wszelkie zmiany w strumieniach bitów i pakietów są śledzone na bieżąco. Z

wykorzystaniem modelu Markowa program modeluje rozkład strat pakietów oraz stopę

odrzuconych pakietów. Jakość estymowana jest cyklicznie, a następnie obliczane są metryki

jakościowe. VQmon bierze pod uwagę, które ramki zostały uszkodzone (I, P, B), uwzględnia

również stopień zagęszczenia błędów: pojedyncze czy występujące seriami (burst errors).

Ostatecznie VQmon wyprowadza następujące metryki jakościowe:

MOS-A – jakość w skali MOS przekazu sygnału audio;

Absolute MOS-V - jakość w skali MOS przekazu strumienia obrazu. Metryka

zależna od rozdzielczości obrazu, liczby klatek na sekundę, struktury GoP

(ang. Group of Picture), kodera, poziomu kompresji, przepływności, strat

pakietów, opóźnienia i jego zmienności;

Relative MOS-V – jw., lecz liczona względem idealnych warunków działania

kodera oraz rozdzielczości wykorzystywanego urządzenia;

MOS-AV - jakość w skali MOS strumieni audio i wideo wspólnie.

VSTQ (ang. Video Service Transmission Quality) – metryka określająca

wpływ sieci na jakość, mierzona jest w skali od 0 do 50;

Estimated PSNR – szacowany PSNR, przedstawiany w [dB].

Testy przeprowadzone w Inst. Telekomunikacji PW potwierdzają ogólną przydatność

VQmon, jednak dla niektórych sekwencji wideo zauważa się znaczne różnice oceny

obiektywnej i nieformalnej oceny subiektywnej (Rys.6.1, Rys.6.2)

Rys.6.1 Przykładowe testy jakości składowej audio w warunkach utraty pakietów – pomiary z

wykorzystaniem VQmon (krzywa „user” odpowiada nieformalnej ocenie odsłuchowej)

[Bródka]

Rys.6.2 Przykładowe testy jakości składowej wideo w warunkach utraty pakietów – pomiary

z wykorzystaniem VQmon (krzywa „user” odpowiada nieformalnej ocenie oglądającego plik

wideo) [Bródka]

W 2011r. ITU-T opracowała dwie normy jakościowe, oparte na analizie pakietów i

strumienia binarnego:

• ITU-T P.1201 : Parametric non-intrusive assessment of audiovisual media streaming

quality, 2013 (nieintruzyjna, wykorzystuje nagłówki pakietów) [P1201]

• ITU-T P.1202 : Parametric non-intrusive bitstream assessment of video media

streaming quality (jw., wykorzystuje ponadto analizę strumienia binarnego) [P.1202]

MOS dla składowej audio

0,00

0,50

1,00

1,50

2,00

2,50

3,00

3,50

4,00

4,50

5,00

0,00 0,50 1,00 1,50 2,00 2,50 3,00 3,50

Loss [%]

MO

S

MOS-A avg

MOS-A user

MOS-A int

MOS dla składowej video

0,00

0,50

1,00

1,50

2,00

2,50

3,00

3,50

4,00

4,50

0,00 0,50 1,00 1,50 2,00 2,50 3,00 3,50

Loss [%]

MO

S

MOS-V abs

MOS-V rel

MOS-AV avg

MOS-V user

Najnowszą normą tego typu jest J.343 [J343], która opiera się na analizie, pakietów,

strumienia binarnego, oraz zdekodowanego obrazu.

7. Ocena jakości gry interaktywnej

W grze internetowej obraz generowany jest lokalnie u użytkownika, w związku z tym nie

mamy tu do czynienia z typową transmisją wideo. Transmitowane są jedynie informacje

dotyczące położenia postaci, ruchu, czasu, użytej broni oraz strzału. W efekcie przesyłane

z/do serwera pakiety są niewielkich rozmiarów i stanowią zazwyczaj mały ułamek dostępnej

przepływności. Niezmiernie ważne są natomiast zdarzenia i zmiany w obrazie, które muszą

być generowane szybko i niezawodnie. Szczególnie odnosi się to do gier typu First Person

Shooter, gdzie aktualny obraz sytuacji, szybkość i skuteczność działania jest podstawą

zadowolenia użytkownika.

Rys.7.1 Gra internetowa Nexuiz

Wyniki badań subiektywnych wykazują, że tolerowane opóźnienie w pętli (ping) jest poniżej

40 ms – Rys.7.2

Rys.7.2 Stopień zadowolenia gracza w funkcji opóźnienia w pętli [Watt]

Podobne badania przeprowadzono w Inst. Telekomunikacji PW – Rys.7.3

Rys.7.3 Jakość gry Nexuiz w funkcji stopy utraconych pakietów i ich opóźnienia [Bródka]

Okazuje się, że gracz toleruje nawet 15% utraty pakietów, ale tylko 30 ms ich opóźnienia.

8. Podsumowanie

W podręczniku omówiono najważniejsze normy i zalecenia odnoszące się do pomiaru

jakości sygnału mowy, szerokopasmowego sygnału fonicznego, obrazu ruchomego i przekazu

multimedialnego (dźwięk i obraz). Najdokładniejsze są metody subiektywne badania jakości,

jednak jest to podejście czasochłonne i kapitałochłonne. Coraz częściej badania z udziałem

odbiorców dźwięku i obrazu służą jedynie do kalibracji metod obiektywnych. W grupie tych

metod najdokładniejsze są metody funkcjonujące na poziomie mediów z pełnym

odniesieniem: PESQ (Zalecenie P.862), POLQA (P.863) dla mowy, PEAQ (BS 1387) dla

sygnałów fonicznych, metody opisane w Zaleceniu J.247 i J.341 dla obrazu ruchomego.

Znajomość sygnału odniesienia jest, w niektórych zastosowaniach, istotnym ograniczeniem,

gdyż wymaga współdziałania nadawcy i odbiorcy przekazu. Odbiorcy byliby zainteresowani

MOS dla gry interaktywnej

0,00

1,00

2,00

3,00

4,00

5,00

6,00

0,0 5,0 10,0 15,0 20,0 25,0 30,0 35,0 40,0 45,0

Loss [%]

MO

S

MOS user

MOS dla gry interaktywnej

0,00

1,00

2,00

3,00

4,00

5,00

6,00

0 20 40 60 80 100 120 140 160

Delay [ms]

MO

S

MOS user

metodami oceny jakości niewymagającymi znajomości nadawanego przekazu. Pierwszy taki

algorytm został opracowany dla mowy (3SQM – Zalecenie P.563). W roku 2014 ITU-T

opracowała podobne algorytmy dla sekwencji wideo (P.1201, P.1202).

Przy badaniu jakości usług w konkretnych systemach, gdzie znane są kodery,

przepływności binarne, itp. możliwe jest oszacowanie jakości na podstawie parametrów

połączenia telekomunikacyjnego mierzonych na poziomie pakietów (Zalecenie P.564 dla

mowy, J.343 dla sygnału wideo). Jest to wygodne rozwiązanie dla przeprowadzających

pomiar, gdyż nie jest wymagana znajomość treści przekazu. Z kolei projektant sieci chciałby

wiedzieć, jakie środki ma zastosować w celu utrzymania odpowiedniego poziomu jakości

usług telekomunikacyjnych. Pomocą są tu metody parametryczne typu E-model (Zalecenia

G.107, G.113, G.1070).

Metody pomiaru jakości sygnału audio i wideo są intensywnie rozwijane – prace

zmierzają w kierunku łączenia różnego typu algorytmów i wykorzystania informacji o

parametrach strumienia binarnego (Tabl.1).

Literatura

[P.800] ITU-T Recommendation P.800: Method for subjective determination of transmission

quality, 1996

[MNRU] ITU-T P.810: Modulated Noise Reference Unit (MNRU). February 1996

[P.830] ITU-T P.830: Subjective Performance Assessment of Telephone-Band and Digital Codecs.

February 1996

[P.910] ITU-T P.910: Subjective video quality assessment for multimedia applications, 1996

[P.911] ITU-T P.911: Subjective audiovisual quality assessment for multimedia applications

[ETR250] ETSI ETR 250; Speech communication quality from mouth to ear for 3,1 kHz handset telephony across networks, July 1996

[EG201] ETSI EG 201 377-1: Speech Processing, Transmission and Quality Aspects (STQ);

Specification and measurement of speech transmission quality. April 1999

[PN-90] PN-90/T-05100; Analogowe łańcuchy telefoniczne - Wymagania i metody pomiaru

wyrazistości logatomowej. 1993

[PSQM] ITU-T P.861: Objective Quality Measurement of Telephone-Band Speech Codecs.

February 1998

[PEAQ] ITU-R Recommendation BS 1387: Method for Objective Measurements of Perceived

Audio Quality (PEAQ), 1998

[PESQ] ITU-T Recommendation P.862: Perceptual evaluation of speech quality (PESQ), an

objective method for end-to-end speech quality assessment of narrowband telephone

networks and speech codecs

[PESQ1] -T Recommendation P.862.3 – Application guide for objective quality measurement

based on Recommendations P.862, P.862.1 and P.862.2, 11/2007

[POLQA] Draft of ITU-T Recommendation P.863, Perceptual Objective Listening Quality

Assessment (POLQA), an advanced objective perceptual method for end-to-end

listening speech quality evaluation of fixed, mobile, and IP-based networks and

speech codecs covering narrowband, wideband, and super-wideband signals, 2010

[3SQM] ITU-T Recommendation P.563, Single-ended method for objective speech quality

assessment in narrow-band telephony applications, May 2004 [G.107] ITU-T Recommendation . G.107. The E-Model, A Computational Model For Use in

Transmission Planning. 2003

[ETS101] ETSI TS 101 329-5 v1.1.2. Quality of Service (QoS) Measurement Methodologies.

2002

[ETS102] ETSI TS 102 024-5 v4.1.1. Quality of Service (QoS) Measurement Methodologies.

2003

[BT500] ITU-R “Methodology for the subjective assessment of the quality of television

pictures”, International Telecommunications Union BT.500-7, 1995

[ANSI801] ANSI T1.801.01-1996 “Digital transport for video teleconferencing/ videotelephony

signals – Video test scenes for subjective and objective performance assessment” –

American National Standards Institute, 1996

[J140] ITU-T Recommendation J.140, „Subjective picture quality assessment for digital cable

television”

[J143] ITU-T Recommendation J.143, „User requirements in digital cable television”

[J144] ITU-T Recommendation J.144, Objective perceptual video quality measurement

techniques for digital cable television in the presence of a full reference, March 2004

[J247] ITU-T Rec. J.247 Objective perceptual multimedia video quality measurement in the

presence of a full reference, 2008

[J246] ITU-T Rec. J.246 Perceptual visual quality measurement techniques for multimedia

services over digital cable television networks in the presence of a reduced bandwidth

reference, 2008

[J341] ITU-T Recommendation J.341 “Objective perceptual multimedia video quality

measurement of HDTV for digital cable television in the presence of a full reference”,

January 2011

[J342] ITU-T Recommendation J.342 “Objective perceptual multimedia video quality

measurement of HDTV for digital cable television in the presence of a reduced

reference signal”, January 2011

[J343] ITU-T Recommendation J.343 Hybrid perceptual / bitstream models for objective video

quality measurements, 2014

[P.1201] ITU-T P.1201 : Parametric non-intrusive assessment of audiovisual media streaming

quality, 2013

[P.1202] ITU-T P.1202 : Parametric non-intrusive bitstream assessment of video media streaming

quality, 2013

[Kula01] Kula S.: Subiektywne i obiektywne metody badania jakości mowy przesyłanej w sieciach

telekomunikacyjnych. Pomiary w telekomunikacji, nr 20, Warszawa 2001

[Kula03] Kula S., Gwiazda P., Zalewski Ł.: Badanie jakości mowy w sieciach telefonii

komórkowej GSM. Konferencja KKRRiT, Wrocław, czerwiec 2003

[Trz00] Trzaskowska J.: Ocena jakości sygnału mowy w oparciu o Model E w zastosowaniu do

krajowej sieci telefonicznej. Rozprawa doktorska. Instytut Łączności. 2000

[UMB98] Scott E. Umbauch “Computer vision and image processing” –Prentice – Hall, 1998

[Wolf02] S. Wolf, M. Pinson, „Video Quality Measutment Techniques”, NTIA Raport

02-392, Czerwiec 2002

[Win00] S.Winkler, F.Dufaux „Video quality evaluation for mobile applications“, Proc. SPIE,

vol.5150, pp.593/603, Lugano 2000

[Winkler] S.Winkler “A perceptual distortion metric for digital color video”, Human Vision and

Electronic Imaging IV, Bellingham 1999

[Ding] Ding L., Goubran R.A.; Speech quality prediction in VoIP using the extended E-model.

Global Telecommunications Conference, 2003, Vol. 7, pp. 3974- 3978

[Carvalho] Carvalho L, Mota E., Aguiar R. Lima A., Neuman de Souza J., Barreto A.:An E-Model

Implementation for Speech Quality Evaluation in VoIP

Systems.http://www.lia.ufc.br/~neuman/leandro-iscc2005.pdf

[PEVQ] PEVQ – Advanced perceptual evaluation of seech quality – materiały firmy OPTICOM

[Opt]

[Kabal] P.Kabal An Examination and Interpretation of ITU-R BS.1387: Perceptual Evaluation

of Audio Quality, Raport, McGill, 3003

[ETSI TS 250] ETSI TS 102 250 Speech processing, transmission and quality aspects (STQ);

QoS aspects for popular services in GSM and 3G networks

[P.910] ITU-T Recommendation P.910; Subjective video quality assessment methods for

multimedia applications

[Taka] A.Takahashi, D.Hands, V.Barriac, Standardization activities in the ITU for QoE

Assessment of the IPTV, IEEE Communications Magazine, Feb. 2008

[Xiao] Feng Xiao, “DCT-based Video Quality Evaluation”, MSU Graphics and Media Lab

(Video Group), 2000

[VQEG1] Video Quality Experts Group (VQEG): “Final Report from the Video Quality Experts

Group on the Validation of Objective Models of Video Quality Assessment”, Marzec

2000

[VQEG2] Video Quality Experts Group (VQEG): “Final Report from the Video Quality Experts

Group on the Validation of Objective Models of Video Quality Assessment, Phase II”,

VQEG Final Report of FR-TV Phase II Validation Test ©2003 VQEG, Sierpień 2003

[VQEG3] Final report of the VQEG on the validation of objective models of multimedia

quality assessment, Phase I, 2008

[Zwicker] E.Zwicker, H.Fastl, ”Psycho-acoustics: Facts and Models“, Springer-Verlag,

1990.

http://ieeexplore.ieee.org/xpl/RecentCon.jsp?punumber=8900

http://www.lia.ufc.br/~neuman/leandro-iscc2005.pdf

[Wang] Z.Wang et al. „Image quality assessment: from error visibility to structural similarity”,

IEEE Trans. on Image Proc. 13/4 2004

[Watt] A.F.Wattimena et al. „Predicting the perceived quality of a First Person Shooter - the

Quake IV G-model”, The 5th Workshop on Network & System Support for Games 2006

— NETGAMES 2006

[KST10] P.Dymarski, S.Kula, A.Sadowska "PESQ jako narzędzie do oceny jakości sygnału

VoIP" - KST 2010. Materiały konferencyjne opublikowane w Przeglądzie

Telekomunikacyjnym Nr.8-9/2010, ss.1299-1308

[Sęk] A.Sęk, E.Skrodzka, M.Marszałkiewicz, ”Psychoakustyka w pigułce”, Instytut

akustyki UAM, 2000

[Dymarski] .Dymarski, S.Kula, A.Janicki „Badanie jakości sygnałów i usług”, Przegląd

Telekomunikacyjny, Nr.4/2010, ss.118-120

[Boska] A.Boska, P.Świca „Wpływ parametrów kanału transmisyjnego na jakość percepcyjną

sygnałów wideo”, praca dypl. pod kier. S.Kuli, Warszawa 2005 [Sadowska] A.Sadowska „Algorytm PESQ jako narzędzie do oceny jakości sygnału mowy” –

praca dypl. pod kier. P.Dymarskiego, Warszawa 2011

[Kołodziejczyk] A.Kołodziejczyk, „Badanie dźwięku szerokopasmowego przy pomocy

algorytmu PEAQ”, praca dypl. pod kier. P.Dymarskiego, Warszawa 2011

[Kraciuk] G.Kraciuk „Badania porównawcze koderów audio za pomocą narzędzia PEAQ”,

praca dypl. pod kier. P.Dymarskiego, Warszawa 2012

[Toczko] M.Toczko „Badania kodera MPEG1 warstwa 3”, praca dypl. pod kier.

P.Dymarskiego, Warszawa 2013

[Thanh] Thanh Nguyen Huy „Wpływ parametrów sieci na postrzeganą jakość wideo”, praca

dypl. pod kier. P.Dymarskiego, Warszawa 2011

[Bokszczanin] P.Bokszczanin „Measurement of wideo signal quality in IP networks”, praca dypl.

pod kier. P.Dymarskiego, Warszawa 2013

[Pokorski] M.Pokorski „Metody oceny jakości obrazu nieruchomego”, praca dypl. pod kier.

P.Dymarskiego, Warszawa 2014

[Bródka] K.Bródka „Badanie jakości wybranych usług telekomunikacyjnych w sieci IP”, praca

dypl. pod kier. P.Dymarskiego, Warszawa 2012

[Żochowski] D.Żochowski „Analiza jakości i kompresji obrazu nieruchomego”, praca dypl. pod

kier. P.Dymarskiego, Warszawa 2012

Documents

JAKOŚĆ USŁUG TELEKOMUNIKACYJNYCHptitni.tele.pw.edu.pl › _KURS_Badanie_jakosci_uslug_telekomunikacyj… · drugim skończony podzbiór liczb rzeczywistych. Dobrze znanymi przykładami