Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
JAKOŚĆ USŁUG TELEKOMUNIKACYJNYCH
Sławomir Kula
Przemysław Dymarski
Marcin Golański
Warszawa, maj 2015
Spis treści 1. Wstęp ........................................................................................................................... 5
2. Techniki kodowania sygnałów akustycznych i obrazów............................................. 6
2.1. Cechy sygnału mowy ........................................................................................... 6
2.2. Percepcja dźwięków przez człowieka .................................................................. 7
2.3. Kodowanie kompresyjne sygnału mowy ............................................................ 8
2.4. Kodowanie sygnałów audio ............................................................................... 15
2.5. Kodowanie obrazów ........................................................................................... 17
3. Subiektywne metody badania jakości ........................................................................ 19
3.1. Subiektywne metody badania jakości mowy ..................................................... 19
3.1.1. Kategoryzacja.............................................................................................. 19
3.1.2. Testy konwersacyjne ................................................................................... 20
3.1.3. Testy odsłuchowe ........................................................................................ 20
3.1.4. Badanie wyrazistości .................................................................................. 21
3.2. Subiektywne metody badania jakości obrazów ruchomych .............................. 22
4. Parametryczne metody badania jakości ..................................................................... 23
5. Obiektywne metody badania jakości na poziomie mediów ...................................... 25
5.1. Sygnał mowy ...................................................................................................... 25
5.1.1. SNR w ujęciu globalnym i segmentowym .................................................. 25
5.1.2. Metody PSQM i PESQ ............................................................................... 26
5.1.3. Metoda POLQA .......................................................................................... 28
5.1.4. Metoda 3SQM ............................................................................................. 28
5.1.5. Testowanie algorytmów PESQ i POLQA ................................................... 28
5.1.6. Badanie jakości mowy w usłudze VoIP z wykorzystaniem PESQ ............. 30
5.2. Ocena jakości szerokopasmowych sygnałów akustycznych .............................. 32
5.2.1. Maskowanie zakłóceń ................................................................................. 32
5.2.2. Metoda PEAQ ............................................................................................. 34
5.2.3. Testy i badania z wykorzystaniem PEAQ................................................... 35
5.3. Sekwencje wideo ................................................................................................ 37
5.3.1. Zakłócenia i zniekształcenia obrazu ........................................................... 37
5.3.2. Modele percepcji obrazu ............................................................................. 38
5.3.3. Strukturalne podobieństwo obrazów (SSIM) .............................................. 42
5.3.4. Zalecenie J.144 ........................................................................................... 43
5.3.5. Zalecenia J.247, J.246, J.341 i J.342 ........................................................... 44
6. Ocena jakości multimediów na podstawie pakietów i strumienia binarnego ............ 45
7. Ocena jakości gry interaktywnej ............................................................................... 47
8. Podsumowanie ........................................................................................................... 48
Literatura ........................................................................................................................... 49
1. Wstęp
We współczesnych systemach i sieciach telekomunikacyjnych i teleinformatycznych
stosowanych jest wiele rozwiązań, w których sygnał mowy, sygnały akustyczne i sygnały
wideo podlegają różnego rodzaju przekształceniom i przetworzeniom w celu ich sprawnego i
efektywnego przesyłania, gromadzenia, rozpoznawania i syntetyzowania. Stosowanych jest
wiele różnych typów koderów, sieci dostępowe i transmisyjne opierają się na nowych
rozwiązaniach, a integracja sieci telekomunikacyjnych i informatycznych stała się faktem. W
tej sytuacji ważnym problemem staje się pomiar i kontrola jakości usług, jak VoIP (Voice
over IP), VT (Videotelephony), VoD (Video on Demand), IPTV, Wideokonferencja.
Podstawowym czynnikiem wpływającym na jakość usługi QoS (Quality of Service) jest
jakość dźwięku i obrazu. Oprócz tego uwzględnia się inne czynniki, jak skuteczność
nawiązywania połączeń, częstość ich zrywania, itp. Choć wpływają one na stopień
zadowolenia użytkownika z usługi QoE (Quality of Experience), nie będą one rozważane w
niniejszym referacie.
Odbiorcą dźwięku i obrazu jest człowiek, z tego względu subiektywne metody badania
jakości, odwołujące się do ocen grupy odbiorców, są uważane za najdokładniejsze i są
wykorzystywane do kalibracji innych metod pomiaru jakości. Metody subiektywne, w
odniesieniu do mowy, innych sygnałów fonicznych, obrazu ruchomego i przekazu
audiowizualnego zostały włączone do zaleceń ITU-T i ITU-R (Tab.1). Polegają one na
przeprowadzaniu sformalizowanych odsłuchów dźwięku i pokazów ruchomego obrazu, co
jest trudne od strony organizacyjnej, długotrwałe i kosztowne. W tej sytuacji dąży się do
zastąpienia metod subiektywnych oceny jakości metodami obiektywnymi, niewymagającymi
zaangażowania grupy odbiorców.
Metody obiektywne można podzielić na kilka grup, w zależności od danych wejściowych
wykorzystanych do oceny jakości. W metodach funkcjonujących na poziomie mediów
wykorzystuje się obraz i dźwięk:
W metodach z pełnym odniesieniem (full reference), zwanych też
„intruzyjnymi” (intrusive) jest to sygnał przetworzony (docierający do
odbiorcy przez sieć) i sygnał oryginalny
W metodach z częściowym odniesieniem (reduced reference) jest to sygnał
przetworzony i pewne parametry sygnału oryginalnego
W metodach bez odniesienia (no reference), zwanych też „nieintruzyjnymi”
(nonintrusive) jest to wyłącznie sygnał przetworzony (tzn. zniekształcony
dźwięk i obraz)
Dla stałej kontroli jakości usług wygodniejsze są metody, opierające się na badaniu
strumienia pakietów IP. Nie wymagają one dostępu do dźwięku i obrazu, a do oceny jakości
wykorzystują opóźnienie pakietów, jitter opóźnienia, prawdopodobieństwo utraty pakietu,
jego uszkodzenia, itd. Znane też być muszą wykorzystywane kodeki i algorytmy maskowania
skutków utraty pakietów (jeśli takie są używane). Jeśli w badaniu jakości usługi chcemy
uwzględnić stan warstwy fizycznej kanału, to metody pomiaru jakości muszą wykorzystywać
jako dane wejściowe parametry strumienia binarnego (BER, itd.). Można w ten sposób
uwzględnić działanie kodów zabezpieczających przed błędami binarnymi (przy działaniu na
poziomie pakietów nie jest to możliwe). Poza tym można uwzględnić wpływ przekłamania
poszczególnych bitów na jakość dźwięku czy obrazu.
Do planowania sieci i doboru terminali pod kątem zapewnienia jakości usług nadają się
metody parametryczne, wykorzystujące jako dane wejściowe parametry połączenia
telekomunikacyjnego (rodzaj kodeka, przepływność binarna, opóźnienie w transmisji, itp.).
Najbardziej popularny jest tu E-model (zalecenie G.107 dla telefonii).
Obecnie ITU stymuluje badania nad hybrydowymi metodami pomiaru jakości, np.
mającymi dostęp do mediów i do strumienia binarnego (np. projekt J.bitvqm).
Tabela 1 Wybrane normy ITU-T i ITU-R odnoszące się do pomiaru jakości
Metody subiektywne obiektywne
poziom mediów poziom
pakietów/bitów
parametryczne hybrydowe
Mowa P.800
P.810
P.830
P.861
P.862 (PESQ)
P.863 (POLQA)
P.563 (3SQM)
P.564 G.107 (E-model) P.CQO*
Audio BS1116
BS1284
BS1387 (PEAQ)
P.1201, P.1202
(P.NAMS*
P.NBAMS*)
G.113
Wideo BT500
P.910
J.140
J.144
BT1683
J.246, J.247
J.341, J.342
G.1070
G.OMVS*
J.343
J.bitvqm*
Multimedia P.911 J.148
*nazwy robocze
W kolejnych podrozdziałach referatu skoncentrowano się na prezentacji wybranych
subiektywnych i obiektywnych metod oceny jakości mowy, sygnału audio i sygnału wideo
dla potrzeb badania różnego rodzaju połączeń, którymi są przesyłane te sygnały oraz
urządzeń, systemów i sieci realizujących takie połączenia.
2. Techniki kodowania sygnałów akustycznych i obrazów
2.1. Cechy sygnału mowy
Sygnał mowy ludzkiej ma widmo zawarte w zakresie od kilkunastu Hz do nawet powyżej
17 kHz. W sygnale tym, który ma fragmentami cechy sygnału quasi stacjonarnego można
wyróżnić fragmenty mowy dźwięcznej (odpowiadające głoskom dźwięcznym – struny
głosowe drgają), mowy bezdźwięcznej (odpowiadające głoskom bezdźwięcznych – struny
głosowe nie drgają) i ciszy. Cisza występuje w wielu miejscach sygnału mowy. Może być
ciszą międzyzdaniową, międzywyrazową, a także wewnątrzwyrazową. Czas trwania głosek
jest zależny od rodzaju głoski (zwykle głoski dźwięczne są dłuższe od głosek
bezdźwięcznych), ale też od pozycji głoski i od akcentowania. Głoski dźwięczne są z reguły
mocniejsze (głośniejsze). Ich energia jest większa. Przejście między kolejnymi głoskami jest
związane ze zmianami w trakcie głosowym i jest nazywane transjentem. Na rys. 2.1 pokazano
przykładowy przebieg sygnału mowy.
Rys. 2.1. Sygnał mowy
2.2. Percepcja dźwięków przez człowieka
Percepcja sygnału mowy przez aparat słuchowy człowieka jest procesem
skomplikowanym i do pewnego stopnia zależy od indywidualnych cech słuchacza. W
szczególności warto zwrócić uwagę na maskowanie sygnałów. Może ono mieć miejsce w
dziedzinie częstotliwości – rys.2.2 (dźwięki występuję jednocześnie, ale różnią się
częstotliwością) oraz w dziedzinie czasu – rys. 2.3 ( dźwięki występuję po sobie).
Maskowanie w dziedzinie czasu może być zarówno maskowaniem wprzód jak i wstecz. W
wyniku maskowania sygnału maskowanego nie słyszymy.
Rys. 2.2. Maskowanie w dziedzinie częstotliwości
Rys.2.3. Maskowanie w dziedzinie czasu
2.3. Kodowanie kompresyjne sygnału mowy
Kwantyzacja Kwantyzacja jest podstawowym procesem stosowanym w technikach kodowania
stratnego. Występuje ona we wszystkich algorytmach kompresji stratnej, albo jako jedyny
blok (kodowanie PCM), albo jako jeden z bloków. Ogólnie można powiedzieć, że
kwantyzacja polega na odwzorowaniu nieskończonego albo bardzo licznego zbioru w
skończony zbiór o mniejszej, najczęściej niewielkiej liczbie elementów. Niewielka liczba
elementów drugiego zbioru pozwala na ich przedstawienie za pomocą niewielkiej liczby
bitów. Najczęściej pierwszym zbiorem jest przedział, albo cały zbiór liczb rzeczywistych,
drugim skończony podzbiór liczb rzeczywistych. Dobrze znanymi przykładami układów, w
których jest wykonywana kwantyzacja to przetworniki analogowo/cyfrowe. Kwantyzacja jest
integralną częścią procesu cyfryzacji sygnałów analogowych.
Kwantyzację sygnału realizuje układ zwany kwantyzatorem, albo kwantyzerem. Dany
kwantyzator jest scharakteryzowany za pomocą dwóch zestawów liczb: progów kwantyzacji i
poziomów kwantyzacji. Progi kwantyzacji określają podział zbioru liczb rzeczywistych na
przedziały kwantyzacji. Wszystkie liczby z danego przedziału kwantyzacji są reprezentowane
za pomocą jednego poziomu kwantyzacji.
Symbolicznie, jeżeli 121 ... Nxxx są progami kwantyzacji )( 11 Nxx , a
Nyyy ,...,, 21 - poziomami kwantyzacji, to działanie kwantyzatora można opisać następująco.
Niech x będzie próbką wejściową kwantyzatora. Odpowiadająca jej próbka wyjściowa x’ jest
równa yi wtedy i tylko wtedy , gdy ),[ 1 ii xxx . W praktyce kwantyzator dzieli się na dwa
układy. Pierwszy z nich i znajdujący się w koderze, oznaczany dalej jako funkcja Qc(x),
oznacza przedział kwantyzacji, do którego należy próbka wejściowa x i generuje indeks i -
numer tego przedziału ))(( xQi c . Zakodowany binarnie indeks i jest przesyłany do
dekodera, w którym drugi układ kwantyzatora , oznaczany jako funkcja Qd(i), generuje na
podstawie indeksu odpowiedni poziom kwantyzacji )(iQy di . Liczba poziomów
kwantyzacji jest na ogół wybierana jako potęga 2, gdyż umożliwia to użycie całkowitej liczby
bitów )(log2 N do przedstawienia dowolnego indeksu przedziału kwantyzacji. Czasem zbiór
indeksów koduje się jedną z technik kodowania bezstratnego, np. kodu Huffmana.
Różnica:
)]([' xQQxxxe cd
jest zwana błędem kwantyzacji albo szumem kwantyzacji. We wszystkich technikach
kodowania stratnego błąd kwantyzacji jest przyczyną różnicy pomiędzy sygnałem
oryginalnym a zrekonstruowanym. Jego występowanie jest jednak nieuchronne, jeżeli chcemy
uzyskać duży współczynnik kompresji.
Zależnie od użytego kwantyzatora, kwantyzacja może być równomierna albo
nierównomierna, stała, albo adaptacyjna.
Kwantyzacja równomierna Kwantyzatory równomierne są najprostszymi kwantyzatorami. Działać one mogą w
oparciu o jedna z dwóch charakterystyk )]([' xQQx cd . Wspólną cechą kwantyzatorów
równomiernych jest stosowanie jednakowego, stałego skoku kwantyzacji definiowanego
następująco:
1 ii xx
Wyjątek mogą stanowić skrajne przedziały. O wartości skoku kwantyzacji decyduje
różnica pomiędzy maksymalną Xmax i minimalną Xmin wartością próbek sygnału
podlegającego kwantyzacji oraz liczba poziomów kwantyzacji. Z wyjątkiem skrajnych
przedziałów, błąd kwantyzacji w kwantyzatorze równomiernym spełnia warunek:
2/2/ e
Szum kwantyzacji jest dobrze charakteryzowany za pomocą wartości średniej kwadratu
błędu kwantyzacji. Pomijając dowód, możemy przyjąć, że jeżeli sygnał ma równomierny
rozkład amplitud próbek, to wartość średnia kwadratu szumu kwantyzacji wynosi 12
2.
Przykład
[Porównaj dwa nagrania. W tym celu kliknij na ikonę Bar32– liczba poziomów
kwantyzacji wynosi 8, a następnie na ikonę Bar128 – liczba poziomów kwantyzacji 16.
Kwantyzacja nierównomierna W przypadku sygnałów o dużej dynamice (np. sygnał mowy – po głośnym fragmencie
następuje fragment cichy) kwantyzacja równomierna może powodować bardzo istotny
percepcyjnie błąd. Jeżeli dla takiego sygnału zastosujemy kwantyzator o dużym skoku
kwantyzacji to próbki o małej amplitudzie „wpadać” będą w jeden przedział (w skrajnym
przypadku może im być przypisana wartość 0) i w odbiorniku będą nie do rozróżnienia. Z
kolei zastosowanie małego skoku kwantyzacji spowoduje wzrost liczby poziomów
kwantyzacji, by pokryć cały przedział minmax XX , a więc potrzebę korzystania z większej
liczby bitów do ich kodowania. Względny błąd kwantyzacji x
e w kwantyzatorze
równomiernym jest większy dla próbek o małej amplitudzie niż dla próbek o dużej
amplitudzie. Aby uniezależnić względny błąd kwantyzacji od amplitudy próbek rozmiar
przedziału kwantyzacji powinien być proporcjonalny do modułu liczby należącej do tego
przedziału. Innymi słowy przedziały kwantyzacji powinny być mniejsze dla małych amplitud
i większe dla dużych amplitud.
Implementacja zmiennego skoku kwantyzacji może być dokonana dwojako: albo stosując
kwantyzator o nierównomiernym skoku kwantyzacji rosnącego wraz z amplitudą próbek
wejściowych, albo stosując kwantyzator równomierny, ale wcześniej przekształcając wartości
próbek sygnału kwantowanego, w taki sposób, by zmniejszyć dynamikę sygnału. W obu
przypadkach efekt końcowy będzie taki sam. Wprowadzenie kwantyzacji nierównomiernej
ma na celu zapewnienie w miarę stałego względnego błędu kwantyzacji, w całym zakresie
dynamiki sygnału. Istotne znaczenie ma wybór charakterystyki zmian skoku kwantyzacji
wraz ze zmiana amplitudy próbek, to jest wybór tak zwanej krzywej kompresji. W przypadku
sygnału mowy, krzywą najlepiej spełniającą to zadanie jest krzywa logarytmiczna C(x)
opisana następującym wzorem:
)1log(
)1log()(
xxC
Kwantyzacja adaptacyjna Większe możliwości kompresji sygnału można uzyskać, gdy skok kwantyzacji
(równomierny albo nierównomierny) jest zmieniany dynamicznie w zależności od amplitudy
próbek sygnału poddawanego kwantyzacji. Podobnie jak w przypadku realizacji
kwantyzatorów nierównomiernych także i tu osiągniecie celu jest możliwe dwoma sposobami
– albo zmieniamy skok kwantyzacji w zależności od energii sygnału, albo nie zmieniając
skoku kwantyzacji dokonujemy normalizacji amplitudy sygnału, w taki sposób by jego
dynamika była zawsze taka sama, przed podaniem próbki na wejście kwantyzatora.
Dane przesyłane do odbiornika (dekodera) powinny zawierać kolejne indeksy przedziałów
kwantyzacji. Informacja o aktualnych parametrach kwantyzatora musi być znana w
odbiorniku. Możliwe jest jej przesyłanie, z każdym razem, gdy parametry kwantyzatora się
zmieniają i wtedy mamy do czynienia z adaptacją w przód. Inne rozwiązanie opiera się na
wyznaczaniu w odbiorniku parametrów kwantyzatora na podstawie energii odebranych
próbek Jest to adaptacja wstecz.
Kwantowanie skalarne i wektorowe Dotychczas omawialiśmy metody kwantowania skalarnego, to znaczy takie, w których
analogowej wartości próbki (skalarowi) przypisywana jest jedna wartość ze skończonego
zbioru - również wartość skalarna. Kwantyzatory wektorowe operują wektorami a nie
skalarami. Zarówno próbka kwantowana, jak i wynik kwantyzacji są wektorami, ogólnie
wektorami z przestrzeni N-wymiarowej.
Podstawową trudnością projektowania kwantyzatorów wektorowych jest określenie
komórek oraz położenia centroidów, tak by zminimalizować błąd kwantyzacji. Zauważmy, że
błąd kwantyzacji jest nieco inaczej definiowany niż w kwantyzacji skalarnej. Najczęściej
stosowaną jego miarą jest błąd kwadratowy:
N
i
ii xxxxd1
2)(),(
Jedną z metod projektowania kwantyzatorów wektorowych jest metoda klastrowa, zwana
również metodą LBG.
Próbkowanie Reprezentacja cyfrowa sygnału analogowego wymaga wykonania dwóch operacji:
próbkowania i kwantowania. Próbkowanie polega na zastąpieniu sygnału analogowego
sekwencją próbek pobieranych w jednakowych, bądź niejednakowych odstępach czasu. W
jednym i drugim przypadku sygnał po spróbkowaniu nazywa się sygnałem dyskretnym. Jego
próbki mają taką samą amplitudę, jak sygnał pierwotny w chwili próbkowania. Ze względów
praktycznych najczęściej stosuje się próbkowanie równomierne, w którym próbki są
pobierane z sygnału regularnie w ostępach czasu Tp, czyli częstotliwość próbkowania fp,
wynosi: p
pT
f1
. Okazuje się, że powrót do analogowej postaci sygnału, bez wprowadzenia
w nim jakichkolwiek zniekształceń jest możliwe. Podstawowe znaczenie ma wybór
częstotliwości próbkowania. Częstotliwość ta powinna spełniać twierdzenie o próbkowaniu, z
którego wynika, że:
Bf p 2 ,
gdzie: B oznacza szerokość pasma częstotliwościowego sygnału analogowego.
Twierdzenie o próbkowaniu nazywane jest również twierdzeniem Nyquista, twierdzeniem
Shannona lub twierdzeniem Kotielnikowa. Połowa częstotliwości próbkowania jest nazywana
częstotliwością Nyquista. Podane wymaganie na częstotliwość fp wymaga komentarza. Często
podaje się powyższy wzór z nierównością nieostrą ( ). Łatwo wykazać, ze tak być nie
może. Na przykład, jeżeli próbkujemy sygnał sinusoidalny o częstotliwości f0 i częstotliwości
fp =2f0, to może się zdarzyć, że wszystkie próbki będą miały wartość zerową (rys.2.4). Z
próbek o wartości zerowej nie możemy odtworzyć sygnału sinusoidalnego. Druga uwaga
dotyczy szerokości pasma sygnału próbkowanego. Najczęściej podając twierdzenie o
próbkowaniu przyjmuje się, że częstotliwość próbkowania powinna być dwukrotnie większa
od największej częstotliwości składowej fmax sygnału próbkowanego. Tak by było, gdyby
sygnał zajmował pasmo od zera do wspomnianej częstotliwości, wtedy B=fmax. Jeżeli sygnał
zajmuje pasmo z przedziału [fmin ; fmax], to może on być próbkowany z częstotliwością:
)(2 minmax fff p , a nie z częstotliwością max2 ff p . Do odtworzenia postaci analogowej
sygnału trzeba jednak dodatkowo znać częstotliwość minf , albo maxf .
Rys.2.4. Ilustracja procesu próbkowania
Cyfryzacja sygnału telefonicznego Szczególne znaczenie i wpływ na współczesną teleinformatykę miała cyfryzacja sygnału
mowy na potrzeby przesyłania go w sieci telefonicznej. Pasmo sygnału telefonicznego
zawiera się w zakresie od 300 Hz do 3,4 kHz. Wystarczyło by zatem próbkować ten sygnał z
częstotliwością niewiele większą od 3,1 kHz. Ponieważ jednak, filtry ograniczające pasmo
sygnału nie działają idealnie, a także z innych powodów, związanych z rozwiązaniami
przyjętymi w systemach teletransmisyjnych zdecydowano się przyjąć częstotliwość
próbkowania fp równą 8 kHz. Przed określeniem liczby poziomów kwantyzacji
przeprowadzono badania i okazało się, że gdy użyjemy 256 poziomów kwantyzacji, to szum
kwantyzacji jest wtedy na tyle mały, że nie ma istotnego wpływu na wrażenia percepcyjne po
przywróceniu sygnałowi postaci analogowej.
Przykład
[Klikając na ikonę PCM64 możesz posłuchać sygnału mowy próbkowanego z
częstotliwością 8 kHz i kwantowanego z użyciem 256 poziomów kwantyzacji]
Ponieważ do zapisania w postaci binarnej każdego z 256 poziomów wystarczy 8 bitów
( )25628 . Zatem przepływność binarna sygnału mowy wynosi 64 kbit/s (8 kHz . 8 bitów).
Wielokrotności tej przepływności, jak również jej wybrane podwielokrotności są typowymi
przepływnościami stosowanymi, nie tylko do transmisji sygnału mowy. Na przykład typowe
przepływności binarne w systemach dostępu do sieci Internet wynoszą 128 kbit/s, 256 kbit/,
512 kbit/s itd., a więc odpowiednio 2, 4, 8 razy przepływność 64 kbit/s.
Kodowanie sygnału mowy Techniki kodowania sygnału mowy w celu jego kompresji rozwijały się przez wiele lat ze
względu na niewystarczające możliwości transmisyjne wielu systemów telekomunikacyjnych.
Po raz pierwszy z problemem oszczędnego wykorzystywania dostępnych zasobów
transmisyjnych stykamy się już w analogowych systemach telefonicznych wykorzystujących
kable podmorskie. Przyjęto wtedy rozwiązanie oparte na wykrywaniu przerw w mówieniu
(ciszy), ich usuwaniu w nadajniku i odtwarzaniu w odbiorniku, dzięki czemu uzyskano
możliwość jednoczesnego przesyłania większej liczby rozmów. Rozwiązanie tp znalazło
również zastosowanie w telefonii międzynarodowej, a w wersji cyfrowej, na przykład w
systemach satelitarnych. Kodowanie kompresyjne to nie tylko zawężanie pasma sygnału czy
eliminacja ciszy – to także techniki kodowania sygnału mowy, który wcześniej poddany
został cyfryzacji, a więc techniki, które pozwalają zmniejszyć przepływność binarną sygnału.
Wszystkie techniki kodowania kompresyjnego sygnału mowy– szerzej sygnałów odbieranych
przez zmysł słuchu i wzroku – są technikami kodowania stratnego. Ich praktyczne
wykorzystanie jest możliwe dzięki, tak zwanej redundancji sygnału mowy. Sygnał mowy
zawiera informacje mało istotne, albo zupełnie nieistotnych z punktu widzenia słuchacza i
celu kompresji, które można z niego usunąć. Wiemy już, że pasmo sygnału mowy można
znacząco ograniczyć, usunąć z niego ciszę, kwantować, stosując 256 poziomów kwantyzacji,
a mimo to akceptujemy jego jakość, gdy jest to sygnał telefoniczny. Na pewno jednak nie
uznalibyśmy jego jakości za wystarczająco dobrą, gdyby był on nagrany na płytę CD.
Opracowano wiele różnych metod kodowania kompresyjnego cyfrowego sygnału mowy z
myślą o zastosowaniach telekomunikacyjnych. Ich praktyczne implementacje nazywane
kodekami (koder i dekoder) mogą być zarówno hardwareowe, jak i softwareowe. Najprostsze
kodeki to zwykłe przetworniki A/C, nazywane kodekami PCM (modulacja impulsowo-
kodowa). Bardziej skomplikowane rozwiązanie to, tak zwana różnicowa modulacja kodowo-
impulsowa DPCM. W koderach PCM każda bieżąca próbka jest kodowana niezależnie od
wcześniejszych i późniejszych próbek sygnału. Tymczasem, nawet pobieżna obserwacja
przebiegi czasowego mowy pozwala zauważyć w nim pewną powtarzalność. Nie powinno to
nas dziwić, jeżeli uzmysłowimy sobie, że wypowiadane głoski mają pewien czas trwania
(najczęściej rzędu kilkudziesięciu milisekund). Z dużym przybliżeniem można powiedzieć, że
cechy sygnał w trakcie trwania głoski, a przynajmniej w jej stacjonarnej części, niewiele się
zmieniają. Jeżeli sygnał jest próbkowany z częstotliwością 8 kHz, to w czasie, np. 50 ms
mamy 400 jego próbek. To, że przez cały czas trwania głoski słyszymy i rozpoznajemy ja
jako tę właśnie głoskę oznacza, że próbki mowy są ze sobą skorelowane (zależne jedna od
drugiej). Dotyczy to nie tylko głosek dźwięcznych, gdzie powtarzalność przebiegu jest
spowodowana okresowością drgań strun głosowych i zauważalna w ich przebiegu czasowym,
ale również głosek bezdźwięcznych, których przebiegi nie wykazują wizualnie
powtarzalności. Korelacja pomiędzy próbkami pozwala w przybliżeniu określić amplitudę
bieżącej próbki na podstawie pewnej liczby próbek wcześniejszych albo próbek
następujących po próbce bieżącej. Schemat kodera i dekodera DPCM jest pokazany na rys.
2.5..
Rys. 2.5. Schemat blokowy kodera DPCM.
Amplituda x(n) każdej bieżącej (wejściowej) próbki sygnału mowy jest porównywana z
amplitudą )(~
nx dla niej przewidywaną, w bloku, tak zwanego predyktora. W kwantyzatorze
jest kwantowany nie sygnał wejściowy, ale błąd predykcji r(n) definiowany następująco:
)()()(~
nxnxnr
Błąd predykcji ma z reguły dużo mniejszą amplitudę niż sam sygnał, a zatem może być
kodowany za pomocą mniejszej liczby bitów. Na wejście predyktora podawany jest sygnał
błędu predykcji oraz przewidywana próbka sygnału mowy
Rozszerzenie modulacji DPCM o techniki adaptacji skoku kwantyzacji, o których
mówiliśmy wcześniej prowadzi do kodowania ADPCM. Typowe przepływności binarne
kodera ADPCM to 16-32 kbit/s.
Rys. 2.6. Schemat blokowy kodera ADPCM.
W telefonii GSM oraz technice VoIP dominują obecnie kodery CELP (Code Excited
Linear Prediction). Koder CELP łączy dwie efektywne techniki kompresji: kwantowanie
wektorowe i liniową predykcję. Sygnał mowy na wyjściu dekodera (x*) powstaje przez
filtrację wektorów sygnału pobudzenia jc , pomnożonych przez odpowiedni współczynnik
wzmocnienia Gc. Wektory te, w koderach GSM, składają się z 40 próbek sygnału. Jako sygnał
pobudzenia stosuje się również sygnał opóźniony, co pozwala na odtworzenie sygnałów
mowy dźwięcznej, o charakterze zbliżonym do okresowego.
Rys.2.7 Koder CELP (jeżeli pominie się sumator po prawej stronie, otrzyma się dekoder
CELP).
Otrzymany w ten sposób wektor jci
p cGG * filtruje się z wykorzystaniem filtru
predykcyjnego H. Filtr ten adaptuje się do kodowanego sygnału x, nadając sygnałowi x*,
który powstaje na wyjściu odbiornika, odpowiedni kształt widmowy. Typowe przepływności
binarne kodera CELP zawierają się między 4kbit/s a 16 kbit/s.
Niższe przepływności binarne wymagają zastosowania kodera parametrycznego, tzw.
wokodera. W tego typu urządzeniu nie dąży się do dokładnego odtworzenia fali akustycznej,
a jedynie do wygenerowania sygnału o widmie zbliżonym do widma sygnału mowy.
Rys.2.8 Uproszczony schemat syntezy mowy w wokoderze - d=1: mowa dźwięczna, d=0:
mowa bezdźwięczna, T0 - okres tonu krtaniowego (okres drgań strun głosowych)
Sygnałami pobudzającymi zmienny w czasie filtr H (podobny do filtru stosowanego w
koderze CELP) są impulsy symulujące działanie krtani oraz szum wykorzystywany do
generowania mowy bezdźwięcznej. Do przeprowadzenia syntezy mowy wystarcza
aktualizacja parametrów filtru (dzięki temu możemy generować różne głoski), informacja o
dźwięczności mowy, oraz (dla mowy dźwięcznej) okres tonu krtaniowego. Przesyłanie tych
parametrów wymaga szybkości transmisji od kilkuset do około 2500 bit/s.
2.4. Kodowanie sygnałów audio
Kodery szerokopasmowych sygnałów fonicznych najczęściej operują w dziedzinie
częstotliwości. Podział skali częstotliwości na podpasma pozwala na wykorzystanie innego
kwantyzatora w każdym z podpasm. Każdy z tych kwantyzatorów adaptuje się do amplitudy
przetwarzanego sygnału pasmowego (amplitudy mogą się bardzo różnić) i może pracować z
różną rozdzielczością (różna liczba bitów na kwantowanie próbki sygnału). Pozwala to na
zmniejszenie błędu kwantyzacji (postrzeganego jako szum) i na „ukrycie” (zamaskowanie)
widma szumu kwantyzacji widmem sygnału audio. Redukcja objętości sygnału jest możliwa
właśnie dlatego, że słuch człowieka nie jest doskonały. Najogólniej można powiedzieć, że
człowiek nie słyszy pewnych dźwięków w obecności innych. Jest to tak zwany efekt
maskowania (będzie o tym mowa w dalszej części tekstu). Niesłyszalne są dźwięki słabe
występujące w sąsiedztwie dźwięków mocnych o zbliżonych częstotliwościach – maskowanie
w dziedzinie częstotliwości. Czasami niesłyszalne są również dźwięki o różniących się
znacznie częstotliwościach, jeżeli dźwięk o małym natężeniu występuje bezpośrednio przed
(maskowanie wstecz) albo po (maskowanie wprzód) dźwięku o dużym natężeniu.
Wrażliwość na dźwięki zależy również od ich częstotliwości i natężenia. Dźwięki o zbyt
małym natężeniu nie są w ogóle słyszalne.
Ogólny schemat typowego kodera i dekodera sygnału audio pokazano na rys.2.9.
Rys.2.9. Schemat kodera i dekodera sygnału audio
Za pomocą transformaty (najczęściej wykorzystywana jest dyskretna transformata
cosinusoidalna DCT) lub zestawu filtrów pasmowych otrzymuje się sygnały pasmowe, z
których każdy kwantowany jest z wykorzystaniem innego kwantyzatora. Rozdziału bitów
pomiędzy kwantyzatory dokonuje się tak, aby zmniejszyć moc błędu kwantowania całego
sygnału lub tak, aby zamaskować szum kwantyzacji (analiza psychoakustyczna).
Rys.2.10. Zmniejszenie mocy szumu kwantyzacji po zastosowaniu odrębnych kwantyzatorów
w podpasmach częstotliwości
Pojedynczy kwantyzator, jeśli jest dobrze dopasowany do sygnału, generuje błąd kwantyzacji
na poziomie około 6b decybeli niższym od mocy kwantowanego sygnału (b – liczba bitów na
skwantowanie jednej próbki). Szum kwantyzacji jest sygnałem nieskorelowanym i ma dość
płaskie widmo, w związku z tym nie jest dobrze zamaskowany widmem sygnału audio
(rys.2.10 po lewej). Podział skali częstotliwości na podpasma pozwala na dokonanie adaptacji
zakresu pracy kwantyzatorów do różnych amplitud sygnałów podpasmowych (rys.2.10 w
środku). Dalsze obniżenie szumu kwantyzacji jest możliwe dzięki nierównomiernemu
rozdziałowi bitów pomiędzy kwantyzatory (rys.2.10 po prawej).
Uwzględnienie zjawiska maskowania szumu kwantyzacji przez sygnał audio wymaga
obliczenia tzw. krzywej maskowania (lub progu maskowania), który jest funkcją
częstotliwości i wskazuje największą moc zakłócenia, które jest jeszcze niesłyszalne w
obecności sygnału audio (będzie o tym mowa w dalszej części tekstu). Bity rozdziela się w
taki sposób, aby widmo szumu kwantowania znalazło się pod krzywą maskowania.
Koder MP3 Koder MP3 koduje sygnał zapisany w formacie wave (pliki .wav), w taki sposób by
znacząco zredukować rozmiar pliku zajmowanego przez sygnał, nie powodując istotnej utraty
jakości sygnału. W formacie wave sygnał jest próbkowany z częstotliwością 44,1 kHz , każda
jego próbka reprezentowana za pomocą sekwencji 16 bitowej, a więc plik z jednosekudowym
sygnałem stereofonicznym plik zajmuje aż 1,4112 Mbit. Koder MP3 wykorzystuje analizę
psychoakustyczną (Rys.2.11). Dzieli sygnał na interwały czasowe, a ponadto pasmo
zajmowane przez sygnał dzieli na 32 podpasma, które w kolejnym etapie są dzielone, z
wykorzystaniem zmodyfikowanej transformaty kosinusoidalnej (MDCT), na 18 części, co w
sumie daje 576 wąskich podpasm. W każdym interwale eliminuje dźwięki o bardzo dużych i
bardzo małych częstotliwościach. Ponadto eliminuje dźwięki maskowane (niesłyszalne, albo
słabo słyszalne). W niektórych segmentach sygnału audio kodowana jest tylko niewielka
część podpasm (Rys.2.12). Dodatkowo dla sygnałów stereofonicznych koduje się ich różnicę
i sumę, a nie każdy kanał osobno. Dzięki temu uzyskuje się przeciętnie 10-12 krotne
zmniejszenie objętości pliku w stosunku do pliku wave.
Rys.2.11 Schemat kodera MPEG1 Audio, layer3 (MP3)
Filtry Subpasmowe
Model Psychoakustyczny
MDCT
FFT
Zewnętrzna Pętla Kontroli Zniekształceń
Wewnętrzna Pętla Sterowania Prędkością
Kodowanie Huffmana
Informacje Dodatkowe
Formatowanie strumienia
Pętla Powtórzeń
Sygnał Audio (PCM)
Przełączanie Okna
32 pasma
Zakodowany Sygnał Audio
576Współ.
Rys.2.12. Widmo sygnału audio krzywa maskowania i kwantowane podpasma [Toczko]
Przykład [Odsłuchaj dwa pliki dźwiękowe klikając na ikony Wave (standard wave) i MP3 (koder
MP3). Porównaj jakość. Czy zauważasz różnicę?]
2.5. Kodowanie obrazów
Kodowanie obrazów nieruchomych Najpopularniejszym standardem kompresji obrazów nieruchomych (np. zdjęć
fotograficznych, rysunków, obrazów graficznych) jest standard JPEG. Jego nazwa pochodzi
od akronimu nazwy międzynarodowego zespołu ekspertów (Joint Photographics Experts
Group) powołanego przez kilka organizacji międzynarodowych. Wynikiem prac zespołu jest
opublikowany w 1991 roku standard JPEG.
Standard JPEG wyróżnia dwa tryby kodowania: bezstratny i stratny. Tryb bezstratny polega
na kodowaniu predykcyjnym DPCM oraz wykorzystywaniu kodu Huffmana albo kodu
arytmetycznego. W trybie bezstratnym uzyskuje się średnio stopień kompresji 2. Tryb stratny
pozwala osiągnąć dużo wyższy średni stopień kompresji 10÷20. Opiera się on na
wykorzystaniu dyskretnej transformaty kosinusowej DCT, zróżnicowanym kodowaniu jej
współczynników, a następnie, tak jak w trybie bezstratnym, użyciu jednej z metod kodowania
bezstratnego.
Obraz źródłowy to zbiór, tak zwanych pikseli równomiernie rozmieszczonych w przestrzeni
dwuwymiarowej Piksel to najmniejszy element cząstkowy obrazu. Każdy piksel jest
określany za pomocą zestawu komponentów. Mogą to być różne komponenty. Najczęściej
stosuje się dwa następujące zestawy komponentów:
zestaw kolorów podstawowych RGB (czerwony-Red, zielony-Green i niebieski-Blue);
Jasność, barwa i nasycenie (luminancja i chrominancja).
W koderze JPEG obraz źródłowy jest dzielony na bloki o wymiarze 8x8 pikseli, które
podlegają kodowaniu kompresyjnemu. Dla każdego bloku i każdego komponentu osobno jest
obliczana 64 punktowa transformata DCT. W wyniku wykonanych obliczeń dla każdego
bloku i każdego komponentu otrzymujemy 64 współczynniki transformaty (liczby
rzeczywiste). Współczynniki DCT są następnie kwantowane. Najczęściej po kwantowaniu
wiele współczynników ma wartość zerową, dzięki czemu stosując jedną z metod kodowania
bezstratnego uzyskuje się duży stopień kompresji.
W koderze JPEG obraz źródłowy jest dzielony na bloki o wymiarze 8x8 pikseli, które
podlegają kodowaniu kompresyjnemu. Dla każdego bloku i każdego komponentu osobno jest
obliczana 64 punktowa transformata DCT. W wyniku wykonanych obliczeń dla każdego
bloku i każdego komponentu otrzymujemy 64 współczynniki transformaty (liczby
rzeczywiste). Współczynniki DCT są następnie kwantowane. Najczęściej po kwantowaniu
wiele współczynników ma wartość zerową, dzięki czemu stosując jedną z metod kodowania
bezstratnego uzyskuje się duży stopień kompresji.
Przykład [Obejrzyj trzy kolejne obrazy klikając na ikony o nazwach JPEG512, JEPG64 i JPEG32
Pierwszy plik ma rozmiar 5 Mbit, drugi 64 kbit i trzeci 32 kbit. Wyciągnij wnioski]
JPEG512
JPEG512
JPEG512
Kodowanie obrazów ruchomych Kompresja obrazów ruchomych opiera się na:
Zmniejszeniu rozdzielczości obrazu: format CIF (4:1), format QCIF (16:1).
Zmniejszeniu częstotliwości próbkowania;
Zmniejszeniu liczby poziomów kwantyzacji;
Zmniejszenie częstotliwości ramkowania (zmniejszenie liczby klatek w czasie);
Kompresji obrazu w ramce;
Redukcji informacji z ramki na ramkę;
Estymacji ruchu.
Jedną z najczęściej stosowanych metod kompresji obrazów ruchomych jest metoda opisana w
standardzie MPEG. Podobnie, jak w przypadku standardu JPEG nazwa standardu wywodzi
się od akronimu nazwy grupy ekspertów (Moving Picture Experts Group) powołanych do
opracowania standardu kompresji obrazów ruchomych. Owocem pracy tej grupy był standard
MPEG-1, opracowany już w 1990 roku, a następnie standardy MPEG-2 (1991), MPEG-4
(1998) i MPEG-7 (2006).
Strumień danych MPEG można podzielić na dwie grupy;
Grupa danych systemowych zawierająca informacje o synchronizacji czasu w celu
odpowiedniego ich połączenia w procesie dekodowania.
Dane skompresowanego obrazu i dźwięku.
Sekwencja wideo składa się z nagłówka, grupy obrazów i znacznika końca sekwencji wideo.
Każdy obraz to trzy macierze opisujące składowe luminancji i chrominancji. W procesie
kodowania obraz dzieli się na plastry zawierające kolejne makrobloki ułożone z lewej strony
na prawą i z góry na dół. Makroblok to macierz 16x16 współczynników luminancji i macierze
8x8 współczynników chrominancji. W przypadku sekwencji wideo kolejne obrazy najczęściej
niewiele się między sobą różnią. Zatem nie ma potrzeby pełnego kodowania każdej klatki
(obrazu). Różnice pomiędzy obrazami dotyczą zwykle występujących na nich obiektach
ruchomych. Chcąc zminimalizować ilość informacji należy wyznaczyć kierunek ruchu
obiektów w obrazie, skompensować ten ruch, a następnie zakodować różnicę między
obrazami punkt po punkcie. Wyznaczanie ruchu obiektów jest dokonywane na bazie
makrobloków. Dla każdego makrobloku w obrazie aktualnym jest poszukiwany najbardziej
podobny do niego makroblok w obrazie poprzednim. Informacja o kierunku ruchu
makrobloku (wektor ruchu) jest przesyłana do dekodera. W koderze makrobloki koduje się
korzystają z metod predykcyjnych. Jeżeli kierunek ruchu jest poprawnie określony to
kodowanie błedu predykcji wymaga mniejszej liczby bitów niż kodowanie oryginalnego
obrazu. Wyróżnia się trzy typy obrazów:
Obrazy wewnętrzne (I) zakodowane z wykorzystaniem informacji zawartych tylko w nich
samych;
Obrazy prognozowane (P), zakodowane z wykorzystaniem informacji o najbliższym
poprzednim obrazie I albo P. Jest to, tak zwane przewidywanie wprzód. Obrazy
dwukierunkowo prognozowane (B), to znaczy takie, których kodowanie wykorzystuje
obrazy będące zarówno poprzedzające jak i następujące po obrazie B . Obrazów B nie
używa się nigdy jako obrazy odniesienia. Takie dwukierunkowe przewidywanie
umożliwia bardzo wydajną kompresję bez powielania (propagacji) błędów, które może
mieć miejsce w przypadku wykorzystywania obrazów P. Obrazy B odtwarza się
poprzez interpolację danych z dwóch sąsiednich obrazów typu I lub P (jednego
poprzedzającego i jednego następującego).
Średni stopień kompresji w standardach MPEG wynosi od kilkudziesięciu do stu (?) razy.
Oprócz kodeków MPEG stosowane są inne standardy, np. H.263.
Przykład [Klikając kolejno na ikony o nazwach Klip, Klip 128 i Klip 32 obejrzyj ten sam wideo klip, ale
najpierw w wersji oryginalnej, następnie po kodowaniu koderem MPEG-4 z przepływnością
128 kbit/s i 32 kbit/s. Wyciągnij wnioski]
3. Subiektywne metody badania jakości
W tej części pracy omówiono metody subiektywne badania jakości mowy, sygnałów
audio i obrazów ruchomych. Należy podkreślić, że metody subiektywne, angażujące grupę
odbiorców, są podstawowym narzędziem służącym do kalibracji pozostałych metod oceny
jakości. Są one jednocześnie najbardziej kłopotliwe w stosowaniu, gdyż wymagają
zorganizowania sformalizowanych i czasochłonnych badań eksperymentalnych .
3.1. Subiektywne metody badania jakości mowy
3.1.1. Kategoryzacja
Subiektywne metody badania jakości mowy sprowadzają się do bezpośredniego
wykorzystania w eksperymencie osób, których zadaniem jest - na podstawie wrażeń
słuchowych. określenie cech mowy pozwalających bezpośrednio lub pośrednio oszacować jej
jakość. Na rys. 3.1 pokazano schematycznie strukturę, w jakiej przeprowadza się testy
subiektywne.
Rys. 3.1. : Struktura, w której przeprowadza się testy subiektywne
Osoby biorące udział w ocenie jakości mowy mają za zadanie ocenić mowę w ramach
przyjętej kategorii. W testach subiektywnych używanych jest kilka typów kategorii. I tak da
się wyróżnić następujące kategorie: bezwzględną, porównawczą i degradacyjną. W każdym
przypadku osoba oceniająca jakość mowy przypisuje jej ocenę według przyjętej skali
punktowej. Oceny następnie uśrednia się, otrzymując wartość MOS – Mean Opinion Score.
W tabeli 2 przedstawiono skale punktowe dla wyżej wymienionych kategorii.
Tabela 2: Skala punktacji dla poszczególnych typów kategoryzacji
Punktacja Kategoryzacja
Bezwzględna Porównawcza Degradacyjna
5
4
3
2
1
0
-1
-2
-3
Jakość Porównanie jakości Pogorszenie jakości
Doskonała
Dobra
Zadowalająca
Słaba
Zła
-
-
-
-
-
-
Dużo lepsza
Lepsza
Nieznacznie lepsza
Jednakowa
Nieznacznie gorsza
Gorsza
Dużo gorsza
Niezauważalne
Nie przeszkadzające
Lekko przeszkadzające
Przeszkadzające
Bardzo przeszkadzające
-
-
-
-
3.1.2. Testy konwersacyjne
W tym teście, dwóch jego uczestników (osoby przypadkowe, nie związane z personelem
technicznym laboratorium, ani pomiarami jakości mowy) znajduje się w odrębnych kabinach
o ściśle określonych gabarytach, umieszczonych w laboratorium badawczym. Pomiędzy
kabinami jest łączność telefoniczna. Parametry połączenia telefonicznego są modelowane.
Zadaniem osób prowadzących rozmowę jest ocena jej jakości w skali 5-punktowej oraz
udzielenie binarnej odpowiedzi na pytanie: czy występowały trudności w trakcie rozmowy?
Dodatkowo mierzony jest poziom odbieranych sygnałów oraz czas trwania rozmowy. Na
podstawie oceny rozmówców określa się wartość MOS.
3.1.3. Testy odsłuchowe
Testy odsłuchowe nie uwzględniają wszystkich czynników występujących w trakcie
korzystania z łączności telefonicznej. Niemniej są one wygodne na przykład w fazie
opracowywania nowego systemu lub kodera mowy. Sygnał mowy jest wcześniej rejestrowany
w pamięci komputera, a w czasie testu odczytywany i przesyłany przez badany system.
Lektorzy biorący udział w przygotowaniu nagrań muszą spełniać odpowiednie wymagania. W
teście odsłuchowym mowa podlega ocenia według skali bezwzględnej przez grupę słuchaczy.
Do najważniejszych subiektywnych metod oceny jakości transmisji mowy obecnie zalicza
się te metody, które dają ocenę bezpośrednią MOS w pięciostopniowej skali jakości. Są to
następujące metody:
ACR – Absolute Category Rating,
DCR – Degradation Category Rating Ocenę jakości można uzyskać też pośrednio, poprzez
pomiary wyrazistości i zrozumiałości:
metoda DRT – Diagnostic Rhyme Test,
metoda MRT – Modified Rhyme Test.
Integralną częścią metody – niezależnie od sposobu dojścia do oceny MOS – winna być
miara odniesienia pozwalająca na porównanie i uśrednienie wyników MOS uzyskanych
różnymi sposobami, w różnych ośrodkach i dla różnych języków.
Metoda ACR, polegająca na bezpośrednim określeniu jakości mowy w pięciostopniowej
skali ocen jest obecnie najczęściej stosowana, gdyż pozwala na stosunkowo szybki i tani (jak
na metody subiektywne) pomiar. Umożliwia to przeprowadzenie badań dla wielu obiektów z
różnymi wartościami parametrów wpływających na jakość transmisji lub kodowania.
Dodatkowo metoda ACR jest unormowana w zaleceniach ITU-T P.800 [P.800]. Wadą
metody jest brak precyzji w zdefiniowaniu zadania dla grupy odsłuchowej i naturalna
niezdolność słuchaczy do stabilnej i powtarzalnej oceny w skali punktowej takiej cechy, jak
„jakość transmisji mowy”. Jest tu więc konieczne wykonanie pomiaru dla licznej ekipy
słuchaczy (większej od 12), kilku głosów po stronie nadawczej, staranne przeszkolenie i
trenowanie słuchaczy. W tej metodzie wykorzystywane są listy testowe złożone z prostych,
krótkich, nie związanych z sobą semantycznie zdań. Lista podzielona jest na grupy złożone z
pięciu zdań. Zdania nie powinny być zbyt krótkie, jak również zbyt długie; powinny trwać 2-
3 s. Słuchacze, po wysłuchaniu grupy zdań podają swoja opinię w pięciostopniowej skali
jakości odsłuchu, wysiłku słuchowego lub preferowanej głośności. Ocena 5 odpowiada
bardzo dobrej jakości, natomiast 1 – niedostatecznej. Ocena średnia (MOS) obliczana jest dla
każdego badanego warunku transmisji mowy oraz dla każdej skali ocen, jako wynik
uśrednienia po słuchaczach i mówcach.
Metoda DCR, także unormowana zaleceniami ITU-T P.800 [P.800], jest alternatywnym
rozwiązaniem dla metody ACR. Pomiar polega na porównaniu wzorcowego sygnału mowy o
wysokiej jakości z sygnałem przesłanym przez badany kanał telekomunikacyjny. Sygnał
wzorcowy prezentowany jest zawsze jako pierwszy. Słuchacze określają stopień pogorszenia
jakości sygnału badanego w stosunku do sygnału wzorcowego w pięciostopniowej skali ocen.
Pomiar wykonywany jest dla licznej ekipy słuchaczy i kilku mówców (podobnie jak w
metodzie ACR). Ocena średnia (DMOS) obliczana jest dla każdego badanego warunku
transmisji mowy oraz dla każdej skali ocen, jako wynik uśrednienia po słuchaczach i
mówcach.
W metodach opartych o testy DRT/MRT materiałem testowym jest zbiór słów
jednosylabowych różniących się najczęściej między sobą początkową lub końcową głoską.
Miarą oceny jakości mowy jest – podobnie jak w metodach wyrazistościowych – stosunek
poprawnie odebranych jednostek do liczby jednostek nadanych . Zbiór jednostek testowych
jest najczęściej ograniczony i nieliczny (np. 6 jednostek), natomiast dla danego pomiaru
jednostki są prezentowane słuchaczom wielokrotnie w losowej kolejności. Głoski różnicujące
zbiór testowy dobierane są z tej samej grupy artykulacyjnej (typowy jest tu zbiór głosek
zwartych: p, d, t, d, k, g).
Testy DRT/MRT różnią się od metod wyrazistościowych liczebnością zbioru testowego,
brakiem zrównoważenia fonematycznego i strukturalnego materiału testowego oraz
możliwością (wykluczoną w metodach wyrazistościowych) wielokrotnego powtarzania tej
samej jednostki.
3.1.4. Badanie wyrazistości
Jedną z częściej używanych w Polsce subiektywnych metod oceny jakości mowy jest
badanie wyrazistości. Metoda ta nie daje pełnej informacji o jakości a jedynie uwzględnia
aspekt rozumienia wypowiadanych jednostek akustycznych takich jak: logatomy, sylaby,
wyrazy czy zdania. Najczęściej badania te dotyczą wyrazistości logatomowej. Logatomy to
nic nie znaczące w danym języku wyrazy (jedno-, dwu- lub trzysylabowe). Rozpoznanie
logatomu jest zatem wyłącznie wynikiem usłyszenia wszystkich wchodzących w jego skład
fonemów, a nie skojarzenia ze znanym wyrazem lub analizy kontekstowej. Pomijając kwestie
proceduralne można powiedzieć, że badanie wyrazistości logatomowej polega na określeniu
procentowym stosunku poprawnie rozpoznanych przez N słuchaczy logatomów z L do
całkowitej liczby logatomów odczytanych.
N
n
L
l
lnWNLW1 1
,
1)(
(1)
W podanym wzorze Wn,l oznacza liczbę poprawnie rozpoznanych logatomów przez n-
tego słuchacza z l-tej listy w stosunku do liczby logatomów odczytanych z tej listy.
Szczegółowy opis metody podaje polska norma [PN-90].
3.2. Subiektywne metody badania jakości obrazów ruchomych
W wyniku kompresji i rekonstrukcji, a także wskutek utraty transmitowanych pakietów,
obraz ruchomy ulega zniekształceniu i nakładają się na niego zakłócenia. Te niekorzystne
zjawiska zależą od rodzaju kodeka, przepływności binarnej (stopnia kompresji), samego
obrazu, stopy utraconych pakietów. Najczęściej występują następujące zniekształcenia i
zakłócenia:
efekty blokowe, wynikające z zastosowania kompresji w blokach, np. 8x8 pikseli –
obserwator zauważa granice bloków
„przytrzymanie” obrazu, wskutek podstawienia ostatniej poprawnie zdekodowanej ramki
za szereg niepoprawnie zdekodowanych ramek (występuje przy dużych zakłóceniach w
kanale transmisyjnym i zbyt niskiej przepływności kanału)
chwilowy zanik obrazu lub jego części, często połączony z pojawieniem się na ekranie
kolorowej tekstury – występuje przy b. dużych zakłóceniach
nieciągłość ruchu, związana z nazbyt wielką kompresją obrazu
zniekształcenia konturów (nieostrość, załamania, poruszanie się, a także wystąpienie
„fałszywych konturów”) – wynik kompresji
błędy w odtworzeniu kolorów (zmiana odcieni, nasycenie)
błędy kwantyzacji (szum typu „sól i pieprz” lub „śnieżenie”)
Wymienione czynniki charakteryzują się różną dokuczliwością dla odbiorcy. Ich wpływ
na percepcję obrazu można stwierdzić przeprowadzając subiektywne badania jakości. Ich
metodyka nie odbiega od odpowiednich badań dla mowy: stosuje się skalę MOS (najczęściej
od 1 do 5, choć proponuje się również skale 1-10 i 0-100). Odpowiednie normy określają
warunki przeprowadzania testów:
Podobnie jak w pomiarach jakości dźwięku, stosuje się tu metody ACR i DCR [P.910]. W
metodzie DCR porównuje się w niej sekwencje obrazów parami. Podczas sesji, której czas
jest ograniczony do pół godziny, osoby oceniające (obserwatorzy) oglądają serie sekwencji w
przypadkowej kolejności, parami (sekwencja bez zniekształceń a po niej sekwencja
zniekształcona). Tło na ekranie powinno być w trakcie wyświetlania sekwencji jednolite i
niezmienne. Osoba oceniająca po obejrzeniu drugiej sekwencji z pary ocenia pogorszenie jej
jakości – degradację jakości, w stosunku do sekwencji odniesienia. (Tabela 2).
Ponieważ oceny mogą się różnić, nawet u tego samego obserwatora, wskazane jest by
sekwencja obrazów badanych oceniana była wielokrotnie, w tych samych warunkach. Dzięki
temu można określić rozrzut wyników oceny pogorszenia jakości.
Na scenariusz testu są nakładane ograniczenia czasowe. Zobrazowano je graficznie na rys.
3.2. Jak wspomniano wcześniej najpierw jest pokazywana sekwencja odniesienia. Po
dwusekundowej przerwie pokazywana jest sekwencja badana. Między sekwencjami, na całym
ekranie powinien być wyświetlany jednolity obraz w kolorze szarym. Czas trwania każdej z
sekwencji powinien wynosić w przybliżeniu 10 sekund. Po wyświetleniu dwóch
porównywanych par obserwator ma do 10 sekund czasu na wystawienie oceny.
Czas oceny może być nieco skrócony albo wydłużony w zależności od prezentowanych
sekwencji.
Rys. 3.1: Przebieg oceny subiektywnej metodą DCR
W zaleceniu [P.910] przedstawiono metodę zmodyfikowaną DCR-SP. Modyfikacja
polega na równoczesnym, synchronicznym wyświetlaniu na tym samym monitorze, w dwóch
oknach par sekwencji (źródłowej i podlegającej ocenie). Tło powinno być szare, sekwencja
odniesienia powinna być zawsze wyświetlana po tej samej stronie ekranu. Zalecane jest
również powtarzanie tych samych sekwencji kilkakrotnie. Na rysunku 3.3 zilustrowano
graficznie przebieg oceny jakości za pomocą zmodyfikowanej metody DCR.
Rys. 3.2: Przebieg oceny subiektywnej zmodyfikowaną metodą DCR
Główną zaleta metody zmodyfikowanej jest skrócenie czasu trwania badań. Ma ona
jednak wady, do których zaliczyć trzeba przede wszystkim trudności w zachowaniu
koncentracji przez obserwatorów podczas całego testu, trudność w „wychwyceniu”
niewielkich różnic między obrazami, a także konieczność starannej synchronizacji prezentacji
obu sekwencji tworzących parę.
Rys.3.4 Przykładowe wyniki subiektywnych pomiarów jakości wideo przeprowadzone w
Inst, Telekomunikacji PW [Thanh]
4. Parametryczne metody badania jakości
O jakości transmitowanej mowy decyduje wiele czynników wprowadzanych w procesie
transmisji. Do niedawna istotne były jedynie tłumienie i zniekształcenie widma
częstotliwościowego w kanale transmisyjnym. Ocenie wpływu w.w. czynników na jakość
mowy służą modele: Transmission Rating (amerykański), Information Index (francuski), czy
japoński o nazwie OPINE)
Obecnie, gdy pojawiły się nowe systemy telefoniczne i systemy transmisyjne takie jak np.
analogowa lub cyfrowa telefonia komórkowa oraz możliwości zarządzania jakością konieczne
staje się udostępnienie operatorowi i projektantowi sieci telefonicznej nowych metod oceny
jakości mowy w łańcuchu telefonicznym. Opracowany w tym celu E-model, opisany w
Zaleceniu G.107 służy zarządzaniu jakością rozmów telefonicznych [G.107], a jego wariant
opisany w Zaleceniu G.113 – jakością transmisji sygnałów audio o poszerzonym paśmie. E-
model został zmodyfikowany w zaleceniach ETSI [ETS101], [ETS102].
E-model należy do metod parametrycznych, w których tworzony jest matematyczny
model uwzględniający wszystkie elementy wchodzące w skład testowanej sieci lub systemu.
Na jego podstawie obliczany jest parametr łączny. Dla szeregu wartości tego parametru
określana jest metodą subiektywną jakość mowy. Otrzymana w ten sposób krzywa
odwzorowania jest wykorzystywana do określenia, w następnych testach, jakości mowy
wyłącznie na podstawie parametru łącznego.
Wpływ strat pakietów na ocenę jakości wideo w
skali MOS dla wszystkich sekwencji
0
1
2
3
4
5
0,01 0,1 1
Straty pakietów [%]
Skala
MO
S Uśredniona ocena
MOS
Funkcja
aproksymująca
Wpływ bitowej stopy błędów na ocenę jakości wideo
w skali MOS dla wszystkich sekwencji
0
1
2
3
4
5
0,01 0,1 1
Bitowa stopa błędów [%]
Skala
MO
S
Ocena MOS w skali
uśrednionej bitowej
stopy błędów
Funkcja
aproksymująca
W E-modelu wyznacza się parametr R będący łączną miarą jakości mowy. Może on być
obliczony z następującej zależności:
AIIIRR edso
(1)
gdzie: Ro reprezentuje podstawowy stosunek mocy sygnału do mocy szumu, zależny
zarówno od poziomu sygnału jak i szumów,
Is reprezentuje zniekształcenia pojawiające się równocześnie z sygnałem mowy takie jak
szumy kwantyzacji PCM, czy sygnały wybierania tonowego,
Id reprezentuje zniekształcenia wynikające z opóźnień wnoszonych w procesie
przetwarzania i transmisji,
Ie reprezentuje transmisyjne zniekształcenia wnoszone przez urządzenia takie jak
niskoprzepływnościowe kodery, systemy DSI itp.,
A jest składnikiem korekcyjnym zależnym od specyfiki dostępu do łącza.
Nowymi elementami wprowadzonymi do E-modelu są parametry Ie oraz A. Parametr Ie
jest bezpośrednio zależny od zniekształceń wnoszonych przez kodery łańcucha. Może on być
wyrażony jako suma parametrów K poszczególnych N koderów wchodzących w jego skład:
N
n ne KI1
(2)
Wartość parametru K wynosi 0 dla kodera PCM (G.711) 64 kbit/s, 7 dla ADPCM (G.726)
32 kbit/s, 20 dla LDCELP (G.728) 16 kbit/s i 15 dla ACELP (G.729) 8 kbit/s. Wartość
składnika korekcyjnego A wynosi 0 dla tradycyjnej telefonii przewodowej, 5 dla DECT, 10
dla GSM i 20 dla telefonii satelitarnej. .
Współczynnik R może być obliczony na podstawie danych o systemach i sieciach. A
zatem bez dokonywania pomiarów można określić jakość sygnału mowy, ponieważ związek
pomiędzy parametrem R a subiektywną miarą jakość MOS jest określony (rys. 4.1)
Rys.4.1.: Zależność MOS od parametru R
W wielu ośrodkach n-b kontynuowane są prace mające na celu lepsze dopasowanie E-
modelu do nowych sposobów świadczenia usług telefonicznych, przede wszystkim VoIP
[Ding],[Carvalho]. Prowadzone są również badania mające na celu powiązanie parametru R z
innymi miarami subiektywnymi. W pracy [Trz00] pokazany jest związek pomiędzy
parametrem R a wyrazistością logatomową. Niestety model nie został dokładnie przebadany z
punktu widzenia zastosowań do sieci pakietowych i sieci o zmiennym opóźnieniu.
Model parametryczny został opracowany również dla wideotelefonii i opisany w
Zaleceniu ITU-Y G.1070. W trakcie opracowania jest Zalecenie (pod roboczą nazwą
G.OMVS) odnoszące się do IPTV. Pojawia się tu problem łącznej oceny jakości ruchomego
obrazu i towarzyszącego mu dźwięku. Oceny cząstkowe dla dźwięku MOS-A i obrazu MOS-
V są kojarzone w tzw. core model i przeliczane na ocenę łączną dla przekazu
multimedialnego MOS-MM [Taka].
5. Obiektywne metody badania jakości na poziomie mediów
5.1. Sygnał mowy
Cechą charakterystyczną obiektywnych metod oceny jakości mowy jest wyznaczanie
odległości - według przyjętej miary - pomiędzy wybranym lub wybranymi parametrami
sygnału mowy oryginalnej i sygnału przetworzonego (przesłanego), a następnie na podstawie
krzywej odwzorowania, określenie oceny w mierze subiektywnej. Na rysunku 5.1 pokazano
ogólny schemat metody obiektywnej badania jakości mowy na podstawie analizy parametrów
sygnału.
Rysunek 3.1: Schemat blokowy obiektywnej metody oceny jakości mowy opartej na analizie
parametrów sygnałów
Uwzględniony na rys.5.1 sygnał odniesienia występuje jedynie w metodach
intruzyjnych i w postaci szczątkowej – w metodach z częściowym odniesieniem. W
przypadku metod nieintruzyjnych jakość oceniana jest w oparciu o charakterystyczne
zniekształcenia pojawiające się w transmisji, np. szumy i nieciągłości przebiegu czasowego
(skutek przerw w transmisji).
5.1.1. SNR w ujęciu globalnym i segmentowym
Najprostszą miarą obiektywną jest SNR (ang. Signal to Noise Ratio), wyrażany
najczęściej w dB. Mając dane próbki frazy oryginalnej }{ nx i przetworzonej }{ *
nx oblicza się
różnicę (błąd kwantyzacji) }{ *
nnn xxe , następnie moc sygnału oryginalnego i błędu w
obrębie frazy liczącej M próbek.
M
nn
eMe
M
nn
xMx
1
212
1
212
Następnie oblicza się SNR: 2
2
log10][ 10
e
xdBSNR
Tak obliczona „globalna” wartość SNR jest bardzo wrażliwa na przesunięcie czasowe
obu fraz (potrzebna jest synchronizacja), a także na zmianę poziomu (amplitudy). Poza tym
na wartość tego wskaźnika głównie wpływają głośne fragmenty wypowiedzi, a ciche w
znikomym stopniu. Z tego względu lepszym wskaźnikiem jest SNR w ujęciu segmentowym
(Rys.5.2). Wartości SNR oblicza się w obrębie segmentów o czasie trwania krótkiej głoski
(10-20 ms), a następnie uśrednia się te wartości.
Rys.5.2 SNR w ujęciu segmentowym (Ms – liczba segmentów)
Segmentowy SNR niekiedy odbiega od ocen słuchaczy, gdyż nie uwzględnia zjawiska
maskowania szumu kwantyzacji sygnałem mowy. Z tego względu ITU-T proponuje bardziej
złożone algorytmy obiektywnej oceny jakości, uwzględniające zjawiska psychoakustyczne.
5.1.2. Metody PSQM i PESQ
W pierwszej połowie lat dziewięćdziesiątych ITU prowadziło intensywne prace
zmierzające do opracowania obiektywnej metody badania jakości mowy kodowanej. Ich
efektem było opracowanie kilku metod (PAMS, PARCEWAL, PSQM, PAQM, z których w
wyniku weryfikacji wybrano metodę nazywaną PSQM (Perceptual Speech Quality Measure).
Opisuje ją zalecenie P.861 [PSQM].
Istota metody PSQM sprowadza się do określenia odległości pomiędzy rzeczywistym
sygnałem mowy, a sygnałem otrzymanym w wyniku jej przetworzenia (głównie kodowania).
Zanim to porównanie zostanie dokonane obydwa sygnały podlegają transformacji z postaci
fizycznej na postać psychofizyczną – odzwierciedlającą przetwarzanie akustycznego sygnału
mowy przez ucho człowieka. Na operację transformacji sygnału z postaci fizycznej na postać
psychofizyczną składa się:
odwzorowanie czasowo-częstotliwościowe;
przeskalowanie częstotliwości;
przeskalowanie poziomu natężenia.
Pierwsza z operacji jest realizowana za pomocą ramkowania sygnału oknem Hanninga o
czasie trwania 32 ms (N=256 próbek w przypadku częstotliwości próbkowania 8 kHz albo
N=512 próbek przy częstotliwości próbkowania 16 kHz), a następnie obliczenia N-punktowej
krótkookresowej dyskretnej transformaty Fouriera, i na jej podstawie obliczenia
krótkookresowej mocy sygnału.
Druga z operacji ma na celu zrealizowanie filtracji za pomocą tzw. filtrów barkowych.
System słuchowy człowieka jest znany ze słabszej dyskryminacji w zakresie wysokich
częstotliwości niż w zakresie częstotliwości niskich. To, wraz ze zjawiskiem maskowania w
dziedzinie częstotliwości, doprowadziło do zamodelowania analizy dokonywanej przez ucho
ludzkie za pomocą filtrów barkowych. Model ten wymaga przetwarzania sygnałów przez
grupę takich filtrów, z odległościami częstotliwości środkowych i szerokościami pasm
rosnącymi wraz z częstotliwością. Filtry te mogą być traktowane jako krzywe przestrajania
nerwów słuchowych. Ich rozstawienie odpowiada półtoramilimetrowym odcinkom wzdłuż
membrany podstawowej. Ciągłe widmo uzyskane w wyniku tej operacji zostało nazwane
rozkładem pobudzeń, gdyż odpowiada ono rozkładowi bodźców w nerwach słuchowych.
Przeskalowanie poziomu natężenia w decybelach na poziom głośności wyrażany w
fonach, a następnie jego wyrażenie w skali sonowej ma na celu uwzględnienie faktu, że
subiektywne odczucie głośności nie zależy liniowo od poziomu natężenia sygnału (przejście
ze skali decybelowej na fonową), oraz że subiektywne wrażenie zwiększenia głośności
zmienia się nieliniowo wraz ze zmianą głośności (przejście ze skali fonowej na sonową)
[Kula01]. Maskowanie jest uwzględniane w modelu w prosty sposób. Efekt maskowania jest
brany pod uwagę tylko wówczas, gdy dwie składowe pojawiają się w tym samym czasie i
mają zbliżone częstotliwości.
Opisane pokrótce przekształcenie z wykorzystaniem modelu percepcyjnego obejmuje
zarówno sygnał oryginalny jak i sygnał przetworzony, którego jakość ma być określona.
Uproszczony algorytm metody PSQM przedstawiono na rys.5.3. Reprezentacje wewnętrzne
obu sygnałów są porównywane, a obliczona odległość między nimi (tzw. wskaźnik PSQM)
jest bezpośrednio związana z jakością testowanej mowy. Ostatnim krokiem w metodzie
PSQM jest odwzorowanie skali obiektywnej na subiektywną. Nie jest to konieczne, jeżeli
metoda jest stosowana np. do porównywania różnych typów koderów.
Metoda PSQM, choć stosunkowo prosta realizacyjnie, wiąże się z szeregiem
problemów obliczeniowych. Dotyczą one przede wszystkim obliczenia widma w skali
barkowej. Próbki widma obliczone za pomocą dyskretnej transformaty Fouriera „nie trafiają”
w próbki widma barkowego, co zmusza do stosowania interpolacji do określania ich wartości.
Rys. 5.3: Uproszczony schemat algorytmu badania jakości mowy metodą PSQM
Metoda PSQM ma symulować subiektywną percepcję mowy w warunkach
rzeczywistych. W procesie przekształcania sygnału mowy na jego psychofizyczną
reprezentację, która jest odpowiednikiem sygnału jaki dociera do mózgu, korzysta się z wielu
charakterystyk i stałych odzwierciedlających sposób percepcji dźwięku przez człowieka.
Transformacja dokonywana jest zarówno na sygnale wejściowym jak i wyjściowym z
badanego kanału telekomunikacyjnego. Miarą jakości jest wówczas odpowiednio
zdefiniowana odległość między psychofizycznymi reprezentacjami obydwu sygnałów zwana
wskaźnikiem PSQM. Wartość PSQM można przetransformować na wartość MOS, która
odpowiada subiektywnej ocenie, przy czym zależność między MOS i PSQM może być różna
dla różnych języków. Stosując metodę PSQM należy więc uwzględnić specyfikę danego
języka.
Wadą metody PSQM jest słaba korelacja otrzymywanych wyników z subiektywnymi
ocenami w przypadku telefonii internetowej. Przyczyną występowania takich rozbieżności są
zaburzenia w dziedzinie czasu (bulk delays) występujące podczas transmisji sygnału mowy w
sieciach pakietowych przeznaczonych pierwotnie do transmisji danych. Rozwiązaniem okazał
się mariaż modułu synchronizacji czasowej zaczerpnięty z metody PAMS ze standardem
PSQM. Nowo opracowaną metodę pomiaru znacznie udoskonalono i nazwano PESQ
(Perceptual Evaluation of Speech Quality). W 2001 ITU-T zaaprobowało PESQ jako nowy
standard P.862 [PESQ], który zastąpił wcześniej stosowaną metodę PSQM.
Idea pomiaru PESQ opiera się podobnie jak w przypadku PSQM, na tzw. reprezentacji
wewnętrznej będącej teoretyczną postacią sygnału mowy w umyśle człowieka. Sygnałem
wzorcowym (oryginalnym) jest nagrany sygnał mowy naturalnej – najlepiej 2 frazy dla głosu
męskiego i żeńskiego. Tak przygotowany sygnał oryginalny przesyłany jest badanym
kanałem telekomunikacyjnym tworząc na wyjściu systemu sygnał „zdegradowany”. Oba
sygnały stanowią dalej podstawę oceny. W pierwszym etapie oceniane jest opóźnienie między
próbkami i ewentualnie wprowadzana jest odpowiednia korekcja. Następnie oba sygnały
zostają poddane szeregowi transformacji modelujących poszczególne etapy przetwarzania
dźwięku w ludzkim układzie słuchowym, włączając w to przede wszystkim: specyficzną
analizę w częstotliwości i nieliniowość przetwarzania intensywności dźwięku. Ewentualne
przesunięcia próbek w czasie są uwzględniane w dalszych etapach obróbki sygnału. Na końcu
zaimplementowano tak zwany model kognitywny, którego zadaniem jest wydanie ostatecznej
oceny na podstawie porównania reprezentacji wewnętrznych obu sygnałów.
5.1.3. Metoda POLQA
Metoda POLQA (ang. Perceptual Objective Listening Quality Analysis) należy do metod
nowej generacji i wykorzystuje zaawansowane algorytmy wykrywania zakłóceń [POLQA].
Uwzględnia specyfikę współczesnych sieci telekomunikacyjnych (takich jak sieci IP i sieci
komórkowych). Ostatecznym wynikiem jej działania jest ocena jakości mowy w skali MOS-LQO.
Algorytm POLQA (standard ITU-T P.863) jest dostosowany do sygnałów
wąskopasmowych (do 4kHz), szerokopasmowych (do 8 kHz) i super-szerokopasmowych (do
16 kHz). Pozwala na ocenę transmisji mowy z wykorzystaniem koderów EVRC, a także w
usłudze VoIP. Mimo iż zakres zastosowania jest znacznie większy dla POLQA niż dla PESQ,
to błąd predykcji MOS jest znacznie mniejszy. Testy przeprowadzone przez ITU-T wskazują,
iż wyniki metody POLQA dla sygnałów wąsko i szerokopasmowych są znacznie lepsze (mają
większą korelację z wynikami subiektywnymi) od wyników algorytmu PESQ. W dalszej
części tekstu zaprezentowane będą wyniki badań własnych przeprowadzonych w Politechnice
Warszawskiej.
5.1.4. Metoda 3SQM
Jest to metoda nieintruzyjna, nie wymagająca znajomości sygnału oryginalnego,
znormalizowana przez ITU-T (Zalecenie P.563 [3SQM]]). Jakość mowy jest oceniana na
podstawie analizy typowych zniekształceń i zakłóceń: widm odbiegających od typowych
widm mowy, obecności szumu, nieciągłości sygnału w czasie. Badania wykazują, że odbiorca
koncentruje się na najbardziej dokuczliwym zniekształceniu i głównie to zniekształcenie
wpływa na jego ocenę. Badania przeprowadzone w wielu ośrodkach wykazują dużą korelację
wyników (MOS) metody 3SQM i metody PESQ.
5.1.5. Testowanie algorytmów PESQ i POLQA
Wśród ograniczeń algorytmu PESQ, w aneksie do Zalecenia P.862 [PESQ] i w
Zaleceniu P.862.3 [PESQ1] wymienia się nieokreślone wyniki dla sygnałów z echem, nagrań
zawierających mniej niż 75% sygnału mowy, sygnałów muzycznych, itp. Algorytm PESQ nie
jest w stanie zastąpić testów konwersacyjnych, gdyż nie uwzględnia np. wpływu opóźnienia i
echa. W Zaleceniu P.862.3 formułuje się szereg wskazówek co do sposobu przeprowadzenia
badań jakości mowy. W szczególności:
Zalecany czas trwania nagrania to 8-12 s, dopuszczalny 3,2 – 30 s, w żadnym
wypadku nie powinien przekroczyć czasu trwania miliona próbek.
Zawartość sygnału mowy w nagraniu powinna mieścić się w granicach 40%-80%
(reszta to cisza międzywyrazowa i fragmenty ciszy na początku i na końcu nagrania),
aktywny sygnał mowy winien trwać co najmniej 3,2 s.
W testach powinno się uwzględniać wpływ mówcy, wskazane jest użycie nagrań
mowy pochodzącej od 2 kobiet i 2 mężczyzn.
Cisza poprzedzająca sygnał mowy i występująca na końcu nagrania powinna trwać od
0,5 s do 2 s.
Czas trwania odcinków ciszy początkowej i końcowej nie powinien, dla obu
porównywanych nagrań, różnić się o więcej niż 25%.
W Inst. Telekomunikacji PW przeprowadzono badania implementacji algorytmu PESQ
oraz podjęto próbę weryfikacji jego przydatności do badania jakości mowy przesyłanej w
sieci pakietowej w ramach usługi VoIP. Jej wynikiem jest sformułowanie dodatkowych
zastrzeżeń i wskazanie na inne ograniczenia tej metody [KST10]. Najważniejsze ustalenia
opublikowane w [KST10] przedstawiono poniżej.
W przypadku stosowania w łączu telekomunikacyjnym urządzeń typu VAD (Voice
Activity Detector) następuje zamiana cichych fragmentów nagrania ciągiem próbek o wartości
zerowej lub szumem o niewielkiej mocy (comfort noise). Niekiedy następuje „wyciszenie”
początków wyrazów lub skrócenie czasu ich wybrzmiewania. W eksperymencie
wykorzystano 2 frazy testowe spełniające warunki określone w Zaleceniu P.862.3 (mowa
męska i żeńska, czas trwania około 6 s, szum tła około 60 dB pod poziomem najgłośniejszych
segmentów) [PESQ1]. Polegał on na zastępowaniu ciszy międzywyrazowej ciągami próbek o
wartości zerowej (w krańcowym przypadku następowało „wyciszenie” początków i końców
wyrazów graniczących z ciszą). Po zastąpieniu próbkami o wartości zerowej wyłącznie ciszy
międzywyrazowej wartości MOS i MOS-LQO spadały do około 3,6, po niesłyszalnym dla
słuchaczy (badania miały charakter nieformalny) uszkodzeniu początków i końców wyrazów
graniczących z ciszą oba wskaźniki osiągały wartości około 2,5-2,2, a zauważalny
(aczkolwiek niedokuczliwy) efekt występował dopiero przy wartościach MOS i MOS-LQO
poniżej 2.
Rys.5.4 Zastąpienie ciszy międzywyrazowej próbkami o wartości zerowej [Sadowska]
Jest to przykład bardzo dużej rozbieżności między oceną słuchaczy a wynikami
algorytmu PESQ. Należy zatem unikać sytuacji, gdy w systemie działa detektor cisza-mowa
(VAD). Można też zaproponować modyfikację algorytmu, polegającą na zmniejszeniu
wpływu segmentów cichych i segmentów usytuowanych na granicy cisza – mowa na wynik
końcowy MOS. Dla porównania algorytm POLQA okazał się w mniejszym stopniu wrażliwy
na tego rodzaju modyfikacje sygnału – otrzymywano wartości MOS-LQO w okolicach 3.6.
W algorytmie PESQ jest stosowany precyzyjny system dwustopniowej synchronizacji,
jednak omówione w niniejszym punkcie wyniki mogą świadczyć o nie zawsze poprawnym
jego działaniu. Do testów użyto frazy mowy żeńskiej, spróbkowanej z częstotliwością 8 kHz,
o rozdzielczości 16 bit, trwającej około 6,2 s. Zauważono, iż w przypadku generowania ciszy
wraz z wydłużeniem fragmentu mowy, dla dłuższego segmentu wstawianej ciszy otrzymuje
się, w pewnych przypadkach, większą wartość MOS (Rys.5.5). Ponadto większa liczba
fragmentów ciszy niekoniecznie powoduje obniżenie wartości MOS. W eksperymencie,
którego wynik podano na Rys.5.5, kolejne odcinki ciszy wstawiano zawsze w tych samych
miejscach, a więc stopień degradacji powiększał się wraz ze zwiększaniem się liczby
wstawianych odcinków ciszy i ich długości.
Rys.5.5. Wpływ wstawiania ciszy (z proporcjonalnym zwiększeniem czasu trwania nagrania) na
wartości MOS i MOS-LQO, otrzymane z PESQ
W Zaleceniu [PESQ1] jest mowa o zależności wartości MOS, mierzonej z
wykorzystaniem algorytmu PESQ, od rodzaju frazy i mówcy. Zaleca się użycie 2 fraz
wypowiadanych przez 2 mówców. Badania przeprowadzone na PW wykazują, że rozrzuty
wartości MOS dla tego samego kodera mogą sięgać 0.9 (Rys.5.6). Z tego względu, dla
osiągnięcia powtarzalnych wyników, należy wykorzystać nagrania większej liczby mówców i
fraz.
Rys.5.6. MOS dla wybranych kodeków i fraz mowy (4 mówców wypowiadających po 4
frazy) [Sadowska]
5.1.6. Badanie jakości mowy w usłudze VoIP z wykorzystaniem PESQ
Badania przeprowadzono w Instytucie Telekomunikacji PW i opisano w pracy [KST10].
W skład środowiska testowego (Rys.5.7) wchodził serwer pełniący funkcję emulatora sieci
oraz 2 stacje klienckie z zainstalowanymi softphonami. Modyfikacji parametrów ruchu i sieci
dokonywano za pomocą emulatora sieci – Netem (Network Emulator) . Dzięki niemu można
było zmieniać m.in. następujące parametry: opóźnienie pakietów, jitter opóźnienia, stopę
utraconych pakietów (PLR), stopę uszkodzonych pakietów.
Rys.5.7. Schemat stanowiska pomiarowego wykorzystywanego w badaniach
Jako softphone wykorzystano aplikację Ekiga w wersji 3.2.6. Program Ekiga umożliwia
wykonywanie połączeń dźwiękowych i wideo do użytkowników z oprogramowaniem lub
sprzętem zgodnym z SIP (np. Windows Messenger, Gizmo) lub H.323 (np. Microsoft
NetMeeting). Ekiga umożliwia ustawienie 12 różnych konfiguracji 8 kodeków,
charakteryzujących się różną przepływnością binarną, opóźnieniem kodowania, złożonością
obliczeniową i jakością kodowanego głosu. Jako frazy testowe wykorzystano nagrania głosu
4 mówców dokonane w komorze bezechowej. Frazy mowy polskiej były fonetycznie
zrównoważone, ich średni czas trwania wynosił 4,5 s. Wypowiadały je dwie osoby płci
żeńskiej (ozn. F1, F2) i dwie męskiej (ozn. M2, M3).
Pierwsza seria badań odnosiła się do koderów mowy stosowanych w VoIP. W badaniach
porównawczych najlepsze wyniki notuje się dla koderów o przepływności 64 kbit/s (G.722,
G.711 PCM), ponadto, kodery te wykazują najmniejszą zależność od mówcy i frazy. Nie jest
to zaskakujące, gdyż są to tzw. kodery fali akustycznej, z przetwarzaniem skalarnym, w
mniejszym stopniu niż kodery CELP zależne od właściwości sygnału. Kodery oparte na
algorytmach typu CELP (GSM, iLBC, Speex) wykazują się niezłą jakością mowy i to przy
niższych przepływnościach binarnych. Niskie przepływności nie służą koderom ADPCM;
przy 16 kbit/s (kwantyzator skalarny 4-poziomowy) jakość mowy kodowanej w systemie
G.726 jest słaba.
Następnie badano wpływ utraty pakietów (PLR – Packet Loss Rate). Wyniki, pokazane
na Rys.5.8, otrzymano drogą uśredniania wartości MOS z 16 eksperymentów (4 mówców i 4
frazy). Wskutek utraty pakietów najwięcej „tracą” kodery o wyższej jakości i większej
przepływności tak, że przy PLR=1% niemal wszystkie kodery charakteryzują się podobną
jakością mowy. Wyjątkiem są kodery ADPCM o niskiej (jak na ten rodzaj kodera)
przepływności: G.726-16 kbit/s i 24 kbit/s.
Rys.5.8. MOS w funkcji PLR [Sadowska]
Rys.5.9. MOS w funkcji zmienności opźnienia pakietów [Sadowska]
W badaniach wpływu utraty pakietów (Rys.5.8) i zmienności ich opóźnienia (Rys.5.9)
PESQ generował sensowne oceny jakości mowy i okazał się pomocnym narzędziem. Należy
jednak podkreślić,że wykorzystywano 16 fraz (4 mówców wypowiadających po 4 frazy).
5.2. Ocena jakości szerokopasmowych sygnałów akustycznych
5.2.1. Maskowanie zakłóceń
Obiektywne metody oceny jakości sygnału audio na poziomie mediów wykorzystują
analizę psychoakustyczną, w podobny sposób, jak kodery audio (model maskowania zakłóceń
jest tu jednak bardziej złożony).
W modelu psychoakustycznym uwzględnia się tzw. absolutny próg słyszenia. Jest to
najmniejsza wartość ciśnienia akustycznego, która wywołuje postrzegalne wrażenie
słuchowe. Czułość słuchu jest największa w zakresie częstotliwości 2000 – 3000 Hz i maleje
dla częstotliwości niskich i wysokich. Przebieg absolutnego progu słyszenia pokazano na
Rys.5.10 :
Rys.5.10 Absolutny próg słyszenia [Zwicker]
Innym elementem analizy psychoakustycznej są pasma krytyczne. Pasma krytyczne mają
związek rozdzielczością częstotliwościową procesów słyszenia i maskowania. Odpowiednim
pasmom odpowiadają odcinki na błonie podstawnej ucha. Szerokość pasm krytycznych
wzrasta w funkcji częstotliwości, wprowadzono więc nieliniową skalę tzw. barkową. Jeden
Bark odpowiada szerokości pojedynczego pasma krytycznego. Najczęściej wyróżnia się
około 24-25 pasm. Zależność pomiędzy liniową skalą częstotliwości a skalą barkową
pokazano na rys.5.11.
Rys.5.11.Zależność pomiędzy liniową i barkową skalą częstotliwości
Maskowanie równoczesne (zwane też maskowaniem w dziedzinie częstotliwości)
analizuje się z pasmach barkowych. Skuteczność maskowania jest uzależniona przede
wszystkim od częstotliwości oraz poziomów ciśnienia akustycznego sygnału maskowanego i
maskera. W przypadku gdy ton jest maskowany wąskopasmowym szumem, próg słyszalności
podnosi się gdy następuje zbliżenie częstotliwości środkowej pasma szumu do częstotliwości
tonu, a najsilniejsze maskowanie występuje gdy te częstotliwości są równe. Krzywe
maskowania są symetryczne względem częstotliwości środkowej pasma szumu jedynie gdy
poziom maskera nie przekracza 60 dB, w przeciwnym przypadku stają się one bardziej strome
po stronie niższych częstotliwości( Rys.5.12 ).
-10
0
10
20
30
40
50
60
70
80
90
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
po
zio
m [d
B]
częstotliwość [kHz]
Rys.5.12 Podwyższenie progu słyszalności tonów, maskowanych szumem pasmowym o
szerokości pasma 90 Hz i częstotliwości środkowej 410 Hz ; krzywe maskowania opisano wartościami
poziomu ciśnienia akustycznego pasma szumu [Sęk]
Progi maskowania poszczególnych sygnałów nakładają się na siebie w sposób
nieliniowy, tworząc krzywą maskowania.
5.2.2. Metoda PEAQ
Koncepcja metody PEAQ nie odbiega od PESQ, jednak z uwagi na pełne pasmo
akustyczne, struktura algorytmu jest bardziej złożona. Opis metody można znaleźć w pracy
[Kabal]. W algorytmie można wyróżnić następujące etapy przetwarzania sygnału
oryginalnego i przetworzonego (np. po kompresji z wykorzystaniem jednej z metod MPEG-
Audio):
Przetwarzanie wstępne: przepróbkowanie do 48 kHz, podział na okna 2048 próbek
z przesuwem co 1024 próbki,
Nałożenie okien i obliczenie DFT (wykorzystuje się okno Hanninga),
Kalibracja poziomu głośności, modelowanie ucha zewnętrznego,
Dekompozycja widma na pasma krytyczne (skala barkowa) z uwzględnieniem
szumu wewnętrznego ucha,
Uwzględnienie stałych czasowych ucha w poszczególnych pasmach krytycznych,
oraz maskowania w dziedzinie czasu (pre- i post-masking)
Ekstrakcja parametrów z sygnału oryginalnego i przetworzonego, stanowiących
bazę do porównania obu sygnałów,
Obliczenie wstępnego, wektorowego wskaźnika jakości (MOV – Model Output
Variable). Pochodzi on z przetwarzania 5 lub 11 wskaźników cząstkowych
(zależnie od wersji algorytmu PEAQ), w tym pasma sygnału oryginalnego i
przetworzonego, stosunku sygnału do poziomu maskowania w dziedzinie
częstotliwości, struktury widma (harmoniczna, szumowa), itp.
Obliczenie, z wykorzystaniem sieci neuronowej, stopnia degradacji sygnału
przetworzonego w stosunku do sygnału oryginalnego ODG (Objective Difference
Grade). Stosuje się 5-punktową skalę: 0 oznacza brak słyszalnego pogorszenia
jakości, -4 to bardzo dokuczliwe pogorszenie jakości. Odpowiada to utracie
jakości w skali MOS. Skala ocen (ODG) generowanych przez algorytm PEAQ jest
zatem następująca:
0 – pogorszenie jakości niesłyszalne
-1 – wyczuwalne, ale nie przeszkadzające
-2 – nieznacznie przeszkadzające
-3 – przeszkadzające
-4 – bardzo przeszkadzające
Algorytm PEAQ jest również przystosowany do oceny jakości sygnału stereofonicznego
(dwukanałowego). Jest znormalizowany przez ITU-R w Zaleceniu BS 1387 [PEAQ].
Twórcy tej normy publikują wyniki badań porównawczych: ODG w funkcji SDG
(Subjective Difference Grade, czyli utrata jakości sygnalizowana przez słuchaczy) – Rys.5.13.
Dla sygnałów o dobrej jakości obie metryki jakościowe nie odbiegają od siebie, jednak dla
sygnałów o niskiej jakości różnice mogą być znaczne.
Rys.5.13 Porównanie metryk ODG (generowana przez PEAQ) z SDG (uśrednione
wrażenia słuchaczy) [PEAQ]
5.2.3. Testy i badania z wykorzystaniem PEAQ
Istnieją dwie wersje algorytmu PEAQ. Różnica między nimi polega głównie na
zastosowaniu innych modeli psychoakustycznych:
PEAQ Basic – mniejsza dokładność, krótki czas testu (tylko tę wersję testowano)
PEAQ Advanced – większa dokładność, dłuższy czas testu
Przeprowadzono m.in. badania jakości plików dźwiękowych poddanych kompresji z
wykorzystaniem kodera MP3. Na uwagę zasługuje duża zależność ODG od frazy (co
potwierdzają nieformalne nadania odsłuchowe). Najmniejszą utratą jakości po kompresji
charakteryzują się sygnały o charakterze dolnopasmowym (np. fortepian). Wynika to z
wykorzystania nielicznych podpasm częstotliwości, które otrzymują większą liczbę bitów.
Rys.5.14 Badanie kodera MP3 z wykorzystaniem różnych plików dźwiękowych
[Kołodziejczyk]
Badano również wpływ zawężenia pasma sygnału mowy. Wyniki (Rys.5.15) wykazują
zbyt radykalną reakcję PEAQ na obniżenie pasma; słuchacze nie oceniali wąskopasmowej
mowy tak krytycznie.
Tab.3 ODG w funkcji zawężenia pasma 4 fraz mowy [Kołodziejczyk]
Zauważono podobną reakcję na „wyzerowanie” przerw międzywyrazowych w sygnale
mowy, jak miało to miejsce w algorytmie PESQ – Tabela 3. Metryka ODG zareagowała
spadkiem, podczas gdy słuchacze z trudem zauważali różnicę między oryginałem a sygnałem
poddanym obróbce.
Tabela 4 ODG w funkcji czasu trwania „wyzerowanej” ciszy międzywyrazowej
[Kołodziejczyk]
Testowana w Inst. Telekomunikacji PW implementacja algorytmu PEAQ [Kabal]
charakteryzowała się brakiem odporności na przepróbkowanie sygnału, nawet w niewielkim
zakresie. Operacja ta nie wywołuje zauważalnych dla słuchacza efektów, natomiast wpływa
na radykalne obniżenie ODG – Tabela 5..
Tabela 5. Wpływ przepróbkowania sygnału (częstotliwość próbkowania sygnału
oryginalnego wynosiła 48kHz) na ODG [Kołodziejczyk]
Reasumując, wnioski z testowania dostępnej implementacji algorytmu PEAQ [Kabal] są
następujące:
• Dla większości analizowanych sygnałów wartości ODG są zgodne z wrażeniami
słuchowymi
• Badana implementacja PEAQ generuje oceny niezgodne z oceną subiektywną przy
odsłuchu sygnałów w następujących sytuacjach:
• zmianach w obrębie bardzo cichych fragmentów
• ograniczeniu pasma mowy
• skróceniu ciszy międzywyrazowej o niezauważalną dla słuchacza wartość
• przepróbkowaniu sygnału
5.3. Sekwencje wideo
5.3.1. Zakłócenia i zniekształcenia obrazu
Obraz nieruchomy lub ruchomy, poddany kompresji, oraz przetransmitowany do
odbiorcy, ulega zmianom, które mogą obniżać jego postrzeganą jakość. Typowe
zniekształcenia i zakłócenia to:
• efekty blokowe, wynikające z zastosowania kompresji w blokach, np. 8x8 pikseli –
obserwator zauważa granice bloków
• „przytrzymanie” obrazu, wskutek podstawienia ostatniej poprawnie zdekodowanej
ramki za szereg niepoprawnie zdekodowanych ramek (występuje przy dużych
zakłóceniach w kanale transmisyjnym)
• chwilowy zanik obrazu lub jego części, często połączony z pojawieniem się na ekranie
kolorowej tekstury – występuje przy b. dużych zakłóceniach w kanale
• nieciągłość ruchu, związana z nazbyt wielką kompresją obrazu
• zniekształcenia konturów (nieostrość, załamania, poruszanie się, a także wystąpienie
„fałszywych konturów”) – wynik kompresji
• błędy w odtworzeniu kolorów (zmiana odcieni, nasycenie)
• błędy kwantyzacji (szum typu „sól i pieprz” lub „śnieżenie”)
Przykład (Rys.5.15): Obraz (jedna z klatek sekwencji wideo) został poddany kompresji, a
następnie został przesłany kanałem z dużą stratą pakietów. Widać „rozmycie” konturów i
tworzenie się bloków, skutkiem utraty części informacji niezbędnej do jego prawidłowego
odtworzenia.
Rys.5.15 Utrata jakości obrazu skutkiem kompresji i transmisji
5.3.2. Modele percepcji obrazu
Modelowanie percepcji obrazu jest procesem bardziej złożonym, niż modelowanie
percepcji dźwięku. Dużym problemem jest sam wybór testowych sekwencji obrazów,
naturalnych lub wygenerowanych sztucznie [ANSI801]. Najprostszym do obliczenia
wskaźnikiem jakości jest PSNR (peak signal to noise ratio). Jest to stosunek maksymalnej
mocy zniekształcenia (w 8-bitowym zapisie 2552) do błędu średniokwadratowego (MSE):
2)),,(),,((
1
p m n
nmponmpdNMP
MSE
gdzie indeksy m,n odnoszą sie do współrzędnych piksela, a p do kolejnych ramek sekwencji
wideo. Korelacja tego wskaźnika z wrażeniami percepcyjnymi odbiorcy jest słaba (np.
niewielka zmiana jasności lub kontrastu wpływa na obniżenie SNR, podczas gdy percepcyjnie
jest ona nieistotna). Na Rys.5.16 pokazano 3 kopie obrazu, charakteryzujące się tą samą
wartością MSE (a więc i PSNR), jednak wyraźnie różniące się postrzeganą jakością.
Rys.5.16 Porównanie obrazów charakteryzujących się tą samą wartością MSE [Xiao]
Lepsze wyniki daje badanie krawędzi: dokonuje się ekstrakcji krawędzi w obrazie
naturalnym i odtworzonym (np. z wykorzystaniem filtrów Sobela [Umb98]), a następnie
porównuje się otrzymane krawędzie. Odejmując kolejne ramki od siebie, otrzymuje się
oszacowanie ruchu. Przeprowadzając takie oszacowanie osobno dla sekwencji oryginalnej i
odtworzonej można zbadać zakłócenia ruchu (niepłynność ruchu, zatrzymanie obrazu, itd.).
Dokładność odtworzenia dużych plam i szczegółów można badać porównując obrazy
przetransformowane lub ich części (z wykorzystaniem dwuwymiarowej transformaty DFT).
Wadą wymienionych metod jest brak odniesienia do systemu percepcji obrazów przez
człowieka.
Cechy zmysłu wzroku mają wielkie znaczenie w procesie oceny jakości obrazu. Istotne
znaczenie ma czułość wzroku, maskowanie obiektów tłem, wrażliwość na barwy (np. oko jest
bardziej czułe na barwę zieloną, niż na czerwoną i niebieską), bezwładność (w dziedzinie
czasu), rozdzielczość przestrzenna (kątowa). Zmysł wzroku szczególnie jest uwrażliwiony na
kontrast, uwypuklając granice pomiędzy polami o niewiele różniącej się luminancji. Z drugiej
strony, niejednorodne tło jest w stanie całkowicie zamaskować obiekt (staje się on
niezauważalny). Percepcja kolorów zależy od tła, a także od czasu (uprzednio nadany obraz
wpływa na odbiór kolejnego). Uprzednio oglądany obiekt utrzymuje się w pozornym polu
widzenia (niekiedy jako negatyw – tzw. powidok.) Niektóre kolory, po ich zmieszaniu,
wywołują wrażenie innej barwy (np. czerwony+żółty = pomarańczowy), inne nie mają takiej
właściwości – nazywamy je przeciwstawnymi (opponent colors). Podstawowe pary kolorów
przeciwstawnych to czarny-biały (B-W), czerwony-zielony (R-G) i niebieski-żółty (B-Y).
Konstrukcja algorytmu szacowania jakości obrazu ruchomego musi opierać się na modelu
percepcji (HVS – human visual system). W modelu należy uwzględnić zjawiska przestrzenne
i zachodzące w czasie. Modelując zjawiska „czasowe”, uwzględnia się dwa rodzaje
bezwładności oka: krótko- i długookresową. Wymaga to przepuszczenia sekwencji wideo
przez dwa filtry – dolnoprzepustowy i pasmowy (Rys.5.17).
Rys.5.17 Filtry modelujące bezwładność oka [Winkler]
Najważniejszym problemem w modelowaniu HVS jest uwzględnienie wrażliwości na
kontrast, oraz spadku tej wrażliwości w obecności niejednorodnego tła (maskowanie).
Maksymalna wrażliwość na kontrast (minimalny próg detekcji) występuje w procesie
obserwowania obiektów o rozmiarach ok. ¼ stopnia kątowego („częstotliwość przestrzenna”
4 cykle na stopień). Dla mniejszych „częstotliwości przestrzennych” wrażliwość na kontrast
(CSF – contrast sensitivity function, zdefiniowana jako odwrotność progu detekcji) powoli
spada, a dla większych częstotliwości – spada b. szybko (Rys.5.18).
Rys.5.18 Wrażliwość na kontrast w funkcji częstotliwości przestrzennej [Winkler]
Również w obecności kontrastowego tła CSF spada, tym bardziej, im bardziej
kontrastowość tła przekracza kontrastowość obserwowanego obiektu. Modelowanie zjawiska
maskowania polega na znalezieniu zależności CSF od tła. Jeśli kontrastowość tła osiąga
wielkość porównywalną z wielkością kontrastu obiektu względem tła, wówczas próg detekcji
obiektu podnosi się (wrażliwość oka maleje – zaznaczają się maskujące właściwości tła) –
Rys.5.19.
Rys.5.19 Maskowanie: próg detekcji obiektu w funkcji kontrastowości tła [Winkler]
Na zjawisko maskowania ma wpływ rozmiar obiektu – wymaga to odfiltrowania obrazu z
wykorzystaniem filtrów „przestrzennych” (pierwszy filtr przepuszcza duże pola, a ostatni –
drobne szczegóły obrazu). Filtry te uwzględniają również orientację obiektów w płaszczyźnie
obrazu – osobne filtry reagują np. na pionowe i poziome pasy. Jest to potrzebne, gdyż np. tło
złożone z pionowych pasów dobrze zamaskuje obiekt o orientacji pionowej, a w ogóle nie
zamaskuje obiektu o orientacji poziomej (Rys.5.20).
Rys.5.20 Maskowanie zakłóceń pionowych przez obraz o strukturze pionowej
[Żochowski]
Zbadano widmo zakłóceń o charakterze pionowym i poziomym, obecnych w obrazach z
Rys.5.20. Widmo zakłóceń poziomych koncentruje się wokół osi pionowej i vice versa – rys.
5.21.
Rys.5.21 Widma zakłóceń o strukturze poziomej i pionowej [Żochowski]
Aby znaleźć w obrazie niezamaskowane (a więc dobrze widoczne) zakłócenia, należy na
widmo obrazu oryginalnego i zakłóconego nałożyć kierunkową maskę, a następnie obliczyć
SNR. Kierunek maski należy zmieniać, aż osiągnie się minimum SNR. Niska wartość tego
minimum oznacza, że w obrazie istnieją niezamaskowane zakłócenia, a więc jego jakość jest
niska. Na Rys.5.22 pokazano stosowane maski.
Rys.5.22 Maski kierunkowe nakładane na widma obrazów [Pokorski]
Metoda obliczanie „kierunkowej” wartości SNR okazała się skuteczna: Dla obrazu trzcin
(Rys.5.20) najniższa wartość SNR wynosiła 13 dB dla zakłóceń pionowych i 7 dB dla
zakłóceń poziomych [Pokorski]. Jest to zgodne z postrzeganiem tych zakłóceń przez
oglądającego obrazy. Należy przypomnieć, że w obu przypadkach wartość PSNR była
identyczna.
5.3.3. Strukturalne podobieństwo obrazów (SSIM)
Rys. 5.23 Schemat algorytmu SSIM [Wang]
Rys.5.24 Porównanie SSIM i PSNR
5.3.4. Zalecenie J.144
Jest to w zasadzie zbiór algorytmów bez wskazania na konkretne rozwiązanie [J144].
Wszystkie z nich bazują na ogólnym schemacie metody intruzyjnej podanym na Rys.5.25.
Rys. 5.25: Obliczenie MOS z uwzględnieniem modelu percepcji obrazu
Geneza tego zalecenia jest następująca: W końcu lat 90-tych zawiązała się grupa
badawcza (VQEG – Video Quality Experts Group), stawiająca sobie za cel opracowanie i
przedstawienie ITU-T do normalizacji, algorytmu obiektywnej oceny jakości sygnału wideo
(VQM – Video Quality Metric). Rozpisano konkurs, w którym wzięły udział zainteresowane
ośrodki badawcze. VQEG przeprowadziła badania porównawcze jakości testowych sygnałów
wideo – porównując wyniki otrzymane metodami subiektywnymi i obiektywnymi. Wyniki
obiektywne otrzymano wykorzystując metody i oprogramowanie dostarczone przez ośrodki
badawcze biorące udział w konkursie (w skrócie nazwijmy je proponentami). Wyniki
subiektywne otrzymano, prezentując (dwukrotnie) pary sekwencji wideo kilkudziesięciu
osobom (nie informując tych osób, która z prezentowanych sekwencji jest oryginałem).
Osoby te zaznaczały swoją ocenę jakości na ciągłej skali, dla obydwu porównywanych
sekwencji. Następnie obliczano różnicę ocen (raw difference) między sekwencją oryginalną
(SRC - source) i przetworzoną . Przetworzenie (HRC – Hypothetical Reference Circuit)
polegało na zapisie sekwencji wideo w różnych formatach, kodowaniu w systemie MPEG-2 z
różną rozdzielczością, itp. Różnica ocen była następnie normalizowana do zakresu <0,1> i
uśredniana dla grupy osób biorących udział w teście (przy czym wyniki zdecydowanie
odbiegające od pozostałych były odrzucane). W końcu ocena subiektywna była porównywana
z obiektywną, z wykorzystaniem szeregu narzędzi statystycznych (korelacja Pearsona itd.).
Wyniki badań porównawczych VQEG zamieściła w dwóch raportach [VQEG1],[VQEG2].
W pierwszej edycji konkursu wzięło udział 10 ośrodków badawczych: CPqD,
Tektronix/Sarnoff, NHK, KDD, EPFL, Tapestries, NASA, KPN/Swisscom, NTIA, IFN. Nie
przyniosła ona rozstrzygnięcia – wszystkie proponowane metody charakteryzowały się
podobną zgodnością z metodą subiektywną [VQEG1]. Jedynie algorytm Tapestries, w
statystycznie istotnej mierze, odbiegał nieco od pozostałych, dając wyniki mniej skorelowane
z wynikami otrzymanymi metodami subiektywnymi. Co więcej, prosta metoda PSNR nie
odbiegała w statystycznie istotnej mierze, od pozostałych. W związku z powyższym
postanowiono ogłosić następny konkurs, a jednocześnie ulepszyć metody porównywania ocen
obiektywnych i subiektywnych. W konkursie udział wzięły następujące ośrodki badawcze:
NASA, British Telecom, Yonsei, CPqD, Chiba, NTIA. W wyniku wszechstronnych badań
porównawczych, ostatecznie wyselekcjonowano 4 algorytmy: British Telecom, Yonsei,
CPqD, NTIA. Metodami analizy statystycznej nie udało się udowodnić przewagi którejś z
tych 4 metod [VQEG2]. Badania przeprowadzone w Inst. Telekomunikacji PW wykazały
duży rozrzut wartości MOS mierzonych metodą subiektywną dla sekwencji wideo
charakteryzujących się tą samą wartością VQM – Rys.5.26.
Rys.5.26 Porównanie VQM z oceną subiektywną (MOS) [Dymarski]
Zalecenie J.144 odnosi się do sygnału wysokiej jakości, wykorzystywanego w TV
kablowej: przepływność binarna zakodowanego sygnału wynosi od 768 kbit/s do 5 Mbit/s.
Metoda nie jest zalecana w warunkach występowania błędów kanałowych, nadaje się
raczej do porównywania koderów wideo.
5.3.5. Zalecenia J.247, J.246, J.341 i J.342
Ze względu na ograniczone zastosowanie algorytmów oceny jakości opisanych w
Zaleceniu J.144, VQEG rozpisała nowy konkurs, do którego zgłosiły się następujące ośrodki
badawcze: NTT, OPTICOM, Psytechnics, Yonsei University i SwissQual. W wyniku szeroko
zakrojonych badań porównawczych [VQEG3], VQEG zaproponowała:
Jako metody obiektywne z pełnym odniesieniem (intruzyjne), zalecić 4
algorytmy, proponowane przez NTT, OPTICOM (Rys.5.27), Psytechnics, Yonsei
University. Skutkiem tej decyzji jest norma ITU-T J.247 [J247].
Jako metodę obiektywną z częściowym odniesieniem zalecić algorytm
proponowany przez Yonsei Univ. Skutkiem tej decyzji jest norma ITU-T J.246
[J246].
Na razie nie zalecać żadnego algorytmu nieintruzyjnego (bez odniesienia), mimo
relatywnie dobrych wyników otrzymanych przez SwissQual.
Rys.5.27 Algorytm Perceptual Evaluation of Video Quality (PEVQ) – wg materiałów firmy
OPTICOM
Korelacja pomiędzy metryką VQM oraz metodą subiektywną
1
2
3
4
5
0
0,05
51
0,05
51
0,06
17
0,06
17
0,09
29
0,12
48
0,13
92
0,19
27
0,32
49
0,35
78
0,43
07
0,45
53
0,54
82
0,75
75
1,03
2
1,32
23
1,62
72
2,11
23
2,51
57
2,85
68
3,43
72
Metryka VQM
Skala
MO
S
MOS
Aproksymacja
Podstawową cechą w.w. algorytmów jest możliwość ich wykorzystania w warunkach
błędów kanałowych i spowodowaną tym utratą i uszkodzeniem pakietów, zakłóceniem
ciągłości ruchu itp. We wszystkich czterech algorytmach intruzyjnych położono duży nacisk
na synchronizację sygnału przetworzonego i sygnału odniesienia w dziedzinie czasu. Np. w
algorytmie NTT zastosowano dwuetapową synchronizację w makroskali i w mikroskali (w tej
ostatniej mamy do czynienia z „przetrzymaniem” obrazu i nieciągłością ruchu skutkiem utraty
pakietów). Stosuje się również dopasowanie obu obrazów w przestrzeni, co umożliwia
porównanie obrazu pełnego i obrazu o obciętych brzegach. Po uzyskaniu synchronizacji
czasowej i przestrzennej oblicza się szereg wskaźników cząstkowych, uwzględniających
dokładność odwzorowania luminancji, chrominancji, krawędzi, oraz detekcję efektów
blokowych i utraconych elementów obrazu (w algorytmie PEVQ proponowanym przez
OPTICOM jest pięć takich wskaźników, w algorytmie Psytechnics - osiem). Algorytm Yonsei
Univ. w głównej mierze opiera się na porównywaniu krawędzi. W związku z tym nie wymaga
on znajomości całego obrazu odniesienia, a tylko cząstkowej informacji odnoszących się do
krawędzi. Ta informacja zajmuje od 1 kbit/s do 128 kbit/s, w zależności od rozdzielczości
obrazu. Pozwoliło to na zaproponowanie algorytmu z częściowym odniesieniem, który został
opisany w Zaleceniu J.246 [J246]. W 2011r. ITU-T opracowała ulepszoną wersję tego
algorytmu, obejmującą również badanie jakości HDTV – jest to norma J.342 [J342].
Podobnie norma J.247 została rozszerzona, w oparciu o badania firmy SwissQual, na badania
jakości HDTV z pełną referencją. Jest to norma J.341 [J341].
6. Ocena jakości multimediów na podstawie pakietów i strumienia binarnego
Metody oceny jakości z pełną lub częściową referencją wymagają transmisji określonej
sekwencji wideo czy frazy dźwiękowej – są więc metodami intruzyjnymi. Wygodniejsze w
stosowaniu są metody nieintruzyjne, wykorzystujące jedynie aktualnie transmitowaną treść
(content). Jeszcze wygodniejsze byłoby uniknięcie dekodowania dźwięku i obrazu i ocenianie
jakości jedynie na podstawie strumienia pakietów docierających do odbiornika.
Przykładem takiego podejścia jest zespół algorytmów VQmon firmy Telchemy. Do
estymacji jakości VQmon wykorzystuje:
parametry związane z transmisją strumieni przez sieć: bitowa stopa błędów
(BER), poziom strat pakietów (PLR), opóźnienie pakietów, opóźnienie w pętli,
zmienność (jitter) opóźnienia, przepustowość łącza;
parametry związane z obrazem wideo: rozpoznawanie ramek (I, P, B),
rozdzielczości obrazu, kodeka;
parametry związane z sygnałem audio: kodek, przepływność binarna.
Wszelkie zmiany w strumieniach bitów i pakietów są śledzone na bieżąco. Z
wykorzystaniem modelu Markowa program modeluje rozkład strat pakietów oraz stopę
odrzuconych pakietów. Jakość estymowana jest cyklicznie, a następnie obliczane są metryki
jakościowe. VQmon bierze pod uwagę, które ramki zostały uszkodzone (I, P, B), uwzględnia
również stopień zagęszczenia błędów: pojedyncze czy występujące seriami (burst errors).
Ostatecznie VQmon wyprowadza następujące metryki jakościowe:
MOS-A – jakość w skali MOS przekazu sygnału audio;
Absolute MOS-V - jakość w skali MOS przekazu strumienia obrazu. Metryka
zależna od rozdzielczości obrazu, liczby klatek na sekundę, struktury GoP
(ang. Group of Picture), kodera, poziomu kompresji, przepływności, strat
pakietów, opóźnienia i jego zmienności;
Relative MOS-V – jw., lecz liczona względem idealnych warunków działania
kodera oraz rozdzielczości wykorzystywanego urządzenia;
MOS-AV - jakość w skali MOS strumieni audio i wideo wspólnie.
VSTQ (ang. Video Service Transmission Quality) – metryka określająca
wpływ sieci na jakość, mierzona jest w skali od 0 do 50;
Estimated PSNR – szacowany PSNR, przedstawiany w [dB].
Testy przeprowadzone w Inst. Telekomunikacji PW potwierdzają ogólną przydatność
VQmon, jednak dla niektórych sekwencji wideo zauważa się znaczne różnice oceny
obiektywnej i nieformalnej oceny subiektywnej (Rys.6.1, Rys.6.2)
Rys.6.1 Przykładowe testy jakości składowej audio w warunkach utraty pakietów – pomiary z
wykorzystaniem VQmon (krzywa „user” odpowiada nieformalnej ocenie odsłuchowej)
[Bródka]
Rys.6.2 Przykładowe testy jakości składowej wideo w warunkach utraty pakietów – pomiary
z wykorzystaniem VQmon (krzywa „user” odpowiada nieformalnej ocenie oglądającego plik
wideo) [Bródka]
W 2011r. ITU-T opracowała dwie normy jakościowe, oparte na analizie pakietów i
strumienia binarnego:
• ITU-T P.1201 : Parametric non-intrusive assessment of audiovisual media streaming
quality, 2013 (nieintruzyjna, wykorzystuje nagłówki pakietów) [P1201]
• ITU-T P.1202 : Parametric non-intrusive bitstream assessment of video media
streaming quality (jw., wykorzystuje ponadto analizę strumienia binarnego) [P.1202]
MOS dla składowej audio
0,00
0,50
1,00
1,50
2,00
2,50
3,00
3,50
4,00
4,50
5,00
0,00 0,50 1,00 1,50 2,00 2,50 3,00 3,50
Loss [%]
MO
S
MOS-A avg
MOS-A user
MOS-A int
MOS dla składowej video
0,00
0,50
1,00
1,50
2,00
2,50
3,00
3,50
4,00
4,50
0,00 0,50 1,00 1,50 2,00 2,50 3,00 3,50
Loss [%]
MO
S
MOS-V abs
MOS-V rel
MOS-AV avg
MOS-V user
Najnowszą normą tego typu jest J.343 [J343], która opiera się na analizie, pakietów,
strumienia binarnego, oraz zdekodowanego obrazu.
7. Ocena jakości gry interaktywnej
W grze internetowej obraz generowany jest lokalnie u użytkownika, w związku z tym nie
mamy tu do czynienia z typową transmisją wideo. Transmitowane są jedynie informacje
dotyczące położenia postaci, ruchu, czasu, użytej broni oraz strzału. W efekcie przesyłane
z/do serwera pakiety są niewielkich rozmiarów i stanowią zazwyczaj mały ułamek dostępnej
przepływności. Niezmiernie ważne są natomiast zdarzenia i zmiany w obrazie, które muszą
być generowane szybko i niezawodnie. Szczególnie odnosi się to do gier typu First Person
Shooter, gdzie aktualny obraz sytuacji, szybkość i skuteczność działania jest podstawą
zadowolenia użytkownika.
Rys.7.1 Gra internetowa Nexuiz
Wyniki badań subiektywnych wykazują, że tolerowane opóźnienie w pętli (ping) jest poniżej
40 ms – Rys.7.2
Rys.7.2 Stopień zadowolenia gracza w funkcji opóźnienia w pętli [Watt]
Podobne badania przeprowadzono w Inst. Telekomunikacji PW – Rys.7.3
Rys.7.3 Jakość gry Nexuiz w funkcji stopy utraconych pakietów i ich opóźnienia [Bródka]
Okazuje się, że gracz toleruje nawet 15% utraty pakietów, ale tylko 30 ms ich opóźnienia.
8. Podsumowanie
W podręczniku omówiono najważniejsze normy i zalecenia odnoszące się do pomiaru
jakości sygnału mowy, szerokopasmowego sygnału fonicznego, obrazu ruchomego i przekazu
multimedialnego (dźwięk i obraz). Najdokładniejsze są metody subiektywne badania jakości,
jednak jest to podejście czasochłonne i kapitałochłonne. Coraz częściej badania z udziałem
odbiorców dźwięku i obrazu służą jedynie do kalibracji metod obiektywnych. W grupie tych
metod najdokładniejsze są metody funkcjonujące na poziomie mediów z pełnym
odniesieniem: PESQ (Zalecenie P.862), POLQA (P.863) dla mowy, PEAQ (BS 1387) dla
sygnałów fonicznych, metody opisane w Zaleceniu J.247 i J.341 dla obrazu ruchomego.
Znajomość sygnału odniesienia jest, w niektórych zastosowaniach, istotnym ograniczeniem,
gdyż wymaga współdziałania nadawcy i odbiorcy przekazu. Odbiorcy byliby zainteresowani
MOS dla gry interaktywnej
0,00
1,00
2,00
3,00
4,00
5,00
6,00
0,0 5,0 10,0 15,0 20,0 25,0 30,0 35,0 40,0 45,0
Loss [%]
MO
S
MOS user
MOS dla gry interaktywnej
0,00
1,00
2,00
3,00
4,00
5,00
6,00
0 20 40 60 80 100 120 140 160
Delay [ms]
MO
S
MOS user
metodami oceny jakości niewymagającymi znajomości nadawanego przekazu. Pierwszy taki
algorytm został opracowany dla mowy (3SQM – Zalecenie P.563). W roku 2014 ITU-T
opracowała podobne algorytmy dla sekwencji wideo (P.1201, P.1202).
Przy badaniu jakości usług w konkretnych systemach, gdzie znane są kodery,
przepływności binarne, itp. możliwe jest oszacowanie jakości na podstawie parametrów
połączenia telekomunikacyjnego mierzonych na poziomie pakietów (Zalecenie P.564 dla
mowy, J.343 dla sygnału wideo). Jest to wygodne rozwiązanie dla przeprowadzających
pomiar, gdyż nie jest wymagana znajomość treści przekazu. Z kolei projektant sieci chciałby
wiedzieć, jakie środki ma zastosować w celu utrzymania odpowiedniego poziomu jakości
usług telekomunikacyjnych. Pomocą są tu metody parametryczne typu E-model (Zalecenia
G.107, G.113, G.1070).
Metody pomiaru jakości sygnału audio i wideo są intensywnie rozwijane – prace
zmierzają w kierunku łączenia różnego typu algorytmów i wykorzystania informacji o
parametrach strumienia binarnego (Tabl.1).
Literatura
[P.800] ITU-T Recommendation P.800: Method for subjective determination of transmission
quality, 1996
[MNRU] ITU-T P.810: Modulated Noise Reference Unit (MNRU). February 1996
[P.830] ITU-T P.830: Subjective Performance Assessment of Telephone-Band and Digital Codecs.
February 1996
[P.910] ITU-T P.910: Subjective video quality assessment for multimedia applications, 1996
[P.911] ITU-T P.911: Subjective audiovisual quality assessment for multimedia applications
[ETR250] ETSI ETR 250; Speech communication quality from mouth to ear for 3,1 kHz handset telephony across networks, July 1996
[EG201] ETSI EG 201 377-1: Speech Processing, Transmission and Quality Aspects (STQ);
Specification and measurement of speech transmission quality. April 1999
[PN-90] PN-90/T-05100; Analogowe łańcuchy telefoniczne - Wymagania i metody pomiaru
wyrazistości logatomowej. 1993
[PSQM] ITU-T P.861: Objective Quality Measurement of Telephone-Band Speech Codecs.
February 1998
[PEAQ] ITU-R Recommendation BS 1387: Method for Objective Measurements of Perceived
Audio Quality (PEAQ), 1998
[PESQ] ITU-T Recommendation P.862: Perceptual evaluation of speech quality (PESQ), an
objective method for end-to-end speech quality assessment of narrowband telephone
networks and speech codecs
[PESQ1] -T Recommendation P.862.3 – Application guide for objective quality measurement
based on Recommendations P.862, P.862.1 and P.862.2, 11/2007
[POLQA] Draft of ITU-T Recommendation P.863, Perceptual Objective Listening Quality
Assessment (POLQA), an advanced objective perceptual method for end-to-end
listening speech quality evaluation of fixed, mobile, and IP-based networks and
speech codecs covering narrowband, wideband, and super-wideband signals, 2010
[3SQM] ITU-T Recommendation P.563, Single-ended method for objective speech quality
assessment in narrow-band telephony applications, May 2004 [G.107] ITU-T Recommendation . G.107. The E-Model, A Computational Model For Use in
Transmission Planning. 2003
[ETS101] ETSI TS 101 329-5 v1.1.2. Quality of Service (QoS) Measurement Methodologies.
2002
[ETS102] ETSI TS 102 024-5 v4.1.1. Quality of Service (QoS) Measurement Methodologies.
2003
[BT500] ITU-R “Methodology for the subjective assessment of the quality of television
pictures”, International Telecommunications Union BT.500-7, 1995
[ANSI801] ANSI T1.801.01-1996 “Digital transport for video teleconferencing/ videotelephony
signals – Video test scenes for subjective and objective performance assessment” –
American National Standards Institute, 1996
[J140] ITU-T Recommendation J.140, „Subjective picture quality assessment for digital cable
television”
[J143] ITU-T Recommendation J.143, „User requirements in digital cable television”
[J144] ITU-T Recommendation J.144, Objective perceptual video quality measurement
techniques for digital cable television in the presence of a full reference, March 2004
[J247] ITU-T Rec. J.247 Objective perceptual multimedia video quality measurement in the
presence of a full reference, 2008
[J246] ITU-T Rec. J.246 Perceptual visual quality measurement techniques for multimedia
services over digital cable television networks in the presence of a reduced bandwidth
reference, 2008
[J341] ITU-T Recommendation J.341 “Objective perceptual multimedia video quality
measurement of HDTV for digital cable television in the presence of a full reference”,
January 2011
[J342] ITU-T Recommendation J.342 “Objective perceptual multimedia video quality
measurement of HDTV for digital cable television in the presence of a reduced
reference signal”, January 2011
[J343] ITU-T Recommendation J.343 Hybrid perceptual / bitstream models for objective video
quality measurements, 2014
[P.1201] ITU-T P.1201 : Parametric non-intrusive assessment of audiovisual media streaming
quality, 2013
[P.1202] ITU-T P.1202 : Parametric non-intrusive bitstream assessment of video media streaming
quality, 2013
[Kula01] Kula S.: Subiektywne i obiektywne metody badania jakości mowy przesyłanej w sieciach
telekomunikacyjnych. Pomiary w telekomunikacji, nr 20, Warszawa 2001
[Kula03] Kula S., Gwiazda P., Zalewski Ł.: Badanie jakości mowy w sieciach telefonii
komórkowej GSM. Konferencja KKRRiT, Wrocław, czerwiec 2003
[Trz00] Trzaskowska J.: Ocena jakości sygnału mowy w oparciu o Model E w zastosowaniu do
krajowej sieci telefonicznej. Rozprawa doktorska. Instytut Łączności. 2000
[UMB98] Scott E. Umbauch “Computer vision and image processing” –Prentice – Hall, 1998
[Wolf02] S. Wolf, M. Pinson, „Video Quality Measutment Techniques”, NTIA Raport
02-392, Czerwiec 2002
[Win00] S.Winkler, F.Dufaux „Video quality evaluation for mobile applications“, Proc. SPIE,
vol.5150, pp.593/603, Lugano 2000
[Winkler] S.Winkler “A perceptual distortion metric for digital color video”, Human Vision and
Electronic Imaging IV, Bellingham 1999
[Ding] Ding L., Goubran R.A.; Speech quality prediction in VoIP using the extended E-model.
Global Telecommunications Conference, 2003, Vol. 7, pp. 3974- 3978
[Carvalho] Carvalho L, Mota E., Aguiar R. Lima A., Neuman de Souza J., Barreto A.:An E-Model
Implementation for Speech Quality Evaluation in VoIP
Systems.http://www.lia.ufc.br/~neuman/leandro-iscc2005.pdf
[PEVQ] PEVQ – Advanced perceptual evaluation of seech quality – materiały firmy OPTICOM
[Opt]
[Kabal] P.Kabal An Examination and Interpretation of ITU-R BS.1387: Perceptual Evaluation
of Audio Quality, Raport, McGill, 3003
[ETSI TS 250] ETSI TS 102 250 Speech processing, transmission and quality aspects (STQ);
QoS aspects for popular services in GSM and 3G networks
[P.910] ITU-T Recommendation P.910; Subjective video quality assessment methods for
multimedia applications
[Taka] A.Takahashi, D.Hands, V.Barriac, Standardization activities in the ITU for QoE
Assessment of the IPTV, IEEE Communications Magazine, Feb. 2008
[Xiao] Feng Xiao, “DCT-based Video Quality Evaluation”, MSU Graphics and Media Lab
(Video Group), 2000
[VQEG1] Video Quality Experts Group (VQEG): “Final Report from the Video Quality Experts
Group on the Validation of Objective Models of Video Quality Assessment”, Marzec
2000
[VQEG2] Video Quality Experts Group (VQEG): “Final Report from the Video Quality Experts
Group on the Validation of Objective Models of Video Quality Assessment, Phase II”,
VQEG Final Report of FR-TV Phase II Validation Test ©2003 VQEG, Sierpień 2003
[VQEG3] Final report of the VQEG on the validation of objective models of multimedia
quality assessment, Phase I, 2008
[Zwicker] E.Zwicker, H.Fastl, ”Psycho-acoustics: Facts and Models“, Springer-Verlag,
1990.
[Wang] Z.Wang et al. „Image quality assessment: from error visibility to structural similarity”,
IEEE Trans. on Image Proc. 13/4 2004
[Watt] A.F.Wattimena et al. „Predicting the perceived quality of a First Person Shooter - the
Quake IV G-model”, The 5th Workshop on Network & System Support for Games 2006
— NETGAMES 2006
[KST10] P.Dymarski, S.Kula, A.Sadowska "PESQ jako narzędzie do oceny jakości sygnału
VoIP" - KST 2010. Materiały konferencyjne opublikowane w Przeglądzie
Telekomunikacyjnym Nr.8-9/2010, ss.1299-1308
[Sęk] A.Sęk, E.Skrodzka, M.Marszałkiewicz, ”Psychoakustyka w pigułce”, Instytut
akustyki UAM, 2000
[Dymarski] .Dymarski, S.Kula, A.Janicki „Badanie jakości sygnałów i usług”, Przegląd
Telekomunikacyjny, Nr.4/2010, ss.118-120
[Boska] A.Boska, P.Świca „Wpływ parametrów kanału transmisyjnego na jakość percepcyjną
sygnałów wideo”, praca dypl. pod kier. S.Kuli, Warszawa 2005 [Sadowska] A.Sadowska „Algorytm PESQ jako narzędzie do oceny jakości sygnału mowy” –
praca dypl. pod kier. P.Dymarskiego, Warszawa 2011
[Kołodziejczyk] A.Kołodziejczyk, „Badanie dźwięku szerokopasmowego przy pomocy
algorytmu PEAQ”, praca dypl. pod kier. P.Dymarskiego, Warszawa 2011
[Kraciuk] G.Kraciuk „Badania porównawcze koderów audio za pomocą narzędzia PEAQ”,
praca dypl. pod kier. P.Dymarskiego, Warszawa 2012
[Toczko] M.Toczko „Badania kodera MPEG1 warstwa 3”, praca dypl. pod kier.
P.Dymarskiego, Warszawa 2013
[Thanh] Thanh Nguyen Huy „Wpływ parametrów sieci na postrzeganą jakość wideo”, praca
dypl. pod kier. P.Dymarskiego, Warszawa 2011
[Bokszczanin] P.Bokszczanin „Measurement of wideo signal quality in IP networks”, praca dypl.
pod kier. P.Dymarskiego, Warszawa 2013
[Pokorski] M.Pokorski „Metody oceny jakości obrazu nieruchomego”, praca dypl. pod kier.
P.Dymarskiego, Warszawa 2014
[Bródka] K.Bródka „Badanie jakości wybranych usług telekomunikacyjnych w sieci IP”, praca
dypl. pod kier. P.Dymarskiego, Warszawa 2012
[Żochowski] D.Żochowski „Analiza jakości i kompresji obrazu nieruchomego”, praca dypl. pod
kier. P.Dymarskiego, Warszawa 2012