Rozprawa doktorska - References

Rozprawa doktorska

mgr in�. Mikołaj Leszczuk

Analiza mo�liwo�ci budowy internetowych aplikacji dost�pu do cyfrowych bibliotek wideo

Promotor: prof. dr hab. in�. Zdzisław Papir

AKADEMIA GÓRNICZO-HUTNICZA WYDZIAŁ ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI I ELEKTRONIKI

KATEDRA TELEKOMUNIKACJI

Kraków 2005

2

Spis tre�ci Konwencje leksykalne................................................................................................................ 3 Wykaz skrótów........................................................................................................................... 6 1. Wst�p.................................................................................................................................. 9

1.1. Obszar bada� ............................................................................................................ 19 1.2. Stan rozwoju wybranych podsystemów DVL.......................................................... 20

1.2.1. Streszczanie...................................................................................................... 20 1.2.2. Indeksowanie.................................................................................................... 22 1.2.3. Kompresja ........................................................................................................ 26 1.2.4. Strumieniowanie............................................................................................... 32 1.2.5. Podsumowanie ................................................................................................. 34

1.3. Cel bada�.................................................................................................................. 34 2. Badanie efektywno�ci wybranych podsystemów DVL ................................................... 37

2.1. Streszczanie.............................................................................................................. 37 2.1.1. Sekwencyjna SBD............................................................................................ 38 2.1.2. Bisekcyjna SBD ............................................................................................... 47 2.1.3. Metody wyboru uj�� tworz�cych streszczenie................................................. 63

2.2. Indeksowanie............................................................................................................ 65 2.2.1. Rozpoznawanie tekstu...................................................................................... 65 2.2.2. Rozpoznawanie mowy ..................................................................................... 68

2.3. Kompresja ................................................................................................................ 70 2.3.1. �rodowisko bada� subiektywnych ................................................................... 71 2.3.2. Analiza statystyczna wyników bada� – podstawy teoretyczne........................ 72 2.3.3. Analiza wyników bada� i ich interpretacja ...................................................... 73

2.4. Strumieniowanie....................................................................................................... 77 2.4.1. Wpływ opó�nie� w sieci na postrzegan� jako�� usług .................................... 77 2.4.2. Porównanie serwerów strumieniuj�cych.......................................................... 84

2.5. Wnioski .................................................................................................................... 91 3. Medyczna Cyfrowa Biblioteka Wideo............................................................................. 93

3.1. Wst�p do MDVL...................................................................................................... 93 3.1.1. Stan rozwoju wybranych podsystemów MDVL .............................................. 94 3.1.2. Podsumowanie ............................................................................................... 100

3.2. Zastosowanie wybranych rozwi�za� w MDVL ..................................................... 100 3.2.1. Streszczanie w MDVL ................................................................................... 100 3.2.2. Kompresja w MDVL...................................................................................... 102

3.3. Wnioski z bada� MDVL ........................................................................................ 107 4. Wnioski ko�cowe i mo�liwo�ci dalszego rozwoju (M)DVL......................................... 109

4.1. Wnioski .................................................................................................................. 109 4.2. Mo�liwo�ci dalszego rozwoju................................................................................ 110

Literatura ................................................................................................................................ 112 Wykaz literatury wybranych zagadnie� ................................................................................. 123 Dodatek .................................................................................................................................. 135

3

KONWENCJE LEKSYKALNE

Autor niniejszej rozprawy stosowa� b�dzie nast�puj�ce konwencje leksykalne:

Analiza zgłosze� – proces kolekcjonowania oraz podejmowania działa� w oparciu o

inspekcj� informacji na temat ��da� strumieni wizyjnych przez u�ytkowników.

Cyfrowa biblioteka wideo (baza filmów wideo, multimedialna baza danych, DVL, ang.

Digital Video Library) – system wizyjny posiadaj�cy mechanizmy tworzenia,

udost�pniania, wspomagania u�ytkownika i u�ywania.

Digitalizacja (ucyfrawianie, ang. digitalization) – proces przenoszenia sekwencji wizyjnej

do cyfrowej pami�ci komputera.

Format zapisu – sposób zapisu sekwencji wizyjnej charakteryzuj�cy si� danymi

mo�liwo�ciami kompresji.

Indeksowanie (ang. indexing) – proces automatycznego wyznaczania słów kluczowych oraz

innych informacji (metadanych) charakteryzuj�cych dan� sekwencj� wizyjn�.

Integracja mediów – proces kreowania wspólnej reprezentacji danych ró�nego typu: tekst,

obraz ruchomy, d�wi�k prezentacja multimedialna.

Integrowanie – nakładanie grafiki dwuwymiarowej i trójwymiarowej na klatki sekwencji

wizyjnej oraz poddawanie ich efektom specjalnym.

Klatka (ramka, ang. frame) – pojedynczy obraz sekwencji wizyjnej.

Kolejkowanie – wstrzymywanie obsługi pewnych ��da� strumieni wizyjnych a� do momentu

pojawienia si� zasobów pozwalaj�cych na ich realizacj�.

Kompresja (ang. compression) – proces (stratnego) zmniejszania obj�to�ci sekwencji

wizyjnej celem przygotowania jej do strumieniowania i zapisu w danym formacie

zapisu.

Magazynowanie (ang. storage) – rozmieszczanie sekwencji wizyjnych poddanych wcze�niej

kompresji w zasobach pami�ci masowych.

Monta� (ang. editing) – proces logicznego składania uj��.

Nagrywanie (ang. recording) – proces analogowej rejestracji sekwencji wizyjnej za pomoc�

kamery.

4

Ogl�danie (ang. viewing) – proces odtwarzania strumieniowanej sekwencji wizyjnej w

komputerze u�ytkownika.

Przegl�danie (wertowanie, zapoznawanie si� z tre�ci�, ang. browsing) – proces

wyszukiwania elementów logicznej reprezentacji cyfrowej biblioteki wideo w

poszukiwaniu interesuj�cej sekwencji wizyjnej b�d� te� wyszukiwanie elementów

logicznej reprezentacji wybranej sekwencji wizyjnej w celu znalezienia

interesuj�cego fragmentu; podstawowymi procesami, jakim nale�y podda� sekwencj�

wizyjn� przeznaczon� do przegl�dania s�: streszczanie oraz indeksowanie.

Przesyłanie (ang. downloading) – proces kopiowania danych sekwencji wizyjnej z serwera

strumieniuj�cego do u�ytkownika przy u�yciu sieci telekomunikacyjnej.

Raporty – wyniki zadawania zapyta� do bazy danych.

Reprezentacja logiczna – multimedialny rekord danych przedstawiaj�cy szczegółowe

informacje o tre�ci danej sekwencji wizyjnej pozwalaj�ce na natychmiastow� ocen�

tej sekwencji wizyjnej bez konieczno�ci ogl�dni�cia jej – przykładowe pola rekordu

to: �cie�ka dialogowa, indeks słów kluczowych, nazwiska aktorów, hierarchiczna

struktura uj��, streszczenie sekwencji wizyjnej.

Scena (ang. scene) – grupa kilku, kilkunastu lub nawet kilkudziesi�ciu uj��, wszystkie uj�cia

nale��ce do jednej sceny musz� zosta� sfilmowane w tym samym miejscu i w (mniej

wi�cej) tym samym czasie.

Sekwencja wizyjna (materiał wideo, tre�� wideo, tre�� wizyjna, dane wideo, dane

multimedialne, dane wizyjne, ang. video) – uporz�dkowany zbiór klatek, czasami

wraz ze �cie�k� d�wi�kow�.

Serwer strumieniuj�cy – komputer podł�czony do sieci z uruchomionym oprogramowaniem

umo�liwiaj�cym zamawianie oraz strumieniowanie i sterowanie strumieniowaniem

strumieni wizyjnych do u�ytkowników.

Słowo kluczowe (ang. keyword) – termin charakteryzuj�cy dan� sekwencj� wizyjn�.

Sterowanie strumieniowania – proces modyfikacji parametrów strumieniowania.

Streszczanie (ang. summarization) – automatyczne tworzenie „podsumowania” sekwencji

wizyjnej staraj�ce si� odda� jak najlepiej jej tematyk�.

Strumieniowanie (ang. streaming) – proces synchronicznego przesyłania danych sekwencji

wizyjnej z serwera strumieniuj�cego do u�ytkownika przy u�yciu sieci

telekomunikacyjnej.

Taryfikacja (AAA, biling, ang. billing) – wyznaczanie i naliczanie opłat dla u�ytkowników

cyfrowej biblioteki wideo.

5

Tworzenie (produkcja tre�ci, produkcja materiałów wideo, produkcja sekwencji wizyjnych,

ang. authoring) – procesy nabywania, digitalizacji, monta�u i tworzenia cało�ci.

Udost�pnianie (ang. accessioning) – procesy kompresji, magazynowania, znakowania,

streszczania i indeksowania.

Uj�cie (ang. shot) – zbiór klatek sekwencji wizyjnej zarejestrowany od momentu zał�czenia

kamery do momentu wył�czenia kamery.

U�ywanie – procesy strumieniowania, interaktywno�ci, ogl�dania i zmieniania celu.

Wspomaganie u�ytkownika – procesy zapytywania, przegl�dania, pozyskiwania i

transkodowania.

Zapytywanie (ang. querying) – generowanie przez interfejsy kontaktu z u�ytkownikiem

ci�gów polece� w j�zyku obsługi bazy danych (np.: SQL).

Zarz�dzanie – systemy taryfikacji, analizy zgłosze� oraz kolejkowania zgłosze� do

cyfrowej biblioteki wideo.

Znakowanie (ang. watermarking) – dodawanie do sekwencji wizyjnej elementów (znaków

wodnych) jednoznacznie identyfikuj�cych jej autora w celu potencjalnej egzekucji

praw autorskich.

6

WYKAZ SKRÓTÓW

AAA – Authentication, Authorization and Accounting

AD – Average Difference

AF – Assured Forwarding

AIX – Advanced Interactive eXecutive

API – Applications Programming Interface

ATM – Asynchronous Transfer Mode

AVI – Audio Video Interleaved

BA – Behavior Aggregate

BSD – Berkeley Software Design

BSDI – Berkeley Software Design, Inc.

CBR – Constant Bit Rate

CD – Compact Disc

CGI – Common Gateway Interface

CLD – Color Layout Descriptor

CR – Compression Ratio

CSD – Color Structure Descriptor

CYGWIN – CYGnus WINdows

DC – Discrete Cosines

DCD – Dominant Color Descriptor

DCT – Discrete Cosine Transformation

DICOM – Digital Imaging and COmmunication in Medicine

DiffServ – Differentiated Services

DS – DiffServ (akronim rekursywny)

DSCP – DiffServ Code Point (akronim rekursywny)

DSS – Darwin Streaming Server

DTS – Digital Theater Systems

DVB – Digital Video Broadcasting

DVD – Digital Video Disc, Digital Versatile Disc

DVL – Digital Video Library

EF – Expedited Forwarding

EHD – Edge Histogram Descriptor

7

FPS – Frames Per Second

FTP – File Transfer Protocol

HMMD – Hue, Min, Max, Difference

HP – Hewlett Packard

HREF – Hypertext REFerence

HTD – Homogeneous Texture Descriptor

HTML – HyperText Markup Language

HTTP – HyperText Transfer Protocol

HUS – HelixTM Universal Server

IBM – International Business Machines

Internet TV – Internet Tele-Vision

IntServ – Integrated Services

IP – Internet Protocol

IS – IntServ (akronim rekursywny)

iTV – internet TV (w zasadzie: Internet TV, akronim rekursywny)

KMD – Kazaa Media Desktop (w zasadzie: KaZaA Media Desktop)

MACOSX – MACintosh Operating System uniX (w zasadzie: MACintosh Operating System UNIX)

MHz – Mega Hertz

MOS – Mean Opinion Score

MPEG – Motion Picture Experts Group

MPLS – MultiProtocol Label Switching

NCF – Normalized Curiosity Factor

NT – New Technology

NTSC – National Television System

OCR – Optical Character Recognition

OS – Operating System, Opinion Score

OVS – Oracle Video Server

PAL – Phase Alternating Line, Phase Alternation by Line

PDB – Per Domain Behavior

PHB – Per Hop Behavior

PHP – Hypertext PreProcessor

PPV – Pay-Per-View

PQS – Picture Quality Scale

PSNR – Peak Signal to Noise Ratio

QoP – Quality of Perceptron

QoPS – QoP Satisfaction

QoPU – QoP Understanding

8

QoS – Quality of Service

QT – QuickTime

RA – RealAudio

RAID – Redundant Array of Independent Dinks, Redundant Array of Inexpensive Disks

RAM – RealAudio Media

RGB – Red Green Blue

RM – RealMedia

RNS – RealNetworks Server

RSVP – Resource reSerVation Protocol

RTP – Real-Time transport Protocol, Real-time Transport Protocol

RTSP – Real-Time Streaming Protocol

RV – RealVideo

SB – Shot Boundary

SBD – Shot Boundary Detection

SCD – Scalable Color Descriptor

SDK – Software Development Kit

SINIX – SIemens UNIX

SLA – Service Level Agreement

SMIL – Synchronized Multimedia Integration Language

TC – Traffic Class

TCP – Transmission Control Program, Transmission Control Protocol

TOS – Type Of Service

URL – Universal Resource Locator

UX – UniX (w zasadzie: UNIX)

VBR – Variable Bit Rate

VC – VideoConferencing

VDB – Video DataBase

VDP – Video Datagram Protocol

VoD – Video on Demand

VSE – Video Streaming Engine

WWW – World Wide Web

9

1. WST�P

Osi�gni�cia �rodowisk akademickich i firm komercyjnych w dziedzinie bibliotek cyfrowych

pokazuj� istotny potencjał aplikacji pozwalaj�cych na przeszukiwanie oraz pobieranie

skatalogowanych materiałów cyfrowych przez Internet, czyli praktycznie z dowolnego

miejsca na �wiecie. Upraszczaj�c dost�p do aktualnych czy te� archiwalnych dokumentów i

informacji naukowych, biblioteki cyfrowe tworz� nowe obiecuj�ce mo�liwo�ci,

rewolucjonizuj�c procesy dydaktyczne, przyspieszaj�c badania naukowe i rozwój

technologiczny oraz upowszechniaj�c dost�p do informacji. Ale to nie wszystko. Cyfrowe

biblioteki id� krok dalej w stosunku do bibliotek tradycyjnych, pozwalaj�c na gromadzenie i

indeksowanie zró�nicowanych i zło�onych typów materiałów, takich jak zdj�cia, sekwencje

wizyjne (materiały filmowe), grafika, d�wi�k i innego rodzaju multimedia. Jednocze�nie z

rozwojem bibliotek cyfrowych Internet stał si� szeroko rozpowszechnionym medium

komunikacji i dost�pu do informacji. Wraz z powszechnym dost�pem do Internetu, wpi�te do

niego cyfrowe biblioteki mog� współpracowa� z szerok� gam� innych internetowych

systemów informacyjnych i umo�liwia� nieprzerwany dost�p do katalogowej informacji na

całym �wiecie.

W zało�eniu, cyfrowe biblioteki zintegrowane z Internetem powinny zapewnia�

idealne, pot��ne narz�dzie dost�pu do tre�ci cyfrowych. Niestety, w rzeczywisto�ci techniki,

na których obecnie oparte s� cyfrowe biblioteki i Internet wymagaj� znacz�cych ulepsze�,

zanim pozwol� cyfrowym bibliotekom wyprze� biblioteki tradycyjne. Cho� cyfrowe

biblioteki maj� wiele zalet, mi�dzy innymi wynikaj�cych z mo�liwo�ci dost�pu do zło�onych

tre�ci, na przykład wizyjnych, to wci�� brakuje im wydajnych mechanizmów wyszukiwania i

przesyłania znalezionych materiałów do u�ytkownika.

Specjaln� grup� cyfrowych bibliotek, w których poło�ono nacisk na katalogowanie,

wyszukiwanie i pobieranie cyfrowych sekwencji wizyjnych, s� cyfrowe biblioteki wideo

(DVL, ang. Digital Video Libraries). DVL, podobnie jak inne biblioteki, s� tworzone z

zało�eniem korzystania ze� wielu u�ytkowników – w zwi�zku z tym DVL sprawdzaj� si�

najlepiej, gdy wpi�te s� do Internetu, a nie jedynie do sieci lokalnej. W konsekwencji za�, aby

10

efektywnie obsługiwa� u�ytkowników, DVL musz� zapewnia� efektywne metody

wyszukiwania i przesyłania sekwencji wizyjnych.

Rysunek 1.1 przedstawia model interakcji u�ytkownika z DVL. Pierwszym procesem

jest udost�pnienie sekwencji wizyjnej, polegaj�ce na katalogowaniu jej, indeksowaniu, a

nast�pnie zapisaniu w DVL. Nast�pnie u�ytkownik przeszukuje DVL zadaj�c jej zapytania i

otrzymuj�c wyniki (elementy katalogu i indeksu DVL). Zwrócone u�ytkownikowi

odpowiedzi na zapytania s� przez niego przegl�dane. U�ytkownik mo�e doprecyzowa�

zapytanie lub okre�li�, które z wyników zapytania najbardziej pasuj� do wyników

spodziewanych [93]. Kiedy lista odpowiedzi na zapytanie zadowala u�ytkownika, wybiera on

interesuj�ce go pozycje z listy.

Udost�pnianie Wyszukiwanie Przegl�danie

Sprz��enie zwrotne

Pozyskiwanie

Strumieniowa-nie

Magazynowa-nie lokalne

Ogl�danie

Rysunek 1.1. Model interakcji u�ytkownika z DVL (�ródło: [140])

Istniej� dwie mo�liwo�ci dostarczenia u�ytkownikowi wybranych sekwencji

wizyjnych: drog� pobierania i strumieniowania. W przypadku strumieniowania sekwencja

wizyjna jest przesyłana do u�ytkownika przez sie� z pr�dko�ci� pozwalaj�c� na

natychmiastowe jej odtworzenie. Bardzo cz�sto u�ytkownik mo�e sterowa� odtwarzaniem,

czyli przykładowo przewija� wprzód, wstecz, zatrzymywa� odtwarzanie itd. W przypadku

pobierania sekwencji wizyjnej, sekwencja jest przesyłana do u�ytkownika i magazynowana w

jego lokalnym terminalu. W takim przypadku, sekwencja wizyjna mo�e by� ogl�dni�ta w

pó�niejszym czasie lub te� mo�liwe jest jej u�ycie w innych aplikacjach.

Nale�y zauwa�y�, �e DVL posiadaj� wiele cech wspólnych z innymi wizyjnymi

systemami informacyjnymi, takimi jak systemy wideo na ��danie (VoD, ang. Video on

Demand), systemy wideokonferencyjne (VC, ang. VideoConferencing) i wizyjne bazy danych

(VDB, ang. Video DataBase). Ró�nice mi�dzy systemami, czasami zacieraj�ce si�, objawiaj�

11

si� głównie w posiadaniu (lub nie) funkcjonalno�ci: magazynowania, wyszukiwania,

katalogowania, przegl�dania i pobierania (patrz Tabela 1.1). Systemy VC zwykle

projektowane s� z my�l� o pracy w czasie rzeczywistym, zapewniaj�cej wizyjn� komunikacj�

mi�dzy u�ytkownikami w sieci. Zadaniem systemów VoD jest dostarczanie strumieni

wizyjnych o wysokiej przepływno�ci do grup u�ytkowników. Systemy VDB magazynuj� i

pozwalaj� na przeszukiwanie sekwencji wizyjnych korzystaj�c z metadanych, jednak nie

posiadaj� funkcjonalno�ci strumieniowania sekwencji wizyjnych. Istniej� te� wizyjne systemy

informacyjne, które z trudno�ci� mo�na jednoznacznie przyporz�dkowa� do którego� ze

wspomnianych typów [90].

Tabela 1.1. Porównanie mo�liwo�ci ró�nych typów wizyjnych systemów informacyjnych (�ródło: [140])

Wizyjny system informacyjny Funkcjonalno��

DVL VoD VDC VC

Magazynowanie

Wyszukiwanie

Katalogowanie

Przegl�danie

Pobieranie

Strumieniowanie

Przesyłanie pojedyncze1

Rozgał�zianie2 1 Przesyłanie pojedyncze – ang. unicasting. 2 Rozgał�zianie – ang. multicasting.

DVL nie jest na ogół homogenicznym produktem. W wi�kszo�ci przypadków mamy

do czynienia z integracj� pewnej liczby cz��ci składowych (systemów, podsystemów). Ka�dy

z nich realizuje jakie� wyró�nione zadanie, nierzadko rozwi�zuj�c konkretny problem

koncepcyjny, dopiero za� sprawne współdziałanie modułów daje w efekcie produkt ko�cowy,

jakim jest DVL. W artykule [140] zaproponowany został pewien model ideowy DVL.

Dziedzina bada� zwi�zanych z DVL rozwija si� bardzo szybko i przedstawiony ogólny model

DVL pozostaje wci�� aktualny, mimo �e został on stworzony ju� sze�� lat temu. Rysunek 1.2

za artykułem [140] przedstawia główne systemy i podsystemy DVL. Jak wida�, cztery

główne systemy DVL (a tak�e klasycznej biblioteki) to systemy Tworzenia, Udost�pniania,

Wspomagania u�ytkownika i U�ywania. Ka�dy z systemów składa si� z wielu podsystemów,

takich jak: nabywania, edycji, magazynowania, indeksowania, zapytywania, przegl�dania,

odzyskiwania i zmieniania celu. Kolejno�� czynno�ci, jakie wykonuj� u�ytkownicy

12

tradycyjnych i cyfrowych bibliotek jest podobna. Jednak biblioteki cyfrowe wprowadzaj�

nowe procesy, takie jak digitalizacja, tworzenie cało�ci, kompresja, znakowanie,

transkodowanie i interaktywna nawigacja. Multimedialna zawarto�� DVL wymusza

strumieniow� form� dostarczania sekwencji wizyjnych, d�wi�ku i innych form mediów czasu

rzeczywistego.

Rysunek 1.2. Główne systemy i podsystemy cyfrowej biblioteki wideo (wg [140]), kolor biały – podsystemy

istniej�ce zarówno w bibliotekach tradycyjnych jak i w cyfrowych, kolor czerwony – nowe podsystemy

wprowadzone wraz z powstaniem bibliotek cyfrowych

System tworzenia sekwencji wizyjnych zawiera w sobie mi�dzy innymi podsystemy

digitalizacji i monta�u. Podsystem digitalizacji słu�y przeniesieniu sekwencji wizyjnej z

medium analogowego do cyfrowej pami�ci komputera. Sekwencja wizyjna nagrywana na

ta�mie filmowej lub magnetycznej składa si� sekwencji obrazów zwanych klatkami. Na

ta�mie filmowej w jednej sekundzie mieszcz� si� 24 klatki. W systemie PAL jest ich 25 w

jednej sekundzie, w NTSC – 30 1 . Obecnie coraz cz��ciej spotykamy si� z procesem

bezpo�redniego wgrywania sekwencji obrazów do pami�ci komputerów (bez etapu

przej�ciowego – ta�my analogowej). W takiej sytuacji liczba klatek na sekund� mo�e by�

ustalona dowolnie, cz�sto w celu zmniejszenia obj�to�ci materiału stosuje si� podzielnik 1:2,

czyli odpowiednio 12, 12,5 lub (około) 15 klatek na sekund�. Tradycyjne procesy tworzenia

sekwencji wizyjnych oparte na ta�mie filmowej i magnetycznej zostały zrewolucjonizowane

1 W rzeczywisto�ci jest to 29,97 lub 30.

Znakowanie (Watermarking)

Indeksowanie (Indexing)

Magazynowanie (Storage)

Kompresja (Compression)

Nabywanie (Acquisition)

Digitalizacja (Digitalization)

Monta� (Editing)

Tworzenie cało�ci (Compositing)

TWORZENIE (AUTHORING)

UDOST�PNIANIE (ACCESSIONING)

Streszczanie (Summarization)

WSPOMAGANIE U�YTKOWNIKA (PATRONAGE)

Zapytywanie (Querying)

Przegl�danie (Browsing)

Pozyskiwanie (Retrieval)

Transkodowanie (Transcoding)

U�YWANIE (USAGE)

Strumieniowanie (Streaming)

Zmienianie celu (Repurposing)

Interaktywno�� (Interactivity)

Ogl�danie (Viewing)

13

technikami cyfrowymi. Digitalizacja sekwencji wizyjnych jest obecnie powszechnie

realizowana za pomoc� kamer cyfrowych i komputerowych kart przechwytuj�cych obraz

ruchomy. Dzi�ki mo�liwo�ci zapisu sekwencji wizyjnych w postaci plików cyfrowe

podsystemy (stanowiska) monta�u sekwencji wizyjnych umo�liwiaj� ich monta� przy u�yciu

techniki nieliniowej. Monta�y�ci mog� w nieskomplikowany sposób podzieli�, poszeregowa�

i poł�czy� cyfrow� sekwencj� wizyjn� przy u�yciu stanowiska monta�u nieliniowego.

Dodatkowo, przetwarzanie cyfrowe umo�liwia wprowadzenie wcze�niej niedost�pnej du�ej

liczby efektów i przej��. Na koniec, cyfrowy monta� sekwencji wizyjnych umo�liwia tak�e

ich integracj� z dwu- i trójwymiarowymi elementami graficznymi.

System udost�pniania sekwencji wizyjnych w DVL zawiera podsystemy

streszczania, indeksowania, znakowania, kompresji i magazynowania sekwencji wizyjnych.

Efektem działania procesów systemu udost�pniania jest powstanie trzech zasobów informacji:

zasobu danych wizyjnych, zasobu danych przegl�dania i zasobu metadanych.

Zasób danych wizyjnych zawiera kompresowane sekwencje wizyjne. Zasób danych

przegl�dania zawiera sekwencje wizyjne b�d�ce streszczeniami. Przykładami streszcze�

sekwencji wizyjnych mog� by� wersje sekwencji wizyjnych zapisane w niskiej

rozdzielczo�ci, listy kluczowych scen lub uj��, grafy przej�� mi�dzy scenami lub uj�ciami,

zwiastuny itd. (streszczenia zostan� omówione w dalszej cz��ci dokumentu). Zasób

metadanych zawiera indeks i katalog danych u�ywane do odpowiadania na zapytania

u�ytkowników.

Podsystem streszczania sekwencji wizyjnej generuje dane przegl�dania segmentuj�c i

streszczaj�c sekwencj� wizyjn�. Przegl�danie streszcze� sekwencji wizyjnych jest

nieodł�czn� cz��ci� całego procesu przegl�dania DVL. Warto zda� sobie bowiem spraw� z

faktu, �e r�cznie przegl�danie np. dwugodzinnej sekwencji wizyjnej w poszukiwaniu

interesuj�cych fragmentów zabiera du�o czasu. Tylko dzi�ki ogl�dni�ciu streszczenia

u�ytkownik mo�e zapozna� si� z tre�ci� sekwencji wizyjnej, bez konieczno�ci przesyłania jej

całej przez sie�. Streszczenia ułatwiaj� wi�c proces wygodnego przegl�dania DVL. Istot�

problemu stanowi tutaj umiej�tno�� podzielenia materiału �ródłowego na uj�cia oraz selekcja

uj�� kluczowych dla reprezentacji cało�ci sekwencji wizyjnej. Mechanizmem ułatwiaj�cym

ten proces jest algorytm pozwalaj�cy w sposób automatyczny dokona� analizy uj��

wyst�puj�cych w sekwencji wizyjnej i wyboru najistotniejszych z nich. W przypadku, gdy

sekwencja wizyjna zawiera �cie�k� d�wi�kow�, równie� i ona musi zosta� streszczona [39].

14

W sposób oczywisty, streszczenie musi by� znacz�co krótsze od cało�ci sekwencji

wizyjnej. W pierwszej estymacji, opieraj�c si� na do�wiadczeniu monta�ystów przyjmuje si�,

�e obj�to�� streszczenia powinna by� zmniejszona około 60 razy w stosunku oryginału, czyli

jedna sekunda streszczenia powinna obrazowa� jedn� minut� oryginalnej sekwencji wizyjnej.

Jednocze�nie nieprzyj�te jest tworzenie streszcze� o obj�to�ci krótszej ni� 30 sekund.

W celu tak istotnego, ale tak�e równomiernego zmniejszenia długo�ci oryginalnej

sekwencji wizyjnej mo�na:

1) umieszcza� w streszczeniu co (�rednio) 60. klatk� oryginalnej sekwencji wizyjnej,

2) umieszcza� w streszczeniu co (�rednio) 60. uj�cie oryginalnej sekwencji wizyjnej,

3) skróci� (�rednio) 60 razy ka�de uj�cie oryginalnej sekwencji wizyjnej.

Pierwsza metoda skutkuje powstaniem nowej sekwencji wizyjnej przyspieszonej 60

razy w stosunku do oryginału, co nie jest akceptowalne. W praktyce stosuje si� zatem

poł�czenie metody drugiej i trzeciej. Ogólny algorytm polega na:

1) posortowaniu uj�� od najistotniejszych,

2) ewentualnym skróceniu uj�� (w zale�no�ci od rodzaju uj�cia) do 3-8 sekund,

3) wybraniu takiej liczby „najbardziej interesuj�cych” uj��, aby razem tworzyły one

skrót o wymaganej długo�ci.

Sam za� proces automatycznego przygotowywania reprezentatywnego streszczenia

sekwencji wizyjnej musi polega� na szczegółowej analizie tre�ci, wł�czaj�c w to analiz�

poziomu ruchu obiektów w poszczególnych klatkach sekwencji wizyjnej oraz wykrywanie

granic uj�� (SBD, ang. Shot Boundary Detection) tej sekwencji. Analiza posegmentowanej w

dziedzinie czasu (po wykonaniu SBD) sekwencji wizyjnej staje si� łatwiejsza od analizy całej

sekwencji wizyjnej.

Proces segmentacji, u�ywaj�c technik SBD, zwykle przegl�da i segmentuje w

dziedzinie czasu sekwencj� wizyjn� oraz wybiera klatki kluczowe2. Uj�cia to grupy klatek

powstałe na skutek wł�czania/wył�czania kamery, a tak�e przez celowe wprowadzenie w

procesie monta�u przej�� takich jak wyciemnienia, rozja�nienia, rozproszenia, przetarcia itd.

W celu poprawienia rezultatów SBD, cz�sto istotne jest rozró�nianie płynnych granic uj��

(SB, ang. Shot Boundary) od ruchów kamery, zdj�� panoramicznych, przybli�e�, ruchu 2 W literaturze przedmiotu istniej� dwa poj�cia oznaczane jednym terminem „klatki kluczowej” (ang. key frame). W kontek�cie procesów streszczania i indeksowania, klatk� kluczow� oznacza si� klatk� nios�c� informacj� wizualn� reprezentatywn� merytorycznie dla wszystkich klatek w obr�bie otaczaj�cego klatk� kluczow� uj�cia lub sceny. W kontek�cie procesów kompresji, klatk� kluczow� oznacza si� klatk� nios�c� pełn� informacj� o obrazie (np. klatka typu I w standardach kompresji MPEG-1/MPEG-2) w odró�nieniu od klatek nios�cych jedynie informacje ró�nicowe wzgl�dem klatki kluczowej (np. klatka typu P lub B w standardach kompresji MPEG-1/MPEG-2). Wsz�dzie tam, gdzie z kontekstu nie wynika wprost które poj�cie oznacza u�yty termin klatki kluczowej, autor specyfikuje to dodatkowo.

15

obiektów czy ruchu tła. Proces SBD próbkuje klatki w dziedzinie czasu i analizuje ich

wzajemne zmiany. Po wykonaniu SBD kolejnym etapem segmentacji sekwencji wizyjnej jest

wybranie klatek kluczowych, których mo�na u�y� do stworzenia skrótowej reprezentacji

sekwencji wizyjnej u�ytecznej w procesie przegl�dania. Inn� mo�liwo�ci� generowania

streszcze� sekwencji wizyjnej jest zgrupowanie uj�� w sceny. Scena to grupa kilku,

kilkunastu lub nawet kilkudziesi�ciu uj��. Wszystkie uj�cia w ramach jednej sceny musz�

zosta� sfilmowane w tym samym miejscu i w (mniej wi�cej) tym samym czasie. W literaturze,

niestety, cz�sto mo�na spotka� si� z przypadkami mylenia poj�� sceny i uj�cia. Uj�cia

pogrupowane w sceny umo�liwiaj� zbudowanie reprezentacji struktury sekwencji wizyjnej.

Takie streszczenia sekwencji wizyjnej s� u�yteczne dla celów wizualizacji sekwencji wizyjnej

na wy�szym poziomie abstrakcji oraz dla celów przegl�dania wyników wyszukiwania.

Nale�y zwróci� uwag�, �e SBD mo�e by� u�ywana tak�e i w innych systemach DVL.

Przykładowo, z wyników SBD mog� korzysta� metody ukrywania bł�dów transmisyjnych,

implementowane w podsystemie strumieniowania (cz��ci systemu u�ywania DVL) [114].

��

��

��

��

��

��

��

� ��

��

��

��

��

Rysunek 1.3. Klatki i uj�cia

Jako�� indeksowania zawarto�ci DVL w sposób bezpo�redni skutkuje pó�niej

łatwo�ci� przegl�dania jej tre�ci. Innymi słowy, im dokładniej tre�� jest indeksowana, tym

wygodniej mo�na j� pó�niej przegl�da�. Nale�y zauwa�y�, �e problem indeksowania tre�ci

DVL nie sprowadza si� wył�cznie do nadania poszczególnym sekwencjom wizyjnym

numerów inwentarzowych i opisania ich kilkoma słowami kluczowymi, jak ma to miejsce w

przypadku cyfrowych bibliotek zawieraj�cych media tradycyjne, np. ksi��ki. Przegl�danie w

ten sposób indeksowanej DVL byłoby dosy� uci��liwe. DVL nie jest tym samym czym jest

biblioteka cyfrowa zawieraj�ca innego rodzaju rekordy. O ile cyfrowe biblioteki tekstów s�

stosunkowo łatwe do indeksowania [173, 174], to DVL same w sobie nie zawieraj� informacji

tekstowych, zwi�zanych z tre�ci� zawartych w nich sekwencji wizyjnych, mog�cych posłu�y�

cho�by za słowa kluczowe. Dodatkowym utrudnieniem mo�e by� fakt, �e naturalnie prostsze

16

jest przegl�danie tekstu od przegl�dania sekwencji wizyjnej. Cho� 80% percepcji zmysłów

człowieka le�y w sferze obrazów widzialnych, to taka a nie inna konstrukcja (dla porównania)

filmów i ksi��ek sprawia, �e znalezienie interesuj�cego nas fragmentu w nieznanym materiale

udaje si� na ogół szybciej w przypadku druku. Wi�kszo�� ksi��ek posiada spis tre�ci oraz

naturalny podział na rozdziały, podrozdziały. W przypadku filmów bardzo cz�sto tego typu

informacje nie s� ju� dost�pne. W klasycznym przypadku indeksowania sekwencji wizyjnych

w DVL, aby dokona� analizy tre�ci sekwencji wizyjnej i aby sekwencja wizyjna

charakteryzowała si� czym� wi�cej ni� tylko nazw�, obj�to�ci� czy rozdzielczo�ci�, istnie�

musi osoba, która dan� sekwencj� wizyjn� opisze i przyporz�dkuje jej słowa kluczowe oraz

jak�� kategori�. Osoba ta musi sekwencj� wizyjn� po prostu obejrze�. Niestety, ogl�dni�cie

całej sekwencji wizyjnej zabiera sporo czasu. Zamiast tego znacznie pro�ciej jest skorzysta� z

algorytmów, pozwalaj�cych w inteligentny sposób automatycznie indeksowa� sekwencje

wizyjne. Dlatego te� DVL powinna posiada� mechanizmy pozwalaj�ce automatycznie

zarówno okre�li� merytoryczn� zawarto�� zapisanych w DVL sekwencji wizyjnych, jak i

pozwoli� na stworzenie logicznej reprezentacji tre�ci biblioteki. W zwi�zku z tym, podsystem

indeksowania sekwencji wizyjnych generuje metadane dla ka�dej sekwencji wizyjnej

analizuj�c ró�nymi technikami cechy jej uj��, cechy jej klatek kluczowych, cechy jej �cie�ki

d�wi�kowej, a tak�e jej streszczenia. Dodatkowo, do zasobu metadanych DVL mog� by�

dodane inne metadane, przykładowo wcze�niej wspomniane informacje bibliograficzne

umo�liwiaj�ce hierarchizowanie sekwencji wizyjnych. Przykłady danych bibliograficznych to

tytuły, słowa kluczowe, daty, opisy, listy z obsad�, informacje procesu produkcji itd.

Znakowanie, w zale�no�ci od u�ytej techniki, mo�e by� realizowane przed lub po

kompresji. Cyfrowe znaki wodne s� sygnaturami osadzonymi w danych wizyjnych słu��cymi

do zabezpieczenia i uwierzytelnienia danych. Cyfrowe znaki wodne mog� by� niewidoczne (a

dokładniej – niezauwa�alne przez ludzkie oko) lub widoczne. Niewidoczne znaki wodne,

osadzaj�ce wybran� przez wła�ciciela sekwencji wizyjnej etykiet�, s� u�ywane do

rozstrzygania praw własno�ci. Jednocze�nie widoczne znaki wodne cz��ciowo zasłaniaj�

fragment obrazu w celu uniemo�liwienia jego nieautoryzowanego u�ycia.

Istnieje wiele mo�liwo�ci kompresji sekwencji wizyjnych. W wi�kszo�ci przypadków

s� to techniki stratne, umo�liwiaj�ce wydajne zmniejszenie ilo�ci magazynowanych danych

oraz dostosowanie strumienia wizyjnego do przepustowo�ci ł�cza dost�powego, jakim

u�ytkownik ł�czy si� z sieci� Internet (modem, ISDN, DSL, CATV). Zalety silnej kompresji

uwidaczniaj� si� szczególnie w przypadkach współdzielenia jednego ł�cza dost�powego przez

17

wielu u�ytkowników. Z punktu widzenia DVL kompresja pozwala jednocze�nie

strumieniowa� wiele sekwencji wizyjnych.

Zadaniem podsystemu magazynowania jest wprowadzanie danych powstałych w

poprzednich podsystemach systemu udost�pniania do wspomnianych ju� trzech zasobów

informacji: zasobu danych wizyjnych, zasobu danych przegl�dania i zasobu metadanych.

Zasób danych wizyjnych cz�sto jest skonstruowany hierarchicznie, tj. składa si� z wielu

typów no�ników informacji takich jak dysk magnetyczny, dysk optyczny czy ta�ma

magnetyczna. Hierarchiczne magazynowanie jest kompromisem pomi�dzy kosztami

magazynowania a szybko�ciami dost�pu.

System wspomagania u�ytkownika DVL zawiera podsystemy zapytywania,

przegl�dania, transkodowania i pozyskiwania sekwencji wizyjnych. Procesy zapytywania,

przegl�dania i pobierania, korzystaj� odpowiednio z: zasobu metadanych, zasobu danych

przegl�dania i zasobu danych wizyjnych. Obsługa ka�dego u�ytkownika przebiega w

odr�bnej sesji, z których ka�da rozpoczyna si� zapytaniem u�ytkownika skierowanym do

zlokalizowanego w DVL mechanizmu obsługuj�cego zapytania. Wyniki zapytania s�

przekazywane do mechanizmu przegl�dania, a nast�pnie do u�ytkownika przesyłane s�

odpowiednie dane z zasobu danych przegl�dania. W tym momencie u�ytkownik mo�e

stwierdzi�, �e znalazł ��dan� sekwencj� wizyjn� b�d� zmodyfikowa� zapytanie i powtarza�

do skutku cykl: zapytanie, przegl�danie wyników, modyfikacja zapytania itd. W momencie

kiedy u�ytkownik wska�e ostateczn� szukan� sekwencj� wizyjn�, mechanizm pozyskiwania

wy�le j� do u�ytkownika b�d� to w formie strumienia, b�d� to jako plik pobierany i

zapisywany na dysku lokalnym komputera u�ytkownika.

Dokonywanie zapyta� (przez podsystem zapytywania) do DVL mo�e by� troch�

skomplikowane z uwag� na audiowizualny charakter zgromadzonych w DVL danych. Bardzo

cz�sto zapytania odnosz� si� do cz��ci sekwencji wizyjnej, a nie do sekwencji wizyjnej jako

cało�ci. Oznacza to, �e indeksowanie dotyczy� musi poszczególnych, identyfikowalnych w

czasie fragmentów sekwencji wizyjnej. Sposobem osi�gni�cia takiego typu indeksowania

mo�e by� indeksowanie wył�cznie kluczowych klatek sekwencji wizyjnej. W takim

przypadku u�ytkownik mo�e sformułowa� zapytanie w formie podania wzorca, czyli

przykładu (QBE, Query By Example), nast�pnie za� podsystem zapytywania jest w stanie

dobra� klatki kluczowe najbardziej podobne do zapytania [67]. Analiza wzorca podanego

jako zapytanie mo�e przykładowo okre�li� poło�enie obszarów kolorów (wzajemne i

18

wzgl�dem brzegów obrazu), co pozwala dalej dobra� najbardziej podobne obiekty

multimedialne w DVL.

Podsystemem, który umo�liwia ró�nym urz�dzeniom klienckim dost�p przez Internet

do DVL jest podsystem transkodowania. Nale�y zauwa�y�, ze obecnie obserwuje si�

ró�norodno�� urz�dze� posiadaj�cych dost�p do sieci Internet, znacz�co ró�ni�cych si�

mo�liwo�ciami wy�wietlania, przetwarzania, magazynowania i komunikowania si�.

Przykładowo, obecnie dost�p do sieci mog� mie� osobiste organizatory (PDA), komputery

nar�czne (HHC), telewizory z przegl�darkami WWW i telefony komórkowe [119]. Jednym z

potencjalnych problemów, jakie mog� wynikn�� przy próbie korzystania z takich urz�dze� z

DVL, s� ich ograniczone mo�liwo�ci obsługi strumieni sekwencji wizyjnych [148]. Dlatego

te� uniwersalny dost�p do DVL dla tego typu urz�dze� mo�e by� uruchomiony dopiero po

zainstalowaniu w DVL lub w sieci transkodera. Transkoder pozwala dostarczy� sekwencj�

wizyjn� w formie ruchomych lub nieruchomych obrazów, samego d�wi�ku czy te� tekstu, z

ró�nymi rozdzielczo�ciami zale�nymi od mo�liwo�ci urz�dzenia klienckiego. Czasami

transkoder musi zatem usun�� ze strumienia wizyjnego cz�� informacji, na przykład

zmniejszy� rozdzielczo�� obrazu [118] lub odrzuci� niektóre klatki strumieniowanej

sekwencji wizyjnej [27].

System u�ywania zawiera cztery podsystemy, z których najbardziej warty omówienia

jest podsystem strumieniowania. Jego zadaniem jest zapewnienie mo�liwie wysokiego

poziomu postrzeganej przez u�ytkownika jako�ci usług (ang. Perceived QoS, Perceived

Quality of Service) [144] wobec niedoskonało�ci medium transmisyjnego, jakim jest Internet.

Nale�y bowiem pami�ta�, �e pakietowe, publiczne ł�cza telekomunikacyjne charakteryzuj�

si� zazwyczaj niskim poziomem wrodzonej jako�ci usług (ang. Intrinsic QoS) [144]. Oznacza

to, �e w sieci takiej mocno ograniczona jest przepustowo��, nale�y spodziewa� si� strat

pakietów, opó�nie�, a tak�e fluktuacji opó�nienia [13]. Na ogólny poziom postrzeganej

jako�ci usług w DVL ma te� wpływ wiele innych czynników, takich jak protokoły

komunikacyjne, system operacyjny czy te� serwery plików. Aktualnie w Internecie

dost�pnych jest wiele protokołów mog�cych słu�y� do przesyłania sekwencji wizyjnych.

Niestety, z uwagi na niegwarantowany (typu best-effort) charakter pracy, �aden z nich nie

zapewnia wrodzonej jako�ci usług w relacji end-to-end [162]. W Internecie u�ywane s�

zarówno poł�czeniowe, jak i bezpoł�czeniowe protokoły transmisyjne. Protokoły

poł�czeniowe, takie jak TCP czy HTTP, pozwalaj� na zestawienie poł�czenia mi�dzy

stacjami i wymian� strumieni danych. Poniewa� protokoły te gwarantuj� dostarczanie

19

pakietów, ale nie gwarantuj� czasu dostarczania, nie s� one zbyt dobrze dostosowane do

strumieniowania sekwencji wizyjnych w czasie rzeczywistym. Protokoły bezpoł�czeniowe

natomiast, takie jak UDP czy RTP, wysyłaj� pakiety tak szybko jak jest to mo�liwe, ale nie

gwarantuj� ich dostarczania. Protokoły bezpoł�czeniowe, mimo �e bardziej dostosowane do

strumieniowania sekwencji wizyjnych, mog� powodowa� powstawanie zatorów w sieci, a w

konsekwencji obni�enie jako�ci pracy innych usług, z którymi współdziel� zasoby sieciowe.

1.1. Obszar bada�

Autor w niniejszej rozprawie stara si� poruszy� tylko cz�� aspektów zwi�zanych z budow� i

rozwojem DVL. W swoich badaniach skupił si� na aspektach streszczania, indeksowania i

kompresji, a tak�e przeprowadził badania w zakresie strumieniowania. Wybrane aspekty w

kontek�cie wszystkich systemów i podsystemów zostały zaznaczone granatow� obwódk�, co

przedstawia Rysunek 1.4.

Rysunek 1.4. Główne systemy i podsystemy cyfrowej biblioteki wideo (według [140])

Wybrane i rozwini�te przez autora podsystemy nie s� funkcjonalnie to�same z

koncepcj� kompletnej DVL. Przykładowo, autor �wiadomie nie badał szczegółowo aspektów

samej budowy aplikacji udost�pniania materiałów wideo z u�yciem interfejsów WWW

pozostawiaj�c te kwestie webmasterom i grafikom. Równie� zagadnieniem nie poruszonym

przez autora jest sama produkcja tre�ci wideo. Jest to jednak tematyka zwi�zana bardziej z

Znakowanie (Watermarking)

Indeksowanie (Indexing)

Magazynowanie (Storage)

Kompresja (Compression)

Nabywanie (Acquisition)

Digitalizacja (Digitalization)

Monta� (Editing)

Tworzenie cało�ci (Compositing)

TWORZENIE (AUTHORING)

UDOST�PNIANIE (ACCESSIONING)

Streszczanie (Summarization)

WSPOMAGANIE U�YTKOWNIKA (PATRONAGE)

Zapytywanie (Querying)

Przegl�danie (Browsing)

Pozyskiwanie (Retrieval)

Transkodowanie (Transcoding)

U�YWANIE (USAGE)

Strumieniowanie (Streaming)

Zmienianie celu (Repurposing)

Interaktywno�� (Interactivity)

Ogl�danie (Viewing)

20

technikami re�yserskimi i filmowymi ni� telekomunikacyjnymi czy informacyjnymi.

Natomiast pozostałe zagadnienia techniczne, nie analizowane w tej rozprawie stanowi� b�d�

punkt wyj�cia do przyszłych bada� naukowych autora.

W drugiej cz��ci rozprawy autor przeprowadził badania nad podsystemami DVL

zawieraj�cej tre�ci nierozrywkowe (z jakimi mo�na spotka� si� w wi�kszo�ci DVL),

mianowicie tre�ci u�ywane w telemedycynie. DVL zawieraj�ca zapisy procedur medycznych

nosi nazw� Medycznej DVL (MDVL). Nale�y zwróci� uwag�, �e niektóre z podsystemów

MDVL, z uwagi na tre�� jak� MDVL przechowuje, powinny by� implementowane w sposób

odmienny od ogólnego schematu DVL.

W przypadku opublikowanych w literaturze bada� zwi�zanych z MDVL,

dotychczasowa uwaga skupiona była wył�cznie na wybranych podsystemach DVL. W

odró�nieniu od DVL, w MDVL nacisk jest poło�ony prawie wył�cznie na podsystemy

kompresji, magazynowania, indeksowania, zapytywania, pozyskiwania i strumieniowania (ze

szczególnym uwzgl�dnieniem aspektów bezpiecze�stwa). Jednocze�nie dedykowane dla

MDVL podsystemy, takie jak podsystem streszczania, praktycznie nie istniej�.

Z uwagi na specyfik� danych medycznych indeksowanie MDVL opiera si� na innych

zasadach ni� indeksowanie DVL. Indeksowanie MDVL jest tematem bardzo obszernym i

mo�e z powodzeniem stanowi� temat osobnych pracy naukowych [24, 108, 123]. Dlatego

temat ten nie został przez autora podj�ty w przypadku MDVL. Inny z podsystemów –

podsystem strumieniowania, w przypadku MDVL nie ró�ni si� koncepcyjnie od

analogicznego systemu dla klasycznej DVL. Ró�nice wyst�puj� jedynie w procesie wdra�ania

podsystemu strumieniowania [110]. Dlatego te�, autor postanowił skoncentrowa� swoje

badania w obszarze wył�cznie dwóch podsystemów MDVL: streszczania i kompresji.

1.2. Stan rozwoju wybranych podsystemów DVL

Autor chciałby zaprezentowa� Czytelnikowi dotychczasowe osi�gni�cia i stan wiedzy

dotycz�cy wybranych dziedzin zwi�zanych z budow� cyfrowych bibliotek wideo. W dalszych

rozwa�aniach omawiane b�d� kwestie sposobów streszczania i indeksowania DVL, oceny

jako�ci kompresji oraz optymalnego wyboru systemu strumieniowania.

1.2.1. Streszczanie

Jak ju� wspomniano powy�ej, na proces streszczania składa si� szereg aspektów zwi�zanych

semantyczn� analiz� tre�ci sekwencji wizyjnej, pozwalaj�c� na dokonanie jej podziału na

21

uj�cia, sceny [68] czy inne fragmenty spójne tematycznie [2] b�d� na zaprezentowanie jej w

postaci hierarchicznej [3, 24, 132, 149] (co wchodzi ju� po cz��ci w zakres zada� podsystemu

indeksowania). Bywa, �e relacje hierarchiczne zachodz� zarówno pomi�dzy fragmentami

jednej sekwencji wizyjnej, jak i pomi�dzy ró�nymi sekwencjami wizyjnymi [91]. Jednym z

istotnych aspektów w dziedzinie tworzenia logicznej reprezentacji sekwencji wizyjnej jest

mo�liwo�� automatycznej SBD. Problem automatycznej SBD był ju� wielokrotnie badany.

Niestety, wi�kszo�� z rozwi�za� jest dosy� skomplikowana i nie znajduje zastosowania w

popularnych produktach. Opracowano wiele metod, jednak�e wci�� brakuje odbicia tej

działalno�ci na rynku aplikacji wideo. Autor znalazł na rynku niewiele programów

realizuj�cych tak� funkcj� (Scenalyzer, VideoWave, VirtualDub, DB2 Video Extender).

Pierwsze trzy programy został przetestowane przez autora, ale otrzymane wyniki nie były

satysfakcjonuj�ce. Generalnie, metody SBD mo�na podzieli� na dwie grupy: operuj�ce na

sekwencjach dekompresowanych i kompresowanych.

Metody SBD operuj�ce na danych dekompresowanych

Wi�kszo�� metod operuj�cych na danych dekompresowanych przegl�da sekwencyjnie

wszystkie klatki sekwencji wizyjnej poszukuj�c SB. Ka�da klatka jest dekompresowana, a

nast�pnie porównywane s� pewne atrybuty klatek, s�siednich lub kilku w obr�bie

przesuwaj�cego si� okna (ang. sliding window). Niektóre z opracowanych metod, jak np.

statystyczne metody porównywania pikseli [122] lub bloków, s� bardzo proste, lecz

stosunkowo efektywne. Niestety, metody te s� zbyt wra�liwe na szybkie ruchy kamery i

obiektów. W zwi�zku z tym, aby wyeliminowa� wra�liwo�� na ruchy obiektów, u�ywane s�

równie� inne, bardziej wyrafinowane metody, jak metody oparte na histogramach [77, 100,

129] lub zmiennych cechach obrazu. Inne techniki polegaj�ce na okre�laniu i porównywaniu

cech klatek (np. wykrytych kraw�dzi) podnosz� skuteczno�� wykrywania płynnych przej��

mi�dzy uj�ciami [140]. Czasami korzysta si� te� z metod opartych na takich parametrach, jak

współczynnik dyspersji [124, 137, 139, 140]. Niektóre algorytmy rozró�niaj� nawet

gwałtowne i płynne przej�cia mi�dzy uj�ciami [7, 109, 164]. Szczegółowy opis metod SBD

operuj�cych na danych dekompresowanych zawarty został w ksi��ce [36]. Jednak najprostsze

metody wci�� b�d� wystarczaj�ce do dokonania ogólnej SBD [140].

Metody SBD operuj�ce na danych kompresowanych

Metody operuj�ce na danych kompresowanych pozwalaj� istotnie przyspieszy� proces SBD.

Dla przykładu, przy sekwencjach wizyjnych kompresowanych kodekami MPEG-1 i MPEG-2,

22

które w procesie kompresji sekwencji wizyjnych u�ywaj� wewn�trzklatkowych transformat,

kwantyzacji i kodowania arytmetycznego, metody operuj�ce na danych kompresowanych

dokonuj� wył�cznie dekompresji arytmetycznej i dekwantyzacji, musz� natomiast dokonywa�

odwrotnej transformaty. Co wi�cej, metody operuj�ce na danych kompresowanych mog�

korzysta� z zapisanych w formacie MPEG-2 informacji mi�dzyklatkowych, takich jak

wektory ruchu, uzyskuj�c informacje o ruchu fragmentów obrazu i kamery [140].

W artykule [166] zaproponowano metod� SBD w kompresowanych sekwencjach

wizyjnych opart� na analizie informacji zawartych w zakresie niskich cz�stotliwo�ci.

Proponowana metoda pobiera odpowiednie współczynniki dyskretnej transformaty

kosinusowej (DCT) bezpo�rednio ze strumienia MPEG-1, a nast�pnie tworzy z nich

pomniejszone kilkudziesi�ciokrotnie wersje klatek. Analiza pomniejszonych klatek

umo�liwia wykrycie zarówno gwałtownych SB, jak i płynnych przej�� mi�dzy uj�ciami,

takich jak wyciemnienia czy rozja�nienia. Koncepcja ta została rozwini�ta w artykułach [25,

164, 165]. Czasami korzysta si� te� z metod opartych na takich parametrach jak �rednia

arytmetyczna zagregowanego ruchu [71, 100, 124, 129].

1.2.2. Indeksowanie

Indeksowanie cyfrowych bibliotek wideo jest dziedzin�, w której pomimo licznych sukcesów,

wielu naukowców wci�� szuka nowych rozwi�za�. Przewiduje si�, �e w najbli�szym czasie

dokonany zostanie przełom w tej dziedzinie [87, 103, 130, 140, 145]. Jak ju� wspomniano

powy�ej, termin indeksowanie w przypadku cyfrowych bibliotek wideo obejmuje szerokie

spektrum zagadnie�. Najcz��ciej jednak tym poj�ciem okre�la si� wyznaczanie słów

kluczowych dla danej sekwencji wizyjnej, a nast�pnie ich odpowiedni zapis w bazie danych

[28]. Jednym z rozwi�za� wspieraj�cych jest u�ycie mechanizmów rozpoznawania mowy [32,

113, 107, 143], tekstu, twarzy, a nawet kształtów.

Rozwój mechanizmów rozpoznawania mowy był pocz�tkowo skierowany na

identyfikacj� prostych polece� wydawanych komputerowi głosowo. Zwykle lista polece�

była predefiniowana i mocno ograniczona [101]. Sukces tego typu aplikacji zaowocował

badaniami w kierunku u�ycia mechanizmów rozpoznawania mowy dla celów indeksowania

rozmów telefonicznych i poczty głosowej. W tym przypadku konieczne ju� było u�ycie

bardziej zaawansowanych technik rozpoznawania mowy, w których lista rozpoznawalnych

słów była albo bardzo obszerna, albo (w przypadku rozpoznawania nie całych słów, lecz

pojedynczych zgłosek) praktycznie nieograniczona [63, 169]. Algorytmy rozpoznawania

mowy pozwalaj� zatem na indeksowanie ka�dej sekwencji d�wi�kowej czy wizyjno-

23

d�wi�kowej posiadaj�cej mówion� �cie�k� d�wi�kow�; obecnie obsługuj� one głównie j�zyk

angielski, ale istniej� ju� implementacje dla innych j�zyków. Osi�gana trafno��

rozpoznawania nie jest idealna (nie przekracza 50-60%), jednak�e, jak twierdz� eksperci

pracuj�cy w laboratoriach firmy IBM (�wiatowy lider w tej dziedzinie), nawet ni�sza trafno��

rozpoznawania mowy jest wystarczaj�ca, by wyłapa� główne słowa kluczowe [10]. Dlatego

integracja mechanizmów rozpoznawania mowy z cyfrow� bibliotek� wideo pozwala osi�gn��

obiecuj�ce rezultaty w zakresie indeksowania jej tre�ci, co zostało potwierdzone w wielu

badaniach, tak�e i autora rozprawy [81].

Nie tylko algorytmy i techniki rozpoznawania mowy mog� by� u�yte przy

indeksowania sekwencji wizyjnych. Dobrych rezultatów spodziewa� si� mo�na tak�e po

rozwi�zaniach opartych na rozpoznawaniu tekstu (znanych czasami jako OCR – ang. Optical

Character Recognition czyli Optycznego Rozpoznawania Znaków). Trzeba pami�ta�, �e na

klatkach sekwencji wizyjnych pojawia si� czasami du�o napisów, które słu�y� mog� jako

słowa kluczowe. R�czne ich spisywanie byłoby bardzo powolne, natomiast technika OCR

pozwala napisy „odczyta�” z obrazu i to ze �redni� szybko�ci� znacznie przewy�szaj�c�

operacj� dokonan� r�cznie.

Technika rozpoznawania tekstu mo�e zatem zosta� u�yta w przypadku indeksowania

wielu rodzajów napisów zawartych w klatkach sekwencji wizyjnych. Istniej� mo�liwo�ci

indeksowania przykładowo napisów informacyjnych (Rysunek 2.21) lub listy dialogowej

pojawiaj�cej si� w dolnej cz��ci klatek sekwencji wizyjnych3 (Rysunek 1.5).

3 Warto jednak zwróci� uwag�, �e obecnie coraz cz��ciej tłumaczenia oryginalnych dialogów wyst�puj� w postaci odr�bnych plików, nie ma zatem potrzeby ich odczytywania za pomoc� technik OCR.

24

Rysunek 1.5. Klatka filmu wraz z napisem (klatka z filmu „Szklana pułapka 3”; ramk� zaznaczono obszar, w

którym rozpoznawany jest tekst)

Efekty rozpoznawania tekstu informacyjnego lub listy dialogowej s� bardzo dobre.

Je�li sekwencja wizyjna zapisana jest w wysokiej rozdzielczo�ci, a napisy s� du�e, to

rozpoznawanie jest bezbł�dne lub prawie bezbł�dne [80]. Technika OCR jest niew�tpliwie

warta uwagi w przypadku indeksowania sekwencji wizyjnych stanowi�cych zawarto��

cyfrowych bibliotek wideo.

Algorytmy OCR ju� dawno temu doczekały si� swoich implementacji komputerowych.

Dost�pne s� zarówno implementacje komercyjne (FineReader), jak i darmowe, typu open-

source (GOCR, OCRAD). Niektóre z implementacji prócz rozpoznawania tekstu

drukowanego posiadaj� równie� mo�liwo�� rozpoznawania tekstu pisanego.

Technika rozpoznawania tekstu zwykle nie mo�e by� u�yta w przypadku ka�dego

napisu widocznego w klatce sekwencji wizyjnej. Przykładowo, litery rozpoznawanego tekst

musi by� odpowiedniej wielko�ci, sam napis za� musi by� wyrównany do kierunku

pionowego lub poziomego.

Wynika st�d, �e systemów OCR mo�emy u�ywa� tylko w szczególnych przypadkach.

Jednocze�nie lepiej jest posiada� cho�by bardzo szcz�tkowe informacje na temat napisów ni�

nie posiada� tych informacji wcale.

W celu indeksowania DVL mog� by� u�yte mechanizmy identyfikuj�ce cechy

charakterystyczne obrazów b�d�cych klatkami sekwencji wizyjnej. Tymi cechami

charakterystycznymi mog� by� wyst�puj�ce w obrazach kolory [77, 157, 158], tekstury,

kształty [4, 5, 6, 9, 23, 75, 80, 121, 150, 151] i inne [102, 163]. Je�li rozpatrywana jest

sekwencja wizyjna jako cało��, a nie jako poszczególne klatki, wtedy cech� charakterystyczn�

25

mo�e by� te� ruch. Prace nad metodami indeksowania sekwencji wizyjnych opartymi na ich

cechach wizyjnych prowadzono ju� od dawna [127]. Ostatnio za� du�e nadzieje przyniosło

pojawienie si� standardu MPEG-7 [17, 49, 136, 142, 154]. W standardzie tym zdefiniowano

szereg deskryptorów cech obrazu, które pozwalaj� w zwi�zły sposób opisa� kolory, tekstury,

kształty i ruch w sekwencji wizyjnej, a nast�pnie kojarzy� zapytania u�ytkownika z

najbardziej podobnymi obiektami zawartymi i opisanymi w DVL. Przykładem implementacji

mog� by� tutaj systemy opisane w artykułach [12] i [138] (VisualSEEk). System VisualSEEk

wyszukuje obiekty za pomoc� zapyta� w formie cech wizualnych: obszarów kolorów w

obrazie. VisualSEEk dobrze sprawdza si� w pozyskiwaniu obrazów zawieraj�cych zachody

sło�ca, natur�, pla�e itd., gdzie kompozycja obszarów kolorów w wydajny sposób

charakteryzuje obraz.

Deskryptory koloru MPEG-7 pozwalaj� opisa� kolor dominuj�cy, kolor skalowalny,

GOF/GOP, struktur� kolorów i rozkład kolorów. Na opis tekstur w MPEG-7 składaj� si�

deskryptory tekstury homogenicznej, przegl�dania tekstur i histogramu kraw�dzi. MPEG-7

definiuje deskryptory pozwalaj�ce rozpoznawa� kształty dwu- i trójwymiarowe.

Rozpoznawanie kształtów jest technik�, która pozwala na identyfikacj� typu obiektu

pojawiaj�cego si� w obrazie. W poł�czeniu z deskryptorami ruchu MPEG-7, technika ta

pozwala opisa� zarówno obrazy nieruchome, jak i ruchome. Niestety, rozwi�zania

rozpoznawania kształtów nie s� wci�� zbyt rozwini�te. W obecnych czasach komputery

rozpoznaj� (z wystarczaj�c� dokładno�ci�) jedynie bardzo proste kształty.

Na koniec nale�y wspomnie�, �e obiecuj�ce rezultaty przynie�� mo�e równie�

zastosowanie technik rozpoznawania twarzy. Czynno�� ta, absolutnie oczywista dla

człowieka, dopiero od niedawna mo�e by� realizowana przez komputery. Komputerowe

rozpoznawanie twarzy polega na zlokalizowaniu ludzkich twarzy [133] na klatce sekwencji

wizyjnej, nast�pnie ekstrakcji jej z reszty otoczenia i ostatecznie zidentyfikowaniu twarzy

przez porównanie jej ze wzorcami zapisanymi w bazie danych [73, 130]. Stosunkowo

niedawno ujednolicono algorytmy opisu twarzy pojawiaj�cych si� w obrazie bitmapowym.

Stało si� to przez wł�czenie tych algorytmów do standardu MPEG-7, który zawiera

deskryptory twarzy [49, 98]. Algorytmy rozpoznawania twarzy mog� by� implementowane w

systemach indeksuj�cych DVL [80], przy zało�eniu posiadania mo�liwie pojemnej bazy

danych wzorców twarzy.

26

1.2.3. Kompresja

W celu efektywnego strumieniowania oraz składowania filmów w bazie wideo konieczna jest

kompresja materiału �ródłowego. Istnieje wiele standardów kompresji cyfrowych sygnałów

wizyjnych, które implementowane s� programowo lub sprz�towo w formie kodeków. W celu

kompresji sygnału wizyjnego nale�y zatem u�y� kodeka, który zwykle w sposób stratny

zmniejszy rozmiar danych wizyjnych, a nast�pnie dane te nale�y zapisa� w jednym z

istniej�cych formatów zapisu. Danym wizyjnym towarzysz� zwykle dane d�wi�kowe, które

nale�y podda� analogicznemu procesowi. Poniewa� na obraz ruchomy przypada zazwyczaj

ponad 90% danych multimedialnych, to wła�nie jego kompresja ma decyduj�cy wpływ na

rozmiar pliku wynikowego oraz pó�niejsz� przepływno�� strumienia multimedialnego [18].

Standardy kompresji cyfrowych sygnałów wizyjnych mo�na podzieli� na rodzin�

standardów4 stosuj�cych wył�cznie kompresj� wewn�trzobrazow� oraz rodzin� standardów

stosuj�cych zarówno kompresj� wewn�trzobrazow� jak i mi�dzyobrazow�. Standardy

kompresji wewn�trzobrazowej, historycznie pierwsze, s� ju� w DVL stosunkowo rzadko

stosowane. Dynamicznie rozwijaj� si� natomiast standardy stosuj�ce kompresj� zarówno

wewn�trzobrazow�, jak i mi�dzyobrazow�. Rozwój tej rodziny standardów mo�na

sklasyfikowa� w postaci czterech generacji standardów. Wszystkie standardy zgromadzone w

jednej generacji wykazuj� si� bardzo zbli�onymi technikami kompresji, nierzadko w praktyce

nawet nie ma mi�dzy nimi ró�nic, z wyj�tkiem oznaczenia i organizacji standaryzuj�cej dany

kodek [135].

4 W odniesieniu do standardów kompresji, w literaturze wyst�puj� okre�lenia „rodzina” oraz „grupa”. Okre�lenia te u�ywane s� zwykle jako synonimy. Autor postanowił trzyma� si� okre�lenia „rodzina” dla podkre�lenia istotnych zwi�zków mi�dzy nale��cymi do niej standardami.

27

Tabela 1.2. Standardy kompresji cyfrowych sygnałów wizyjnych ([18])

Rodzina

standardów Standardy Charakterystyczne cechy Obszar zastosowa�

Standardy

kompresji

wewn�trz-

obrazowej

M-JPEG [47,

60], M-JPEG

2000 [48], DV

[42], DVPRO

[141], CCIR 721

[58]

Indywidualne dekodowanie

poszczególnych obrazów sekwencji,

mała zło�ono�� koderów i

dekoderów, mała efektywno��

kompresji (cz�sto mniej ni� 1:10)

Bardzo szeroko stosowane. Sprz�t

amatorski, systemy studyjne,

zwłaszcza edycji nieliniowej,

systemy nadzoru wizyjnego

Standardy

kompresji

pierwszej

generacji

H.120 [53],

CCIR 723 [59]

Proste techniki korzystaj�ca

kodowania mi�dzyobrazowego o

małej efektywno�ci kompresji

H.120 nigdy nie wszedł do

szerszego u�ytku. J.81 był szerzej

stosowany do transmisji sygnału

telewizyjnego mi�dzy o�rodkami i

stacjami nadawczymi

Standardy

kompresji

drugiej

generacji

H.261 [54],

MPEG-1 [43]

Ograniczony wybór trybów

kodowania makrobloków, proste

kodowanie Huffmana, jeden wektor

ruchu na makroblok typu P. Standard

MPEG-1 jest do�� starym (1992)

standardem kompresji wideo

Systemy ju� przestarzałe, coraz

rzadziej stosowane. H.261

spotykany w systemach VC.

MPEG-1: skonstruowany głównie

do materiałów filmowych

obrazuj�cych uj�cia rzeczywiste i

przepływno�ci strumienia rz�du 1

Mbit/s, stosowany w zapisie

VideoCD. Najpopularniejsze

scenariusze kompresji w MPEG-1

to Internet Low Band (250 kbit/s),

Half Screen Intranet (335 kbit/s),

Full Screen Intranet (480 kbit/s)

oraz NTSC, PAL i Video CD

(wszystkie 1,1 Mbit/s).

Obsługiwane s� tryby CBR i VBR

28

Standardy

kompresji

trzeciej

generacji

MPEG-2 [44,

55],

H.263/H.263+

[56, 37],

MPEG-4 [46]

Pewna poprawa efektywno�ci

kompresji i znaczne poszerzenie

wła�ciwo�ci funkcjonalnych,

zwi�kszony wybór trybów

kodowania, opcje umo�liwiaj�ce

kodowanie sygnałów z wybieraniem

mi�dzyliniowym, zwi�kszony wybór

kwantyzatorów, alternatywne

warianty kodowania Huffmana, a

czasem tak�e kodowania

arytmetycznego. MPEG-2 stwarza

pierwsze mo�liwo�ci

przystosowywania kompresowanych

sekwencji wizyjnych do

pó�niejszego skalowania. W

MPEG-4 zastosowano podej�cie

obiektowe, które umo�liwia

przesuwanie i zmian� rozmiarów

poszczególnych elementów

składowych sekwencji wizyjnej

Powszechnie stosowane techniki

(telewizja cyfrowa, płyty DVD,

Internet). MPEG-2 przystosowany

do tworzenia strumieni wizyjnych

o wysokich przepływno�ciach,

mog�cych sprosta� wymogom

telewizji wysokiej rozdzielczo�ci.

Najpopularniejsze scenariusze

kompresji w MPEG-2 to HP @ H-

14, MP @ HL, MP @ H-14

(wszystkie 10 Mbit/s), HP @ ML i

MP @ ML DVD (oba 6 Mbit/s)

oraz MP @ LL i MP @ LL SVCD

(oba 3 Mbit/s). Obsługiwane s�

tryby CBR i VBR.

Najpopularniejsze scenariusze

kompresji w standardzie MPEG-4

to ISMA Profile 0 (64 kbit/s) i

ISMA Profile 1 (od 256 kbit/s do

900 kbit/s). Standard obsługuje

tryby CBR i VBR

Standardy

kompresji

czwartej

generacji

AVC [45], H.264

[57]

Zastosowano wiele usprawnie�

prowadz�cych do znacznej poprawy

efektywno�ci kompresji

Techniki obecnie wdra�ane do

zastosowa� komercyjnych

Oprócz kodeków standaryzowanych przez mi�dzynarodowe organizacje

standaryzuj�ce, takie jak ISO, IEC, SMPTE czy ITU-T, istniej� te� kodeki tworzone w

ramach niezale�nych projektów. Czasami algorytm działania kodeka oraz kod �ródłowy jego

implementacji s� utajniane (tak si� dzieje w przypadku wi�kszo�ci implementacji firmowych),

czasami za� kodek powstaje na zasadach open-source. Niektóre z kodeków

niestandaryzowanych oparte s� na istniej�cym standardzie i stanowi� jedynie jego ulepszenie.

Poni�ej zestawiono kilka popularnych rodzin kodeków niestandaryzowanych.

1. Kodeki RealVideo (firmy RealNetworks) kompresuj�ce cyfrowe sygnały wizyjne.

• kodek RealVideo w najnowszej dziesi�tej wersji umo�liwia kompresj�

sekwencji wizyjnych, które mog� by� strumieniowane do u�ytkowników

posiadaj�cych ł�cza abonenckie o ró�niej przepustowo�ci. Do strumieniowania

29

mog� by� u�yte ł�cza zestawione za pomoc� modemów analogowych: ju� od

14,4 kbit/s, 28,8 kbit/s lub 56 kbit/s. Mo�liwe jest te� strumieniowanie przez

ł�cza ISDN: 64 kbit/s lub 128 kbit/s. U�ytkownicy posiadaj�cy modemy

kablowe lub xDSL mog� odbiera� strumienie o wy�szych przepływno�ciach:

256 kbit/s, 384 kbit/s, 512 kbit/s lub 768 kbit/s;

• uzupełnieniem kodeka RealVideo jest kodek RealAudio – oprócz standardowej

kompresji dzwi�ku, umo�liwia on zapisywanie go w systemie Surround.

Strumienie multimedialne mog� by� kompresowane w trybie CBR i VBR (dla

VBR maksymaln� przepływno�ci� strumienia jest nawet 1,5 Mbit/s).

2. Kodeki Windows Media Video (firmy Microsoft), podobnie jak kodeki RealMedia,

równie� umo�liwiaj� przygotowanie sekwencji wizyjnych pod k�tem ró�nych

rodzajów ł�czy dost�powych i ró�nych trybów strumieniowania.

Kodek Windows Media Video najnowszej wersji realizuje nast�puj�ce scenariusze:

• klasyczne pobieranie pliku (bez strumieniowania) – jako�� HDTV, DVD, VHS

– przepływno�� od 250 kbit/s (CBR) do 3 Mbit/s (VBR);

• przesyłanie w trybie usługi niegwarantowanej (best-effort) – jako�� HDTV,

DVD, VHS – przepływno�� maksymalna od 250 kbit/s (CBR) do 4 Mbit/s

(VBR);

• strumieniowanie – jako�� HDTV, DVD, VHS, VoD, VoD 16×9, pojedyncze

klatki, VC, telewizja przemysłowa, odtwarzanie na pełnym ekranie, jako��

kinowa, szybka migawka – przepływno�� CBR od 11 kbit/s do 3 Mbit/s;

• „strumieniowanie” z serwera WWW – jako�� HDTV, DVD, VHS, pojedyncze

klatki, odtwarzanie na pełnym ekranie, jako�� kinowa, szybka migawka –

przepływno�� CBR od 81 kbit/s do 3 Mbit/s;

• strumieniowanie do urz�dzenia Set-Top-Box – jako�� wysoka, �rednia, niska –

przepływno�� od 160 kbit/s do 10 Mbit/s;

• strumieniowanie do urz�dze� mobilnych – jako�� standardowa lub

podwy�szona – przepływno�� CBR 259 kbit/s;

• plik lokalny – jako�� 100%, 97%, 95%, 75% jako�ci oryginalnej –

„przepływno��” VBR znana dopiero po zakodowaniu materiału wideo.

Ten kodek, korzysta z tych samych nowoczesnych rozwi�za� co standardy czwartej

generacji (AVC/H.264) [18].

30

3. Rodzina kodeków b�d�ca ró�nego rodzaju implementacjami MPEG-4 standardu

trzeciej generacji [46] wzbogaconymi o liczne ulepszenia. Dost�pnych jest kilka

modyfikacji standardu MPEG-4. Najpopularniejsza jest rodzina formatów DivX:

DivX, DivX Pro, OpenDivX, XviD, 3viX i inne. Niektóre z implementacji (DivX,

DivX Pro, 3viX) powstaj� jako produkty komercyjne bez dost�pno�ci kodu

�ródłowego. Inne mutacje (OpenDivX, XviD) posiadaj� dost�pny kod �ródłowy (ang.

open-source). Niektóre ulepszenia niekoniecznie maj� na celu zwi�kszenie

współczynnika kompresji (CR – ang. Compression Ratio) – w kodeku 3viX nacisk

został poło�ony na przyspieszenie procesów kompresji i dekompresji, nawet kosztem

niewielkiego zmniejszenia CR.

Prócz wspomnianych, istnieje równie� cał� gama innych, mniej znanych kodeków.

Przykładami mog� tutaj by�: Sorenson Video firmy Sorenson Communications (ostatnia

wersja: 3 Pro), Indeo firm Intel i Ligos (ostatnia wersja: XP) czy te� Cinepak firm Radius i

SuperMac.

Sekwencje wizyjne kompresowane za pomoc� wymienionych standardów zwykle

przechowywane s� w DVL jako pliki zapisane w jednym z licznych formatów. U�yty w DVL

format zapisu sekwencji wizyjnej nie ma zasadniczego wpływu na płynno�� lub jako��

strumieniowanego obrazu ruchomego wy�wietlanego u u�ytkownika. Mo�e mie� jednak

wpływ na proces strumieniowania – np. zmniejszaj�c wra�liwo�� strumienia na utrat�

pakietów. Warto zwróci� uwag�, �e niektóre formaty umo�liwiaj� przechowywanie sekwencji

wizyjnych kompresowanych jedynie wybranymi kodekami.

Najpopularniejsze formaty zapisu sekwencji wizyjnych to: MPEG, RealMedia (firmy

RealNetworks), Windows Media (firmy Microsoft), QuickTime (firmy Apple) oraz AVI.

Formaty MPEG umo�liwiaj� przechowywanie wył�cznie sekwencji wizyjnych

kompresowanych za pomoc� jednego ze standardów MPEG (MPEG-1, MPEG-2, MPEG-4).

Podobnie sytuacja wygl�da w przypadku formatu RealMedia – umo�liwia on

przechowywanie wył�cznie danych multimedialnych kompresowanych kodekami RealVideo i

RealAudio. Format Windows Media, prócz danych kompresowanych własnym kodekiem

(Windows Media Video), mo�e równie� przechowywa� dane kompresowane w standardzie

MPEG-4. Najwi�cej mo�liwo�ci przechowywania oferuj� formaty QuickTime i AVI. Formaty

QuickTime i AVI umo�liwiaj� przechowywanie sekwencji wizyjnych kompresowanych

wieloma kodekami, mi�dzy innymi: Cinepak, DivX, DV, DVPRO, H.261, H.263, Indeo, M-

JPEG, MPEG-4, Sorenson.

31

Nale�y zwróci� uwag�, �e nie wszystkie kodeki zostały stworzone wył�cznie z my�l�

o maksymalizacji CR przy zachowaniu jako�ci. W niektórych przypadkach równie istotne

były parametry takie jak podatno�� skompresowanych danych na bł�dy, zło�ono��

obliczeniowa procesu kompresji czy minimalne opó�nienie wprowadzane przez kodek: [54]

(H.261) [56, 37] (H.263/H.263+) [99].

Wybór kodeka w istotny sposób rzutuje na obj�to�� plików przechowywanych w

DVL, na wymagania odno�nie do ł�cza dost�powego, jakim musi dysponowa� u�ytkownik

strumieniuj�cy sekwencje wizyjne z DVL oraz na jako�� odtwarzanego obrazu. Cho� przy

kompresji zawsze tym samym kodekiem zachowana jest zasada, �e im silniejsza kompresja

tym ni�sza jako��, to pomi�dzy kodekami mog� istnie� wyra�ne ró�nice. Dwie pocz�tkowo

identyczne sekwencje wizyjne kompresowane i dekompresowane za pomoc� dwóch ró�nych

kodeków (ale z identycznym CR ) mog� wyra�nie ró�ni� si� jako�ci�.

W tej sytuacji pojawia si� zagadnienie porównania ze sob� metod kompresji i

wyłonienia tych, które dla zało�onego CR wprowadzaj� najmniejsze straty w tym procesie.

Problem oceny jako�ci obrazów kompresowanych stratnie został ju� cz��ciowo

standaryzowany. Proces standaryzacji obejmuje ju� wybór wła�ciwych sekwencji wizyjnych,

które podlega� b�d� ocenie [51, 62]. Stosowane s� dwie zasadnicze klasy metod okre�lania i

porównywania efektywno�ci kompresji ró�nych technik: subiektywne miary jako�ci i

obiektywne miary zniekształce� [117]. Autor nie b�dzie omawia� w rozprawie

poszczególnych metod nale��cych do obu wspomnianych grup. Wykonany zostanie jedynie

ich przegl�d wraz z odniesieniami do literatury, za� wi�cej uwagi zostanie po�wi�cone

wył�cznie tym metodom, które maj� istotny wpływ na badania przeprowadzone przez autora.

Najlepsze i najbardziej wiarygodne wyniki daj� tradycyjne, subiektywne metody

bada�. Ogólne zalecenia dotycz�ce takiej oceny przedstawiono w Zaleceniach [52] (obraz

analogowy) i [50] (obraz cyfrowy). Z powodzeniem [1] mo�na te� dostosowa� do oceny

sekwencji wizyjnych metodologi� Zalecenia [61] stanowi�c� o ocenie d�wi�ku. Korzystaj�c

ze wspomnianych standardów oceny, tworzone s� publikacje dotycz�ce porównania ró�nych

kodeków wizyjnych, cho� bardzo cz�sto powstaj� one na zamówienie samych producentów

kodeków [22], co mo�e poddawa� w w�tpliwo�� wiarygodno�� wyników. Najnowsze badania

wskazuj� równie� zasadno�� wprowadzenia poj�cia jako�ci percepcji (QoP – ang. Quality of

Perception) ł�cz�cej w ocen� satysfakcj� u�ytkownika (QoPS – ang. QoP Satisfaction) i

zrozumienia tre�ci (QoPU – ang. QoP Understanding) [30].

Metody subiektywne powinny by� realizowane po zgromadzeniu du�ych grup

obserwatorów, oceniaj�cych specjalnie wybrane do tego materiały testowe, wy�wietlane na

32

odpowiednim sprz�cie i w kontrolowanych powtarzalnych warunkach, co jest nie tylko

kosztowne, ale i bardzo czasochłonne. Dlatego te� nieustannie podejmuje si� próby

opracowania uniwersalnych obliczeniowych (obiektywnych) miar jako�ci, które b�d�

na�ladowały subiektywne sesje. Jedn� z najprostszych metod jest obliczenie warto�ci PSNR

pomi�dzy klatkami sekwencji wizyjnych: oryginalnej i rekonstruowanej [66, 117, 135].

Metoda ta, cho� stosowana [66, 94], pozostawia wiele do �yczenia, gdy� posiada niski

poziom korelacji z subiektywn� ocen� jako�ci. Sposobem zwi�kszenia skuteczno�ci miary

obiektywnej jest skonstruowanie jej jako miary wektorowej uwzgl�dniaj�cej jako��

rekonstrukcji wielu ró�norodnych cech obrazu opisanych kilkoma miarami skalarnymi. W

grupie tej istotne miejsce zajmuj� wykresy Hosaki [20, 21, 40, 64, 117, 135]. Do innej grupy

miar znajduj�cych si� na granicy miar wektorowych i skalarnych nale�y Skala Jako�ci Obrazu

(ang. Picture Quality Scale – PQS) [21, 106, 117, 135]. Wiele innych miar mog�cych słu�y�

ocenie jako�ci kompresowanych sekwencji wizyjnych przedstawiono w ksi��ce [156].

1.2.4. Strumieniowanie

Wa�nym aspektem w przypadku tworzenia DVL jest problem efektywnego strumieniowania

sekwencji wizyjnych do u�ytkowników. Jest to problem wielokrotnie poruszany w literaturze

([26, 41, 69, 78, 80, 152, 153, 168] i in.). Wci�� jednak zmieniaj�ce si� parametry sieci,

powstawanie nowych technik kompresji i przesyłania, a tak�e zmieniaj�ce si�

zapotrzebowania u�ytkowników, nie pozwalaj� uzna� tej sprawy za zamkni�t�.

Przez wiele lat, podczas burzliwego rozwoju Internetu, stosowano ten sam protokół

zapobiegaj�cy przeci��eniom w sieci oraz zapewniaj�cy integralno�� przesyłanych danych.

Był nim protokół warstwy transportowej TCP. Przez sterowanie przepływem pozwalał on na

w miar� sprawiedliwy podział zasobów sieci pomi�dzy u�ytkowników. Ta sprawiedliwo��

i wydajno�� została znacznie naruszona wraz z pojawieniem si� aplikacji strumieniuj�cych

d�wi�k lub filmy. Do takiego ruchu mo�na zaliczy� strumienie d�wi�kowe oraz wizyjne.

Wi�kszo�� ruchu strumieniowanego u�ywa jako protokołu warstwy transportowej protokołu

UDP. W przeciwie�stwie do TCP nie zapewnia on ani sterowania przepływem, ani nie

zapobiega przeci��eniom w sieci. Co wi�cej – aplikacje strumieniuj�ce nie do��, �e nie

ograniczaj� emitowanego ruchu w przypadku zaistnienia przeci��enia, ale nawet staraj� si� go

zwi�kszy� u�ywaj�c maksymalnej dost�pnej przepustowo�ci ł�czy. Prowadzi to do dwóch

niekorzystnych zjawisk – wyst�powania przeci��e� w sieci oraz niesprawiedliwego podziału

pasma pomi�dzy u�ytkowników [38, 167].

W przeci��onej sieci spada poziom wrodzonej jako�ci usług, mianowicie:

33

• spada przepustowo�� ł�czy (i przypadku multimedialnego strumienia UDP b�dzie to

skutkowało stratami pakietów [88]). Je�li dost�pna przepustowo�� jest przewidywalna,

przy zastosowaniu odpowiedniej kompresji mo�na dostosowa� strumie� wizyjny do

warunków sieciowych. W przeciwnym przypadku mo�na stosowa� strumieniowanie

warstwowe [89];

• pojawiaj� si� wi�ksze ni� normalnie [128] opó�nienia, nierzadko zmienne (fluktuacja

opó�nienia, ang. jitter).

Strumie� multimedialny przesyłany przez sie� oczywi�cie do�wiadcza tych

negatywnych zjawisk, czego efektem jest spadek postrzeganej jako�ci usług.

Obecnie rynek mediów strumieniowych został zdominowany przez trzy rozwi�zania

firmowe.

Najpopularniejszy wydaje si� produkt firmy RealNetworks – system RealMedia, który

umo�liwia przesyłanie d�wi�ku, sekwencji wizyjnych oraz zło�onych prezentacji

multimedialnych w czasie rzeczywistym. RealMedia składa si� z trzech elementów.

Pierwszym jest kodek Helix Producer, przekształcaj�cy dane audio i wideo w format

RealMedia. Drugi element to serwer Helix Universal Server realizuj�cy strumieniowe

przesyłanie danych, a trzeci to odtwarzacz RealPlayer. Helix Universal Server pozwala na

strumieniowanie mediów zapisanych w formatach opatentowanych przez producenta serwera

(RealMedia, RealText, RealPix), formatach otwartych (SMIL, MPEG-1, MP3, MPEG-4), a

tak�e w formatach innych producentów, w tym konkurencyjnych (Flash, QuickTime,

Windows Media).

Drugim, nieco mniej popularnym rozwi�zaniem strumieniuj�cym, stał si� produkt

firmy Microsoft – Windows Media Services, rozwi�zanie o dosy� ograniczonych

mo�liwo�ciach, lecz najintensywniej promowane w�ród serwerów wideo.

Trzecim standardem strumieniowania jest rozwi�zanie firmy Apple oparte na dwóch

serwerach wideo – produkcie komercyjnym QuickTime Streaming Server przeznaczonym

dla komputerów Apple oraz wersji open-source – Darwin Streaming Server. Oba rozwi�zania

formy Apple, oprócz strumieniowania firmowego formatu QuickTime, obsługuj� tak�e

standardy otwarte (MPEG-4, MP3).

Kwestia wyboru serwera wideo nie jest oczywista. Zdecydowana wi�kszo��

dost�pnych w pi�miennictwie porówna� to publikacje tworzone na potrzeby producentów

rozwi�za� strumieniuj�cych. W oczywisty sposób zestawy testów s� dobierane tak, aby

wykaza� wy�szo�� rozwi�zania danego producenta.

34

1.2.5. Podsumowanie

DVL to szybko rozwijaj�cy si� sektor rynku multimedialnych usług telekomunikacyjnych.

Jak i inne młode dziedziny, tak i DVL borykaj� si� w licznymi problemami technicznymi.

Podsystemy streszczania, których jednym z kluczowych elementów s� mechanizmy

SBD, pozostawiaj� wiele do �yczenia w zakresie stosunku szybko�ci do dokładno�ci ich

działania. Kiedy stosowane s� metody operuj�ce na kompletnych danych dekompresowanych,

dekompresja ka�dej klatki bardzo spowalnia proces wykrywania. Szybkie za� metody

operuj�ce na danych kompresowanych, ze swojej natury operuj� na skromnej ilo�ci danych

produkuj�c niedokładne wyniki. Wszystko to motywuje do prowadzenia dalszych bada� nad

metodami SBD, czego efektem jest zaproponowana przez autora w podrozdziale 2.1.2

bisekcyjna metoda SBD.

Dziedzina indeksowania równie� wymaga dokładniejszych bada�. Dotyczy to mi�dzy

innymi indeksowania za pomoc� mechanizmów rozpoznawania mowy i tekstu. Przykładowo

brakuje bada� porównuj�cych dokładno�� i szybko�� działania tych mechanizmów.

Od czasów powstania standardu MPEG-1 techniki kompresji sekwencji wizyjnych

zdecydowanie si� rozwin�ły. Kilka lat temu jako�� obrazu zbli�on� do jako�ci filmu z kasety

VHS osi�gano przy strumieniu o przepływno�ci kilku Mbit/s. Obecnie jako�� zbli�on� do

płyty DVD mo�na osi�gn�� przy strumieniu poni�ej jednego Mbit/s. Dodatkowo rozwin�ły

si� techniki kompresji sekwencji wizyjnych dla strumieni o niskiej przepływno�ci, oferuj�ce

�redni�, lecz wci�� akceptowaln� jako�� obrazu ruchomego. Istniej�ca mnogo�� algorytmów

kompresji danych wizyjnych nie znajduje odzwierciedlenia we wiarygodnych badaniach

porównuj�cych jako�� rekonstruowanych sekwencji wizyjnych poddanych uprzednio

kompresji ró�nymi kodekami przy zbli�onym CR. Wszystko to motywuje prowadzenie bada�,

których efektem jest wybór kodeka oferuj�cego najwy�sz� jako�� obrazu przy zadanym CR.

W zakresie ostatniego z omawianych zagadnie� (zagadnienie strumieniowania),

brakuje bada� okre�laj�cych wpływ nieidealno�ci warunków sieciowych (w szczególno�ci

fluktuacji opó�nienia) na postrzegan� jako�� usług. Brak te� obiektywnych bada�

porównuj�cych wydajno�� serwerów strumieniuj�cych.

1.3. Cel bada�

Celem bada� przedstawionych w niniejszej rozprawie jest kompleksowa analiza zasad

działania metod streszczania, indeksowania, kompresji i strumieniowania pod k�tem

mo�liwo�ci budowy odpowiednich podsystemów DVL oraz stworzenie oryginalnej

35

bisekcyjnej metody wykrywania granic uj�� (SBD) wchodz�cej w skład podsystemu

streszczania. Badania uwzgl�dniaj� równie� specyficzne aspekty budowy DVL zawieraj�cej

medyczne sekwencje wizyjne. Autor stara si� wskaza� słabe punkty dotychczas stosowanych

technik (mi�dzy innymi SBD), zaproponowa� rozwi�zania wspomnianych problemów

(mi�dzy innymi autorsk� bisekcyjn� metod� SBD), a tak�e przedstawi� wyniki symulacji

laboratoryjnych i testów funkcjonuj�cych aplikacji, w tym prototypów korzystaj�cych z

zaproponowanych przez autora rozwi�za�.

Autor wysuwa nast�puj�c� tez�:

„Bisekcyjna metoda wykrywania granic uj�� (SBD) w sekwencjach wizyjnych oraz

istniej�ce metody streszczania, indeksowania, kompresji i strumieniowania umo�liwiaj�

budow� odpowiednich podsystemów DVL z dost�pem sieciowym TCP-UDP/IP. Metody te

dla aplikacji DVL zawieraj�cej medyczne sekwencje wizyjne zapewniaj� u�ytkownikowi

satysfakcjonuj�c� szybko�� działania oraz diagnostyczn� jako�� obrazu.”

W celu przeprowadzenia bada� poszczególnych podsystemów DVL autor stworzył

elementy podsystemu streszczania oraz wyselekcjonował, pozyskał i uruchomił podsystemy

indeksowania, kompresji i strumieniowania. Nast�pnie zbadał podsystemy pod k�tem

szybko�ci i dokładno�ci działania oraz pod k�tem zachowania jako�ci obsługi dost�pu

sieciowego.

W zakresie podsystemu streszczania autor zaprezentował dwie proste metody

sekwencyjnej SBD, które poddał modyfikacji polegaj�cej wł�czeniu do analizy zarówno

zmian obrazu, jak i jej dynamiki, co w konsekwencji polepszyło dokładno�� SBD. Nast�pnie

zaproponował i ocenił sposób przyspieszenia pracy jednej z przedstawionych metod

sekwencyjnych. W celu okre�lania trafno�ci SBD, autor skorzystał z istniej�cych technik oraz

zaproponował własn� miar�. Zaproponował i ocenił alternatywny sposób SBD, realizuj�cy

niesekwencyjny, bisekcyjny proces przegl�dania sekwencji wizyjnej i wyszukiwania SB.

Autor zaproponował i ocenił równie� pewne modyfikacje zwi�kszaj�ce dokładno�� i

szybko�� zaproponowanej metody bisekcyjnej. Zaproponował te� metody selekcji uj��

wł�czanych do streszczenia.

W zakresie podsystemu indeksowania autor okre�lił mo�liwo�ci u�ycia

mechanizmów rozpoznawania mowy i tekstu dla celów podsystemu indeksowania. Autor

wybrał dwa istniej�ce rozwi�zania programowe rozpoznaj�ce mow� i porównał je pod k�tem

dokładno�ci i szybko�ci rozpoznawania. Zbadał te�, jakie warunki musi spełnia� tekst

pojawiaj�cy si� w klatkach sekwencji wizyjnych, aby został indeksowany przy u�yciu

mechanizmu rozpoznawania tekstu.

36

W zakresie podsystemu kompresji autor wyselekcjonował kilka najbardziej

popularnych, nowoczesnych kodeków sygnałów wizyjnych. Nast�pnie poprosił liczn� grup�

osób o dokonanie subiektywnej oceny sekwencji wizyjnych skompresowanych z ró�nym CR

za pomoc� wybranych uprzednio kodeków. Autor dokonał analizy statystycznej wyników i

zaprezentował je.

W zakresie podsystemu strumieniowania autor przeprowadził badania podsystemu

strumieniowania dwuetapowo. W pierwszym etapie okre�lił wpływ opó�nie� na postrzegan�

jako�� usług. W tym celu przeprowadził do�wiadczenie polegaj�ce na wpi�ciu w tor

transmisyjny emulatora zaburze� pracy sieci. W drugim etapie autor porównał wydajno��

pracy konkretnych trzech rozwi�za� serwerów strumieniuj�cych oraz zaprezentował wyniki

tego porównania.

W celu okre�lenia warunków pracy aplikacji zawieraj�cej medyczne sekwencje

wizyjne autor dokonał analizy podsystemów streszczania i kompresji w MDVL. W ramach

podsystemu streszczania ocenił szybko�� działania własnej bisekcyjnej metody SBD

pracuj�cej z sekwencjami wizyjnymi zawieraj�cymi tre�ci medyczne. W ramach podsystemu

kompresji natomiast dokonał subiektywnej (inaczej: obserwacyjnej, przy współpracy z grup�

lekarzy) oceny sekwencji wizyjnych skompresowanych z ró�nym CR zgodnie ze standardem

MPEG-4. Po przeprowadzeniu pewnej liczby testów oceny subiektywnej wykonanej przez

lekarzy, autor powtórzył je korzystaj�c z u�rednionych po wszystkich klatkach sekwencji

obiektywnych miar: OMW [117] i miary Hosaki [40]. Konfrontuj�c wyniki testów

subiektywnych i obiektywnych wyznaczył maksymalne warto�ci miar, powy�ej których obraz

nie jest ju� obrazem o jako�ci nierozró�nialnej przez lekarza od oryginału. Nast�pnie autor

wybrał kilka najbardziej popularnych, nowoczesnych kodeków sygnałów wizyjnych i

posiadaj�c ustalone maksymalne warto�ci miar, powtórzył badania dla wybranych kodeków

korzystaj�c ju� z obiektywnych OMW i miary Hosaki, a nie ocen subiektywnych.

Rozdział 2 przedstawia wyniki bada� nad efektywno�ci� wybranych podsystemów

DVL. Rozdział ten podsumowany jest wnioskami dotycz�cymi pracy podsystemów

streszczania, indeksowania, kompresji i strumieniowania w DVL. Rozdział 3 przedstawia

wyniki bada� nad efektywno�ci� wybranych podsystemów MDVL. Rozdział ten

podsumowany jest wnioskami dotycz�cymi pracy podsystemów streszczania i kompresji w

MDVL. Rozdział 4 zawiera wnioski ko�cowe potwierdzaj�ce tez� oraz prezentuje mo�liwo�ci

dalszego rozwoju (M)DVL. W nast�pnym Rozdziale przedstawiono literatur�, a w jeszcze

nast�pnym Rozdziale ponownie wykaz literatury, ale z podziałem na zagadnienia. W Dodatku

zawarto niektórych wyników pomiarów.

37

2. BADANIE EFEKTYWNO�CI WYBRANYCH

PODSYSTEMÓW DVL

Niniejszy rozdział zawiera wyniki bada� efektywno�ci wybranych – zgodnie z tez� rozprawy

– podsystemów DVL. Badania przedstawione w niniejszej rozprawie zostały przeprowadzone

dla szeregu aplikacji pretenduj�cych do miana DVL. Pierwsze do�wiadczenia autor zebrał w

czasie pracy z rozwi�zaniem opartym na podsystemie strumieniuj�cym Oracle Video Server

zrealizowanym w ramach mi�dzynarodowego projektu BTI [78], którego wyniki były

prezentowane na Telecom Geneva’99. Wst�pne badania dotycz�ce podsystemu indeksowania

zostały zrealizowane przy tworzeniu autorskiego systemu MediaSearcher [81] słu��cego do

indeksowania i wyszukiwania sekwencji wizyjnych. Wiele cennych do�wiadcze� autor nabył

równie� w czasie tworzenia systemu medycznej DVL (MDVL) dla Krakowskiego Centrum

Telemedycyny [19, 83]. Autor instalował te� i analizował kilka innych podsystemów

streszczania i strumieniowania (np.: na potrzeby laboratorium studenckiego).

Autor przeprowadził badania nad mo�liwo�ciami streszczania sekwencji wizyjnych,

które oparte jest na analizie ich tre�ci. Przebadał równie� rozwi�zania podsystemu

indeksowania tre�ci sekwencji wizyjnych, obsługi wielu metod kompresji plików

multimedialnych i podsystemu strumieniowania. Rozdział jest podsumowany wnioskami z

przeprowadzonych bada�.

2.1. Streszczanie

Jedn� z podstawowych operacji dokonywanych przez podsystem streszczania jest SBD.

Miarami przydatno�ci danej metody SBD s� dokładno�� i szybko�� jej działania. Dlatego te�

głównym celem bada� opisanych w niniejszym podrozdziale było usprawnienie procesu

automatycznego tworzenia skrótów z sekwencji wizyjnych za pomoc� własnor�cznie

stworzonego oprogramowania dokonuj�cego SBD. Usprawnienie polega na zwi�kszeniu

szybko�ci wykrywania przy jednoczesnym zachowaniu jej dokładno�ci. Autor zaproponował

usprawnienie klasycznych metod sekwencyjnych oraz nowatorskie podej�cie do problemu –

38

bisekcyjn� SBD. Dodatkowo, autor przedstawił wytyczne, które mog� słu�y� do okre�lenia

zbioru uj�� przeznaczanych do umieszczenia w streszczeniu sekwencji wizyjnej.

2.1.1. Sekwencyjna SBD

Zdecydowana wi�kszo�� komputerowych formatów wizyjnych (a w tym najpopularniejsze:

MPEG, RealMedia, QuickTime, Windows Media, AVI) zapisuje sekwencje wizyjne jako

zbiór klatek. Zazwyczaj do kompresji sekwencji wizyjnych u�ywane s� algorytmy ró�nicowe,

co oznacza, �e tylko klatki kluczowe (w rozumieniu kontekstu procesu kompresji) nios� pełn�

informacj� o danym obrazie sekwencji wizyjnej. Reszta klatek jest zapisywana jako ró�nica

pomi�dzy klatkami poprzednimi a klatk� aktualn�. Tylko niektóre, bardzo rzadkie formaty

zapisuj� materiał wideo jako zbiór niezale�nych od siebie i niezale�nie kompresowanych

klatek [18].

Dla celów SBD sekwencji wizyjnej i budowy streszczenia zło�onego z

najciekawszych uj��, autor musi potraktowa� sekwencj� wizyjn� wła�nie jako

uporz�dkowany zbiór niezale�nych klatek, co zwykle oznacza, �e konieczna b�dzie całkowita

dekompresja �ródłowej sekwencji wizyjnej.

Proces dekompresji pliku oryginalnej sekwencji wizyjnej powoduje powstawanie

licznych mniejszych plików bitmapowych. Ka�dy z nich zawiera jedn� dekompresowan�

klatk� sekwencji wizyjnej i jest tej samej obj�to�ci. Ka�da ze dekompresowanych klatek mo�e

by� traktowana niezale�nie. Sama dekompresja mo�e by� dokonana przed rozpocz�ciem

analizy albo w jej trakcie.

Wykrywanie zmian obrazu miedzy klatkami

Istnieje wiele metod wykrywania zmian obrazu opartych na miarach skalarnych. Miary te s�

łatwe do interpretacji i analiz porównawczych. Metody te zostały opisane w rozprawie [117].

Zakładamy, �e obraz (ze skal� szaro�ci) klatki o numerze i, o szeroko�ci M i

wysoko�ci N jest opisany funkcj� jasno�ci (luminancji) ( )nmfi , , Mm ≤≤1 , Nn ≤≤1 .

39

Najbardziej u�yteczn� (na podstawie eksperymentów własnych, a tak�e analizy

literaturowej), a zarazem najcz��ciej stosowan� ze skalarnych, miar zmian obrazu mi�dzy

klatkami (o numerach 1i i 2i ) jest miara szczytowego stosunku sygnału do szumu (ang. Peak

Signal to Noise Ratio):

( ) ( )[ ]� −=

nmii

ii

nmfnmf

MNPSNR

,

2,

,,

65025lg10

21

21

(2.1)

Powy�szy wzór jest prawdziwy dla danych 8-bitowych, gdzie poziom najwi�kszej

mo�liwej warto�ci funkcji jasno�ci wynosi 255. Przypadek gdy ∞=21 ,iiPSNR oznacza

wykrycie braku zmian obrazu (dwie identyczne klatki).

Najprostsza w implementacji i zarazem najszybsza w procesie obliczania (co nie jest

bez znaczenia bior�c pod uwag� liczb� wykona� p�tli obliczaj�cych) jest miara �redniej

ró�nicy (ang. Average Difference):

( ) ( )� −=nm

iiii nmfnmfMN

AD,

, ,,1

2121 (2.2)

Miara ta porównuje nat��enie jasno�ci dla ka�dego punktu klatki, a nast�pnie

otrzymane warto�ci u�rednia. Przypadek gdy 021 , =iiAD oznacza wykrycie braku zmian

obrazu (dwie identyczne klatki).

Ró�nica mi�dzy klatkami liczona jest w oparciu o zmiany jasno�ci wszystkich

punktów obrazu. W przypadku gdy dekompresowane klatki zostały zapisane w formacie pliku

przechowuj�cego dane w przestrzeni kolorów RGB, konieczne jest dokonanie konwersji

przestrzeni kolorów, a dokładniej – okre�lenia warto�ci jasno�ci dla ka�dego z punktów. Na

funkcj� jasno�ci ( )nmf , składaj� si� trzy funkcje składowe: funkcja składowej czerwonej

( )nmfR , (R – „red”), zielonej ( )nmfG , (G – „green”) i niebieskiej ( )nmfB , (B – „blue”)

[105]:

),(114,0),(587,0),(299,0),( nmfnmfnmfnmf BGR ⋅+⋅+⋅= (2.3)

Spróbujmy teraz wykrywa� zmiany obrazu mi�dzy dwoma nast�puj�cymi po sobie

klatkami. Warto zwróci� uwag�, �e obliczenia ró�nicy mi�dzy dwoma klatkami dokonuje si�

40

przez wykrywanie zmian obrazu pomi�dzy nimi. Oczywi�cie, nie jest mo�liwe znalezienie

ró�nicy dla pierwszej klatki (po prostu nie ma pomi�dzy czym wykrywa� zmian). Innymi

słowy, ró�nica ta mo�e by� traktowana jako warto�� niezwi�zana z jedn�, konkretn� klatk�,

ale raczej z par� klatek, ze zmian� obrazu pomi�dzy klatkami.

W zdecydowanej wi�kszo�ci przypadków, dla dwóch klatek nale��cych do tej samego

uj�cia otrzymana warto�� PSNR b�dzie relatywnie wysoka, a AD – relatywnie niska.

Oczywi�cie relatywnie, w porównaniu do warto�ci obliczonych dla dwóch zupełnie

niezale�nych klatek. Sytuacja taka nast�puje wła�nie w przypadku „ci�cia”, czyli SB.

Dlatego te� naturalnym i intuicyjnym kryterium SB b�dzie bardzo gwałtowna zmiana

obliczonej ró�nicy pomi�dzy dwoma kolejnymi klatkami. Przykładowy przebieg warto�ci

takiej ró�nicy przedstawia Rysunek 2.1. Na rysunku wida� wyra�nie chwilowy, gwałtowny

spadek warto�ci PSNR i wzrost warto�ci AD.5

0

10

20

30

40

50

60

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29

Kolejne ró�nice

PSN

R [d

B]

0

10

20

30

40

50

60

AD

PSNR AD

Rysunek 2.1. Przebieg PSNR i AD z wyra�nym miejscem SB

Zaproponowana tutaj metoda byłaby prawidłowa, gdyby warto�� progowa mogła by�

wyznaczona jednoznacznie (wszystkie pary klatek posiadaj�ce PSNR poni�ej pewnej warto�ci

progowej lub AD powy�ej pewnej warto�ci progowej byłyby traktowane jako SB). Niestety,

chocia� bardzo rzadko, to jednak si� zdarza, �e PSNR/AD wewn�trz uj�cia (dla uj�� z

5 Przebieg powstał przez poł�czenie sekwencji wizyjnych „claire” i „suzie” powszechnie u�ywanych do testowania systemów wizyjnych (pobrano po 15 klatek z ka�dej z sekwencji).

41

nakr�conych ruchom� kamer� lub zawieraj�cych wiele ruchomych obiektów) posiada warto��

odpowiednio ni�sz�/wy�sz� ni� PSNR/AD dla SB (przykładowo dla rozmytych SB w formie

przenikania dwóch obrazów). Rysunek 2.2 obrazuje sytuacj�, kiedy współczynniki PSNR i

AD na SB osi�gaj� podobne warto�ci jak wewn�trz pierwszego z uj��, charakteryzuj�cego si�

ruchomo�ci� kamery i obiektów6.

0

10

20

30

40

50

60

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83

Kolejne ró�nice

PSN

R [d

B]

0

10

20

30

40

50

60

AD

PSNR AD

Rysunek 2.2. Warto�� progowa nie mo�e zosta� ustalona

Z powodu wspomnianego powy�ej opracowany został bardziej wyrafinowany

algorytm. Kluczowym jego parametrem jest nie sama warto�� PSNR czy AD, a dynamika jej

zmian (dPSNR, dAD) przy wykrywaniu zmian obrazu pomi�dzy kolejnymi klatkami

sekwencji (Rysunek 2.3).

6 Przebieg powstał przez poł�czenie sekwencji wizyjnych „husky” i „suzie” powszechnie u�ywanych do testowania systemów wizyjnych (pobrano tylko fragmenty ka�dej z sekwencji)

42

-50

-40

-30

-20

-10

0

10

20

30

40

50

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 63 65 67 69 71 73 75 77 79 81 83

Kolejne ró�nice

dPSN

R [d

B]

-50

-40

-30

-20

-10

0

10

20

30

40

50

dAD

dPSNR dAD

Rysunek 2.3. SB – widoczna

Mo�na zaobserwowa� (Rysunek 2.3), �e SB towarzysz� dwa wyra�ne wahni�cia

warto�ci dPSNR / dAD , jedno w kierunku zmiany PSNR/AD, drugie w stron� przeciwn�.

Dlatego najpro�ciej do jednoznacznego wykrycia pary klatek b�d�cej SB, zastosowa�

kryterium zarówno na warto�� ró�nicy, jak i na dynamik� jej zmian. Ta metoda działa ju�

poprawnie i tylko bardzo „zło�liwe” przypadki SB (bardzo powolne, płynne przej�cia mi�dzy

dwoma obrazami) nie b�d� wykryte. Tak�e, je�eli zanalizujemy warto�ci dPSNR / dAD z

poprzedniego wykresu (Rysunek 2.3), to zorientujemy si�, �e SB za ka�dym razem jest

wyra�na i widoczna dla algorytmu.

Pomiary pokazały, �e typowe (minimalne dla uznania SB) warto�ci7 dla AD powinny

oscylowa� w okolicy 7,33+ , wahania współczynnika dAD nie powinny natomiast by�

mniejsze ni� około 3,14± [8]. Powy�sze warto�ci s� prawdziwe dla danych 8-bitowych,

gdzie poziom najwi�kszej mo�liwej warto�ci funkcji jasno�ci wynosi 255.

Przyspieszanie procesu sekwencyjnej SBD

Z reguły, algorytm SBD analizuje wszystkie piksele klatek, pomi�dzy którymi wykrywane s�

zmiany obrazu. Dla rozdzielczo�ci CIF (352×288) daje to konieczno�� wykrywania zmian w

dwóch obrazach, z których ka�dy składa si� z 101 376 pikseli. Tak du�a liczba p�tli programu

7 Warto�ci s� prawdziwe dla danych 8-bitowych, gdzie poziom najwi�kszej mo�liwej warto�ci funkcji jasno�ci wynosi 255.

43

wykrywaj�cego zmiany spowalnia cały proces analizy, zwłaszcza w przypadku bardziej

kosztownych obliczeniowo metod wykrywania zmian. Dlatego po��dane byłoby

przyspieszenie procesu SBD.

Redukcja liczby analizowanych pikseli

Istnieje proste rozwi�zanie pozwalaj�ce na przyspieszenie analizy. Zamiast wykrywa� zmiany

obrazu miedzy całymi klatkami mo�na bra� pod uwag� tylko ich fragmenty. W przypadku

metod obliczaj�cych ró�nic� pojedynczych pikseli (np.: PSNR, AD) nale�y oblicza� ró�nice

wybranych, odpowiadaj�cych sobie pod wzgl�dem lokalizacji par pikseli obu klatek. W

przypadku metod statystycznych (obliczaj�cych ró�nic� np. histogramów kolorów) rozkład

analizowanych pikseli mo�e by� ró�ny dla ka�dej z klatek. Niezale�nie od wybranej metody

wykrywania zmian rozkład pikseli mo�e zosta� ustalony jako deterministyczny równomierny

lub losowy (z rozkładem jednostajnym), przy czym rozkład losowy daje lepsze efekty [147].

W przypadku wi�kszo�ci metod wykrywania zmian, najwi�kszy koszt obliczeniowy jest

zlokalizowany w p�tlach wykonywanych dla ka�dego analizowanego piksela, w zwi�zku z

tym czas analizy jest proporcjonalny do liczby analizowanych pikseli.

Przyspieszanie procesu analizy wydaje si� by� wspaniałym rozwi�zaniem. Jednak�e,

mo�na oczekiwa�, �e dokładno�� pogorszy si� wraz ze zmniejszaniem si� liczby

analizowanych pikseli. W celu zbadania spadku dokładno�ci konieczne jest zdefiniowanie

poprawnej metody mierzenia owej dokładno�ci.

Autor zanalizował około 60 krótkich sekwencji wizyjnych, zapisanych w

rozdzielczo�ciach CIF (352×288) i QCIF (172×144), nale��cych do ró�nych kategorii

tematycznych. Długo�� sekwencji wizyjnych wahała si� od kilku sekund do prawie dwóch

minut, przy czym �rednia długo�� wynosiła około 28 sekund. Ka�da z sekwencji wizyjnych

zawierała od 2 do 45 uj��, przy czym �rednio sekwencja wizyjna zawierała około 11 uj��

(�rednia długo�� uj�cia wynosiła około 3 sekund, co jest bardzo typow� warto�ci�). Ogółem

przeanalizowanych zostało około 600 uj��.

Ka�da sekwencja wizyjna była analizowana stukrotnie przy ró�nych liczbach pikseli,

dla których obliczano ró�nic� jasno�ci miar� AD. Liczba pikseli, dla których obliczano

ró�nic� jasno�ci wahała si� od około 0,0001 ogółu pikseli (to jest 10 dla CIF, 3 dla QCIF) do

wszystkich pikseli klatek, pomi�dzy którymi wykryto zmiany obrazu (101 376 dla CIF,

25 344 dla QCIF). Obrazuje to Rysunek 2.4.

44

Rysunek 2.4. Analiza wszystkich i cz��ci pikseli

Przy ocenie metod SBD porównuje si� otrzymane wyniki z list� ci�� zawieraj�c�

informacje o ich momentach wyst�pie�. Cz�sto stosowanymi miarami s�: miara oparta na

uzupełniaj�cych si� warto�ciach Recall (pol. Pełno��) i Precision (pol. Precyzja) [11] i

(rzadziej stosowana) miara oparta na testowaniu hipotez statystycznych [72]. W celu

wyliczenia tych warto�ci nale�y wcze�niej okre�li� trzy parametry:

• Ni : Liczba „fałszywych” SB (fałszywych alarmów) wykryta przez metod� SBD.

Fałszywe ci�cia to ci�cia wykryte przez oprogramowanie, lecz nieistniej�ce w

analizowanej sekwencji wizyjnej.

• Nd : Liczba SB niewykrytych przez metod� SBD.

• Nt : Rzeczywista liczba SB istniej�cych w sekwencji wizyjnej.

Korzystaj�c z powy�szych parametrów mo�na obliczy� warto�ci Recall i Precision:

RecallNt

NdNt −= (2.4)

45

Precision ( ) NiNdNtNdNt

+−−= (2.5)

Warto�� Recall wskazuje współczynnik prawidłowo wykrytych (przez metod� SBD)

ci�� w rzeczywistej liczbie ci�� wyst�puj�cych w sekwencji wizyjnej, warto�� Precision jest

natomiast współczynnikiem reprezentuj�cym precyzj� SBD.

Powy�sza miara, cho� powszechnie u�ywana, nie pozwala szybko i bezpo�rednio

porówna� mi�dzy sob� dwóch metod SBD, gdy� do porównania zawsze mamy dwie warto�ci.

W celu oceny algorytmu autor zaproponował inn� miar�: Accuracy (pol. Trafno��). Autor

przyj�ł nast�puj�cy tok rozumowania. Sekwencja wizyjna jest idealnie podzielona na uj�cia,

je�eli liczba prawidłowo wykrytych ci�� ( )NdNt − jest równa liczbie ci�� rzeczywi�cie

wyst�puj�cych w sekwencji wizyjnej ( Nt ) oraz nie wykryto �adnych „fałszywych” ci�� ( Ni ).

Poniewa� obie warto�ci: ( )NdNt − i Ni maj� wpływ na Accuracy, mo�na zapisa�

nast�puj�cy wzór pozwalaj�cy na obliczenie Accuracy:

AccuracyNiNtNdNt

+−= (2.6)

Accuracy jest tym wi�ksza im bardziej warto�� NdNt − jest zbli�ona do warto�ci Nt ,

je�eli tylko nie została ona pogorszona przez wysok� warto�� Ni .

Eksperymenty

Wci�� nie wiemy jak znale�� warto�ci Ni , Nd i Nt . Na pocz�tek, ka�da sekwencja wizyjna

jest dokładnie ogl�dana w celu znalezienie rzeczywistej (referencyjnej) liczby ci��, jaka

wyst�puj� w sekwencji wizyjnej ( Nt ). Nast�pnie oprogramowanie wykrywaj�ce ci�cia w

sekwencji wizyjnej przetwarza sekwencj� wizyjn� 100 razy przy ró�nej liczbie

analizowanych pikseli, podaj�c na wyj�ciu pewn� liczb� ci�� wyst�puj�cych („w opinii

programu”, tak wi�c jest to w rzeczywisto�ci NiNdNt +− ) w sekwencji wizyjnej, jak

równie� i pary klatek rozpoczynaj�cych i ko�cz�cych wszystkie wykryte uj�cia. Pary te s�

znowu uwa�nie przegl�dane przez człowieka w celu znalezienia liczby fałszywie wykrytych

uj�� (o ile takie s�). Posiadaj�c warto�ci Ni i Nt , a tak�e sum� ( )NdNt − oraz Ni nie ma

problemu z uzyskaniem brakuj�cych warto�ci ( )NdNt − i Nd .

46

Rezultaty

�rednie warto�ci ( [ ]E ) Recall, Precision i Accuracy (wraz z analiz� statystyczn� obejmuj�c�

odchylenie standardowe – σ i przedział ufno�ci – δ ) w zale�no�ci od udziału analizowanych

pikseli przedstawia Tabela II (Dodatek). Rysunek 2.5 graficznie obrazuje wyniki analizy.

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1

0,0001 0,001 0,01 0,1 1

Udział analizowanych pikseli

Recall Precision Accuracy

Rysunek 2.5. Dokładno�� w funkcji czasu

Rezultaty oceny s� optymistyczne dla programistów, którzy chcieliby przyspieszy�

swoje oprogramowanie do SBD przez redukcj� ilo�ci danych wej�ciowych. Na u�rednione

warto�ci Recall, Precision i Accuracy nie ma wi�kszego wpływu nawet stukrotne

zmniejszenie liczby analizowanych pikseli (nie ma potrzeby spowalnia� algorytmu i

analizowa� wi�kszej liczby pikseli).

Mo�liwo�� dalszego zmniejszania liczby analizowanych punktów jest jednak

ograniczona. Przy dalszym spadku liczby analizowanych pikseli warto�ci Recall, Precision i

Accuracy zaczynaj� spada�. W zwi�zku z tym zaczynaj� pojawia� si� pewne niekorzystne

efekty. Pierwszym z nich jest wykrywanie SB w chwilach, gdy nast�puj� gwałtowne ruchy

obrazu. Powoduje to wzrost warto�ci Ni . Przykład takiego nieistniej�cego, lecz wykrytego

ci�cia pokazuje Rysunek 2.6.

47

Rysunek 2.6. Wykryto fałszyw� SB

Przy dalszym zmniejszaniu liczby analizowanych pikseli przestaj� by� wykrywane

„oczywiste” SB, co w konsekwencji zani�a warto�� ró�nicy współczynników ( )NdNt − .

Przykład niewykrytego ci�cia pokazuje Rysunek 2.7.

Rysunek 2.7. SB nie została wykryta

2.1.2. Bisekcyjna SBD

Przedstawione przez autora mo�liwo�ci przyspieszenia sekwencyjnych metod SBD nie

eliminuj� podstawowej wady tych rozwi�za� – konieczno�ci długotrwałego analizowania

wszystkich klatek sekwencji wizyjnej, nawet, gdy sekwencja wizyjna składa si� tylko z

niewielkiej liczby długich uj��. Rozwi�zaniem problemu mo�e by� alternatywne podej�cie do

problemu SBD, polegaj�ce na rezygnacji z analizy sekwencyjnej na rzecz wprowadzonej

przez autora analizy bisekcyjnej [19, 85].

Klasyczna metoda bisekcyjna

Metoda opiera si� na powtórzeniu czynno�ci jakie wykonuje operator, je�li – za pomoc�

programu wy�wietlaj�cego sekwencj� wizyjn� i suwaka, którym je�dzi przesuwaj�c pozycj�

w sekwencji wizyjnej – chce stwierdzi� ile uj�� jest w sekwencji wizyjnej posiadaj�cej I

48

klatek. W pierwszej iteracji ( 1=n ) operator automatycznie spogl�da na pocz�tek sekwencji

wizyjnej (numer klatki pocz�tku analizowanego obszaru w pierwszej iteracji ( ) 11min =i ),

nast�pnie na koniec (numer klatki ko�ca analizowanego obszaru w pierwszej iteracji

( ) Ii =1max ). Je�li operator zauwa�y, �e klatki ( )1mini i ( )1maxi znacznie ró�ni� si� od siebie

(„odległo��” mi�dzy nimi jest wi�ksza od pewnej warto�ci progowej: ( ) ( )( ) Tiid >1,1 maxmin ), to

zapewne nale�� do ró�nych uj��, wi�c operator przesunie suwak w okolice �rodka i stwierdzi,

czy przypadkiem �rodek nie przynale�y ju� do którego� z uj�� (pierwszego, ostatniego). W

ten sposób, dziel�c sekwencj� wizyjn� na coraz mniejsze fragmenty odnajdujemy klatki,

pomi�dzy którymi wyst�puj� SB (Rysunek 2.8 i Rysunek 2.9).

49

???

??? ??? ???

???

Porównanie klatek:ró�ne uj�cia

???

Porównanie klatek:ró�ne uj�cia

Porównanie klatek:to samo uj�cie

Dekompresja klatki

Dekompresja klatki

Dekompresja klatki

Dekompresja klatki

Wyznaczenie�rodka

Wyznaczenie�rodka

Wyznaczenie�rodka

Wyznaczenie�rodka

???

Porównanie klatek:to samo uj�cie

Ci�cie

Iteracja 1:

Iteracja 2:

Iteracja 3:

Iteracja 4:

Rysunek 2.8. Bisekcyjna metoda SBD

50

��

��

��

!��

��

��

!��

��

!��

��

��

!��

��

��

��

��

Rysunek 2.9. Algorytm bisekcyjnej SBD

Algorytm implementowany komputerowo działa w analogiczny sposób. Jego zalet� w

porównaniu do algorytmu sekwencyjnego jest krótszy czas działania (który zale�y bardziej od

liczby uj�� w sekwencji wizyjnej, a nie od liczby klatek). W algorytmie sekwencyjnym

istnieje konieczno�� analizowania wszystkich klatek. W algorytmie bisekcyjnym istnieje

przynajmniej szansa, �e cz�� klatek w ogóle nie b�dzie musiała bra� udziału w operacji SBD.

Stosowanie metody bisekcyjnej niesie jednak pewne komplikacje. Pierwsz� z kwestii

jest problem, jak klasyfikowa� dwie klatki do tego samego lub ró�nych uj��. Drug� kwesti�

jest konieczno�� zapewnienia dost�pu swobodnego (ang. random access), zwanego te�

dost�pem nieliniowym (ang. nonlinear access), do klatek sekwencji wizyjnej.

Problem klasyfikowania klatek

Problem klasyfikowania klatek do tego samego uj�cia lub ró�nych uj�� sprowadza si� do

u�ycia jednej miary lub kombinacji wielu miar okre�laj�cych podobie�stwo obrazu klatek,

czyli porównuj�cych je. Poni�ej zostały omówione proste i zaawansowane metody

klasyfikowania klatek.

51

Metody proste Niestety, u�ycie prostych miar typu AD czy PSNR charakteryzuje si� pewnym ograniczeniem

– nawet drobne przesuni�cie tła obrazu pomi�dzy klatkami, dla których obrazów okre�la si�

podobie�stwo, zwykle powoduje gwałtown� zmian� PSNR (lub innej zbli�onej miary), co w

konsekwencji skutkuje kwalifikacj� pary klatek jako nie nale��cych do tego samego uj�cia

(Rysunek 2.10).

"�� #$ ��

"�� #$ ��

�� !"#

�� ! �"#"�� %$ ��

"�� %$ ��

"�� &$ ��

"�� &$ ��

�� $� ��!"#

"�� #$ ��

"�� &$ ��

�� !�$!"#

Rysunek 2.10. Klatki uj�� A i C s� bardziej podobne (wg miary PSNR) ni� klatki uj�cia B

52

Inn� metod� klasyfikowania jest okre�lanie podobie�stwa jedynie wybranych,

nieruchomych obszarów obrazu klatek, charakterystycznych dla danego uj�cia. W przypadku

telewizyjnych programów informacyjnych zwykle udaje si� odnale�� tego typu obszary

obrazu (Rysunek 2.11). W zdecydowanej wi�kszo�ci przypadków jednak nie jest mo�liwe

skorzystanie z takiego rozwi�zania.

Rysunek 2.11. Dwie klatki telewizyjnego programu informacyjnego z zaznaczonymi obszarami

charakterystycznymi

Niestety, u�ycie prostych miar typu AD czy PSNR nie przynosi zatem dobrych

rezultatów poza specyficznymi rodzajami sekwencji wizyjnych.

Metody zaawansowane Rozwi�zaniem jest u�ycie bardziej zaawansowanych mechanizmów okre�lania podobie�stwa

obrazu klatek. W tym celu mo�na u�y� deskryptorów obrazu ze standardu MPEG-7.

Deskryptor MPEG-7 opisuje pewn� cech�, która charakteryzuje dany obiekt multimedialny.

Dla celów SBD mo�na u�y� deskryptorów opisuj�cych wizualne cechy klatek obrazu

ruchomego. Okre�la si� podobie�stwo deskryptorów obrazu klatek procedurami okre�lonymi

w standardzie MPEG-7 i przy odpowiednio wysokim podobie�stwie deskryptorów obrazu

klatek, czyli przy niskiej warto�ci ( )maxmin , iid przyjmowane jest, �e mini oraz maxi nale�� do

tego samego uj�cia.

53

Standard MPEG-7 definiuje szereg deskryptorów obrazu, przy czym dla celów

okre�lenia przynale�no�ci klatek do tego samego uj�cia przydatne wydaj� si� by� te

deskryptory, które pozwalaj� okre�li� miar� podobie�stwa dwóch obrazów. Dla tego typu

zastosowa� w literaturze [115, 159, 160, 161] przyj�ło si� u�ywa� nast�puj�cego zestawu

deskryptorów:

• DCD (ang. Dominant Color Descriptor) – umo�liwia opis kolorów reprezentatywnych

dla danego obrazu lub regionu [98], z obiektu wizualnego (klatka, obszar klatki,

sekwencja klatek, obszar temporalny) ekstrahuje informacje o dominuj�cych kolorach

[134];

• CLD (ang. Color Layout Descriptor) – informuje o współczynnikach DCT w pod-

okienkach klatki dla składowych Y, Cb, Cr [134];

• CSD (ang. Color Structure Descriptor) – informuje o strukturalnym histogramie

kolorów w przestrzeni kolorów HMMD (ang. Hue, Min, Max, Difference) [134];

• SCD (ang. Scalable Color Descriptor) – definiuje histogram kolorów wyst�puj�cych

w obrazie, skalowalny zarówno pod wzgl�dem liczby uwzgl�dnianych kolorów (od 16

do 256), jak równie� pod wzgl�dem precyzji zapisu poszczególnych warto�ci

(mo�liwo�� pomini�cia najmniej znacz�cych bitów, a� do pozostawienia – w skrajnym

przypadku – samego znaku) [98], informuje o histogramie kolorów w sposób

skalowalny ze wzgl�du na liczb� komórek kwantyzacji koloru w przestrzeni HSV

(Hue, Saturation, Value) [134];

• EHD (ang. Edge Histogram Descriptor) – definiuje histogram elementarnych typów

kraw�dzi liczonych w ró�nych konfiguracjach podokienek [134];

• HTD (ang. Homogeneous Texture Descriptor) – informuje o teksturze jednorodnej

opieraj�c si� na analizie spektrum transformacji Radona, technik� filtru Gabora [134].

Rysunek 2.12. Pierwsze klatki niektórych z sekwencji wizyjnych u�ytych do testów

54

U�ycie jednego deskryptora

Autor dokonał przegl�du wybranych deskryptorów8 i wykonał test pozwalaj�cy stwierdzi�,

jaka jest przydatno�� danego deskryptora w algorytmie bisekcyjnym. Autor przygotował

odpowiedni materiał testowy stworzony z konkatenacji ponad 20 znanych sekwencji

wizyjnych 9 [52] (Rysunek 2.12). Poniewa� znane były SB, łatwo mo�na było obliczy�

(Rysunek 2.13):

• minimaln� warto�� ( )maxmin , iid , gdzie mini oraz maxi nale�� do rozł�cznych uj��

(nazywan� dalej warto�ci� minInter ),

• maksymaln� warto�� ( )maxmin , iid , gdzie mini oraz maxi nale�� do wspólnego uj�cia

(nazywan� dalej warto�ci� maxIntra ).

Klatka 1 Klatka 2 Klatka i Klatka i+1

Near

Inter

Intra

Ci�cie

Rysunek 2.13. Okre�lenie warto�ci Intra, Inter i Near

W przypadku gdyby warto�� minInter była zawsze wy�sza od warto�ci maxIntra , w

sposób bardzo prosty mo�liwe byłoby okre�lenie, czy dana para klatek nale�y do tego samego

uj�cia.

Pierwszym etapem badania było wytrenowanie algorytmu, czyli empiryczne ustalenie

progowych warto�ci ( )maxmin , iid . W wyniku trenowania, dla ka�dego z deskryptorów autor

uzyskał minimalne (klasyfikuj�ce par� klatek do wspólnego uj�cia – minInter ) i maksymalne

(klasyfikuj�ce par� klatek do ró�nych uj�� – maxIntra ) warto�ci progowe. Przedstawia je

Tabela 2.1.

8 Deskryptory CSD i HTD nie zostały przeanalizowane z uwagi na trudno�ci implementacyjne. 9 Autor zastosował w tym celu cz�sto u�ywanych sekwencji do testowania systemów wizyjnych [52]: „akiyo”, „granda”, „pamphlet”, „bowing”, „hall_monitor”, „paris”, „carphone”, „hall_objects”, „salesman”, „claire”, „husky”, „sign_irene”, „coastguard”, „mad900”, „silent”, „container”, „miss_am”, „students”, „deadline”, „mother_daughter”, „suzie”, „foremna”, „mthr_dotr”, „trevor”.

55

Tabela 2.1. Warto�ci progowe dla SCD i EHD

Deskryptor minIntra maxIntra minInter

maxInter

SCD 21 533 280 1289

DCD 0 60559340 40157050 100709900

EHD 1,023587 12,08409 4,358877 25,10046

CLD 0 43,34742 22,568174 143,802948

Niestety, w trakcie analizy okazało si�, �e zmienno�� obrazu wewn�trz uj�cia bywa na

tyle du�a, �e poziom Intra jest stosunkowo wysoki. Jednak w przypadku klasyfikowania

dwóch klatek pochodz�cych z dwóch podobnych sobie uj�� poziom Inter mo�e zosta�

ustalony na stosunkowo niskim poziomie. W efekcie warto�� minInter mo�e czasami

(przykładowo dla badanej sekwencji wizyjnej jest to udział 0,068 ogółu przypadków dla SCD

i 0,351 ogółu przypadków dla EHD) by� ni�sza od warto�ci maxIntra (Rysunek 2.14). Jak

zatem wida�, dla ka�dego deskryptorów istnieje przedział warto�ci ( )maxmin , IntraInter , w

którym nie mo�na jednoznacznie zakwalifikowa� pary klatek do wspólnego uj�cia lub

rozł�cznych uj��.

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

SCD DCD EHD CLD

U�yty deskryptor MPEG-7

Znor

mal

izow

ana

„odl

egło�'

”

Intra Inter Near

Rysunek 2.14. Warto�ci �rednie, minimalne i maksymalne Intra, Inter i Near dla ró�nych deskryptorów

MPEG-7; z uwagi na du�e rozbie�no�ci (o kilka rz�dów wielko�ci) pomi�dzy poszczególnymi deskryptorami,

wykresy niezale�nie znormalizowano wzgl�dem warto�ci Intermax dla danego deskryptora

56

Rozwi�zaniem powy�szego problemu jest dwuetapowa SBD – bisekcyjno-

sekwencyjna. W pierwszym etapie dokonywana jest bisekcyjna SBD z u�yciem

deskryptorów, przy czym graniczna warto�� ( )maxmin , iid – taka, która rozró�nia klatki ze

wspólnego i z rozł�cznych uj�� – jest ustawiana tak, aby wykry� wszystkie zarówno

prawdziwe ci�cia, jak i te wykrywane wskutek nadwra�liwo�ci algorytmu.

Nast�pnie przeprowadzany jest proces, który sekwencyjnie sprawdza, czy znalezione

ci�cia s� rzeczywi�cie prawdziwymi ci�ciami. W tym celu wystarczy jedynie (dla danego

ci�cia) obliczy� ( )maxmin , iid , gdzie mini b�dzie ostatni� klatk� poprzedniego uj�cia, a maxi

pierwsz� klatk� nowego uj�cia. W wi�kszo�ci przypadków warto�� ( )maxmin , iid – gdzie mini

oraz maxi s� s�siednimi klatkami wewn�trz uj�cia (nazywana dalej warto�ci� maxNear ), jest

bardzo niewielka w porównaniu do ( )maxmin , iid – gdzie mini oraz maxi s� klatkami

granicznymi. Jednak w przypadku dwóch deskryptorów (DCD i EHD) zdarzaj� si�

sporadyczne przypadki, kiedy maxNear jest wi�ksza od warto�ci minInter . Wówczas albo

�wiadomie trzeba zaakceptowa� pewn� liczb� fałszywych alarmów, albo zrezygnowa� z

danego deskryptora b�d� wprowadzi� bardziej zaawansowan� metod� weryfikacji ci��, np.

podobn� do zaproponowanej w algorytmie sekwencyjnym, analizuj�c� dynamik� zmian

( )maxmin , iid .

Naturalne jest, �e wprowadzenie dwuetapowej SBD powoduje obni�enie szybko�ci

wykrywania. Dzieje si� tak z dwóch powodów:

1) zwi�kszenie czuło�ci wykrywania w fazie bisekcyjnej powoduje wykonanie pewnej

liczy operacji zmierzaj�cych do wykrycia SB, które w rzeczywisto�ci nie istniej�,

2) weryfikacja wykrytych SB w fazie sekwencyjnej niesie za sob� konieczno��

wykonania pewnych operacji dla ka�dej znalezionej SB fazy bisekcyjnej.

U�ycie dwóch deskryptorów

Cz��ciowym rozwi�zaniem problemu klasyfikowania klatek jest u�ycie w tym celu dwóch

deskryptorów MPEG-7. W artykule [11] zaproponowano u�ycie w metodzie sekwencyjnej

potrójnego kryterium klasyfikowania pary nast�puj�cych po sobie klatek jako SB – na

podstawie odpowiednio wysokiej ró�nicy mi�dzy histogramami kolorów i wykrytymi

kraw�dziami oraz jako wynik analizy strumienia MPEG-1. Ostatnie ze wspomnianych

kryteriów zaw��a SBD do sekwencji wizyjnych skompresowanych za pomoc� jednego tylko,

dosy� ju� przestarzałego standardu kompresji. Kombinacja dwóch pozostałych kryteriów

nadal stanowi pewne ulepszenie w stosunku do kryterium pojedynczego. Histogramy kolorów

57

i wykrywanie kraw�dzi mo�na równie� z powodzeniem realizowa� przy u�yciu deskryptorów

MPEG-7, odpowiednio SCD (nale��cego do grupy deskryptorów koloru) i EHD (nale��cego

do grupy deskryptorów tekstury).

Autor postanowił sprawdzi�, czy wspomniana metoda kombinacji kryteriów w

sekwencyjnej SBD mo�e zosta� cz��ciowo u�yta tak�e w bisekcyjnej SBD. Algorytm

bisekcyjnej SBD z analogicznym do artykułu [11] u�yciem kombinacji SCD i EHD

przedstawia Rysunek 2.15.

Rysunek 2.15. U�ycie dwóch deskryptorów MPEG-7 w bisekcyjnej SBD

Maj�c na uwadze wspomnian� w poprzednim podrozdziale poprawno��

klasyfikowania par klatek osi�gni�t� przy zastosowaniu pojedynczego kryterium opartego na

SCD, autor sprawdził czy i o ile wzro�nie poprawno�� klasyfikowania przy zastosowaniu

kombinacji SCD z EHD. Do przeprowadzenia testów autor u�ył wspomnianego w

poprzednim podrozdziale �rodowiska pracy, pracuj�cego w identycznych warunkach.

Z 1870 par klatek, za pomoc� SCD dokonano prawidłowego klasyfikowania 22 par

jako nale��cych do wspólnego uj�cia i 1720 par jako nale��cych do rozł�cznych uj��.

Pozostałe 128 par trzeba było klasyfikowa� za pomoc� EHD. Dokonano prawidłowej

58

klasyfikacji 64 par jako nale��cych do rozł�cznych uj��. Pozostałe 64 pary (stanowi�ce ju�

tylko 0,034 udziału wszystkich 1870 par – patrz Rysunek 2.15) musiały by� ju� potraktowane

jako nale��ce do wspólnego uj�cia, a nast�pnie weryfikowane metodami sekwencyjnymi.

0,932

0,034

0,034

0,068

SCD EHD Metody sekwencyjne

Rysunek 2.16. Udział par klatek prawidłowo klasyfikowanych za pomoc� SCD, EHD i metod sekwencyjnych

Wobec powy�szego autor wysuwa wniosek, �e u�ycie kombinacji dwóch kryteriów

klasyfikowania par klatek umo�liwia zmniejszenie o połow� liczby SB, które musz� by�

weryfikowane metodami sekwencyjnymi wskutek niedokładno�ci bisekcyjnych metod

klasyfikowania. Dla badanej sekwencji wizyjnej, kombinacja deskryptorów SCD i EHD

pozwoliła dokona� prawidłowego klasyfikowania 0,966 udziału ogółu par klatek.

59

Problem swobodnego dost�pu do klatek

Problemem jest te� swobodny dost�p do klatek w sekwencji wizyjnej. Dekompresja klatki w

przypadku dost�pu swobodnego jest wolniejsza ni� w przypadku dost�pu sekwencyjnego

(ang. sequential access), zwanego te� dost�pem liniowym (ang. linear access) [85]. Innymi

kosztownymi obliczeniowo operacjami s� operacje (Rysunek 2.17):

• wyznaczenie deskryptora MPEG-7, czyli okre�lenie cech charakterystycznych klatki

(dotyczy tylko metod klasyfikuj�cych opartych na deskryptorach MPEG-7, nie

dotyczy klasyfikowania przy u�yciu metod takich jak PSNR czy AD),

• porównywania cech dwóch klatek.

0,00 0,02 0,04 0,06 0,08 0,10 0,12

Sek

w. P

SN

RB

is. S

CD

Bis

. CLD

Alg

oryt

m

Czas wykonania jednej operacji [s]

Porównanie Dekompresja Wyznaczenie deskryptora

Rysunek 2.17. Czas wykonania jednej operacji w zale�no�ci od u�ytego algorytmu i metody klasyfikowania.

Autor dokonał porównania szybko�ci dekompresji klatek przy zało�eniu, �e w przypadku dost�pu nieliniowego,

dla wi�kszo�ci standardów kompresji, dekompresja danej klatki wymaga dokonania dekompresji wszystkich lub

cz��ci klatek aktualnej GOP (ang. Group of Pictures). Autor przeprowadził pomiar dla sekwencji wizyjnej

kompresowanej według standardu MPEG-1 przy GOP o długo�ci 12 klatek

Tylko w wymienionych wy�ej operacjach (dekompresja, wyznaczenie deskryptora,

porównanie) zlokalizowane s� kosztowne obliczeniowo p�tle, pozostałe operacje to

pojedyncze instrukcje. Tak wi�c od liczby tych kosztownych operacji zale�y szybko��

działania algorytmu.

60

Modyfikowana metoda bisekcyjna

W trakcie bada� okazało si�, �e w przypadku algorytmu bisekcyjnego u�ywaj�cego

deskryptorów MPEG-7 operacje wyznaczenia deskryptora i dekompresji trwaj�

zdecydowanie dłu�ej ni� operacja porównania.

??? ???Dekom-presja klatki

??? ???

Porównanie klatek: ró�ne uj�cia

Wyznaczenie �rodka Wyznaczenie �rodkaKorekta

Rysunek 2.18. Klasyczna a modyfikowana metoda bisekcyjna

61

Rysunek 2.19. Ogólny algorytm modyfikowanej bisekcyjnej SBD. Nie została rozrysowana dokładna procedura

klasyfikowania klatek ani druga (sekwencyjna) faza SBD

Wobec tego autor zaproponował zmodyfikowan� wersj� algorytmu, w której dokonuje

si� mo�liwie mało wyznacze� deskryptorów i dekompresji klatek, przy �wiadomo�ci faktu, �e

liczba porówna� mo�e wzrosn��. Ulepszony algorytm korzysta z tego, �e pomi�dzy dwoma

klatkami nale��cymi do ró�nych uj�� mog� istnie� ju� zdekodowane klatki. Je�li tak jest, to

taka klatka b�dzie u�yta w pierwszej kolejno�ci. Innymi słowy, fragment sekwencji wizyjnej

nie b�dzie dzielony na pół, ale na dwie, niekoniecznie równe sobie cz��ci (Rysunek 2.18 i

Rysunek 2.19).

62

Porównanie algorytmów

Analizuj�c opis algorytmu bisekcyjnego oraz Rysunek 2.17 mo�na wyci�gn�� nast�puj�cy

wniosek, �e: algorytm bisekcyjny w stosunku do algorytmu sekwencyjnego wykonuje mniej

operacji, ale wykonywane operacje s� bardziej kosztowne obliczeniowo. W zwi�zku z tym

nasuwa si� pytanie, czy zmniejszenie liczby wykonywanych operacji rekompensuje dłu�szy

czas wykonywania pojedynczej operacji?

W celu odpowiedzenia na to pytanie autor przeprowadził testy polegaj�ce na

przeprowadzeniu SBD w sekwencji wizyjnej za pomoc� ró�nych algorytmów. Materiałem

testowym była przygotowana przez autora sekwencja wizyjna o rozdzielczo�ci QCIF

(172×144 pikseli) zło�ona z około 20 uj�� zajmuj�cych 11 000 klatek. Ka�dym uj�ciem była

jedna ze powszechnie u�ywanych sekwencji wizyjnych u�ywanych do testowania systemów

wizyjnych ([52] Rysunek 2.12). SB były znane. W przypadku algorytmu bisekcyjnego czas

drugiego przebiegu nie był testowany (drugi przebieg nie był potrzebny).

0 100 200 300 400 500 600 700 800

Sek

w.

PS

NR

Bis

.S

CD

Mod

.S

CD

Bis

.C

LDM

od.

CLD

Alg

oryt

m

Czas wykonywania [s]

Porównania Dekompresje Wyznaczanie deskryptorów

Rysunek 2.20. Porównanie czasów wykonywania

Analizuj�c Rysunek 2.20 mo�emy zauwa�y�, �e zarówno klasyczne i modyfikowane

podej�cie bisekcyjne skutkuje znacznie krótszym czasem SBD. Algorytmy bisekcyjne

działaj� szczególnie sprawnie, gdy wykrywamy SB w sekwencji wizyjnej, która

charakteryzuje si� „stosunkowo długimi” okresami bez SB.

63

2.1.3. Metody wyboru uj�' tworz�cych streszczenie

Wybór uj��, które stworz� streszczenie oryginalnej sekwencji wizyjnej, nie jest kwesti�

oczywist�. Nie ma jednego, uniwersalnego parametru, który opisywałby przydatno�� uj�cia

dla celów tworzenia streszczenia. Zwykle pod uwag� nale�y wzi�� wiele parametrów, takich

jak: liczba obiektów pojawiaj�cych si� na klatkach uj�cia, ilo�� ruchu wykonywanego przez

te obiekty, kierunki tych ruchów itd. Całkiem prawdopodobne jest, �e wybór parametrów i ich

istotno�� mo�e si� zmienia� w zale�no�ci od typu streszczenia jakie chcemy uzyska�. Autor

chciałby zaprezentowa� metody wyznaczania ilo�ci ruchu w uj�ciu oraz kierunków tych

ruchów oparte na prostych miarach wykrywania zmian obrazów.

Ilo�� ruchu

We�my pod uwag� uj�cie zawieraj�ce I klatek. W sekwencyjnym algorytmie SBD okre�lano

ilo�� ruchu w postaci ró�nicy mi�dzy klatkami wyliczanej miar� PSNR lub AD. Podobnie

�redni� ilo�� ruchu w całym uj�ciu ( PSNR lub AD ) mo�emy obliczy� u�redniaj�c sum�

warto�ci ró�nic pomi�dzy poszczególnymi klatkami uj�cia.

Dla ka�dego uj�cia u�rednianych jest oczywi�cie 1−I ró�nic, aby unikn�� wci�gania

do oblicze� ró�nicy pomi�dzy klatkami aktualnie analizowanego uj�cia a granicznymi

klatkami s�siednich uj��. Jak autor pokazał wcze�niej, na SB warto�ci PSNR lub AD osi�gaj�

odpowiednio bardzo niski lub bardzo wysoki poziom, niezwi�zany ze �rednim PSNR lub

AD wewn�trz uj�cia, co fałszuje ostateczny wynik PSNR lub AD .

�rednia warto�� PSNR ( PSNR ) mo�e by� obliczona nast�puj�co:

�−

=+−

=1

11,1

1 I

iiiPSNR

IPSNR (2.7)

�rednia warto�� AD ( AD ) mo�e by� obliczona nast�puj�co:

�−

=+−

=1

11,1

1 I

iiiAD

IAD (2.8)

64

Przedstawione powy�ej miary PSNR i AD mog� by� u�yte do dalszej analizy uj�� i

klasyfikowania ich do streszczenia.

Kierunki ruchów

Miary PSNR i AD nie okre�laj�, w jakim kierunku odbywa si� ruch wewn�trz klatek. W celu

znalezienia odpowiedzi na to pytanie dokona� mo�na wykrycia zmian obrazu mi�dzy dwoma

klatkami przy zało�eniu, �e obraz jednej z klatek został przesuni�ty wzgl�dem drugiej o

wektor [ ]yx, .

Przy obliczaniu ró�nicy mi�dzy dwoma obrazami klatek nale�y zwróci� uwag�, �e

powinno si� oblicza� ró�nic� jasno�ci tylko dla tych pikseli, które maj� swoje odpowiedniki

w drugim obrazie. We wzorach sumy liczy si� wi�c w zakresach maxmin MmM ≤≤ oraz

maxmin NnN ≤≤ .

Dla dodatnich warto�ci przesuni�cia x warto�ci graniczne minM i maxM ustala si�

jako:

1min =M (2.9)

xMM −=max (2.10)

Dla ujemnych warto�ci przesuni�cia x warto�ci graniczne minM i maxM ustala si�

jako:

xM −=min (2.11)

MM =max (2.12)

65

W sposób analogiczny, zale�ny od warto�ci przesuni�cia y, ustala si� warto�ci

graniczne minN i maxN .

Analogicznie do wzoru (2.1) warto�� 21 ,iiPSNR przy przesuni�ciu o wektor [ ]yx, mo�e

by� obliczona nast�puj�co:

[ ] ( )( )( ) ( )[ ]�

==

++−

−−=

maxmax

minmin

21

21 ,

,

2

,,

,,

65025lg10 NM

NnMmii

yxii

ynxmfnmf

yNxMPSNR

(2.13)

Analogicznie do wzoru (2.2) warto�� 21 ,iiAD przy przesuni�ciu o wektor [ ]yx, mo�e

by� obliczona nast�puj�co:

[ ]( )( ) ( ) ( )�

==

++−−−

=maxmax

minmin

2121

,

,

,, ,,

1 NM

NnMmii

yxii ynxmfnmf

yNxMAD

(2.14)

Je�eli wynik wykrywania zmian z przesuni�ciem okre�li wi�ksze podobie�stwo ni� w

przypadku porównania bez przesuni�cia – nale�y podejrzewa�, �e wi�kszo�� pikseli obrazu

poruszyła si� w danym kierunku.

2.2. Indeksowanie

Poni�szy podrozdział prezentuje mo�liwo�ci automatycznego indeksowania sekwencji

wizyjnych. W podrozdziale zaprezentowane zostały zarówno aktualne prace badawcze

prowadzone przez autora, jak i mo�liwo�ci przyszłych rozwi�za�. Podobnie jak w przypadku

streszczania, miarami przydatno�ci danej metody indeksowania s� dokładno�� i szybko�� jej

działania – co zostało zbadane i przedstawione w niniejszym podrozdziale.

2.2.1. Rozpoznawanie tekstu

Technika rozpoznawania tekstu mo�e zosta� u�yta dla celów indeksowania sekwencji

wizyjnych zapisanych w DVL. Nasuwa si� jednak pytanie, czy rozdzielczo�� klatek

sekwencji wizyjnej pozwala na u�ycie technik OCR?

W przypadku indeksowania DVL podstawowym kryterium u�yteczno�ci techniki

OCR jest stosunek czcionki napisu, który chcemy odczyta�. Łatwo si� domy�le�, �e rozmiar

czcionki powinien by� mo�liwie du�y.

66

We�my pod uwag� przykład, który pokazuje Rysunek 2.21 (ten obraz jest negatywem

wyselekcjonowanej do indeksowania klatki sekwencji wizyjnej10). Górna linia tekstu napisana

jest czcionk� o rozmiarze 11 pikseli, dolna – 17 pikseli).

Rysunek 2.21. Klatka z napisem informacyjnym (klatka z filmu „Gladiator”, ramk� zaznaczono obszar, w

którym rozpoznawany jest tekst)

Po zako�czeniu procesu automatycznego rozpoznawania tekstu z obrazu, autor

stwierdził, �e dokładno�� rozpoznawania była idealna gdy� tekst został rozpoznany jako:

„PRODUCTION DESIGNER ARTHUR MAX”. Nast�pnie autor zmniejszył wymiary klatki

o 10% (Rysunek 2.22), co równocze�nie poniosło za sob� zmniejszenie rozmiaru czcionek

napisu (odpowiednio 10 i 15 pikseli). Dokładno�� rozpoznawania mniejszych napisów

zdecydowanie si� pogorszyła („KODUCTION DESICNEK ARTHUR MAX”).

Rysunek 2.22. Klatka z napisem informacyjnym (klatka z filmu „Gladiator”) ze zmniejszon� rozdzielczo�ci�

10 Dzi�ki uprzejmo�ci Michała Gregi.

67

Jak wida�, rozmiar czcionki ma istotny wpływ na dokładno�� procesu rozpoznawania.

W celu wykre�lenia zale�no�ci dokładno�ci rozpoznawania w funkcji wielko�ci liter autor

przeprowadził wi�c nast�puj�ce do�wiadczenie. Mianowicie przygotował kilkana�cie

obrazów zawieraj�cych tekst wypisany literami o wysoko�ci od 3 do 38 pikseli. Długo��

tekstu wynosiła około 3 000 znaków. Nast�pnie ka�dy z obrazów poddano rozpoznawaniu

przy u�yciu techniki OCR zaimplementowanej w oprogramowaniu ABBYY FineReader 6.0.

Autor porównał „odczytany” tekst z tekstem oryginalnym. W celu wyznaczenia dokładno�ci

porównywał ci�gi tekstowe posługuj�c si� algorytmem „bitap” wyznaczaj�cym „dystans

edycyjny” (miara Levenshteina). Sama dokładno�� została okre�lona jako dopełnienie do

jedno�ci, znormalizowanego (te� do jedno�ci) dystansu edycyjnego. Algorytm został szerzej

opisany w pozycjach [96, 97]. Rysunek 2.23 przedstawia stworzony przez autora wykres

zale�no�ci pomi�dzy wielko�ci� liter (podawan� w pikselach) a dokładno�ci� rozpoznawania

tekstu.

0,0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

0 5 10 15 20 25 30 35

Wielko�' liter [piksel]

Dok

ładn

o�'

rozp

ozna

wan

ia

Rysunek 2.23. Dokładno�� rozpoznawania w funkcji wielko�ci liter w pikselach

Wnioski jakie mo�na wyci�gn�� z powy�szego przykładu s� nast�puj�ce. Wi�kszo��

sekwencji wizyjnych w DVL ma rozdzielczo�� zbli�on� do CIF (352×288). Wobec tego, �e

dla liter o wysoko�ci 19 pikseli i wi�kszych dokładno�� rozpoznawania jest bliska idealnej,

bardzo dobre wyniki rozpoznawania otrzymamy przy klatkach zawieraj�cych do 15 linijek

dobrze widocznego tekstu, z których ka�da nie przekracza 18 liter. Oczywi�cie, kiedy

68

widoczno�� tekstu zostaje zakłócona, dokładno�� odczytu spada, jednak ta cecha zale�y od

typu zniekształcenia i jest trudna do zmierzenia.

2.2.2. Rozpoznawanie mowy

Kluczowym problemem w kwestii u�ycia mechanizmów rozpoznawania mowy w

indeksowaniu DVL jest wybór wła�ciwego rozwi�zania systemu rozpoznawania. Oczywiste

wydaje si�, �e aby dokona� selekcji systemu rozpoznawania mowy, który najlepiej pasuje do

wymaga� DVL, konieczne jest porównanie dwóch parametrów: szybko�ci rozpoznawania

oraz dokładno�ci rozpoznawania.

Dla celów porównawczych autor wybrał dwa systemy rozpoznawania mowy j�zyka

angielskiego: Microsoft Speech (firmy Microsoft, wersja pi�ta) oraz ViaVoice (firmy IBM).

Systemy te zostały wybrane głównie z powodu ich dost�pno�ci. Pliki instalacyjne mo�na

pobra� z sieci Internet, a same systemy u�ywa� nieodpłatnie dla celów badawczo-naukowych.

Niezale�nie od tego, s� one u�ywane i pozytywnie oceniane przez ekspertów zwi�zanych z t�

dziedzin� [14, 116]. Próba porównawcza została przeprowadzona dla około 30 ró�nych

plików, które indeksowane zostały przy u�yciu du�ego słownika zawieraj�cego zbiór około

pi��dziesi�ciu tysi�cy ogólnych słów. U�yty został tryb rozpoznawania mowy niezale�ny

od lektora. Systemy rozpoznawania mowy zostały ocenione pod k�tem liczby rozpoznanych

słów oraz opó�nienia rozpoznawania wzgl�dem czasu rzeczywistego.

Dokładno��

Porównanie dokładno�ci rozpoznawania poszczególnych systemów pokazuje, �e bardziej

odpowiedni do indeksowania DVL jest system ViaVoice. Jego dokładno�� rozpoznawania

si�ga prawie 8,0 (Rysunek 2.24).

69

0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8

Mic

roso

ft S

peec

hV

iaV

oice

U�y

ty s

yste

m r

ozpo

znaw

ania

mow

y

Dokładno��

Rysunek 2.24. Wykres porównawczy dokładno�ci rozpoznawania

Autor uzyskał gorsze wyniki korzystaj�c z oprogramowania Microsoft Speech.

Dokładno�� przekroczyła nieznacznie 0,3.

Szybko�� rozpoznawania

W przypadku porównania szybko�ci rozpoznawania autor ponownie u�ył systemów

rozpoznawania Microsoft Speech i ViaVoice. W czasie testów skonfigurował wszystkie

systemy tak, aby rozpoznawały mow� z maksymaln� dost�pn� dokładno�ci�. Serwerem

indeksuj�cym była maszyna oparta na procesorze Intel Pentium-II 300 MHz. Rysunek 2.25

przedstawia wykres obrazuj�cy porównanie czasu rozpoznawania z rzeczywist� długo�ci�

�cie�ki d�wi�kowej sekwencji wizyjnej.

70

0 1 2 3 4 5 6 7 8 9 10

Mic

roso

ft S

peec

hV

iaV

oice

U�y

ty s

yste

m r

ozpo

znaw

ania

mow

y

Czas wzgl�dny

Rysunek 2.25. Czas rozpoznawania wzgl�dem czasu trwania rozpoznawanej sekwencji wizyjnej

Łatwo zauwa�y�, �e system ViaVoice pracował na serwerze indeksuj�cym zacznie

szybciej od systemu Microsoft Speech. Czas rozpoznawania mowy w sekwencji wizyjnej

wynosił około 1,5 czasu trwania rozpoznawanej sekwencji wizyjnej. W zasadzie, przy

uruchamianiu systemu na komputerach wyposa�onych w procesor o taktowaniu 450 MHz lub

szybszych, mo�na by bez problemu dokonywa� indeksowania w czasie rzeczywistym.

Czas rozpoznawania przez system Microsoft Speech jest prawie dziesi�ciokrotnie

dłu�szy od czasu trwania rozpoznawanej sekwencji wizyjnej. Dopiero najnowszej generacji

komputery osobiste mog� zosta� u�yte do indeksowania za pomoc� systemu Microsoft

Speech w czasie rzeczywistym.

2.3. Kompresja

Wielo�� opracowanych algorytmów kompresji sekwencji wizyjnych sugeruje prowadzenie

bada� porównawczych, które pozwoliłyby wybra� najlepsze mo�liwe rozwi�zania. Miar�

pozwalaj�c� porówna� ró�ne kodeki mog� by� osi�gany CR przy zachowaniu zało�onej

jako�ci lub jako�� przy zachowaniu zało�onego CR .

71

2.3.1. �rodowisko bada( subiektywnych

Jako�� obrazu nale�y mierzy� w sposób zgodny z ludzk� percepcj�, co wymaga

wprowadzenia odpowiednich modeli widzenia obrazów przez człowieka lub mierzenia

jako�ci przez badania statystyczne. W celu dokonania maksymalnie obiektywnej oceny

poszczególnych kodeków, autor przeprowadził eksperyment polegaj�cy na zebraniu opinii

dotycz�cej jako�ci obrazu kompresowanych sekwencji wizyjnych w�ród grupy prawie 300

osób. Byli to studenci odbywaj�cy zaj�cia w Katedrze Telekomunikacji AGH: studiów

dziennych (około 180 osób), studiów zaocznych (około 60 osób) i studium podyplomowego

(około 50 osób). Zdecydowan� wi�kszo�� oceniaj�cych stanowili m��czy�ni w wieku 2221−

lat. Testy zostały przeprowadzone w trakcie zaj�� przy u�yciu komputerów laboratoryjnych o

bardzo zbli�onej konfiguracji. W celu uwierzytelnienia wyników osoby ogl�dały filmy

nale��ce do ró�nych kategorii tematycznych, kompresowanych z ró�nym CR. Oceniaj�cy

wyra�ali swoj� opini� w subiektywnej skali porównuj�cej obraz odtworzony po operacjach

kompresji i dekompresji z obrazem niekompresowanym. Autor zebrał ł�cznie 2935 oceny,

dotycz�ce kodeków: MPEG-1 [43], MPEG-4 [46], Windows Media 9 i RealVideo 8.

Odrzucone zostały oceny wskazuj�ce na obarczenie bł�dami grubymi. Zebrane wyniki

przedstawiono w pi�ciostopniowej skali MOS (ang. Mean Opinion Score) [8, 61]. Skal� oceny

jako�ci w przedziale 5,1 przedstawia Tabela 2.2.

Tabela 2.2. Ocena jako�ci oparta na MOS

Ocena Zniekształcenia Jako��

5 Niezauwa�alne Bardzo dobra

4 Zauwa�alne, nie przeszkadzaj� Dobra

3 Mało przeszkadzaj� �rednia

2 Przeszkadzaj� Akceptowalna

1 Bardzo przeszkadzaj� Nieakceptowalna

W czasie prezentowania wyników niezb�dne okazało si� zastosowanie logarytmicznej

skali CR z uwagi na konieczno�� szczegółowego oddania spadków jako�ci obrazu nawet dla

niewielkich CR (co zdarza si� w przypadku starszych kodeków, takich jak MPEG-1).

Dla wi�kszo�ci kodeków przed rozpocz�ciem kompresji zadany CR nie jest dokładnie

równy CR osi�gni�temu po zako�czeniu kompresji. Wobec tego autor zgrupował oceny

osi�gni�te przy zbli�onych CR w klasy: 16, 32, 64, 96, 128, 256, 512, 1024.

72

Jak wida�. autor wybrał klasy o CR równym kolejnym pot�gom 2. Innymi słowy,

wszystkie pliki nale��ce do danej klasy s� około dwukrotnie mocniej kompresowane od

plików nale��cych do klasy poprzedniej. Wyj�tkiem jest klasa 96, któr� autor wprowadził

spodziewaj�c si� du�ych ró�nic ocen pomi�dzy klas� 64 a klas� 128.

2.3.2. Analiza statystyczna wyników bada( – podstawy teoretyczne

Nast�pnym krokiem w analizie rezultatów badania było wyznaczenie warto�ci oczekiwanej

(�redniej) oceny dla ka�dej badanej kombinacji testowej sekwencji wizyjnej z badanym

kodekiem i CR. Jest ona wyznaczana według nast�puj�cej formuły:

�=

⋅==CRkodekN

iiCRkodek

CRkodek

CRkodekCRkodek OSN

OSMOS,

1,,

,

,,1

(2.15)

gdzie iCRkodekOS ,, (OS – ang. Opinion Score) oznacza pojedyncz� ocen� dla testowych

sekwencji wizyjnych zakodowanych danym kodekiem i z danym CR, za� CRkodekN , oznacza

liczb� wszystkich ocen dla testowych sekwencji wizyjnych zakodowanych danym kodekiem i

z danym CR.

Kolejnym obliczanym elementem jest odchylenie standardowe wyznaczane dla

wszystkich testowych sekwencji wizyjnych zakodowanych danym kodekiem i z danym CR.

Dla próby du�ej 30, ≥CRkodekN :

( )( )�

= −−

=CRkodekN

i CRkodek

iCRkodekCRkodekCRkodek N

OSMOS,

1 ,

2,,,

, 1σ (2.16)

Dla próby małej i bardzo małej 30, <CRkodekN :

( )( )�

= −−

⋅=CRkodek

CRkodek

N

i CRkodek

iCRkodekCRkodekNCRkodek N

OSMOSt

,

,1 ,

2,,,

, 1σ (2.17)

W powy�szym wzorze CRkodekNt ,

jest współczynnikiem liczbowym, zale�nym od ilo�ci

pomiarów CRkodekN , , zwanym warto�ci� krytyczn� rozkładu Studenta. Warto�ci tych

współczynników dla 95-procentowego przedziału ufno�ci � podaje Tabela 2.3:

73

Tabela 2.3. Warto�ci krytyczne rozkładu Studenta dla �

CRkodekN ,

CRkodekNt ,

2 12,7062

3 4,3027

4 3,1824

5 2,7764

6 2,5706

7 2,4469

8 2,3646

9 2,3060

10 2,2622

15 2,1448

20 2,0930

25 2,0639

Ostatnim obliczanym elementem jest 95-procentowy przedział ufno�ci dla

wyznaczonej oceny:

CRkodek

CRkodekCRkodek N ,

,, 96,1

σδ ⋅= (2.18)

który wyra�a si� w granicach:

[ ]CRkodekCRkodekCRkodekCRkodek MOSMOS ,,,, , δδ +− (2.19)

Warto�� 1,96 została pobrana z tablic rozkładu normalnego.

2.3.3. Analiza wyników bada( i ich interpretacja

Zestawienie uzyskanych iCRkodekMOS ,, w przedziale 5,1 , CRkodek ,σ i CRkodek ,δ dla wszystkich

testowych sekwencji wizyjnych zakodowanych danym kodekiem i z danym CR prezentuje

Tabela 2.4.

74

Tabela 2.4. Zestawienie uzyskanych CRkodekMOS ,

, CRkodek ,σ i

CRkodek ,δ dla wszystkich testowych sekwencji

wizyjnych zakodowanych danym kodekiem i z danym CR

U�yty kodek CR CRkodekMOS ,

CRkodek ,σ CRkodek ,δ

16 4,0 ±1,37 ±0,15

32 4,0 ±1,31 ±0,19

64 3,7 ±1,17 ±0,19

96 3,4 ±1,06 ±0,24

128 2,6 ±1,07 ±0,21

256 2,0 ±1,11 ±0,32

512 1,4 ±1,79 ±1,01

MPE

G-1

1024 1,2 ±1,05 ±0,84

16 4,9 ±0,35 ±0,07

32 4,6 ±0,81 ±0,14

64 4,7 ±0,73 ±0,16

96 4,5 ±0,60 ±0,15

128 4,2 ±0,90 ±0,19

256 3,0 ±1,12 ±0,23

512 2,4 ±1,41 ±0,50

MPE

G-4

1024 1,4 ±1,59 ±0,62

16 4,7 ±0,83 ±0,25

32 4,7 ±0,87 ±0,22

64 4,4 ±0,92 ±0,23

96 3,9 ±1,21 ±0,43

128 3,8 ±0,90 ±0,22

256 3,2 ±1,22 ±0,34

512 2,3 ±1,12 ±0,37

Win

dow

s Med

ia 8

1024 1,9 ±1,00 ±0,18

16 4,3 ±0,96 ±0,30

32 4,3 ±0,99 ±0,18

64 3,8 ±1,10 ±0,20

96 3,7 ±1,12 ±0,24

128 3,2 ±1,52 ±0,26

256 3,0 ±1,24 ±0,22

512 2,6 ±1,14 ±0,18

Rea

lVid

eo 9

1024 1,9 ±1,07 ±0,15

75

Graficzn� interpretacj� iCRkodekMOS ,, w przedziale 5,1 wraz z naniesionymi CRkodek ,δ

dla wszystkich testowych sekwencji wizyjnych zakodowanych danym kodekiem i z danym

CR prezentuje Rysunek 2.26:

1,0

1,5

2,0

2,5

3,0

3,5

4,0

4,5

5,0

10 100 1000 10000

CR

MO

S

MPEG-1 MPEG-4 Windows Media 8 RealVideo 9

Rysunek 2.26. Jako�� obrazu w funkcji CR

Wiadomo, �e ocena jako�ci obrazu ró�niła si� w zale�no�ci od oceniaj�cego. Warto

zwróci� uwag� na wyst�puj�ce dla wy�szych warto�ci CR du�e rozbie�no�ci poszczególnych

warto�ci ocen, co oznacza, �e ocena jako�ci mocno kompresowanych sekwencji wizyjnych

zale�y w du�ej mierze od percepcji ogl�daj�cego.

Analiza wykresu jako�ci w funkcji CR pokazuje, �e najstarszy z kodeków, MPEG-1,

niezale�nie od CR oferuje zdecydowanie gorsz� jako�� obrazu w porównaniu do pozostałych

trzech kodeków. Dla CR nieprzekraczaj�cego około 200 najlepsz� jako�� obrazu oferuje

kodek MPEG-4. W zakresie CR pomi�dzy około 200 a 400 wszystkie trzy nowsze kodeki

(MPEG-4, Windows Media 8 i RealVideo 9) oferuj� podobna jako�� obrazu. Dla wysokich

warto�ci CR ( 400>CR ) jako�� obrazu jest ju� oceniana dosy� nisko dla ka�dego z

ocenianych kodeków, przy czym kodek RealVideo 9 wykazuje nieznacznie lepsz� jako��

obrazu od pozostałych rozwi�za�. Znajduje to potwierdzenie w zastosowaniach rodziny

kodeków RealVideo – u�ywanych najcz��ciej do strumieniowania przez w�skopasmowe

ł�cza internetowe.

76

Podanie samego CR nie okre�la bezpo�rednio z jak� przepływno�ci� strumienia

wizyjnego mamy do czynienia po kompresji. Wszystko naturalnie zale�y od rozdzielczo�ci,

przestrzeni kolorów i liczby klatek na sekund� w oryginalnej sekwencji wizyjnej. Przy

zało�eniu obrazu PAL o rozdzielczo�ci CIF (352×288), 24-bitowej przestrzeni kolorów RGB

i 25 klatkach na sekund�, strumie� kompresowany z 200=CR ma przepływno�� około 300

kbit/s, a kompresowany z 400=CR ma przepływno�� około 150 kbit/s.

Osoby oceniaj�ce jako�� obrazu sekwencji wizyjnej zostały tak�e zapytane, jak�

jako�� uznaj� za minimaln� przy ogl�daniu sekwencji wizyjnych w celach rozrywkowych.

Rysunek 2.27 przedstawia histogram odpowiedzi na to pytanie. Jak wida�, wi�kszo��

pytanych uznała, �e jako�� nie powinna by� ni�sza ni� 4, cho� nie brakowało osób, które

poprzeczk� umieszczały znacznie ni�ej (cho� ani raz nie padła odpowied�: 1).

0,00

0,05

0,10

0,15

0,20

0,25

0,30

0,35

0,40

0,45

0,50

1 2 3 4 5

MOS

Udz

iał b

adan

ych

któr

y uz

nał d

an�

jako�'

za

min

imal

n�

Rysunek 2.27. Histogram jako�ci granicznej (minimalnej)

W przypadku standardu kompresji MPEG-1 autor stwierdził, �e dla osi�gni�cia

minimalnej akceptowanej jako�ci CR nie mo�e przekracza� 30 (około 2 Mbit/s dla CIF).

Kompresja sekwencji wizyjnych przeprowadzona w standardzie kompresji MPEG-4 pokazała,

�e w subiektywnym odczuciu dopiero dla CR rz�du 200 (300 kbit/s dla CIF) MOS spada

poni�ej 4,0. W przypadku kodeka Windows Media 8, w wyniku bada� autor ustalił, �e

absolutnie maksymalnym CR, dla którego jako�� obrazu jest akceptowalna jest warto�� 90

77

(670 kbit/s dla CIF). Kodek RealVideo 9, umo�liwia kompresj� z jako�ci� 0,4≥MOS dla

50≤CR (1,2 Mbit/s dla CIF).

2.4. Strumieniowanie

Jako�� procesu strumieniowania jest silnie uzale�niona od warunków panuj�cych w sieci,

czyli wrodzonej jako�ci usług. Niektóre efekty (ograniczona przepustowo��, o ile jest znana)

mo�na przewidzie� i zapobiega� ich skutkom stosuj�c odpowiedni� kompresj� sekwencji

wizyjnych. Jednak parametry takie jak opó�nienie i jego fluktuacje nie s� mo�liwe do

przewidzenia. W niniejszym podrozdziale autor przedstawia wyniki bada� nad wpływem

opó�nie� na postrzegan� jako�� usług, co pozwala prawidłowo konfigurowa� aplikacje

(przede wszystkim odbiornik) u�ywane w procesie strumieniowania. Zaprezentowane s� te�

wyniki porównawcze wydajno�ci pracy konkretnych rozwi�za� serwerów strumieniuj�cych.

Wpływ liczby strumieniowanych transmisji na obci��enie procesora serwera, zaj�to�� jego

pami�ci i obci��enie sieci s� miarami pozwalaj�cymi na porównanie rozwi�za� serwerów

strumieniuj�cych.

2.4.1. Wpływ opó)nie( w sieci na postrzegan� jako�' usług

Opó�nienia sieciowe s� istotnym parametrem wrodzonego poziomu usług wpływaj�cym na

warunki strumieniowania sekwencji wizyjnych. O ile w przypadku aplikacji VC

podstawowym problemem jest ju� samo opó�nienie sieciowe (gdy� wzrost jego warto�ci

powoduje wydłu�enie czasu reakcji rozmówcy), o tyle dla aplikacji typu DVL jedynie

fluktuacja opó�nienia mo�e powodowa� problemy. Samo opó�nienie powoduje wył�cznie

jednorazowe odsuni�cie w czasie momentu odtwarzania sekwencji wizyjnej na terminalu

u�ytkownika. Fluktuacja opó�nienia powoduje natomiast zmniejszanie si� lub zwi�kszanie

ilo�ci danych wizyjnych w buforach danych, co w granicznych przypadkach mo�e skutkowa�

nieci�gło�ci� odtwarzania sekwencji wizyjnej. Poni�ej autor przedstawił wpływ fluktuacji

opó�nienia na odbieran� przez u�ytkowników jako�� obrazu przesyłanych sekwencji

wizyjnych.

Badane �rodowisko

W celu okre�lenia wpływu fluktuacji na jako�� transmitowanego obrazu wideo, autor dokonał

pewnych zało�e� dotycz�cych �rodowiska, w jakim badany b�dzie ten wpływ. Najbardziej

popularne obecnie rozwi�zania strumieniuj�ce oparte s� na stosie protokołów RTSP/TCP/IP

78

(dla sterowania strumieniowaniem) oraz (UDP+RTP)/IP (dla samych danych). Sukces

protokołu RTSP w systemach strumieniowania wynika zarówno z jego dobrych parametrów

technicznych, jak i marketingowego wsparcia ze strony du�ych korporacji (Microsoft, Apple,

RealNetworks). Wobec tego autor zało�ył, �e wpływ fluktuacji rozwa�any b�dzie w takim

wła�nie �rodowisku. Przykładem konkretnego rozwi�zania jest tutaj u�yty w czasie testów

system: Helix (firmy RealNetworks) składaj�cy si� z serwera (nadajnika) Helix DNA Server

i klienta (odbiornika) RealPlayer. Autor zało�ył dodatkowo, �e wszelkie parametry

konfiguracyjne oprogramowania klienckiego zostan� pozostawione w nastawach domy�lnych,

gdy� zdecydowana wi�kszo�� u�ytkowników (nie widz�c ku temu potrzeby lub nie posiadaj�c

odpowiedniej wiedzy) nie zmienia standardowych parametrów. Przy takich wła�nie

standardowych ustawieniach odtwarzacz przed rozpocz�ciem odtwarzania zapełnia

30-sekundowy bufor danych, a przez cały czas odtwarzania na bie��co go uzupełnia.

Wydawałoby si� wi�c, �e nawet 30 sekund chwilowego opó�nienia w przesyle obrazu nie

spowoduje problemów z płynno�ci� jego odtwarzania. Je�li jednak od momentu wysłania z

serwera strumieniuj�cego pakietu do jego odebrania w odtwarzaczu minie wi�cej ni� 4

sekundy (czyli opó�nienie toru transmisyjnego wynosi ponad 4 sekundy), powoduje to

zał�czenie si� mechanizmów time-out11 i podj�cie przez system strumieniuj�cy odpowiednich

działa�12.

Zało�enia teoretyczne

Bior�c pod uwag� powy�sze zało�enia autor wysun�ł przypuszczenie, �e wpływ fluktuacji nie

b�dzie obserwowany, o ile całkowite, chwilowe opó�nienie toru transmisyjnego nie b�dzie

nigdy przekracza� 4 sekund. Autor postulował, �e dla opó�nie� (w tym fluktuacji)

mieszcz�cych si� w 4 sekundach nie b�dzie widocznych efektów w obrazie ruchomym

wy�wietlanym na ekranie komputera klienta systemu.

Praktyczne potwierdzenie zało�e�

W celu weryfikacji powy�szych zało�e� i w celu praktycznego zbadania wpływu fluktuacji na

postrzegan� jako�� usług strumieniowania wizyjnego, autor przeprowadził do�wiadczenie

11 W systemie strumieniowania Helix, oboj�tnie od wybranych protokołów transmisyjnych (poł�czeniowych lub bezpoł�czeniowych), ustanawiany jest kanał zwrotny o niewielkiej przepływno�ci (z odtwarzacza do serwera), przekazuj�cy do serwera informacje o odebranych przez odtwarzacz pakietach wideo. 12 Granica 4 sekund ma znaczenie w przypadku oczekiwania na pierwsze dane z serwera wideo. Brak ich w ci�gu 4 sekund jest sygnałem do zaprzestania transmisji przy u�yciu aktualnego protokołu transmisyjnego wraz z prób� u�ycia innego protokołu transmisyjnego. W tym przypadku u�ytkownik zaobserwuje niekorzystne efekty wizualne.

79

polegaj�ce na wpi�ciu w tor transmisyjny emulatora NEWUDPL 13 zaburze� pracy sieci.

Do�wiadczenie przeprowadzono zakłócaj�c strumieniow� transmisj� (UDP+RTP)/IP 14 ,

przebiegaj�c� z serwera wideo Helix DNS Server do klienta RealPlayer. Emulator pracował w

warstwie IV, zakłócaj�c (opó�niaj�c o zmienn� warto��) datagramy UDP przesyłane z

serwera do odtwarzacza. W celu dokonania pomiarów stworzono architektur� składaj�c� si� z

trzech komputerów (serwera, rutera z emulatorem, klienta), któr� przedstawiaj� Rysunek 2.28

i Rysunek 2.29.

Rysunek 2.28. Ogólna architektura stanowiska laboratoryjnego

Nale�y zwróci� uwag�, �e od klasycznej architektury dost�pu sieciowego do serwera

strumieniuj�cego ró�ni si� ona jedynie zainstalowanym w ruterze i wpi�tym w tor

transmisyjny emulatorem fluktuacji. Emulator odbierał na okre�lonym porcie datagramy z

serwera strumieniuj�cego, emulował ł�cze o przepływno�ci 10 Mbit/s, opó�niał pakiety o od

0 do maksymalnie kilkunastu sekund (przy buforze kolejki równym 16 KB), a nast�pnie

wysyłał do okre�lonego portu komputera-klienta.

13 NEWUDPL – Network Emulator With UDP Link (emulator sieci z ł�czem UDP). Jest to narz�dzie pozwalaj�ce sztucznie emulowa� rozmaite warunki przeł�czania pakietów UDP. Emulator odbiera pakiety UDP na okre�lonym porcie, a nast�pnie opó�nia je, niektóre usuwa, zniekształca ich zawarto��, zamienia kolejno�� wysyłania i emuluje sko�czon� przepływno�� ł�cza przez kolejkowanie pakietów. Emulator jest u�yteczny w testowaniu efektywno�ci sieci, protokołów lub kodeków. 14 System strumieniowania Helix umo�liwia strumieniowanie z przesyłaniem pojedynczym przy u�yciu stosów protokołów: RTSP/TCP/IP (sterowanie) i (UDP+RTP)/IP (dane), RTSP/TCP/IP (sterowanie) TCP/IP (dane) oraz HTTP/TCP/IP (sterowanie i dane). Autor dokonał pomiarów wył�cznie dla pierwszego przypadku. Poj�cie fluktuacji dla protokołu TCP/IP traci obecnie na znaczeniu, gdy� zdecydowana wi�kszo�� współcze�nie u�ywanych i rozwijanych systemów operacyjnych w istotnym stopniu „wygładza” zmienno�� opó�nie� pakietów TCP/IP.

80

IP

TCP UDP

NAT

Emulator TCP UDP

Serwer

IP IP

TCP UDP Odtwarzacz

Serwer Ruter Klient

149.156.114.195

149.156.114.195

149.156.114.195 149.156.114.227 192.168.1.1

192.168.1.24

192.168.1.24

192.168.1.24

7070 7070

554

149.156.114.227

192.168.1.1

192.168.1.1 149.156.114.227

Poł�czenie steruj�ce TCP

Strumie� wizyjny UDP

Sprz��enie zwrotne UDP

Rysunek 2.29. Szczegółowa architektura testu laboratoryjnego

Jak ju� wspomniano, konfiguracja klienta systemu (RealPlayer) została ustawiona w

pozycjach domy�lnych. Jedyn� zmian� było wymuszenie transmisji UDP na okre�lonych

portach. Nie wpływa to w �aden sposób na prac� systemu, lecz umo�liwia prac� emulatorowi

zaburze� pracy sieci, któremu mo�na na stałe przypisa� okre�lone porty UDP: odbiorcze i

nadawcze. Zwykle bowiem port UDP jest ustalany dynamicznie, a wi�c emulator musiałby

by� ka�dorazowo rekonfigurowany.

Wyniki

Przeprowadzona emulacja potwierdziła sygnalizowany we wst�pie brak wpływu fluktuacji na

wygl�d wy�wietlanego obrazu na komputerze klienta systemu. W przypadku wyst�powania

opó�nie� transmisyjnych ilo�� danych w buforze odtwarzacza zaczyna si� zmniejsza�, zawsze

jednak jest ich w nim kilkukrotnie wi�cej ni� wynosi warto�� niedoboru zwi�zanego z

chwilowym opó�nieniem transmisyjnym. W chwili gdy fluktuacja przyjmuje ni�sze warto�ci,

bufor ponownie jest zapełniany.

Warto zwróci� uwag�, �e w trakcie bada� okazało si�, �e niemo�liwe było rzetelne

zbadanie wpływu fluktuacji w sytuacjach, w których przyjmuje ona znaczne warto�ci, a

przesyłane strumienie charakteryzuj� si� wysok� przepływno�ci�. Zwi�zane to było z

ograniczonym rozmiarem bufora danych w emulatorze, wynosz�cym 16 KB. W przypadku

gdy emulator, emuluj�c wysok� warto�� fluktuacji, zaczynał przetrzymywa� w buforze dane

dla strumieni o wysokiej przepływno�ci, zdarzało si�, �e bufor si� przepełniał i cz��

pakietów była bezpowrotnie tracona, co oczywi�cie tym razem miało ju� bardzo wyra�ny

wpływ na jako�� obrazu. Jest to wina samego emulatora, która jednak w praktyce mo�e

znale�� odzwierciedlenie w rzeczywistych sytuacjach – przypadek, w którym po chwilowym

81

zwi�kszeniu si� opó�nienia, zaczyna si� ono zmniejsza�, czyli ruter jest „zalewany” liczb�

pakietów przekraczaj�c� mo�liwo�� ich obsługi i buforowania.

Warunek dla maksymalnej przepływno�ci strumienia (przy danych wielko�ciach

bufora i chwilowego opó�nienia) mo�na zapisa� wzorem w nast�puj�cej postaci:

[ ] [ ][ ]sD

KBbskbit

≤8

υ (2.20)

gdzie:

υ – przepływno��,

b – bufor,

D – opó�nienie.

82

Po podstawieniu odpowiednich warto�ci, mo�na doj�� do wniosku (potwierdzonego w

testach), �e graniczne przepływno�ci strumienia i chwilowego opó�nienia transmisyjnego

przy buforze o pojemno�ci 16 KB przedstawiaj� si� nast�puj�co (Tabela 2.5):

Tabela 2.5. Graniczne przepływno�ci strumieni dla danych granicznych opó�nie� chwilowych

Graniczna

przepływno��

strumienia

[kbit/s]

Graniczne

opó�nienie

chwilowe

[s]

12 10,667

16 8,000

26 4,923

28 4,571

32 4,000

56 2,286

64 2,000

128 1,000

150 0,853

256 0,500

384 0,333

512 0,250

768 0,167

Wi�kszo�� warto�ci w lewej kolumnie tabeli przedstawia najbardziej popularne

przepływno�ci strumieni u�ywane przy strumieniowaniu.

Przy okazji bada� autor zauwa�ył, �e w zwi�zku z tym, �e strumie� wizyjny nigdy nie

jest idealnie jednostajny, zachowanie �redniej przepływno�ci na granicy mo�liwo�ci bufora

mo�e spowodowa� okazjonalne gubienie pojedynczych pakietów podczas chwilowego

wzrostu przepływno�ci, wyst�puj�cego akurat w przypadku dopełniania si� bufora.

Fluktuacje przepływno�ci strumienia dobrze obrazuje poni�szy wykres, na którym

słupkami bł�dów zaznaczono minimalne i maksymalne warto�ci przepływno�ci strumienia

wizyjnego.

83

0

100

200

300

400

500

600

700

800

0 100 200 300 400 500 600 700 800

Przepustowo�' emulowanego kanału [kbit/s]

Prz

epły

wno

�' n

a w

yj�c

iu ru

tera

[kbi

t/s]

Rysunek 2.30. �rednia, minimalna i maksymalna przepływno�� strumienia na wyj�ciu rutera w funkcji

zało�onej przepustowo�ci emulowanego kanału

Wnioski

Przeprowadzone przez autora badania pokazuj� brak wpływu fluktuacji dla strumieniowej

transmisji wideo w systemie Helix, o ile warto�� chwilowego opó�nienia nie przekracza 4

sekund, a odtwarzacz posiada� b�dzie standardow� nastaw� wymuszaj�c� 30-sekundowy

bufor danych. W praktyce typowe opó�nienia dla ł�czy o przepływno�ciach, dla których

mo�liwe jest racjonalne strumieniowanie, wyst�puj�ce nawet w publicznych sieciach bez

�adnych gwarancji QoS, obserwowane s� zwykle na maksymalnym poziomie rz�du

dziesi�tnych cz��ci sekundy (pojedynczych setek milisekund). W praktyce Internetu wi�ksze

opó�nienie (i wi�ksza jego fluktuacja) zwykle towarzyszy mniejszym przepływno�ciom,

uniemo�liwiaj�cym strumieniowanie obrazu. Wobec powy�szego poziom fluktuacji, która

wraz z opó�nieniem stałym przekroczy 4 sekundy wydaje si� nierealny, a co za tym idzie – z

powodzeniem mo�na mówi� o braku realnego wpływu fluktuacji na jako�� obrazu wideo.

Autor przewiduje, �e podobne efekty uzyskałoby si� przy próbach z u�yciem innych

popularnych systemów strumieniowania, takich jak Windows Media czy QuickTime, gdy� i

one posiadaj� (co najmniej kilkusekundowe) bufory danych.

84

2.4.2. Porównanie serwerów strumieniuj�cych

Ostatnim z zada� badawczych zwi�zanych ze strumieniowaniem sekwencji wizyjnych było

porównanie wydajno�ci serwerów strumieniuj�cych. Pod tym poj�ciem autor rozumie:

• wpływ liczby strumieniowanych transmisji na obci��enie procesora serwera,

• wpływ liczby strumieniowanych transmisji na zaj�to�� pami�ci serwera,

• wpływ liczby strumieniowanych transmisji na obci��enie sieci.

W celu przeprowadzenia bada�, czyli dokonania maksymalnie wiarygodnego

porównania, autor wyselekcjonował trzy rozwi�zania (pakiety programowe) pozwalaj�ce

na strumieniowanie sekwencji wizyjnych:

1. RealNetworks HelixTM Universal Server 9.0.2.766 – firmy RealNetworks – dalej

oznaczany jako HUS – umo�liwia strumieniowanie ró�nych formatów, cho�

ukierunkowany jest przede wszystkim na firmowy standard RealMedia,

2. Darwin Streaming Server 4.1.3 – firmy Apple – dalej oznaczany jako DSS–

umo�liwia strumieniowanie ró�nych formatów, cho� ukierunkowany jest przede

wszystkim na firmowy standard QuickTime,

3. Windows Media Services 9 – firmy Microsoft – dalej oznaczany jako WMS–

umo�liwia strumieniowanie ró�nych formatów, cho� ukierunkowany jest przede

wszystkim na firmowy standard Windows Media,

Wszystkie z wymienionych rozwi�za� mog� by� zainstalowane i uruchomione na

platformie: Intel Pentium/Microsoft Windows, na której przeprowadzone zostały badania15.

Komputer posiadał procesor Pentium-III 800 MHz. WMS jest dost�pny wył�cznie w wersji

dla systemu operacyjnego Microsoft Windows Server 2003 Enterprise Edition, a zatem pod

kontrol� tego systemu operacyjnego był uruchamiany. DSS nie pracuje w �rodowisku

Windows Server 2003, w zwi�zku z czym na komputerze zainstalowano drugi system

operacyjny: Microsoft Windows 2000 Professional, i pod jego kontrol� uruchamiano DSS.

HUS pracował w obu systemach operacyjnych – testy wykonano dla systemu Windows

Server 2003. Komputer strumieniuj�cy wyposa�ony był w interfejs ETHERNET o

przepływno�ci 100 Mbit/s. Komputery klienckie posiadały interfejsy sieciowe o takich

samych parametrach, cało�� poł�czona została przy u�yciu sieci przeł�czanej, co

minimalizuje wpływ innych urz�dze� wpi�tych do tego samego segmentu sieci. W trakcie

bada�, w komputerze strumieniuj�cym ograniczono do niezb�dnego minimum wszelk� inn�

aktywno�� sieciow� oraz wszelkie procesy pracuj�ce w tle.

15 Wersje instalacyjne dla innych platform sprz�towych i programowych te� s� dost�pne.

85

Nast�pnym krokiem było przygotowanie materiału testowego. W tym celu

przygotowano w postaci cyfrowej około 90-minutowy zapis sekwencji wizyjnej, który

kompresowano i zapisano za pomoc� nast�puj�cych kodeków i formatów zapisu:

• Kodek: MPEG-1, format: MPEG-1

• Kodek: MPEG-4, format: MPEG-4

• Kodek: Windows Media 9, format: Windows Media Video

• Kodek: RealVideo 9, format: RealMedia

• Kodek: MPEG-1, format: QuickTime

• Kodek: Sorenson Video 3, format: QuickTime

Niestety, nie istnieje uniwersalny kodek i format zapisu sekwencji wizyjnych, który

mógłby by� strumieniowany przez wszystkie trzy rozwi�zania serwera wideo. Nawet tak

dobrze znany kodek i format jak standard MPEG-1, bezpo�rednio obsługiwany jest jedynie

przez Helix Universal Server (po dodaniu do niego odpowiednich znaczników QuickTime,

strumieniowa� go mo�e te� Darwin Streaming Server). Troch� lepiej sytuacja przedstawia si�

w przypadku kodeka i formatu standardu MPEG-4 – tutaj oba wspomniane wy�ej serwery

bezpo�rednio go obsługuj�. Najwi�cej ogranicze� wyst�puje w przypadku rozwi�zania firmy

Microsoft, które obsługuje wył�cznie własn� rodzin� kodeków i formatów Windows Media

(sk�din�d jednak, bardzo efektywnych w kompresji).

Testow� sekwencj� wizyjn� kompresowano ustawiaj�c parametry kodeka na strumie�

wyj�ciowy o przepływno�ci 1 Mbit/s. W trakcie badania podł�czano kolejno nowych klientów

do serwera strumieniuj�cego, przesyłaj�c do nich strumienie z u�yciem stosów protokołów

RTSP/TCP/IP (sterowanie) i (UDP+RTP)/IP (dane). Dodatkowo, w przypadku serwera

Windows Media Services przeprowadzono badanie dla stosu protokołów MMS/TCP/IP

(sterowanie) i (UDP+RTP)/IP (dane), gdy� rozwi�zanie to posiada tak� opcj�.

Obci��enie procesora

Autor badał obci��enie procesora w dwojaki sposób: jako udział zada� wywołanych przez

serwer strumieniuj�cy w ogólnym czasie procesora oraz jako ogólne obci��enie czasu

procesora wszystkimi uruchomionymi w systemie zadaniami. Pierwsze badanie pokazuje

bezpo�redni wpływ pracy serwera strumieniuj�cego na obci��enie komputera. Drugie badanie

miało na celu zbadanie tak�e po�redniego wpływu innych czynników na obci��enie

komputera.

86

Obci��enie zadaniami serwera strumieniuj�cego

Rysunek 2.31 przedstawia wykres obrazuj�cy wzrost obci��enia komputera procesami

serwera wideo.

0%

2%

4%

6%

8%

10%

12%

14%

16%

18%

0 1 2 3 4 5 6 7 8 9 10

Liczba strumieni

Obc

i��e

nie

proc

esor

a

DSS/SV3/QT/RTSP DSS/MPEG-4/MPEG-4/RTSPDSS/MPEG-1/QT/RTSP HUS/RV9/RM/RTSPHUS/MPEG-1/MPEG-1/RTSP HUS/MPEG-4/MPEG-4/RTSPWMS/WM9/WMV/MMS WMS/WM9/WMV/RTSP

Rysunek 2.31. Wpływ liczby strumieni na obci��enie zadaniami serwera wideo

Jak wida�, wpływ liczby strumieni na obci��enie zadaniami serwera nie jest znaczny.

W przypadku Darwin Streaming Servera i Windows Media Services mamy do czynienia z

niemonotonicznym, powolnym wzrostem obci��enia. W przypadku Helix Universal Servera

moduł monitoruj�cy aktywno�� pokazywał zawsze zerowe obci��enie komputera zadaniami

serwera strumieniuj�cego. Mo�e to jednak oznacza� zarówno niezwykle wydajne działanie

serwera, jak i nieprawidłowe działanie modułu monitorowania.

Ogólnie, autor nie odnotował wi�kszego przyrostu obci��enia ni� 0,4% na strumie�,

co pozwoliłoby prognozowa� mo�liwo�� obsługi setek strumieni na badanej maszynie przy

zało�eniu, �e bierzemy pod uwag� wył�cznie bezpo�redni wpływ obci��enia procesora

zadaniami serwera strumieniuj�cego.

Ogólne obci��enie procesora

Badanie obci��enia zadaniami serwera strumieniuj�cego pozwala okre�li� jedynie

bezpo�redni wpływ pracy serwera strumieniuj�cego na obci��enie komputera. Aby zbada�

87

tak�e po�redni wpływu innych czynników (np.: obsługi zwi�kszonego ruchu w kierunku

interfejsu sieciowego) na obci��enie komputera, oprócz bezpo�redniego wpływu obci��enia

generowanego przez oprogramowanie serwera strumieniuj�cego, nale�y tak�e bra� pod

uwag� czynniki po�rednio wpływaj�ce na obci��enie procesora komputera. Rysunek 2.32

przedstawia wykres obrazuj�cy (przy wzro�cie liczby obsługiwanych strumieni) wzrost

obci��enia komputera wszystkimi procesami.

0%

5%

10%

15%

20%

0 1 2 3 4 5 6 7 8 9 10

Liczba strumieni

Obc

i��e

nie

proc

esor

a


Rysunek 2.32. Wpływ liczby strumieni na ogólne obci��enie procesora

W odró�nieniu od poprzedniego wykresu (Rysunek 2.31), Rysunek 2.32 pokazuje, �e

ogólny wpływ strumieniowania na obci��enie komputera znacznie przewy�sza wpływ

samych zada� wywołanych przez oprogramowanie serwera strumieniuj�cego. Podobnie jak

poprzednio, w wi�kszo�ci przypadków autor nie odnotował monotonicznego wzrostu

obci��enia. Wyj�tkami s� tutaj przypadki DSS/SV3/QT/RTSP i HUS/RV9/RM/RTSP, dla

których obci��enie serwera wzrasta monotonicznie, osi�gaj�c bardzo szybko (przy dziesi�ciu

strumieniach) warto�ci rz�du 20%.

Zaj�to�� pami�ci

Rysunek 2.33 przedstawia wykres zaj�to�ci pami�ci komputera w zale�no�ci od liczby

obsługiwanych strumieni. Komentarza wymaga fakt, �e z uwagi na ró�ne systemy operacyjne,

88

warunki pocz�tkowe dla Darwin Streaming Servera (zaj�to�� pami�ci systemu z serwerem

wideo b�d�cym w stanie bezczynno�ci) ró�niły si� od warunków pocz�tkowych

dla pozostałych dwóch serwerów.

100

120

140

160

180

200

0 1 2 3 4 5 6 7 8 9 10

Liczba strumieni

Zaj�

to�'

pam

i�ci

[MB

]


Rysunek 2.33. Wpływ liczby strumieni na zaj�to�� pami�ci

Analiza wykresu wskazuje, �e dla Helix Universal Servera oraz Windows Media

Services praktycznie nie mo�na zaobserwowa� wpływu liczby obsługiwanych strumieni na

zaj�to�� pami�ci komputera strumieniuj�cego. W przypadku Darwin Streaming Servera autor

zaobserwował niewielki wzrost zaj�to�ci pami�ci przy wzro�cie liczby obsługiwanych

strumieni – na poziomie nie wi�kszym ni� 3 MB/strumie�.

Obci��enie sieci

Ostatnim porównaniem było zbadanie obci��enia sieci telekomunikacyjnej

przy strumieniowaniu (z ró�nych serwerów wideo) z przepływno�ci� 1 Mbit/s plików

zakodowanych w ró�nych formatach kompresji. Autor okre�lał obci��enie sieci jako

u�rednion� liczb� bitów przesłanych w danej jednostce czasu (zwykle rz�du kilku sekund),

podzielon� przez długo�� tej jednostki czasu. Autor przeprowadził badania na serwerze

strumieniuj�cym przy u�yciu trzech metod:

89

• Badanie warto�ci podawanych przez serwer wideo (wyniki cz�sto bardzo odbiegaj�ce

od warto�ci spodziewanych).

• Badanie warto�ci okre�lanych za pomoc� programu DU Meter bezpo�rednio

w interfejsie sieciowym.

• Badanie warto�ci podawanych przez Mened�er zada� (Task Manager) systemu

Microsoft Windows Server 2003 Enterprise Edition (wyniki pomiarów stosunkowo

mało dokładne).

Obci��enie sieci podawane przez oprogramowanie serwera

Rysunek 2.34 przedstawia wykres obci��enia sieci w zale�no�ci od liczby obsługiwanych

strumieni. Obci��enie w tym przypadku monitorowano przy u�yciu modułów monitorowania

serwerów strumieniuj�cych.

0

5

10

15

20

25

30

35

0 1 2 3 4 5 6 7 8 9 10

Liczba strumieni (=teoretyczna przepływno�' oferowana) [Mbit/s]

Ruc

h w

g se

rwer

a [M

bit/s

]


Rysunek 2.34. Wpływ liczby strumieni na obci��enie sieci (wg serwera)

Analiza wykresu przynosi dla niektórych strumieni zaskakuj�ce wyniki. O ile

wi�kszo�� wykresów jest zbie�na z warto�ciami spodziewanymi, to niezrozumiałe s� wykresy

DSS/MPEG-4/MPEG-4/RTSP oraz (oba) WMS. Poniewa� jednak ka�dy serwer

strumieniuj�cy posiada własn� implementacj� modułu monitoruj�cego przepływno��, bardziej

90

wiarygodne wyniki porównania uzyskano przy u�yciu niezale�nego programu

do monitorowania aktywno�ci interfejsu sieciowego (DU Meter).

Obci��enie sieci podawane przez program DU Meter


strumieni. Obci��enie w tym przypadku monitorowano przy u�yciu programu DU Meter.

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7 8 9 10

Liczba strumieni (=teoretyczna przepływno�' oferowana [Mbit/s])

Ruc

h na

inte

rfejs

ie [M

bit/s

]


Rysunek 2.35. Wpływ liczby strumieni na obci��enie sieci (wg programu DU Meter)

Przedstawione powy�ej obiektywne (poniewa� sporz�dzone tym samym programem)

porównanie prezentuje wyniki bardziej zbli�one do warto�ci oczekiwanych. Obci��enie sieci

nie jest uzale�nione od wybranego rozwi�zania serwera strumieniuj�cego. Wida� natomiast

troch� mniejsze obci��enie przy strumieniowaniu dla sekwencji wizyjnych kompresowanych

w standardzie MPEG-4 i wyra�nie mniejsze dla sekwencji wizyjnych kompresowanych

kodekiem Windows Media 9. Bardziej szczegółowa analiza kompresowanych sekwencji

wizyjnych pokazała, �e nastaw kodeków na warto�� „1 Mbit/s” w tych przypadkach nie

oznaczał wymuszenia strumienia o �redniej przepływno�ci 1 Mbit/s, a oznaczał warto��

maksymaln� przepływno�ci, wyra�nie wy�sz� od warto�ci �redniej.

91

Obci��enie sieci podawane przez Mened�era zada�


strumieni. Obci��enie w tym przypadku monitorowano przy u�yciu Mened�era zada�.

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

Liczba strumieni (=teoretyczna przepływno�' oferowana [Mbit/s])

Ruc

h w

g M

ened

�era

zad

a( [M

bit/s

]

HUS/RV9/RM/RTSP HUS/MPEG-1/MPEG-1/RTSPHUS/MPEG-4/MPEG-4/RTSP WMS/WM9/WMV/MMSWMS/WM9/WMV/RTSP

Rysunek 2.36. Wpływ liczby strumieni na obci��enie sieci (wg Mened�era zada�)

Wyniki uzyskane przy pomiarach ruchu z u�yciem Mened�era zada� s� zgodne z

poprzednimi, uzyskanymi za pomoc� programu DU Meter, co powinno stanowi�

potwierdzenie ich poprawno�ci. Niestety, poniewa� funkcja pomiaru obci��enia interfejsu

sieciowego nie jest dost�pna w Mened�erze zada� systemu Microsoft Windows 2000

Professional, na wykresie brak danych o wynikach dla Darwin Streaming Servera.

2.5. Wnioski

W niniejszym podrozdziale autor przedstawia wnioski, jakie wyci�gn�ł po zako�czeniu bada�

wybranych podsystemów DVL: podsystemu streszczania, indeksowania, kompresji i

strumieniowania.

Sekwencyjne metody SBD mog� zosta� przyspieszone, je�li zredukuje si� ilo��

danych, na których operuj�, do wybranych pikseli klatek. U�ycie metody bisekcyjnej

umo�liwia dalsze przyspieszenie procesu SBD w stosunku do metod sekwencyjnych. Główny

problem bisekcyjnej SBD – klasyfikowanie par klatek – mo�e by� rozwi�zany przez u�ycie

92

jednego lub wi�cej kryteriów opartych na standardzie MPEG-7. Uzupełnieniem bisekcyjnej

klasyfikacji par klatek mo�e by� pó�niejsza szybka weryfikacja sekwencyjna. Dodatkowo

metoda bisekcyjna mo�e zosta� przyspieszona dzi�ki ponownemu u�ywaniu raz ju�

analizowanych klatek sekwencji wizyjnej. Badania przeprowadzone nad podsystemem

streszczania pozwoliły autorowi skonstruowa� implementacj� SBD. Dost�p do implementacji

SBD mo�liwy jest przez sie� Internet. Wej�cie do interfejsu graficznego implementacji SBD

znajduje si� pod adresem [84].

Istnieje mo�liwo�� u�ycia metod rozpoznawania tekstu i mowy dla celów

indeksowania tre�ci DVL. W zakresie rozpoznawania tekstu autor ustalił, �e dla

prawidłowego rozpoznawania minimalnym rozmiarem czcionki widocznej w klatce

sekwencji wizyjnej jest 19 pikseli. W zakresie rozpoznawania mowy autor porównał dwa

najbardziej popularnych rozwi�zania – Microsoft Speech, ViaVoice z których ten drugi

okazał si� działa� szybciej i dokładniej.

Autor dokonał te� porównania kodeków wizyjnych pracuj�cych w ró�nych zakresach

CR, za ka�dym razem wskazuj�c kodek oferuj�cy maksymaln� jako�� rekonstruowanych

obrazów ruchomych. W eksperymentach mo�na było zauwa�y�, �e dla niektórych kodeków

powy�ej pewnego CR ju� jego mały dalszy wzrost skutkuje znacz�cym pogorszeniem si�

jako�ci rekonstruowanych obrazów ruchomych.

Autor przeprowadził te� badania nad podsystemem strumieniowania. W trakcie bada�

stwierdził, �e wpływ fluktuacji opó�nienia na strumieniowanie sekwencji wizyjnych z DVL

jest nieznaczny. Nast�pnie autor dokonał bada� porównawczych serwerów strumieniuj�cych.

Badania były umotywowane tym, �e wraz ze wzrostem zainteresowania mediami

strumieniowanymi na rynku pojawiło si� wiele rozwi�za� firmowych po�wi�conych

strumieniowaniu sekwencji wizyjnych. Liczne i nieustannie rozwijane serwery strumieniuj�ce

pozwalaj� firmom zainteresowanym nadawaniem w sieci Internet na uruchamianie

profesjonalnych instalacji typu DVL, VoD lub VC. Do u�ytkowników indywidualnych

skierowana jest oferta (nierzadko darmowych) rozwi�za� o ograniczonej funkcjonalno�ci.

93

3. MEDYCZNA CYFROWA BIBLIOTEKA WIDEO

Niniejszy rozdział wprowadza Czytelnika w tematyk� specyficznej podgrupy DVL – w

tematyk� Medycznych DVL (MDVL). Autor zaw��a obszar swoich bada� do wybranych

podsystemów MDVL, a w zakresie zaw��onego obszaru – prezentuje stan rozwoju

wybranych elementów MDVL. Nast�pnie, autor przedstawia oryginalne rozwi�zania w

zakresie wybranych zagadnie� MDVL. Rozdział jest podsumowany wnioskami z

przeprowadzonych bada�.

3.1. Wst�p do MDVL

Oczywiste jest, �e istniej� zastosowania, w których cyfrowe biblioteki wideo oka�� si�

szczególnie przydatne. Tak� dziedzin� jest telemedycyna, gdzie DVL mo�e by� u�yta do

składowania oraz udost�pniania znacznej liczby sekwencji wizyjnych dotycz�cych bada�,

zabiegów, operacji i innych zapisów o tematyce medycznej. Pó�niejsze ich odtwarzanie mo�e

słu�y� celom szkoleniowym, dokumentacyjnym, jak równie� wspiera� diagnostyk�.

Maj�c to na uwadze, w Krakowskim Centrum Telemedycyny (KCTM) [70], pod

kierownictwem prof. dra hab. in�. Krzysztofa Zieli�skiego z Katedry Informatyki AGH,

uruchomiono projekt „Zaawansowane usługi telemedyczne i telediagnostyczne” finansowany

przez Komitet Bada� Naukowych. Jednym z celów tego projektu była budowa MDVL.

MDVL jest rozwi�zaniem, które z powodzeniem znajduje zastosowanie jako narz�dzie

edukacyjne oraz dokumentacyjne [65, 175]. Biblioteka odpowiednio wypełniona tre�ci� i

skonfigurowana umo�liwia zdalny dost�p do obszernych zasobów multimedialnych. Co

wi�cej, u�ytkownik MDVL nie musi dysponowa� �adnym specjalnym urz�dzeniem czy

oprogramowaniem poza standardowym komputerem z zainstalowan� przegl�dark�

internetow� oraz kodekiem sygnału wizyjnego (w razie braku tego ostatniego, instaluje si� on

automatycznie). Oczywi�cie, komputer u�ytkownika musi posiada� dost�p do sieci Internet,

przy czym im pr�dko�� ł�cza dost�powego jest wi�ksza, tym jako�� ogl�danych sekwencji

wizyjnych – lepsza. Warto te� zwróci� uwag�, �e gwałtowny rozwój sieci bezprzewodowych

spowodował powstanie mo�liwo�ci dost�pu do MDVL tak�e z u�yciem terminali mobilnych

94

– komputerów przeno�nych (laptopów), komputerów nar�cznych (tzw. palmtopów) czy te�

telefonów komórkowych. Nale�y zdawa� sobie jednak spraw� z oczywistego faktu, �e wraz

ze spadkiem rozmiarów ekranu słu��cego do wy�wietlania sekwencji wizyjnej pogarszaj� si�

mo�liwo�ci diagnostycznego zastosowania opisywanego rozwi�zania [82].

Podstawowe korzy�ci z zastosowania MDVL ujawniaj� si� przede wszystkim tam,

gdzie dotychczas istotnym czynnikiem był czas oczekiwania na odnalezienie w obszernym

archiwum sekwencji wizyjnej (przykładowo: z zapisem przebiegu operacji) zarejestrowanej

na klasycznej kasecie VHS. Dzi�ki MDVL odnalezienie sekwencji wizyjnej i rozpocz�cie jej

odtwarzania trwa zazwyczaj nie wi�cej ni� kilkana�cie sekund.

Sekwencje wizyjne przechowywane w MDVL stanowi� specyficzny przypadek

sekwencji wizyjnych. Sekwencje wizyjne o tre�ciach medycznych, zwłaszcza rejestrowane

przez aparatur� medyczn�, charakteryzuj� si� bowiem cz�sto niestandardowymi cechami.

Przykładowo, koncentracja aktywno�ci ruchowej mo�e by� skupiona wył�cznie w niewielkim

fragmencie obrazu.

3.1.1. Stan rozwoju wybranych podsystemów MDVL

Nie wszystkie podsystemy DVL s� równie intensywnie rozwijane w MDVL. Autor dokonał

przegl�du bada� prowadzonych przy okazji dokonywania implementacji MDVL. Nast�pnie

autor przedstawił stan rozwoju dwóch wybranych podsystemów MDVL – podsystemu

streszczania i kompresji.

Streszczanie w MDVL

Niestety, wci�� dosy� rzadko spotyka si� MDVL na tyle zaawansowane technicznie, by

zawierały podsystem streszczania. Autor znalazł w literaturze niewielk� liczb� bada� nad

streszczaniem sekwencji wizyjnych zawieraj�cych tre�ci medyczne [170, 171]. Jednak z

konsultacji autora z lekarzami-klinicystami (prowadzonych w ramach wy�ej wspomnianego

projektu „Zaawansowane usługi telemedyczne i telediagnostyczne”) wynika, �e potrzeba

streszczania takich sekwencji wizyjnych jest bardzo ograniczona. Istnieje natomiast

zainteresowanie jednym z procesów podsystemu streszczania – podziałem na uj�cia,

poprzedzonym oczywi�cie SBD. Autor w literaturze nie znalazł metod SBD przygotowanych

specjalnie do pracy z sekwencjami wizyjnymi zawieraj�cymi dane medyczne. U�ywa si�, z

ró�nym powodzeniem, metod ogólnych.

95

Kompresja w MDVL

Literatura zawiera wyniki badania prowadzonych w zakresie podsystemu kompresji MDVL.

Efektem tych bada� było powstanie i rozwój standardów dotycz�cych kompresji medycznych

sekwencji wizyjnych [126]. Najwa�niejszym z tych standardów jest DICOM (ang. Digital

Imaging and Communication in Medicine) [131]. DICOM stał si� podstawowym standardem

u�ywanym dla celów kompresji (a tak�e przechowywania medycznych danych

multimedialnych). DICOM umo�liwia przechowywanie zarówno obrazów nieruchomych, jak

i sekwencji wizyjnych [111]. W trakcie opracowywania tego standardu najwi�kszy nacisk

został poło�ony na zaproponowanie algorytmu kompresji zachowuj�cego mo�liwie wiernie

dane �ródłowe. Obecnie w standardzie DICOM przewidziane s� głównie bezstratne metody

kompresji. Wynikiem tego s� niskie CR osi�gane aktualnie przy kompresji i zapisie sekwencji

wizyjnych w formacie DICOM. Format DICOM implikuje wi�c obecnie wysokie wymagania

na przepustowo�� sieci, w której strumieniowane byłyby sekwencje wizyjne. Nale�y jednak

zauwa�y�, �e standard DICOM jest ci�gle rozwijany i w przyszło�ci mo�liwe jest wł�czanie

do niego wi�kszej liczby stratnych metod kompresji.

Bardzo cz�sto, kiedy prezentacja medycznych danych multimedialnych nie ma na celu

wsparcia procesu wystawiania diagnozy, lecz u�ywana jest na przykład w celach

edukacyjnych, stosuje si� kodeki znane z popularnych rozwi�za� konsumenckich. W

przypadku obrazów nieruchomych stosuje si� [92] standard kompresji JPEG [60] i format

JFIF. Kiedy kompresji poddawane s� sekwencje wizyjne stosuje si� [15] popularne kodeki,

takie jak: MPEG-1 [43], MPEG-2 [44, 55], MPEG-4 [46], RealVideo 9 i inne.

Jak autor wspomniał, popularne kodeki niezbyt cz�sto s� u�ywane do kompresji

multimedialnych danych medycznych, je�li obrazy zrekonstruowane maj� pó�niej wspomaga�

proces wystawiania diagnozy. Popularne kodeki zwykle tworzone s� przy zało�eniu

dokonywania kompresji silnie stratnej, przy czym obraz rekonstruowany mo�e znacz�co

ró�ni� si� od oryginału, pod warunkiem, �e u�ytkownik nie zauwa�a w obrazie

rekonstruowanym zniekształce�. U�ycie popularnych kodeków niesie wi�c za sob� du�e

prawdopodobie�stwo bezpowrotnej utraty w procesie kompresji pewnych elementów obrazu

oryginalnego. W przypadku u�ycia dla celów diagnostycznych obrazów rekonstruowanych po

kompresji popularnym kodekiem istnieje powa�ne niebezpiecze�stwo niedopuszczalnego

wpływu kompresji na wyniki diagnozy.

Wobec powy�szego sensowne wydaje si� przyj�cie zało�enia za [117], �e mo�liwe

jest u�ycie dla celów diagnostycznych obrazów i sekwencji wizyjnych, w których

kompresja stratna nie spowodowała widocznej dla lekarza utraty jako�ci. Innymi słowy,

96

do celów diagnostycznych kwalifikuj� si� takie skompresowane obrazy i sekwencje wizyjne,

które po rekonstruowaniu nie s� dla lekarza odró�nialne od oryginałów. Dopuszczalno�� tego

zało�enia została potwierdzona w badaniach [16].

W tej sytuacji, podobnie jak w przypadku kompresji sekwencji wizyjnych

niezawieraj�cych tre�ci medycznych, pojawia si� zagadnienie porównania ze sob� metod

kompresji i wyłonienia tych, które dla zało�onego stopnia kompresji wprowadzaj�

najmniejsze straty w tym procesie. Podobnie te�, mamy do czynienia z subiektywnymi i

obiektywnymi mo�liwo�ciami oceny.

Opisan� w literaturze [117, 135] i sprawdzon� subiektywn� metod�

przyporz�dkowania obrazów kompresowanych stratnie do grupy obrazów o niewidocznym

dla lekarza spadku jako�ci jest metoda polegaj�ca na uporz�dkowaniu kompresowanych

obrazów według jako�ci. Lekarz otrzymuje w losowej kolejno�ci kilka obrazów – od

oryginalnego, przez kompresowane stratnie z niewielkim CR, a� po obrazy kompresowane

stratnie z du�ym CR. Okazuje si� [117, 135], �e w wyniku szeregowania, w przewa�aj�cej

liczbie wykonanych testów, mo�na wyró�ni� dwie rozł�czne grupy obrazów. W pierwszej

wyst�puj� w rozmaitej kolejno�ci obrazy o najwy�szej jako�ci. Reszta obrazów pojawia si� w

drugiej grupie o najni�szej jako�ci, równie� w rozmaitej kolejno�ci. Tylko obrazy nale��ce do

pierwszej grupy obrazów uznaje si� za obrazy o jako�ci nierozró�nialnej przez lekarza od

oryginału, a wi�c takie, które mog� by� u�ywane w celach diagnostycznych.

Jednym z uznanych sposobów obiektywnej oceny stopnia zniekształce�

wprowadzanego przez kompresj� jest u�ycie Obliczeniowej Miary Wiarygodno�ci OMW.

Miara ta jest rozwini�ciem pomysłu PQS w kierunku wektorowych miar graficznych

(stworzono graficzny sposób prezentacji poziomu grup zniekształce�), jak te� w kierunku

oceny wiarygodno�ci diagnostycznej. Miara OMW jest miar� wektorow�. Wektor OMW

definiowany jest jako wektor sze�ciu współczynników [117]:

Bł�dy Punktowej Wiarygodno�ci (BPW):

• 1W – �redni bł�d rekonstrukcji punktu. Lokalnie charakteryzuje bł�d rekonstrukcji

punktów obrazu. Okre�la dokładno�� rekonstrukcji „�redniego” piksela, daj�c ogóln�

charakterystyk� poziomu zniekształce� lokalnych;

• 2W – maksymalny bł�d w punkcie. Globalnie charakteryzuje bł�d rekonstrukcji

punktów obrazu. Jest istotny ze wzgl�du na zachowanie małych, diagnostycznie

istotnych struktur, które nie mog� ulec destrukcji w procesie stratnej kompresji.

97

Lokalne Bł�dy Strukturalne (LBS):

• 3W – bł�dy skorelowane w oknie 5×5. Charakteryzuje lokaln� korelacj� w przestrzeni

(�rednio na cały obraz);

• 4W – wiarygodno�� wysokokontrastowych kraw�dzi. Jeden z dwu współczynników

okre�laj�cych lokalne bł�dy strukturalne;

Bł�dy Losowe (BL):

• 5W – normalizowana energia bł�du z wa�eniem cz�stotliwo�ciowym. Ma charakter

globalny. Szacuje energi� obrazu ró�nicowego oryginału i postaci rekonstruowanej.

Definiowany analogicznie jak w PQS;

• 6W – energia bł�du normalizowana wzgl�dem oryginału. Ma charakter globalny.

Szacuje energi� obrazu ró�nicowego oryginału i postaci rekonstruowanej. Nawi�zuje

do miary chi-kwadrat.

OMW jest oryginalnie miar� wektorow�. Spowodowany coraz silniejsz� kompresj�

wzrost ka�dego z sze�ciu współczynników oznacza pogarszanie si� pewnej cechy obrazu

(porównanie dwóch identycznych obrazów powinno wyzerowa� wszystkie współczynniki

wektora) [117].

OMW przetwarzanych sekwencji wizyjnych zawiera graficzn� form� prezentacji

zniekształce� w celu lepszej ich charakteryzacji i gł�bszej analizy. Za pomoc�

ró�nokolorowych prostok�tów wizualizowane s� trzy grupy bł�dów: bł�dy punktowej

wiarygodno�ci ( 1W , 2W ), lokalne bł�dy strukturalne ( 3W , 4W ) i bł�dy losowe ( 5W , 6W ).

Nasilanie si� zniekształce� powoduje powi�kszanie si� pól prostok�tów, co ma odpowiada�

negatywnemu znaczeniu definiowanych przez te trzy pary współczynników [117].

Przykładowy wykres OMW przedstawia Rysunek 3.1.

98

%�*

+%�

%+

��

��

�%

�� $

�!

Rysunek 3.1. Graficzna forma OMW. Warto�ci współczynników W1, W2, W3, W4, W5 i W6 s� pogrupowane

znaczeniowo jako bł�dy punktowej wiarygodno�ci (prostok�t BPW), lokalne bł�dy strukturalne (LBS) i bł�dy

losowe (BL) – za [117]

W celu wygodnego porównywania mi�dzy sob� jako�ci ró�nych obrazów mo�na

zastosowa� skalarny ekwiwalent OMW, który w rozprawie [117] został zdefiniowany w

oparciu o tzw. metryk� miejska. W metryce tej odległo�� mi�dzy dwoma wektorami ( a�

i b�

)

definiuje si� nast�puj�co:

( ) � −=i

iii babad α��

, (3.1)

gdzie iα s� dodatnimi wagami.

Przy zało�eniu, �e porównujemy obraz oryginalny (posiadaj�cy wektor zerowy) z

obrazem rekonstruowanym po kompresji, posiadaj�cym pewien wektor OMW , odległo��

mi�dzy tymi dwoma wektorami (OMW – skalarny ekwiwalent OMW ) jest wyliczana jako

suma sze�ciu warto�ci (współczynników wektora) [117]:

( ) �=

==6

1

,0i

iiWOMWOMWd α (3.2)

99

Nale�y zauwa�y�, �e współczynnikom wektora OMW ( 1W , …, 6W ) przydzielane s�

wagi ( 1α , …, 6α ), które s� ustalane w taki sposób, aby maksymalnie zwi�kszy� korelacj�

skalarnego ekwiwalentu OMW ze �rednimi warto�ciami ocen subiektywnych [117]. Zestawy

wag ró�ni� si� dla ró�nych typów danych medycznych [117], co powoduje, �e trudno jest

stosowa� jednolit� skalarn� OMW dla ró�nych typów obrazu. Dlatego te�, dla obiektywnej,

uniwersalnej (niezale�nej od rodzaju danych medycznych) oceny wybranych kodeków autor

nie zdecydował si� na stosowanie w badaniach skalarnego ekwiwalentu OMW.

Innym z uznanych sposobów obiektywnej oceny stopnia zniekształce�

wprowadzanego przez kompresj� jest u�ycie graficznej miary Hosaki [40]. Miara Hosaki jest

obiektywn� obliczeniowo miar� porównawcz�, pozwalaj�c� (w blokach pikseli podzielonych

na kilka klas – od 1×1 do 16×16) okre�li� jako�� rekonstrukcji warto�ci pikseli obrazu

oryginalnego ( )DM , a tak�e poziom szumu wprowadzony przez dan� metod� przetwarzania

obrazu ( )DS . Wielko�� pola po prawej stronie osi rz�dnych mówi o wierno�ci rekonstrukcji

oryginału, podczas gdy wielko�� pola na lewej stronie płaszczyzny mówi o poziomie szumów

wnoszonych przez metod� kompresji (patrz Rysunek 3.2) [135].

DS(16) DM(16)

DM(8)

DM(4)

DM(2)

DM(1)

DS(2)

DS(4)

DS(8)

Rysunek 3.2. Pole pod przykładowym wykresem Hosaki

100

OMW oraz miara Hosaki s� miarami uniwersalnymi, bowiem przy ich u�yciu mo�na

porównywa� obrazy kompresowane za pomoc� ró�nych kodeków [117, 40].

Nale�y zwróci� uwag� na to, �e badania nad kompresj� medycznych danych

multimedialnych prowadzone s� zwykle wył�cznie w zakresie rejestracji procedur jednej

w�skiej specjalizacji medycznej. Przykładami mog� by�: onkologia [126] (projekt

EUROPATH), radiologia [117, 126] (projekt EURORAD), okulistyka [104], pediatria [35],

chirurgia [29, 34, 74, 95, 125], piel�gniarstwo [33], stomatologia [120], interna [146, 155,

172] i medycyna ratunkowa [31, 76, 86]. Czasami jednak wyniki bada� rozszerzane s� na

inne specjalizacje, b�d� te� wyniki bada� w zakresie jednej specjalizacji s� pocz�tkiem bada�

w zakresie innej.

3.1.2. Podsumowanie

MDVL stanowi� specyficzny przypadek DVL. Ró�nica nie tkwi tylko w tre�ci sekwencji

wizyjnych zachowanych w MDVL, bardzo istotne s� te� wymagania u�ytkowników MDVL,

czyli lekarzy. Dlatego te� niektóre rozwi�zania stosowane w klasycznych DVL nie do ko�ca

sprawdzaj� si� w MDVL.

Stanowi�ce cz�� podsystemu streszczania metody SBD sprawdzaj�ce si� w

przypadku sekwencji wizyjnych o tre�ciach niemedycznych mog� działa� nieprawidłowo w

MDVL. Sekwencje wizyjne o tre�ciach medycznych, zwłaszcza rejestrowane przez aparatur�

medyczn�, charakteryzuj� si� bowiem cz�sto niestandardowymi cechami. Przykładowo,

koncentracja aktywno�ci ruchowej mo�e by� skupiona wył�cznie w niewielkim fragmencie

obrazu, o czym ju� wspomniano.

3.2. Zastosowanie wybranych rozwi�za� w MDVL

Poni�szy podrozdział prezentuje wyniki bada� autora nad u�yciem podsystemów streszczania

i kompresji w MDVL.

3.2.1. Streszczanie w MDVL

Przedstawiona uprzednio bisekcyjna metoda SBD mo�e zosta� z powodzeniem u�yta w

przypadku konieczno�ci wykrycia SB, gdzie ka�de uj�cie stanowi zapis badania medycznego.

Tego typu zadanie pojawiło si� w trakcie konstrukcji MDVL. Dostarczone celem

umieszczenia w MDVL sekwencje wizyjne były ci�głymi nagraniami o długo�ci około 4

godzin, przy czym ka�da z sekwencji zło�ona była z około 15 niezale�nych zapisów bada�

101

bronchoskopowych. Nieznane były granice poszczególnych zapisów w sekwencji wizyjnej,

natomiast pomi�dzy zapisami nast�powały gwałtowne zmiany obrazu, co pozwalało

traktowa� je jak uj�cia. Niestety, z uwagi na liczb� klatek do analizowania (4 godziny

sekwencji wizyjnej to 360 000 klatek w systemie PAL) tradycyjne sekwencyjne metody SBD

działały wolno.

Autor jednak zdecydowanie skrócił czas SBD przez zastosowanie metody bisekcyjnej.

Algorytmy bisekcyjne działaj� bowiem szczególnie sprawnie, gdy wykrywaj� SB w

sekwencji wizyjnej, która charakteryzuje si� stosunkowo długimi okresami bez SB. W

analizowanych sekwencjach wizyjnych �rednia długo�� uj�cia (czyli zapisu badania

medycznego) wyniosła około 16 minut, czyli 960 sekund, co jest warto�ci� o dwa rz�dy

wy�sz� o długo�ci uj�cia spotykanej w tre�ciach rozrywkowych.

Autor przeprowadził test porównawczy, zestawiaj�c ze sob� czasy SBD za pomoc�

metody sekwencyjnej oraz klasycznej i modyfikowanej metody bisekcyjnej. Materiałem

testowym była sekwencja wizyjna trwaj�ca 5 godzin i około 30 minut, składaj�ca si� z 20

uj��.

U�ycie klasycznej metody bisekcyjnej (czas wykonania procesu SBD: 32 sekundy)

zamiast metody sekwencyjnej (czas wykonania procesu SBD: 9 godzin) pozwoliło

przyspieszy� wyznaczanie SB przeszło 1000-krotnie. Jeszcze wi�ksze przyspieszenie dało

u�ycie modyfikowanej metody bisekcyjnej (czas wykonania procesu SBD: 25 sekund).

Rysunek 3.3. Klatki zapisów bronchoskopowych z zaznaczonymi wybranymi obszarami

Trafno�� rozpoznawania była idealna z uwagi na to, �e autor w istotny sposób oparł

kryteria przyporz�dkowywania klatek do uj�� na analizie wybranych obszarów obrazu

(Rysunek 3.3). Dodatkowo, eliminacja analizy tła jeszcze bardziej przyspieszyła proces SBD.

102

3.2.2. Kompresja w MDVL

Twierdzenie o mo�liwo�ci u�ycia dla celów diagnostycznych obrazów (w tym obrazów

ruchomych) kompresowanych stratnie, w których strata jako�ci jest widoczna, wydaje si�

trudna do obronienia. Wobec powy�szego sensowne wydaje si� złagodzenie tezy do

zasugerowania, �e mo�liwe jest u�ycie dla celów diagnostycznych obrazów, w których

kompresja stratna nie spowodowała widocznej dla lekarza utraty jako�ci.

Aby okre�li� kombinacje kodeków i CR pozwalaj�ce na otrzymanie

skompresowanych sekwencji wizyjnych, które po rekonstrukcji spełniaj� warunek braku

widocznej dla lekarza utraty jako�ci, autor skorzystał z trzech (wybranych i przygotowanych

wraz ze lekarzem specjalist�, Rysunek 3.4) �ródłowych sekwencji wizyjnych b�d�cych

zapisami bada� bronchoskopowych. Ka�da sekwencja wizyjna zawierała zarejestrowany inny

rodzaj schorzenia.

Rysunek 3.4. Pojedyncze klatki (zrzuty ekranu) trzech sekwencji wizyjnych u�ytych w testach, a

zarejestrowanych w trakcie wykonywania bada� bronchoskopowych

Dalsza cz�� bada� kodeków została przeprowadzona w trzech etapach.

Etap 1 – subiektywna ocena kodeka MPEG-4

W pierwszym kroku autor dokonał subiektywnej (inaczej: obserwacyjnej, przy współpracy z

grup� lekarzy) oceny sekwencji wizyjnych skompresowanych z ró�nym CR zgodnie ze

standardem MPEG-4 [46]. W celu okre�lenia maksymalnego CR ( maxCR ), dla którego lekarz

nie rozró�nia sekwencji oryginalnej od sekwencji wizyjnej rekonstruowanej po kompresji,

autor przeprowadził test korzystaj�c z opisanej uprzednio metody szeregowania sekwencji

wizyjnych według jako�ci. Do ka�dej z oryginalnych (niepoddanych kompresji) sekwencji

wizyjnych autor doł�czył kilka sekwencji wizyjnych o identycznej tre�ci, kompresowanych w

standardzie MPEG-4 [46], tworz�c ł�cznie trzy zbiory sekwencji wizyjnych. Nast�pnie

wybrał koder MPEG-4 [46] jako rozwi�zanie nowoczesne, otwarte, a zarazem ju�

103

rozpowszechnione. Kompresja była dokonywana przy CR równym około: 16 (minimalny

CR ), 32, 64, 96 128, 256, 512 (maksymalny CR )16.

Autor poprosił o�miu specjalistów z dziedziny pulmonologii o uszeregowanie

sekwencji wizyjnych w obr�bie ka�dego ze zbiorów od sekwencji wizyjnej o najlepszej

jako�ci obrazu do sekwencji wizyjnej o najgorszej jako�ci obrazu. Do szeregowania

sekwencji lekarze u�yli oprogramowania przygotowanego przez autora. Dla pierwszego

zbioru, w 6 na 8 przypadków wyra�nie zarysowała si� granica pomi�dzy grup� obrazów o

jako�ci nierozró�nialnej od oryginału (kompresja z CR nie wy�szym ni� około 96) a grup�

obrazów o ni�szej jako�ci. Dla drugiego i trzeciego zbioru, w 7 na 8 przypadków (w ka�dym

ze zbiorów) granica zarysowała si� dla kompresji z CR nie wy�szym ni� około 128,

dokładnie odpowiednio 118 i 124. W pozostałych przypadkach autorowi nie udało si�

wyznaczy� wyra�nej granicy, uszeregowane zbiory charakteryzowały si� kolejno�ci�

sprawiaj�c� wra�enie przypadkowej. Wi�kszo�� z tych uszeregowa� była wynikiem oceny

jednego lekarza, co mo�e po prostu �wiadczy� o niedbało�ci jego oceny. Autor odrzucił te

wyniki. Wyniki pomiarów (CR i uszeregowania) zamieszczono w Dodatku (Tabela I).

Autor zdaje sobie spraw� z faktu, �e wyznaczona w ten sposób warto�� maxCR mo�e

by� zawsze podwa�ona jako zbyt optymistyczna, gdy� dla innego przypadku medycznego

mogłoby by� konieczne ustalenie bardziej restrykcyjnego maxCR . Autor postanowił zatem

bardzo ostro�nie i zdroworozs�dkowo wyznacza� warto�ci maxCR , raczej zaostrzaj�c kryteria.

Poniewa� autor pragn�ł wyznaczy� uniwersalny maxCR akceptowalny przez lekarza,

konieczne było zało�enie najgorszego mo�liwego przypadku (danych o najwi�kszej

wra�liwo�ci na kompresj�). Dlatego autor do dalszych bada� przyj�ł, �e jako�ci� graniczn�

jest jako�� odpowiadaj�ca kompresji w standardzie MPEG-4 [46] z CR równym 93.

Etap 2 – obiektywna ocena kodeka MPEG-4

Po przeprowadzeniu pewnej liczby testów oceny subiektywnej, wykonanej przez lekarzy,

autor wykonał testy obiektywne korzystaj�c z OMW [117] i miary Hosaki [40] (u�rednionych

po wszystkich klatkach analizowanej sekwencji). Konfrontuj�c wyniki testów subiektywnych

i obiektywnych wyznaczył maksymalne warto�ci współczynników OMW i miary Hosaki,

powy�ej których obraz nie jest ju� obrazem o jako�ci nierozró�nialnej przez lekarza od

oryginału.

16 W zało�eniu CR miały by� jednakowe dla wszystkich sekwencji wizyjnych. W praktyce w procesie kompresji trudno jest uzyska� dokładnie zamierzony jej CR.

104

Jako wynik testów autor otrzymał warto�ci stopnia zniekształce� kompresowanych

obrazów (w stosunku do obrazu oryginalnego). Dla OMW był to wektor OMW o

współczynnikach: 1W , 2W , 3W , 4W , 5W i 6W . Dla miary Hosaki było to pole pod wykresem

Hosaki HP .

Etap 3 – obiektywna ocena innych kodeków

Korzystaj�c ze wspomnianego wcze�niej zało�enia o uniwersalno�ci OMW i miary Hosaki,

autor wybrał kilka najbardziej popularnych, nowoczesnych kodeków sygnałów wizyjnych, w

tym równie� takie kodeki, które prócz kompresji stratnej, posiadaj� mo�liwo�� dokonywania

kompresji bezstratnej. Przykładami takich kodeków s�: H.264 i MJPEG2000. Prócz kodeków

o otwartym algorytmie kompresji/dekompresji autor przeprowadził badania dla

niestandaryzowanych kodeków komercyjnych (Windows Media 9, RealVideo 10).

Posiadaj�c ustalone maksymalne warto�ci współczynników OMW i miary Hosaki,

autor powtórzył badania dla wybranych kodeków korzystaj�c ju� ze zdecydowanie prostszych

organizacyjnie testów obiektywnych opartych na OMW i mierze Hosaki.

Dla obiektywnej, uniwersalnej (niezale�nej od rodzaju danych medycznych) oceny

wybranych kodeków autor przyj�ł nast�puj�c� metod� okre�lenia, czy dana kompresowana

sekwencja wizyjna spełnia wymagania nierozró�nialno�ci od oryginału. Za tak� autor uwa�a

sekwencj� wizyjn�, dla której u�redniona po wszystkich klatkach sekwencji wizyjnej warto��

ka�dego z sze�ciu współczynników wektora nie przekracza odpowiadaj�cych im

warto�ci maksymalnych. W ten sposób postawiony warunek zaostrza kryteria pozwalaj�ce

uzna� dan� sekwencj� wizyjn� jako nierozró�nialn� od oryginału pod wzgl�dem

jako�ciowym.

Tabela 3.1 i Tabela 3.2 przedstawiaj� wyniki tych bada�. W tabelach czcionk�

pogrubion� oznaczono wyniki spełniaj�ce warunek nierozró�nialno�ci sekwencji

rekonstruowanej od sekwencji oryginalnej.

105

Tabela 3.1. Wyznaczony stopie� pogorszenia si� obrazu według OMW dla poszczególnych CR i ró�nych

kodeków

Kodek CR 1W 2W 3W 4W 5W 6W

MPEG-4 ~96 10,89 291 7,29 5,19 9,05 47,59

MJPEG 2000 Lossless ~2 0,00 0 0,00 0,00 0,00 0,00

MJPEG 2000 ~21 0,36 49 5,32 2,28 0,01 0,11

MPEG-2 ~96 8,46 1019 3,08 5,01 27,89 23,59

H.263+ ~96 1,90 158 8,41 3,98 0,34 1,09

H.264 Lossless ~7 0,00 0 0,00 0,00 0,00 0,00

~96 1,75 103 7,22 5,02 0,26 0,89

~100 1,76 104 7,26 4,63 0,26 0,90

~104 1,77 106 7,33 4,32 0,27 0,93

~112 1,79 111 7,43 3,66 0,27 0,95

H.264

~128 1,83 120 7,61 3,27 0,29 0,99

Windows Media 9 ~96 1,09 131 7,69 5,24 0,09 0,45

RealVideo 10 ~96 10,36 755 6,58 4,56 10,04 26,01

Oczywi�cie najpro�ciej jest porówna� bezstratne standardy kompresji. Z definicji nie

wprowadzaj� one �adnych zniekształce� w kompresowanych sekwencjach wizyjnych,

jedynym kryterium porównawczym jest zatem CR , które zwykle osi�ga bardzo niskie

warto�ci. Zdecydowanie najlepsze rezultaty w�ród tej grupy standardów osi�ga standard

H.264 Lossless ( 7=CR ).

Jedynym testowanym standardem kompresji, który nie stosuje kompresji

mi�dzyklatkowej, był standard MJPEG 2000. W wersji bezstratnej kompresja jest mo�liwa

tylko z niskim 2=CR , jednak w wersji stratnej mo�na osi�gn�� 21=CR przy zachowaniu

warunku nierozró�nialno�ci od oryginału. Wci�� jednak jest to niski CR w porównaniu do

osi�gni�tego przy nierozró�nialnej od oryginału kompresji w standardzie MPEG-4 ( 93=CR ,

czyli 96≈CR ).

W�ród standardów kompresji trzeciej generacji przetestowane zostały MPEG-2 i

H.263+. Kompresja w standardzie MPEG-2 z 96≈CR pozwoliła uzyska� stosunkowo niskie

ilo�ci bł�dów z wyj�tkiem maksymalnych bł�dów w punkcie – 2W i normalizowanej energii

bł�du z wa�eniem cz�stotliwo�ciowym – 5W . Kompresja w standardzie H.263+ z

96≈CR pozwoliła osi�gn�� podobne rezultaty jak MPEG-4, z wyj�tkiem bł�dów

skorelowanych w oknie 5×5, dosy� du�ych dla H.263+.

106

Mo�liwo�� osi�gni�cia wy�szych CR przy zachowaniu warunku nierozró�nialno�ci

od oryginału mogłyby zapewni� wył�cznie kodeki najnowszej, czwartej generacji (H.264,

WM9). Dla standardu kompresji H.264 rzeczywi�cie jest mo�liwa kompresja z 100≈CR

przy jednoczesnym utrzymaniu wszystkich współczynników OMW poni�ej warto�ci

krytycznych. Niestety, dla kodeka Windows Media 9, kompresja ju� przy 96≈CR powoduje

przekroczenie warto�ci krytycznych przez współczynniki 3W i 4W .

Dodatkow� trudno�ci�, jak� niesie u�ycie metod oceny jako�ci obrazów nieruchomych

w przypadku sekwencji wizyjnych jest brak uwzgl�dniania przez te metody aspektów

płynno�ci ruchu obiektów. Problem ten uwidocznił si� szczególnie w przypadku próby oceny

kodeka RealVideo 10. Kodek ten, w odró�nieniu od pozostałych testowanych kodeków, nie

stosuje stałej liczby klatek na sekund� (FPS, ang. Frames Per Second) przy kompresji

sekwencji wizyjnych. W zale�no�ci od aktywno�ci ruchowej obiektów FPS fluktuuje. W

zwi�zku z powy�szym nie ma bezpo�redniego, jednoznacznego odwzorowania klatek

sekwencji oryginalnej i rekonstruowanej. Przy porównywaniu ich autor musiał dokonywa�

interpolacji.

Analiza wyników otrzymanych za pomoc� OMW przyniosła zaskakuj�c� obserwacj�.

Przy wzro�cie CR wzrost współczynnika 4W nie zawsze jest monotoniczny. Autor tłumaczy

to jako efekt u�redniania współczynników po wszystkich klatkach analizowanej sekwencji

wizyjnej. O ile bowiem wzrost 4W spowodowany wzrostem CR jest obserwowany dla

obrazów nieruchomych (do oceny których stworzono OMW), o tyle spadek jako�ci ró�nych

klatek kompresowanej sekwencji wizyjnej mo�e post�powa� z ró�n� szybko�ci�.

107

Tabela 3.2. Wyznaczony stopie� pogorszenia si� obrazu według miary Hosaki dla poszczególnych CR i ró�nych

kodeków

Kodek CR HP

MPEG-4 ~96 8,18

MJPEG 2000 Lossless ~2 0,00

MJPEG 2000 ~21 0,08

MPEG-2 ~96 16,30

~96 0,21

~128 0,37 H.263+

~256 2,57

H.264 Lossless ~7 0,00

~96 0,08

~128 0,10

~256 0,24 H.264

~512 0,26

~96 0,14

~128 0,31

~256 0,72 Windows Media 9

~512 5,95

RealVideo 10 ~96 15,65

Porównanie kodeków przez zastosowanie miary Hosaki przyniosło zaskakuj�ce

rezultaty. Opieraj�c si� na nich mo�na by doj�� do wniosku, �e dla niektórych kodeków

kompresja z nawet bardzo wysokim CR umo�liwia uzyskiwanie sekwencji wizyjnych, które

po rekonstrukcji spełniaj� wymogi nierozró�nialno�ci od oryginału. Jednak subiektywna,

wizualna analiza tych sekwencji dokonana przez autora przeczy wynikom otrzymanym za

pomoc� miary Hosaki, co stawia pod znakiem zapytania mo�liwo�� jej zastosowania w takich

warunkach pracy.

3.3. Wnioski z bada� MDVL

W niniejszym podrozdziale autor przedstawia wnioski, jakie wyci�gn�ł po zako�czeniu bada�

wybranych podsystemów MDVL.

Autor pokazał, �e u�ycie metody bisekcyjnej dla danych medycznych umo�liwia

przeprowadzanie bardzo szybkiego procesu SBD. Korzy�ci z zastosowania bisekcyjnej SBD

s� znacznie wyra�niejsze dla danych medycznych (MDVL) ni� dla danych rozrywkowych

(DVL). Podobnie jak w przypadku DVL, tak i w MDVL dodatkowo metoda bisekcyjna mo�e

108

zosta� przyspieszona dzi�ki ponownemu u�ywaniu raz ju� analizowanych klatek sekwencji

wizyjnej.

Z bada� podsystemu kompresji MDVL mo�na wyci�gn�� kilka wniosków. Autor

stwierdził, �e dla danych obrazowania procedur bronchoskopowych mo�liwe jest stosowanie

standardu trzeciej generacji MPEG-4 przy kompresji sekwencji wizyjnych wspieraj�cych

procesy diagnostyczne o ile 96≈CR lub jest ni�sze. Pozostałe standardy kompresji trzeciej

generacji nie dawały satysfakcjonuj�cych rezultatów. Autor potwierdził, �e u�ycie kodeków

starszych generacji oraz kodeków bezstratnych równie� nie umo�liwia kompresji z jako�ci�

diagnostyczn� i równoczesnego osi�gni�cia 96≈CR . Mo�liwo�� osi�gni�cia wy�szych CR

( 100≈CR ) przy zachowaniu warunku jako�ci diagnostycznej mo�e zapewni� wył�cznie

standard kompresji H.264 nale��cy do najnowszej, czwartej generacji.

Badania przeprowadzone nad podsystemami MDVL pozwoliły autorowi wraz z

zespołem współpracowników (z Katedry Informatyki AGH i Katedry Telekomunikacji AGH)

skonstruowa� implementacj� MDVL. Dost�p do MDVL mo�liwy jest przez sie� Internet.

Adres interfejsu graficznego MDVL znajduje si� na stronie WWW Krakowskiego Centrum

Telemedycyny [84].

109

4. WNIOSKI KO,COWE I MO-LIWO�CI DALSZEGO ROZWOJU

(M)DVL

W niniejszym rozdziale autor przedstawia wnioski, jakie otrzymał w wyniku realizacji

zakre�lonego planu bada� wybranych podsystemów DVL i MDVL. Nast�pnie

zaprezentowane zostały mo�liwo�ci dalszego rozwoju aplikacji klasy DVL.

4.1. Wnioski

W rozprawie autor przedstawił i zbadał oryginaln� bisekcyjn� metod� wykrywania granic

uj�� (SBD, ang. Shot Boundary Detection) stanowi�c� istotny element podsystemu

streszczania, umo�liwiaj�c� zwi�kszenie szybko�ci i dokładno�ci jego działania. Autor

przedstawił te� metody indeksowania tre�ci cyfrowej biblioteki wideo (DVL, ang. Digital

Video Libraries) i okre�lił warunki ich poprawnego działania. W dziedzinie kompresji

dokonał (korzystaj�c z grupy obserwatorów) subiektywnego porównania szeregu kodeków,

co umo�liwia wybór najlepszego jako�ciowo rozwi�zania. Dodatkowo, w celu optymalizacji

pracy podsystemu strumieniowania, autor zbadał wpływ opó�nie� w sieci na postrzegan�

jako�� usług i porównał popularne rozwi�zania serwerów strumieniuj�cych. Otrzymane

wyniki pozwalaj� stwierdzi�, �e istniej�ce metody streszczania, indeksowania, kompresji i

strumieniowania umo�liwiaj� budow� odpowiednich podsystemów DVL z dost�pem

sieciowym TCP-UDP/IP. Bardziej szczegółowe wnioski zawarte s� w podrozdziale 2.5.

W czasie dalszych bada� autor pokazał wysok� wydajno�� u�ywanej w podsystemie

streszczania, stworzonej przez siebie metody bisekcyjnej SBD, w przypadku u�ycia jej dla

tre�ci medycznych. Autor dokonał te� (korzystaj�c z pomocy grupy lekarzy) subiektywnego,

a nast�pnie obiektywnego porównania szeregu kodeków pracuj�cych z tre�ciami

medycznymi, co umo�liwia wybór najlepszego jako�ciowo rozwi�zania. Powy�sze pozwala

stwierdzi�, �e metody streszczania i kompresji dla aplikacji DVL zawieraj�cej sekwencje

wizyjne u�ywane w telemedycynie zapewniaj� satysfakcjonuj�cy u�ytkownika poziom

szybko�ci działania, dokładno�ci działania i diagnostycznej jako�ci usług. Bardziej

szczegółowe wnioski zawarte s� w podrozdziale 3.3.

110

W konkluzji finalnej autor stwierdza, �e teza:

„Bisekcyjna metoda wykrywania granic uj�� (SBD) w sekwencjach wizyjnych oraz

istniej�ce metody streszczania, indeksowania, kompresji i strumieniowania umo�liwiaj�

budow� odpowiednich podsystemów DVL z dost�pem sieciowym TCP-UDP/IP. Metody te dla

aplikacji DVL zawieraj�cej medyczne sekwencje wizyjne zapewniaj� u�ytkownikowi

satysfakcjonuj�c� szybko�� działania oraz diagnostyczn� jako�� obrazu.”

została udowodniona.

4.2. Mo�liwo�ci dalszego rozwoju

Autor zamierza prowadzi� dalsze badania w zakresie wszystkich czterech podsystemów DVL

rozwa�anych w rozprawie.

W zakresie podsystemu streszczania autor przewiduje badania głównie w dziedzinie

SBD, jak równie� dalszy rozwój stworzonego przez siebie algorytmu bisekcyjnej SBD.

Główny nacisk zostanie poło�ony na stworzenie maksymalnie wiarygodnych mechanizmów

klasyfikuj�cych pary klatek do uj��. Autor zamierza równie� przeprowadzi� badania

pozwalaj�ce wyeliminowa� jedn� z istotnych wad metody bisekcyjnej – absolutnej

konieczno�ci zapewnienia niepowtarzalno�ci cech charakterystycznych w jednej sekwencji

wizyjnej. Nale�y zauwa�y�, �e niespełnienie tego warunku mo�e powodowa� (cho� nie

zawsze) pomijanie niektórych uj��. Mo�liwym rozwi�zaniem problemu jest wymuszenie

braku klasyfikowania dwóch klatek jako nale��cych do tego samego uj�cia, je�li przedział

czasu jaki je dzieli znacznie przekracza wyznaczone empirycznie maksymalne znane długo�ci

uj�� (zwykle rz�du kilku sekund; autor nie natrafił na publikacje dotycz�ce analizy długo�ci

uj��, cho� prowadzone s� w tej dziedzinie badania). Przy znajomo�ci struktury formatu w

jakim zapisana jest sekwencja wizyjna, metod� bisekcyjn� mo�na tak�e dodatkowo

przyspieszy� preferuj�c do dekompresji klatki kluczowe. Autor zamierza równie�

przeprowadzi� dokładniejsze badania nad wpływem ilo�ci analizowanych pikseli na trafno��

SBD. Z uwagi bowiem na konieczno�� wykonania wielu powtórze� algorytmu SBD,

dotychczas przeprowadzone badania zostały wykonane dla AD, czyli najprostszej (a zarazem

najszybszej) miary wykrywaj�cej zmiany obrazu. Dlatego te� wyniki nawet przy analizie

wszystkich pikseli nie s� najwy�sze. Mo�na jedynie przypuszcza�, �e dla innych, bardziej

wydajnych metod SBD, wyniki b�d� podobne.

W ramach projektu OASIS Archive [112], autor wraz ze współpracownikami zamierza

rozwin�� metody indeksowania DVL. B�d� to przede wszystkim metody korzystaj�ce z

111

algorytmów rozpoznawania mowy. W tym celu b�d� u�yte istniej�ce implementacje,

planowane s� równie� implementacje autorskie oparte na standardzie MPEG-7. Autor

przewiduje te� prowadzenie bada� nad mo�liwo�ci� indeksowania tre�ci DVL za pomoc�

algorytmów klasyfikowania i podobie�stwa d�wi�ków (znów opieraj�c si� na standardzie

MPEG-7) oraz rozpoznawania mówców.

W dziedzinie kompresji autor zamierza skorzysta� z wyników swoich bada� przy

rozbudowie aplikacji MDVL. Szczególny nacisk zostanie poło�ony na mo�liwo�ci

transkodowania sekwencji wizyjnych zapisanych zgodnie ze standardem DICOM na inne

standardy kompresji. Autor chciałby równie� kontynuowa� badania nad okre�laniem

sposobów kodowania sekwencji wizyjnych, nie wprowadzaj�cych bł�dów

uniemo�liwiaj�cych u�ycie sekwencji w procesach diagnostycznych. Autor jest bowiem

�wiadomy, �e porównanie jako�ci sekwencji kompresowanych ró�nymi kodekami okazało si�

bardzo trudnym zadaniem, gdy� ró�ne kodeki wprowadzaj� ró�ne typy zniekształce�. Na

pytanie, czy zwi�kszenie si� ilo�ci jednej grupy bł�dów jest rekompensowane przez

zmniejszenie si� ilo�ci pozostałych dwóch grup bł�dów, autor chce odpowiedzie� przez

u�ycie miary OMW, ponown� weryfikacj� kodeków metodami subiektywnymi oraz

przydzielenie wag ( 1α , …, 6α ) współczynnikom wektora OMW ( 1W , …, 6W ) w taki sposób,

aby maksymalnie zwi�kszy� korelacj� skalarnego ekwiwalentu OMW ze �rednimi

warto�ciami ocen subiektywnych. Dokładniejsza korelacja mo�e ju� najprawdopodobniej

odbywa� si� z uwzgl�dnieniem jednego tylko, konkretnego typu obrazowanych danych

medycznych. Dodatkowo, autor chciałby zbada� mo�liwo�ci u�ycia deskryptorów MPEG-7

do oceny ró�nego typu zniekształce� wprowadzanych w procesie kompresji.

Autor zamierza te� skupi� swoje zainteresowanie na dziedzinie strumieniowania w

rozproszonym �rodowisku serwerów strumieniuj�cych. Te badania b�d� prowadzone w

ramach projektu OASIS Archive.

112

LITERATURA

[1] Adami D., Marchese M., Ronga L. S.: „TCP/IP-Based Multimedia Applications and Services over Satellite Links: Experience from an ASI/CNIT Project”, IEEE Personal Communications, 2001, vol. 8, no.3, s. 20-27.

[2] Adjeroh D. A., Lee M. C.: „Scene-Adaptive Transform Domain Video Partitioning”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 58-69.

[3] Aghabari Z., Kaneko K., Makinouchi A.: „Content-Trajectory Approach for Searching Video Databases”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 4, s. 516-531.

[4] Ashbrook A. P., Rockett P. I., Thacker N. A.: „Multiple Shape Recognition using Pairwise Geometric Histogram Based Algorithms”, Proc. IEEE Image Processing, Edynburg, Wielka Brytania, 1995.

[5] Ashbrook A. P., Thacker N. A., Rockett P. I., Brown C. I.: „Robust Recognition of Scaled Shapes Using Pairwise Geometric Histograms”, Proc. BMVC’1995, Birmingham, Wielka Brytania, 1995, s. 503-512.

[6] Ashbrook A. P., Thacker N. A., Rockett P. I.: „Scaling Properties of Pairwise Geometric Histograms”, Proc. for SCIA’1995, Uppsala, Szwecja, 1995, s. 271.

[7] Benini S., Xu L. Q., Leonardi R.: „Using Lateral Ranking for Motion-Based Video Shot Retrieval and Dynamic Content Characterisation”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.

[8] Boavida F., Monteiro E., Orvalho J.: Protocols and Systems for Interactive Distributed Multimedia. Springer-Verlag, Berlin 2002.

[9] Brown C. I., Thacker N. A., Yates R. B.: „A VLSI Architecture for Wavelet Transforms”, Proc. IEEE Image Processing, Edynburg, Wielka Brytania, 1995.

[10] Brown W., Srinivasan S., Coden A., Ponceleon D., Cooper J. W., Amir A.: „Toward speech as a knowledge resource”, IBM Systems Journal, 2001, vol. 40, no. 4, s. 985-1001.

[11] Browne P., Smeaton A. F., Murphy N., O’Connor N., Marlow S., Berrut C.: „Evaluating and Combining Digital Video Shot Boundary Detection Algorithms”, Proc. of the Fourth Irish Machine Vision and Information Processing Conference, Belfast, Irlandia Północna, 2000.

[12] Buchowicz A., Ignasiak K.: „System wyszukiwania danych multimedialnych w architekturze J2EE”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004.

[13] Chao H. J., Guo X.: Quality of Service Control in High-Speed Networks, John Wiley & Sons, Chichester 2001.

113

[14] Chelba C.: „Portability of syntactic structure for language modeling”, Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing ICASSP’2001, Salt Lake City, USA, 2001, vol. 1.

[15] Cuggia M., Mougin F., Le Beux P.: „Indexing method of digital audiovisual medical resources with semantic Web integration”, International Journal of Medical Informatics, 2005, 74, s. 169-177.

[16] Dafonte C., Gómez A., Castro A., Arcay B.: „A proposal for Improving ICU assistance through Intelligent Monitoring and Supervision”, ACM Technology and Health Care, 2002, vol. 10, no. 6, s. 464-466.

[17] Dimitrova N., Zhang H. J., Shahraray B., Sezan I., Huang T., Zakhor A.: „Applications of Video-Content Analysis and Retrieval”, IEEE Multimedia, 2002, vol. 9, no. 3, s. 42-55.

[18] Doma�ski M., Bartkowiak M.: „Multimedia – przełom technologiczny”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2005, Kraków, 2005, s. 209-215.

[19] Duplaga M., Juszkiewicz K., Leszczuk M., Marek M., Papir Z.: „Design of Medical Digital Video Library”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.

[20] Eskicioglu A. M., Fisher P. S.: „Image Quality Measures and Their Performance”, IEEE Transactions on Communications, 1995, vol. 43, no. 12, s. 2959-2965.

[21] Eskicioglu A. M.: „Quality Measurement for Monochrome Compressed Images in the Past 25 Years”, Proc. of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) Conference, vol. 4, Istambuł, Turcja, 2000, s.1907-1910.

[22] eTesting Labs: „Microsoft: Video Quality Comparison Study”, Test report prepared under contract from Microsoft Corporation, 2001.

[23] Evans A. C., Thacker N. A., Mayhew J. E. W.: „The Use of Geometric Histograms for Model Based Object Recognition”, Proc. 4th BMVC, Guildford, Wielka Brytania, 1993, s. 429-438.

[24] Fan J., Elmagarmid A. K., Zhu X., Aref W. G., Wu L.: „ClassView: Hierarchical Video Shot Classification, Indexing, and Accessing”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 70-86.

[25] Farag W. E., Abdel-Wahab H.: „ A new paradigm for analysis of MPEG compressed videos”, Journal of Network and Computer Applications, 2002, vol. 5, no. 2, s. 109-127.

[26] Frost V. S.: „Quantifying the Temporal Characteristics of Networks Congestion Events for Multimedia Services”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 458-465.

[27] Fung K. T., Chan Y. L., Siu W. C.: „Low-Complexity and High-Quality Frame Skipping Transcoder for Continuous Presence Multipoint Video Conferencing”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 31-46.

[28] Gali�ski G., Skarbek W.: „Struktura indeksu w multimedialnych systemach wyszukiwawczych”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004.

114

[29] Gandsas A., McIntire K., Palli G., Park A.: „Live streaming video for medical education: a laboratory model”, J. Laparoendosc. Adv. Surg. Tech. A., 2002, vol. 12, no. 5, s. 377-382.

[30] Ghinea G., Thomas J. P.: „Quality of Perception: User Quality of Service in Multimedia Presentations”, IEEE Transactions on Multimedia, 2005, vol. 7, no. 4, s. 786-789.

[31] Gisondi M. A., Mahadevan S. V., Sovndal S. S., Gilbert G. H.: „19 Emergency Department Orientation Utilizing Web-based Streaming Video”, Academic Emergency Medicine, 2003, vol. 10, no. 8, s. 920.

[32] Gorin A. L., Alonso T., Riccardi G., Wright J. H.: „Automated Natural Spoken Dialog”, IEEE Computer, 2002, vol. 35, no. 4, s. 51-56.

[33] Green S. M., Voegeli D., Harrison M., Phillips J., Knowles J., Weaver M., Shephard K.: „Evaluating the use of streaming video to support student learning in a first-year life sciences course for student nurses”, Nurse Education Today, 2003, vol. 23, s. 255-261.

[34] Greene P. S.: „Streaming Video for the Annals Internet Readers”, Ann. Thorac. Surg., 1998, vol. 65, s. 1188-1189.

[35] Hamilton N. M., Frade I., Duguid P., Furnace J., Kindley A. D.: „Digital video for networked CAL delivery”, J. Audiovisual Media in Medicine, 1995, vol. 18, no. 2, s. 59-63.

[36] Hanjali� A.: Content-based Analysis of Digital Video. Kluwer Academic Publishers, Boston 2004.

[37] Ho W. K. H., Cheuk W. K., Lun D. P. K.: „Content-Based Scalable H.263 Video Coding for Road Traffic Monitoring”, IEEE Transactions on Multimedia, 2005, vol. 7, no. 4, s. 615-623.

[38] Hong D. P., Albuquerque C., Oliveira C., Suda T.: „Evaluating the Impact of Emerging Streaming Media Applications on TCP/IP Performance”, IEEE Communications Magazine, 2001, vol. 39, no. 4, s. 76-82.

[39] Hori C., Furui S.: „A New Approach to Automatic Speech Summarization”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 368-378.

[40] Hosaka K.: „A new picture quality evaluation method”, Proc. International Picture Coding Symposium, Tokio, Japonia, 1986, s. 17-18.

[41] Hunter J., Witana V., Antoniades M.: „A Review of Video Streaming Over Internet”, DSTC Technical Report TR97-10, 1997.

[42] IEC Standard 61834: Recording – Helical-scan digital video cassette recording system using 6.35 mm magnetic tape for consumer use (525-60, 625-50, 1125-60 and 1250-50 systems), 2001.

[43] ISO Standard IS 11172-2: Information technology – Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s – Part 2: Video, 11/2003.

[44] ISO Standard IS 13818-2: Information technology – Generic coding of moving pictures and associated audio information: Video, 04/2002.

115

[45] ISO Standard IS 14496-10: Information technology – Coding of audio-visual objects – Part 10: Advanced Video Coding, 09/2004.

[46] ISO Standard IS 14496-2: Information technology – Coding of audio-visual objects – Part 2: Visual, 06/2004.

[47] ISO/IEC Standard IS 10918-1: Information technology – Digital compression and coding of continuous-tone still images: Requirements and guidelines, 03/2005.

[48] ISO/IEC Standard IS 15444-3: Information technology – JPEG 2000 image coding system – Part 3: Motion JPEG 2000, 12/2003.

[49] ISO/IEC Standard TR 15938: Information technology – Multimedia content description interface, 06/2005.

[50] ITU-R Recommendation BT.1129: Subjective assessment of standard definition digital television (SDTV) systems, 02/1998.

[51] ITU-R Recommendation BT.1210: Test materials to be used in subjective assessment, 02/2004.

[52] ITU-R Recommendation BT.500: Methodology for the Subjective Assessment of the Quality of Television Pictures, 06/2002.

[53] ITU-R Recommendation H.120: Codecs for videoconferencing using primary digital group transmission, 03/1993.

[54] ITU-R Recommendation H.261: Video codec for audiovisual services at p × 64 kbit/s, 03/1993.

[55] ITU-R Recommendation H.262: Information technology – Generic coding of moving pictures and associated audio information: Video, 04/2002.

[56] ITU-R Recommendation H.263: Video coding for low bit rate communication, 01/2005.

[57] ITU-R Recommendation H.264: Advanced video coding for generic audiovisual services, 03/2005.

[58] ITU-R Recommendation J.80: Transmission of component-coded digital television signals for contribution-quality applications at bit rates near 140 Mbit/s, 09/1993.

[59] ITU-R Recommendation J.81: Transmission of component-coded digital television signals for contribution-quality applications at the third hierarchical level of ITU-T Recommendation G.702, 03/1998.

[60] ITU-R Recommendation T.81: Information technology – Digital compression and coding of continuous-tone still images – Requirements and guidelines, 09/1992.

[61] ITU-T Recommendation P.830: Subjective performance assessment of telephone-band and wideband digital codecs, 02/1996.

[62] ITU-T Recommendation P.VQ: Two criteria for video test scene selection, 12/1994.

[63] Jeffay K., Hang H. J.: Readings in Multimedia Computing and Networking. Morgan Kaufmann Publishers, San Francisco 2002.

[64] Joshi M. A., Khambete M. B.: „Adaptive vector quantization based on quality criterion using Hosaka plot”, Proc. IEEE TENCON’1999, Cheju, Korea, 1999, s. 754-756.

116

[65] Juszkiewicz K., Leszczuk M.: „Medyczna cyfrowa biblioteka wideo”, Proc. VI Konferencja Internetu i Telematyki Medycznej, Kraków, 2002, s. 16.

[66] Juszkiewicz K.: Skalowanie z cz��ciow� dekompresj� strumienia wideo MPEG-2. Rozprawa doktorska, Kraków 2004.

[67] Kashino K., Kurozumi T., Murase H.: „A Quick Search Method for Audio and Video Signal Based on Histogram Pruning”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 348-357.

[68] Kender J. R., Yeo B. L.: „Video Scene Segmentation Via Continuous Video Coherence”, Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR’1998, Santa Barbara, USA, 1998, s. 367-377.

[69] Korkmaz T., Krunz M. M.: „Routing Multimedia Traffic With QoS Guarantees”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 429-443.

[70] Krakowskie Centrum Telemedycyny: “Zaawansowane usługi medyczne i telediagnostyczne”, http://www.telemedycyna.krakow.pl/

[71] Krunz M., Tripathi S. K.: „Scene-Based Characterization of VBR MPEG-Compressed Video Traffic”, Proc. ACM Sigmetrics’97, Seattle, USA, 1997.

[72] Kubaty M., Mi�kowicz M., Hoło� K., Miernikowski P.: „Platforma symulacyjna do detekcji zmian obrazów”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2005, Kraków 2005.

[73] Kucharski K.: „Methods of Face Recognition – Tutorial”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa, 2004, s. 103-113.

[74] Kumar S. A., Pal H.: „Digital Video Recording of Cardiac Surgical Procedures”, Annals of Thoracic Surgery, 2004, vol. 77, no. 3, s. 1063-1065.

[75] Langner J: „Leaves Recognition – a leaf image recognition based on a neuronal network”, http://damato.light-speed.de/lrecog/

[76] Lavitan R. M., Goldman T. S., Bryan D. A., Shofer F., Harlich A.: „Training With Video Imaging Improves the Initial Intubation Success Rates of Paramedic Trainees in an Operating Room Setting”, Ann. Emerg. Med., 2001, vol. 37, s. 46-50.

[77] Lee H. Y., Lee H. K., Ha Y. H.: „Spatial Color Descriptor for Image Retrieval and Video Segmentation“, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 358-367.

[78] Leszczuk M., Pacyna P., Papir Z.: „Video Content Streaming Service Using IP/RSVP Protocol Stack”, Proc. IEEE Workshop on Internet Applications WIAPP’99, San Jose, USA, 1999, s. 89-93.

[79] Leszczuk M., Papir Z.: „Developing of Digital Video Libraries Indexed by a Speech Recognition Engine”, Proc. AI’2001, Innsbruck, Austria, 2001, s. 107-113.

[80] Leszczuk M., Papir Z.: „Expansion of Functionality of Digital Video Libraries by Integration with Speech/Text Recognition and Video Streaming Engines”, Proc. ICIMADE’2001, Fargo, USA, 2001, s. 151-162.

[81] Leszczuk M., Papir Z.: „Integration of a Voice Recognition-based Indexing with Multimedia Applications”, Proc. PROMS’2000, Kraków, 2000, s. 375-381.

117

[82] Leszczuk M.: „Accessing Digital Video Libraries from Mobile Terminals in 3G Networks”, Proc. Advanced Technologies, Applications and Market Strategies for 3G ATAMS’2001, Kraków, 2001, s. 164-171.

[83] Leszczuk M.: „Construction of Selected Components of Medical Digital Video Library”, Proc. E-NEXT Working Group 3 CDN Workshop, Sophia Antipolis, Francja, 2004.

[84] Leszczuk M.: „Strona domowa Mikołaja Leszczuka”, http://www.kt.agh.edu.pl/~miklesz.

[85] Leszczuk M.: „Usage of Bisection Method for Shot Detection in Video Content for Digital Video Library”, Proc. 11th Open European Summer School: „Networked Applications” EUNICE’2005, Colmenarejo (Madryt), Hiszpania, 2005, s. 218-221.

[86] Leung J., D’Onofrio G., Duncan B., Trepp R., Vasques N, Schriver J.: „Apply Streaming Audio and Video Technology to Enhance Emergency Physician Education”, Acad. Emerg. Med., 2002, vol. 9, no. 10, s. 1059.

[87] Li. C. S., Stone H. S.: „Digital Library Using Next Generation Internet“, IEEE Communications Magazine, 2000, vol. 37, no. 1, s. 70-71.

[88] Liang Y. J., Färber N., Girod B.: „Adaptive Playout Scheduling and Loss Concealment for Voice Communication Over IP Networks”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 4, s. 532-544.

[89] Liu J., Li B., Zhang Y. Q.: „An End-to-End Adaptation Protocol for layered Video Multicast Using Optimal Rate Allocation”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 87-102.

[90] Lohan F., Defee I., Hakulinen H.: „Networked Multimedia System Based on Open Architecture”, Proc. IEEE 2001 ICCE International Conference on Consumer Electronics, Saloniki, Grecja, 2001, s. 344-345.

[91] Lombardo A., Morabito G., Schembra G.: „Modeling Intramedia and Intermedia Relationships In Multimedia Network Analysis Through Multiple Timescale Statistics”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 142-157.

[92] Lowe H. J.: „The New Telemedicine Paradigm: Using Internet-Based Multimedia Electronic Medical Record Systems To Support Wide-Area Clinical Care Delivery”, Proc. Telemedicine and Telecommunications: Options for the New Century, Bethesda, USA, 2001.

[93] Lu Y., Zhang H., Wenyin L., Hu C.: „Joint Semantics and Feature Based Image Retrieval Using Relevance Feedback”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 339-347.

[94] Ma�kowiak S.: „Model weryfikacyjny trójwarstwowego skalowalnego kodera wizyjnego wykorzystuj�cego struktury koderów MPEG-2”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRIT’2001, Pozna�, 2001, s. 7.3-1-7.3-4.

[95] Malassagne B., Mutter D., Leroy J., Smith M., Soler L., Marescaux J.: „Teleeducation in Surgery: European Institute for Telesurgery Experience”, World Journal of Surgery, 2001, vol. 25, s. 1490-1494.

[96] Manber U., Wu S.: „Fast Text Searching with Errors”, Technical Report TR 91-11, 1991.

118

[97] Manber U., Wu S.: „Fast text searching: allowing errors”, Communications of the ACM, 1992, vol. 35, no. 10, s. 83-91.

[98] Manjunath B. S., Salembier P., Sikora T.: Introduction to MPEG-7 Multimedia Content Description Interface. John Wiley & Sons, Chichester 2002.

[99] Martinian E., Sundberg C. E. W.: „Decreasing Distortion Using Low Delay Codes for Bursty Packet Loss Channels”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 285-292.

[100] Mashat A., Kara M.: „Performance evaluation of a scene-based model for VBR MPEG traffic”, [w]: System Performance Evaluation: Methodologies and Application, CRC Press, 2000, s. 123-142.

[101] Medl A., Marsic I., Andre M., Liang Y., Shaikh A., Burdea G., Wilder J., Kulikowski C., Flanagan J.: „Multimodal Man-Machine Interface for Mission Planning”, Proc. AAAI Spring Symposium on Intelligent Environments, Stanford, USA, 1998, s. 41-47.

[102] Megret R, Jolion J. M.: „Tracking Scale-Space Blobs for Video Description”, IEEE Multimedia, 2002, vol. 9, no. 2, s. 34-43.

[103] Mintzer F., „Developing Digital Libraries of Cultural Content“, IEEE Communications Magazine, vol. 37, no. 1, 2000, s. 72-78.

[104] Miron H., Blumenthal E. Z.: „Bridging analog and digital video in the surgical setting”, J. Catarat. Refract. Surg., 2003, vol. 29, no. 10, s. 1874-1877.

[105] Mitchell J., Pennebaker W., Fogg C., LeGall D. J.: MPEG video compression standard, International Thomson Publishing, Nowy Jork 1996, s. 58.

[106] Miyahara M., Kotani K., Algazi V. R.: „Objective Picture Quality Scale (PQS) For Image Coding”, IEEE Trans. on Communications, 1998, vol. 46, no. 9, s. 1215-1226.

[107] Moreno P. J., Van Thong J. M., Logan B., Jones G. J. F.: „From Multimedia Retrieval to Knowledge Management”, IEEE Computer, 2002, vol. 35, no. 4, s. 58-66.

[108] Müller H, Michoux N., Bandon D., Geissbuhler A.: „A review of content-based image retrieval systems in medical applications – clinical benefits and future decisions“, International Journal of Medical Informatics, 2004, vol. 73, s. 1-23.

[109] Naci U., Hanjali� A.: „A Unified Framework for Fast and Effective Shot Transition Detection Based on Analysis of Spatiotemporal Video Data Blocks”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.

[110] Nagatuma H.: „Development of an Emergency Medical Video Multiplexing Transport System (EMTS): Timing At the Nation-Wide Prehospital Care in Ambulance”, Journal of Medical System, 2003, vol. 27, no. 3, s. 225-232.

[111] NEMA Standard PS 3-2004: Digital Imaging and Communications in Medicine (DICOM), 10/2004.

[112] OASIS Archive Project: „OASIS Archive – Open Archiving System with Internet Sharing”, http://www.oasis-archive.info/

[113] Padmanabhan M., Picheny M.: „Large-Vocabulary Speech Recognition Algorithms”, IEEE Computer, 2002, vol. 35, no. 4, s. 42-50.

119

[114] Pei S. C., Chou Y. Z.: „Novell Error Concealment Method With Adaptive Prediction to the Abrupt and Gradual Scene Changes”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 158-173.

[115] Po L. M., Wong K. M.: „A New Palette Histogram Similarity Measure for MPEG-7 Dominant Color Descriptor”, Proc. IEEE International Conference on Image Processing 2004 ICIP’2004, Singapur, 2004, vol. 3, s. 1533-1536.

[116] Potamianos J., Luettin, C. Neti, „Hierarchical discriminant features for audio-visual LVCSR”, Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, 2001 ICASSP’2001, Salt Lake City, USA, 2001, vol. 1, s. 165-168.

[117] Przelaskowski A.: Falkowe metody kompresji danych obrazowych. Oficyna Wydawnicza Politechniki Warszawskiej, Warszawa 2002, s. 149-190.

[118] Raghupathy A., Chandrachoodan N., Liu K. J. R.: „Algorithm and VLSI Architecture for High Performance Adaptive Video Scaling”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 4, s. 489-502.

[119] Rapeli J.: „UMTS: Targets, System Concept, and Standardization in a Global Framework”, IEEE Personal Communications, 1995, vol. 2, no. 1, s. 20-28.

[120] Reynolds P. A., Mason R.: „On-line video media for continuing professional development in dentistry”, Computers and Education, 2002, vol. 35, no. 1, s. 65-98.

[121] Riocreux P. A., Thacker N. A., Yates R. B.: „An Analysis of Pairwise Geometric Histograms for View-Based Object Recognition”, Proc. BMVC, York, Wielka Brytania, 1994.

[122] Roberts J., Mocci U., Virtamo J.: Broadband network tele-traffic. Springer-Verlag, Berlin 1996, s. 20-25.

[123] Rodríguez A., Guil N., Shotton D. M., Trelles O.: „Automatic Analysis of the Content of Cell Biological Videos and Database Organization of Their Metadata Descriptors”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 119-128.

[124] Rose O.: „Simple and efficient models for variable bit rate MPEG video traffic”, Performance Evaluation, 1997, vol. 30, s. 69-85.

[125] Rosser J., Herman B., Ehrenwerth C.: „An overview of video streaming on the Internet and its application to surgical education”, Surg. Endosc., 2001, vol. 15, s. 624-629.

[126] Rubis Project: „Healthcare Telematics Projects”, Rubis Project Final Report, 2001, s. 17-19.

[127] Sahouria E., Zakhor A.: „Content Analysis of Video Using Principal Components”, Proc.1998 International Conference on Image Processing, vol. 3, Chicago, USA, 1998, s. 541-545.

[128] Saiedian H., Zari M., Naeem M.: „Understanding and Reducing Web Delays”, IEEE Computer Journal, 2001, vol. 34, no. 12, s. 30-37.

[129] Sang-Jo Y., Seong-Dae K.: „Traffic modeling and QoS prediction for MPEG-coded video services over ATM networks using scene level statistical characteristics”, Journal of High-Speed Networks, 1999, vol. 8, no. 3, s. 211-224.

120

[130] Senior A. W.: „Recognizing faces in broadcast video”, Proc. IEEE workshop on Real-Time Analysis and Tracking of Face and Gesture in Real-Time Systems, Kerkira (Korfu), Grecja, 1999, s. 105-110.

[131] Sicurello F.: „Towards standards for management and transmission of medical data in web technology”, Proc. Workshop on Standardization in E-Health, Genewa, Szwajcaria, 2003.

[132] Skarbek W., Galinski G., Wnukowicz K.: „Tree Based Multimedia Indexing – a Survey”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 77-85.

[133] Skarbek W., Kucharski K.: „Tutorial on Face and Eye Detection by AdaBoost Method”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 93-101.

[134] Skarbek W.: „MPEG-7”, Proc. IX Konferencja PLOUG’2003, Ko�cielisko, 2003, s. 102-119.

[135] Skarbek W.: Multimedia – algorytmy i standardy. PLJ, Warszawa 1998.

[136] Smith J. R., Chang S. F.: „Interoperable Content-based Access of Multimedia in Digital Libraries”, Proc. DELOS Workshop: Information Seeking, Searching and Querying in Digital Libraries, Zurych, Szwajcaria, 2001.

[137] Smith J. R., Chang S. F.: „Searching for Images and Videos on the World-Wide Web”, CU/CTR Technical Report 459-96-25, 1996.

[138] Smith J. R., Chang S. F.: „VisualSEEk: a fully automated content-based image query system”, Proc. ACM Intern. Conf. Multimedia (ACMMM), Boston, USA, 1996, s. 87-98.

[139] Smith J. R., Chang S.-F.: „An Image and Video Search Engine for the World-Wide Web”, Proc. Symposium on Electronic Imaging: Science and Technology - Storage & Retrieval for Image and Video Databases V EI’1997, San Jose, USA, 1997, s. 84-95.

[140] Smith J. R.: „Digital Video Libraries and the Internet”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 92-97.

[141] SMPTE Standard 306M: Television Digital Recording – 6.35-mm Type D-7 Component Format – Video Compression at 25 Mb/s – 525/60 and 625/50, 2002.

[142] Sonera MediaLab: „MPEG-7 White Paper”, 2003.

[143] Srinivasan S., Brown E. W.: „Is Speech Recognition Becoming Mainstream?”, IEEE Computer, 2002, vol. 35, no. 4, s. 38-41.

[144] Stankiewicz R., Jajszczyk A.: „Sposoby zapewnienia gwarantowanej jako�ci usług w sieciach IP”, Przegl�d Telekomunikacyjny, 2002, vol. LXXV, no. 2, s. 110-118.

[145] Stone H. S.: „Image Libraries and the Internet“, IEEE Communications Magazine, 2000, vol. 37, no. 1, s. 99-106.

[146] Strom J.: „Overcoming Barriers for Teaching and Learning”, Proc. Int. Symp. Educational Conferencing, Banff, Kanada, 2002.

[147] Sulkowski B., Sulkowska A.: „Application of a Monte Carlo Method to Calculate some Functions of Images”, Proc. International Conference on E-he@lth in Common Europe, Kraków, 2003, s. 439-446.

121

[148] Sweet W., „Cell phones answer internet's call”, IEEE Spectrum, 2000, vol. 37, no. 8, s. 42-46.

[149] Taskiran C., Chen J. Y., Albion A., Torres L., Bouman C., A., Delp E. J.: „ViBE: A Compressed Video Database Structures for Active Browsing and Search”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 103-118.

[150] Thacker N. A., Bromiley P. A.: „MSc Machine Vision Course : Practicals”, 2005-005 Technical Memo, 2005.

[151] Thacker N. A., Riocreux P. A., Yates R. B.: „Assessing the Completeness Properties of Pairwise Geometric Histograms”, Image and Vision Computing, 1995, vol. 13, no. 5, s. 423-429.

[152] Tong S. R., Lee S. C.: „Delivery of Compressed Videos From Video Server Employing Cycle-Based Data Block Retrieval Discipline”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 403-415.

[153] Tryfonas C., Varma A.: “Efficient Algorithms for Computation of the Loss Curve of Video Sources”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 416-428.

[154] Westermann G. U.: A Persistent Typed Document Object Model for the Management of MPEG-7 Media Descriptions. Rozprawa doktorska, Wiede�, Austria, 2004.

[155] Wiecha J. M., Gramling R., Joachim P., Vanderschmidt H.: „Collaborative e Learning Using Streaming Video and Asynchronous Discussion Boards to Teach the Cognitive Foundation of Medical Interviewing: A Case Study”, J. Med. Internet Res., 2003, vol. 5, no. 2, s. e13.

[156] Winkler S.: Digital Video Quality Vision Models and Metrics. John Wiley & Sons, Chichester 2005.

[157] Wnukowicz K.: „Deskryptor rozkładu dominuj�cych temperatur barwowych obrazu”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004.

[158] Wnukowicz K.: „Dominant Color Temperature Descriptor – Properties and Data Structure for Efficient Searching”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 86-92.

[159] Wong K. M., Cheung C. H., Liu T. S., Po L. M.: „Dominant color image retrieval using Merged Histogram”, Proc. of IEEE International Symposium on Circuit and Systems 2003 ISCIT’2003, Bangkok, Tajlandia, 2003, vol. 2, s. 908-911.

[160] Wong K. M., Cheung C. H., Po L. M.: „Merged-Color Histogram for color image retrieval”, Proc. IEEE International Conference on Image Processing 2002 ICIP’2002, Rochester, USA, 2002, vol. 3, s. 949-952.

[161] Wong K. M., Po L. M.: „MPEG-7 Dominant Color Descriptor based relevance feedback using Merged Palette Histogram”, Proc. IEEE International Conference on Acoustics, Speech and Signal Processing 2004 ICASSP’2004, Montreal, Kanada, 2004, vol. 3, s. 433-436.

[162] Wydrowski B., Zukerman M.: „QoS in Best-Effort Networks”, IEEE Communications Magazine, 2002, vol. 40, no. 12, s. 44-49.

[163] Xu L. Q., Li Y.: „Video Classification Using Spatial-Temporal Features And Pca”, Proc. IEEE Inter. Conf. on Multimedia and Expo ICME’2003, Baltimore, USA, 2003.

122

[164] Yeo B. L., Liu B.: „A unified approach to temporal segmentation of motion JPEG and MPEG compressed video”, Proc. IEEE International Conference on Multimedia Computing and Systems, 1995, s. 81-88.

[165] Yeo B. L., Liu B.: „On the extraction of DC sequence from MPEG compressed video”, Proc. IEEE International Conference on Image Processing, vol. 2, 1995, s. 260-263.

[166] Yeo B. L., Liu B.: „Rapid scene analysis on compressed video”, IEEE Transactions on Circuits and Systems for Video Technology, 1995, vol. 5, no. 6, s. 533-544.

[167] Yoma N. B., Hood J., Busso C.: „A Real-Time Protocol for the Internet Based on the Least Mean Square Algorithm”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 174-184.

[168] Yu Y., Cheng I., Basu A.: „Optimal Adaptive Bandwidth Monitoring for QoS Based Retrieval”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 466-472.

[169] Yuk D., Flanagan J.: „Telephone Speech Recognition using Neural Networks and Hidden Markov Models”, Proc. IEEE International Conference on Acoustics, Speech & Signal Processing, Phoenix, USA, 1999, vol. 1, s. 157-160.

[170] Zhu X., Aref W. G., Fan J., Catlin A. C., Elmagarmid A. K.: „Medical Video Mining for Efficient Database Indexing, Management and Access”, Proc. The 19th International Conference on Data Engineering, Bangalore, Indie, 2003, s 569-580.

[171] Zhu X., Fan J., Aref W. G., Elmagarmid A. K.: „ClassMiner: Mining medical video content structure and events towards efficient access and scalable skimming”, Proc. The 10th ACM International Conference on Multimedia, Juan-les-Pins, Francja, 2002, s. 79-80.

[172] Zollo S. A., Kienzle M. G., Henshaw Z., Crist L. G., Wakefield D. S.: „Tele-Education in a Telemedicine Environment: Implications for Rural Health Care and Academic Medical Centers”, J. Med. Systems, 1999, vol. 23, no. 2, s. 107-122.

[173] Lawrence S., Lee Giles C.: „Searching the Web: General and Scientific Information Access”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 116-122.

[174] Weinstein P. C., Birmingham W. P., Durfee E. H.: „Agent-Based Digital Libraries: Decentralization and Coordination”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 110-115.

[175] Wong S. T. C., Tjandra D.: „A Digital Library for Biomedical Imaging on the Internet”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 84-91.

123

WYKAZ LITERATURY WYBRANYCH ZAGADNIE,

Zagadnienia dotycz�ce wszystkich DVL

Zagadnienia ogólne

Lawrence S., Lee Giles C.: „Searching the Web: General and Scientific Information Access”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 116-122.

Leszczuk M., Pacyna P., Papir Z.: „Video Content Streaming Service Using IP/RSVP Protocol Stack”, Proc. IEEE Workshop on Internet Applications WIAPP’99, San Jose, USA, 1999, s. 89-93.

Leszczuk M., Papir Z.: „Integration of a Voice Recognition-based Indexing with Multimedia Applications”, Proc. PROMS’2000, Kraków 2000, s. 375-381.

Lu Y., Zhang H., Wenyin L., Hu C.: „Joint Semantics and Feature Based Image Retrieval Using Relevance Feedback”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 339-347.

OASIS Archive Project: „OASIS Archive – Open Archiving System with Internet Sharing”, http://www.oasis-archive.info/

Smith J. R.: „Digital Video Libraries and the Internet”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 92-97

Weinstein P. C., Birmingham W. P., Durfee E. H.: „Agent-Based Digital Libraries: Decentralization and Coordination”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 110-115.

Streszczanie sekwencji wizyjnych

Adjeroh D. A., Lee M. C.: „Scene-Adaptive Transform Domain Video Partitioning”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 58-69.

Aghabari Z., Kaneko K., Makinouchi A.: „Content-Trajectory Approach for Searching Video Databases”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 4, s. 516-531.

Benini S., Xu L. Q., Leonardi R.: „Using Lateral Ranking for Motion-Based Video Shot Retrieval and Dynamic Content Characterisation”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.

Boavida F., Monteiro E., Orvalho J.: Protocols and Systems for Interactive Distributed Multimedia, Springer-Verlag, Berlin 2002.

Browne P., Smeaton A. F., Murphy N., O’Connor N., Marlow S., Berrut C.: „Evaluating and Combining Digital Video Shot Boundary Detection Algorithms”, Proc. of the Fourth Irish Machine Vision and Information Processing Conference, Belfast, Irlandia Północna, 2000.

124

Doma�ski M., Bartkowiak M.: „Multimedia – przełom technologiczny”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2005, Kraków 2005, s. 209-215.

Duplaga M., Juszkiewicz K., Leszczuk M., Marek M., Papir Z.: „Design of Medical Digital Video Library”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.

Fan J., Elmagarmid A. K., Zhu X., Aref W. G., Wu L.: „ClassView: Hierarchical Video Shot Classification, Indexing, and Accessing”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 70-86.

Farag W. E., Abdel-Wahab H.: „ A new paradigm for analysis of MPEG compressed videos”, Journal of Network and Computer Applications, 2002, vol. 5, no. 2, s. 109-127.

Hanjali� A.: Content-based Analysis of Digital Video. Kluwer Academic Publishers, Boston 2004.

Hori C., Furui S.: „A New Approach to Automatic Speech Summarization”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 368-378.

ITU-R Recommendation BT.500: Methodology for the Subjective Assessment of the Quality of Television Pictures, 06/2002.

Kender J. R., Yeo B. L.: „Video Scene Segmentation Via Continuous Video Coherence”, Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition CVPR’1998, Santa Barbara, USA, 1998, s. 367-377.

Krunz M., Tripathi S. K.: „Scene-Based Characterization of VBR MPEG-Compressed Video Traffic”, Proc. ACM Sigmetrics’97, Seattle, USA, 1997.

Kubaty M., Mi�kowicz M., Hoło� K., Miernikowski P.: „Platforma symulacyjna do detekcji zmian obrazów”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2005, Kraków 2005.

Lee H. Y., Lee H. K., Ha Y. H.: „Spatial Color Descriptor for Image Retrieval and Video Segmentation“, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 358-367.

Leszczuk M.: „Strona domowa Mikołaja Leszczuka”, http://www.kt.agh.edu.pl/~miklesz

Leszczuk M.: „Usage of Bisection Method for Shot Detection in Video Content for Digital Video Library”, Proc. 11th Open European Summer School: „Networked Applications” EUNICE’2005, Colmenarejo (Madryt), Hiszpania, 2005, s. 218-221.

Lombardo A., Morabito G., Schembra G.: „Modeling Intramedia and Intermedia Relationships In Multimedia Network Analysis Through Multiple Timescale Statistics”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 142-157.

Manjunath B. S., Salembier P., Sikora T.: Introduction to MPEG-7 Multimedia Content Description Interface. John Wiley & Sons, Chichester 2002.

Mashat A., Kara M.: „Performance evaluation of a scene-based model for VBR MPEG traffic”, [w]: System Performance Evaluation: Methodologies and Application, CRC Press, 2000, s. 123-142.

Mitchell J., Pennebaker W., Fogg C., LeGall D. J.: MPEG video compression standard, International Thomson Publishing, Nowy Jork 1996, s. 58.

Naci U., Hanjali� A.: „A Unified Framework for Fast and Effective Shot Transition Detection Based on Analysis of Spatiotemporal Video Data Blocks”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.

125

Po L. M., Wong K. M.: „A New Palette Histogram Similarity Measure for MPEG-7 Dominant Color Descriptor”, Proc. IEEE International Conference on Image Processing 2004 ICIP’2004, Singapur, 2004, vol. 3, s. 1533-1536.

Przelaskowski A.: Falkowe metody kompresji danych obrazowych. Oficyna Wydawnicza Politechniki Warszawskiej, Warszawa 2002, s. 149-190.

Roberts J., Mocci U., Virtamo J.: Broadband network tele-traffic. Springer-Verlag, Berlin 1996, s. 20-25.

Rose O.: „Simple and efficient models for variable bit rate MPEG video traffic”, Performance Evaluation, 1997, vol. 30, s. 69-85.

Sang-Jo Y., Seong-Dae K.: „Traffic modeling and QoS prediction for MPEG-coded video services over ATM networks using scene level statistical characteristics”, Journal of High-Speed Networks, 1999, vol. 8, no. 3, s. 211-224.

Skarbek W., Galinski G., Wnukowicz K.: „Tree Based Multimedia Indexing – a Survey”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 77-85.

Skarbek W.: „MPEG-7”, Proc. IX Konferencja PLOUG’2003, Ko�cielisko, 2003, s. 102-119.

Smith J. R., Chang S. F.: „Searching for Images and Videos on the World-Wide Web”, CU/CTR Technical Report 459-96-25, 1996.

Smith J. R., Chang S.-F.: „An Image and Video Search Engine for the World-Wide Web”, Proc. Symposium on Electronic Imaging: Science and Technology - Storage & Retrieval for Image and Video Databases V EI’1997, San Jose, USA, 1997, s. 84-95.

Smith J. R.: „Digital Video Libraries and the Internet”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 92-97.

Sulkowski B., Sulkowska A.: „Application of a Monte Carlo Method to Calculate some Functions of Images”, Proc. International Conference on E-he@lth in Common Europe, Kraków 2003, s. 439-446.

Taskiran C., Chen J. Y., Albion A., Torres L., Bouman C., A., Delp E. J.: „ViBE: A Compressed Video Database Structures for Active Browsing and Search”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 103-118.

Wong K. M., Cheung C. H., Liu T. S., Po L. M.: „Dominant color image retrieval using Merged Histogram”, Proc. of IEEE International Symposium on Circuit and Systems 2003 ISCIT’2003, Bangkok, Tajlandia, 2003, vol. 2, s. 908-911.

Wong K. M., Cheung C. H., Po L. M.: „Merged-Color Histogram for color image retrieval”, Proc. IEEE International Conference on Image Processing 2002 ICIP’2002, Rochester, USA, 2002, vol. 3, s. 949-952.

Wong K. M., Po L. M.: „MPEG-7 Dominant Color Descriptor based relevance feedback using Merged Palette Histogram”, Proc. IEEE International Conference on Acoustics, Speech and Signal Processing 2004 ICASSP’2004, Montreal, Kanada, 2004, vol. 3, s. 433-436.

Yeo B. L., Liu B.: „A unified approach to temporal segmentation of motion JPEG and MPEG compressed video”, Proc. IEEE International Conference on Multimedia Computing and Systems, 1995, s. 81-88.

Yeo B. L., Liu B.: „On the extraction of DC sequence from MPEG compressed video”, Proc. IEEE International Conference on Image Processing, vol. 2, 1995, s. 260-263.

126

Yeo B. L., Liu B.: „Rapid scene analysis on compressed video”, IEEE Transactions on Circuits and Systems for Video Technology, 1995, vol. 5, no. 6, s. 533-544.

Indeksowanie sekwencji wizyjnych

Ashbrook A. P., Rockett P. I., Thacker N. A.: „Multiple Shape Recognition using Pairwise Geometric Histogram Based Algorithms”, Proc. IEEE Image Processing, Edynburg, Wielka Brytania, 1995.

Ashbrook A. P., Thacker N. A., Rockett P. I., Brown C. I.: „Robust Recognition of Scaled Shapes Using Pairwise Geometric Histograms”, Proc. BMVC’1995, Birmingham, Wielka Brytania, 1995, s. 503-512.

Ashbrook A. P., Thacker N. A., Rockett P. I.: „Scaling Properties of Pairwise Geometric Histograms”, Proc. for SCIA’1995, Uppsala, Szwecja, 1995, s. 271.

Brown C. I., Thacker N. A., Yates R. B.: „A VLSI Architecture for Wavelet Transforms”, Proc. IEEE Image Processing, Edynburg, Wielka Brytania, 1995.

Brown W., Srinivasan S., Coden A., Ponceleon D., Cooper J. W., Amir A.: „Toward speech as a knowledge resource”, IBM Systems Journal, 2001, vol. 40, no. 4, s. 985-1001.

Buchowicz A., Ignasiak K.: „System wyszukiwania danych multimedialnych w architekturze J2EE”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004.

Chelba C.: „Portability of syntactic structure for language modeling”, Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing ICASSP’2001, Salt Lake City, USA, 2001, vol. 1.

Dimitrova N., Zhang H. J., Shahraray B., Sezan I., Huang T., Zakhor A.: „Applications of Video-Content Analysis and Retrieval”, IEEE Multimedia, 2002, vol. 9, no. 3, s. 42-55.

Evans A. C., Thacker N. A., Mayhew J. E. W.: „The Use of Geometric Histograms for Model Based Object Recognition”, Proc. 4th BMVC, Guildford, Wielka Brytania, 1993, s. 429-438.

Gali�ski G., Skarbek W.: „Struktura indeksu w multimedialnych systemach wyszukiwawczych”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004.

Gorin A. L., Alonso T., Riccardi G., Wright J. H.: „Automated Natural Spoken Dialog”, IEEE Computer, 2002, vol. 35, no. 4, s. 51-56.

ISO/IEC Standard TR 15938: Information technology – Multimedia content description interface, 06/2005.

Jeffay K., Hang H. J.: Readings in Multimedia Computing and Networking. Morgan Kaufmann Publishers, San Francisco 2002.

Kucharski K.: „Methods of Face Recognition – Tutorial”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 103-113.

Langner J: „Leaves Recognition – a leaf image recognition based on a neuronal network”, http://damato.light-speed.de/lrecog/

Lee H. Y., Lee H. K., Ha Y. H.: „Spatial Color Descriptor for Image Retrieval and Video Segmentation“, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 358-367.

127

Leszczuk M., Papir Z.: „Expansion of Functionality of Digital Video Libraries by Integration with Speech/Text Recognition and Video Streaming Engines”, Proc. ICIMADE’2001, Fargo, USA, 2001, s. 151-162.

Leszczuk M., Papir Z.: „Integration of a Voice Recognition-based Indexing with Multimedia Applications”, Proc. PROMS’2000, Kraków, 2000, s. 375-381.

Li. C. S., Stone H. S.: „Digital Library Using Next Generation Internet“, IEEE Communications Magazine, 2000, vol. 37, no. 1, s. 70-71.

Manber U., Wu S.: „Fast Text Searching with Errors”, Technical Report TR 91-11, 1991.

Manber U., Wu S.: „Fast text searching: allowing errors”, Communications of the ACM, 1992, vol. 35, no. 10, s. 83-91.

Manjunath B. S., Salembier P., Sikora T.: Introduction to MPEG-7 Multimedia Content Description Interface. John Wiley & Sons, Chichester 2002.

Medl A., Marsic I., Andre M., Liang Y., Shaikh A., Burdea G., Wilder J., Kulikowski C., Flanagan J.: „Multimodal Man-Machine Interface for Mission Planning”, Proc. AAAI Spring Symposium on Intelligent Environments, Stanford, USA, 1998, s. 41-47.

Megret R, Jolion J. M.: „Tracking Scale-Space Blobs for Video Description”, IEEE Multimedia, 2002, vol. 9, no. 2, s. 34-43.

Mintzer F., „Developing Digital Libraries of Cultural Content“, IEEE Communications Magazine, vol. 37, no. 1, 2000, s. 72-78.

Moreno P. J., Van Thong J. M., Logan B., Jones G. J. F.: „From Multimedia Retrieval to Knowledge Management”, IEEE Computer, 2002, vol. 35, no. 4, s. 58-66.

Padmanabhan M., Picheny M.: „Large-Vocabulary Speech Recognition Algorithms”, IEEE Computer, 2002, vol. 35, no. 4, s. 42-50.

Potamianos J., Luettin, C. Neti, „Hierarchical discriminant features for audio-visual LVCSR”, Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing, 2001 ICASSP’2001, Salt Lake City, USA, 2001, vol. 1, s. 165-168.

Riocreux P. A., Thacker N. A., Yates R. B.: „An Analysis of Pairwise Geometric Histograms for View-Based Object Recognition”, Proc. BMVC, York, Wielka Brytania, 1994.

Sahouria E., Zakhor A.: „Content Analysis of Video Using Principal Components”, Proc.1998 International Conference on Image Processing, vol. 3, Chicago, USA, 1998, s. 541-545.

Senior A. W.: „Recognizing faces in broadcast video”, Proc. IEEE workshop on Real-Time Analysis and Tracking of Face and Gesture in Real-Time Systems, Kerkira (Korfu), Grecja, 1999, s. 105-110.

Skarbek W., Kucharski K.: „Tutorial on Face and Eye Detection by AdaBoost Method”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 93-101.

Smith J. R., Chang S. F.: „Interoperable Content-based Access of Multimedia in Digital Libraries”, Proc. DELOS Workshop: Information Seeking, Searching and Querying in Digital Libraries, Zurych, Szwajcaria, 2001.

Smith J. R., Chang S. F.: „VisualSEEk: a fully automated content-based image query system”, Proc. ACM Intern. Conf. Multimedia (ACMMM), Boston, USA, 1996, s. 87-98.

Smith J. R.: „Digital Video Libraries and the Internet”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 92-97.

128

Sonera MediaLab: „MPEG-7 White Paper”, 2003.

Srinivasan S., Brown E. W.: „Is Speech Recognition Becoming Mainstream?”, IEEE Computer, 2002, vol. 35, no. 4, s. 38-41.

Stone H. S.: „Image Libraries and the Internet“, IEEE Communications Magazine, 2000, vol. 37, no. 1, s. 99-106.

Thacker N. A., Bromiley P. A.: „MSc Machine Vision Course : Practicals”, 2005-005 Technical Memo, 2005.

Thacker N. A., Riocreux P. A., Yates R. B.: „Assessing the Completeness Properties of Pairwise Geometric Histograms”, Image and Vision Computing, 1995, vol. 13, no. 5, s. 423-429.

Westermann G. U.: A Persistent Typed Document Object Model for the Management of MPEG-7 Media Descriptions. Rozprawa doktorska, Wiede�, Austria, 2004.

Wnukowicz K.: „Deskryptor rozkładu dominuj�cych temperatur barwowych obrazu”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004.

Wnukowicz K.: „Dominant Color Temperature Descriptor – Properties and Data Structure for Efficient Searching”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2004, Warszawa 2004, s. 86-92.

Xu L. Q., Li Y.: „Video Classification Using Spatial-Temporal Features And Pca”, Proc. IEEE Inter. Conf. on Multimedia and Expo ICME’2003, Baltimore, USA, 2003.

Yuk D., Flanagan J.: „Telephone Speech Recognition using Neural Networks and Hidden Markov Models”, Proc. IEEE International Conference on Acoustics, Speech & Signal Processing, Phoenix, USA, 1999, vol. 1, s. 157-160.

Kompresja sekwencji wizyjnych

Adami D., Marchese M., Ronga L. S.: „TCP/IP-Based Multimedia Applications and Services over Satellite Links: Experience from an ASI/CNIT Project”, IEEE Personal Communications, 2001, vol. 8, no.3, s. 20-27.

Boavida F., Monteiro E., Orvalho J.: Protocols and Systems for Interactive Distributed Multimedia. Springer-Verlag, Berlin 2002.

Doma�ski M., Bartkowiak M.: „Multimedia – przełom technologiczny”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRiT’2005, Kraków 2005, s. 209-215.

Eskicioglu A. M., Fisher P. S.: „Image Quality Measures and Their Performance”, IEEE Transactions on Communications, 1995, vol. 43, no. 12, s. 2959-2965.

Eskicioglu A. M.: „Quality Measurement for Monochrome Compressed Images in the Past 25 Years”, Proc. of the IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) Conference, vol. 4, Istambuł, Turcja, 2000, s.1907-1910.

eTesting Labs: „Microsoft: Video Quality Comparison Study”, Test report prepared under contract from Microsoft Corporation, 2001.

Ghinea G., Thomas J. P.: „Quality of Perceptron: User Quality of Service in Multimedia Presentations”, IEEE Transactions on Multimedia, 2005, vol. 7, no. 4, s. 786-789.

129

Ho W. K. H., Cheuk W. K., Lun D. P. K.: „Content-Based Scalable H.263 Video Coding for Road Traffic Monitoring”, IEEE Transactions on Multimedia, 2005, vol. 7, no. 4, s. 615-623.

Hosaka K.: „A new picture quality evaluation method”, Proc. International Picture Coding Symposium, Tokio, Japonia, 1986, s. 17-18.

IEC Standard 61834: Recording – Helical-scan digital video cassette recording system using 6.35 mm magnetic tape for consumer use (525-60, 625-50, 1125-60 and 1250-50 systems), 2001.

ISO Standard IS 11172-2: Information technology – Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s – Part 2: Video, 11/2003.

ISO Standard IS 13818-2: Information technology – Generic coding of moving pictures and associated audio information: Video, 04/2002.

ISO Standard IS 14496-10: Information technology – Coding of audio-visual objects – Part 10: Advanced Video Coding, 09/2004.

ISO Standard IS 14496-2: Information technology – Coding of audio-visual objects – Part 2: Visual, 06/2004.

ISO/IEC Standard IS 10918-1: Information technology – Digital compression and coding of continuous-tone still images: Requirements and guidelines, 03/2005.

ISO/IEC Standard IS 15444-3: Information technology – JPEG 2000 image coding system – Part 3: Motion JPEG 2000, 12/2003.

ITU-R Recommendation BT.1129: Subjective assessment of standard definition digital television (SDTV) systems, 02/1998.

ITU-R Recommendation BT.1210: Test materials to be used in subjective assessment, 02/2004.

ITU-R Recommendation BT.500: Methodology for the Subjective Assessment of the Quality of Television Pictures, 06/2002.

ITU-R Recommendation H.120: Codecs for videoconferencing using primary digital group transmission, 03/1993.

ITU-R Recommendation H.261: Video codec for audiovisual services at p × 64 kbit/s, 03/1993.

ITU-R Recommendation H.262: Information technology – Generic coding of moving pictures and associated audio information: Video, 04/2002.

ITU-R Recommendation H.263: Video coding for low bit rate communication, 01/2005.

ITU-R Recommendation H.264: Advanced video coding for generic audiovisual services, 03/2005.

ITU-R Recommendation J.80: Transmission of component-coded digital television signals for contribution-quality applications at bit rates near 140 Mbit/s, 09/1993.

ITU-R Recommendation J.81: Transmission of component-coded digital television signals for contribution-quality applications at the third hierarchical level of ITU-T Recommendation G.702, 03/1998.

ITU-R Recommendation T.81: Information technology – Digital compression and coding of continuous-tone still images – Requirements and guidelines, 09/1992.

130

ITU-T Recommendation P.830: Subjective performance assessment of telephone-band and wideband digital codecs, 02/1996.

ITU-T Recommendation P.VQ: Two criteria for video test scene selection, 12/1994.

Joshi M. A., Khambete M. B.: „Adaptive vector quantization based on quality criterion using Hosaka plot”, Proc. IEEE TENCON’1999, Cheju, Korea, 1999, s. 754-756.

Juszkiewicz K.: Skalowanie z cz��ciow� dekompresj� strumienia wideo MPEG-2. Rozprawa doktorska, Kraków 2004.

Ma�kowiak S.: „Model weryfikacyjny trójwarstwowego skalowalnego kodera wizyjnego wykorzystuj�cego struktury koderów MPEG-2”, Proc. Krajowa Konferencja Radiokomunikacji, Radiofonii i Telewizji KKRRIT’2001, Pozna� 2001, s. 7.3-1-7.3-4.

Martinian E., Sundberg C. E. W.: „Decreasing Distortion Using Low Delay Codes for Bursty Packet Loss Channels”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 285-292.


Skarbek W.: Multimedia – algorytmy i standardy. PLJ, Warszawa 1998.

SMPTE Standard 306M: Television Digital Recording – 6.35-mm Type D-7 Component Format – Video Compression at 25 Mb/s – 525/60 and 625/50, 2002.

Winkler S.: Digital Video Quality Vision Models and Metrics. John Wiley & Sons, Chichester 2005.

Zapytywanie o sekwencje wizyjne

Kashino K., Kurozumi T., Murase H.: „A Quick Search Method for Audio and Video Signal Based on Histogram Pruning”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 348-357.

Transkodowanie sekwencji wizyjnych

Fung K. T., Chan Y. L., Siu W. C.: „Low-Complexity and High-Quality Frame Skipping Transcoder for Continuous Presence Multipoint Video Conferencing”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 31-46.

Raghupathy A., Chandrachoodan N., Liu K. J. R.: „Algorithm and VLSI Architecture for High Performance Adaptive Video Scaling”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 4, s. 489-502.

Rapeli J.: „UMTS: Targets, System Concept, and Standardization in a Global Framework”, IEEE Personal Communications, 1995, vol. 2, no. 1, s. 20-28.

Sweet W., „Cell phones answer internet's call”, IEEE Spectrum, 2000, vol. 37, no. 8, s. 42-46.

Strumieniowanie sekwencji wizyjnych

Chao H. J., Guo X.: Quality of Service Control in High-Speed Networks, John Wiley & Sons, Chichester 2001.

131

Frost V. S.: „Quantifying the Temporal Characteristics of Networks Congestion Events for Multimedia Services”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 458-465.

Hong D. P., Albuquerque C., Oliveira C., Suda T.: „Evaluating the Impact of Emerging Streaming Media Applications on TCP/IP Performance”, IEEE Communications Magazine, 2001, vol. 39, no. 4, s. 76-82.

Hunter J., Witana V., Antoniades M.: „A Review of Video Streaming Over Internet”, DSTC Technical Report TR97-10, 1997.

Korkmaz T., Krunz M. M.: „Routing Multimedia Traffic With QoS Guarantees”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 429-443.

Leszczuk M., Pacyna P., Papir Z.: „Video Content Streaming Service Using IP/RSVP Protocol Stack”, Proc. IEEE Workshop on Internet Applications WIAPP’99, San Jose, USA, 1999, s. 89-93.

Leszczuk M., Papir Z.: „Expansion of Functionality of Digital Video Libraries by Integration with Speech/Text Recognition and Video Streaming Engines”, Proc. ICIMADE’2001, Fargo, USA, 2001, s. 151-162.

Liang Y. J., Färber N., Girod B.: „Adaptive Playout Scheduling and Loss Concealment for Voice Communication Over IP Networks”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 4, s. 532-544.

Liu J., Li B., Zhang Y. Q.: „An End-to-End Adaptation Protocol for layered Video Multicast Using Optimal Rate Allocation”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 87-102.

Pei S. C., Chou Y. Z.: „Novell Error Concealment Method With Adaptive Prediction to the Abrupt and Gradual Scene Changes”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 158-173.

Saiedian H., Zari M., Naeem M.: „Understanding and Reducing Web Delays”, IEEE Computer Journal, 2001, vol. 34, no. 12, s. 30-37.

Stankiewicz R., Jajszczyk A.: „Sposoby zapewnienia gwarantowanej jako�ci usług w sieciach IP”, Przegl�d Telekomunikacyjny, 2002, vol. LXXV, no. 2, s. 110-118.

Tong S. R., Lee S. C.: „Delivery of Compressed Videos From Video Server Employing Cycle-Based Data Block Retrieval Discipline”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 403-415.

Tryfonas C., Varma A.: “Efficient Algorithms for Computation of the Loss Curve of Video Sources”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 416-428.

Wydrowski B., Zukerman M.: „QoS in Best-Effort Networks”, IEEE Communications Magazine, 2002, vol. 40, no. 12, s. 44-49.

Yoma N. B., Hood J., Busso C.: „A Real-Time Protocol for the Internet Based on the Least Mean Square Algorithm”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 174-184.

Yu Y., Cheng I., Basu A.: „Optimal Adaptive Bandwidth Monitoring for QoS Based Retrieval”, IEEE Transactions on Multimedia, 2003, vol. 5, no. 3, s. 466-472.

132

Zagadnienia specyficzne dla MDVL

Zagadnienia ogólne

Duplaga M., Juszkiewicz K., Leszczuk M., Marek M., Papir Z.: „Design of Medical Digital Video Library”, Proc. Fourth International Workshop on Content-Based Multimedia Indexing CBMI’2005, 2005, Ryga, Łotwa.

Juszkiewicz K., Leszczuk M.: „Medyczna cyfrowa biblioteka wideo”, Proc. VI Konferencja Internetu i Telematyki Medycznej, Kraków 2002, s. 16.

Krakowskie Centrum Telemedycyny: „Zaawansowane usługi medyczne i telediagnostyczne”, http://www.telemedycyna.krakow.pl/

Leszczuk M.: „Accessing Digital Video Libraries from Mobile Terminals in 3G Networks”, Proc. Advanced Technologies, Applications and Market Strategies for 3G ATAMS’2001, Kraków 2001, s. 164-171.

Leszczuk M.: „Construction of Selected Components of Medical Digital Video Library”, Proc. E-NEXT Working Group 3 CDN Workshop, Sophia Antipolis, Francja, 2004.

Leszczuk M.: „Strona domowa Mikołaja Leszczuka”, http://www.kt.agh.edu.pl/~miklesz

Wong S. T. C., Tjandra D.: „A Digital Library for Biomedical Imaging on the Internet”, IEEE Communications Magazine, 1999, vol. 37, no. 1, s. 84-91.

Streszczanie sekwencji wizyjnych

Zhu X., Aref W. G., Fan J., Catlin A. C., Elmagarmid A. K.: „Medical Video Mining for Efficient Database Indexing, Management and Access”, Proc. The 19th International Conference on Data Engineering, Bangalore, Indie, 2003, s 569-580.

Zhu X., Fan J., Aref W. G., Elmagarmid A. K.: „ClassMiner: Mining medical video content structure and events towards efficient access and scalable skimming”, Proc. The 10th ACM International Conference on Multimedia, Juan-les-Pins, Francja, 2002, s. 79-80.

Indeksowanie sekwencji wizyjnych

Fan J., Elmagarmid A. K., Zhu X., Aref W. G., Wu L.: „ClassView: Hierarchical Video Shot Classification, Indexing, and Accessing”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 70-86.

Müller H, Michoux N., Bandon D., Geissbuhler A.: „A review of content-based image retrieval systems in medical applications – clinical benefits and future decisions“, International Journal of Medical Informatics, 2004, vol. 73, s. 1-23.

Rodríguez A., Guil N., Shotton D. M., Trelles O.: „Automatic Analysis of the Content of Cell Biological Videos and Database Organization of Their Metadata Descriptors”, IEEE Transactions on Multimedia, 2004, vol. 6, no. 1, s. 119-128.

Kompresja sekwencji wizyjnych

Cuggia M., Mougin F., Le Beux P.: „Indexing method of digital audiovisual medical resources with semantic Web integration”, International Journal of Medical Informatics, 2005, 74, s. 169-177.

133

Dafonte C., Gómez A., Castro A., Arcay B.: „A proposal for Improving ICU assistance through Intelligent Monitoring and Supervision”, ACM Technology and Health Care, 2002, vol. 10, no. 6, s. 464-466.

Gandsas A., McIntire K., Palli G., Park A.: „Live streaming video for medical education: a laboratory model”, J. Laparoendosc. Adv. Surg. Tech. A., 2002, vol. 12, no. 5, s. 377-382.

Gisondi M. A., Mahadevan S. V., Sovndal S. S., Gilbert G. H.: „19 Emergency Department Orientation Utilizing Web-based Streaming Video”, Academic Emergency Medicine, 2003, vol. 10, no. 8, s. 920.

Green S. M., Voegeli D., Harrison M., Phillips J., Knowles J., Weaver M., Shephard K.: „Evaluating the use of streaming video to support student learning in a first-year life sciences course for student nurses”, Nurse Education Today, 2003, vol. 23, s. 255-261.

Greene P. S.: „Streaming Video for the Annals Internet Readers”, Ann. Thorac. Surg., 1998, vol. 65, s. 1188-1189.

Hamilton N. M., Frade I., Duguid P., Furnace J., Kindley A. D.: „Digital video for networked CAL delivery”, J. Audiovisual Media in Medicine, 1995, vol. 18, no. 2, s. 59-63.

Hosaka K.: „A new picture quality evaluation method”, Proc. International Picture Coding Symposium, Tokio, Japonia, 1986, s. 17-18.

ISO Standard IS 11172-2: Information technology – Coding of moving pictures and associated audio for digital storage media at up to about 1.5 Mbit/s – Part 2: Video, 11/2003.

ISO Standard IS 13818-2: Information technology – Generic coding of moving pictures and associated audio information: Video, 04/2002.

ISO Standard IS 14496-2: Information technology – Coding of audio-visual objects – Part 2: Visual, 06/2004.

ITU-R Recommendation H.262: Information technology – Generic coding of moving pictures and associated audio information: Video, 04/2002.

ITU-R Recommendation T.81: Information technology – Digital compression and coding of continuous-tone still images – Requirements and guidelines, 09/1992.

Kumar S. A., Pal H.: „Digital Video Recording of Cardiac Surgical Procedures”, Annals of Thoracic Surgery, 2004, vol. 77, no. 3, s. 1063-1065.

Lavitan R. M., Goldman T. S., Bryan D. A., Shofer F., Harlich A.: „Training With Video Imaging Improves the Initial Intubation Success Rates of Paramedic Trainees in an Operating Room Setting”, Ann. Emerg. Med., 2001, vol. 37, s. 46-50.

Leung J., D’Onofrio G., Duncan B., Trepp R., Vasques N, Schriver J.: „Apply Streaming Audio and Video Technology to Enhance Emergency Physician Education”, Acad. Emerg. Med., 2002, vol. 9, no. 10, s. 1059.

Lowe H. J.: „The New Telemedicine Paradigm: Using Internet-Based Multimedia Electronic Medical Record Systems To Support Wide-Area Clinical Care Delivery”, Proc. Telemedicine and Telecommunications: Options for the New Century, Bethesda, USA, 2001.

Malassagne B., Mutter D., Leroy J., Smith M., Soler L., Marescaux J.: „Teleeducation in Surgery: European Institute for Telesurgery Experience”, World Journal of Surgery, 2001, vol. 25, s. 1490-1494.

134

Miron H., Blumenthal E. Z.: „Bridging analog and digital video in the surgical setting”, J. Catarat. Refract. Surg., 2003, vol. 29, no. 10, s. 1874-1877.

NEMA Standard PS 3-2004: Digital Imaging and Communications in Medicine (DICOM), 10/2004.


Reynolds P. A., Mason R.: „On-line video media for continuing professional development in dentistry”, Computers and Education, 2002, vol. 35, no. 1, s. 65-98.

Rosser J., Herman B., Ehrenwerth C.: „An overview of video streaming on the Internet and its application to surgical education”, Surg. Endosc., 2001, vol. 15, s. 624-629.

Rubis Project: „Healthcare Telematics Projects”, Rubis Project Final Report, 2001, s. 17-19.

Sicurello F.: „Towards standards for management and transmission of medical data in web technology”, Proc. Workshop on Standardization in E-Health, Genewa, Szwajcaria, 2003.

Skarbek W.: Multimedia – algorytmy i standardy. PLJ, Warszawa 1998.

Strom J.: „Overcoming Barriers for Teaching and Learning”, Proc. Int. Symp. Educational Conferencing, Banff, Kanada, 2002.

Wiecha J. M., Gramling R., Joachim P., Vanderschmidt H.: „Collaborative e Learning Using Streaming Video and Asynchronous Discussion Boards to Teach the Cognitive Foundation of Medical Interviewing: A Case Study”, J. Med. Internet Res., 2003, vol. 5, no. 2, s. e13.

Zollo S. A., Kienzle M. G., Henshaw Z., Crist L. G., Wakefield D. S.: „Tele-Education in a Telemedicine Environment: Implications for Rural Health Care and Academic Medical Centers”, J. Med. Systems, 1999, vol. 23, no. 2, s. 107-122.

Zagadnienie strumieniowania

Nagatuma H.: „Development of an Emergency Medical Video Multiplexing Transport System (EMTS): Timing At the Nation-Wide Prehospital Care in Ambulance”, Journal of Medical System, 2003, vol. 27, no. 3, s. 225-232.

135

DODATEK

Tabela I. Dokładne wyniki pomiarów (uszeregowania) medycznych sekwencji wizyjnych

CR ID zbioru ID lekarza

1. 2. 3. 4. 5. 6. 7. 8. Uwagi

1 1 93 63 32 28 1 123 228 213

1 2 28 32 63 93 1 123 228 213

1 3 93 63 1 28 32 123 228 213

1 4 32 28 93 63 1 123 213 228

1 5 32 28 93 123 63 213 1 228 Odrzucone

1 6 28 93 32 1 63 123 213 228

1 7 64 32 28 93 1 123 213 228

1 8 32 93 123 63 228 28 213 1 Odrzucone

2 1 1 26 31 62 118 212 307 300

2 2 1 26 31 62 118 212 307 300

2 3 31 26 1 118 62 212 307 300

2 4 1 26 31 62 118 212 307 300

2 5 31 1 26 62 118 212 300 307

2 6 1 26 31 62 118 212 307 300

2 7 26 1 31 118 62 212 300 307

2 8 1 31 118 26 300 62 307 212 Odrzucone

3 1 1 31 33 63 124 240 353 359

3 2 1 31 63 33 124 240 359 353

3 3 31 1 63 33 124 240 359 353

3 4 1 33 31 63 124 240 359 353

3 5 1 33 31 63 124 240 359 353

3 6 1 33 31 124 63 240 353 359

3 7 1 33 63 31 124 240 359 353

3 8 1 124 353 33 359 240 31 63 Odrzucone

136

Tabela II. �rednie warto�ci Recall, Precision i Accuracy (wraz z analiz� statystyczn�) w zale�no�ci od udziału

analizowanych pikseli

Recall Precision Accuracy Udział pikseli

E[] � � E[] � � E[] � �

1,000000 0,80 0,22 0,06 0,91 0,17 0,05 0,73 0,24 0,06

0,250000 0,80 0,22 0,06 0,91 0,17 0,05 0,73 0,24 0,06

0,111111 0,80 0,22 0,06 0,91 0,17 0,05 0,73 0,24 0,06

0,062500 0,79 0,22 0,06 0,92 0,17 0,04 0,73 0,24 0,06

0,040000 0,80 0,22 0,06 0,91 0,18 0,05 0,73 0,24 0,06

0,027778 0,80 0,22 0,06 0,91 0,17 0,05 0,73 0,24 0,06

0,020408 0,80 0,22 0,06 0,91 0,18 0,05 0,73 0,24 0,06

0,015625 0,77 0,23 0,06 0,91 0,17 0,05 0,71 0,25 0,06

0,012346 0,79 0,22 0,06 0,90 0,18 0,05 0,72 0,24 0,06

0,010000 0,80 0,22 0,06 0,91 0,16 0,04 0,73 0,23 0,06

0,008264 0,77 0,22 0,06 0,91 0,17 0,05 0,71 0,24 0,06

0,006944 0,79 0,22 0,06 0,91 0,18 0,05 0,73 0,25 0,06

0,005917 0,78 0,21 0,06 0,91 0,18 0,05 0,71 0,24 0,06

0,005102 0,77 0,22 0,06 0,91 0,18 0,05 0,71 0,24 0,06

0,004444 0,78 0,22 0,06 0,90 0,18 0,05 0,72 0,24 0,06

0,003906 0,78 0,23 0,06 0,91 0,17 0,04 0,72 0,25 0,06

0,003460 0,79 0,22 0,06 0,91 0,18 0,05 0,72 0,24 0,06

0,003086 0,78 0,22 0,06 0,90 0,18 0,05 0,70 0,24 0,06

0,002770 0,79 0,21 0,06 0,90 0,19 0,05 0,71 0,24 0,06

0,002500 0,76 0,21 0,06 0,91 0,17 0,05 0,70 0,23 0,06

0,002268 0,78 0,22 0,06 0,90 0,19 0,05 0,71 0,24 0,06

0,002066 0,77 0,22 0,06 0,90 0,18 0,05 0,70 0,23 0,06

0,001890 0,78 0,23 0,06 0,89 0,19 0,05 0,70 0,24 0,06

0,001736 0,77 0,24 0,06 0,89 0,19 0,05 0,69 0,24 0,06

0,001600 0,77 0,22 0,06 0,89 0,20 0,05 0,69 0,23 0,06

0,001479 0,78 0,22 0,06 0,88 0,21 0,05 0,69 0,25 0,07

0,001372 0,77 0,22 0,06 0,87 0,20 0,05 0,68 0,23 0,06

0,001276 0,78 0,22 0,06 0,90 0,18 0,05 0,70 0,23 0,06

0,001189 0,76 0,23 0,06 0,88 0,21 0,06 0,67 0,25 0,07

0,001111 0,75 0,22 0,06 0,87 0,21 0,05 0,66 0,24 0,06

0,001041 0,75 0,22 0,06 0,86 0,21 0,06 0,66 0,24 0,06

0,000977 0,72 0,22 0,06 0,86 0,22 0,06 0,63 0,24 0,06

0,000918 0,75 0,22 0,06 0,84 0,24 0,06 0,65 0,25 0,07

0,000865 0,77 0,23 0,06 0,88 0,20 0,05 0,68 0,24 0,06

0,000816 0,75 0,22 0,06 0,85 0,23 0,06 0,65 0,24 0,06

137

0,000772 0,75 0,22 0,06 0,87 0,21 0,05 0,66 0,24 0,06

0,000730 0,75 0,21 0,06 0,86 0,21 0,06 0,66 0,23 0,06

0,000693 0,72 0,22 0,06 0,86 0,23 0,06 0,63 0,24 0,06

0,000657 0,73 0,22 0,06 0,82 0,24 0,06 0,62 0,25 0,07

0,000625 0,68 0,24 0,06 0,82 0,25 0,07 0,58 0,26 0,07

0,000595 0,75 0,21 0,06 0,83 0,24 0,06 0,64 0,25 0,06

0,000567 0,73 0,22 0,06 0,84 0,23 0,06 0,64 0,25 0,06

0,000541 0,74 0,21 0,06 0,85 0,23 0,06 0,64 0,24 0,06

0,000517 0,72 0,22 0,06 0,84 0,25 0,07 0,62 0,25 0,07

0,000494 0,76 0,29 0,08 0,84 0,23 0,06 0,65 0,26 0,07

0,000473 0,73 0,24 0,06 0,82 0,25 0,07 0,61 0,26 0,07

0,000453 0,73 0,23 0,06 0,83 0,26 0,07 0,61 0,26 0,07

0,000434 0,72 0,23 0,06 0,81 0,26 0,07 0,60 0,26 0,07

0,000416 0,73 0,22 0,06 0,82 0,25 0,06 0,63 0,26 0,07

0,000400 0,72 0,22 0,06 0,82 0,26 0,07 0,61 0,25 0,06

0,000384 0,74 0,22 0,06 0,82 0,25 0,07 0,62 0,25 0,07

0,000370 0,73 0,22 0,06 0,78 0,27 0,07 0,59 0,26 0,07

0,000356 0,71 0,22 0,06 0,80 0,26 0,07 0,59 0,25 0,07

0,000343 0,71 0,23 0,06 0,78 0,27 0,07 0,58 0,25 0,07

0,000331 0,73 0,23 0,06 0,81 0,27 0,07 0,61 0,26 0,07

0,000319 0,70 0,22 0,06 0,80 0,27 0,07 0,57 0,25 0,07

0,000308 0,71 0,21 0,06 0,79 0,28 0,07 0,57 0,25 0,07

0,000297 0,67 0,23 0,06 0,79 0,28 0,07 0,55 0,26 0,07

0,000287 0,69 0,23 0,06 0,82 0,26 0,07 0,58 0,25 0,07

0,000278 0,70 0,22 0,06 0,78 0,29 0,07 0,56 0,26 0,07

0,000269 0,69 0,24 0,06 0,72 0,30 0,08 0,54 0,27 0,07

0,000260 0,63 0,25 0,07 0,71 0,30 0,08 0,49 0,27 0,07

0,000252 0,66 0,25 0,07 0,71 0,29 0,08 0,51 0,27 0,07

0,000244 0,65 0,25 0,07 0,71 0,29 0,08 0,50 0,27 0,07

0,000237 0,64 0,23 0,06 0,70 0,30 0,08 0,49 0,26 0,07

0,000230 0,65 0,23 0,06 0,72 0,29 0,08 0,49 0,24 0,06

0,000223 0,65 0,23 0,06 0,70 0,29 0,08 0,50 0,25 0,06

0,000216 0,68 0,24 0,06 0,70 0,29 0,07 0,51 0,25 0,07

0,000210 0,66 0,25 0,06 0,69 0,30 0,08 0,50 0,26 0,07

0,000204 0,66 0,26 0,07 0,70 0,31 0,08 0,50 0,26 0,07

0,000198 0,64 0,24 0,06 0,69 0,29 0,08 0,48 0,24 0,06

0,000193 0,65 0,26 0,07 0,69 0,30 0,08 0,48 0,26 0,07

0,000188 0,67 0,24 0,06 0,71 0,30 0,08 0,51 0,26 0,07

0,000183 0,64 0,26 0,07 0,73 0,31 0,08 0,50 0,26 0,07

0,000178 0,66 0,24 0,06 0,68 0,31 0,08 0,49 0,26 0,07

0,000173 0,63 0,24 0,06 0,69 0,32 0,08 0,47 0,26 0,07

138

0,000169 0,66 0,26 0,07 0,68 0,30 0,08 0,49 0,27 0,07

0,000164 0,63 0,26 0,07 0,68 0,31 0,08 0,46 0,26 0,07

0,000160 0,60 0,27 0,07 0,69 0,29 0,08 0,46 0,27 0,07

0,000156 0,55 0,26 0,07 0,67 0,34 0,09 0,40 0,25 0,07

0,000152 0,62 0,22 0,06 0,67 0,33 0,09 0,46 0,25 0,07

0,000149 0,59 0,24 0,06 0,70 0,32 0,08 0,44 0,25 0,07

0,000145 0,63 0,23 0,06 0,69 0,32 0,08 0,47 0,25 0,06

0,000142 0,64 0,24 0,06 0,66 0,31 0,08 0,46 0,26 0,07

0,000138 0,64 0,24 0,06 0,67 0,32 0,08 0,47 0,28 0,07

0,000135 0,61 0,26 0,07 0,66 0,33 0,09 0,44 0,26 0,07

0,000132 0,59 0,26 0,07 0,66 0,33 0,09 0,44 0,28 0,07

0,000129 0,62 0,25 0,07 0,66 0,32 0,08 0,47 0,29 0,08

0,000126 0,59 0,27 0,07 0,68 0,32 0,08 0,44 0,28 0,07

0,000123 0,62 0,28 0,07 0,68 0,32 0,08 0,46 0,27 0,07

0,000121 0,63 0,26 0,07 0,69 0,31 0,08 0,47 0,28 0,07

0,000118 0,61 0,26 0,07 0,66 0,32 0,08 0,44 0,29 0,08

0,000116 0,60 0,26 0,07 0,66 0,33 0,09 0,43 0,27 0,07

0,000113 0,62 0,27 0,07 0,66 0,34 0,09 0,45 0,28 0,07

0,000111 0,62 0,27 0,07 0,66 0,32 0,08 0,46 0,28 0,07

0,000109 0,61 0,27 0,07 0,64 0,31 0,08 0,44 0,27 0,07

0,000106 0,62 0,26 0,07 0,68 0,31 0,08 0,46 0,26 0,07

0,000104 0,59 0,27 0,07 0,64 0,31 0,08 0,42 0,26 0,07

0,000102 0,65 0,26 0,07 0,64 0,31 0,08 0,45 0,27 0,07

0,000100 0,61 0,25 0,07 0,67 0,32 0,08 0,44 0,27 0,07

Documents

Rozprawa doktorska - References