69
PREZENTACJA WYBRANYCH PREZENTACJA WYBRANYCH SYSTEMÓW ROZPOZNAWANIA SYSTEMÓW ROZPOZNAWANIA NAGRAŃ MUZYCZNYCH NAGRAŃ MUZYCZNYCH Multimedialne bazy danych

Prezentacja Obraz

Embed Size (px)

DESCRIPTION

w

Citation preview

  • PREZENTACJA WYBRANYCH SYSTEMW ROZPOZNAWANIA NAGRA MUZYCZNYCHMultimedialne bazy danych

  • WprowadzenieW tradycyjnych multimedialnych bazach danych moliwe jest wyszukiwanie danych wycznie za pomoc kryteriw tekstowych. Np. uytkownik wpisuje nazw wykonawcy, system wyszukuje informacje o podanym wykonawcy (biografia, dyskografia, itp.).Przykad tradycyjnego systemu: AMG Allmusic Guide http://www.allmusic.com/

    Nowoczesne bazy multimedialne umoliwiaj wyszukiwanie za pomoc kryteriw multimedialnych. Np. uytkownik przesya fragment nagrania muzycznego, system dokonuje parametryzacji i wyszukuje podobny obiekt w bazie, zwraca informacje o rozpoznanym nagraniu (wykonawca, tytu).

  • Zastosowanie systemw rozpoznawania muzykiPrzykady zastosowania systemw rozpoznawania muzyki:Wyszukiwanie danych o utworze: uytkownik syszy nagranie w radiu, przesya jego fragment do systemu, system rozpoznaje wykonawc i tytu, moe np. skierowa uytkownika do sklepu internetowego.Ochrona praw autorskich: system porwnuje fragment muzyczny do nagra w bazie, ocenia podobiestwo np. melodii, pomaga wykry plagiaty.Rozgonie radiowe: system rozpoznaje nagrania w programie radiowym, tworzy rejestr emitowanych nagra, pomocny np. przy rozliczaniu tantiemw.

  • QBHSystemy dziaajce w oparciu o zasad Query by Humming (QBH) zapytanie poprzez nucenie nale do najstarszych systemw rozpoznawania melodii (Ghias 1995).Zasada dziaania systemw QBH:uytkownik nuci lub gwide do mikrofonu melodi,algorytm ledzenia wysokoci dwiku (pitch tracking) zamienia melodi na kontur melodyczny,modu wyszukujcy porwnuje kontur melodyczny uzyskany z zapytania z konturami zapisanymi w bazie, znajduje najbardziej podobne obiekty.

    Kontury melodyczne zapisane w bazie danych uzyskuje si najczciej na podstawie plikw MIDI.

  • QBHSchemat blokowy systemu QBH (Ghias et al.):

  • QBH ledzenie wysokociledzenie wysokoci dwiku w systemie QBH:dwik z mikrofonu nagrywany jest do pliku dwikowego (np. WAV)algorytm zaimplementowany w systemie Matlab dokonuje wykrywania czstotliwoci podstawowej w oparciu o metody:autokorelacji,maksimum prawdopodobiestwa,analizy cepstralnejwyznaczanie konturu melodycznego: kodowana jest wysoko kadej nuty (poza pierwsz) wzgldem poprzedniej: U (wysza), D (nisza), S (taka sama); np. pocztek V Symfonii Beethovena: * S S D U S S D

  • QBH wyszukiwanie danychAlgorytm wyszukiwania danych w systemie QBH musi uwzgldnia bdy powstae przy nuceniu melodii:bd transpozycji (zafaszowanie)bd zaniku (pominicie nuty)bd powielenia (niepotrzebne powtrzenie nuty)Bdy nie dotyczce wysokoci dwiku (np. bdy tempa) nie maj wpywu na wyszukiwanie.

  • QBH wyszukiwanie danychZadanie dla algorytmu wyszukujcego:wyszuka wystpienia wzorca P = p1 p2 p3 pmw cigach tekstowych T = t1 t2 t3 tnprzy zaoeniu maksimum k rnicBaza zwraca list znalezionych utworw uszeregowanych wg podobiestwa do zapytania.Dokadno wyszukiwania zaley od:wiernoci wykonania melodii przez uytkownika (akcentowanie nut, krtkie przerwy midzy nutami)dokadnoci danych dotyczcych melodii zawartych w bazie

  • QBH skuteczno systemuSystem QBH zaprojektowany przez Ghiasa i in.:183 utwory w bazie, uzyskane z plikw MIDI (z kanaw zawierajcych lini melodyczn)sekwencje o dugoci 10-12 nut wystarczaj do rozrnienia 90% utworw w bazieprzy odpowiednim zanuceniu melodii uzyskuje si blisko 100% skuteczno wyszukiwaniabaza danych jest maa, zwikszenie obiektw w bazie danych powoduje liniowy wzrost czasu wyszukiwaniaplanowane byy usprawnienia systemu (np. zastosowanie analizy falkowej)

  • MELDEXMELDEX (MELody inDEX) system opracowany w Nowej Zelandii w 1997 r. Przeznaczony jest do rozpoznawania pieni ludowych.Baza zawiera 9354 pieni ludowych (pnocnoamerykaskich, niemieckich, chiskich i irlandzkich). Rozpoznawanie melodii nuconej do mikrofonu (QBH) oraz wprowadzanej z klawiatury przez specjalny panel.Z melodii wprowadzanej przez uytkownika uzyskiwane s informacje o:wysokoci nutczasie trwania nut

    Adres bazy MELDEX: http://www.nzdl.org/fast-cgi-bin/music/musiclibrary

  • MELDEX panel wejciowyPanel do wprowadzania danych w systemie MELDEX

  • MELDEX detekcja wysokociDetekcja wysokoci dwiku w systemie MELDEX:sygna jest przetwarzany przez filtr dolnoprzepustowy ograniczenie pasma do 1 kHzdetektor wyznacza w przetworzonym sygnale powtarzajcy si okres podstawowyanaliza w ramkach 20 ms, rozdzielczo wysokoci ok. 5 centw

  • MELDEX detekcja czasu trwaniaDetekcja czasu trwania nut w systemie MELDEX:uytkownik nucc melodi wyranie rozdziela kad nut (na na na na)powoduje to gwatowny wzrost, a nastpnie spadek amplitudy sygnau (trwajcy ok. 60 ms)wartoci progowe amplitudy pozwalaj wyznaczy pocztek i koniec kadej nuty

  • MELDEX kodowanie wysokoci i czasuKodowanie wysokoci nut w systemie MELDEX:wysoko kadej nuty jest zapisywana jako rnica wysokoci w centach wzgldem tonu wzorcowego o czstotliwoci 8,176 Hz (0 w MIDI).

    Kodowanie czasu trwania nut:kwantyzacja do minimalnego czasu trwania nuty, definiowanego przez uytkownika (np. szesnastka).

  • MELDEX wyszukiwanie danychMoliwoci wyszukiwania danych w MELDEX:okrelenie miejsca dopasowania (pocztek utworu lub inny punkt, np. refren)wyszukiwanie wg:konturu melodycznego (jak w QBH)informacji o dokadnych wartociach interwawuwzgldnianie informacji rytmicznych (o czasie trwania poszczeglnych nut)dopasowanie dokadne (jak w QBH)przyblione dopasowywanie cigw (oparte na mierze odlegoci cigw) uwzgldnia rnice w wykonywaniu melodii i bdy przy nuceniu

  • TreeQSystem TreeQ opracowany zosta w 1997 r. przez J. Foote.Gwne cechy:wyszukiwanie podobiestw pomidzy sygnaami audio na podstawie wektorw kwantyzacjiwykorzystuje algorytmy uczenia si maszyn (machine learning)zapytanie przez przykad (query by example) Demonstracja dziaania systemu:http://www.fxpal.com/people/foote/musicr/

  • TreeQParametryzacja i wyszukiwanie danych w systemie TreeQDane audio s parametryzowane uzyskuje si wektor cech dystynktywnych, zawierajcy przykady klas fonicznych (mowa/muzyka, gos eski/mski, itp.). Tworzony jest kwantyzator oparty na strukturze drzewa (trening nadzorowany)Sparametryzowane dane s przetwarzane przez kwantyzator uzyskujemy szablon dwikowy, czyli histogram opisujcy najwaniejsze cechy sygnauWyszukiwanie danych porwnywanie szablonu uzyskanego z wyszukiwanego nagrania z szablonami zapisanymi w bazie

  • TreeQ tworzenie szablonuSposb tworzenia szablonu audio w systemie TreeQ

  • TreeQ - parametryzacjaParametryzacja nagra audio w systemie TreeQokienkowanie Hamminga 25 ms z nakadkowaniemobliczenie logarytmu widma mocy (logarytm DFT)wspczynniki widmowe s przeliczane na skal melow uwydatnienie skadowych o rednich czstotliwociachobliczenie odwrotnej transformaty FourieraUzyskuje si w ten sposb 13-elementowy wektor wspczynnikw mel-cepstralnych (MFCC mel-frequency cepstral coefficients).Nagranie audio jest opisane przez zbir tych wektorw (500 wektorw na sekund).

  • TreeQ - kwantyzacjaZbir wektorw cech jest przetwarzany przez kwantyzator.W kadym wle drzewa kwantyzatora podejmowana jest decyzja wybr potomka (kolejnej gazi drzewa)Kady z wektorw z przetwarzanego wzoru trafia w rezultacie do jednego z lici (potomka kocowego) drzewa.Dla danego zbioru wektorw mona utworzy histogram ile wektorw przypado na kade z lici drzewa.Histogram ten tworzy szablon (template) identyfikujcy nagranie audio

    Kwantyzator tworzony jest w procesie treningu ma zdolno uczenia si

  • TreeQ wyszukiwanieWyszukiwanie danych polega na porwnywaniu histogramu otrzymanego dla nagrania w zapytaniu z histogramami zapisanymi w bazie.Kryterium najmniejszej odlegoci (euklidesowej lub cosinusowej). Zwracana jest miara podobiestwa.

  • Musipedia/TuneserverSystem zaprojektowany w 1997 r. przez Prechelta i Typke (Karlsruhe) jako Tuneserver, obecnie przeksztaci si w internetowy system Musipedia, wykorzystujcy mechanizm Wikipedia (encyklopedia tworzona przez uytkownikw).System umoliwia wyszukiwanie melodii w bazie przez jej zagwizdanie (lub zanucenie) mechanizm Melodyhound.Zawarto bazy: (muzyka klasyczna, popularna, pieni ludowe, hymny narodowe).

    Adres systemu: http://www.musipedia.org/

  • Kod ParsonsaZagwizdana melodia jest zamieniana na kontur melodyczny w postaci kodu Parsonsa (podobnie jak w systemach QBH). Moliwe jest rwnie bezporednie wprowadzenie kodu Parsonsa.Kod Parsonsa: kodowanie wysokoci poszczeglnych nut za pomoc znakw: U (wysza), D (nisza), R (taka sama).Celowo ignoruje si informacje o rytmie oraz wielkociach interwaw.Np. pocztek hymnu polskiego: *UURRDUDDDDRUDUD

  • Musipedia schemat blokowy systemu

  • Musipedia parametryzacjaWprowadzanie danych przez gwizdanie mniejsza zmienno i atwiejsza analiza widmowa ni w przypadku piewu lub nucenia. Parametryzacja:podzia sygnau na ramki (46 ms, zakadkowanie 50%)analiza widmowa kadej ramki (FFT) decyzja:sygna czstotliwo i amplituda maksimumciszaramki zawierajce sygna s czone w nuty, rozdzielone cisz lub gwatown zmian czstotliwociczstotliwoci nut zamieniane s na kod Parsonsa.Parametry analizy mog by ustawiane przez uytkownika.

  • Musipedia wyszukiwanieWyszukiwanie danych w systemie Musipedia:obliczanie odlegoci midzy kodem Parsonsa szukanego nagrania a wszystkimi kodami zapisanymi w bazie danychmiara odlegoci waona suma minimalnej liczby przeksztace kodu (wstawie, zamiany i usuni znakw) potrzebnej do dokadnego dopasowaniazwracana jest lista najbliszych elementwpodawane s rwnie informacje dodatkowe o utworze, jeeli zostay wprowadzone do bazy (np. zapis nutowy, moliwo zakupu pyty, itp.).

  • Musipedia skuteczno systemuSkuteczno systemu Musipedia oceniana za pomoc zbioru testowego, przy gwizdaniu melodii:przy braku zakce w sygnale wejciowym uzyskuje si redni liczb poprawnych odpowiedzi 4 na 5szum pochodzcy od oddechu ma najwikszy wpyw na skuteczno (szum ten jest filtrowany, parametry filtracji mog by regulowane przez uytkownika)liczba nut mniejsza ni 8 znaczco pogarsza skutecznonajbardziej podatne na bdy w kodzie Parsonsa s elementy Rnajczstsze znieksztacenia w kodzie Parsonsa to kody wstawieniaskuteczno zaley te od muzyki (uzyskano wiksz skuteczno dla muzyki Mozarta i Haydna)

  • System GUIDO/MIRSystem GUIDO/MIR oparty jest na bazie danych zawierajcej notacj utworw muzycznych zapisan w formacie GUIDO.GUIDO proponowany standard zapisu notacji muzycznej w formacie tekstowym, czytelnym, niezalenym od platformy.

  • GUIDO/MIR - wyszukiwanieWyszukiwanie danych w systemie GUIDO/MIR odbywa si na zasadzie Query by Example (QBE) zapytanie przez przykad.Mechanizm wyszukujcy czy jeden z typw informacji melodycznej (wysoko, interwa, klasy interwau, kontur melodyczny) z jednym z typw informacji rytmicznej (bezwzgldny i wzgldny czas trwania, kontur rytmiczny). Parametry te s wyznaczane dla pojedynczych nut oraz dla par nut.Przy dopasowywaniu wzorca do danych mona uwzgldniatylko informacj o wysokociach nuttylko informacj o czasie trwania nutinformacje o wysokoci i czasie trwania cznie

  • GUIDO/MIR - wyszukiwanieAlgorytm wyszukiwania danych oparty jest na acuchach Markowa pierwszego rzdu model probabilistyczny:w kadej chwili model znajduje si w okrelonym staniew dowolnym czasie nastpuje przejcie do innego stanucieki w modelu s opisane przez prawdopodobiestwa przejcia pomidzy stanamiW systemie GUIDO/MIR stany modelu mog odpowiada poszczeglnym cechom melodycznym i rytmicznym (np. wysoko nuty, interwa, czas trwania nuty).

  • GUIDO/MIR - wyszukiwaniePrzykad modeli probabilistycznych opisujcych prost melodi

    wysoko

    czas trwania

  • GUIDO/MIR - wyszukiwanieMechanizm wyszukujcy porwnuje model probalilistyczny uzyskany dla zapytania z modelami zapisanymi w bazie.Jednak porwnywanie ze wszystkimi modelami z bazy danych byoby nieefektywne.Baza danych jest zorganizowana w formie drzewa. Kady li drzewa odpowiada jednemu elementowi bazy.W kadym wle drzewa nastpuje wybr potomka, ktry jest lepiej dopasowany do szukanego obiektu.Skuteczno wyszukiwania zaley od sposobu wyznaczania drzewa. Stosuje si metody grupowania hierarchicznego (hierarchical clustering techniques).

  • GUIDO/MIR - wyszukiwanieDrzewo decyzyjne uywane do wyszukiwania danych

  • GUIDO/MIR - wyszukiwanieWyszukiwanie moe odbywa si w trybie:dokadnym (pene dopasowanie modeli)przyblionym dopuszczamy pewne bdy w dopasowaniuPrzy wyszukiwaniu przyblionym, do kadej cechy (np. wysokoci nuty) uytkownik moe doda oznaczenie niepewnoci:! pewnoc co do wartoci cechy? niepewno (moe by bd)Stopie pewnoci lub niepewnoci mona wyrazi za pomoc liczby znakw. Przykad:

    [g1! e1! e1? f1??]

  • System OMRASOMRAS Online Music Retrieval and SearchingZaoenie systemu: wyszukiwanie muzyki polifonicznej.Wikszo systemw umoliwia wyszukiwanie jedynie muzyki monofonicznej, np. wg linii melodycznej. System OMRAS uwzgldnia struktur nagra polifonicznych (np. orkiestry).Baza systemu oparta jest na plikach MIDI (w przyszoci planowane rozszerzenie systemu na pliki wave).

    Adres systemu: http://www.omras.org (obecnie tylko opis systemu)

  • OMRAS parametryzacjaW systemie OMRAS zastosowano metod indeksacji muzycznej:wykorzystuje si fakt wystpowania we frazach muzycznych tematw powtarzajcych si zestawie nutpozycje tematw zapamitywane s w postaci indekswparametryzacja w postaci acuchw tekstowych indeksy tematw i ich pozycje czasowepowtarzalno sekwencji muzycznych badana jest za pomoc algorytmw statystycznychklasyfikacja motywu jako tematu muzycznego algorytmy sztucznej inteligencjiredukcja redundancji oraz usunicie informacji, ktre nie s uyteczne z punktu widzenia wyszukiwania obiektw

  • OMRAS WyszukiwanieWyszukiwanie danych w systemie OMRAS:podanie przykadu (QBE) w jednym z akceptowanych formatw (MIDI, WAV)modu konwersji przetwarza zapytanie do formatw:macierzy score-matrix (czaswysoko)cigu indeksw tematw muzycznychwyszukiwanie polega na dopasowywaniu wzorca z zapytania do obiekw (indeksw, macierzy) zapisanych w baziewyniki zwracane wg miary podobiestwa

  • System CubyHumCubyHum to system oparty na Query by Humming.Schemat dziaania systemu:zapytanie przez nucenie melodiiestymacja wysokoci nut algorytm SHSestymacja czasu trwania nut wykrywanie zdarze (pocztek i koniec nuty), kwantyzacjakodowanie konturu melodycznego (wysokoci nut) za pomoc 9 klas interwaw muzycznychwyszukiwanie danych dopasowywanie wzorca do obiektw w bazie danych; wyszukiwanie przyblione uwzgldnienie znieksztace

  • CubyHum algorytm SHSSHS Sub-Harmonic Summation (sumowanie podharmonicznych) algorytm uywany w systemie CubyHum do estymacji wysokoci dwiku:sygna dzielony na krtkie ramki czasoweobliczane jest widmo sygnau w kadej ramcesumuje si amplitudy prkw poprzezprzesunicie prkw w lewo na zlogarytmowanej osi czstotliwocidodanie wyniku tej operacji do poprzedniegopowtrzenie dla wszystkich prkwmaksymalny prek w obliczonym widmie jest estymat wysokoci dwikualgorytm znajduje wysoko dwiku rwnie wtedy, gdy czstotliwo podstawowa nie wystpuje w widmie

  • CubyHum algorytm SHS

  • CubyHum detekcja czasu trwania nutDetekcja czasu trwania nut w systemie CubyHum:stosowane s jednoczenie cztery algorytmymetoda krtkotrwaej energii liczenie energii w ramkach 10 ms, decyzja: cisza/sygnametoda falowania filtracja grnoprzepustowa, wyznaczenie obwiedni sygnau dla wysokich czst.metoda zawartoci wysokich czstotliwoci obliczenie zmian energii sygnau i jej koncentracji w zakresie wysokich czstotliwoci, wykrywanie gwatownych zmian amplitudymetoda wysokoci separacja nut nie rozdzielonych cisz (glissando), porwnanie rnic wysokoci dwiku w ssiednich ramkach

  • CubyHum detekcja czasu trwania nutIlustracja dziaania metod detekcji czasu trwania nut

  • CubyHum reprezentacja melodiiKontur melodyczny cig znakw okrelajcych interway.Rnice wysokoci nut s kwantyzowane do jednego z 9 poziomw

  • CubyHum wyszukiwanie danychWyszukiwanie danych w systemie CubyHum:dopasowywanie wzorca do obiektw w bazieszukanie najmniejszej odlegociuwzgldnienie znieksztace liczba dopuszczalnych bdw wysokoci i czasu trwania nutfiltrowanie obiektw z bazy:dopasowywanie zgrubne odrzucanie obiektw, ktre prawodopodobnie nie bd pasowadla pozostaych obiektw obliczana jest odlego

  • CubyHum wykorzystanieZaoenia: wykorzystanie systemu CubyHum w domowej stacji muzycznej Easy Access.Dodatkowe funkcje:identyfikacja mwcy (preferencje)ukadanie list odtwarzania (playlists), rwnie za pomoc gosu i gestykulacjirekomendacja muzykiinformacje zwrotne synteza mowy

  • System OrpheusSystem Orpheus:Wykorzystuje mechanizm wyszukiwania melodii w oparciu o tzw. odlego od odniesienia (EMD)Zapytanie poprzez nucenie (QBH), przykad (QBE) lub plik MIDIBaza zawiera ok. 500 000 fragmentw utworw, zawierajcych ok. 20 pocztkowych nut

    Adres systemu: http://teuge.labs.cs.uu.nl/Ruu/?id=5

  • Orpheus kodowanie melodiiMelodia przeksztacana jest na sygnatury:zbiory punktw na paszczynie czas wysokokady punkt opisany za pomoc wartoci: czas wystpienia, wysoko, waga nutyWysoko zapisywana jest przy pomocy notacji Hewletta (pozwala odrni nuty o tej samej wysokoci, ale o innym zapisie).Wagi poszczeglnych punktw zale od czasw trwania odpowiadajcych im nut oraz ich znaczenia.

  • Orpheus - EMDSystem Orpheus wykorzystuje mechanizm wyszukiwania melodii w oparciu o tzw. odlego od odniesienia (EMD, Earth Movers Distance):Umoliwia ocen podobiestwa dwch melodii.EMD midzy dwoma waonymi punktami okrela minimaln liczb operacji niezbdn do transformacji jednego punktu na paszczynie czaswysoko w drugi, poprzez zmiany wagi punktu.Modyfikacja EMD proporcjonalna odlego transportowa (PTD Proportional Transportation Distance)oparta jest na takim transporcie wagi, e jej pewna nadwyka lub niedobr pomidzy dwoma waonymi punktami uwzgldniane s w obliczeniu odlegoci.

  • Orpheus porwnywanie melodiiPrzykad porwnywania dwch melodii przy pomocy EMD ilustracja przepywu wag.

  • Orpheus wyszukiwanieBaza jest zorganizowana w taki sposb, e z n obiektw w bazie wybiera si losowo k obiekw i oblicza si odlego transportow midzy kad par (k, n).Z fragmentu muzycznego podanego w zapytaniu uzyskuje si sygnatur (zbir parametrw).Najpierw szuka si w bazie obiektu z tak sam sygnatur.Jeeli nie ma tej sygnatury w bazie, oblicza si odlego transportow PTD midzy sygnatur zapytania a punktami k w bazie.Nastpnie wybiera si obiekty z bazy najblisze wybranemu punktowi k i oblicza si PTD midzy sygnatur zapytania a wybranymi obiektami z bazy.

  • System SOMeJBSOMeJB The SOM-enhanced JukeBoxProjekt majcy na celu opracowanie systemu rozpoznawania muzyki na podstawie plikw audio (PCM).Wykorzystuje algorytmy SOM samoorganizujce si mapy (self-organizing maps) algorytmy sztucznej inteligencji (sieci neuronowe Kohonena).Obecnie system jest ukierunkowany na wykrywanie podobiestwa nagra muzycznych (np. dla systemu rekomendujcego muzyk).Strona projektu: http://www.ifs.tuwien.ac.at/~andi/somejb/

  • SOMeJB przetwarzanie wstpnePlik dwikowy jest w pierwszym etapie poddawany przetwarzaniu wstpnemu:konwersja do formatu PCM, np. rozkodowanie plikw MP3konwersja do formatu 11 kHz monosegmentacja i wybr segmentw do dalszego przetwarzania:sygna dzielony na fragmenty o dugoci 6 sodrzucane s pierwsze 2 i ostatnie 2 segmentydo dalszej analizy wybierany jest co trzeci segment

  • SOMeJB Ekstrakcja cech gonoDruga faza: ekstrakcja z materiau dwikowego cech opisujcych gono dwiku:obliczenie widma mocy przez FFT (ramki 256 pr.)podzia sygnau na pasma krytyczne (skala barkw)uwzgldnienie maskowania w dziedzinie widmawyznaczenie poziomu dwiku w dB-SPLwyznaczenie poziomu gonoci w fonach (krzywe jednakowej gonoci)obliczenie subiektywnej gonoci w sonach

  • SOMeJB Ekstrakcja cech gonoCechy uzyskane w poprzedniej fazie s zalene od czasu. Do porwnywania nagra potrzebne s cechy niezmienne w czasie.Trzecia faza wyznaczanie cech opisujcych wzorce rytmudla wyznaczonych przebiegw czasowych gonoci w kadym pamie krytycznym wyznacza si wspczynnik modulacji amplitudowejwyznaczone wspczynniki modulacji s waone zgodnie z si fluktuacji, zalen od czstotliwociwynik jest poddawany filtracji gradientowej i gaussowskiej poprawa rozrniania niektrych wzorcw rytmu, usunicie zbdnych informacji

  • SOMeJB tworzenie mapAlgorytm SOM (sieci neuronowe Kohonena) ukada nagrania muzyczne w formie mapy na paszczynie.Podobne fragmenty muzyczne znajduj si blisko siebie na mapie SOM.Sie neuronowa jest trenowana w taki sposb, e potrafi poprawnie umieci na mapie nowe nagrania.Mapa przedstawia struktur bazy nagra.Etapy przetwarzania:Generowanie wektorw cech, np. podzia nagra na fragmenty (grupy segmentw).Redukcja objtoci wektorw cech.Trening sieci SOM.

  • SOMeJB tworzenie mapPrzykad mapy SOM widoczne wyspy muzyki:

  • Systemy audentify!/notify!Systemy opracowywane na Uniwersytecie w Bonnnotify! system QBH, zapytanie poprzez zagwizdanie melodii, wyszukiwanie w zapisie nutowymaudentify! system wyszukiwania w nagraniach audio (PCM), zapytanie przez przykad (QBE) plik audio, wyszukiwanie w bazie sygnatur plikw audioaudentify!-live modyfikacja dostosowana do wyszukiwania danych w strumieniu audio (np. audycje radiowe)audentify!-mobile modyfikacja do przesyania zapyta za pomoc telefonw komrkowych uwzgldnienie duego poziomu szumw w nagraniu

  • audentify! indeksowanie nagraIndeksowanie nagra muzycznych w systemie audentify! metoda SSP (Significant Signal Positions):filtracja dolnoprzepustowa aproksymacja obwiedniznalezienie prbek, ktrych amplituda jest wiksza ni k ssiednich prbek; pozostae prbki s zerowanespord wyznaczonych maksimw podobnie wyznacza si te, ktrych amplituda jest wiksza od k ssiednichsygnatur pliku jest zbir maksimw wyznaczonych w poprzednim kroku i ich pozycje czasowe

    Sygnatura wyznaczona t metod nie okazaa si jednak skuteczna, zwaszcza przy maych przepywnociach strumieni audio.

  • audentify! indeksowanie nagraIndeksowanie nagra muzycznych w systemie audentify! metoda zmodyfikowana:analiza FFT sygnau w ramkach czasowychw kadej ramce obliczany jest rodek cikoci widma w pamie 0 4000 Hzwyznaczone w poszczeglnych ramkach rodki cikoci widma tworz przebieg czasowyprzebieg ten jest dalej przetwarzany w taki sam sposb, jak sygna w poprzedniej metodzie (filtracja DP, dwukrotne wyznaczanie maksimw)

  • audentify! wyszukiwanie nagraWyszukiwanie danych polega na porwnywaniu sygnatury uzyskanej dla nagrania w zapytaniu do sygnatur zapisanych w bazie. Kryterium minimalnej odlegoci.Uwzgldnienie moliwych rnic:k niedopasowa porwnywane cigi mog rni si maksymalnie na k miejscachfuzzy search zakadamy, e niektre elementy cigu otrzymanego z zapytania s niepewne (np. w wyniku znieksztace wejciowego sygnau)

  • audentify!-mobile: zakcenia w nagraniachaudentify!-mobile to modyfikacja systemu przeznaczona do przesyania nagra za pomoc telefonu komrkowego.Naley wzi pod uwag, e sygna przesyany przez telefon komrkowy charakteryzuje si duymi zakceniami.Dodatkowe kroki wstpnego przetwarzania:filtracja sygnau charakterystyka filtru dopasowana do charakterystyki zakcezmniejszenie rozdzielczoci czasowej analiza w ramkach, obliczenie cakowitej energii w ramkachdodatkowa redukcja danych (kwantyzacja rnic midzy wartociami)

  • System CUIDADOSystem CUIDADO opracowywany jest przez Sony France.Metadane:edytorskie tekstoweakustyczne parametryzacja:rytm (g. dwiki perkusyjne)energia (muzyka dynamiczna, spokojna, itp.)brzmienie rozkad wspczynnikw mel-cepstralnychnagranie wokalne/instrumentalne (detekcja piewu)

    Wyszukiwanie na zasadzie obliczania miar podobiestwa.Gwnie mechanizm znajd podobne nagrania.

  • Philips Audio FingerprintingPhilips Audio Fingerprinting Technology algorytm opracowany przez firm Philips, sucy do identyfikacji nagra muzycznych:przesyanych w postaci strumienia (on-air) identyfikacja na ywoprzesanych w postaci plikuTechnologia komercyjna, dostarczana jako zestaw procedur (API) do zaimplementowania w oprogramowaniu klienta.System klient-serwer (serwer uruchomiony przez firm Philips).Nie jest znana dokadna struktura algorytmw parametryzujcych i wyszukujcych dane.

  • Philips Audio FingerprintingOprogramowanie po stronie klienta oblicza sygnatur (fingerprint, odcisk palca):sub-fingerprints obliczone na podstawie krtkich ramek czasowych (kilka milisekund)fingerprint blocks sygnatury zoone z 256 sub-fingerprints dla tego samego nagrania (ok. 3 sek.)Fingerprint-blocks s przesyane do serwera, ktry dokonuje ich identyfikacji.Serwer przesya identyfikator utworu (Song ID) oraz pozycj wewntrz pliku, odpowiadajc sygnaturze.Autorzy systemu twierdz, e dowolny fragment utworu o dugoci 3 sekundy wystarczy do identyfikacji utworu.

  • Philips Audio FingerprintingWedug autorw, system jest niewraliwy na zmniejszanie przepywnoci do 64 kbit/s, filtracj, dodawanie echa, przeprbkowanie, transpozycj, zaszumienie.

  • System ShazamShazam komercyjny system Query by Mobile Phone, opracowany przez firm Shazam Entertainment.Rozpoznawanie utworw przesyanych za pomoc telefonu komrkowego (zadzwo na 2580).System zamknity brak informacji na temat struktury i sposobu dziaania systemu. Baza zawiera ok. 1,6 mln utworw.Wymagane jest przesanie 30 sekund utworu. Informacja zwrotna: wykonawca i tytu, ew. dodatkowe informacje (np. o moliwoci pobrania dzwonka).Adres systemu Shazam: http://www.shazam.comAdres polskiej wersji Muzyczna Linia (nr 7254) http://www.muzycznalinia.pl/

  • MusicBrainz / TRMMusicBrainz system internetowy sucy do identyfikacji plikw MP3 i edycji ich znacznikw (ID3 tags).System posiada struktur klient-serwerDo parametryzacji i wyszukiwania nagra wykorzystywana jest komercyjna technika TRM firmy Relatable.Algorytmy parametryzacji i wyszukiwania nie s znane (czarna skrzynka).

    Adres systemu MusicBrainz: http://www.musicbrainz.org/

  • MusicBrainz / TRMSchemat dziaania systemu:Uytkownik wczytuje do programu klienta MusicBrainz plik MP3.Program oblicza sygnatur audio pliku i przesya j do serwera.Serwer na podstawie sygnatury oblicza identyfikator pliku (TRMID) i odsya go do klienta. Przykad: 0e2c91c2-bff9-4105-a48c-f0e687643d9aKlient moe wysa do serwera danie wyszukania informacji o pliku opisanym przez dany TRMID.Zwrcone przez serwer informacje mog zosta wykorzystane do zapisania znacznikw w MP3.

    Wydajno bazy TRM: ponad 5000 dopasowa na sekund.

  • Wicej informacjiDodatkowe informacje o systemach MIR (Music Information Retrieval):

    Indeks systemw MIRhttp://mirsystems.info/

    Materiay z konferencji ISMIRhttp://www.ismir.net/