Wykrywanie wzorców częstych

Wykrywanie wzorców częstych

Anna SewerynOpiekun: dr inż. Grzegorz Protaziuk

Spis treści: Eksploracja danych Podstawowe definicje Algorytm Apriori Ulepszenia Algorytmu Apriori Algorytm dla grafów skierowanych

ważonych Implementacja algorytmu Testy wydajnościowe Zastosowanie algorytmu Podsumowanie

Eksploracja danych Pojęcie eksploracji danych potocznie rozumiane

jest jako odkrywanie wiedzy w bazach danych, integruje ono kilka dziedzin takich jak: statystyka, systemy baz danych, sztuczna inteligencja, optymalizacja, obliczenia równoległe.

Problemy: Magazynowanie danych Dostęp do danych Analizowanie w rozsądnym przedziale czasowym Niepoprawne wartości, zanieczyszczenia, zakłamane

dane Zależności i podsumowania będące wynikami

eksploracji danych zwane są modelami lub wzorcami

Podstawowe pojęcia Częstość fr(Y) zadanego wzorca zbioru

elementów Y jest liczba przypadków w danych spełniających Y.

Wsparcie częstość wystąpień zbioru X lub Y. Dokładność (ufność) zadanej reguły to frakcja

(część wszystkich) wierszy spełniających wśród tych wierszy, które spełniają Y (prawdopodobieństwo warunkowe P(Y|X).

Zadanie znajdowania wzorców częstych:mając dany próg częstościowy s znajdujemy wszystkie wzorce zbiorów elementów, które są częste i ich częstości. Jeśli próg częstości jest niski może być wiele zbiorów częstych.

Metoda trywialna wyszukiwania wzorców częstych

Metodą trywialną jest branie po kolei każdego wzorca i sprawdzanie czy występuje on w danych i czy jest w jakimś sensie znaczący. Jeśli liczba możliwych wzorców jest mała, to wówczas można tę metodę zastosować, ale z reguły jest ona całkowicie niewykonalna.

Algorytm Apriori Algorytm Apriori

znalezienie wszystkich wzorców częstych zaczynamy od znalezienia wszystkich zbiorów częstych składających się z 1 zmiennej. Zakładając, że już je znamy, budujemy zbiory kandydujące rozmiaru 2: zbiory {A,B} takie, że {A} jest częsty i {B} jest częsty. Po zbudowaniu przeglądamy je i stwierdzamy, które są częste. Budujemy z nich zbiory kandydujące rozmiaru 3, których częstość jest następnie obliczana z danych i tak dalej.

Ograniczenia: struktura danych jest ograniczona do elementów

zbioru.

Ulepszenia algorytmu Apriori Możliwość stosowania algorytmu Apriori dla

struktur grafowych po prostym przetworzeniu danych. Wada: utrata ważnych informacji o strukturze,

wierzchołki i etykiety muszą być unikalne Zastosowanie zasady MDL przycinania

drzew Wada: strategia wyszukiwań chciwa i

heurystyczna – pomijanie znaczących związków. Duża złożoność obliczeniowa

Ulepszenia algorytmu Apriori cd

Równe rozmieszczenie sekwencji – sekwencje epizodów.Mając dany zbiór E typów zdarzeń, sekwencję zdarzenia s w E, zbiór epizodów EE, okno szerokości win i próg częstości min_fr, następujący algorytm oblicza zbiór epizodów częstych FE(s, win, min_fr):

Wada: ważna kolejność wstawiania wierzchołków Zastosowanie podgrafu jako cechy, by

sklasyfikować w grafach dane Wada: ograniczenia co do ilości węzłów, większa ilość

prowadzi do wykładniczej eksplozji obliczeniowej czasu

System: WARMR Pierwszy algorytm dla wyszukiwania danych

stosujący ILP (Indukcyjne Programowanie Logiki) ILP ma ograniczenia ilościowe By zmniejszyć złożoność obliczeniową stosuje się

heurystyki by przyciąć badaną przestrzeń Wzorce: relacyjne reguły asocjacyjne budowane

na podstawie częstych zapytań do baz wiedzy w Prologu

wsparcie s zapytania to procent liczby możliwych podstawień pod zmienne wyróżnione dla danego zapytania w stosunku do liczby wszystkich możliwych podstawień pod zmienne wyróżnione

System: FARMAR 2001

Słabszy warunek równoważności niż w WARMR, by przyspieszyć wyszukiwanie wzorców częstych

Bazuje na strukturze TRIE Ścieżka od korzenia do liścia

reprezentuje całe zapytania

Inokuchi, Washio, Motoda 2003 - algorytm Proces przerobienia ogólnego grafu

danych transakcji do grafu etykietowanych węzłów z zapętleniem

macierz sąsiedztwa – nie unikalna kodowanie macierzy – zmniejszenie

zapotrzebowania pamięci zaufanie i częstość Kanoniczna postać

Proces przerobienia ogólnego grafu danych transakcji do grafu etykietowanych węzłów z zapętleniem

Graf reprezentowany jako macierz sąsiedztwa

Jeśli graf ma etykietowane związki to związki stają się węzłami i węzły stają się związkami:

informacja link() –etykieta może zostać usunięta i otrzymujemy zredukowany graf, gdzie oryginalna informacja o związku i węźle zostaje zachowana:

Transformacja macierzy sąsiedztwa

kiedy jest pętla ważona tak jak w N1, zmienia się etykieta węzła na N’1, odtąd macierz wygląda tak:

Fakt ten pozwala na zapisywanie różnych etykiet dla węzłów, które mają wiele pętli. Zapisywanie etykiet węzłów odbywa się wg zasady:

Kody macierzy – graf nieskierowany

Dla wydajności algorytmu definiujemy kody macierzy sąsiedztwa.

Dla grafu nie skierowanego otrzymujemy kody przez skanowanie wyższych trójkątnych elementów. Powstaje kod 01 według poniższego schematu:

Dla macierzy otrzymujemy kod: code(Xk)=0101100101

Kody macierzy – graf skierowany Dla grafu skierowanego jeżeli oba elementy (i,j) oraz (j,i)

są zerami to dla kodu wstawiamy 0, natomiast gdy: element (i,j) ma wartość 1 a element ma wartość 0 to wstawiamy 1. w przypadku gdy element (i,j) ma wartość 0 a (j,i) wartość 1 to w kod w stawiamy 2, w końcu, gdy element (i,j) i (j,i) mają wartości 1 to w kodzie wstawiamy 3.

Wzór:

Dla macierzy kod jest następujący: code(Xk)=101012120000300

Algorytm wyszukiwania wzorców częstych Generowanie kandydata

Xk i Yk – macierze sąsiedztwa dwóch podrafów G(Xk) i G(Yk). Jeśli dwa częste podgrafy mają równe elementy z wyjątkiem k-tej kolumny i k-tego wiersza to wtedy łączy się i tworzy się podgraf Zk+1:

Graf nieskierowany grafu nie skierowanego rozważane są 2

przypadki: (1)jest związek między k-węzłem i k+1-

węzłem grafu G(Zk+1) oraz (2) nie ma żadnego związku między nimi.

Odpowiednio tym dwóm przypadkom generujemy 2 macierze sąsiedztwa wstawiając odpowiednio 0 lub 1 dla (k, k+1)-elementu oraz (k+1, k)-elementu.

Graf skierowany W przypadku skierowanego grafu możliwe są 4 przypadki:

(1) skierowany związek z węzła k do k+1 grafu G(Zk+1) oraz (2) skierowany związek od k+1 do k oraz (3)są dwukierunkowe związki między nimi oraz (4) nie ma żadnych związków między nimi.

Odpowiednio 4 różne macierze graniczne są generowane. Nazywamy odpowiednio Xk i Yk "pierwsza macierz” i "druga macierz” by wygenerować kolejno Zk + 1

Kandydat częsty k+1 elementowy graf G(Zk+1) jest rozważany na

kandydata częstego wyszukanego podgrafu gdy macierz sąsiedztwa wszystkich wywołanych k-podgrafów G(Zk+1) jest potwierdzona aby reprezentować częsty podgraf.

Ponieważ nasz algorytm wygeneruje tylko macierze sąsiedztwa normalnej formy. Wcześniejsza k macierz sąsiedztwa jest generowana przez usunięcie i-tego węzła, i-tej kolumny i wiersza prowadzi to do powstanie nie normalnej postaci macierzy sąsiedztwa. Macierz nienormalnej formy jest przekształcana do normalnej wg schematu:

Kandydat częsty cd Gdy wyprowadzimy wszystkich kandydatów częstych ich

wartość wsparcia jest wyliczana przez skanowanie całej bazy danych. Jednakże różne normalne macierze sąsiedztwa mogą reprezentować inne grafy. Aby poprawnie policzyć wsparcie musimy sprowadzić macierz do postaci kanonicznej.

K jest wielkością grafu G i T(G)-{Xk | Xk jest normalną formą macierzy G przystającą do G(Xk)}. Wtedy kanoniczna postać CK grafu G ma postać

kanoniczna forma macierzy Ck jest otrzymywana przez permutacje wierszy i kolumn normalnej formy macierzy Xk. Permutacje są zrobione przez operację

Wyliczenie częstości

Implementacja Struktura drzewa jest często stosowaną strukturą danych do przeszukiwań.

Przeszukiwania zaczyna się od korzenia i schodzi się niżej. Poniżej struktura drzewa nieskierowanego o dwóch etykietach N1 I N2. Punkt rozgałęzienia odpowiada normalnej formie macierzy.

Kolejność symbolu składająca się z literowego (powyższy) i liczebnik (poniżej) w każdym pokazie punktu kolejno etykieta węzła i kod macierzy sąsiedztwa.

Głębokość struktury Trie odpowiada wielkości wykresów i źródłowa macierz każdej macierzy w strukturze Trie jest pierwszą macierzą, by wygenerować macierz.

Testy wydajnościowe 1/5

Jak zmienia się czas kiedy zmieniamy ilość transakcji

Testy wydajnościowe 2/5Jak zmienia się czas kiedy zmieniamy średnią wielkość transakcji

Testy wydajnościowe 3/5Jak zmienia się czas kiedy zmieniamy liczbę etykiet węzła


Jak zmienia się czas kiedy zmieniamy minimalne wsparcie


Jak zmienia się czas kiedy zmieniamy istnienie związków

Zastosowanie Analiza sieci Web (web browning analysis)

liczba wpisów url: 25000wielkość pliku ok. 400MBokoło 8700-adresów i powiązańŚredni czas trwania dostępu do strony przez użytkowników: 5minutzmiana pliku testowego do struktury macierz doprowadziła do

powiększenia pliku do 800MBliczba transakcji wyniosła 50666przeciętna wielkość jednej transakcji to 118liczba etykiet węzła 8566każda etykieta była zastąpiona przez krótki symbol indeksuupakowanie tak danych do 79MBdla minsup=15% liczba częstych wzorców wyniosła

1898 i rozmiar maksymalny transakcji to 7 czas 52.3 sekundy

3 przykłady wykrytych wzorców:

Zastosowanie

Analiza substancji chemicznej Eksperymenty na toksyczność

substancji chemicznej w mieszaninie Zadanie: znaleźć czynniki

rakotwórcze Uniwersytet Oxford do odnajdywania

substancji rakotwórczej w substancjach

Podsumowanie Powyższy algorytm świetnie sobie radzi ze

strukturą grafu skierowanego jak i niekierowanego, graf może mieć wiele etykietowanych węzłów oraz może posiadać pętle.

Może być stosowany w praktyce do wyszukiwania częstych zachowań użytkowników WWW jak również do analizy substancji chemicznych – badanie toksyczności substancji chemicznej- znajdywanie struktury typowej dla czynnika rakotwórczego

Dziękuję za uwagę!

Documents

Wykrywanie wzorców częstych