Upload
others
View
24
Download
0
Embed Size (px)
Citation preview
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.2
Uvod
Za dati skup transakcija (slogova) nacipravila koja predvidjaju pojavljivanje stavke(objekta) na osnovu pojavljivanja ostalihstavki (objekata) u transakcijama
Osnovni pojmovi (iz uvodnog dela)• Skup stavki• Podrška• Pouzdanost• Pravilo pridruživanja
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.3
Uvod
IdT Stavke1 Hleb, Mleko2 Hleb, Pelene, Pivo, Jaja3 Mleko, Pelene, Pivo, Kola4 Hleb, Mleko, Pelene, Pivo5 Hleb, Mleko, Pelene, Kola
Primeri pravila pridruživanja
{Pelene}−→{Pivo}{Mleko, Hleb}−→{Jaja, Kola}
{Pivo, Hleb}−→{Mleko}
Implikacija oznacava istovremeno pojavljivanje, neuzrocnost!
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.4
Uvod
Šta jesu/rade i za šta se koriste pravila pridruživanja
• Utvrduju veze (pridruživanja, asocijacije)izmedu podataka u velikim bazama podataka
• "Analiza veza izmedu podataka"
• otkrivanje veza izmedu pojedinacnihpodataka
• ne karakteriše se celokupna bazapodataka
• Pravila pridruživanja opisuju relacije izmedjuskupova elemenata u podacima oblika A −→ Bgde su A i B skupovi elemenata
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.5
Uvod
Pravilo pridruživanja {Hleb, Mleko}−→{Pelene}
• Znacenje: "ako kupac kupi hleb i mleko,(verovatno) ce kupiti i pelene"
• elementi (stavke, kod potrošacke korpe artikli,eng. items): hleb, mleko, pelene
• skup stavki (eng. itemset) sadrži jednu ili višestavki
• K-skup stavki - skup koji sadrži K stavki
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.6
Uvod
Za dati skup transakcija (slogova) T cilj nacinodredjivanja pravila pridruživanja je pronaci svapravila koja imaju
• podršku ≥ minsup (minimalni prag podrške)
• pouzdanost ≥ minconf (minimalnog pragpouzdanosti)
Visoko poverenje
• ’jako’ pravilo, ukazuje na visok nivo uzrocnosti,pridruživanja izmedju artikala/elemenata
• ovakva pravila su od interesa
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.7
Uvod
Visoka podrška
• pojavljuje se cesto, manje je verovatno da sepravilo slucajno pojavilo
• uocavanje cestih pravila nudi više mogucnostiza ’akciju’
U slucaju jako velikih baza podataka
• minconf (minimalni nivo poverenja) se obicnopostavlja visoko (npr. 80%)
• minsup (minimalni nivo podrške) je uobicajenoznacajno niži (npr. 5-10%), zbog velikeraznolikosti
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.8
Uvod
Kako odrediti ceste stavke?Teorijski dokaz postojanja algoritma: metoda grubesile
• Izlistati sva moguca pravila pridruživanja
• Izracunati podršku i pouzdanost za svakopravilo
• Odbaciti pravila koja ne zadovoljavaju minsup iminconf prag
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.9
Potrošacka korpa
• Utvrditi koji se artikli prodaju zajedno
• Ako kupac kupi odredjene artikle, koji su još proizvodiverovatni da se nadju u njegovoj korpi
• Primena: npr. organizovati promotivnu kampanju(rasprodaju) tako da se popust ne daje istovremeno naartikle koji se uobicajeno kupuju zajedno
• Pored uobicajenih ’paketa’ proizvoda, naci iiznenadjujuce (neuobicajene) pridružene artikle (npr.novi trend)
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.10
Potrošacka korpa - primer
Podaci - Shopping dataset sa
http://dmg.org/pmml/pmml_examples/index.html
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.11
Definicija pravila pridruživanja
Neka su X i Y dva skupa stavki. Tada se pravilo u oznaciX ⇒ Y naziva pravilo pridruživanja sa minimalnom podrškomminsup i minimalnom pouzdanošcu minconf ako važi:
1 Podrška stavke X ∪ Y je ≥minsup
2 Pouzdanost pravila X ⇒ Y je ≥minconf
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.12
Formiranje pravila pridruživanja
Dva koraka:
1 Formirati sve skupove stavki kod kojih jepodrška ≥minsup
2 Formirati pravila iz svakog skupa cestih stavkisa pouzdanošcu ≥minconf
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.13
Formiranje pravila pridruživanja
Formiranje svih cestih skupova artikala je problem jer
• u primenama se obicno pojavljuju stotine hiljada razlicitihartikala (npr. potrošacka korpa)
• za d artikala postoji 2d − 1 mogucih skupova (+ prazanskup)
• njihovu frekvenciju treba proveriti na osnovu milionatransakcija svakog dana/sata
Racunarski vrlo zahtevan proces
• da li je moguce smanjiti prostor pretrage za cesteskupove?
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.14
Rešetka skupa artikala
null
A B C D E
AB AC AD AE BC BD BE CD CE DE
ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE
ABCD ABCE ABDE ACDE BCDE
ABCDE
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.15
Strategije za povecanje efikasnosti
• Smanjiti broj kandidatskih stavki (M)
• Kompletno pretraživanje: M = 2d
• Koristiti tehnike potkresivanja radi smanjenja M
• Smanjiti broj transakcija (N). Sa povecanjem brojakandidatskih skupova, smanjuje se broj podržanihtransakcija
• Smanjiti broj poredenja (NM)
• Koristiti efikasnije strukture podataka radi cuvanjakandidata i/ili transakcija
• Nije potrebno uparivati svakog kandidata sasvakom transakcijom
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.16
Formiranje pravila pridruživanja: definicijei pravila
Apriori princip: ako je skup stavki cest, tadasu i svi njegovi podskupovi takodje cesti
Osobina anti-monotonosti: Mera f posedujeosobinu anti-monotonosti ako za sveskupove stavki X ,Y važi:X ⊂ Y =⇒ f (Y ) ≤ f (X )
Podrška zadovoljava osobinuanti-monotonosti
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.17
Formiranje pravila pridruživanja definicijei pravila
Zatvorenje na niže (eng. downwardclosure): svaki podskup od podržanog(cestog) skupa je takodje podržan (cest)
Posledica: ako neki skup artikala koji nijepodržan (nije frekventan), onda ni njegovinad-skupovi ne mogu biti podržani(anti-monotonost)tj. ako {A} nije cest, onda bilo šta što sadrži{A} ne može biti cesto −→ ne treba dabude razmatrano
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.18
Formiranje pravila pridruživanja
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.19
Formiranje pravila pridruživanja definicijei pravilaMaksimalno ceste stavke: skup stavki jemaksimalno cest ako ni jedan od njegovihneposrednih nadskupova nije cest
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.20
Formiranje pravila pridruživanja definicijei pravila
Monotonost pouzdanosti: Ako su X1, X2 i Iskupovi stavki takvi da važi X1 ⊂ X2 ⊂ I,tada važi
conf (X2 ⇒ I − X2) ≥ conf (X1 ⇒ I − X1)
Koristi se za eliminaciju redundantnih pravila: npr. u slucaju
pravila {Hleb} ⇒ {Pivo,Mleko} i {Hleb,Pivo} ⇒ {Mleko}drugo pravilo može da se ukloni jer ima istu podršku, ali manju
pouzdanost od prvog
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.21
Metoda grube sile
• Svaki skup stavki u rešetki je kandidat da budecest
• Prebrojati podršku za svakog kandidatapregledanjem baze
IdT Stavke1 Hleb, Mleko2 Hleb, Pelene, Pivo, Jaja3 Mleko, Pelene, Pivo, Kola4 Hleb, Mleko, Pelene, Pivo5 Hleb, Mleko, Pelene, Kola
• Uparuje se svaka transakcija sa svakimkandidatom
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.22
Metoda grube sile
• Složenost O(NMw) - jako skupo jer jeM = 2d − 1- broj stavki, w - maksimalna širinatranskacije, N - broj transakcija
• Ukupan broj mogucih pravila pridruživanja za dstavki je
d−1∑k=1
(dk
)×
d−k∑j=1
(d − k
j
)
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.23
Apriori algoritam
R. Agrawal i R. Srikant 1994.
Xindong Wu and Vipin Kumar: The Top TenAlgorithms in Data Mining - glava 4
Varijante Apriori algoritma + algoritam zaformiranje pravila pridruživanja
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.24
Apriori algoritam (nastavak)
Formiranje cestih skupova stavki
• Elementi skupova stavki poredjani leksikografski
• Na osnovu cestih skupova stavki dužine k formiraskupove dužine k + 1
• Skupovi k stavki se spajaju ako su im jednaki previhk − 1 elemenata
• Nalazi podršku skupova dužine k + 1
• Odbacuje retke skupove k + 1 stavki i ne razmatranjihove nadskupove (posledica zatvorenja na niže)
• Odbacuje skupove k + 1 stavki ako neki od podskupovak stavki nije cest
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.25
Apriori algoritam (nastavak)
/* Ck+1 skup stavki kandidata duzine k+1 */Apriori(Transakcije: T, Podrska: minsup)begink=1;F1={sve ceste 1-stavke};while Fk nije prazno dobegin
Generisati Ck+1 spajanjem stavki iz Fk;Odbaciti stavke iz Ck+1 koje ne
zadovoljavaju zatvorenje na nize;Odrediti Fk+1 brojanjem podrske (Ck+1, T);odbaciti one sa podrskom manjom od minsup;k=k+1;
end;return (unija svih Fi, i=1;k);
end
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.26
Ilustracija Apriori algoritma
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.27
Ilustracija Apriori algoritma
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.28
Apriori algoritam (nastavak)
Formiranje pravila pridruživanja• Svaki cest k-skup stavki može da proizvede do 2k − 2
pravila pridruživanja (ignorišu se pravila sa praznomlevom ili desnom stranom)
• Pravilo se izdvaja deljenjem skupa stavki Y na dvaneprazna podskupa X i Y − X , takve da X ⇒ Y − X imavecu pouzdanost od zadatog praga
• Svako pravilo mora da zadovoljava i uslov da ima vecupodršku od zadatog praga podrške
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.29
Formiranje i potkresivanje kupovakandidata
Funkcija formiranja novih novih kandidatskih skupova u apriorialgoritmu ukljucuje
• Formiranje kandidata: generišu se novi k-skupovi stavkina osnovu cestih skupova stavki dužine (k-1) koji suformirani u prethodnoj iteraciji
• Potkresivanje skupa kandidata: eliminišu se odredenikandidatski k-skupovi stavki korišcenjem strategijepotkresivanja na osnovu podrške
• Metod grube sile - neefikasan jer razmatra svakipodržani skup dužine k kao potencijalnog kandidata izatim primenjuje potkresivanje
• Neka Fk oznacava skup kandidata dužine k . Fk seformira na osnovu prethodni Fl , l < k
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.30
Formiranje i potkresivanje kupovakandidata
Metode za formiranje Fk
• Fk−1 × F1
• Primer?• Problemi?• Potrebno leksikografsko uredenje stavki
• Fk−1 × Fk−1
• Primer?• Leksikografsko uredenje• Neka su A = a1,a2, ...,ak−1 i B = b1,b2, ...,bk−1
par cestih k -skupova stavki. A i B mogu da sekombinuju ako zadovoljavaju uslovai = bi ,∀i = 1,2, ..., k − 2 ∧ ak−1 6= bk−1
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.31
Smanjenje broja poredenja
• Smešta stavke u rešetku u širinu, nivo po nivo
• Grupiše podatke u korpe (eng. buckets) po dužiniskupova stavki
• Svaka korpa se predstavlja u obliku heš strukture safiksnim brojem grana u cvoru
• Na i-tom nivou heš funkcija se primenjuje na i-tu stavkuskupa
• Uvecava se broj stavki do kojih se dodje u listovima hešstrukture
• Stavke iz transakcija se porede sa sadržajem svoje(kandidatske) korpe umesto sa celim skupom kandidata
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.32
Smanjenje broja poredenja preko hešdrveta
Numeracija 3-stavki transakcije {a, b, d, e, g}
Transakcijaa b d e g
d e g
d e g
d e g
b d e g
b e g
b e g
b d e g
b d gb d e
a b d e g
a e g
a e g
a d e g
a d ga d e
a b d e g
a b ga b ea b d
Koja od ovih stavki odgovara kandidatskimniskama?
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.33
Smanjenje broja poredenja preko hešdrvetaPrimer: Za heš funkciju
Heš f-ja
c, f, ib, e, ha, d, g
i skup stavki {a, b, c, d, e, f, g, h, i} drvo kandidatskihstavki družine 3
Heš f-ja
Heš f-ja
c f gc f h
c e fc e gf h ic d e
b c de f gHeš f-ja
a c fHeš f-ja
a e ia b ed e h
a b dd e f
a d e
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.34
Smanjenje broja poredenja preko hešdrveta
U transakciji koja sadrži {a, b, d, e, g} 3-stavke koje sepoklapaju sa kandidatskim stavkama se dobijaju preko hešdrveta
Heš f-ja naa, b, d, e, g
Heš f-ja
c f gc f h
c e fc e gf h ic d e
b c de f gHeš f-ja
a c fHeš f-ja
a e ia b ed e h
a b dd e f
a d e
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.35
Smanjenje broja poredenja preko hešdrveta
Heš f-ja
c, f, ib, e, ha, d, g
Heš f-ja naa, b, d, e, g
Heš f-ja
c f gc f h
c e fc e gf h ic d e
b c de f ga b d e g
a c fa b d e g
a e ia b ed e h
a b dd e f
a d e
Uparene su tri stavke (ade), (abd), (abe)
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.36
Drveta sa prebrojavanjem stavki
• Drveta sa leksikografskim uredjenjem
• Kandidatske stavke se formiraju širenjemdrveta (u širinu, u dubinu, ...)
• Na kraju sadrži samo ceste stavke
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.37
Drveta sa prebrojavanjem stavki
Definicija: drvo sa prebrojavanjem stavki koje sadržisamo ceste stavke
• Cvorovi sadrže šeste stavke; koreni cvor sadržipraznu stavku
• Neka je I = i1, ..., ik cesta stavka gde sui1, i2, ..., ik navedene u leksikografskom poretku.Roditelj cvora I je stavka i1, ..., ik−1. Dete cvormože da se proširi samo sa stavkama koje senalaze leksikografski posle svih stavki koje senalaze u tom cvoru.
• Može da se posmatra i kao prefiksno drvoleksikografski uredjenih stavki
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.38
Drveta sa prebrojavanjem stavki
Null
fed
df
c
cfcd
cdf
b
bdbc
bcd
a
afad
adf
ac
acfacd
acdf
ab
abdabc
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.39
Drveta sa prebrojavanjem stavkiOznake
• F (Q) proširenja leksikografskog drveta cestimstavkama u cvoru Q
• Neka je i ∈ F (Q) cesta stavka koja proširujecest cvor Q u cest cvor P = Q ∪ {i}
• C(P) podskup stavki iz F (Q) koji seleksikografski javlja posle stavke i koja sekoristi za proširenje cvora Q u cvor P
• C(P) - skup stavki kandidata za proširenjecvora P
• Važi: F (P) ⊆ C(P) ⊂ F (Q)
• Kandidati za proširenje C(P) predstavljajupandan susednim cvorovima u Apriori alg.
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.40
Nacini obilaska rešetke
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.41
Nacini obilaska rešetke
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.42
Nacini obilaska rešetke
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.43
Vertikalni raspored podataka
Promena nacina predstavljanja baze
Br.
trans
.
hleb
mle
ko
pele
ne
pivo
jaja
kola
1 1 1 0 0 0 0
2 1 0 1 1 1 0
3 0 1 1 1 0 1
4 1 1 1 1 0 0
5 1 1 1 0 0 1
Stavka Skup
ident. tr.
Binarna
repr.
hleb 1, 2, 4, 5 11011
mleko 1, 3, 4, 5 10111
pelene 2, 3, 4, 5 01111
pivo 2, 3, 4 01110
jaja 2 01000
kola 3, 5 00101
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.44
Vertikalni raspored podataka
• Za prebrojavnaje k + 1-stavki koristese preseci listi skupova transakcijak -stavki
• Veca potrošnja memorije zbog cuvanjalisti/manja potrošnja CPU
• Eclat i VIPER algoritmi koristerekurzivne preseke listi transakcija
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.45
Vertikalni Apriori algoritam
/∗ Ck+1 skup s t a v k i kandidata duzine k+1 ∗ /V e r i k a l n i A p r i o r i ( T ransakc i je : T , Podrska : minsup )begin
k =1;F1={ sve ceste 1−stavke } ;F o r m i r a t i v e r t i k a l n u l i s t u t r a n s a k c i j a za stavke ;while Fk n i j e prazno do
beginGener i sa t i Ck+1 spajanjem parova s t a v k i i z Fk ;Odbac i t i s tavke i z Ck+1 koje ne
zadovo l java ju za tvo ren je na nize ;F o r m i r a t i t r _ i d l i s t e svake kandidatske stavke
i z Ck+1 kao presek t r _ i d l i s t i para s t a v k ii z Fk k o r i s c n i h za f o r m i r a n j e Ck+1;
O d r e d i t i podrsku s t a v k i u Ck+1 brojanjem duzine l i s t e ;Fk+1=Ceste stavke Ck+1 zajedno sa t r _ i d l i s tama ;k=k +1;
end ;return ( u n i j a sv ih Fi , i =1; k ) ;
end
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.46
Algoritam FP rasta
Upotrebljava komprimovanu reprezentaciju bazepodataka pomocu FP-drveta (eng. frequent pattern)
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.47
Kompaktno predstavljanje cestih stavki
• Maksimalano ceste stavke (ranijedefinisano....) - ne sadrže informacije o podršcipodskupova maksimlanih cestih stavki
• Skup stavki X je zatvoren ako nijedan odnjegovih neposrednih nadskupova nema istupodršku
• Skup stavki je cest i zatvoren ako je zatvoren iima podršku ≥minsup
• Može da se odredi podrška pojedinacne stavke
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.48
Kompaktno predstavljanje cestih stavki
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.49
Karakteristike algoritama u SPSS ModelerV18.2 i Python-u
Videti• IBM SPSS Modeler 18.2 Algorithms
Guide• Python ?
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.50
Mere interesantnosti pravila
• Cilj - eliminisati neinteresantna pravila
• Veliki broj potencijalni interesantnih pravila se eliminišezbog male podrške/pouzdanosti
• Jedna od korisnih osobina mere je simetricnost - istoponašanje u slucaju prisutnosti i odsutnosti nekevrednosti
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.51
Ogranicenja mere podrška/pouzdanost
Tabela kontingenata za par binarnih promenljivih A i B
B B
A f11 f10 f1+
A f01 f00 f0+
f+1 f+0 N
A - prisutno u transakcijiA - nije prisutno u transakciji
fij - brojac frekvencijef10 - broj trans. koje sadrže samo Af11 - broj trans. koje sadrže i A i Bf01 - broj trans. koje sadrže samo Bf00 - broj trans. koje ne sadrže ni AniBf1+ - brojac podrške za Af0+ - brojac podrške za Af+1 - brojac podrške za Bf+0 - brojac podrške za B
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.52
Ogranicenja mere podrška/pouzdanost
Primer 1:
1 Neka svaka transakcija u potrošackoj korpi sadrži mleko. Tada mlekomože da se nadje u svakom skupu stavki, bez promene frekvencije togskupa. Medjutim, pravilo X ⇒ mleko je beskorisno bez obzira što imapouzdanosti 100%.
2 U tabeli kontingenata
Kafa Kafa
Caj 15 5 20
Caj 75 5 80
90 10 100
Na prvi pogled važi praviloCaj⇒ Kafa - podrška pravila je15% i pouzdanost 75%
Medjutim, kako jesup(Kafa⇒ Caj)=0.75 isup(Kafa)=0.9 to je
conf(Kafa⇒ Caj)=0.75/0.9=0.83.3%,što znaci da je prvo pravilobeskorisno odnosno pogrešno
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.53
Ogranicenja mere podrška/pouzdanost
3 Tabela kontingenata sadrži informacije o korišcenju meda od straneosoba koje piju caj
Med Med
Caj 100 100 200
Caj 20 780 800
120 880 1000
Na prvi pogled praviloCaj −→ Med ima pouzdanost50% - osobina da se pije caj ne
utice na korišcenje meda?
Medjutim, procenat onih kojikoriste med je 12% =⇒informacija da neko pije cajpovecava verovatnocu da koristimed sa 12% na 50%!
=⇒Pravilo Caj −→ Med jeste odinteresa!
4 Problem: pouzdanost ne uzima u obzir podršku desne strane pravila
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.54
Statisticka perspektiva
1 Podrška s(A) meri verovatnocu pojavljivanja A: s(A) = f1+N
2 Podrška s(A,B) meri verovatnocu da se A i B zajedno pojavljuju:P(A,B) = s(A, b) = f11
N
3 Ako su A i B nezavisni→ P(A,B) = P(A)× P(B), odnosnosnez(A,B) = s(A)× s(B) =
f1+N ×
f+1N
4 Odstupanje s(A,B) od s(A)× s(B) je znak statisticke zavisnosti A i B
5 Pouzdanost meri odstupanje s(A,B) od s(A) ali ne i od s(B)
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.55
Lift
• Lift (faktor interesantnosti, (eng. Interest ratio, Interestfactor) za skup stavki i1, i2, ..., ik je definisan sa
I(i1, i2, ..., ik ) =sup(i1, i2, ..., ik )
k∏j=1
sup(ij)
• Za binarne promenljive A i B lift je je
Lift(A,B) = I(A,B) =conf (A⇒ B)
sup(B)
I(A,B) =sup(A,B)
sup(A) · sup(b)=
N · f11
f1+ · f+1
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.56
Lift
• Interpretacija Lift mere
Lift(A,B) =
= 1, ako su A i B nezavisni> 1, ako su A i B pozitivno povezani< 1, ako su A i B negativno povezani
• U slucaju kada je neka stavka ekstremno retka, lift dajenetacne rezultate
• Ne zadovoljava osobinu zatvorenja naniže
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.57
Deployability
Deployability - mogucnost rasporedjivanja, razvijanja- procenat trening skupa koji zadovoljava uslovprethodnika ali ne i naslednika.
deployability =(Antecedent Support in # of Records)− (Rule Support in # of Records)
Number of Records∗ 100
gde Antecedent Support oznacava broj slogova ukojima se javlja leva strana pravila, dok RuleSupport oznacava broj slogova u kojima se javljaju ileva i desna strana pravila
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.58
Koeficijent korelacije
• Pirsonov koeficijent korelacije
ρ =E [X · Y ]− [X ] · [Y ]
σ(X ) · σ(Y )
gde je E [X ] ocekivanje od X , a σ(X ) standardnadevijacija od X
ρij =sup(i , j)− sup(i) · sup(j)√
sup(i) · sup(j) · (1− sup(i)) · (1− sup(j))
gde je sup(i , j) relativna podrška skupa stavki {i,j}
• Simetricna mera
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.59
Koeficijent korelacijeKoeficijent korelacije je uvek u intervalu [−1,1]
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.60
Koeficijent korelacijeZa binarne promenljive, Pirsonov koeficijent korelacije može dase meri koristeci φ koeficijent
φ =f11 · f00 − f01 · f10√f1+ · f+1 · f0+ · f+0
p p
q 880 50 930
q 50 20 70
930 70 1000
r r
s 20 50 70
s 50 880 930
70 930 1000
Ogranicenja
• Iako se p i q zajedno javljaju cešce nego r i s važiφ(p,q) = φ(r , s) = 0.232 jer daje jednaku važnostprisustvu i odsustvu stavki u transakcijama
• Ne ostaje invarijantan sa proporcionalnom promenomvelicine ulaznih podataka
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.61
χ2 mera
• Simetricna mera• Neka su Oi i Ei osmotrena i ocekivana
vrednost apsolutne podrške u stanju i .Tada se χ2 mera definiše kao
χ2(X ) =2|X |∑i=1
(Oi − Ei)2
Ei
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.62
Piatetsky-Shapiro mera
PS = s(A,B)− s(A)× s(B) =f11
N− f1+f+1
N2
• PS(A,B) = 0 −→ A i B su medusobno nezavisni
• PS(A,B) > 0 −→ A i B su pozitivno povezani
• PS(A,B) < 0 −→ A i B su negativno povezani
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.63
IS mera
Ukljucuje odnos izmedu s(A,B) i s(A) i s(B):
IS(A,B) =√
I(a,B)× s(A,B) =s(A,B)√s(A)s(B)
• IS raste kada rastu Lift (I) i podrška
• Ako dva obrasca imaju isti Lift, IS daje prednost onomesa vecom podrškom
• Matematicki ekvivlanetno kosinusnoj meri za binarnepromenljive
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.64
Kosinusni koeficijent za kolone
• Kosinusni koeficijent može da se primeni i na kolone radiracunanja slicnosti medju stavkama
• Najcešce se racuna koristeci vertikalnu tidreprezentaciju listi odgovarajucih binarnih vektora
• Formulacos(i , j) =
sup(i , j)√sup(i) ·
√sup(j)
• Simetricna mera
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.65
Pouzdanost svih
Odnosi se na skupove stavki (ne na pravila!)
all − confidence(X ) =s(X )
maxx∈X (s(x)
gde je maxx∈X (s(x) velicina podrške stavke sa najvecompodrškom u X
Znacenje: sva pravila koja mogu da se izvedu iz X imajupodršku bar jednaku all − confidence(X )
Podržava zatvorenje naniže
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.66
Osobine mera
• U literaturi se javlja veliki broj mera• Neke mere su dobre za neke primene,
ali ne i za neke druge• Koji kriterijum treba koristiti pri proceni
kvaliteta mere?
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.67
Osobine mera
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.68
Osobine mera
Piatetsky-Shapiro: Dobra mera mora dazadovoljava 3 osobine:
• M(A,B) = 0 ako su A i B statisticki nezavisne
• M(A,B) se monotono povecava sa P(A,B)kada P(A) i P(B) ostaju nepromenjene
• M(A,B) se monotono smanjuje sa P(A) [iliP(B)] kada P(A,B) i P(B) [ili P(A)] ostajunepromenjene
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.69
Osobine mera
Osteljivost mera na
• permutaciju promenljivih M(A,B) = M(B,A) ? -simetricne mere
• skaliranje vrednosti u redu ili koloni
• inverzija (npr. kod vektora binarnih vrednostiprelazak 0 u 1 i obratno)
• dodavanje praznih slogova
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.70
Osobine mera
Primer: rangiranje tabele kontingenatapomocu razlicitih mera
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.71
Osobine simetricnih mera
Osobine simetricnih meraOznaka Mera Inverzija Dodavanje praznih slogova Skaliranje
φ φ-koeficijent da ne neα kolicnik šansi (odds ration) da ne daκ Cohen da ne ne
Lift Lift (I, interesantnost) ne ne neIS Kosinus ne da nePS Piatetsky-Shapiro da ne neS Jacina grupe da ne neζ Žakard ne da neh pouzdanost svih ne da nes Podrška ne ne ne
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.72
Simpsonov paradoks
Skrivene promenljive koje ne ucestvuju u analizi mogu da uticuna rezultat
• Kupovina HDTV i traka za trcanje
Kupili Kupili traku za trcanje ZbirHDTV Da Ne
Da 99 81 180Ne 54 66 129
253 147 300
• {HDTV=Da}−→ {traka za trcanje=Da} ima pouzdanost55% (99/180)
• {HDTV=Da}−→ {traka za trcanje=Ne} ima pouzdanost45% (54/120)
• Kupac koji kupi HDTV ce vrlo verovatno kupiti i traku zatrcanje?!
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.73
Simpsonov paradoks
Dublja analiza: kupovina zavisi da li su u pitanju studenti ilizaposleni
Kupac Kupili Kupili traku za trcanje ZbirHDTV Da Ne
Student Da 1 9 10Ne 4 30 34
Zaposleni Da 98 72 170Ne 50 36 86
• Kupovina HDTV i traka za trcanje za studente
• c{HDTV=Da}−→ {traka za trcanje=Da}=10% (1/10)
• c{HDTV=Da}−→ {traka za trcanje=Ne}=11.8% (4/34)
• Kupovina HDTV i traka za trcanje za zaposlene
• c{HDTV=Da}−→ {traka za trcanje=Da}=57.7% (98/170)
• c{HDTV=Da}−→ {traka za trcanje=Ne}=58.1% (50/86)
• Za obe grupe: kupac koji ne kupi HDTV ce vrloverovatno kupiti i traku za trcanje?!
Pravilapridruživanja
UvodPotrošacka korpa
Formiranje pravilapridruživanja
Definicije i pravila
Algoritmi zaodredjivanjecestog skupastavkiApriori
Formiranje i potkresivanjekupova kandidata
Smanjenje broja poredenja
Algoritmi sa drvetima saprebrojavanjem
Vertikalni Apriori
Algoritam FP rasta
Kompaktno predstavljanjecestih stavki
MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost
Ogranicenja merepodrška/pouzdanost
Lift
Deployability
Koeficijent korelacije
χ2 mera
Piatetsky-Shapiro mera
IS mera
Kosinusni koeficijent zakolone
Pouzdanost svih
Osobine mera
Simpsonov paradoks
5.74
Simpsonov paradoks
• Bez obzira na alternativnu meru (korelacija,kolicnik šansi, lift, ...) HDTV i trake za trcanjesu
• pozitivno povezane kada su podacikombinovani
• negativno povezane kada su podacistratifikovani
• Simpsonov paradoks!
D.Z. Dati objašnjenje