74
Pravila pridruživanja Nenad Miti´ c Matematiˇ cki fakultet [email protected]

Pravila pridruživanja - poincare.matf.bg.ac.rspoincare.matf.bg.ac.rs/~nenad/ip1/12.pravila_pridruzivanja.pdf · Utvrduju veze (pridruživanja, asocijacije)¯ izmedu podataka u velikim

  • Upload
    others

  • View
    24

  • Download
    0

Embed Size (px)

Citation preview

Pravila pridruživanja

Nenad MiticMatematicki fakultet

[email protected]

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.2

Uvod

Za dati skup transakcija (slogova) nacipravila koja predvidjaju pojavljivanje stavke(objekta) na osnovu pojavljivanja ostalihstavki (objekata) u transakcijama

Osnovni pojmovi (iz uvodnog dela)• Skup stavki• Podrška• Pouzdanost• Pravilo pridruživanja

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.3

Uvod

IdT Stavke1 Hleb, Mleko2 Hleb, Pelene, Pivo, Jaja3 Mleko, Pelene, Pivo, Kola4 Hleb, Mleko, Pelene, Pivo5 Hleb, Mleko, Pelene, Kola

Primeri pravila pridruživanja

{Pelene}−→{Pivo}{Mleko, Hleb}−→{Jaja, Kola}

{Pivo, Hleb}−→{Mleko}

Implikacija oznacava istovremeno pojavljivanje, neuzrocnost!

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.4

Uvod

Šta jesu/rade i za šta se koriste pravila pridruživanja

• Utvrduju veze (pridruživanja, asocijacije)izmedu podataka u velikim bazama podataka

• "Analiza veza izmedu podataka"

• otkrivanje veza izmedu pojedinacnihpodataka

• ne karakteriše se celokupna bazapodataka

• Pravila pridruživanja opisuju relacije izmedjuskupova elemenata u podacima oblika A −→ Bgde su A i B skupovi elemenata

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.5

Uvod

Pravilo pridruživanja {Hleb, Mleko}−→{Pelene}

• Znacenje: "ako kupac kupi hleb i mleko,(verovatno) ce kupiti i pelene"

• elementi (stavke, kod potrošacke korpe artikli,eng. items): hleb, mleko, pelene

• skup stavki (eng. itemset) sadrži jednu ili višestavki

• K-skup stavki - skup koji sadrži K stavki

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.6

Uvod

Za dati skup transakcija (slogova) T cilj nacinodredjivanja pravila pridruživanja je pronaci svapravila koja imaju

• podršku ≥ minsup (minimalni prag podrške)

• pouzdanost ≥ minconf (minimalnog pragpouzdanosti)

Visoko poverenje

• ’jako’ pravilo, ukazuje na visok nivo uzrocnosti,pridruživanja izmedju artikala/elemenata

• ovakva pravila su od interesa

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.7

Uvod

Visoka podrška

• pojavljuje se cesto, manje je verovatno da sepravilo slucajno pojavilo

• uocavanje cestih pravila nudi više mogucnostiza ’akciju’

U slucaju jako velikih baza podataka

• minconf (minimalni nivo poverenja) se obicnopostavlja visoko (npr. 80%)

• minsup (minimalni nivo podrške) je uobicajenoznacajno niži (npr. 5-10%), zbog velikeraznolikosti

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.8

Uvod

Kako odrediti ceste stavke?Teorijski dokaz postojanja algoritma: metoda grubesile

• Izlistati sva moguca pravila pridruživanja

• Izracunati podršku i pouzdanost za svakopravilo

• Odbaciti pravila koja ne zadovoljavaju minsup iminconf prag

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.9

Potrošacka korpa

• Utvrditi koji se artikli prodaju zajedno

• Ako kupac kupi odredjene artikle, koji su još proizvodiverovatni da se nadju u njegovoj korpi

• Primena: npr. organizovati promotivnu kampanju(rasprodaju) tako da se popust ne daje istovremeno naartikle koji se uobicajeno kupuju zajedno

• Pored uobicajenih ’paketa’ proizvoda, naci iiznenadjujuce (neuobicajene) pridružene artikle (npr.novi trend)

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.10

Potrošacka korpa - primer

Podaci - Shopping dataset sa

http://dmg.org/pmml/pmml_examples/index.html

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.11

Definicija pravila pridruživanja

Neka su X i Y dva skupa stavki. Tada se pravilo u oznaciX ⇒ Y naziva pravilo pridruživanja sa minimalnom podrškomminsup i minimalnom pouzdanošcu minconf ako važi:

1 Podrška stavke X ∪ Y je ≥minsup

2 Pouzdanost pravila X ⇒ Y je ≥minconf

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.12

Formiranje pravila pridruživanja

Dva koraka:

1 Formirati sve skupove stavki kod kojih jepodrška ≥minsup

2 Formirati pravila iz svakog skupa cestih stavkisa pouzdanošcu ≥minconf

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.13

Formiranje pravila pridruživanja

Formiranje svih cestih skupova artikala je problem jer

• u primenama se obicno pojavljuju stotine hiljada razlicitihartikala (npr. potrošacka korpa)

• za d artikala postoji 2d − 1 mogucih skupova (+ prazanskup)

• njihovu frekvenciju treba proveriti na osnovu milionatransakcija svakog dana/sata

Racunarski vrlo zahtevan proces

• da li je moguce smanjiti prostor pretrage za cesteskupove?

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.14

Rešetka skupa artikala

null

A B C D E

AB AC AD AE BC BD BE CD CE DE

ABC ABD ABE ACD ACE ADE BCD BCE BDE CDE

ABCD ABCE ABDE ACDE BCDE

ABCDE

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.15

Strategije za povecanje efikasnosti

• Smanjiti broj kandidatskih stavki (M)

• Kompletno pretraživanje: M = 2d

• Koristiti tehnike potkresivanja radi smanjenja M

• Smanjiti broj transakcija (N). Sa povecanjem brojakandidatskih skupova, smanjuje se broj podržanihtransakcija

• Smanjiti broj poredenja (NM)

• Koristiti efikasnije strukture podataka radi cuvanjakandidata i/ili transakcija

• Nije potrebno uparivati svakog kandidata sasvakom transakcijom

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.16

Formiranje pravila pridruživanja: definicijei pravila

Apriori princip: ako je skup stavki cest, tadasu i svi njegovi podskupovi takodje cesti

Osobina anti-monotonosti: Mera f posedujeosobinu anti-monotonosti ako za sveskupove stavki X ,Y važi:X ⊂ Y =⇒ f (Y ) ≤ f (X )

Podrška zadovoljava osobinuanti-monotonosti

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.17

Formiranje pravila pridruživanja definicijei pravila

Zatvorenje na niže (eng. downwardclosure): svaki podskup od podržanog(cestog) skupa je takodje podržan (cest)

Posledica: ako neki skup artikala koji nijepodržan (nije frekventan), onda ni njegovinad-skupovi ne mogu biti podržani(anti-monotonost)tj. ako {A} nije cest, onda bilo šta što sadrži{A} ne može biti cesto −→ ne treba dabude razmatrano

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.18

Formiranje pravila pridruživanja

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.19

Formiranje pravila pridruživanja definicijei pravilaMaksimalno ceste stavke: skup stavki jemaksimalno cest ako ni jedan od njegovihneposrednih nadskupova nije cest

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.20

Formiranje pravila pridruživanja definicijei pravila

Monotonost pouzdanosti: Ako su X1, X2 i Iskupovi stavki takvi da važi X1 ⊂ X2 ⊂ I,tada važi

conf (X2 ⇒ I − X2) ≥ conf (X1 ⇒ I − X1)

Koristi se za eliminaciju redundantnih pravila: npr. u slucaju

pravila {Hleb} ⇒ {Pivo,Mleko} i {Hleb,Pivo} ⇒ {Mleko}drugo pravilo može da se ukloni jer ima istu podršku, ali manju

pouzdanost od prvog

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.21

Metoda grube sile

• Svaki skup stavki u rešetki je kandidat da budecest

• Prebrojati podršku za svakog kandidatapregledanjem baze

IdT Stavke1 Hleb, Mleko2 Hleb, Pelene, Pivo, Jaja3 Mleko, Pelene, Pivo, Kola4 Hleb, Mleko, Pelene, Pivo5 Hleb, Mleko, Pelene, Kola

• Uparuje se svaka transakcija sa svakimkandidatom

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.22

Metoda grube sile

• Složenost O(NMw) - jako skupo jer jeM = 2d − 1- broj stavki, w - maksimalna širinatranskacije, N - broj transakcija

• Ukupan broj mogucih pravila pridruživanja za dstavki je

d−1∑k=1

(dk

d−k∑j=1

(d − k

j

)

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.23

Apriori algoritam

R. Agrawal i R. Srikant 1994.

Xindong Wu and Vipin Kumar: The Top TenAlgorithms in Data Mining - glava 4

Varijante Apriori algoritma + algoritam zaformiranje pravila pridruživanja

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.24

Apriori algoritam (nastavak)

Formiranje cestih skupova stavki

• Elementi skupova stavki poredjani leksikografski

• Na osnovu cestih skupova stavki dužine k formiraskupove dužine k + 1

• Skupovi k stavki se spajaju ako su im jednaki previhk − 1 elemenata

• Nalazi podršku skupova dužine k + 1

• Odbacuje retke skupove k + 1 stavki i ne razmatranjihove nadskupove (posledica zatvorenja na niže)

• Odbacuje skupove k + 1 stavki ako neki od podskupovak stavki nije cest

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.25

Apriori algoritam (nastavak)

/* Ck+1 skup stavki kandidata duzine k+1 */Apriori(Transakcije: T, Podrska: minsup)begink=1;F1={sve ceste 1-stavke};while Fk nije prazno dobegin

Generisati Ck+1 spajanjem stavki iz Fk;Odbaciti stavke iz Ck+1 koje ne

zadovoljavaju zatvorenje na nize;Odrediti Fk+1 brojanjem podrske (Ck+1, T);odbaciti one sa podrskom manjom od minsup;k=k+1;

end;return (unija svih Fi, i=1;k);

end

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.26

Ilustracija Apriori algoritma

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.27

Ilustracija Apriori algoritma

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.28

Apriori algoritam (nastavak)

Formiranje pravila pridruživanja• Svaki cest k-skup stavki može da proizvede do 2k − 2

pravila pridruživanja (ignorišu se pravila sa praznomlevom ili desnom stranom)

• Pravilo se izdvaja deljenjem skupa stavki Y na dvaneprazna podskupa X i Y − X , takve da X ⇒ Y − X imavecu pouzdanost od zadatog praga

• Svako pravilo mora da zadovoljava i uslov da ima vecupodršku od zadatog praga podrške

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.29

Formiranje i potkresivanje kupovakandidata

Funkcija formiranja novih novih kandidatskih skupova u apriorialgoritmu ukljucuje

• Formiranje kandidata: generišu se novi k-skupovi stavkina osnovu cestih skupova stavki dužine (k-1) koji suformirani u prethodnoj iteraciji

• Potkresivanje skupa kandidata: eliminišu se odredenikandidatski k-skupovi stavki korišcenjem strategijepotkresivanja na osnovu podrške

• Metod grube sile - neefikasan jer razmatra svakipodržani skup dužine k kao potencijalnog kandidata izatim primenjuje potkresivanje

• Neka Fk oznacava skup kandidata dužine k . Fk seformira na osnovu prethodni Fl , l < k

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.30

Formiranje i potkresivanje kupovakandidata

Metode za formiranje Fk

• Fk−1 × F1

• Primer?• Problemi?• Potrebno leksikografsko uredenje stavki

• Fk−1 × Fk−1

• Primer?• Leksikografsko uredenje• Neka su A = a1,a2, ...,ak−1 i B = b1,b2, ...,bk−1

par cestih k -skupova stavki. A i B mogu da sekombinuju ako zadovoljavaju uslovai = bi ,∀i = 1,2, ..., k − 2 ∧ ak−1 6= bk−1

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.31

Smanjenje broja poredenja

• Smešta stavke u rešetku u širinu, nivo po nivo

• Grupiše podatke u korpe (eng. buckets) po dužiniskupova stavki

• Svaka korpa se predstavlja u obliku heš strukture safiksnim brojem grana u cvoru

• Na i-tom nivou heš funkcija se primenjuje na i-tu stavkuskupa

• Uvecava se broj stavki do kojih se dodje u listovima hešstrukture

• Stavke iz transakcija se porede sa sadržajem svoje(kandidatske) korpe umesto sa celim skupom kandidata

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.32

Smanjenje broja poredenja preko hešdrveta

Numeracija 3-stavki transakcije {a, b, d, e, g}

Transakcijaa b d e g

d e g

d e g

d e g

b d e g

b e g

b e g

b d e g

b d gb d e

a b d e g

a e g

a e g

a d e g

a d ga d e

a b d e g

a b ga b ea b d

Koja od ovih stavki odgovara kandidatskimniskama?

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.33

Smanjenje broja poredenja preko hešdrvetaPrimer: Za heš funkciju

Heš f-ja

c, f, ib, e, ha, d, g

i skup stavki {a, b, c, d, e, f, g, h, i} drvo kandidatskihstavki družine 3

Heš f-ja

Heš f-ja

c f gc f h

c e fc e gf h ic d e

b c de f gHeš f-ja

a c fHeš f-ja

a e ia b ed e h

a b dd e f

a d e

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.34

Smanjenje broja poredenja preko hešdrveta

U transakciji koja sadrži {a, b, d, e, g} 3-stavke koje sepoklapaju sa kandidatskim stavkama se dobijaju preko hešdrveta

Heš f-ja naa, b, d, e, g

Heš f-ja

c f gc f h

c e fc e gf h ic d e

b c de f gHeš f-ja

a c fHeš f-ja

a e ia b ed e h

a b dd e f

a d e

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.35

Smanjenje broja poredenja preko hešdrveta

Heš f-ja

c, f, ib, e, ha, d, g

Heš f-ja naa, b, d, e, g

Heš f-ja

c f gc f h

c e fc e gf h ic d e

b c de f ga b d e g

a c fa b d e g

a e ia b ed e h

a b dd e f

a d e

Uparene su tri stavke (ade), (abd), (abe)

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.36

Drveta sa prebrojavanjem stavki

• Drveta sa leksikografskim uredjenjem

• Kandidatske stavke se formiraju širenjemdrveta (u širinu, u dubinu, ...)

• Na kraju sadrži samo ceste stavke

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.37

Drveta sa prebrojavanjem stavki

Definicija: drvo sa prebrojavanjem stavki koje sadržisamo ceste stavke

• Cvorovi sadrže šeste stavke; koreni cvor sadržipraznu stavku

• Neka je I = i1, ..., ik cesta stavka gde sui1, i2, ..., ik navedene u leksikografskom poretku.Roditelj cvora I je stavka i1, ..., ik−1. Dete cvormože da se proširi samo sa stavkama koje senalaze leksikografski posle svih stavki koje senalaze u tom cvoru.

• Može da se posmatra i kao prefiksno drvoleksikografski uredjenih stavki

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.38

Drveta sa prebrojavanjem stavki

Null

fed

df

c

cfcd

cdf

b

bdbc

bcd

a

afad

adf

ac

acfacd

acdf

ab

abdabc

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.39

Drveta sa prebrojavanjem stavkiOznake

• F (Q) proširenja leksikografskog drveta cestimstavkama u cvoru Q

• Neka je i ∈ F (Q) cesta stavka koja proširujecest cvor Q u cest cvor P = Q ∪ {i}

• C(P) podskup stavki iz F (Q) koji seleksikografski javlja posle stavke i koja sekoristi za proširenje cvora Q u cvor P

• C(P) - skup stavki kandidata za proširenjecvora P

• Važi: F (P) ⊆ C(P) ⊂ F (Q)

• Kandidati za proširenje C(P) predstavljajupandan susednim cvorovima u Apriori alg.

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.40

Nacini obilaska rešetke

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.41

Nacini obilaska rešetke

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.42

Nacini obilaska rešetke

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.43

Vertikalni raspored podataka

Promena nacina predstavljanja baze

Br.

trans

.

hleb

mle

ko

pele

ne

pivo

jaja

kola

1 1 1 0 0 0 0

2 1 0 1 1 1 0

3 0 1 1 1 0 1

4 1 1 1 1 0 0

5 1 1 1 0 0 1

Stavka Skup

ident. tr.

Binarna

repr.

hleb 1, 2, 4, 5 11011

mleko 1, 3, 4, 5 10111

pelene 2, 3, 4, 5 01111

pivo 2, 3, 4 01110

jaja 2 01000

kola 3, 5 00101

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.44

Vertikalni raspored podataka

• Za prebrojavnaje k + 1-stavki koristese preseci listi skupova transakcijak -stavki

• Veca potrošnja memorije zbog cuvanjalisti/manja potrošnja CPU

• Eclat i VIPER algoritmi koristerekurzivne preseke listi transakcija

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.45

Vertikalni Apriori algoritam

/∗ Ck+1 skup s t a v k i kandidata duzine k+1 ∗ /V e r i k a l n i A p r i o r i ( T ransakc i je : T , Podrska : minsup )begin

k =1;F1={ sve ceste 1−stavke } ;F o r m i r a t i v e r t i k a l n u l i s t u t r a n s a k c i j a za stavke ;while Fk n i j e prazno do

beginGener i sa t i Ck+1 spajanjem parova s t a v k i i z Fk ;Odbac i t i s tavke i z Ck+1 koje ne

zadovo l java ju za tvo ren je na nize ;F o r m i r a t i t r _ i d l i s t e svake kandidatske stavke

i z Ck+1 kao presek t r _ i d l i s t i para s t a v k ii z Fk k o r i s c n i h za f o r m i r a n j e Ck+1;

O d r e d i t i podrsku s t a v k i u Ck+1 brojanjem duzine l i s t e ;Fk+1=Ceste stavke Ck+1 zajedno sa t r _ i d l i s tama ;k=k +1;

end ;return ( u n i j a sv ih Fi , i =1; k ) ;

end

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.46

Algoritam FP rasta

Upotrebljava komprimovanu reprezentaciju bazepodataka pomocu FP-drveta (eng. frequent pattern)

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.47

Kompaktno predstavljanje cestih stavki

• Maksimalano ceste stavke (ranijedefinisano....) - ne sadrže informacije o podršcipodskupova maksimlanih cestih stavki

• Skup stavki X je zatvoren ako nijedan odnjegovih neposrednih nadskupova nema istupodršku

• Skup stavki je cest i zatvoren ako je zatvoren iima podršku ≥minsup

• Može da se odredi podrška pojedinacne stavke

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.48

Kompaktno predstavljanje cestih stavki

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.49

Karakteristike algoritama u SPSS ModelerV18.2 i Python-u

Videti• IBM SPSS Modeler 18.2 Algorithms

Guide• Python ?

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.50

Mere interesantnosti pravila

• Cilj - eliminisati neinteresantna pravila

• Veliki broj potencijalni interesantnih pravila se eliminišezbog male podrške/pouzdanosti

• Jedna od korisnih osobina mere je simetricnost - istoponašanje u slucaju prisutnosti i odsutnosti nekevrednosti

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.51

Ogranicenja mere podrška/pouzdanost

Tabela kontingenata za par binarnih promenljivih A i B

B B

A f11 f10 f1+

A f01 f00 f0+

f+1 f+0 N

A - prisutno u transakcijiA - nije prisutno u transakciji

fij - brojac frekvencijef10 - broj trans. koje sadrže samo Af11 - broj trans. koje sadrže i A i Bf01 - broj trans. koje sadrže samo Bf00 - broj trans. koje ne sadrže ni AniBf1+ - brojac podrške za Af0+ - brojac podrške za Af+1 - brojac podrške za Bf+0 - brojac podrške za B

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.52

Ogranicenja mere podrška/pouzdanost

Primer 1:

1 Neka svaka transakcija u potrošackoj korpi sadrži mleko. Tada mlekomože da se nadje u svakom skupu stavki, bez promene frekvencije togskupa. Medjutim, pravilo X ⇒ mleko je beskorisno bez obzira što imapouzdanosti 100%.

2 U tabeli kontingenata

Kafa Kafa

Caj 15 5 20

Caj 75 5 80

90 10 100

Na prvi pogled važi praviloCaj⇒ Kafa - podrška pravila je15% i pouzdanost 75%

Medjutim, kako jesup(Kafa⇒ Caj)=0.75 isup(Kafa)=0.9 to je

conf(Kafa⇒ Caj)=0.75/0.9=0.83.3%,što znaci da je prvo pravilobeskorisno odnosno pogrešno

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.53

Ogranicenja mere podrška/pouzdanost

3 Tabela kontingenata sadrži informacije o korišcenju meda od straneosoba koje piju caj

Med Med

Caj 100 100 200

Caj 20 780 800

120 880 1000

Na prvi pogled praviloCaj −→ Med ima pouzdanost50% - osobina da se pije caj ne

utice na korišcenje meda?

Medjutim, procenat onih kojikoriste med je 12% =⇒informacija da neko pije cajpovecava verovatnocu da koristimed sa 12% na 50%!

=⇒Pravilo Caj −→ Med jeste odinteresa!

4 Problem: pouzdanost ne uzima u obzir podršku desne strane pravila

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.54

Statisticka perspektiva

1 Podrška s(A) meri verovatnocu pojavljivanja A: s(A) = f1+N

2 Podrška s(A,B) meri verovatnocu da se A i B zajedno pojavljuju:P(A,B) = s(A, b) = f11

N

3 Ako su A i B nezavisni→ P(A,B) = P(A)× P(B), odnosnosnez(A,B) = s(A)× s(B) =

f1+N ×

f+1N

4 Odstupanje s(A,B) od s(A)× s(B) je znak statisticke zavisnosti A i B

5 Pouzdanost meri odstupanje s(A,B) od s(A) ali ne i od s(B)

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.55

Lift

• Lift (faktor interesantnosti, (eng. Interest ratio, Interestfactor) za skup stavki i1, i2, ..., ik je definisan sa

I(i1, i2, ..., ik ) =sup(i1, i2, ..., ik )

k∏j=1

sup(ij)

• Za binarne promenljive A i B lift je je

Lift(A,B) = I(A,B) =conf (A⇒ B)

sup(B)

I(A,B) =sup(A,B)

sup(A) · sup(b)=

N · f11

f1+ · f+1

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.56

Lift

• Interpretacija Lift mere

Lift(A,B) =

= 1, ako su A i B nezavisni> 1, ako su A i B pozitivno povezani< 1, ako su A i B negativno povezani

• U slucaju kada je neka stavka ekstremno retka, lift dajenetacne rezultate

• Ne zadovoljava osobinu zatvorenja naniže

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.57

Deployability

Deployability - mogucnost rasporedjivanja, razvijanja- procenat trening skupa koji zadovoljava uslovprethodnika ali ne i naslednika.

deployability =(Antecedent Support in # of Records)− (Rule Support in # of Records)

Number of Records∗ 100

gde Antecedent Support oznacava broj slogova ukojima se javlja leva strana pravila, dok RuleSupport oznacava broj slogova u kojima se javljaju ileva i desna strana pravila

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.58

Koeficijent korelacije

• Pirsonov koeficijent korelacije

ρ =E [X · Y ]− [X ] · [Y ]

σ(X ) · σ(Y )

gde je E [X ] ocekivanje od X , a σ(X ) standardnadevijacija od X

ρij =sup(i , j)− sup(i) · sup(j)√

sup(i) · sup(j) · (1− sup(i)) · (1− sup(j))

gde je sup(i , j) relativna podrška skupa stavki {i,j}

• Simetricna mera

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.59

Koeficijent korelacijeKoeficijent korelacije je uvek u intervalu [−1,1]

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.60

Koeficijent korelacijeZa binarne promenljive, Pirsonov koeficijent korelacije može dase meri koristeci φ koeficijent

φ =f11 · f00 − f01 · f10√f1+ · f+1 · f0+ · f+0

p p

q 880 50 930

q 50 20 70

930 70 1000

r r

s 20 50 70

s 50 880 930

70 930 1000

Ogranicenja

• Iako se p i q zajedno javljaju cešce nego r i s važiφ(p,q) = φ(r , s) = 0.232 jer daje jednaku važnostprisustvu i odsustvu stavki u transakcijama

• Ne ostaje invarijantan sa proporcionalnom promenomvelicine ulaznih podataka

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.61

χ2 mera

• Simetricna mera• Neka su Oi i Ei osmotrena i ocekivana

vrednost apsolutne podrške u stanju i .Tada se χ2 mera definiše kao

χ2(X ) =2|X |∑i=1

(Oi − Ei)2

Ei

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.62

Piatetsky-Shapiro mera

PS = s(A,B)− s(A)× s(B) =f11

N− f1+f+1

N2

• PS(A,B) = 0 −→ A i B su medusobno nezavisni

• PS(A,B) > 0 −→ A i B su pozitivno povezani

• PS(A,B) < 0 −→ A i B su negativno povezani

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.63

IS mera

Ukljucuje odnos izmedu s(A,B) i s(A) i s(B):

IS(A,B) =√

I(a,B)× s(A,B) =s(A,B)√s(A)s(B)

• IS raste kada rastu Lift (I) i podrška

• Ako dva obrasca imaju isti Lift, IS daje prednost onomesa vecom podrškom

• Matematicki ekvivlanetno kosinusnoj meri za binarnepromenljive

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.64

Kosinusni koeficijent za kolone

• Kosinusni koeficijent može da se primeni i na kolone radiracunanja slicnosti medju stavkama

• Najcešce se racuna koristeci vertikalnu tidreprezentaciju listi odgovarajucih binarnih vektora

• Formulacos(i , j) =

sup(i , j)√sup(i) ·

√sup(j)

• Simetricna mera

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.65

Pouzdanost svih

Odnosi se na skupove stavki (ne na pravila!)

all − confidence(X ) =s(X )

maxx∈X (s(x)

gde je maxx∈X (s(x) velicina podrške stavke sa najvecompodrškom u X

Znacenje: sva pravila koja mogu da se izvedu iz X imajupodršku bar jednaku all − confidence(X )

Podržava zatvorenje naniže

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.66

Osobine mera

• U literaturi se javlja veliki broj mera• Neke mere su dobre za neke primene,

ali ne i za neke druge• Koji kriterijum treba koristiti pri proceni

kvaliteta mere?

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.67

Osobine mera

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.68

Osobine mera

Piatetsky-Shapiro: Dobra mera mora dazadovoljava 3 osobine:

• M(A,B) = 0 ako su A i B statisticki nezavisne

• M(A,B) se monotono povecava sa P(A,B)kada P(A) i P(B) ostaju nepromenjene

• M(A,B) se monotono smanjuje sa P(A) [iliP(B)] kada P(A,B) i P(B) [ili P(A)] ostajunepromenjene

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.69

Osobine mera

Osteljivost mera na

• permutaciju promenljivih M(A,B) = M(B,A) ? -simetricne mere

• skaliranje vrednosti u redu ili koloni

• inverzija (npr. kod vektora binarnih vrednostiprelazak 0 u 1 i obratno)

• dodavanje praznih slogova

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.70

Osobine mera

Primer: rangiranje tabele kontingenatapomocu razlicitih mera

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.71

Osobine simetricnih mera

Osobine simetricnih meraOznaka Mera Inverzija Dodavanje praznih slogova Skaliranje

φ φ-koeficijent da ne neα kolicnik šansi (odds ration) da ne daκ Cohen da ne ne

Lift Lift (I, interesantnost) ne ne neIS Kosinus ne da nePS Piatetsky-Shapiro da ne neS Jacina grupe da ne neζ Žakard ne da neh pouzdanost svih ne da nes Podrška ne ne ne

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.72

Simpsonov paradoks

Skrivene promenljive koje ne ucestvuju u analizi mogu da uticuna rezultat

• Kupovina HDTV i traka za trcanje

Kupili Kupili traku za trcanje ZbirHDTV Da Ne

Da 99 81 180Ne 54 66 129

253 147 300

• {HDTV=Da}−→ {traka za trcanje=Da} ima pouzdanost55% (99/180)

• {HDTV=Da}−→ {traka za trcanje=Ne} ima pouzdanost45% (54/120)

• Kupac koji kupi HDTV ce vrlo verovatno kupiti i traku zatrcanje?!

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.73

Simpsonov paradoks

Dublja analiza: kupovina zavisi da li su u pitanju studenti ilizaposleni

Kupac Kupili Kupili traku za trcanje ZbirHDTV Da Ne

Student Da 1 9 10Ne 4 30 34

Zaposleni Da 98 72 170Ne 50 36 86

• Kupovina HDTV i traka za trcanje za studente

• c{HDTV=Da}−→ {traka za trcanje=Da}=10% (1/10)

• c{HDTV=Da}−→ {traka za trcanje=Ne}=11.8% (4/34)

• Kupovina HDTV i traka za trcanje za zaposlene

• c{HDTV=Da}−→ {traka za trcanje=Da}=57.7% (98/170)

• c{HDTV=Da}−→ {traka za trcanje=Ne}=58.1% (50/86)

• Za obe grupe: kupac koji ne kupi HDTV ce vrloverovatno kupiti i traku za trcanje?!

Pravilapridruživanja

UvodPotrošacka korpa

Formiranje pravilapridruživanja

Definicije i pravila

Algoritmi zaodredjivanjecestog skupastavkiApriori

Formiranje i potkresivanjekupova kandidata

Smanjenje broja poredenja

Algoritmi sa drvetima saprebrojavanjem

Vertikalni Apriori

Algoritam FP rasta

Kompaktno predstavljanjecestih stavki

MereinteresantnostipravilaOgranicenja merepodrška/pouzdanost

Ogranicenja merepodrška/pouzdanost

Lift

Deployability

Koeficijent korelacije

χ2 mera

Piatetsky-Shapiro mera

IS mera

Kosinusni koeficijent zakolone

Pouzdanost svih

Osobine mera

Simpsonov paradoks

5.74

Simpsonov paradoks

• Bez obzira na alternativnu meru (korelacija,kolicnik šansi, lift, ...) HDTV i trake za trcanjesu

• pozitivno povezane kada su podacikombinovani

• negativno povezane kada su podacistratifikovani

• Simpsonov paradoks!

D.Z. Dati objašnjenje