Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
SVEUČILIŠTE J.J. STROSSMAYERA U OSIJEKU, EKONOMSKI FAKULTET U OSIJEKU
5. Asocijacijska pravila
MARIJANA ZEKIĆ-SUŠAC
1
M. ZEKIĆ- SUŠAC 2
Što ćete naučiti u ovom poglavlju?
•Što su asocijacijska pravila?
•Kako se ta metoda koristi u analizi potrošačke košarice?
•Kako se provodi analiza potrošačke košarice?
•Kako se tumače rezultati?
•Gdje se primjenjuje analiza potrošačke košarice?
•Koje su prednosti i nedostaci ove analize pri rudarenju podataka?
M. ZEKIĆ- SUŠAC 3
Što su asocijacijska pravila?
Općenita definicija:
Asocijacijska pravila (ili asocijacijsko otkrivanje) je postupak pri kojem se identificiraju elementi koji se pojavljuju zajedno u nekom događaju ili zapisu. (SAS, 2010)
Drugim riječima:
Asocijacijska pravila su metoda za otkrivanje korelacija u pojavljivanju pojedinih elemenata (najčešće artikala). Ona ukazuju na to koliko često se događaji pojavljuju zajedno.
Ova se metoda koristi često kod obrade podataka koji prate neke transakcije (npr. prodaju, nabavu i slično).
M. ZEKIĆ- SUŠAC 4
Analiza potrošačke košariceAsocijacijska pravila često se koriste za analizu prodaje artikala, tj. u analizi tzv."potrošačke košarice" (engl. market basket analysis)
Što izražavaju asocijacijska pravila u toj analizi?
◦ Izražavaju u kojoj su mjeri kupovine nekih artikala (proizvoda) korelirane, odnosno koje artikle kupci najčešće kupuju zajedno.
Zašto analiza potrošačke košarice? – kako bi se mogle poduzeti marketinške aktivnosti za povećanje prodaje (vezane promocije artikala, ciljane reklame, upravljanje rasporedom artikala na policama, i dr.)
Izvor: Ipress, http://www.ipress.hr
Koji su zahtjevi da bi se mogla koristiti asocijacijska pravila?
Varijable moraju biti kategorijalnog (nominalnog) tipa (npr. da varijable sadrže ili nazive artikala, npr. “Kruh”, “Mlijeko” i dr.), ili ili binarnog tipa (je li se dogodila prodaja ili kupovina, npr. postoji kupovina = 1, ne postoji = 0).
M. ZEKIĆ- SUŠAC 5
Stvaranje asocijacijskih pravilaAko promatramo npr. transakciju prodaje u skupu svih prodaja u jednoj prodavaonici kroz 1 mjesec, može se napraviti tablica koja pokazuje frekvencije pojavljivanja parova elemenata (u ovom slučaju artikala).
Broj
računa
Prodani artikl
1894 Pivo
1894 Pelene
1894 Pepsi
1895 Mlijeko
1895 Kruh
... ...
Korak 1. – praćenje prodaje (bip,
bip,...) po svakom računu i
memoriranje u bazi
M. ZEKIĆ- SUŠAC 6
Stvaranje asocijacijskih pravila
Učestalost
pojavljivan
ja
(podrška)
Artikl
13% Pivo
7% Pepsi
18% Mlijeko
20% Kruh
10% Pelene
... ...
Korak 2 – izračun frekvencije
(učestalosti pojavljivanja)
pojedinačnih artikala, tj. podrške
(engl. Support)
Učestalost
pojavljivanja
(podrška)
Skup artikala
15% Mlijeko, Kruh
7% Pivo, pelene
5% Pivo, Pepsi,
Mlijeko
... ...
Korak 3 – izračun frekvencije
(učestalosti pojavljivanja) skupova
od n artikala (n=2, 3, ...) i računanje
podrške (engl. Support)
Stvaranje asocijacijskih pravila
7
Pravilo
„ako artikl1 tada
artikl2”
PodrškaPouzdano
st
Mlijeko → Kruh 0,15 0,833
Kruh → Mlijeko 0,15 0,75
Pivo → Pelene 0,07 0,53
Pelene → Pivo 0,07 0,70
...
Korak 5 – sortiranje i izbor pravila s
najvećom pouzdanošćuKorak 4 – izlučivanje pravila „ako
artikl1 tada artikl2” i računanje
pouzdanosti (eng. Confidence)
Korak 6 – određivanje marketinških
aktivnosti na temelju izlučenih
asocijacijskih pravila
Npr. Uz kupnju 2 mlijeka, kruh po 50%
sniženoj cijeni ili besplatno
Staviti mlijeko što dalje od kruha na
policama
Reklame za pelene slati očevima,
itd.
Podrška i pouzdanost
8
Broj kupaca koji su kupili kruh X1
Broj kupaca koji su kupili mlijeko X2
PODRŠKA S = X / ukupan broj transakcija n
gdje je X broj elemenata u presjeku skupova Mlijeko i Kruh
POUZDANOST C1 = S/X1
Vjerojatnost da će netko kupiti artikl 2 (mlijeko) ako je kupio artikl 1 (kruh)
POUZDANOST C2 =S/X2
Vjerojatnost da će netko kupiti artikl1 (kruh) ako je kupio artikl 2 (mlijeko)
M. ZEKIĆ- SUŠAC 9
Stvaranje asocijacijskih pravila
Iz takvih tablica moguće je napraviti jednostavna pravila tipa npr.:◦ Artikl 1 pojavljuje se zajedno s artiklom 2 u x % svih transakcija
Konkretno npr.
1) “Kruh se pojavljuje s mlijekom u 15% svih transakcija.” – ako promatramo sve transakcije
2) U “75% transakcija u kojima je prodan kruh prodano je i mlijeko”. – ako promatramo samo transakcije u kojima je prodan kruh
3) U 83,33% transakcija u kojima je prodano mlijeko prodan je i kruh” – ako promatramo samo transakcije u kojima je prodano mlijeko.
Pokazatelj koji govori o postotku slučajeva zajedničke prodaje u odnosu na ukupan broj slučajeva zove se mjera podrške (eng. support) – u ovom slučaju mjera podrške je 15%.
Pokazatelj koji govori o postotku slučajeva pojavljivanja zajedničke prodaje u odnosu na broj prodaje jednog od artikla je mjera pouzdanosti (eng. confidence) – u ovom slučaju 75% za pravilo „ako kruh, tada mlijeko”, a 83,33% za pravilo „ako mlijeko, tada kruh”.
M. ZEKIĆ- SUŠAC 10
Podrška asocijacijskog pravila
Podrška asocijacijskog pravila (support) je mjera za evaluaciju pravila koja daje sliku o tome koliko često se skupovi elemenata pojavljuju zajedno u ukupnom broju transakcija.
Definicija podrške asocijacijskog pravila:
Ako je broj pojavljivanja elementa 1 i elementa 2 zajedno u svim transakcijama x, a ukupan broj transakcija je n, tada omjer broja transakcija u kojima se pojavljuju oba elementa prema ukupnom broju transakcija nazivamo podrškom (support) pravila.
Podrška S = x / n
Primjer:
Kruh i mlijeko zajedno su prodani u 100 transakcija. Ukupno je promatrano 1000 transakcija.
Podrška pravila da se kruh i mlijeko prodaju zajedno je:
S = 100 / 1000 = 0.1 = 10%
To je ujedno i vjerojatnost da će se ovi artikli pojaviti zajedno u ukupnoj prodaji.
M. ZEKIĆ- SUŠAC 11
Pouzdanost asocijacijskog pravilaDefinicija pouzdanosti asocijacijskog pravila:
Ako je frekvencija pojavljivanja elementa 1 i elementa 2 zajedno u svim transakcijama jednaka x, a frekvencija pojavljivanja elementa 1 u svim transakcijama x1, tada omjer broja transakcija u kojima se pojavljuju oba elementa prema broju transakcija u kojima se pojavljuje element 1 (uvjetni dio pravila), nazivamo pouzdanošću (confidence) pravila.
Pouzdanost se računa posebno za element 1 i za element 2.
Pouzdanost da će se element 2 pojaviti zajedno s elementom 1: C1 = x / x1
Pouzdanost da se element 1 pojaviti zajedno s elementom 2: C2 = x / x2
Primjer:
Kruh i mlijeko zajedno su prodani u 100 transakcija. Kruh (element 1) je prodan u 200 transakcija, a mlijeko (element 2) je prodan u 150 transakcija. Pouzdanost pravila da će se mlijeko pojaviti u istoj transakciji u kojoj i kruh:C1 = 100 / 200 = 0. 5 = 50%Može se tumačiti: postoji vjerojatnost od 50% da će se u istoj transakciji (prodaji) u kojoj se pojavi kruh (element 1) pojaviti i mlijeko (element 2). To ne vrijedi i obrnuto. Izračunajte pouzdanost C2 - vjerojatnost da će se u istoj transakciji u kojoj se pojavi mlijeko (element 2) pojaviti i kruh (element 1).
Rezultat: C2 = 100 / 150 = 0,6666 = 66,67%
M. ZEKIĆ- SUŠAC 12
Pouzdanost asocijacijskog pravilaZnači, za svaki se par artikala mogu napraviti 2 pravila i izračunati posebno pouzdanosti za svako pravilo:
R1 pravilo – da će se element 2 prodavati u istoj transakciji kao i element 1 u x% slučajeva
R2 pravilo - da će se element 1 prodavati u istoj transakciji kao i element 2 u x% slučajeva
Primjer:
mlijeko i kruh zajedno su prodani u 10% svih transakcija
mlijeko (element 1) je prodano u 20% svih transakcija
kruh (element 2) je prodano u 15% svih transakcija
R1 = pravilo - kruh će se prodavati u istoj transakciji kao i kruh u 10% slučajeva
R2 = pravilo - kruh će se prodavati u istoj transakciji kao i mlijeko u 10% slučajeva
Tada je pouzdanost za ta dva pravila različita:
C(R1) = 10/20 = 0.5 = 50%, C(R2) = 10/15 = 0.6666 = 66.67%
M. ZEKIĆ- SUŠAC 13
Asocijativni algoritmiNajpoznatiji algoritmi za otkrivanje asoscijacijskih pravila su:
◦ Apriori algoritam◦ Stablo frekventnih uzoraka
Apriori algoritam
Ovaj algoritam promatra sve moguće podskupove elemenata, zatim ih filtrira prema unaprijed određenoj razini minimalne podrške i minimalne pouzdanosti. Prikazuje sva pravila koja imaju podršku veću od min. zadane, i pouzdanost veću od min. zadane.
Kompleksan je i osjetljiv na rast elemenata analize, što uzrokuje velik broj mogućih kombinacija.
Da bi se prevladao ovaj nedostatak, koriste se:◦ metoda stvaranja prividnih varijabli - pri čemu se artikli grupiraju u više
hijerarhijske skupine, pa se pravila izvode za grupe artikala, npr. grupa ženska odjeća, muška odjeća, prehrambeni artikli, itd., ili
◦ Metoda grupiranja skupa artikala na temelju zajedničkih značajki (npr. luksuzni artikli)
Nedostatak – grupiranjem se gubi preciznost analize
M. ZEKIĆ- SUŠAC 14
Asocijativni algoritmiStablo frekventnih uzoraka
Postupak rada ovog algoritma:
▪ najprije u prolazu kroz bazu podataka sa zapisanim transakcijama računa frekvencije pojavnosti elemenata (artikala)
▪ sortira elemente na temelju frekvencija i zanemaruje nefrekventne elemente
▪ gradi stablo frekventnih uzoraka koje ocrtava odnose između uzoraka
▪ prikazuje pravila samo za izabrane frekventne uzorke
Prednosti ovog algoritma:
▪Brži rad u odnosu na apriori algoritam
Nedostatak:
▪Ponekad nije dobro zanemariti slabo frekventne uzorke, jer mogu uz promjene marketinških akcija postati frekventni, a i pozdanost im je možda visoka
M. ZEKIĆ- SUŠAC 15
Priprema podatakaIz baze podataka potrebno je “izvući” ili izabrati podatke o prodaji
Koriste se kategorijalne vrijednosti varijabli – nazivi artikala ili oznake skupina artikala koje se promatraju
Zbog opasnosti od tzv. kombinatorne eksplozije, važno je prije analize:◦ grupirati artikle na logičan način (ovisno o cilju analize), te tek tada pristupiti
analizi, npr. različite vrste mlijeka (po stupnju masnoće, proizvođaču itd.) promatrati sve pod skupinom “mlijeko”, sve vrste kruha (neovisno o vrsti brašna i dr.) promatrati pod istom skupinom “kruh” itd., te
◦ stvarati prividne varijable, npr. dijetetski proizvodi, luksuzni proizvodi, mesni proizvodi itd.
◦ Odrediti prag pokazatelja podrške koji će se koristiti, npr. 10%
M. ZEKIĆ- SUŠAC 16
Prednosti metode asocijacijskih pravilaPrema Mršić (2004), prednosti ove metode su:
▪ pravila su jednostavna i jasna za provedbu i analizu
▪ namijenjena je problemima koji nisu klasifikacijskog odnosno prediktivnog tipa, tj. nema ciljne varijable
▪ omogućuje obradu podataka kod kojih primjeri imaju varijabilni broj atributa (varijabli)
▪ algoritmi kojima se generiraju asocijativna pravila u principu su vrlo jednostavni.
▪ mogu se koristiti i u negacijskom obliku, npr. Ako artikl A, tada NE artikl B, što se može koristiti za izgradnju profila kupaca kod segmentacije tržišta, i pomoći kod odluka – kome ne slati reklame.
▪ analizi se može dodati i vremenska komponenta – pratiti vremensko razdoblje u kojem dolazi do povezanih kupovina i vremenski odmak od pojedinih kupovina istog artikla.
▪ rezultati se mogu koristiti za povećanje Cross selling indeksa.
Način uporabe asocijacijskih pravila uvijek treba prilagoditi CILJU ANALIZE, što se radi u dogovoru s korisnicima.
M. ZEKIĆ- SUŠAC 17
Primjena analize potrošačke košarice
Koristi se kao metoda rudarenja podataka koja ima za cilj otkriti sklonosti kupovine određenih skupina artikala ili skupina u kombinaciji.
Poznato otkriće P& G-a: pelene i pivo se kupuju zajedno
Na temelju otkrića ove metode preporuča se menadžerima u prodaji:
Davati popuste na određene artikle, npr. na artikl X ako se kupi i
artikl Y, jer se oni najčešće kupuju zajedno – rezultat: povećava se
cross-selling indeks i prihod od prodaje
Rasporediti artikle na police na način da se stave udaljeno ili
zajedno (ovisno o strategiji) artikli koji se najčeće kupuju u paru
(tzv. category management) – rezultat: povećava se cross-selling
indeks i prihod od prodaje
Izvor slike:
http://mediterraneanconnect.com/shopping/mediterranean-
region/karseras-supermarket-limassol-cyprus
Integracija asocijacijskih pravila s ostalim metodama DM
18
Slika. Model integracije asocijacijskih pravila i neuronskih mreža u sustav za upravljanje znanjem (Knowledge Management) u marketingu (Izvor: Zekić-Sušac, Has, 2015)
M. ZEKIĆ- SUŠAC 19
Alati za uporabu asocijacijskih pravila
Svi statistički alati koji podržavaju metode rudarenja podataka: SAS, Statistica Data Mining, SPSS, i dr.◦ U SAS-u je ova metoda podržana kroz alat Enterprise Miner
Specijalizirani alati za poslovnu inteligenciju, npr. Cognos
Alati za poslovnu inteligenciju koji dolaze s bazama podataka, npr. Oracle, Microsoft Business Intelligence, i dr.
Asocijacijska pravila često dolazi u okviru analiza povezanosti (tzv. Link analysis) i koriste se za analizu povezanosti na društvenim mrežama.
Primjeri upotrebe asocijacijskih pravilaOsim za analizu potrošačke košarice, asocijacijska pravila mogu se koristiti za analizu povezanosti (engl. Link Analysis) u raznim područjima:
▪ veza između demografskih karakteristika kupaca i njihovih preferenci kod izbora artikala
▪ veza između karakteristika proizvoda i prodaje
▪ veze između korisnika društvenih mreža
▪ veze između izražavanja emocija korisnika i uspješnosti reklama ili drugih sadržaja na webu ili mobilnim aplikacijama (tzv. Analiza sentimenta, engl. Sentiment analysis)
▪ i dr. primjene
20
Literatura▪ G. Klepac, L. Mršić, Poslovna inteligencija kroz poslovne slučajeve, Lider, Tim Press, Zagreb, 2006.
▪ Ž. Panian, G. Klepac, Poslovna inteligencija, Masmedia, Zagreb, 2003.
▪ V.Čerić, M., Varga, Informacijska tehnologija u poslovanju, Element, Zagreb, 2004., poglavlja 13-16.
▪T. Hastie, R. Tibshirani, J. Friedman, The Elements of Statistical Learning, Data Mining, Inference, and Prediction, Springer, Second Edition, 2013.
▪ F. Provost, T. Fawcett, Data Science for Business, What You Need to Know about Data Mining and Data-Analytic Thinking, O'Reilly Media, 2013.
▪ S. J. Russell, P.Norvig, Artificial Intelligence: A Modern Approach, Prentice Hall; 2nd edition, 2002.
▪ I.H. Witten, E. Frank, Data Mining: Practical Machine Learning Tools and Techniques with Java Implementation. Morgan Kaufman Publishers, San Francisco, CA, 2000.
▪ C. Bishop, Neural Networks and Machine Learning, Springer Verlag, Berlin, 1998.
▪ D. Graupe, Principles of Artificial Neural Networks (2nd edition), Advanced Series in Circuits and Systems - Vol. 6, World Scientific, Singapore 2007.
▪ J. Jackson, Data Mining: A Conceptual Overview, Communications of the AIS, Volume 8, 2002, pp. 267-296.
▪ M. Prević, Što je poslovna inteligencija, InfoTrend, Broj 134, Studeni 2005,http://www.trend.hr/clanak.aspx?BrojID=43&KatID=5&ClanakID=504, 10.04.2008.
▪ SAS, Association Discovery, SAS 9.1 Help, 2010.
▪Tang, Z., MacLennan, J., Data Mining with SQL Server 2005, Wiley Publishing, Indianapolis, 2005.
▪ Zekić-Sušac, M., Has, A., Data Mining as Support to Knowledge Management in Marketing, Business Systems Research, Vol. 6 No. 2, 2015.
21