25
DATA MINING PER IL MARKETING Andrea Cerioli [email protected] Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore flessibilità per applicazioni aziendali (Capitoli 5 – 6 del libro)

DATA MINING PER IL MARKETING Andrea Cerioli [email protected] Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Embed Size (px)

Citation preview

Page 1: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

DATA MINING PER IL MARKETING

Andrea [email protected]

Sito web del corso

ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE

MULTIPLAMaggiore flessibilità per

applicazioni aziendali(Capitoli 5 – 6 del libro)

Page 2: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Regressione con variabili esplicative qualitative

(categoriali)

• caratteristiche socio-demografiche dei consumatori (sesso, professione, …)

• tipologia e area geografica dei punti vendita

• categoria merceologica dei prodotti• brand• …• in generale: gruppi diversi di

osservazioni

Page 3: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Esempio: consumo e reddito USA (miliardi di $):

p. 222

Reddito

Consumo

Negli anni 1942-1945 il modello sembra diverso: c’è una variabile importante esclusa dal modello

Page 4: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Aggiunta di una variabile dummy (variabile indicatrice con valori 0-1)

Il modello di regressione diventa multiplo:

Consumo = f(Reddito, dummy)

Page 5: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Risultati del modello di regressione multipla

�̂�=−𝟏𝟎 .𝟏+𝟎 .𝟗𝟔 𝑿𝟏−𝟓𝟓 .𝟒𝟔 𝑿𝟐

X1 = Reddito

X2 = Dummy

Interpretazione coefficienti: significato di β2?

Page 6: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Ricordando la definizione di X2 (dummy):

a parità di reddito (X1), la stima dell’ammontare dei consumi (y cappello) diminuisce di un ammontare pari a -55.46 (miliardi di $) negli anni in cui dummy=1 (cioè passando da un periodo di pace a uno di guerra)

se X2 = 0 (pace)

se X2 = 1 (guerra)

Page 7: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Rappresentazione grafica dell’effetto della variabile dummy (β2=-55.46): due rette con diversa intercetta e uguale pendenza

Reddito

Consumo

L’adattamento ai dati migliora sensibilmente con la variabile dummy: v. p. 224

Page 8: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Generalizzazione al caso di variabili qualitative con più

di due modalità

Esempio: destagionalizzazione di una serie storica

Page 9: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Serie storica delle vendite di un bene (§5.2)

v. file: Esempio dati vendite stagionali

Page 10: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Modello:vendite stimate = f(trend + stagionalità + componente

erratica)

In questo esempio è presente solo la serie storica Y: le uniche variabili esplicative sono definite in funzione del tempo (trend, stagionalità e eventualmente ciclo)

Il modello può essere generalizzato includendo anche altre variabili esplicative (variabili esogene) se disponibili

Page 11: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Come possiamo rappresentare X?

• Perché manca la dummy per l’inverno?• formulazione alternativa (4 dummy; no intercetta): p.

227• La scelta della dummy da eliminare (o della

formulazione del modello) non cambia l’adattamento né le previsioni

La prima osservazione fa riferimento al primo trimestre (primavera);

La seconda osservazione fa riferimento al secondo trimestre (estate);

Ecc.

Page 12: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Stima dei parametri

• I coefficienti delle dummy stagionali rappresentano l’effetto della stagione considerata relativo alla stagione esclusa, a parità di trend

• Su tali stime si possono applicare tutte le procedure della regressione multipla (intervalli, test …): v. libro

Page 13: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Destagionalizzazione (p. 229-230)

La serie destagionalizzata non risente più delle ciclicità stagionali

Page 14: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Detrendizzazione (p. 229-230)

La serie detrendizzata non mostra più un andamento di lungo periodo (è stazionaria)

Page 15: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

La serie detrendizzata e destagionalizzata non risente più né delle ciclicità stagionali né dell’andamento di lungo periodo: dovrebbe essere assimilabile alla componente erratica

(in realtà ciò è vero solo in parte: perché?)

Page 16: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Esercitazioni con variabili dummy

• Seminar sulla previsione delle vendite per il budgeting

• Previsione del consumo di gas (Esercizio 6.1, pp. 243-252)

• Indagine sull’ascolto radiofonico (Esercizio 6.2, pp. 253-258)

• Analisi delle retribuzioni aziendali (Esercizio 6.4, pp. 264-271)

• Vendita di fusti di birra (Esercizio 6.5, pp. 272-277)

Page 17: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Eteroschedasticità

• Assunzione del modello:

Var(i) = Var(yi) = 2 costante (omoschedasticità)

• In pratica, l’ipotesi è spesso violata tipicamente: Var(yi) varia in funzione del livello di una o più esplicative

Page 18: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Esempio: dati trade

La variabilità della spesa aumenta con il numero di visite

Implicazioni di marketing

Page 19: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Esempio: dati trade

visite_tot Tracciato dei residui

-200

0

200

0 50 100 150

visite_tot

Res

idu

i

Anche la variabilità dei residui aumenta con il numero di visite

Page 20: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Trasformazioni di Y

• Trasformare Y può aiutare a rendere Var(yi) approx costante (cioè a eliminare l’eteroschedasticità)

• Trasformazioni più comuni:– log(yi) se i E(yi)

– (yi)1/2 se yi è un conteggio

– Classe generale: Box-Cox (v. Zani-Cerioli, pp. 203-212)

• Le trasformazioni dei dati possono aiutare anche a– rendere migliore l’approx della distribuzione

di Y a una Normale

– rendere migliore l’approx di una funzione lineare

Page 21: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Esempio dati trade – log(Y)

La trasformazione logaritmica non sembra del tutto soddisfacente

Page 22: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Esempio dati trade – sqrt(Y)

Page 23: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Esempio dati trade – normalità Y

Y Sqrt(Y)

log(Y): la trasformazione logaritmica può essere preferibile dal punto di vista dell’approx della distribuzione di Y con una Normale

Page 24: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Esempio dati trade – log(Y) – log(X)

Interpretazione coefficienti

Analisi per esercizio

Page 25: DATA MINING PER IL MARKETING Andrea Cerioli andrea.cerioli@unipr.it Sito web del corso ESTENSIONI DEL MODELLO DI REGRESSIONE LINEARE MULTIPLA Maggiore

Autocorrelazione

• Assunzione del modello:

I disturbi i, e quindi le osservazioni yi, sono tra loro incorrelati (indipendenti)

• In pratica, l’ipotesi è spesso violata quando Y è una serie storica tipicamente il valore di Y al tempo t è influenzato dai valori di Y ai tempi precedenti: autocorrelazione (correlazione seriale)

• Dettagli: §5.4