Upload
avetriani
View
410
Download
0
Embed Size (px)
Citation preview
EMBA7
Costruzione di un modello di regressione multipla lineare. AS-8 Corso di QM 1 Prof. M. Poli
“Il mercato degli Enti di Certificazione in Italia”
Alessandro Vetriani matr. n. 104489
INDICE
Obiettivo dell’analisi e presentazione del data set Analisi univariata e multivariata Modello di analisi di regressione multipla lineare
Analisi globale modello Analisi locale modello
Conclusioni
Obiettivo dell’analisi e presentazione del D.S.
Si è scelto di analizzare il mercato degli Enti di Certificazione in Italia utilizzando alcuni dati disponibili sul sito del Sincert – Ente di Accreditamento Italiano per gli Enti di Certificazione (www.sincert.it) e costruendone altri in base alle esperienze del canditato in questo specifico settore. Obiettivo dell’analisi è valutare quali sono i fattori che influenzano maggiormente la quantità di certificati emessi dagli Enti secondo lo standard ISO 9001:2000/2008 per i Sistemi di Gestione della Qualità. Si precisa che il database è aggiornato al 31/12/2008.
Obiettivo dell’analisi e presentazione del D. S.
Come variabile dipendente si è proceduto quindi a utilizzare i dati inerenti il numero di certificati emessi da 15 Enti di Certificazione Italiani di medio-grandi dimensioni, mentre come variabili indipendenti le seguenti:
Numero di settori di accreditamento (che rappresentano I settori merceologici per i quali l’Ente è autorizzato all’emissione del certificato e che sono 39 in totale per lo standard in questione)
Quantità di personale impiegato (interno/esterno) Costi sostenuti per la pubblicità Costi sostenuti per la formazione Anni di presenza sul mercato
Analisi Univariata: La variabile dipendente
I valori variano da 1003 (min) a 14307 (max). Il box di Whisker plot ci da una rappresentazione grafica di min (1003) I quartile (1328) mediana (4555) III quartile (7959) e max (14307). Media (5500) e mediana (4555) non sono molto vicine, la distribuzione appare concentrata verso il basso.
Analisi univariata: le variabili indipendenti
L’analisi univariata delle variabili indipendenti evidenzia la totale assenza di outlier
La maggiore concentrazione per quanto riguarda I settori di accreditamento è da 26 a 39. Notiamo tralaltro che il valore minimo è 22, e c’è una certa concentrazione verso l’alto (questo è evidentemente influenzato dal fatto che questi dati si riferiscono ad Enti di Certificazione di medio-grandi dimensioni)
Analisi Multivariata
Ottenuta la matrice di correlazione riga colonna (in alto), si possono osservare I valori di “ro” o matrice simmetrica. Cerchiati in rosso i valori più alti che potrebbero causare multicollinearità (descrizione dello stesso fenomeno da parte di due variabili).
Regressione multipla: Analisi globale modello
I valori di R2 e R2 adjusted sono molto buoni. Il modello spiega il 97% della variabilità di y. OK!
Il Test F di Fisher è ottimo. Il valore <0,0001 è di gran lunga inferiore a 0,05 che è il valore limite per di accettazione di H0, perciò rifiutiamo H0 (non c’è correlazione lineare). OK!
I residui sembrano abbastanza sparsi ed hanno un andamento soddisfacente. OK!
Regressione multipla: Analisi locale modello
Tutti valori VIF (Variance Inflation Factor) sono <10 perciò nessuna variabile disturba il modello e non c’è multicollinearità. OK!
Osservando il valore “prob>t” notiamo che le variabili “settori di accreditamento” e “costi formazione” non sono significative nel modello per spiegare la variabilità di y. NOT OK!
Procederemo eliminando la variabile con il valore maggiore, “settori di accreditamento”.
Regressione multipla: Analisi globale modello
I valori di R2 ed R2 restano molto buoni, R2 è sceso a livello impercettibile mentre R2 adj è salito anch’esso a livello impercettibile. OK!
Il test F di Fisher rimane ottimo. OK! I residui mantengono l’andamento mostrato nella precedente
slide e rimangono perciò più che accettabili per il modello. OK!
Regressione multipla: Analisi locale modello
Il valore di “Prob>t” della variabile “costi formazione” è troppo alto, perciò dovremo eliminare questa variabile. NOT OK!
Regressione multipla: Analisi finale modello
I valori di R2 ed R2 adj. sono sempre ottimi. OK! Il test F di Fisher è ottimo. OK! I residui sono abbastanza sparsi. OK!Tutte le variabili hanno valori buoni e quindi accettabili. OK!
Modello finale: Y= - 823.3078 + 12.813 * N. personale + 29.147 * Costi pubblicità + 168.939 * Anni di presenza sul mercato
Conclusioni
Osservando i valori relativi agli standard beta, possiamo valutare il peso percentuale delle tre variabili indipendenti. Ricalcolando gli std. beta ponendo la somma uguale ad 1 ci rendiamo conto che la variabile più importante è “costi pubblicità” che da sola spiega il 50% del modello. Questo valore è fortemente influenzato dalla dimensione degli Enti di Certificazione campionati (medio/grande).
La variabile “Costi pubblicità” ed il “N. Personale” insieme
influenzano l’85% del modello.
Conclusioni
La variabile meno imporante è rappresentata dagli “anni di pres. Mkt” ed è facilmente spiegabile attraverso la presenza di forti barriere all’entrata nel mercato della Certificazione e per la dimensione (medio/grande) dei 15 Enti qui campionati.
Gli intervalli di confidenza (lower & upper 95%) rappresentano un
intervallo in cui con un’assegnata probabilità a priori cade il vero valore del coefficiente. Ad esempio “N. Personale”varia da 7,96 a 17,66.