Upload
alfredo-rosi
View
218
Download
0
Embed Size (px)
Citation preview
QuestionarioQuestionario--
Analisi UnivariataAnalisi Univariataee
BivariataBivariata
Metodi Quantitativi per Economia, Finanza e Management
Esercitazione n°3
Questionario
Per redigere un questionario è necessario tener presenti i seguenti punti:
ogni questionario somministrato deve avere un codice identificativo univoco
solo domande chiuse (cioè con un insieme di modalità definite)
sono ammesse le domande a risposta multipla raccogliere informazioni di carattere quantitativo
(necessario per costruire modelli statistici consistenti) tipologia dei dati
• strutturali (che descrivono l’intervistato, ad esempio l’età)• di indagine
Questionario - StepLa raccolta -tramite questionario- di dati utili per effettuare analisi statistiche procede attraverso i seguenti step:
1. Predisporre il questionario2. Sottoporre i questionari agli intervistati (NB: ad ogni intervistato deve
corrispondere un codice univoco che identifica il questionario da lui compilatotenere traccia di questi codici!)
3. Per ogni domanda definire un’opportuna (qualitativa o quantitativa) variabile statistica, che assume come valori le possibili risposte alla domanda
4. Inserire in un foglio excel i dati raccolti: ogni riga corrisponde ad un singolo intervistato/questionario compilato e ci saranno una (nel caso di domande a risposta singola) o più (nel caso di domande a risposta multipla) colonne che corrispondono alle singole domande del questionario. Nella generica cella corrispondente all’incrocio della riga “i” e della colona “j” ci sarà dunque il “valore” della risposta dell’individuo “i” alla domanda “j”.
Dal questionario al Data Set
Costruire la variabile n_questionario che associa un codice univoco ad ogni intervistato.
Identificare ogni variabile con un nome facilmente riconducibile alla domanda corrispondente (ad esempio la domanda n°1 corrisponde alla variabile D_1).
Nel caso di domande a risposte multiple andranno create un numero di variabili dicotomiche (0/1) pari al numero di modalità definite nella risposta.
Data Entry: controllo correttezza dei dati inseriti e analisi delle distribuzioni delle variabili (con valenza di controllo e valenza interpretativa).
Esempio domanda – variabile qualitativa ordinale
n_questionario
… D_1
125 …. 8
… … …
1. Su una scala da 1 a 9 (con 1 = per nulla e 9 = moltissimo) quanto ritiene importante comunicare e relazionarsi con le altre persone nella sua vita quotidiana?
R: 8
Esempio domanda – variabile quantitativa
n_questionario
… D_1 D_2
125 …. 8 3
34 … … 10
2. Mediamente, quante ore al giorno utilizza il cellulare?
1) 15 minuti
2) 30 minuti
3) 1 ora
4) 2 ore
5) 3 ore
6) 4 ore
7) 5 ore
8) 6 ore
9) …
R: 3 ore ; R: 10 ore
Esempio domanda – variabile qualitativa nominale
n_questionario
… D_1 D_2 D_10
125 …. 8 3 NO INTERESSE
34 … … 10 COSTO
10. Perché non utilizza un telefono cellulare?
1) Non mi interessano i telefoni cellulari NO INTERESSE
2) Possiedo altri mezzi di comunicazione e sono già soddisfatto così ALTRI MEZZI
3) Mi piacerebbe ma sento che lo troverei difficile da utilizzareDIFFICILE
4) Sarei interessato, ma non abbastanza da sostenere il costo d’acquisto COSTO
5) Altro ALTRO
R: 1 ; R: 4
Esempio domanda – variabile qualitativa nominale
12. Qual è la tecnologia del suo telefono cellulare principale? (possibile fornire 1 sola risposta)
1) Gsm
2) Umts
3) Palmare
4) Non so
R: Gsm
n_questionario
… D_1 D_2 D_12
125 …. 8 3 Gsm
34 … … 10 …
Esempio domanda – variabile quantitativa
14. Ogni quanto cambia il suo telefono cellulare? (esprimere la risposta in mesi)
R: 18
n_questionario
… D_1 D_2 D_12 D_14
125 …. 8 3 Gsm 18
34 … … 10 … …
Domande a risposte multiple 17. Per quale motivo utilizza il telefono cellulare? (possibile fornire massimo 3 risposte)
1) Lavoro
2) Studio
3) Comunicare con famigliari
4) Comunicare con il partner
5) Piacere/tempo libero
6) Altro
D_17_1
D_17_2D_17_3
D_17_4
D_17_5
D_17_6
n_questionario … D_17_1 D_17_2 D_17_3 D_17_4 D_17_5 D_17_6
45 …. 1 0 1 1 0 0
… … … … … … … …
Domande a risposte multiple
n_questionario … D_9_1 D_9_2 D_9_3 D_9_4
250 …. 30 40 10 20
… … … … … … … …
9. In quale momento della giornata comunica maggiormente? (distribuisca 100 punti % tra le possibili risposte)
1) Mattino (7.00-13.00)
2) Pomeriggio (13.00-19.00)
3) Sera (19.00-24.00)
4) Notte (24.00-7.00)
R: 30% - 40% - 10% - 20%
Analisi UnivariataAnalisi Univariata
PROC UNIVARIATE - Descrizione
La PROC UNIVARIATE permette di calcolare
• distribuzioni di frequenza univariate per variabili quantitative continue
• misure di sintesi di posizione, variabilità, forma per variabili quantitative continue
proc univariate data= dataset option(s);
var variabile;
run;
Distribuzione di frequenza univariata
PROC UNIVARIATE – Sintassi
OPTIONS:• noprint non mostra i risultati nella finestra di output
PROC UNIVARIATE – Esempio 1
Misure di sintesi della variabile quantitativa discreta numero medio sms inviati al giorno
proc univariate data=corso.telefonia;
var num_sms_e;
run;
Output PROC UNIVARIATE (1/2) Misure di Variabilità
• Scarto Quadratico Medio [Std Deviation]: mostra la variabilità rispetto alla media
• Varianza [Variance]: media dei quadrati delle differenze fra ciascuna osservazione e la media
• Campo di Variazione [Range]: differenza tra il massimo e il minimo dei valori osservati
• Differenza Interquartile [Interquartile Range]: 3° quartile – 1° quartile
25.00000Interquartile Range
100.00000Range10.00000Mode
810.07147Variance10.00000Median
28.46175Std Deviation24.31356Mean
VariabilityLocation
Basic Statistical Measures
Output PROC UNIVARIATE (2/2) • Coeff di variazione [Coeff Variation]: misura la variabilità relativa rispetto alla media (%)
1.85270242Std Error Mean117.061242Coeff Variation
190366.797Corrected SS329878Uncorrected SS
1.44200254Kurtosis1.59619131Skewness
810.071475Variance28.4617546Std Deviation
5738Sum Observations24.3135593Mean
236Sum Weights236N
Moments
100%|x|
sCV
Output PROC UNIVARIATE (2/2)
1.85270242Std Error Mean117.061242Coeff Variation
190366.797Corrected SS329878Uncorrected SS
1.44200254Kurtosis1.59619131Skewness
810.071475Variance28.4617546Std Deviation
5738Sum Observations24.3135593Mean
236Sum Weights236N
Moments
• Skewness: indice che informa circa il grado di simmetria o asimmetria di una distribuzione
– γ=0 distribuzione simmetrica;– γ<0 asimmetria negativa
(mediana>media);– γ>0 asimmetria positiva
(mediana<media).
Misure di Forma della Distribuzione
• Kurtosis: indice che permette di verificare se i dati seguono una distribuzione di tipo Normale (simmetrica)
– β=3 se la distribuzione è “Normale”;– β<3 se la distribuzione è iponormale;– β>3 se la distribuzione è ipernormale.
Analisi di Concentrazione
μ.......321 nxxxxEquidistribuzione:
01.......321 nxxxxμNnx
Max concentrazione:
Per caratteri quantitativi trasferibili
NF
ii
N
1jj
i
1j
j
x
x
iQ2. Calcolare le quantità:
nxxxx .......3211. Ordinare le osservazioni
Analisi di Concentrazione
Analisi di Concentrazione CONCENTRAZIONE
0
10
20
30
40
50
60
70
80
90
100
0 10 20 30 40 50 60 70 80 90 100
EQUIDISTRIBUZIONE
Numero SMS effettuati
10% 45%
Analisi BivariataAnalisi Bivariata
PROC FREQ - Descrizione
La PROC FREQ permette di
• calcolare le distribuzioni di frequenza univariate per variabili qualitative e quantitative discrete
• creare tabelle di contingenza a due o più dimensioni per variabili qualitative e quantitative
discrete
PROC FREQ – Sintassi generale 1/2
proc freq data= dataset option(s);
tables variabile1 * variabile2 /option(s);
run;
Distribuzione di frequenza bivariata
OPTIONS:• noprint non mostra i risultati nella finestra di output• /missing considera anche i missing nel calcolo delle frequenze
PROC FREQ: Esempio
Variabili qualitative: sesso e operatore telefonico
proc freq data=corso.telefonia;
table sesso * operatore;
run;
Output PROC FREQ: Esempio
Frequency Percent Row Pct Col Pct
236100.00
156.36
15465.25
5523.31
125.08
Total
13657.63
125.088.8280.00
9138.5666.9159.09
2811.8620.5950.91
52.123.6841.67
M
10042.37
31.273.0020.00
6326.6963.0040.91
2711.4427.0049.09
72.977.0058.33
F
Wind Vodafone Tim 3
Totaloperatoresesso
Table of sesso by operatore
Frequenze congiunte assolute e relative
Distribuzioni marginali: frequenze marginali assolute e relative
Frequenze subordinate
Output PROC FREQ: Esempio
Frequency Percent Row Pct Col Pct
236100.00
156.36
15465.25
5523.31
125.08
Total
13657.63
125.088.8280.00
9138.5666.9159.09
2811.8620.5950.91
52.123.6841.67
M
10042.37
31.273.0020.00
6326.6963.0040.91
2711.4427.0049.09
72.977.0058.33
F
Wind Vodafone Tim 3
Totaloperatoresesso
Table of sesso by operatore
freq. marginale assoluta=7+27+63+3
freq. marginale relativa=(7+27+63+3)/236*100
freq. subordinate:
% di riga=5/136*100
% di col=5/12*100
freq. congiunta relativa =(7/236)*100