57
EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: [email protected]

EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: [email protected]

Embed Size (px)

Citation preview

Page 1: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

EPG di Metodologia della ricerca e Tecniche Multivariate dei dati

Dott.ssa Paola GrassiE-mail: [email protected]

Page 2: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Programma del corso

Introduzione al software SPSS

Trattamento preliminare dei dati

La regressione lineare

L’analisi fattoriale

L’analisi della varianza.

Testo consigliatoBarbaranelli C., “Analisi dei dati con SPSS II. Le analisi multivariate.”

LED edizioni universitarie 2006

Page 3: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Date lezioni

Sabato 21 gennaio ore 9,00 – 13,00 Venerdì 27 gennaio ore 15,00 – 19,00Sabato 28 gennaio ore 9,00 – 13,00 Sabato 04 febbraio ore 9,00 – 13,00

Aula informatica

Page 4: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

SPSS è un software statistico che permette di:

Inserire ed importare i dati;

Di eseguire analisi statistiche, di illustrare i risultati anche tramite rappresentazione grafica.

SPSS è composto da finestre, aventi ciascuna differenti funzioni:

Editor dei Dati; Output – Viewer; Syntax.

Cosa è SPSS (Statistical Package for Social Science)

Page 5: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Psicologia Sociologia e scienza politica Medicina/biologia Analisi/ricerche di mercato

SPSS è un programma statistico studiato per soddisfare le esigenze di elaborazione dati nei seguenti settori applicativi:

Può eseguire le elaborazioni dati riguardanti le seguenti tecniche di analisi:

analisi monovariata analisi bivariata analisi multivariata test statistici parametrici e non parametrici analisi di serie temporali funzioni di sopravvivenza modelli lineari

Page 6: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Per inserire i dati si deve avviare la schermata iniziale e selezionare dal menù la voce “inserimento dati”.

Page 7: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Per aprire, salvare, stampare e chiudere il file.

Per selezionare, copiare e tagliare parte dei dati

Per passare dalla modalità visualizzazione dati a quella di visualizzazione delle variabili oppure passare alla barra di stato o degli strumento o modificare il carattere

Contiene tutti i comandi per definire le variabili, per selezionare e richiamare i dati o le variabili in esame, per ordinare le variabili in senso crescente o decrescente, ecc.

Page 8: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Permette di definire alcune funzioni per l’esecuzione di alcune procedure statistiche.

Per di creare nuove variabili, effettuare una serie di calcolisulle variabili o di modificare le variabili (come nel caso del trattamento dei dati mancanti).

Per scegliere e costruire i grafici.

per eseguire una serie di analisi dei dati.

Page 9: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Spostarsi sul post-it “visualizzazione variabili” per la generazione delle stesse imputando, in sequenza, il nome assegnato e modificando, eventualmente, le caratteristiche impostate automaticamente. Permette di visualizzare i dati già imputati relativi ad una variabile.

Barra degli strumenti

Barra dei menù

Barra di stato

Page 10: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Nome della variabile composto da max 8 caratteri.

Numero di caratteri usati per visualizzare la variabile

La schermata ottenuta con “visualizzazione variabili” permette di inserire:

Per descrivere meglio le categorie numeriche di variabili che invece non sono

numeriche

Page 11: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

La schermata ottenuta con “visualizzazione variabili” permette di inserire:

Indica quante cifre decimali sono visualizzate

Per specificare meglio il significato della variabile (max 256 caratteri)

Per specificare i valori delle variabili che sono considerati indicatori di “valori mancanti”Si possono utilizzare: la stessa grandezza dei valori validi della variabile (media) oppure numeri fuori dalla scala della variabile (si usa preferibilmente il numero 9 0 il 99 o 999)

Page 12: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Creazione delle variabili relative al questionario

Page 13: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

È possibile attribuire ai valori stringa o numerici delle variabili delle etichette, per esteso, che compariranno nell’output anziché i valori assegnati.Ad esempio maschio anziché M

Page 14: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

La struttura dati è pronta per l’inserimento manuale

Page 15: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Spostarsi, quindi sul post-it “visualizzazione dati” per inserire i valori di ciascuna variabile e per visualizzarli.

Page 16: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

INSERIMENTO DEI DATI E CREAZIONE DI FILE DATI.

E’ NECESSARIO:Specificare il modello teorico alla base della ricerca, lo strumento usato e le scale di misura;Corretta codifica dei datiScelta del programma per l’inserimento dati (SPSS, Excel,…)

PULIZIA DEI DATI:

Permette di controllare errori di inserimento dei dati, la presenza di dati mancanti, di outlier mediante l’analisi delle frequenze.

Cosa si può fare con SPSS

Page 17: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

TRASFORMAZIONE DEI DATI:

CALCOLO DELLE STATISTICHE DESCRITTIVE:

Permette di ottenere delle nuove variabili effettuando delle operazioni o trasformazioni sulle variabili pre-esistenti.

Per ciascuna variabile si possono calcolare le statistiche descrittive quali: media, varianza, deviazione standard.Permette di verificare se i dati si distribuiscono normalmente

Page 18: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

ANALISI STATISTICHE:

CORRELAZIONE;

ATTENDIBILITA’;

DESCRITTIVE;

ANALISI DELLA VARIANZA;

ANALISI FATTORIALE;

REGRESSIONE

Page 19: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Di norma in un file di dati vengono inseriti i valori relativi alle codifiche socio-anagrafiche dei partecipanti alla ricerca.

Ad esempio: genere, età, provenienza, stato civile, livello socio-economico, n° figli a carico etc.

Questo genere di variabili permettono, in genere, di rilevare differenze o uguaglianze sulle variabili metriche in dipendenza dell’appartenenza a gruppi differenti determinati a priori.

Tali variabili necessitano di una codifica preliminare di tipo stringa o numerica definita dallo sperimentatore.

Si tenga presente che alcune procedure di analisi ammettono soltanto codifiche numeriche e non di tipo stringa (ad esempio l’analisi di varianza).

Inserimento dati e creazioni di un file con SPSS

Page 20: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Le Scala di misura possono essere:

Nominale: i valori rappresentano categorie senza alcun ordine intrinseco (Sesso, Professione,….);Ordinale i valori rappresentano categorie con qualche ordine intrinseco (basso/medio/alto);Ad Intervalli i valori permettono di stabilire una relazione di distanza tra più oggetti misurati, a partire da uno 0 arbitrario e stabilendo un’unità di misura costante;A Rapporti i valori permettono di effettuare operazioni

aritmetiche, avendo come origine uno 0 assoluto;

Successivamente vanno generate le variabili numeriche, o scale, relative allo strumento impiegato.

Page 21: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Tali scale vanno codificate esclusivamente con valori numerici e possono essere:

•binarie (vero/falso, accordo/disaccordo, scale di Rasch) che è corretto trattare come ordinali (con valori diversi dalla coppia da 0-1 la quale, invece, possiede caratteristiche metriche delle scale ad intervallo);

•politomiche (scale di Gutmann, Likert) che vengono codificate da SPSS come scale di tipo ordinale;

•continue (che ammettono valori decimali quali altezza, peso, indice di massa corporea).

Page 22: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Organizzazione generale del file-dati:

Righe: ciascuna riga del file di dati raccoglie le informazioni inerenti ogni singolo soggetto lungo l’intera collezione di variabili indagate che assume il nome di “data record”. Il numero di campi interni al record deve corrispondere al numero di variabili imputabili.I dati mancanti possono essere codificati a scelta dello sperimentatore, tra queste codifiche sono comuni le assegnazioni di valori “fuori scala” ne sono esempi codifiche del tipo 999. In caso di scale definite solo positivamente, si può utilizzare per la codifica del dato mancante il primo valore utile ( in questo caso -1).In SPSS la codifica del dato mancante è stabilita automaticamente dal sistema assumendo come valore il carattere “.” in corrispondenza di una cella di imputazione lasciata vuota dall’operatore.

Page 23: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Colonne: contengono tutte le rilevazione, trasversalmente raccolte su tutti i soggetti relativamente ad una data variabile o unità d’informazione.

Si utilizzano le colonne anche qualora il disegno della ricerca dovesse contenere informazioni replicate di uno stesso soggetto, in condizioni sperimentali diversificate (Test re-test o multilivello).

In generale non esiste un’unica formulazione per definire la nomenclatura del file di dati, ma questa dipende dallo specifico modello di analisi da impiegare o dalle peculiarità strutturali del disegno sperimentale impiegato.

Page 24: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Per la codifica è necessario che:

Le variabili siano in formato numerico

I casi (soggetti) devono avere un numero identificativo progressivo

codici devono essere mutualmente escludentesi (ogni risposta cade solo e soltanto in una categoria)

Page 25: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

La descrizione e lo screening dei dati sono delle fasi molto importanti in quanto permettono di:

Individuare i valori mancanti;

Individuare variabili che assumono valori fuori scala;

Verificare se la distribuzione è normale

Individuare gli outlier

DESCRIZIONE DEI DATI

Page 26: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

La normalità della distribuzione è fondamento di molte analisi.La distribuzione normale univariata assume la classica forma a campana:

CARATTERISTICHE• Unimodale• Simmetrica rispetto alla media• Presenta due punti di flesso

x = μ – σx = μ + σ

Page 27: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Creazione completa delle variabili

Page 28: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Struttura dei dati dopo l’inserimento delle variabili

Page 29: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

A seconda dello strumento utilizzato, come in questo caso, le variabili necessitano di essere ri-codificate per ancorare tutti i valori numerici con la stessa valenza semantica: tutte in positivo o in negativo. Per fare questo è necessario verificare prima quali variabili siano da invertire ed eseguire l’operazione attraverso il menù trasforma (ri-codifica nelle stesse variabili).

Page 30: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Avendo individuato le variabili che necessitano di trasformazione, man mano si selezionano e tramite la freccia si posizionano nel campo variabili

Page 31: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Per completare la trasformazione è necessario sostituire ai valori precedentemente assegnati, i nuovi digitando sul pulsante “valori vecchi e nuovi”.

Page 32: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Si invertono i valori di scala per l’intera gamma comune delle variabili lasciando invariato il dato mancante di sistema.

Page 33: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

È sempre opportuno verificare che la procedura sia stata eseguita correttamente. La formula per verificare il risultato è la seguente:(Valore massimo – valore attuale) + valore minimoEs: (4-3)+0= 1

Page 34: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Adesso è possibile calcolare il punteggio totale del questionario ed il punteggio medio per ciascun soggetto impiegando il menù “trasforma” sotto la voce “calcola variabile.Per calcolare il punteggio totale al test, porre nel campo “variabile di destinazione” il nome da assegnare e operare la scelta della funzione “sum”.

Page 35: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

I nomi delle variabili vengono riportate come argomenti della funzione multi-argomento che opera sulle variabili.

Page 36: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Nell’ultima colonna possiamo osservare la somma dei punteggi di ciascun soggetto attraverso le variabili prese in considerazione.

Page 37: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

A questo punto, con lo stesso procedimento, possiamo calcolare la media

Page 38: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Il programma ha generato una nuova colonna nella quale viene espressa la media delle risposte fornite da ciascun soggetto.

Page 39: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Per calcolare i principali indici statistici campionari di ciascuna variabile, si opera attraverso il menù analizza tramite il comando “frequenze”.

Page 40: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Si selezionano le variabili per le quali interessa calcolare gli indici statistici principali congiuntamente alla distribuzione di frequenze.

Page 41: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Si marcano le statistiche desiderate

Page 42: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

OUTPUT

Page 43: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Vengono riportate le statistiche per ciascun itemOUTPUT

Page 44: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Si considerano anche i casi che presentano valori mancanti

Si considerano solo i casi che non presentano valori mancanti

Distribuzione delle frequenze

Non essendoci valori mancanti, in questo caso, coincidono

Page 45: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it
Page 46: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it
Page 47: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Volendo effettuare la descrizione dei dati raccolti:

Page 48: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Ancora una volta, dopo aver selezionato le variabili oggetto d’indagine

Page 49: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Si selezionano le statistiche descrittive che interessano

Page 50: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it
Page 51: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Con valori degli indici di Asimmetria e Curtosi compresi tra -1 e 1 la distribuzione è normale

Page 52: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

La distribuzione è schiacciata verso il basso rispetto a quella normale. La distribuzione è detta PLATICURTICA.

La distribuzione è più appuntita rispetto a quella normale. La distribuzione è detta LEPTOCURTICA.

Valore di Curtosi negativo

Valore di Curtosi positivoValore di Curtosi positivo

Curva Normale

Valori compresi tra -1 e 1

Page 53: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Per una più accurata descrizione del campione si possono eseguire:

Page 54: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Ad esempio, si possono mettere in relazione variabili socio-demografiche quali genere ed età con le prime due domante al test.

Page 55: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Dopo aver selezionato le variabili che interessa mettere in relazione si clicca su “continua”

Page 56: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it
Page 57: EPG di Metodologia della ricerca e Tecniche Multivariate dei dati Dott.ssa Paola Grassi E-mail: p.grassi@unich.it

Dei ricercatori hanno ipotizzato vi sia relazione tra le abilità matematiche (X1), le abilità scientifiche (X2) e la percezione di autoefficacia (Y). Al fine di analizzare ciò, hanno somministrato 3 test ad un gruppo di 8 studenti.Verificare, per un livello di significatività pari ad α = 0,05, se l’ipotesi dei ricercatori è fondata. Nella tabella che segue sono espressi i punteggi ottenuti nei 3 test:

Y X1 X24 4 53 5 26 6 85 8 67 9 89 10 129 12 811 13 11