Teoria e tecnica psicometrica

TEORIA E TECNICA PSICOMETRICA costruire un test psicologicoCapitolo 1 Il problema della misurazione in psicologia una prospettiva storica

Il principale problema della misurazione delle variabili psicologiche egrave la difficoltagrave di misurare quantitativamente gli oggetti di studio della psicologia i cui oggetti di studio sono spesso astratti e quindi non misurabili in senso fisicoLrsquoassessment psicologico puograve essere definito come quella procedura di valutazione dellrsquoindividuo che permette di descrivere e spiegare la condizione psicologica dellrsquointeressato fare diagnosi e proporre prognosi e fornire supporto alle decisioni che lo psicologo deve prendere in merito a quella persona In psicologia vengono utilizzati i test come strumenti di valutazione degli attributi ma non delle persone Attraverso i test infatti gli attributi delle persone vengono collocati allrsquointerno di una scala di riferimento standardizzata in base alla quale viene valutata la specifica caratteristica della persona La caratteristica misurabile egrave la quantitagrave ed egrave cioegrave una caratteristica che puograve essere espressa in cifre numericheIl primo contributo alla misurazione in psicologia lrsquoha dato Fechner con la legge psicofisica egli infatti indagava i processi sensoriali e percettivi mediante la valutazione della reazione a un cambiamento in uno stimolo fisico-gt γ = k ln b dove y egrave lrsquointensitagrave della sensazione b egrave lrsquointensitagrave fisica dello stimolo k una costanteLa definizione classica del termine ldquomisurazionerdquo egrave quella di Stevens ldquoLa misurazione egrave lrsquoassegnazione di etichette numeriche a oggetti o eventi in base a una regolardquoSpearman x = λg + s dove x egrave il punteggio della prova λ egrave la correlazione tra la variabile osservata e il fattore g (intelligenza generale) e s egrave il fattore specifico(contributo di cause specifiche e uniche per quella determinata prova) per la prova i

Capitolo 2 La costruzione dei test psicologici i primi passi e le tecniche di scalingDefinizione del costrutto si tratta di definire esattamente qual egrave il costrutto che il test si propone di misurare al fine di evitare equivoci o confusione riguardo a ciograve che si vuole misurareOperazionalizzazione il processo di individuazione dei comportamenti che ci permettono di rilevare la presenza di una caratteristica psicologica in una personaDominio di contenuto operazionalizzazioni del costrutto che allrsquointerno dei tutti i comportamenti osservabili sono state delimitate Allrsquointerno del dominio di comportamenti egrave consigliabile individuare delle sfaccettature (facets) per poi occuparsi della corretta operazionalizzazione di queste Gli indicatori sono i comportamenti osservabiliTest orientati al criterio lo scopo principale del test egrave quello di identificare particolare gruppi di soggetti in base al punteggio Test orientati al costrutto si valuta il costrutto sulla base di presupposti teorici che vengono operazionalizzati in modo preciso

Scaling centrato sui soggettiScaling processo che ci permette di ottenere la misura quantitativa di una variabile psicologica e quindi non osservabile direttamenteModello di misurazione modello che specifica la relazione fra la variabile latente (costrutto) e indicatori (item)La teoria classica dei test prevede che la variabile latente abbia un effetto causale sulle variabili osservate in grado di spiegare la maggior parte del punteggio osservato Lrsquoequazione si Spearman si traduce quindi nella formulaX= V + E Dove X egrave il punteggio osservato nellrsquoitem o nel testo V egrave il cosiddetto punteggio vero ossia lrsquoeffettivo contributo dellrsquoeffetto causale del costrutto nel determinare il punteggio osservato E egrave lrsquoerrore di misurazione cioegrave raccoglie tutte le possibili cause del punteggio osservato estranee al costruttoIndicatori riflessivi o formativiUn modello di misurazione di questo tipo egrave il reflective indicator measurement model dove y egrave il punteggio nella variabile osservata n egrave la quantitagrave di costrutto posseduta λ egrave il coefficiente che specifica lrsquoeffetto atteso di n su y ed ε egrave la composizione dellrsquoeffetto di altri costrutti e dellrsquoerrore di misurazione di y Esiste un modello in cui sono gli indicatori a causare la variabile latente ed egrave il causal (formative) indicator measurement model Per esempio egrave nel caso in cui il costrutto sia lo status socioeconomico e gli indicatori siano il livello di istruzioneil prestigio della propria professione

Scaling centrato sugli stimoliLrsquoobiettivo dello scaling non egrave quello di misurare gli individui ma gli stimoliMetodo dei confronti a coppie ( method of paired comparison Thurstone) i soggetti devono confrontare coppie di stimoli e in base ai dati ottenuti egrave poi possibile costruire una scala di misura in cui gli stimoli sono posti su un continuum costituito da una scala a intervalli dove quindi non esiste lo zero assoluto

Lo scaling centrato sui soggetti e sugli stimoliNei modelli di risposta allrsquoitem la risposta agli item egrave in funzione dellrsquoabilitagrave dei soggetto e della difficoltagrave dellrsquoitem In questo modello si tiene conto sia delle risposte dei soggetti relative al loro punteggio al costrutto sia della difficoltagrave o facilitagrave degli item o la probabilitagrave che i soggetti rispondano in un certo modo a quellrsquoitemModello di Rashsi basa sulla Teoria di risposta allrsquoitem secondo cui il livello di abilitagrave di un soggetto egrave indipendente dalla difficoltagrave dellrsquoitem il cui livello a sua volta egrave indipendente dallrsquoabilitagrave di chi risponde Lrsquoobiettivo dei modelli di IRT egrave quello di avere una stima dellrsquoabilitagrave del soggetto indipendentemente dalla difficoltagrave dellrsquoitem Il modello ha 3 proprietagrave

oggettivitagrave specifica le misure che si ottengono dipendono sia dallo specifico insieme di item impiegato sia dallo specifico gruppo di soggetti utilizzato per verificare le proprietagrave psicometriche del test

Sufficienza il conteggio delle risposte corrette o la somma delle risposte su scala di valutazione fornite dai soggetti agli item egrave una statistica sufficiente per determinare il livello degli individui nella caratteristica che si sta cercando di misurare e il livello di difficoltagrave degli item

Separabilitagrave distinguere gli effetti dovuti alle caratteristiche delle persone da quelli dovuti alle caratteristiche degli item

Lrsquoindipendenza locale (proprietagrave non specificata nei modelli si Rasch) per la quale i punteggi degli indicatori osservabili sono tra loro indipendenti quando la variabile latente (caratteristica psicologica) rimane costante

Rasch si pone il problema della concatenazione tra due fattori Attraverso un analogia con il concetto di accelerazione in fisica rasch fa i seguenti calcoli

Tale funzione rientra nella famiglia delle funzioni logistiche che costituiscono uno dei raggruppamenti di modelli di risposta allrsquoitem Lrsquoaltro egrave quello delle funzioni ogiva dove possiamo rappresentare graficamente la probabilitagrave di risposta corretta allrsquoitem in base alla differenza tra lrsquoabilitagrave del soggetto e difficoltagrave allrsquoitem o in funzione dellrsquoabilitagrave del soggetto attraverso la curva caratteristica dellrsquoitem Il logaritmo del rapporto fra la probabilitagrave di rispondere correttamente allrsquoitem e la probabilitagrave di non rispondere correttamente prende in gergo statistico il nome di logit

Capitolo 3 Scrivere gli item di un test

Caratteristiche fondamentali degli item Chiarezza sia nelle istruzioni del test sia sul modo in cui rispondere sia sullrsquoambiguitagrave o generalitagrave delle domande poste

Usare parole comuni specificare la richiesta Centralitagrave rispetto alla definizione del costrutto e al contesto ci si puograve chiedere ad esempio se un test misura

lrsquointelligenza o la conoscenza (caso dellrsquoanalogia) Centralitagrave rispetto al contesto che puograve influire sulla serietagrave con cui le persone rispondono o la loro motivazione

Non offensivitagrave le domande non devono essere in nessun modo inquisitorie

Gli item per i test di prestazione tipicaTipi di item per i test di prestazione tipica Item sigraveno e VeroFalso Item mi piacenon mi piace Item a scelta multipla forzata Item con scale di valutazione summated rating scales come le scale Likert ossia scale in cui il punteggio nel costrutto egrave

fornito dalla somma delle valutazione fornite per i singoli item Possono essere di tre domini accordo intensitagrave e frequenza Gli ancoraggi sono descrizioni esemplificative dei comportamenti corrispondenti ai quali chi deve assegnare il punteggio puograve fare riferimento nellrsquoassegnazione dei punteggi Nel caso delle rating scale vere e proprie si parla piugrave propriamente di quantificatori indeterminati cioegrave etichette che descrivono ogni punto Il numero di punti della scala Likert non supera mai i 7 poicheacute aumentarli sarebbe inutile dal punto di vista dellrsquoattendibilitagrave della misurazione Forse egrave preferibile un numero pari di numeri per evitare la tendenza di risposta sul punto centrale (response sets) Un comportamento viene considerato piugrave o meno frequente secondo il contesto generato dagli altri comportamenti anche a paritagrave di scale di frequenza da cui il fenomeno detto range effect Il Frequency effect egrave la tendenza delle persone a cercare di utilizzare tutte le alternative possibili di risposta lo stesso numero di volte Questo effetto egrave tanto piugrave probabile quanto maggiore egrave il numero di itemstimoli da valutare e dalle risposte agli itemstimoli precedentiFormato

unipolare vs bipolare bull Strettamente unipolare la scala di risposta viene definita rispetto allrsquointera estensione di un continuum in cui il

punteggio minore corrisponde ad un sentimento di neutralitagravebull Unipolare parzialmente ambiguo non specifica come potrebbe essere indicato un sentimento neutralebull Formati ambigui lasciano al soggetto la definizione degli ancoraggi ldquoper nienterdquo = neutralitagrave o oppostobull Bipolare parzialmente ambiguo ancoraggi definiti soggettivamente ma diversi gradi di opposto (neutralitagrave =

punteggi intermedi)bull Bipolare vengono esplicitate risposte che indicano luno o lrsquoaltro estremo e la neutralitagrave

Linee guida per la formulazione di item di prestazione tipica Adeguare il linguaggio alle competenze linguistiche dei soggetti Chiarezza scopo del test destinatari del testbull Fare una richiesta a cui il soggetto egrave in grado di fornire facilmente una risposta Motivazioni o processi consapevolibull Chiedere una cosa sola alla volta Alcune persone hanno esperienza di guidareandare in macchina o in

autobus o in metropolitana e improvvisamente di realizzare di non ricordare cosa egrave successo durante tutto o parte del viaggio

bull Riferirsi a comportamenti specifici e non in generale Mi piace leggere rarr cosa quandobull Evitare riferimenti alla frequenza soprattutto se genericibull Evitare alternative di risposta che facciano riferimento a piugrave dimensionibull Minimizzare la possibilitagrave che il soggetto intuisca lo scopo dellrsquoitembull Evitare le negazioni Non mi preoccupo di non

piacere alla gentebull Evitare le domande suggestive le insinuazioni

e le assunzioni implicite Possibili effetti distorcenti delle risposte agli item dei test di prestazione tipica

bull Rapporto del numero di item con il numero di punti della scala di risposta Ad esempio la lunghezza del test

bull Effetto attrattore del punto centrale della scala che nasconde i falsi positivi o falsi negativi (egrave utile perorsquo nei test che vengono somministrati durante una psicoterapia)

bull Response style distorsione sistematica stabile nei soggetti costanti rispetto al tempo e al contenuto delle scale rarr tratto di personalitagrave

bull Response set distorsioni sigrave sistematiche ma limitate a particolari test contenuti o contesti rarr aspetto transitoriobull Acquiescenza tendenza a essere drsquoaccordo con lrsquoitem indipendentemente dal contenuto O Disacquiescenza cioegrave a

essere in disaccordo con il contenuto Extreme response tendenza a scegliere le categorie estreme di risposta Response range tendenza ad utilizzare una ristretta gamma di categorie ordinate di risposte attorno al punto medio Noncontingent respondind tendenza a rispondere in modo inaccurato casualmente

bull Formulazione troppo similebull Item straight e reverse tipi di reverse Polar opposite (egrave un lavoratore inaffidabile) negated regular (non egrave un

lavoratore affidabile) e negated polar opposites (non egrave un lavoratore inaffidabile) Funzionano da speed bumb cognitivo Il proximity effect suggerisce che gli item che misurano lo stesso costrutto debbano stare lontani

bull Desiderabilitagrave sociale tendenza a mostrarsi migliori di quel che si egrave secondo quello che egrave socialmente desiderabile Questrsquoeffetto si puograve eliminare garantendo lrsquoanonimato

Gli item per i test di prestazione massimaDomande aperte o chiuse Le domande aperte attivano un processo di rievocazione che puograve essere libera guidata seriale Le domande chiuse invece richiedono un processo di riconoscimento Generalmente per un test di prestazione tipica egrave meglio usare domande chiuse (tranne nei test a scopo di ricerca) per poter leggere e standardizzare le risposte Nei test di prestazione massimo forse sono meglio le domande aperte che danno la possibilitagrave di assegnare i partial credit ossia i punteggi intermedi alle risposte incomplete Item per i test drsquointelligenza di abilitagrave e attitudinali Intelligenza fluida capacitagrave di ragionamento primaria che lrsquoindividuo impiega per risolvere i problemi e adattarsi allrsquoambiente Intelligenza cristallizzata capacitagrave definite dalla cultura nella quale lrsquoindividuo egrave immerso e nella quale egrave stato formato La surgency egrave la fluiditagrave verbale adesso etichettata come estroversioneI test di abilitagrave sono i piugrave rari si sente piugrave comunemente parlare di test drsquointelligenza o attitudinali Le attitudini sono un misto di predisposizioni naturali e idoneitagrave per qualcosa con una forte connotazione culturale

Analogie Intelligenza o culturaLa difficoltagrave deve stare nella relazione fra i termini non nella conoscenza dei contenuti Item a esclusione possibili problemi di ambiguitagrave Item a sequenza numero e alfabetico visivo o matrici di raven Informazione generale Item di abilitagrave verbale indaga la conoscenza di determinate parole Item verbali di ragionamento sillogismi Item non verbali Item di comprensione del testo Item per i test di profitto (achievment tests)

Vantaggi e svantaggi dellrsquouso di item e scelta multipla Item vero falso bisogna cercare di non favorire chi ha studiato a memoria Item a scelta multipla Item ad abbinamento

Linee guida per la formulazione di item di prestazione massimaStrutturalmente un item di prestazione massima egrave composto dallrsquoitem stem cioegrave il testo che contiene la domanda e le alternative di risposta di cui solo una egrave quella corretta e le altre sono distruttori

Formulazione chiara per evitare interferenza abilitagrave di lettura Distrattori tutti ugualmente ldquoattraentirdquo per chi non conosca la risposta corretta Uso sensato dei distrattori umoristici Utilizzare la stessa struttura sintattica per la risposta corretta e i distrattori Evitare formulazioni troppo elaborate o con linguaggio inutilmente affettato o con ripetizioni di parole Evitare suggerimenti impliciti con domande insolite Evitare intersezioni domini concettuali Evitare che la risposta ad un item sia nellrsquoitem stem di un altro item Evitare alternative ldquonessuna delle precedentirdquo

Strutturare il testbull Consenso informatobull Eticabull Anonimato e Privacy (Codice auto-generato)bull Istruzioni e consegna Cosa deve fare il soggetto Rassicurazione Motivazionebull Layout (font allineamento etc)bull Intervista post-somministrazionebull Contatti dei somministratori

Capitolo 4 la valutazione preliminare degli item di un test Validitagrave di contenuto

egrave il grado in cui gli elementi di uno strumento di assessment sono rilevanti e rappresentativi del costrutto target per un particolare scopo di valutazione Rilevanza (relevance) appropriatezza degli elementi del test elementi per la valutazione del costruttoRappresentativitagrave (representativeness) grado in cui gli elementi del test sono rappresentativi delle varie sfaccettature del costrutto target e riescono a coprire in modo adeguato il dominio di contenuto

Fattori per la valutazione di rilevanza e rappresentativitagravebull uso che si intende fare del test e le inferenze che si intende trarre dai dati ottenuti (eg screening vs valutazione approfondita di un disturbo di personalitagrave)bull tipo di comportamento che si intende valutare (eg comportamenti in contesti specifici o generalizzati tipici o atipici comuni o estremi etc)bull parametro di interesse (eg frequenza intensitagrave valutazione)bull popolazione targetbull dominio concettuale (come egrave definito il costrutto In quale cornice di riferimento teorica)bull natura dinamica (eg validitagrave temporale)Corrispondenzebull Metodo-modalitagrave grado in cui un particolare metodo di valutazione egrave appropriato per il costrutto target (eg self-report egrave adatto per contenuti inconsapevoli)bull Metodo-funzione grado in cui un particolare metodo di assessment egrave appropriato per gli scopi della valutazione (eg self-report egrave adatto per fare diagnosi)bull Necessitagrave di un assessment multi-metodoComponenti validitagrave di contenuto

1 Campionamento del dominio grado in cui ogni item del test corrisponde ad un dominio di contenuto teoricamente definito e il grado in cui lrsquoinsieme degli item egrave in grado di rappresentare il dominio di contenuto di interesse 1048766 Campionamento del contenuto quali contenuti per un test di profitto in psicometria 1048766 Campionamento del comportamento quali risposte si ottengono dai particolari item di un test di profitto in psicometria

2 Rilevanza del dominio il dominio di contenuto che definisce una misura egrave rilevante rispetto allrsquouniverso concettuale da valutare 1048766 rilevanza del contenuto quali argomenti del corso di psicometria sono piugrave rilevanti rispetto ad altri per quello che egrave lo scopo del corso 1048766 rilevanza del comportamento grado in cui i comportamenti valutati attraverso il test riflettono lrsquouniverso di comportamenti che si desidera valutare ( asymp validitagrave ecologica)

3 Chiarezza del dominio chiarezza con cui i domini di contenuto di una misura vengono definiti 1048766 specificare tutti gli aspetti della procedura di misurazione che possono influire sul punteggio al test 1048766 massimizzare la capacitagrave del test di produrre risultati replicabili

4 Qualitagrave tecnica degli item 1048766 Le risposte agli item sono per la maggior parte determinate dalla presenza del costrutto o anche da altri fattori

Linee guida per ottenere unrsquoadeguata validitagrave di contenutoo Il dominio di contenuto deve riferirsi a comportamenti con un significato universalmente condiviso (eg test idoneitagrave

alla guida vs test di personalitagrave)o Definire accuratamente il dominio e le sfaccettature del costrutto e sottoporle a validazione di contenuto prima di

sviluppare gli altri elementi dello strumento di valutazione (eg che cosa egrave e non egrave il costrutto)o Sottoporre tutti gli elementi di uno strumento di assessment a validazione di contenuto (istruzioni formato di risposta

etc)o Per la generazione iniziale degli item e degli altri elementi considerare il parere della popolazione target e degli espertio Impiegare piugrave giudici per la validitagrave di contenuto e quantificare i giudizi utilizzando procedure quantitativeo Esaminare la rappresentazione proporzionale degli itemo Riportare i risultati della validazione di contenuto quando si pubblica un nuovo strumento di valutazioneo Utilizzare le successive analisi psicometriche per il raffinamento dello strumento di valutazione

Validitagrave di facciataLa validitagrave di contenuto non dovrebbe essere confusa con la validitagrave di facciata questultima non egrave una validitagrave nel senso tecnico del termine non si riferisce a ciograve che effettivamente misura ma a cosa sembra misurare superficialmente La validitagrave di facciata riguarda il fato che il test sembri valido agli esaminandi che lo compilano al personale amministrativo che ne decide limpiego e ad altri osservatori non tecnicamente formati Non dovrebbe essere solo valido dovrebbe apparire valido

Lo studio preliminareRaccogliere i datibull Decidere la popolazione targetbull Rappresentativitagravebull Quanti soggettibull Criteri di inclusione ed esclusione viene usata una scheda socio demograficaAnalisi degli item Per i test di prestazione massima Difficoltagrave dellrsquoitemproporzione di soggetti che non risponde correttamente allrsquoitem Il livello dovrebbe essere compreso

da 20 e 80 Se gli item sono troppo facili bisogna distinguere dalla probabilitagrave che i soggetti abbiano risposto a caso o da un effettivo livello basso del costrutto Inoltre la presenza di item troppo facili sparsa tra gli altri puograve avere un ruolo motivatore

Lrsquoindice di difficoltagrave ponderato serve a correggere la distorsione del peso dell e risposte fornite casualmente K egrave il numero di alternative e n il numero di soggetti Ersquo poco utilizzato percheacute in alcuni casi potrebbe portare allrsquoassurdo di valori negativi

Un altro modo egrave lrsquoindice di difficoltagrave di Ebel

Analisi dei distruttori 1 Calcolare Perrata (eg 30 da cui P(corretta) = 70)2 Dividere per numero di alternative errate (eg 3 per un item con 4 alternative di risposta) (eg 30 3 = 10)3 Sottrarre il valore del punto 3 a P(corretta) (eg 70 - 10 = 60)(questa egrave la percentuale di soggetti che hanno risposto correttamente percheacute sapevano davvero la risposta)

Discriminativitagrave egrave una misura di quanto ogni item egrave in grado di distinguere i soggetti con livelli elevati nel costrutto da quelli con livello basso Confronto fra gruppi precostituiti (test orientati al criterio) D = P(Focus) minus P(Controllo) Confronto fra livelli alti e livelli bassi al test (test orientati al costrutto) D = P(Alto) minus P(Basso)

Dimensione delleffetto h (maggiore di 50 egrave moderata) h = 2arcsen P(Focus) minus 2arcsen P(Controllo)

h = 2arcsen P(Alto) minus 2arcsen P(Basso)Indice δ di Ferguson Misura di quanto un punteggio egrave in grado di

discriminare fra i soggetti Rapporto fra le differenze osservate e il numero

massimo possibile di differenze Massimo quando tutti i punteggi possibili sono

equiprobabili ma anche con distribuzione normale possibile δ gt 90

Correlazione item-totale corretta Misura di quanto ogni item egrave rappresentativo dellrsquointera scala e di quanto ogni singolo item egrave in grado di rappresentare da solo il costrutto misurato dallrsquoinsieme degli altri item contenuti nel test Correlazione punto-biseriale1048766 Il punteggio allitem egrave una vera dicotomia1048766 Il punteggio al test egrave su scala a intervalli Bisogna perorsquo rimuovere la ridondanza eliminando dal calcolo il punteggio nellrsquoitem che si vuole esaminare per questo si calcola la correlazione item totale corretta bull Valore sufficiente 20bull Valore ottimale 30bull Non utilizzabile se utilizzata la correzione per guessing

Ridondanza quando due item hanno lo stesso livello di difficoltagrave ed esaminano la stessa conoscenza

Per i test di prestazione tipicaAffettivitagrave la probabilitagrave che lrsquoalternativa di risposta relativa al costrutto venga sceltaStatistiche descrittive Numero di casi mancanti le cause possono essere

Il soggetto rifiuta di rispondere per cui intenzionalmente non ha indicato la sua risposta Il soggetto non sa cosa rispondere e nel dubbio non indica alcuna risposta Il soggetto ha semplicemente saltato lrsquoitem per sbaglio Il dato non egrave stata inserito per errore nel databasebull Missing per definizione della sottopopolazionebull Missing completely at randomLa probabilitagrave che un dato sia mancante egrave completamente indipendente sia dalla caratteristica misurata dal test di cui lrsquoitem fa parte sia da qualsiasi altra variabile considerata nellrsquoanalisi Littles MCAR Testbull Missing at random La probabilitagrave che un dato sia mancante non dipende dalla caratteristica misurata dal test di cui lrsquoitem fa parte una volta controllato lrsquoeffetto di un altre variabili dato che queste altre variabili innescano il meccanismo che determina i dati mancantibull Missing not at random

Forma della distribuzione per ogni item la forma della distribuzione deve avvicinarsi alla normale altrimenti egrave un sintomo che il campionamento non egrave avvenuto in modo casuale o non rappresentativo della popolazione

Punteggio minimo e massimo una scala di risposta di tipo Likert funziona bene solo se tutti i punti vengono scelti almeno una volta(non ci devono essere item troppo improbabili per il gruppo di soggetti che rispondono al test)

Indici di tendenza centrale moda e mediana Indici di dispersione egrave utile conoscere informazioni come la deviazione standard la differenza interquartile per

conoscere come si distribuiscono le risposte agli item Indici di forma della distribuzione skewness egrave quanto la distribuzione egrave simmetrica rispetto al punto mediano e curtosi egrave

appiattimento della distribuzione rapporto tra la distribuzione intorno alla media e quanto pesano le code della distribuzione

Discriminativitagravebull Confronto fra gruppi precostituiti (test orientati al criterio)bull Confronto fra livelli alti e livelli bassi al test (test orientati al costrutto)bull Test t per campioni indipendenti (info metrica)bull Test di Mann-Whitney (info ordinale)bull Dimensione delleffetto almeno moderata

Correlazione item-totale correttaSi calcola con il coefficiente di correlazione prodotto momento di Pearson rValore sufficiente 20 valore ottimale 30

RidondanzaSe due item tra loro hanno una correlazione maggiore di 70 dobbiamo tenerne solo uno

LrsquoattendibilitagraveProprietagrave psicometrica relativa allrsquoaccuratezza con cui un test o una scala misura una certa variabile psicologica Ersquo diverso dalla validitagrave percheacute non ci dice che il test misura ciograve che vogliamo ma indica la precisione della misura

Errore casuale nella TCTbull Punteggio osservato in un dato soggetto in una data situazione egrave solo uno dei possibili punteggi osservabilibull Il punteggio vero V quindi puograve essere concepito come la media dei punteggi osservati di infinite misurazionibull E(X) = VAttendibilitagrave = rapporto tra varianza del punteggio vero e varianza del punteggio osservato (proporzione di punteggio vero che non riflette lrsquoerrore casuale di misurazione) Indice di attendibilitagrave rXVbull Diverso da coefficiente di attendibilitagravebull E la correlazione fra il punteggio osservato X e il punteggio vero V

Attendibilitagrave per forme parallele ad esempio due file di uno stesso testi di prestazione massimabull Parallele = psicometricamente sostituibilibull Correlazione fra i punteggi alle due prove ottenuti da un campione di soggettibull Coefficiente di precisioneValore ottimale 90Se parallelismo non soddisfatto rarr forme alternative coefficiente di equivalenza (valore ottimale 70)

Test-retestLrsquounica stima dellrsquoattendibilitagrave che abbia senso per un test eterogeneo egrave quella del test-retest (Guilford 1965 p 450)bull Stabilitagrave dei punteggi nel tempo (rarrsolo tratti)bull Due o piugrave somministrazioni dello stesso test agli stessi soggettibull Valore accettabile 70bull Valore ottimale 90Fonti di errore due somministrazionibull Ricordo risposte fornite strategie utilizzate etcbull Fluttuazioni nel livello del costruttobull Variazione condizioni di somministrazionebull Interazione soggetto times momento somministrazionebull Forme parallele Interazione soggetto times contenutobull Forme parallele Dipendenza seriale viola assunzione indipendenza errori di misurazione item diversi rarr varianza di errore casuale egrave in realtagrave sistematica in quanto stabile nel tempo e gonfia lattendibilitagrave

Coerenza interna (internal consistency)bull Grado in cui gli item di un test o di una scala sono coerenti nel misurare il costrutto in oggettobull Problema dellattenuazioneSplit-halfbull Divisione a metagrave del testParidispariPrimaSeconda metagrave EtcAttendibilitagrave split-halfValore accettabile 60 (test prestazione tipica)Valore ottimale 80 (test prestazione massima)

Alpha (α) di Cronbachbull Estensione della KR-20 ad item non dicotomiciAlpha di Crobach alto = alta coerenza interna ma non necessariamente unidimensionalitagrave

Capitolo 5 dimensionalitagrave e validitagrave del testAnalisi fattoriale tecniche statistiche che permettono di rilevare il numero minimo di dimensioni latenti che spieghino i pattern di relazione tra i punteggi degli item Lrsquounidimensionalitagrave misura il fatto che gli item misurino tutti piugrave o meno lo stesso costrutto mentre la coerenza interna puograve avere lo stesso valore anche in presenza di piugrave costrutti diversi tra loroLrsquoanalisi fattoriale si propone di individuarebull Raggruppamenti di variabili (ossia i fattori) derivati in base al grado di correlazione delle variabili stessebull Quanti fattori sono necessari per riuscire a riassumere in modo adeguato le relazioni fra le variabilibull Quali variabili appartengono ad un fattore e qual egrave la forza del loro legame col fattorebull Un sistema di riferimento geometrico che permetta di descrivere le relazioni fra le variabilibull Il livello (punteggio fattoriale) di ogni soggetto in ogni fattore (punteggio del soggetto nel costrutto che si intende misurare) come somma pesata (combinazione lineare) dei punteggi nelle variabili osservateLrsquoanalisi fattoriale esplorativa serve a individuare quante e quali dimensioni latenti possano essere utilizzate per spiegare la correlazione tra le variabili osservate Ersquo lrsquoapproccio che ha dato luce al Big Five Inventory che allrsquoinizio egrave nato come un insieme di item poi successivamente raggruppati nei 5 tratti di personalitagrave Lrsquoanalisi fattoriale confermativa invece si basa su fondamenti teorici e ci permette di specificare un preciso modello di misurazione e possiamo misurare se i fattori sono correlati tra loro

Lrsquoanalisi fattoriale esplorativaAvviene tramite la scomposizione della matrice di correlazione che permette di suddividere la varianza osservata di una variabile (o item) in una o piugrave parti alcune delle quali riflettono la proporzione di varianza che egrave in comune con altre variabili mentre altre stimano quanta varianza egrave unicaossia specifica di quellrsquoitem Ci sono 3 principi fondamentali

1 Causazione fa riferimento al modello di indicatori riflessivi Il coefficiente di relazione parziale egrave il coefficiente di correlazione tra le due variabili quando viene rimossa la quota di variabilitagrave comune dovuta alla loro relazione con una terza variabile

2 Parsimonia si cerca di raggruppare le variabili osservate nel minor numero possibile di sottogruppi che siano perorsquo il piugrave omogenei possibile tra di loro

3 Struttura semplice e numero minimo di item per fattore saturazione Correlazione fra punteggio nellitem e nel fattore (costrutto) La relazione egrave sostanziale se maggiore di 30 Si cerca la quota di variabilitagrave del punteggio nellrsquoitem spiegata dal fattore o il peso che ha lrsquoindicatore nel determinare il punteggio nella componente

bull Somma saturazioni al quadrato = comunalitagrave (h2)bull 1 - comunalitagrave = unicitagrave (u2)Occorre che ogni fattore sia saturato in modo sostanziale almeno da tre item

Struttura semplicebull Una sola saturazione sostanziale (uguale o maggiore di un valore minimo in genere |30| o |40|) su ogni riga (per ogni variabile osservata) rarr target loadingbull Tutte le altre saturazioni il piugrave basse possibile ossia comprese fra minus10 e +10 eo con una differenza di almeno 20 in valore assoluto rispetto alla saturazione principale rarr cross-loadingLe variabili che saturano sullo stesso fattore devono condividere lo stesso significato teorico mentre le variabili che saturano su fattori diversi devono far riferimento a costrutti concettualmente diversiAssunzioni statistiche analisi fattoriale1 Lrsquounica informazione nota egrave la varianza delle variabili osservate e le correlazioni fra queste2 La correlazione fra i Fattori Comuni quelli Unici egrave uguale a zero3 La correlazione fra i Fattori Unici egrave uguale a zeroFasi analisi fattoriale1 Pianificazione della ricerca e raccolta dei dati2 Esame delle caratteristiche psicometriche delle variabili e degli outliers3 Calcolo della matrice di correlazione ed esame della sua fattorizzabilitagrave4 Estrazione dei fattori5 Rotazione dei fattori6 Interpretazione dei fattori1_Pianificazione della ricerca e raccolta dei datibull Solida base teorica per la definizione del costruttobull Aver seguito tutte le fasi precedenti di sviluppo del testbull Scala di risposta (dicotomica o Likert)minore egrave la variabilitagrave di risposte agli item piugrave problematico saragrave individuare una buona soluzione fattorialebull Numero di item un costrutto ampio o varie facetbull Numero di soggetti (100-150 soggetti)bull Raccolta dei dati nel modo adeguato

2_Esame delle caratteristiche psicometriche delle variabili e degli outliersbull Analisi degli itembull Statistiche descrittive (del capitolo 4)bull Outliers1048766 Univariati1048766 Multivariati3_Calcolo della matrice di correlazione ed esame della sua fattorizzabilitagravebull Gli item non correlano solo percheacute sono operazionalizzazioni dello stesso costrutto1 item con forme della distribuzione (ie skewness e curtosi) uguali tenderanno ad essere maggiormente correlati fra di loro e quindi ad essere raggruppati in fattori indipendentemente dal contenuto (wording effects)2 gli item dicotomici e politomici sono meno attendibili dei punteggi di scala per cui la loro correlazione saragrave attenuata dalla loro parziale inattendibilitagrave e minore egrave la correlazione fra gli item minore saragrave la variabilitagrave comune che saragrave possibile spiegareQuale matricebull item tutti dicotomici rarr matrice di correlazione tetracoricabull item Likert molti con valori di skewness e curtosi fuoridal range [minus1+1] rarr matrice di correlazione policoricabull item Likert molti con valori di skewness e curtosi allrsquointerno del range [minus1+1]rarr matrice di correlazione di Pearson

Fattorizzabilitagrave - Sommariobull determinante della matrice di correlazione maggiore di zero e minore di unobull test di sfericitagrave di Bartlett con p lt 05 H0 la matrice di correlazione campionaria egrave stata tratta da una popolazione con distribuzione normale multivariata in cui le variabili (item) sono indipendenti Usa il chi quadratobull KMO gt 80bull KMO univariati (diagonale matrice anti-immagine dicorrelazione) tutti gt 70bull Non piugrave del 25 di elementi fuori diagonale della matriceanti-immagine di covarianza gt 094_Estrazione dei fattoriPartenza matrice di correlazioneComponente principale = asse che minimizza la somma delle distanze al quadrato di ogni puntoLa correlazione standardizza (M = 0 plusmn1) le variabili rarr centroide (00)Le componenti principali creano un nuovo sistema di riferimento cartesianoSaturazioni = coordinate cartesiane rispetto al nuovo sistema di riferimento cartesianoMatrice delle saturazioni = punto di arrivo dellanalisiLa proporzione di varianza totale spiegata egrave lrsquoautovalore il numero di item Lrsquoautovalore egrave la somma per colonna delle saturazioni elevate al quadrato Non egrave utile utilizzare le componenti che danno un auto valore minore di uno Solitamente

se ne utilizzano 2 Come si stimano comunalitagrave iniziali

bull Metodo classico valore assoluto della correlazione piugrave alta della variabile con le altre rarr il quadrato della correlazione maggiore della variabile con tutte le altre egrave il valore minimo di quantitagrave di varianza spiegabile da un fattore definito dalle due variabili in questionebull Metodo comuneCorrelazione multipla al quadratobull Metodo iterativoGenerazione casuale comunalitagrave iniziali rarr estrazione fattori e calcolo comunalitagrave di estrazione che vengono impiegate come comunalitagrave iniziali al ciclo successivoMetodi di estrazione del fattoribull Principal Axis Factoring (PAF)bull Maximum Likelihood (ML)bull Unweighted Least Squares (ULS)bull Weighted Least Squares Mean and Variance adjusted (WLSMV)(variabili dicotomiche) Quanti fattori estrarrebull Varianza spiegata minimabull Comunalitagrave di estrazione minimabull Kaiser-Guttmanbull Scree-testbull Parallel Analysis (PA)

bull Minimum Average Partial Correlation Statistic (MAP)bull Altri metodi (Hull)Analisi delle componenti principali o analisi fattoriale

Rotazione dei fattoriSi ruotano i fattori per interpretarli piugrave facilmente In pratica si spostano le coordinate su nuovi assi cartesiani Otteniamo due matrici la structure e la pattern Interpretazione dei fattoribull Almeno 3 item per fattorebull Replicabilitagrave della soluzione fattorialebull Gamma ridotta delle saturazioni (eg 40-60)bull Plausibilitagrave teorica del fattore comunebull Evitare forzatureAnalisi fattoriale confermativa (AFC)bull Cross-validationbull Metodo multi-gruppo per lanalisi fattoriale rarr deve essere noto in anticipo il numero dei fattoribull Rotazione verso matrice target (Procrusteana) rarr deve essere nota in anticipo la struttura della matrice delle saturazionibull Analisi strutture di covarianzaVALIDITArsquo Di criteriogrado di associazione tra la misurazione del costrutto tramite lo strumento e le misurazioni di altri costrutti utilizzati come criteri di riferimento esterni

Concorrente gradi in cui i punteggi a un test sono in relazione con un criterio consistente misurato in un gruppo preselezionato di soggetti

Predittiva grado in cui i punteggi a un test sono in relazione con un criterio consistente in un evento che accadragrave in futuro Postdittiva grado in cui i punteggi a un test sono in relazione con un criterio consistente in un evento accaduto nel passato

Validitagrave di costruttobull MacCorquodale amp Meehl (1948) rarr legittimitagrave filosofica dei costrutti ipoteticibull Cronbach amp Meehl (1955) rarr validitagrave di costrutto e nomologicabull Loevinger (1957) rarr validitagrave di costrutto come validitagrave unificante tutti gli altri tipibull Campbell amp Fiske (1959) rarr metodo per la verifica empirica della validitagrave di costrutto

Matrici multi-tratto multi-metodo1 Tutte le misure sono unitagrave di tratto (costrutto) VAR(punteggio) = VAR(costrutto) + VAR(metodo) + VAR(errore)2 Validitagrave convergente e validitagrave discriminante3 Varianza dovuta al metodo variabilitagrave che due misure condividono solo percheacute sono ottenute con lo stesso procedimentoMessick (1995) Teoria unica della validitagravebull validitagrave di contenuto valutazione della rilevanza del contenuto della sua rappresentativitagrave e della sua qualitagrave tecnicabull validitagrave sostanziale giustificazioni teoriche fornite per spiegare la coerenza delle risposte ai vari item del test e verificare che i processi definiti a livello teorico sono effettivamente rappresentati dagli item del testbull validitagrave strutturale corrispondenza della struttura del test con la struttura del dominio concettuale del costruttobull generalizzabilitagrave grado in cui le proprietagrave del punteggio e le sue interpretazioni possono essere generalizzate ad altri gruppi di soggetti contesti e situazionibull correlati esterni validitagrave di costrutto e di criteriobull le conseguenze dellrsquointerpretazione dei punteggi esamina il valore delle implicazioni dellrsquointerpretazione del punteggio come base per le decisioni da prendere sul soggetto e le effettive e potenziali conseguenze di queste decisioni

Metodi per la validitagrave di criteriobull Il criterio egrave adeguato sul piano teoricobull Il criterio puograve essere misurato adeguatamentebull Statistiche che consentono di verificare lassociazione o la differenza fra le medie di gruppibull Scopo del testbull Criteri osservativi rarr il problema dellattendibilitagrave degli osservatoriMetodi per la validitagrave di costruttobull Convergente stesso costrutto diverso metodobull Discriminante costrutto diverso stesso metodo

Capitolo 6 Interpretazione e standardizzazione dei punteggiSi differenziano i punteggi grezzi dai punteggi veri Per trasformarli ho bisogno di indici statistici come lrsquoindice di attendibilitagraveErrore standard di misurazionebull Se numero misurazioni rarr infin E egrave distribuito come N(0 σ2) e E(X) = M(X) = Vbull La probabilitagrave che questo avvenga egrave circa 40Quale valore di attendibilitagravebull Valori di SEM diversi a seconda di rtt utilizzatobull Test-retest rarr dipende da intervallo fra le somministrazionibull Coerenza interna rarr spesso calcolato su campione ampiobull Teoria della GeneralizzabilitagraveLimiti del SEMbull Viene assunto uguale per tutti i soggettibull Viene assunto uguale per ogni possibile livello nel costruttobull E lrsquoerrore standard della stima per la predizione del punteggio osservato a partire dal punteggio vero ma non egrave lrsquoerrore standard della stima per predire il punteggio vero a partire da quello osservatobull Dipende dai dati raccolti e dal campioneApplicazioni del SEMbull Calcolare gli intervalli (o bande) di fiducia del punteggio verobull Assunzionia Il punteggio osservato egrave uguale alla somma del punteggio vero piugrave la componente di erroreb Gli errori hanno distribuzione normalec La media degli errori egrave uguale a zerod La varianza degli errori egrave uguale a s2E e la deviazione standard egrave il SEMP = livello di fiducia P = 99 z = 258 1048766 P = 95 z = 196 1048766 P = 90 z = 164Standardizzazione dei punteggiImportanza delle normeSignificato del punteggio grezzo preso da soloScala ad intervalli rarr 0 arbitrariobull Fasi della standardizzazione

1 1048766 Identificare la popolazione target2 1048766 Determinare il metodo di campionamento e lrsquoampiezza campionaria adeguata e raccogliere i dati (importanza

del campionamento casualestratificato per clusters)

3 1048766 Calcolare gli indicatori statistici rarr tavole di conversione

Standardizzazione mediante punti standardbull Punteggi standard grezzi rarr calcolo punti zbull Punteggi standard normalizzati rarr calcolo rango

percentile e derivazione punto z normalizzato

4 1048766 Inserire le informazioni sulle norme del test nel manuale del test insieme alle procedure di somministrazione scoring dei punteggi e interpretazione dei risultati da inserire nel manuale del test

La necessitagrave di norme differenziate in base alle variabili socio-demografichebull Norme differenziate in base a variabili socio-demografiche come ad esempio etagrave genere o titolo di studio o altre variabili specifiche per il costruttobull Indagine di base semplici test statisticibull Indagine approfondita1048766 Modelli di analisi fattoriale confermativa multi-gruppo1048766 Differential item functioningIl manuale del testbull Definizione del costrutto e rassegna della letteratura scientifica sul costruttobull Procedure di sviluppo degli itembull Descrizione degli studi di validazionebull Norme del test

Scaling centrato sugli stimoliLrsquoobiettivo dello scaling non egrave quello di misurare gli individui ma gli stimoliMetodo dei confronti a coppie ( method of paired comparison Thurstone) i soggetti devono confrontare coppie di stimoli e in base ai dati ottenuti egrave poi possibile costruire una scala di misura in cui gli stimoli sono posti su un continuum costituito da una scala a intervalli dove quindi non esiste lo zero assoluto

Lo scaling centrato sui soggetti e sugli stimoliNei modelli di risposta allrsquoitem la risposta agli item egrave in funzione dellrsquoabilitagrave dei soggetto e della difficoltagrave dellrsquoitem In questo modello si tiene conto sia delle risposte dei soggetti relative al loro punteggio al costrutto sia della difficoltagrave o facilitagrave degli item o la probabilitagrave che i soggetti rispondano in un certo modo a quellrsquoitemModello di Rashsi basa sulla Teoria di risposta allrsquoitem secondo cui il livello di abilitagrave di un soggetto egrave indipendente dalla difficoltagrave dellrsquoitem il cui livello a sua volta egrave indipendente dallrsquoabilitagrave di chi risponde Lrsquoobiettivo dei modelli di IRT egrave quello di avere una stima dellrsquoabilitagrave del soggetto indipendentemente dalla difficoltagrave dellrsquoitem Il modello ha 3 proprietagrave

oggettivitagrave specifica le misure che si ottengono dipendono sia dallo specifico insieme di item impiegato sia dallo specifico gruppo di soggetti utilizzato per verificare le proprietagrave psicometriche del test

Sufficienza il conteggio delle risposte corrette o la somma delle risposte su scala di valutazione fornite dai soggetti agli item egrave una statistica sufficiente per determinare il livello degli individui nella caratteristica che si sta cercando di misurare e il livello di difficoltagrave degli item

Separabilitagrave distinguere gli effetti dovuti alle caratteristiche delle persone da quelli dovuti alle caratteristiche degli item

Lrsquoindipendenza locale (proprietagrave non specificata nei modelli si Rasch) per la quale i punteggi degli indicatori osservabili sono tra loro indipendenti quando la variabile latente (caratteristica psicologica) rimane costante

Rasch si pone il problema della concatenazione tra due fattori Attraverso un analogia con il concetto di accelerazione in fisica rasch fa i seguenti calcoli

Tale funzione rientra nella famiglia delle funzioni logistiche che costituiscono uno dei raggruppamenti di modelli di risposta allrsquoitem Lrsquoaltro egrave quello delle funzioni ogiva dove possiamo rappresentare graficamente la probabilitagrave di risposta corretta allrsquoitem in base alla differenza tra lrsquoabilitagrave del soggetto e difficoltagrave allrsquoitem o in funzione dellrsquoabilitagrave del soggetto attraverso la curva caratteristica dellrsquoitem Il logaritmo del rapporto fra la probabilitagrave di rispondere correttamente allrsquoitem e la probabilitagrave di non rispondere correttamente prende in gergo statistico il nome di logit


























































































































































































































































































































































































































































































































































Documents

Teoria e tecnica psicometrica