1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Lezioni successive [email protected] Strumenti statistici per le ricerche

1

Parte prima

Introduzione all’inferenza statisticadi Antonio Mussino

Lezioni successive

[email protected]

Strumenti statistici per le ricerche di mercato e la customer satisfaction

L’intervallo di confidenza: il caso della binomiale

Quando ci troviamo di fronte a una variabile qualitativa e l’unica informazione quantitativa è la proporzione di una categoria, possiamo utilizzare la stessa strategia dell’intervallo di confidenza: per fare questo dobbiamo introdurre una variabile di lavoro, che chiamiamo binomiale (o dummy), i cui valori sono solo 1 presenza e 0 assenza della categoria in questione.

2

….

La binomiale può essere trattata come una variabile quantitativa, per cui ne possiamo calcolare la media e lo s.q.m. (usiamo le formule ponderate):

µπ = 1*π + 0*(1-π) = π

σπ = √((1-π)2*π + (0- π)2*(1-π))

= √(π-2π2+π3+π2- π3) = √(π-π2)

= √(π*(1-π))

3

Esempio

Ad esempio, se consideriamo una votazione per un candidato sindaco, le categorie di riferimento sono i nomi dei vari candidati: Paolino Paperino, Gastone Paperone e Paperon de Paperoni. Possiamo puntare l’attenzione sul candidato Paolino Paperino e costruire per lui una variabile binomiale che assume il valore 1 per tutti gli elettori che votano per questo candidato e 0 altrimenti: se la proporzione di votanti pe P.P. è 0.5 (ovvero il 50%), la media della variabile binomiale sarà 0.5 e lo s.q.m. sarà anche esso 0.5.

4

….

La binomiale non ci interessa direttamente, ma è utile perché tramite le sue caratteristiche possiamo applicare anche a una variabile qualitativa le strategie di inferenza statistica.

Se, infatti riprendiamo l’intervallo di confidenza per la deduzione (a), lo possiamo riscrivere in questo modo:

Proporzione dei casi

(π -1,96 √(π(1-π))/√n ≤ p ≤ π +1,96 √(π(1-π))/√n) = 95%

5

…. Ovvero nel 95% dei campioni di dimensione n la

proporzione campionaria p di coloro che votano Paolino Paperino sarà un valore compreso fra la proporzione nella popolazione π più o meno un certo valore pari a 1,96 π(1-π)/√n.

6

La distribuzione campionaria della proporzione

Nell’esempio citato, nel caso di n=100, l’intervallo di riferimento sarà tra il valore .50-1,96*.5/10, ossia circa .40, e .50+1,96*.5/10, ossia circa .60, il che vuol dire che nel 95% dei casi in uno dei tantissimi campioni di 100 elettori la percentuale di votanti per Paolino Paperino sarà compresa fra il 40% e il 60%.

7

L’induzione

Quello che ci interessa di più è, ovviamente, l’intervallo nel caso dell’induzione (b):

Proporzione casi

(p -1,96√(π(1-π))/√n ≤ π ≤ p +1,96 √(π(1-π))/√n) = 95% (b)

Nell’esempio citato, se in un campione di 100 elettori 56 hanno espresso il loro gradimento per Paolino Paperino, possiamo inferire che, nel 95% dei casi (ossia con la fiducia che l’evento avvenga nel 95% dei campioni estratti), la vera percentuale di votanti per il nostro candidato è compresa fra il 46% e il 66% circa.

8

….

Nel caso di una competizione come quella per il sindaco vince chi raggiunge il 50,0% più 1 voto, quindi il nostro intervallo (b) non ci dà alcuna informazione utile. Se il campione fosse di 1600 elettori, invece, l’intervallo sarebbe:

Proporzione casi (0,56-1,96√(0,5(1-0,5))/√1600≤ π ≤0,56+1,96√(0,5(1-0,5))/√1600)

= 95% (b) Ossia la vera percentuale di votanti per P.P. sarebbe

compresa fra il 53,5% e il 58,5%, circa quindi P:P vincerebbe le elezioni.

9

….

Avete visto che, in questo secondo intervallo, lo scarto quadratico medio nella popolazione (√(π(1-π)) incognito è stato stimato usando per π il valore 0.5.

Si tratta di una scelta conservativa, ossia di una scelta che tiene conto della peggiore situazione possibile che ci può capitare[1]; avremmo anche potuto stimare π con il valore campionario p (in questo caso 0.56), oppure utilizzare altre informazioni note a priori per effettuare questa stima.

[1] Il valore 0,5 (ottenuto da √(0.5*0.5)) è, infatti, il massimo della funzione √(π(1-π)).

Il problema della scelta della numerosità campionaria

Quando si vuole effettuare un’indagine campionaria, in genere, si deve fare i conti con un budget limitato e, quindi, si vorrebbe scegliere un campione di numerosità ridotta.

Questo può portare a: spreco di denaro, se fosse sufficiente un

campione più piccolo; analisi statistiche non significative, se il campione

fosse troppo piccolo.

….

Abbiamo, però, visto che negli intervalli di confidenza il valore di “n” è collocato al denominatore dell’errore della stima: quanto più “n” è grande, tanto più l’errore è piccolo!

Si tratta allora di trovare una situazione di compromesso tra

l’esigenza di spendere poco e quella di avere una stima la più accurata possibile.

La dimensione dei campioni

Nel caso delle proporzioni una formula generale per individuare la proporzione campionaria parte dalla definizione dell’errore di stima massimo accettabile. Indichiamo con ε tale errore e risolviamo la seguente disequazione:

1,96√(π(1-π))/√n ≤ ε rispetto a “n”

n ≥ 1,962 (π(1-π))/ ε2 (i) Ricordiamo sempre che, non conoscendo il valore di π,

questo può essere stimato con 0.5, che 1,96 è il valore che, nella distribuzione normale, corrisponde a un livello di fiducia del 95% e che ε lo scegliamo noi.

Esempi:

Ad esempio, volendo una stima con un intervallo di ±0,02 (ossia 2%), la dimensione campionaria sarà:

n ≥ 1,962 (0,5(1-0,5))/ 0,022≥ 2400; se, invece, posso stimare tramite informazioni a priori

che π=0,2, allora: n ≥ 1,962 (0,2(1-0,2))/ 0,022≥ 1536;

se volessi un intervallo di fiducia al 99% con π=0,5, allora:

n ≥ 2,5752 (0,5(1-0,5))/ 0,022≥ 4144; se, infine, mi accontentassi di un errore di 0.04, al 95%

con la stima di π=0,2, allora: n ≥ 1,962 (0,2(1-0,2))/ 0,042≥ 384.

Nel caso di una media

Il problema è analogo se si vuole scegliere la dimensione campionaria per stimare una media: in questo caso non è così facile fornire una stima per lo s.q.m. della popolazione incognito, non abbiamo neanche a disposizione quello del campione. Sarà necessario utilizzare informazioni a priori di precedenti studi.

Campionamento in blocco

Un altro problema che abbiamo accantonato è legato alle modalità di scelta del campionamento: con reintroduzione o in blocco. La formula proposta è valida nel campionamento con reintroduzione: in quello in blocco l’errore va moltiplicato per il coefficiente √((N-n)/(N-1)). Se questo coefficiente venisse inserito nella formula per il calcolo di “n” la situazione si complicherebbe.

Vediamo allora di scomporre il coefficiente, considerando la frazione (N-n)/(N-1). Questa può essere scritta

N/(N-1) –n/(N-1) e approssimata in

1 –n/N.

L’uso di n/N

Il rapporto n/N ci dà una misura del peso del campione rispetto alla popolazione: se N è infinita o grandissima è 0 e il coefficiente correttivo è 1, quindi non cambia nulla rispetto alla formula precedentemente proposta.

Cambia molto poco anche se n/N è molto piccolo (<0,01), anche perché poi dovremmo fare la radice del coefficiente. Se, infine, n/N non è piccolissimo (e questo dipende prevalentemente dal fatto che N non è grande) nella formula (i) si individuerà una dimensione minore per il campione.

Pertanto non considerando mai questo coefficiente si adotta un approccio uguale o tutto al più conservativo.

La stima negli strati

Un’ultima considerazione da fare su questo tema è relativa al rapporto tra dimensione campionaria ed errore di stima nelle indagini: quando si trova una dimensione campionaria compatibile col nostro errore di stima, bisogna far attenzione al fatto che suddividendo poi il campione in strati l’errore di stima cambia, crescendo sempre più con la riduzione della numerosità negli strati.

Esempio

Ad esempio, se con 2400 interviste riesco a stimare la percentuale di possessori della bibliocard tra gli utenti delle Biblioteche di Roma con un errore di ±2%; quando vado a valutare la diversa situazione per sesso, avrò due strati di circa 1200 intervistati maschi e 1200 femmine: l’errore di stima in ognuno dei due strati salirà a ±2,8%; e così via.

La distribuzione t di Student

Abbiamo già introdotto la necessità di utilizzare nell’intervallo di confidenza (fase dell’induzione) il σ della popolazione, che è incognito: si può stimare con informazioni a priori e, in questo caso, la distribuzione cui far riferimento per la media campionaria è la normale; oppure si può stimare con quello del campione e, in questo caso, la distribuzione cui fare riferimento è la t di Student.

I gradi di libertà

Ora, però, se noi andiamo a vedere una tavola della distribuzione t di Student, vediamo che essa dipende dai gradi di libertà (n-1, ossia osservazioni “n” meno vincoli “1”, la media) e mano a mano che “n” cresce ci si avvicina alla normale: la t di Student coincide con la normale per n->∞, ma già le differenze sono minime per n>50.

Che fare?

Possiamo allora affermare che: se abbiamo informazioni su σ usiamo le tavole della

normale; se stimiamo σ tramite sx del campione e n>50 usiamo le

tavole della normale; se stimiamo σ tramite sx del campione e n≤50 usiamo le

tavole della t di Student. Le tavole della t di Student sono molto più semplici,

avendo solo i valori di riferimento solo per alcuni intervalli di confidenza, quelli con livello di fiducia del 90%, 95%, 99%, 999‰ e così via.

Il test di ipotesi

In genere, più che cercare di stimare una statistica sulla popolazione, i metodi inferenziali tendono a verificare una qualche ipotesi sulla popolazione stessa: un’ipotesi in Statistica è proprio un’affermazione sulla popolazione, ossia la previsione che un parametro assuma o un particolare valore o ricada in un certo intervallo di valori.

Ad esempio, che un candidato abbia o meno la maggioranza di coloro che voteranno, che in un’azienda gli uomini siamo retribuiti meglio delle donne, che l’appartenenza a una certa categoria della popolazione influenzi il comportamento elettorale.

….

Una volta definita un’ipotesi sulla popolazione bisogna raccogliere i dati campionari e verificare se i risultati, sintetizzati in una statistica test (ossia una stima puntuale del parametro nella popolazione), ci

permettono di rifiutare o meno la nostra ipotesi.

Le ipotesi H0 e Ha

Per comodità costruiamo due ipotesi alla base del nostro ragionamento: un’ipotesi nulla H0 e un’ipotesi alternativa Ha. L’ipotesi nulla corrisponde, in genere, a una situazione di assenza di effetto, mentre quella alternativa presuppone un effetto, anche se non sarà possibile misurarlo col test.

Il test

Il test infatti valuta l’evidenza campionaria dell’ipotesi H0,

ossia investiga se i dati contraddicano l’ipotesi nulla in

maniera da suggerire che Ha sia vera. In altre parole, si

suppone che H0 sia vera e, se si trova che i dati

riscontrati nel campione molto difficilmente possono

essere fatti risalire a quella ipotesi perché la probabilità

del test è molto bassa, allora si propende per l’ipotesi

alternativa.

Esempio

Ad esempio, si vuole studiare se nella carriera

accademica ci sia una discriminazione per le donne: se

tale discriminazione non ci fosse la percentuale di donne

nella fascia dei Professori ordinari sarebbe la stessa di

quella nella fascia dei Ricercatori (40%, ovvero una

proporzione di 0,40).

L’ipotesi nulla

Si formula, allora, l’ipotesi H0 che rappresenta il fatto che non c’è differenza (ipotesi nulla) nella fascia degli ordinari (π=0,40) e si testa in contrapposizione a quella alternativa (π≠0,40).

Attenzione! L’ipotesi alternativa così scritta è definita bilaterale (a due code): prevede sia il caso in cui le donne siano discriminate (π<0,40), sia quello in cui siano gli uomini ad esserlo (π>0,40).

Se si volesse considerare, come purtroppo capita, solo il primo caso allora il test potrebbe anche essere unilaterale (a una coda).

Esempio

Prendiamo ora un campione casuale semplice di Professori ordinari, con n=64, e troviamo che fra di essi le donne sono solo 16, ossia il 25%.

Costruiamo il test statistico: come ricorderete la distribuzione delle proporzioni campionarie è normale, con media pari a π e s.q.m. pari a √(π(1-π))/√n.

Così la proporzione campionaria standardizzata, il punteggio zp, sarà uguale a

(p-π)/ √(π(1-π))/√n, ovvero

(0,25-0,40)/√(0,40*(1-0,40))/√64 = -2,45

La decisione

Il valore -2,77 nella tavola della normale standardizzata lascia alla sua sinistra[1] lo 0,71%, quindi solo in 71 campioni su 10000 (in caso di test unilaterale, in 142 su 10000 in caso di test bilaterale) si verificherebbe un risultato simile se fosse vera H0.

L’evidenza empirica ci porta quindi a rifiutare l’ipotesi nulla e ad accettare Ha: c’è discriminazione.

[1] Attenzione poiché la normale è simmetrica il risultato per -2,77 si ricava leggendo quello per 2,77 e invertendo il verso.

Intervallo di confidenza

Anche l’intervallo di confidenza può essere usato per testare questa ipotesi: si costruisce l’intervallo di confidenza al 95% (in questo caso, controllate, andrebbe bene anche al 99%) intorno a π=0,40, che corrisponde ai valori compresi fra 0,40-1,96√(0,40(1-0,40))/√64 e 0,40+1,96√(0,40(1-0,40))/√64, ossia fra 0,28 e 0,52.

Poiché 0,25 è fuori dall’intervallo si rifiuta H0 perché il nostro test non rientra tra i valori possibili che derivano da una popolazione con quella proporzione, distaccandosene solo per effetto del caso!

Il valore di probabilità (p-value)

Una volta che si è calcolato il test statistico, ossia la stima puntuale campionaria del parametro della popolazione, conoscendo la sua distribuzione campionaria si può individuare quale sarebbe la probabilità di verificarsi di un tale valore, o di uno più grande, qualora fosse vera l’ipotesi nulla.

Questa probabilità è il p-value, che viene fornito per tutti i test nei principali software statistici disponibili.

Come trovare il p-value

La conoscenza del p-value ci evita di andare a consultare tavole differenti a seconda di test differenti: bisogna ricordare che il test è significativo (ossia si rifiuta l’ipotesi nulla) quando il p-value è inferiore a un livello di probabilità da noi scelto (0,01; 0,05; 0,001 e così via), oppure quando è superiore ai valori sulle tavole corrispondenti ai livelli di probabilità scelti.

Sintesi - 1

Possiamo quindi riassumere i vari passi di un test di ipotesi:

a- si formulano l’ipotesi nulla e quella alternativa, relativamente al parametro nella popolazione;

b- a seconda del tipo di dati a disposizione si calcola il test statistico nel campione;

c- utilizzando le informazioni sulla distribuzione campionaria del test, qualora sia vera l’ipotesi nulla, si calcola il p-value;

Sintesi - 2

d- confrontando il p-value con il valore di probabilità con il quale assegniamo il livello di fiducia nella nostra decisione, rifiutiamo o non rifiutiamo l’ipotesi nulla;

e- il procedimento può non finire qui, in quanto quando rifiutiamo l’ipotesi nulla con un p-value significativo allo 0,05, abbiamo sempre un rischio - nel 5% dei casi - di aver rifiutato un ipotesi vera; così quando non la rifiutiamo abbiamo sempre il rischio di non aver rifiutato un’ipotesi falsa[1].

[1] Questi ulteriori passi fanno parte della Teoria delle decisioni statistiche, che non affrontiamo in questo corso.

Test di ipotesi nel caso di una media

Chiudiamo questa parte con l’esempio relativo a una variabile quantitativa: in questo caso il parametro è la media nella popolazione e il test statistico è la media campionaria. Abbiamo un campione di anziani maschi dai 65 ai 70 anni che sono pensionati in Case di riposo della Regione Lazio.

Da studi geriatrici sappiamo che il peso medio µx in quella fascia d’età è di 70 chilogrammi, con un σx di 10 chilogrammi. Vogliamo vedere se i ricoverati sono più o meno ben nutriti dei loro coetanei (il test è quindi bilaterale). Il campione è di 49 anziani e il peso medio Mx è uguale a 68 chilogrammi con sx=5 chilogrammi.

….

L’ipotesi nulla è che i ricoverati sono altrettanto nutriti dei loro coetanei che vivono a casa: H0 è che µx=70; Ha è µx≠70 (bidirezionale).

L’ipotesi nulla equivale a dire che non c’è nessuna differenza fra gli anziani nelle due situazioni, quella alternativa che il trattamento, ossia il soggiorno nelle Case di riposo, ha un qualche effetto, positivo o negativo che sia sulla nutrizione degli anziani.

….

Il test statistico è la media campionaria (68), che standardizziamo rispetto alla distribuzione delle medie campionarie, che è normale con media 70 e s.q.m. pari a 10/√49.

Il,valore standardizzato (zx= (x-µx)/σx/√n) è -1,4, che ha un p-value pari a 0,0808, ossia 8,08%, ben superiore al 2,5% che sta nella coda di un intervallo di confidenza al 95%.

Il valore è quindi dentro l’intervallo e noi non possiamo rifiutare l’ipotesi nulla. Il peso medio più basso sarà dovuto alla variabilità campionaria e non a una situazione oggettivamente diversa.

…..

In questo test abbiamo usato al posto di σx un dato fornito da studi geriatrici. Se lo avessimo, invece, stimato tramite sx (=6), dato che la variabilità in appartenenti allo stesso gruppo sembra essere molto più ridotta e quindi il test più accurato, il test statistico sarebbe stato il valore della t di Student

tx= (x-µx)/sx/√n= 2,8.

Questo risultato ci fornisce un p-value pari a 0,0048 che ci spinge a rifiutare l’ipotesi nulla!

Documents

1 Parte prima Introduzione allinferenza statistica di Antonio Mussino Lezioni successive [email protected] Strumenti statistici per le ricerche