Statistic A Recovered) 2

Embed Size (px)

Citation preview

Biostatistica descrittiva - Leonardo Schrikker Palestini Statistica -> Metodi che consentono di raccogliere, ordinare, riassumere e presentare dei dati per analizzarli e trarre conclusioni in base ai risultati. Descrittiva -> riduce i dati in forma maneggevole, sostituendo a molti numeri poche misure Inferenziale -> generalizza le informazioni, ricavando propriet e leggi genreali sulla base di dati rilevati solamente su un campione di popolazione Def: Campione e Universo: un campione un insieme di elementi tratti da un universo (o popolazione). Un universo consiste nella totalit degli elementi che hanno certe caratteristiche Unit statistica: ogni elemento o caso appartenente alla popolazione che presenta certe caratteristiche da cui poi si raccolgono i dati. Variabile statistica: Ciascuna informazione che verr rilevata sulle unit statistiche. I dati sperimentali, che si presentano sotto diverse forme. Modalit: sono i modi in cui ogni variabile pu presentarsi. Frequenza: Numero di volte che una data modalit si presenta.

Esempio Numero di anni -> Numero di chili -> Numero di ore -> Maschio o femmina -> Numero di denti-> modalit per la variabile et modalit per la variabile peso modalit per la variabile sonno modalit per la variabile sesso modalit per la variabile denti

Variabili statistiche Qualitative (ordinali o nominali) Quantitative (discrete o continue)

Studio Statistico Stabilito un fenomeno da studiare, occorre individuare il collettivo su cui studiarlo, i caratteri da rilevare ed un campione significativo di unit statistiche. Domanda: Esaminare tutta la popolazione (censimento) o esaminarne solo un campione (indagine, sondaggio o inchiesta)? -> rilevazione totale (conoscenza esatta del fenomeno) o rilevazione parziale (solo una stima) dipende dai tempi, dai mezzi e dalle possibilit a disposizione, considerando i dettagli ed i possibili errori associati alla rilevazione. Distribuzione di frequenze I dati (le informazioni raccolte) spesso non sono di immediata lettura, per questo si procede ad una sistemazione e sintesi delle informazioni raccolte. Per ogni variabile si calcolano le frequenze assolute che rappresentano il numero di unit statistiche che presentao una stessa modalit del carattere.

Biostatistica descrittiva - Leonardo Schrikker Palestini

Distribuzione semplice Sesso M F Totale Frequenza assoluta 2 10 12

Sesso M F Totale

Gruppo A Frequenza assoluta 12 16 28

Gruppo B Frequenza assoluta 7 10 17

Il confronto non sempre pu essere effettuato solo conoscendo le frequenze assolute di un fenomeno, in quanto queste potrebbero riferirsi a collettivi di numerosit diverse, occorre normalizzare, depurare le frequenze della numerosit del collettivo, si dividono le frequenze assolute per la numerosit del collettivo stessa ed eventualmente moltiplicando per 100 ottenendo rispettivamente la frequenza relativa e la frequenza percentuale. Grafici Diagrammi a Barre -> variabile qualitativa (fuma? Si/no) frequenze assolute

-

Grafico a torta -> variabili qualitative (mangia a colazione?) frequenze percentuali - 20%: No - 20%: Casualmente - 20%: Poco - 20%: Abbastanza - 20%: Molto Istogramma -> Variabili quantitative (pressione arteriosa in mmHg)

-

Biostatistica descrittiva - Leonardo Schrikker Palestini

Frequenza cumulata Esempio: tra le madri fumatrici i bambini con peso inferiore a 89 once sono 40... Funzione di ripartizione empirica Associa ad ogni frequenza relativa la frequenza relativa cumulata, nota bene: Variabile quantitativa continua -> funzione continua. Variabile quantitativa Discreta -> funzione a scalini.

Indici statistici Indice -> numero che rappresenta lentit di un dato. Bisogna trovare un indice che rappresenti significativamente un insieme di dati statistici. Misure di Posizione Media artimetica: quel valore che sostituito a ciascuno degli n dati ne fa rimanere costante la somma

Media aritmetica semplice:

Media aritmetica ponderata

(ciascun valore moltiplicato per il proprio peso, la propria frequenza assoluta). La media viene influenzata dalle oservazioni aberranti o estreme. Mediana: un indice che bipartisce la distribuzione in modo tale da lasciare al di sotto di se lo stesso numero di termini che lascia al di sopra di se. SI tratta di un numero pi grande di un 50% delle osservazioni e pi piccolo del restante 50%.

Biostatistica descrittiva - Leonardo Schrikker Palestini Calcolare la mediana: 1) Ordinare i dati in modo crescente 2) Se n (numero di dati) pari, si fa la media tra n/2 e (n+1)/2 3) Se n dipari, si sceglie il dato che occupa la (n+1)/2 esima posizione Per classi:

-

E.Inf: estremo inf classe mediana : somma delle frequenze delle classi precedenti Classe mediana: contiene lelemento N/2 (N totale delle frequenze) La Moda: losservazione che si verifica con maggiore frequenza.

In una distribuzione perfettamente simmetrica (normalizzata) moda media e mediana corrispondono allo stesso numero. Quartili: Sono quei valori che dividono la distribuzione in 4 parti, ognuna con lo stesso numero di unit

Si calcolano mediana tra e MIN mediana totale mediana tra e MAX

Quantili: Quel valore di q (q-quantile) che divide la distribuzione in due parti, proporzionali a q a sinistra e 1-q a destra. Misure di variabilit Non sufficiente fornire semplicemente una misura della media, ma servono informazioni sulla variabilit. Popolazioni con la stessa media possono avere un grado molto diverso di variazione dei dati. Questa variazione si esprime attraverso le misure di dispersione. Misure di dispersione Deviazione quadratica media (varianza): si ottiene sommando i quadrati delle deviazione dalla media di ciascun dato e dividendo la somma per n, la radice quadrata della definita Deviazione standard ().

Biostatistica descrittiva - Leonardo Schrikker Palestini Range (campo di variazione): il campo di variazione corrisponde alla differenza fra la modalit pi grande e quella pi piccola della distribuzione

Il range non considera come sono distribuiti i dati ed molto sensibile a valori eccezionalmente grandi o piccoli. - Range interquartile: , si utilizza per escludere linfluenza di dati estremi di una distribuzione e considerare solo quelli centrali, per dare pi importanza allindice di tendenza centrale. rappresentato dal Box-Plot:

-

Deviazione standard e Varianza: la deviazione standard la misura di variabilit pi usata. La varianza il quadrato della deviazione standard e misura lunit di dispersione dei dati della media. Pi grande la varianza, meno la media rappresenta le osservazioni, perci maggiore la perdita di informazioni

-

Coefficiente di variazione: adimensionale, utile per confrontare due deviazioni standard, esprime lampiezza percentuale di rispetto a .

Biostatistica descrittiva - Leonardo Schrikker Palestini

Regressione Lineare Quando si considerano due o pi caratteri (variabili) si possono esaminare anche il tipo e lintensit delle relazioni che sussistono tra di loro. Nel caso in cui per ogni individuo si rivelino congiuntamente due variabili quantitative possibile verificare se esse variano simultaneamente e quale relazione matematica sussiste tra queste variabili. Analisi della regressione: quando per ciascuna unit statistica si rilevano due caratteristiche, si ha una distribuzione doppia. Unit 1 2 3 ... n Carattere X Carattere Y

...

...

Diagramma di dispersione (scatter plot): Si considera ogni coppia della distribuzione come coordinate cartesiane di un punto del piano. Si ottiene in modo visivo una relazione tra le due variabili (nuvola di punti). Unit 1 2 3 4 5 et 25 30 35 40 45 mmHg 120 100 140 120 190

-

Di quanto varia la mmHg con let? La relazione tra le due variabili lineare?

Per stimare la retta che meglio approssima la distribuzione dei punti, si pu partire considerando che la y di ogni punto osservato si discosta dalla retta di una certa quantit detta errore o residuo. La forma di relazione pi semplice tra le due variabili la regressione lineare semplice, rappresentata dalla retta di regressione. Ora, se i punti sono messi a caso, senza apparente regolarit, vuol dire che non c correlazione tra le variabili. Se invece i punti lasciano intuire il passaggio tra di essi di una retta interpolante, allora possiamo

Biostatistica descrittiva - Leonardo Schrikker Palestini ipotizzare una correlazione. (retta interpolante positiva, corelazione diretta, retta interpolante negativa, correlazione inversa). Bisogna calcolare il coefficiente di correlazione

Covarianza

Deviazione standard Variabile X

Deviazione standard Variabile Y

-1< Se se se |

associazione diretta -> associazione inversa -> lasciar perdere lindagine

Determiniamo i coefficienti della retta:

Per convalidare il modello di stima, abbiamo a disposizione due metodi: Analisi dei residui (qualitativo) Coefficiente di determinazione

(qualitativo)

Valori teorici

Valori del carattere Y stimati dalla retta di regressione in corrispondenza delle osservazioni

.

Si definiscono residui le differenze tra i valori teorici e quelli osservati. Il calcolo dei coefficienti a e b si effettuano a partire dai dati osservati tramite il metodo dei quadrati.

Biostatistica descrittiva - Leonardo Schrikker Palestini Per avere un buon modello, i residui devono assumere un andamento casuale tra positivo e negativo. Coefficiente di determinazione Tanto pi prossimo a 1 tanto migliore il modello, per un buon modello bisogna considerare

Outlier -> re non torna e nel grafico dei residui alcuni sono molto lontani dalle ascisse, questi punti si possono eliminare (probabili errori di campionamento o misura) -> bisogna evidenziarlo nel rapporto. Analisi statistica bivariata Lo studio di un fenomeno si attua generalmente rilevando contemporaneamente pi caratteri su ogni unit statistica, per spiegare il fenomeno attraverso le associazioni che si possono fare tra le variabili. Evidenza se vi sono correlazioni o qualche relazione tra due o pi distinte variabili aleatorie. Frequenza congiunta: tabella di contingenza, suddividiamo le unit in classi secondo entrambi i caratteri, contiamo le unit di ciascuna classe. Caratteri qualitativi: le classi corrispondono alle modalit Caratteri quantitativi continui: le classi vengono identificate raggruppando in classi i valori assumibili dei catatteri Caratteri quantitativi discretti: le classi sono i numeri stessi

Costruire una tabella di contingenza: X e Y sono le variabili osservate in ciascuna delle n unit del collettivo ... ... sono le modalit assunte -> frequenza assoluta dellunit in cui X assume modalit e Y assume modalit Totale riga

Totale colonna

n

Questa tabella pu essere normalizzata Distribuzione congiunta di frequenze relative Al margine si ottengono le distribuzioni di frequenza relativa dei due caratteri consiferate separatamente

Distribuzioni condizionate

Biostatistica descrittiva - Leonardo Schrikker Palestini Fissiamo una modalit del carattere x e stimiamo la distribuzione su quella riga del carattere y, y/x (distribuzione di y dato x) Distribuzione relativa condizionata La distribuzione relativa si ottiene normalizzando quella assoluta, dividendo i valori delle caselle della riga fissata per il totale di riga. In questo modo si pu studiare linfluenza di una delle variabili sulla variabilit dellaltra. Associazione tra due caratteri Verificare se alcune modalit di x sono asociate preferibilmente a modalit di y -> diagramma a nastro (di bambini nati con peso da 60 a 69 once, quante mamme fumavane e quante no...quanto il fatto che la mamma fumi o no influisca sul peso del bambino). Chi quadro di Pearson Serve a calcolare quantitativamente la connessione statistica, quanto le frequenze osservate si discostino da quelle attese. Se le modalit di un carattere non avessero influenza sulle modalit dellaltro, tutte le distribuzioni relative dovrebbero essere uguali.

(

)

Se vale 0 -> non ci sono associazioni tra le due variabili, ma da solo non conta un granch, serve lausilio di un secondo indice il phi-quadro .

| |

| |

forte legame tra le due variabili. non c legame.

Due variabili sono indipendenti se il fatto di conoscere il valore di una non da alcuna informazione sul valore della seconda. Rischio Relativo RR -> misura di quanto aumenta la probabilit di contrarre una malattia essendo esposti ad un fattore di rischio rispetto a chi non esposto.

Odds

Biostatistica descrittiva - Leonardo Schrikker Palestini Se la probabilit di un evento p, allora lodd in favore di p/1-p a 1. Esempio, se p = , /1/4 = 3, dunque lodd di 3 a 1, la probabilit che levento si verifichi 3 volte superiore a quella che levento non si verifichi. Odds Ratio OR -> Confronta il rischio di malattia in due gruppi diversi di persone

Malati Non malati totale

Esposti a c a+c

Non esposti b d b+d

Totale a+b c+d n

Se il valore dell'OR uguale a 1, significa che l'odds di eposizione nei sani uguale all'odds di esposizione nei malati, cio il fattore di rischio ininfluente sulla comparsa della malattia. Se il valore dell'OR maggiore di 1, il fattore di rischio o pu essere implicato nella comparsa della malattia; se il valore dell'OR minore di 1 il fattore di rischio in realt una difesa contro la malattia. Fattore confondente -> paradosso di Simpson, una relazione tra due fenomeni viene apparentemente modificata o persino invertita dai dati in possesso a causa di altri fenomeni non presi in considerazione nellanalisi. alla base di frequenti errori nelle analisi statistiche. Esempio: stato osservata una forte associazione tra svolgere attivit ed incidenza dinfarto, chi fa pi attivit fisica ha meno probabilit di avere un infarto. Fattore confondente -> et: chi fa attivit fisica mediamente pi giovane di chi non ne f, e chi pi giovane ha meno probabilit di avere infarti, mentre chi fa attivit fisica in et avanzata senza i dovuti controlli ha unincidenza dinfarto maggiore. PROBABILIT La probabilit di malattia d una misura numerica di quanto il medico creda che essa sia presente nel paziente. La malattia pu essere nel paziente, la probabilit nella mente del dottore. Definizioni Esperimento: operazione il cui risultato non prevedibile con certezza, unosservazione che da luogo al verificarsi di fattori aleatori. Evento: ogni possibile risultato di un esperimento, un fatto che a seguito di una prova pu accadere oppure no. Evento aleatorio: non possibile prevedere con certezza se avver o no. Spazio degli eventi : spazio campione

Biostatistica descrittiva - Leonardo Schrikker Palestini

: insieme degli studenti di medicina. : studenti di medicina miopi. : studenti di medicina mancini.

Possibili operazioni tra gli insiemi: Intersezione e Unione o Complementare Differenza -> -> -> -> studenti miopi e mancini studenti miopi o mancini tutti gli studenti non miopi studenti miopi non mancini Casi favorevoli su casi possibili Definizione classica Casi in cui si verifica su numero di esperimenti Dipende essenzialmente dalla fiducia che il soggetto ripone nellesperimento Non funziona in caso di eventi non equiprobabili Non tutti gli esperimenti sono ripetibili Non tutti i soggetti sono affidabili

(-

)

Definizione frequentistica

Definizione Soggettiva

...

Eventi composti Sono quegli eventi che si ottengono combinando eventi elementari Esempio: lanciando un dado -> che esca un numero pari

Probabilit condizionate Probabilit condizionata di A dato B. | -> se : il verificarsi di B rende pi probabile il verificarsi di A

|

Problema diagnostico -> se Formula di Bayes

|

: il verificarsi di B rende meno probabile il verificarsi di A

Biostatistica descrittiva - Leonardo Schrikker Palestini

|

| | |

Soggetto sieropositivo P(M) = 0.006 Test diagnostico risponde + nel 99% dei casi in cui viene eseguito su un sieropositivo e nel 98% dei casi in cui viene eseguito su una persona sana. | | | | sensibilit specificit Falsi negativi Falsi positivi

| |

|

| | |

Il che vuole sostanzialmente dire, secondo Bayes:

Curva ROC Il risultato negativo del test nei malati il segnale, il risultato negativo del test nei sani il rumore (di fondo), quale il valore soglia al di sotto del quale dobbiamo pensare che non si tratti pi di un segnale (malato), ma si tratti semplicemente di rumore di fondo (sano)? Considerando che il segnale pi forte del rumore di sottofondo. L'area sottesa alla curva fornisce una misura delle prestazioni del test di laboratorio. Il massimo valore di sensibilit uguale a 1, e il massimo valore di (1- specificit) uguale a 1, e pertanto l'area totale massima sottesa dalla curva uguale a 1. Nel caso del test diagnostico questa area rappresenta la probabilit che una persona con la malattia, presa a caso, abbia un risultato superiore a quello di una persona senza la malattia, presa a caso. Lunico limite delle curve ROC deriva dal fatto che sono costruite a partire dalla sensibilit e dalla specificit, e non prendono in considerazione la probabilit a priori (prevalenza della malattia nel caso di un test diagnostico).

Biostatistica descrittiva - Leonardo Schrikker Palestini Caso ideale: completa separazione dei valori del rumore da quelli del segnale, il grafico sar:

Caso opposto: completa sovrapposizione dei valori del rumore e di quelli del segnale, il grafico sar:

Caso reale: curve che giacciono in mezzo ai due estremi sopra riportati, il grafico sar:

Se la curva ROC va dall'angolo inferiore sinistro all'angolo superiore destro la probabilit uguale a 0,5: e linformazione fornita dal test di laboratorio uguale a quella che si pu ricavare dal lancio di una moneta (molto scarsa). DISTRIBUZIONI -> Variabili aleatorie: Lancio una moneta, se esce testa vinco 100, se esce croce non vinco niente. La vincita dipende prevalentemente dal risultato del lancio, non noto a priori se vincer o meno. Una variabile aleatoria associa al risultato di un esperimento un numero reale che pu significare qualsiasi cosa. Esempio: Lanciando un dado, vinco 100 se esce la faccia con il numero 2, vinco 10 in qualsiasi altro caso: : (1,2,3,4,5,6) V(1) = 10 V(2) = 100

Biostatistica descrittiva - Leonardo Schrikker Palestini V(3) = 10 V(4) = 10 V(5) = 10 V(6) = 10 Le variabili aleatorie possono essere sia discrete che continue. Distribuzione di probabilit

Una distribuzione di probabilit un modello matematico che collega i valori di una variabile alla probabilit che tali valori possano essere osservati.

-

funzione di probabilit -> variabile aleatoria discreta funzione di densit -> variabile aleatoria continua

Funzione di probabilit Esempio, lancio di un dado -> : (1,2,3,4,5,6) Possiamo definire la funzione di probabilit in questo modo:

Funzione di densit Se X una variabile aleatoria continua, il numero di valori che pu assumere infinito e non ha senso assegnare una probabilit ad ogni valore possibile.

-> la funzione per cui larea sottesa alla curva in un intervallo uguale alla probabilit che X assuma un valore dellintervallo stesso.

Biostatistica descrittiva - Leonardo Schrikker Palestini

La media, o valore atteso o E(x), la varianza e la deviazione standard di una variabile aleatoria X sono i parametri di maggiore interesse in una distribuzione di probabilit, perch esprimono la misura di tendenza centrale e la dispersione di X. Variabile discreta

(

)

-

Variabile continua Considerando che si risolve:

(

)

Considerando che si risolve:

Biostatistica descrittiva - Leonardo Schrikker Palestini

(

)

(

)

(

)

Distribuzione di Bernoulli Consideriamo un esperimento in sono ottenibili solo due eventi: S, successo (1) o F, insuccesso (0) Abbiamo che:

La probabilit che su n tentativi esca positivo k volte sar:

Associamo questa formula al coefficiente binomiale per sapere in quanti modi diversi possiamo ottenere k successi in n prove (ciascuna delle quali con probabilit ).

Coefficiente binomiale

( )

Dunque sar:

(

)

Distribuzione di Poisson una distribuzione di probabilit che esprime le probabilit per il numero di eventi che si verificano successivamente ed indipendentemente in un dato intervallo di tempo, sapendo che mediamente se ne verifica un numero . rappresenta la frequenza media degli eventi per cui se si ha a disposizione un campione di n soggetti con eventi ogni intervallo di tempo (al giorno, al mese, allanno...)

Biostatistica descrittiva - Leonardo Schrikker Palestini Esempio, in un anno quante persone vanno dal dottore? Abbiamo 100 persone (soggetti) e 116 visite (eventi), vuol dire che per ogni persona ci sono 1.16 visite allanno ( . Da questo vogliamo calcolare quante probabilit ci sono che una persona non abbia bisogno del medico in un anno, e per far ci utilizziamo la distribuzione di Poisson:

inserendo 0 come numero di visite (eventi). Esempio: In una contea dellIllinois, tra il 1977 ed il 1987 la distribuzione mensile di suicidi giovanili era abbastanza fedelmente rappresentata da un (il che vuol dire che mensilmente ne avvenivano circa 2.75). Calcoliamo la probabilit che in un mese tra il 1977 ed il 1987 siano avvenuti 3 suicidi:

Ora, quando n molto grande (per esempio una popolazione di n = 100'000 persone) e p molto piccolo (ad esempio la probabilit di essere affetti dalla sindrome di Werner p = 0.00004), se vogliamo calcolare quante persone nascono affette dalla sindrome di Werner in un anno (considerando che in un anno nascano 100'000 persone) abbiamo che , dunque possiamo calcolare la probabilit che nessuno nasca affetto da questa sindrome:

(molto bassa) Distribuzione normale Larea sotto un intervallo della curva rappresenta la densit di probabilit di una variabile aleatoria continua.

Biostatistica descrittiva - Leonardo Schrikker Palestini

(

)

Propriet: simmetrica rispetto alla sua media Larea sottesa alla curva pari a 1 (quando standardizzata) La probabilit che x sia compreso nellintervallo tra a e b

Standardizzazione

La varianza diventa 1 e la media 0 Esempio: Da studi nel settore si visto che il peso del cervello delle vittime del morbo di Alzheimer si distribuisce come una normale. In un campione di pazienti si riscontrato un peso medio di 1055 g con una deviazione standard ( ) di 103.4 g. Assumendo che questi risultati siano applicabili a tutte le vittime della malattia, ci chiediamo qual la probabilit che un individuo con il morbo di Alzheimer abbia peso celebrale