48
STATISTICA MEDICA Prof.ssa Donatella Siepi [email protected] tel: 075 5853525 UNIVERSITA’ DEGLI STUDI DI PERUGIA

STATISTICA MEDICA - med.unipg.it Didattico... · ETIMOLOGIA • "statistica" deriva dal vocabolo italiano "provincia" e fa ... ma solo "accettare" o "respingere" l'ipotesi nulla,

Embed Size (px)

Citation preview

STATISTICA MEDICA

Prof.ssa Donatella Siepi

[email protected]

tel: 075 5853525

UNIVERSITA’ DEGLI

STUDI DI PERUGIA

1° LEZIONE

Testi consigliati

• “Statistica Medica”, F. Di Iorio, Ed.

Carocci

• “Biostatistica, concetti di base per

l’analisi statistica delle scienze

dell’area Medico-Sanitaria”, Wayne W.

Daniel, Ed. EdiSES

• “Statistica per le professioni sanitarie”,

Jim Fowler, Phil Jarvis, Mel Chevannes.

Ed. EdiSES

Statistica Medica

Perché conoscere la statistica?

La statistica • è una scienza relativamente giovane spesso

viene confusa con le statistiche: dati, tabelle,

grafici, indici, medie.

• è utilizzata in tutte le scienze e rappresenta uno

strumento essenziale per la scoperta di leggi e

relazioni tra fenomeni.

• utile nelle situazioni nelle quali occorre

assumere decisioni in condizioni di incertezza,

• la statistica si configura come un momento

importante della ricerca scientifica, della

pianificazione economica e dell'azione politica.

ETIMOLOGIA• "statistica" deriva dal vocabolo italiano "provincia" e fa

riferimento alla constatazione per cui le prime

informazioni su fenomeni reali sono state raccolte ed

organizzate ad opera degli organismi statali che ne

erano anche i principali utilizzatori.

• Esistono altre versioni circa la derivazione etimologica di

"Statistica", come quella che fa riferimento a status, per

indicare che tale scienza esamina la situazione

contingente della realtà oppure al latino statera

(=bilancia), al tedesco Stadt (=città).

• La prima apparizione del vocabolo "statistica" in questa

accezione sembra essere quella dell'italiano Ghislini

che, nel 1589, indica la statistica come "descrizione delle

qualità che caratterizzano e degli elementi che

compongono uno Stato".

Che cosa vuol dire fare statistica?

Affermazioni del tipo

• Il profitto di questa classe è in media

sufficiente

• Quest’anno sono di moda le vacanze tipo

agriturismo

Sono affermazioni di tipo statistico

Come è nata

• Con la nascita dei grandi Stati europei, si vede

che all'analisi statistica dei fenomeni collettivi

diventa di interesse pubblico nascono:

• Istituti "centrali" di Statistica

• deputati per legge alla raccolta, organizzazione

e diffusione di dati sulla popolazione, sulle

abitazioni, sulle risorse economiche e su tutti gli

aspetti rilevanti della vita collettiva di una

nazione, di una Comunità di stati (Unione

Europea) o dell'intero pianeta (Nazioni Unite).

Che cosa è la statistica?

• E’ una scienza che ha per oggetto lo

studio, mediante metodi matematici, di

fenomeni collettivi suscettibili di

misurazione e di descrizione quantitativa.

• Si basa sulla raccolta di dati riguardanti le

manifestazioni individuali con cui tali

fenomeni si manifestano.

• Fornisce regole, strumenti e tecniche che

consentono la raccolta e l’analisi quantitativa

delle caratteristiche dei fenomeni collettivi.

Che cosa è la statistica?

La statistica è la tecnica che ha come scopo la conoscenza quantitativa dei fenomeni collettivi

• Fenomeni di massa o collettivi

• Fenomeni individuali o singoli

• SENZA STATISTICA DIAMO AFFERMAZIONI QUALITATIVE NON QUANTITATIVE

Scopo della statistica è quello di descrivere questi fenomeni

o di individuare regolarità di comportamento in essi.

Chi usa la statistica?

• La demografia, la sociologia, l’economia,

l’epidemiologia

• Le scienze sperimentali: la fisica, la

chimica, l’ingegnaria, la biologia, la ricerca

biomedica

Da quanto tempo esiste

la statistica?

• Inizio XVII secolo: archivi parrocchiali (statistica

demografica)

• Seconda metà del seicento osservazioni di un certo interesse (popolazione a Londra, rapporto maschi/femmine alla nascita, popolazione urbana e rurale)

• Solo nell’ottocento alla descrittiva segue una valutazione probabilistica

• E solo tra fine XIX ed inizio XX secolo fioriscono teorie e tecniche per l’analisi dei dati

• Computer permettono la gestioni di numerosissimi dati

Da quanto tempo esiste la statistica?• 1494 Luca Pacioli formula nel suo libro Summa de

arithmetica, geometria, proportioni et proportionalità il quesito noto come il problema dei punti(o delle parti),

• Scommesse nel gioco della palla

(ripartizione quote)

• 1539: Girolamo Cardano dimostra l'errata

argomentazione di Pacioli nel problema dei punti

• 1564: Girolamo Cardano scrive Liber de ludo aleae, una

guida pratica per giocatori d'azzardo, contenti alcune

considerazioni teoriche fondamentali. Tale libro venne

pubblicato postumo nel 1663.

• 1613-1623: Galileo Galilei scrive il saggio Sopra le

scoperte dei dadi

• 1654: in uno scambio epistolare tra Blaise Pascal e

Pierre de Fermat vengono gettate le basi della moderna

teoria delle probabilità analizzando il cosiddetto

problema dei punti

• 1657: Christiaan Huygens pubblica De ratiociniis de ludo

aleae, il primo libro sulla teoria delle probabilità (ripreso

e commentato da Jakob Bernoulli in Ars conjectandi

(pubblicato postumo nel 1713).

• 1663: pubblicazione postuma del Liber de ludo aleae di

Girolamo Cardano

• 1854: il medico britannico John Snow riesce a

far prendere misure di igiene pubblica salvando

centinaia di vite dal colera, grazie ad uno tra i

primissimi studi epidemiologi, malgrado fosse

innovativo ed inusuale per quei tempi tale

approccio.

• 1879: Luigi Perozzo introduce uno

stereogramma rappresentante la piramide

tridimensionale della popolazione a partire dei

dati dei censimenti svedesi 1750-1875.

• 1885: viene fondato l'Istituto Internazionale di

Statistica.

• 1935

– Ronald Fisher introduce in The Design of Experiments la regola che gli

esperimenti devono essere programmati (disegnati) prima di essere

effettuati, affinché i test statistici possano avere una loro validità. In

questo ambito introdusse i concetti di ipotesi nulla (H0) e ipotesi

sperimentale (H1). Afferma (e si tratta di una grande novità in ambito del

metodo scientifico) che nessuna ricerca sperimentale poteva dimostrare

l'ipotesi sperimentale, ma solo "accettare" o "respingere" l'ipotesi nulla,

anche se effettuare tanti esperimenti in cui si rigettava l'ipotesi nulla

aumentava la credibilità che l'ipotesi sperimentale fosse vera.

– 12 settembre: Harold Hotelling tratta a Ann Arbor davanti alla American

Mathematical Society e l'istituto per statistica matematica il tema

"Relations between two sets of variates" (pubblicato nel 1936 in

Biometrika), fondando così il metodo multivariato noto come analisi

della correlazione canonica. Lo stesso anno pubblica "The most

predictable criterion", che pone anch'esso le fondamenta per questo

metodo.

– Alexander Craig Aitken con On Least Squares and Linear Combinations

of Observations introduce la notazione matriciale per il modello di

regressione lineare e lo stimatore per i minimi quadrati generalizzati nel

caso di matrice delle covarianze degli errori non standard

• 1936

– George Gallup ottiene grande notorietà prevedendo

correttamente il risultato delle elezioni presidenziali intervistando

soltanto 50 mila persone, mentre l'allora molto quotato Literary

Digest sbagliò clamorosamente la previsione pur avendo

intervistato molte più persone.

• 1938

– il fisico Frank Benford analizzò raccolte di numeri formulando la

legge di Benford già scoperta nel 1881 dal matematico e

astronomo Simon Newcomb e descritta in "American Journal of

Mathematics".

• 1939

– Vladimir Smirnov costruisce il test di Kolmogorov-Smirnov

– La Società Italiana di Statistica viene fondata il 15 gennaio 1939.

– Robert Tryon introduce il termine cluster analysis

• 1942

– Alexander Craig Aitken e H. Silverstone pubblicano On the

Estimation of Statistical Parameters dove sviluppando idee di

Ronald Fisher derivano un caso particolare di quella che oggi è

nota come disuguaglianza di Cramér-Rao

• 1948

– Viene pubblicato l'esito di una ricerca sull'uso della streptomicina

per la cura della tubercolosi che ha fatto uso del primo

esperimento clinico randomizzato, progettato da Austin Bradford

Hill.

• 1949

– George Kingsley Zipf (1902-1950), linguista e filologo

statunitense dopo aver studiato per diverse lingue la frequenza

con la quale compaiono le parole, proponendo in "Human

Behaviour and the Principle of Least-Effort" una relazione oggi

nota come legge di Zipf.

Sapere che cosa è e a che cosa serve la

statistica non vuole però dire

…………..

conoscere e saper usare la statistica

Statistica

• La Statistica è la disciplina che si

occupa dell’analisi in termini

quantitativi di fenomeni collettivi, cioè di

fenomeni che richiedono l’osservazione di

un insieme di fenomeni individuali (es:

reddito dei residenti in una certa regione,

consumo di un determinato bene in un

certo periodo di tempo).

Statistica • La statistica può essere d’aiuto per

descrivere dati, progettare esperimenti e

verificare ipotesi

È utile per rispondere a domande quali

”Se le mie idee vengono contestate, sarò

in grado di difenderle”

La statistica non è in grado di provare nulla.

Evidenzia la misura in cui i risultati possono

essere il prodotto di casualità

Limiti della statistica

• La statistica non è in grado di provare

nulla

• Serve solo a comprendere in quale misura

i risultati di una ricerca non siano il

prodotto della casualità

Ottenendo conclusioni errate

• Sono state fatte revisioni della letteratura e

sono stati evidenziati numerosi errori

grossolani

– Errori nel disegno sperimentale

– Mancanza di un gruppo controllo

– Errata scelta di test di ipotesi

– Assegnazione non casuale dei trattamenti ai

diversi soggetti

– ecc

Perché la statistica è necessaria

• Per saper leggere, comprendere,

analizzare un articolo

Per stabilire la rilevanza delle affermazioni

fatte da un autore

La maggior parte dei lettori da per certo che

quando un articolo compare su una rivista

questo sia stato valutato in ogni aspetto

compreso l’uso della statistica

È necessario che

I metodi statistici utilizzati nell’analisi dei dati

sperimentali

Devono essere ben conosciuti sia da lettori

intelligenti che da ricercatori intelligenti

• Una raccolta di dati non corretta, una

loro presentazione inadeguata o

un’analisi statistica non appropriata

rendono impossibile la verifica dei

risultati da parte di altri studiosi e il

confronto con altre ricerche e analisi

del settore.

• Statistica descrittiva (I parte del corso):

si occupa dell’analisi di un

fenomeno relativo a un certo gruppo di

soggetti (popolazione) sulla base di una

rilevazione completa delle informazioni

(censimento). Tali informazioni vengono

sintetizzate tramite opportuni indici

statistici (es: reddito medio dei residenti in

una certa regione).

STATISTICA DECRITTIVA

Statistica matematica

• 2 - La statistica matematica presenta le

distribuzioni teoriche sia per misure

discrete sia per misure continue, allo

scopo di illustrarne le caratteristiche

fondamentali, le relazioni che esistono tra

esse, gli usi possibili;

Statistica Inferenziale• Inferenza statistica (II parte del corso):

si basa su informazioni relative a un

• campione di soggetti estratto dalla

popolazione in esame.

• Tramite opportune tecniche inferenziali si

traggono delle conclusioni sulla

popolazione

• (es: si stima il reddito medio dei residenti

in una certa regione con il reddito medio di

un campione di questi soggetti).

Tutto ciò in termini di ricerca si

ritrova nei lavori scientifici che

riportano le varie “scoperte” o i

“nuovi risultati”

• Al fine di facilitare ai lettori la corretta

comprensione dei risultati, per pubblicare

una ricerca le riviste internazionali e quelle

di maggior prestigio richiedono

tassativamente agli autori di seguire uno

schema preciso che, in linea di massima,

è fondato sullo sviluppo di quattro fasi.

• 1) Una introduzione, che presenti in

modo accurato sia l'argomento

affrontato, sia le finalità della ricerca,

mediante citazione dei lavori scientifici

pregressi e della letteratura specifica.

• 2) La descrizione di materiali e metodi,

nella quale devono essere definiti:• a) il tipo di scala utilizzato;

• b) le modalità del campionamento o di raccolta dei

dati;

• c) le misure sintetiche delle caratteristiche più importanti

della distribuzione dei dati, come media e varianza

(più raramente simmetria, curtosi e coefficiente di

variazione).

Spesso, soprattutto per argomenti nuovi o quando

siano stati pubblicati solo pochi dati, è prassi

richiedere la distribuzione tabellare completa e

dettagliata. Per relazioni scientifiche che non

abbiano solo un carattere divulgativo, le tabelle e

le distribuzioni di frequenze sono da preferire alle

rappresentazioni grafiche. Infatti queste ultime

raramente permettono di risalire ai dati originari,

che sono indispensabili per la verifica dei calcoli e

quindi una valutazione più dettagliata delle

conclusioni raggiunte.

• 3) I risultati, che devono comprendere

espressamente la citazione dei test di inferenza

utilizzati, allo scopo di permettere alla comunità

scientifica di valutare se la loro scelta è appropriata, cioè

se sono in rapporto corretto con

• a) le ipotesi che si intendono verificare,

• b) il tipo di scala con cui sono state misurate le variabili

analizzate,

• c) le caratteristiche statistiche della distribuzione dei dati.

• 4) La discussione, che deve riportare l’interpretazione

dei risultati ottenuti con i test applicati e infine eventuali

confronti con analisi già pubblicate.

• L’interpretazione deve non solo comprendere l’analisi

statistica, ma essere estesa al significato ecologico,

ambientale o biologico dei risultati ottenuti. Non

sempre un risultato statisticamente rilevante assume

anche un significato importante nella disciplina specifica

• Per impostare correttamente una ricerca, per

formulare ipotesi scientificamente valide, per

raccogliere e analizzare i dati, infine per interpretarne i

risultati, non è possibile scindere le analisi statistiche

dalla loro interpretazione disciplinare.

PER OTTENERE QUESTO

• Per condurre in modo corretto una ricerca scientifica,

cioè per raccogliere un campione con un numero

sufficiente di dati, tenendo in considerazione sia le

condizioni esistenti nella popolazione, sia la successiva

applicazione dei test, occorre seguire alcuni passaggi

metodologici, riassumibili in 4 fasi:

• - il disegno sperimentale,

• - il campionamento,

• - la descrizione statistica,

• - la scelta dei test per l’inferenza.

Disegno sperimentale• 1 - Il disegno sperimentale è necessario per scegliere e

programmare le osservazioni in natura e le ripetizioni in

laboratorio, in funzione della ricerca e delle ipotesi esplicative. Già

nella prima fase della ricerca, chiamata con termine tecnico appunto

“disegno sperimentale” (programmazione dell’esperimento),

occorre avere chiara la formulazione dell'ipotesi che si intende

verificare.

• Raccogliere i dati prima di aver chiaramente espresso le finalità

della ricerca conduce spesso ad analisi non adeguate e quindi a

risultati poco attendibili.

• Con la formulazione dell’ipotesi, si deve rispondere alle domande:

• - “Le eventuali differenze riscontrate tra due o più gruppi di dati,

oppure di una serie di osservazioni con quanto è atteso, possono

essere imputabili a fattori causali specifici o solamente a fattori

casuali ignoti?

• - Le differenze riscontrate sono generate dalla naturale variabilità

delle misure e del materiale utilizzato oppure più probabilmente

esiste una causa specifica che le ha determinate?”

• Per condurre in modo corretto una ricerca scientifica,

cioè per raccogliere un campione con un numero

sufficiente di dati, tenendo in considerazione sia le

condizioni esistenti nella popolazione, sia la successiva

applicazione dei test, occorre seguire alcuni passaggi

metodologici, riassumibili in 4 fasi:

• - il disegno sperimentale,

• - il campionamento,

• - la descrizione statistica,

• - la scelta dei test per l’inferenza.

Campionamento

• 2 - Il campionamento permette di raccogliere i dati in

funzione dello scopo della ricerca, rispettando le

caratteristiche della popolazione o universo dei dati.

• Uno dei problemi fondamentali della statistica è

come raccogliere solamente un numero limitato di

dati (per motivi economici, di tempo, di oggetti

effettivamente disponibili, cioè per limiti oggettivi che

quasi sempre esistono in qualsiasi ricerca sperimentale),

ma attraverso la loro analisi pervenire ugualmente a

conclusioni generali, che possano essere estese a

tutta la popolazione.

• Per condurre in modo corretto una ricerca scientifica,

cioè per raccogliere un campione con un numero

sufficiente di dati, tenendo in considerazione sia le

condizioni esistenti nella popolazione, sia la successiva

applicazione dei test, occorre seguire alcuni passaggi

metodologici, riassumibili in 4 fasi:

• - il disegno sperimentale,

• - il campionamento,

• - la descrizione statistica,

• - la scelta dei test per l’inferenza.

Descrizione statistica

• 3 - La descrizione delle caratteristiche

statistiche dell’insieme dei dati raccolti

deve permettere a tutti di verificare sia

l'adeguatezza del disegno sperimentale e

del campionamento, sia la correttezza

delle analisi attuate e dei risultati ottenuti.

• Per condurre in modo corretto una ricerca scientifica,

cioè per raccogliere un campione con un numero

sufficiente di dati, tenendo in considerazione sia le

condizioni esistenti nella popolazione, sia la successiva

applicazione dei test, occorre seguire alcuni passaggi

metodologici, riassumibili in 4 fasi:

• - il disegno sperimentale,

• - il campionamento,

• - la descrizione statistica,

• - la scelta dei test per l’inferenza.

Test per l’inferenza• 4 - I test devono essere già programmati nella fase del

disegno sperimentale, poiché è da essi che dipende il

tipo di campionamento.

• Il test è un processo logico-matematico che porta alla

conclusione di non poter respingere oppure mdi poter

respingere l'ipotesi della casualità, mediante il calcolo

di probabilità specifiche di commettere un errore con

queste affermazioni.

• L’ipotesi che il risultato ottenuto con i dati sperimentali

raccolti sia dovuto solo al caso è chiamata ipotesi nulla

e è indicata con H0. Di norma, con essa si afferma che

le differenze tra due o più gruppi, quelle tra un gruppo e il

valore atteso oppure le tendenze riscontrate siano

imputabili essenzialmente al caso.