Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
1
VARIABILI E DISTRIBUZIONI DI VARIABILI E DISTRIBUZIONI DI FREQUENZAFREQUENZA
A.A. 2010/2011
2
RAPPRESENTARE I DATI: TABELLE E GRAFICI
Un insieme di misure è detto serie statistica o seri e dei dati
1) Una sua prima elementare elaborazione può essere una distribuzione
ordinata di tutti i valori, in modo crescente o decrescente.
2) Il valore minimo e il valore massimo insieme permettono di individuare
immediatamente il campo (od intervallo) di variazione .
3) Successivamente, la serie può essere raggruppata in classi, contando quanti valori od unità statistiche appartengono ad ogni gruppo o categoria.
DISTRIBUZIONE DI FREQUENZA
3
Consideriamo una variabile ottenuta dal conteggio del numero di giorni di
incubazione del virus influenzale trascorsi dal momenti dell’inoculazione
del virus in una cavia (variabile discreta).
n=45 X = (x1, x2, … , x45) = (5, 6, 3, 4, … , 5, 0, 4, 5)
RAPPRESENTARE I DATI: TABELLE E GRAFICI
4
Il primo passaggio, in una distribuzione discreta, consiste nel definire le classi:
1) identificare il valore minimo (0, nei dati della tabella) e quello massimo (9),
2) contare quante volte compare ogni valore(modalità o intervalli di classe) (cioèquante sono le cavie con uguale numero di giorni di incubazione del virus).
3) Si ottiene la seguente tabella:
RAPPRESENTARE I DATI: TABELLE E GRAFICI
5
RAPPRESENTARE I DATI: TABELLE E GRAFICI
6
PERCHÉ USARE LE FREQUENZE RELATIVE?
Esempio: Si vuole valutare l’efficacia di uno psico-farmaco nel curare forme di balbuzie. L’esperimento coinvolge due gruppi randomizzati di pazienti (A e B): il farmaco viene somministrato a 150 pazienti nel gruppo A, mentre un placebo viene somministrato a 100 soggetti in B.
Per il confronto della distribuzione di una variabile in campioni di
dimensioni diverse
7
PERCHÉ USARE LE FREQUENZE RELATIVE?
FREQUENZE ASSOLUTEFREQUENZE ASSOLUTE
EFFETTO ni (A) ni(B)
migliorato 50 33invariato 80 53peggiorato 20 14
150 1000
10
20
30
40
50
60
70
80
90
migliorato invariato peggiorato
GRUPPO A GRUPPO B
8
PERCHÉ USARE LE FREQUENZE RELATIVE?
FREQUENZE FREQUENZE RELATIVERELATIVE
pi (A) pi(B)
0,33 0,330,53 0,530,14 0,14
1,00 1,00
EFFETTO ni (A) ni(B)
migliorato 50 33invariato 80 53peggiorato 20 14
150 100
0,00
0,10
0,20
0,30
0,40
0,50
0,60
migliorato invariato peggiorato
GRUPPO AGRUPPO B
9
La frequenza cumulata offre informazioni importanti quando si intende
stimare il numero totale di osservazioni inferiore (o superiore) ad un valore
prefissato (ad es.: il 71% delle cavie sviluppa il virus in meno di 5 giorni; il
56% al massimo 3 in giorni).
RAPPRESENTARE I DATI: TABELLE E GRAFICI
10
Consideriamo l’altezza di un gruppo di pazienti visitati in un ambulatorio
ortopedico (variabile continua ).
RAPPRESENTARE I DATI: TABELLE E GRAFICI
11
Non conviene fare una classe per ogni cm.
raggruppamento in classi (arbitrario) , che comprendano più modalità di espressione.
RAPPRESENTARE I DATI: TABELLE E GRAFICI
100.05.02[180-200)
95.012.55[160-180)
82.517.57[140-160)
65.030.012[120-140)
35.025.510[100-120)
10.07.53[80-100)
2.52.51[60-80)
Fif in iXi
F. CumulF. relatF. Ass.Classe
12
Costruiamo gli intervalli di frequenza:
Trovo il valore minimo e il valore massimo min = 60 cm max = 200 cm
Calcolo il campo di variazione (range):Xmax−−−− Xmin r = 140
Stabilire il numero degli intervalli k = 7
Calcolare l’ampiezza degli intervalli:
δi= Range / k δi = 140/7 =20
Costruisco gli intervalli di classe (esclusivi ed esaustivi)
Conto il numero di individui per ogni classe
13
Esempio: I dati seguenti si riferiscono al grado del trauma in 100 ricoverati al pronto soccorso:
X= grado del trauma
xi: 0=assente 1=trauma lieve 2=trauma grave 3=lesioni permanenti 4=decesso
0 2 1 1 1 2 0 0 1 0 1 1 0 0 0 3 1 2 0 1
1 0 0 1 0 1 1 0 2 0 0 0 1 0 1 0 2 1 2 0
0 2 0 1 0 1 0 1 0 3 1 2 0 0 0 0 1 0 0 0
1 0 1 0 1 0 2 0 1 2 1 2 0 1 0 2 2 1 0 1
0 0 0 0 4 0 1 1 2 0 0 2 1 0 2 0 0 2 1 0
RAPPRESENTARE I DATI: TABELLE E GRAFICI
14
MODALITA'
frequenza
assoluta
frequenza
relativan i n i /n
assente 48 48/100 = 0,48
lieve 32 0,32
grave 17 0,17
lesioni permanenti 2 0,02
decesso 1 0,01
TOTALE 100
k=5
Costruzione della tabella e calcolo di frequenze relative:
VARIABILE QUALITATIVA
15
COSTRUZIONE DI UNA DISTRIBUZIONE DI FREQUENZACOSTRUZIONE DI UNA DISTRIBUZIONE DI FREQUENZA
IL CRITERIO DI CLASSIFICAZIONE DEVE ESSERE
1. ESAUSTIVO: devono essere riportate tutte le modalità o i valori assunti dalla variabile
2. NON AMBIGUO: le modalità/gli intervalli di classe devono essere mutuamente esclusivi
ogni unità statistica deve essere assegnata ad una unica modalitào intervallo di classe
1. definire un criterio di classificazione delle osservazioni
⇒ definizione delle modalità (variabile qualitativa)
⇒ definizione degli intervalli di classe (variabile quantitativa)
13
25
4
7
6Ω1ΩΩΩΩ RRΩ3
Ω2
Ω4Ωj
16
Esempio
70-80
…..
10-20
0-10
SCORRETTA
≥ ≥ ≥ ≥ 80
70-79
…..
10-19
0-9
CORRETTA
Rosso
Biondo
Chiaro
Nero
SCORRETTA
Rosso
Biondo
Castano
Nero
CORRETTA
Variabile quantativa:
classificazione dell’età in anni compiuti
Variabile qualitativa:
classificazione del colore dei capelli
17
2. Assegnare ad ogni valore (modalità/intervallo di classe) la frequenza (assoluta e/o relativa) corrispondente
FREQUENZA ASSOLUTA (ni)numero di osservazioni corrispondente ai diversi valori (modalità/intervalli di classe) della variabile
⇒ 0 ≤ ni ≤ n
⇒ ΣΣΣΣKi=1 n i = n1 + n2 + .. + nK = n
nn== numero totale delle osservazioni numero totale delle osservazioni
KK== numero dei valori/modalitnumero dei valori/modalitàà/classi /classi della variabiledella variabile
ottenuta tramiteun CONTEGGIO
18
FREQUENZA RELATIVA: (pi = ni / n)rapporto tra il numero di osservazioni corrispondente ai diversi valori (modalità/intervalli di classe) della variabile e la dimensione campionaria
⇒ 0 ≤ pi ≤ 1
⇒ ΣΣΣΣKi=1 p i = p1 + p2 + .. + pK = 1
FREQUENZA RELATIVA PERCENTUALE: (pi% = ni / n * 100)
indica quanto volte un fenomeno si manifesta su una casistica di 100 osservazioni
⇒ 0% ≤ pi% ≤ 100%
⇒ ΣΣΣΣKi=1 p i
% = p1 % + p2
% + .. + pK% = 100%
19
FREQUENZA RELATIVA CUMULATA (Pi = Fi / n; Pi
% = Fi /n * 100%)
PPi ((--∞∞ )=0)=0 PPi (+ (+ ∞∞ )=1)=1
FREQUENZA CUMULATAFREQUENZA CUMULATA
FREQUENZA ASSOLUTA CUMULATA (Fi)numero di osservazioni il cui valore è inferiore o ugualead una data modalità o a un dato valore xi
FFi ((--∞∞ )=0)=0 FFi (+ (+ ∞∞ ))=n=n
20
MISURE MISURE DD’’ORDINEORDINE IN UNA DISTRIBUZIONEIN UNA DISTRIBUZIONE
RANGO: posizione di un’osservazione xi in una serie di dati ordinati in modo crescente
SCOPO: descrivere la posizione di un dato individuale nell’ambito di una distribuzione
RANGO PERCENTILICO: sia xi la i-esima osservazione di un campione di n unità ordinate in modo crescente. Il rango percentilico corrispondente è dato da:
rango (xi)n+1
*100%Rp =
21
Rango = 3Rp = 3 / (6+1)*100 = 43%
Esempio:nelle seguenti tabelle si riportano le osservazioni del peso per n soggetti
n = 6
n = 60
656361605553PESO (kg)
92…..656361605553PESO (kg)
Rango = 3Rp = 3 / (60+1)*100 = 5%
22
RAPPRESENTAZIONI GRAFICHE DEI DATIRAPPRESENTAZIONI GRAFICHE DEI DATI
Le rappresentazioni grafiche servono per evidenziare in modo semplice le
caratteristiche fondamentali di una distribuzione di frequenza.
Le rappresentazioni grafiche sono numerose e debbono essere scelte in rapporto al
tipo di dati e quindi alla scala utilizzata.
23
Variabili continue misurate su scale ad intervallo o di rapporto(altezza, peso, emoglobina, pressione arteriosa, colesterolo ematico….)
GRAFICI PER DATI QUANTITATIVI
ISTOGRAMMI O POLIGONI
24
Gli istogrammi sono grafici a barre verticali accostate, nei quali :
- le misure della variabile sono riportate lungo l'asse orizzontale,
- l'asse verticale rappresenta il numero assoluto , oppure la frequenza relativa o
quella percentuale, con cui compaiono i valori di ogni classe.
25
• Rappresentazione di valori relativi o di percentuali, in quanto è implicito che l’area
totale sottesa sia uguale a 1 o 100%.
• L'asse orizzontale rappresenta il fenomeno (valore variabile), mentre l'asse verticale
rappresenta la frequenza o percentuale di ogni classe (relativa o cumulata).
• Un poligono può essere ottenuto a partire dal relativo istogramma, unendo con una
linea spezzata :
A) i punti centrali superiori di ogni classe se frequenza relativa ,
B) i punti estremi superiori destri dei rettangoli se frequenza cumulata .
I poligoni
26
0
5
10
15
20
25
30
35
[60-80) [80-100) [100-120) [120-140) [140-160) [160-180) [180-200)
POLIGONO FREQUENZE RELATIVE
27
0
20
40
60
80
100
120
80 100 120 140 160 180 200
POLIGONO FREQUENZE CUMULATE
28
• Un istogramma deve essere inteso come una rappresentazione di un area: le
superfici dei vari rettangoli devono essere proporzionali alle frequenze
corrispondenti.
• Se le classi hanno la stessa ampiezza, le basi dei rettangoli sono uguali ; di
conseguenza, le loro altezze risultano proporzionali alle frequenze che
rappresentano.
• Solo quando le basi sono uguali, è indifferente ragionare in termini di altezze o di
aree di ogni rettangolo.
• se le ampiezze delle classi sono diverse le frequenze sono rappresentate dalle
superfici e quindi è necessario rendere l'altezza proporzionale
Sempre sugli istogrammi…
29
Variabili nominali o ordinali(sesso, città di provenienza, intensità del dolore, numero colonie batteriche,
numero linfonodi metastatici ….)
GRAFICI PER DATI QUALITATIVI
DIAGRAMMI A BARRE O GRAFICI A TORTA
30
Rettangoli con basi uguali ed altezze proporzionali alle frequenze dei vari gruppi
considerati.
• I Rettangoli non sono tra loro contigui, ma distaccati;
• Sull’asse delle ascisse vengono riportati nomi, numeri interi, etichette o simboli;
• Con dati qualitativi o nominali, le basi dei rettangoli sono sempre identiche
avendo solo un significato simbolico.
DIAGRAMMI A BARRE
0
0,1
0,2
0,3
0,4
0,5
0,6
assente lieve grave lesionipermanenti
decesso
31
0
0,1
0,2
0,3
0,4
0,5
0,6
assente lieve grave lesionipermanenti
decesso
Ospedale A
Ospedale B
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
Ospedale A Ospedale B
decesso
lesioni permanenti
grave
lieve
assente
MA ANCHE….
32
Ospedale A
48; 48%
32; 32%
17; 17%2; 2% 1; 1%
assente
lieve
grave
lesioni permanenti
decesso
• si divide un cerchio in parti proporzionali alle classi di frequenza;
• la somma di tutte le classi è uguale all’unità (1 o 100%).
GRAFICI A TORTA (AEREOGRAMMI)
33
DIAGRAMMI IN SINTESIDIAGRAMMI IN SINTESI
variabilecontinua
variabilediscreta
variabilequalitativa
1. rettangoli adiacenti
2. le basi dei rettangoli possonoessere diverse
3. frequenza sempre proporzionaleall’AREA dei rettangoli (ancheall’altezza se basi uguali)
1. barre separate (per evidenziare la non continuità dei valori / la distinzione tra le modalità)
2. le basi delle barre sono tutte di uguale ampiezza
3. frequenza proporzionale allaALTEZZA delle barre
DIAGRAMMA A BARRE
ISTOGRAMMA A CANNE
D’ORGANO
34
ESERCIZIO
I dati seguenti si riferiscono al tipo di parto di 50 neonati in Italia:
Determinare la distribuzione di frequenza
0 2 0 0 0 2 0 2 0 02 0 0 0 2 0 0 0 1 00 0 2 0 0 0 2 0 0 20 2 0 0 0 2 0 2 0 00 0 0 2 0 2 0 0 2 0
X = tipo di parto
xi = normale → 0forcipe → 1cesareo → 2
modalitàx i
frequenzaassoluta
ni
frequenzarelativa
p i
frequenza relativapercentuale
pi (%)
normale 35 35/50 = 0.70 (35/50)*100 = 70%
forcipe 1 1/50 = 0.02 (1/50)*100 = 2%
cesareo 14 14/50 = 0.28 (14/50)*100 = 28%
TOTALE 50 1.00 100%
35
ESERCIZIO
Nella tabella seguente sono riportati i dati relativi ad uno studio sulla crescita condotto su 40 soggetti:
1. Costruire 4 intervalli di frequenza
2. Costruire la tabella di frequenza riportando frequenze assolute,frequenze relative e frequenze cumulate relative.
16 19 19 20 20 20 20 21 21 2121 21 21 22 22 22 22 22 22 2323 23 23 23 23 23 23 24 24 2424 24 24 25 25 25 25 26 26 27
Distanza in mm fra il centro della ghiandola pituitaria e la fossa pterigo-mascellare:
36
SOLUZIONE ESERCIZIOSOLUZIONE ESERCIZIO
Valore minimo=16 mm valore massimo =27 mm
Campo di variazione (range): 27-16=11
Numero degli intervalli: k=4
Ampiezza degli intervalli: δi= 11/4 = 2.75 ~3
classe ni pi Fi Pi
16-18 1 2,5% 1 2,5%19-21 12 30,0% 13 32,5%22-24 20 50,0% 33 82,5%25-27 7 17,5% 40 100,0%
40 100,0%
TABELLA DI FREQUENZA:TABELLA DI FREQUENZA:
37
ni PiFipi
statura in
classi
Freq. Assoluta
[150-155) 1 1/125= 0.8% 1 0.8%[155-160) 8 8/125= 6.4% 1+8 9 0,8+6,4 7.2%[160-165) 24 24/125= 19.2% 1+8+24 33 0,8+6,4+19,2 26.4%[165-170) 34 27.2% 1+8+24+34 67 0,8+6,4+19,2+27,2 53.6%[170-175) 27 21.6% 94 75.2%[175-180) 19 15.2% 113 90.4%[180-185) 9 7.2% 122 97.6%[185-190) 1 0.8% 123 98.4%[190-195) 2 1.6% 125 100.0%TOTALE 125 100.0% 125
Freq. Relativa(%)
Freq. AssolutaCumulata
Freq. Relativa Cumulata(%)
TABELLA DI FREQUENZATABELLA DI FREQUENZA
38
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
150 155 160 165 170 175 180 185 190 195statura (cm)
ISTOGRAMMA e POLIGONO DELLE FREQUENZE CUMULATE (CURVA AD OGIVA)
L’OGIVA si ottiene unendo i punti corrispondenti ai LIMITI
SUPERIORI di ciascuna classedella distribuzione cumulata
L’OGIVA si ottiene unendo i punti corrispondenti ai LIMITI
SUPERIORI di ciascuna classedella distribuzione cumulata
39
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
150 155 160 165 170 175 180 185 190 195statura (cm)
curva ad ogiva(poligono delle frequenze
relative cumulate )
poligono delle frequenze relative
RAPPRESENTAZIONE GRAFICA DELLA DISTRIBUZIONE DI FREQUENZA DI UNA VARIABILE QUANTITATIVA:
POLIGONO DELLE FREQUENZE SEMPLICI E CUMULATE