Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos...

Preview:

Citation preview

Bioestadística

Sesión 2-3: Estadística descriptiva

1

José Aurelio Pina Romero Ja.pina@ua.es Bioestadística – Grado Enfermería UA- Departamento de Enfermería

-Sesión 1 n  Población y muestra n  Tipo de variables à codificar

¨  Cualitativas o categóricas (factores): Nominales, Ordinales ¨  Cuantitativas o Numéricas: Discretas, Continuas

n  Tablas de frecuencia (fi, Fi, fri, Fri, %) n  Gráficos

¨  V.cualitativas: diagrama de barras, diagrama de sectores ¨  V.cuantitativas: diagrama de barras(v.discretas), Histogramas

¨ Medidas (v.cuantitativas) ¨  Medidas tendencia central: media(promedio), mediana, moda

n  Estadístico (muestra) us Parámetro (población)

¨  Medidas de posición: percentiles, cuartiles, deciles,… ¨  Medidas de dispersión: varianza, desviación típica, cv, rango ¨  Medidas de asimetría: indicadores

2

µ,σ 2,σ ,X ,S 2,S ,

-Sesión 1: medidas de tendencia central

n  media(promedio)

¨  Sensible valores extremos ¨  Centro gravedad datos ¨  Utiliza todos los datos

n  Mediana ¨  Divide observaciones en dos grupos con = individuos/datos ¨  No es sensible valores extremos ¨  Conveniente datos asimétricos ¨  Datos pares/impares

n  Moda ¨  Es el/los valor/es donde la distribución de frecuencia alcanza un

máximo ¨  valor que más se repite

3

n

xx

n

ii∑

== 1

21+

=nrMd

-Sesión 1: medidas dispersión

Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. n  rango

¨  Sensible valores extremos

n  Varianza ¨  Es sensible a valores extremos (alejados de la media). ¨  Sus unidades son el cuadrado de las de la variable

n  Desviación tipica n  Tiene la misma dimensionalidad (unidades) que la variable. n  Versión ‘estética’ de la varianza

n  Coeficiente Variación n  Rango intercuartílico (P75 - P25 )

¨  No es tan sensible a valores extremos

4

S 2 =1n

X i − X( )2=

i =1

n

∑X i

2

i =1

n

∑n

− X2

n  Coeficiente de variación Es un estadístico de dispersión que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitirá decir entre dos muestras, cual es la que presenta mayor dispersión. Suele ser expresado en porcentaje, pudiendo alcanzar valores entre 0 e ∞

CV =sx(x100)

5

Ejemplo: 5 pacientes Peso (70,60,56,83,79 Kg) TAS (150,170,135,180,195 mmHg) ¿Qué distribución es más dispersa?

X = 69,6kgS =10,44CV =10,44 / 69,6 =15%

X =166mmHgS = 21,31CV = 21,30 /166 =12,8%

Medidas de posición n  Se define el cuantil de orden α como un valor de la variable por debajo

del cual se encuentra una frecuencia acumulada α.

n  Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

6

Medidas de posición n  Percentil de orden k

¨  La mediana es el percentil 50 ¨  El percentil de orden 15 deja por debajo al 15% de las

observaciones. Por encima queda el 85%

n  Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. ¨  Primer cuartil = Percentil 25 ¨  Segundo cuartil = Percentil 50 = mediana ¨  Tercer cuartil = Percentil 75

7

Ejemplos: percentiles

rq =q100

(n +1)

8

BMI: 18, 19, 18, 23, 26, 24, 21, 20, 23, 31, 29, 17, 27, 25, 16 n=15

+ - Variable Pq%

q% (100-q)%

pq = (1− f )x i + fx i +1

p90 = (1−0,4) ⋅29+0,4 ⋅31= 29,8r90 =90100

(15+1) =14,4

f parte fraccionaria de rq

16,17,18,18,19,20,21,23,23,24,25,26,27,29,31

Ejemplos: percentiles

Teorema de Thales

9

+ - Variable Pq%

q% (100-q)%

BMI: 18, 19, 18, 23, 26, 24, 21, 20, 23, 31, 29, 17, 27, 25, 16 n=15

Ejemplos: percentiles

r90 =90100

(15+1) =14,4

10

BMI: 18, 19, 18, 23, 26, 24, 21, 20, 23, 31, 29, 17, 27, 25, 16 n=15 Valores

Posición

P90% 29 31

14 14,4

15

p90 − 2914,4−14

=31− 2915−14

Pasos: 1)  Ordenar los datos

2) Calcular Posición/rango 3) Calcular el percentil

16,17,18,18,19,20,21,23,23,24,25,26,27,29,31

percentile q para n personas X1 ,X2 , X3 , X4 ,X5 ,X6 , X7 , X8 , X9 , X10 ,X11,X12 , . . . ,,Xn

Pasos: 1.  Ordenar los datos 2.  Calcular rango/posición 3.  Calcular el percentil

Values

Positions i

i+1 i+f

Xi Xi+1 Pq%

pq = (1− f )x i + fx i +1

rq =q100

(n +1)

f parte fraccionaria de rq

¨  Media

¨  Rango

¨  Varianza

¨  Percentiles

2ss =

rq =q100

n +1( )12

x =xmi ⋅ f i

i =1

n

∑n

R = xmmax − xmmin

s 2 =xmi − x( )

2⋅ f i

i =1

n

∑n

=xmi

2 ⋅ f ii =1

n

∑n

− x2

Datos organizados en tabla

Pq = l i +q ⋅n / 100−Fi −1

Fi −Fi −1

⎝⎜⎜

⎠⎟⎟ai

Variable(Li) xmi fi Fi

[l0 – L0) xm1 f1 F1

[l1 – L2) xm2 f2 F2

... Fi-1

[li – Li) xmi fi Fi

n

si está en intervalos usar como xmi las marcas de clase.

ai = amplitud del intervalo

Desviación típica

Ejemplo

Tiempo en meses Nº de sujetos

0 - 6 6 - 12

12 - 18 18 - 24 24 - 30 30 - 36

28 14 10 8 8 5

Total 73

13

En un estudio sobre supervivencia tras un tratamiento con quimioterapia para cierto tipo de cáncer ha sido registrado el tiempo transcurrido desde el inicio del tratamiento hasta el fallecimiento de los individuos. Los tiempos registrados se resumen en la tabla adjunta, agrupados por intervalos de 6 meses de amplitud:

Histograma

0

5

10

15

20

25

30

3 9 15 21 27 33

Tiempo de supervivencia

Frec

uenc

ias

Abs

olut

asTiempo en

meses Marca de clase

(Xmi) Frecuencias

Absolutas (fi) Frecuencias Absolutas

Acumuladas (Fi) Frecuencias relativas (fri) Porcentaje (pi) Porcentaje

Acumulado(Pi) 0 - 6 3 28 28 28/73 = 0,38 38% 38% 6 a 12 9 14 42

14/73 = 0,19 19% 57% 12 a 18 15=(18+12)/2 10 52 10/73 = 0,14 14% 71=38+19+14 18 - 24 21 8 60=28+14+10+8 8/73 = 0,10 10% 81% 24 - 30 27 8 68 8/73 = 0,10 10% 91% 30 - 36 33 5 73 5/73 = 0,07 7% 98%≈ 100%

Total 73 1,00 100%

14

Tiempo

Marca de clase (xmi)

fi Fi

0 - 6 3 28 28

6 a 12 9 14 42

12 a 18

15 10 52

18 - 24

21 8 60

24 - 30

27 8 68

30 - 36

33 5 73

Total 73

15

x =xmi f i

i =1

6

∑n

=3× 28( )+ 9×14( )+ ...+ 33×5( )

73=12,45

Moda = 3 meses Mediana: 1.- Los datos por encontrarse en una tabla están ordenados 2.-Calculamos la posición: 3.-Calculamos el percentil 50

rq =q100

n +1( ) = 50100 73+1( ) = 37

P50 = x i +q ⋅n / 100−Fi −1

Fi −Fi −1

⎝⎜⎜

⎠⎟⎟ai = 6+

36,5− 2842− 28

⎝⎜

⎠⎟6 = 9,64

Varianza = ( )

( ) ( )73

545,1233...2845,123 221

2

2 ×−++×−=

=

∑=

n

fxx

s

n

iii

=11,16 meses2 Desviación típica = s = 3,34 meses y el Coeficiente de variación = Cv = 0,27

Por tanto el tiempo de supervivencia está entorno a 12,45 meses con una variabilidad entorno a este valor de 3,34 meses.

Media

Percentil 95

Tiempo Xmi fi Fi

0 - 6 3 28 28

6 a 12 9 14 42

12 a 18 15 10 52

18 - 24 21 8 60

24 - 30 27 8 68

30 - 36 33 5 73

Total 73

16

Esta variable recoge el tiempo entre el inicio del tratamiento con quimioterapia y la defunción del paciente, por tanto buscamos aquel valor de la variable (tiempo en meses) tras el cual quedan vivos solo el 5% de la población, o lo que es lo mismo, por debajo de este valor quedarán las defunciones del 95% de la población. Calculamos por tanto el percentil del 95%:

1.- Los datos por encontrarse en una tabla están ordenados 2.-Calculamos la posición: luego fijándonos en las frecuencias acumuladas obtenemos el intervalo que referencia, en este caso es el último. 3.-Calculamos el percentil 95

P95% = X i +qn / 100−Fi −1Fi −Fi −1

⎝⎜⎜

⎠⎟⎟ai = 30+

69,35− 6873− 68

⎝⎜

⎠⎟× 6 = 31,62 meses

rq =q ⋅ (n +1)100

=95 ⋅74100

= 70,3

Otra forma de calcular los percentiles FiF1F2.Fi .Fn-1Fn

X [l1-L1) f1[l2-L2) f2

. .[li-Li) fi

. .[ln-1-Ln-1) fn-1 [ln-Ln] fn

ifPasos: 1.  Ordenar los datos. 2.  Calcular la posición r=(n+1)q/100 3.  Calcular percentil

[li-Li) is the Reference Interval

Position Fi-1

Pq% li Li

Fi

Values

Pq − l in ⋅q100

−Fi −1=Li − l iFi −Fi −1

Pq = l i +n ⋅q100

−Fi −1Fi −Fi −1

⎜⎜⎜⎜

⎟⎟⎟⎟ai

Gráficos variables cuantitativas à Polígonos de frecuencias

18

Distribución asimétrica positiva à media > mediana Distribución asimétrica negativa à media < mediana

Distribución simétrica à media = mediana fichero:meses.xls

0

5

10

15

20

25

3 9 15 21 27 33 39 45

Histogramaypolígonodefrecuencias

0

2

4

6

8

10

12

14

3 9 15 21 27 33 39 45

Histogramaypolígonodefrencuencias

0

5

10

15

20

25

3 9 15 21 27 33 39 45

Histogramaypolígonodefrecuencias

Gráficos variables cuantitativas à Polígonos de frecuencias acumulado

19

Gráficos variables cuantitativas à Polígonos de frecuencias

20

Medidas de forma: datos sin agrupar x1, x2, ..., xn

n  Coeficiente de asimetría:

n  Coeficiente de curtosis

21

As =

x i − x( )3

i =1

n

∑ns 3

Cu =

x i − x( )4

i =1

n

∑ns 4

As = 0→SimetriaAs>0→ Asimetria positivaAs < 0→ Asimetria negativa

Cu = 3→MesocúrticaCu>3→LeptocúrticaCu < 3→Platicúrtica

Medidas de forma: datos agrupados por intervalos

n  Coeficiente de asimetría:

n  Coeficiente de curtosis

22

As =

xmi − x( )3⋅ f i

i =1

n

∑ns 3

Cu =

xmi − x( )4⋅ f i

i =1

n

∑ns 4

Variable(Li) xmi fi Fi

[l0 – L0) xm1 f1 F1

[l1 – L2) xm2 f2 F2

... Fi-1

[li – Li) xmi fi Fi

n

As = 0→SimetriaAs>0→ Asimetria positivaA < 0→ Asimetria negativa

Cu = 3→MesocúrticaCu>3→LeptocúrticaCu < 3→Platicúrtica

Recommended