22
Bioestadística Sesión 2-3: Estadística descriptiva 1 José Aurelio Pina Romero [email protected] Bioestadística Grado Enfermería UA- Departamento de Enfermería

Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

  • Upload
    others

  • View
    14

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Bioestadística

Sesión 2-3: Estadística descriptiva

1

José Aurelio Pina Romero [email protected] Bioestadística – Grado Enfermería UA- Departamento de Enfermería

Page 2: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

-Sesión 1 n  Población y muestra n  Tipo de variables à codificar

¨  Cualitativas o categóricas (factores): Nominales, Ordinales ¨  Cuantitativas o Numéricas: Discretas, Continuas

n  Tablas de frecuencia (fi, Fi, fri, Fri, %) n  Gráficos

¨  V.cualitativas: diagrama de barras, diagrama de sectores ¨  V.cuantitativas: diagrama de barras(v.discretas), Histogramas

¨ Medidas (v.cuantitativas) ¨  Medidas tendencia central: media(promedio), mediana, moda

n  Estadístico (muestra) us Parámetro (población)

¨  Medidas de posición: percentiles, cuartiles, deciles,… ¨  Medidas de dispersión: varianza, desviación típica, cv, rango ¨  Medidas de asimetría: indicadores

2

µ,σ 2,σ ,X ,S 2,S ,

Page 3: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

-Sesión 1: medidas de tendencia central

n  media(promedio)

¨  Sensible valores extremos ¨  Centro gravedad datos ¨  Utiliza todos los datos

n  Mediana ¨  Divide observaciones en dos grupos con = individuos/datos ¨  No es sensible valores extremos ¨  Conveniente datos asimétricos ¨  Datos pares/impares

n  Moda ¨  Es el/los valor/es donde la distribución de frecuencia alcanza un

máximo ¨  valor que más se repite

3

n

xx

n

ii∑

== 1

21+

=nrMd

Page 4: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

-Sesión 1: medidas dispersión

Miden el grado de dispersión (variabilidad) de los datos, independientemente de su causa. n  rango

¨  Sensible valores extremos

n  Varianza ¨  Es sensible a valores extremos (alejados de la media). ¨  Sus unidades son el cuadrado de las de la variable

n  Desviación tipica n  Tiene la misma dimensionalidad (unidades) que la variable. n  Versión ‘estética’ de la varianza

n  Coeficiente Variación n  Rango intercuartílico (P75 - P25 )

¨  No es tan sensible a valores extremos

4

S 2 =1n

X i − X( )2=

i =1

n

∑X i

2

i =1

n

∑n

− X2

Page 5: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

n  Coeficiente de variación Es un estadístico de dispersión que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitirá decir entre dos muestras, cual es la que presenta mayor dispersión. Suele ser expresado en porcentaje, pudiendo alcanzar valores entre 0 e ∞

CV =sx(x100)

5

Ejemplo: 5 pacientes Peso (70,60,56,83,79 Kg) TAS (150,170,135,180,195 mmHg) ¿Qué distribución es más dispersa?

X = 69,6kgS =10,44CV =10,44 / 69,6 =15%

X =166mmHgS = 21,31CV = 21,30 /166 =12,8%

Page 6: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Medidas de posición n  Se define el cuantil de orden α como un valor de la variable por debajo

del cual se encuentra una frecuencia acumulada α.

n  Casos particulares son los percentiles, cuartiles, deciles, quintiles,...

6

Page 7: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Medidas de posición n  Percentil de orden k

¨  La mediana es el percentil 50 ¨  El percentil de orden 15 deja por debajo al 15% de las

observaciones. Por encima queda el 85%

n  Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. ¨  Primer cuartil = Percentil 25 ¨  Segundo cuartil = Percentil 50 = mediana ¨  Tercer cuartil = Percentil 75

7

Page 8: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Ejemplos: percentiles

rq =q100

(n +1)

8

BMI: 18, 19, 18, 23, 26, 24, 21, 20, 23, 31, 29, 17, 27, 25, 16 n=15

+ - Variable Pq%

q% (100-q)%

pq = (1− f )x i + fx i +1

p90 = (1−0,4) ⋅29+0,4 ⋅31= 29,8r90 =90100

(15+1) =14,4

f parte fraccionaria de rq

16,17,18,18,19,20,21,23,23,24,25,26,27,29,31

Page 9: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Ejemplos: percentiles

Teorema de Thales

9

+ - Variable Pq%

q% (100-q)%

BMI: 18, 19, 18, 23, 26, 24, 21, 20, 23, 31, 29, 17, 27, 25, 16 n=15

Page 10: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Ejemplos: percentiles

r90 =90100

(15+1) =14,4

10

BMI: 18, 19, 18, 23, 26, 24, 21, 20, 23, 31, 29, 17, 27, 25, 16 n=15 Valores

Posición

P90% 29 31

14 14,4

15

p90 − 2914,4−14

=31− 2915−14

Pasos: 1)  Ordenar los datos

2) Calcular Posición/rango 3) Calcular el percentil

16,17,18,18,19,20,21,23,23,24,25,26,27,29,31

Page 11: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

percentile q para n personas X1 ,X2 , X3 , X4 ,X5 ,X6 , X7 , X8 , X9 , X10 ,X11,X12 , . . . ,,Xn

Pasos: 1.  Ordenar los datos 2.  Calcular rango/posición 3.  Calcular el percentil

Values

Positions i

i+1 i+f

Xi Xi+1 Pq%

pq = (1− f )x i + fx i +1

rq =q100

(n +1)

f parte fraccionaria de rq

Page 12: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

¨  Media

¨  Rango

¨  Varianza

¨  Percentiles

2ss =

rq =q100

n +1( )12

x =xmi ⋅ f i

i =1

n

∑n

R = xmmax − xmmin

s 2 =xmi − x( )

2⋅ f i

i =1

n

∑n

=xmi

2 ⋅ f ii =1

n

∑n

− x2

Datos organizados en tabla

Pq = l i +q ⋅n / 100−Fi −1

Fi −Fi −1

⎝⎜⎜

⎠⎟⎟ai

Variable(Li) xmi fi Fi

[l0 – L0) xm1 f1 F1

[l1 – L2) xm2 f2 F2

... Fi-1

[li – Li) xmi fi Fi

n

si está en intervalos usar como xmi las marcas de clase.

ai = amplitud del intervalo

Desviación típica

Page 13: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Ejemplo

Tiempo en meses Nº de sujetos

0 - 6 6 - 12

12 - 18 18 - 24 24 - 30 30 - 36

28 14 10 8 8 5

Total 73

13

En un estudio sobre supervivencia tras un tratamiento con quimioterapia para cierto tipo de cáncer ha sido registrado el tiempo transcurrido desde el inicio del tratamiento hasta el fallecimiento de los individuos. Los tiempos registrados se resumen en la tabla adjunta, agrupados por intervalos de 6 meses de amplitud:

Page 14: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Histograma

0

5

10

15

20

25

30

3 9 15 21 27 33

Tiempo de supervivencia

Frec

uenc

ias

Abs

olut

asTiempo en

meses Marca de clase

(Xmi) Frecuencias

Absolutas (fi) Frecuencias Absolutas

Acumuladas (Fi) Frecuencias relativas (fri) Porcentaje (pi) Porcentaje

Acumulado(Pi) 0 - 6 3 28 28 28/73 = 0,38 38% 38% 6 a 12 9 14 42

14/73 = 0,19 19% 57% 12 a 18 15=(18+12)/2 10 52 10/73 = 0,14 14% 71=38+19+14 18 - 24 21 8 60=28+14+10+8 8/73 = 0,10 10% 81% 24 - 30 27 8 68 8/73 = 0,10 10% 91% 30 - 36 33 5 73 5/73 = 0,07 7% 98%≈ 100%

Total 73 1,00 100%

14

Page 15: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Tiempo

Marca de clase (xmi)

fi Fi

0 - 6 3 28 28

6 a 12 9 14 42

12 a 18

15 10 52

18 - 24

21 8 60

24 - 30

27 8 68

30 - 36

33 5 73

Total 73

15

x =xmi f i

i =1

6

∑n

=3× 28( )+ 9×14( )+ ...+ 33×5( )

73=12,45

Moda = 3 meses Mediana: 1.- Los datos por encontrarse en una tabla están ordenados 2.-Calculamos la posición: 3.-Calculamos el percentil 50

rq =q100

n +1( ) = 50100 73+1( ) = 37

P50 = x i +q ⋅n / 100−Fi −1

Fi −Fi −1

⎝⎜⎜

⎠⎟⎟ai = 6+

36,5− 2842− 28

⎝⎜

⎠⎟6 = 9,64

Varianza = ( )

( ) ( )73

545,1233...2845,123 221

2

2 ×−++×−=

=

∑=

n

fxx

s

n

iii

=11,16 meses2 Desviación típica = s = 3,34 meses y el Coeficiente de variación = Cv = 0,27

Por tanto el tiempo de supervivencia está entorno a 12,45 meses con una variabilidad entorno a este valor de 3,34 meses.

Media

Page 16: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Percentil 95

Tiempo Xmi fi Fi

0 - 6 3 28 28

6 a 12 9 14 42

12 a 18 15 10 52

18 - 24 21 8 60

24 - 30 27 8 68

30 - 36 33 5 73

Total 73

16

Esta variable recoge el tiempo entre el inicio del tratamiento con quimioterapia y la defunción del paciente, por tanto buscamos aquel valor de la variable (tiempo en meses) tras el cual quedan vivos solo el 5% de la población, o lo que es lo mismo, por debajo de este valor quedarán las defunciones del 95% de la población. Calculamos por tanto el percentil del 95%:

1.- Los datos por encontrarse en una tabla están ordenados 2.-Calculamos la posición: luego fijándonos en las frecuencias acumuladas obtenemos el intervalo que referencia, en este caso es el último. 3.-Calculamos el percentil 95

P95% = X i +qn / 100−Fi −1Fi −Fi −1

⎝⎜⎜

⎠⎟⎟ai = 30+

69,35− 6873− 68

⎝⎜

⎠⎟× 6 = 31,62 meses

rq =q ⋅ (n +1)100

=95 ⋅74100

= 70,3

Page 17: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Otra forma de calcular los percentiles FiF1F2.Fi .Fn-1Fn

X [l1-L1) f1[l2-L2) f2

. .[li-Li) fi

. .[ln-1-Ln-1) fn-1 [ln-Ln] fn

ifPasos: 1.  Ordenar los datos. 2.  Calcular la posición r=(n+1)q/100 3.  Calcular percentil

[li-Li) is the Reference Interval

Position Fi-1

Pq% li Li

Fi

Values

Pq − l in ⋅q100

−Fi −1=Li − l iFi −Fi −1

Pq = l i +n ⋅q100

−Fi −1Fi −Fi −1

⎜⎜⎜⎜

⎟⎟⎟⎟ai

Page 18: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Gráficos variables cuantitativas à Polígonos de frecuencias

18

Distribución asimétrica positiva à media > mediana Distribución asimétrica negativa à media < mediana

Distribución simétrica à media = mediana fichero:meses.xls

0

5

10

15

20

25

3 9 15 21 27 33 39 45

Histogramaypolígonodefrecuencias

0

2

4

6

8

10

12

14

3 9 15 21 27 33 39 45

Histogramaypolígonodefrencuencias

0

5

10

15

20

25

3 9 15 21 27 33 39 45

Histogramaypolígonodefrecuencias

Page 19: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Gráficos variables cuantitativas à Polígonos de frecuencias acumulado

19

Page 20: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Gráficos variables cuantitativas à Polígonos de frecuencias

20

Page 21: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Medidas de forma: datos sin agrupar x1, x2, ..., xn

n  Coeficiente de asimetría:

n  Coeficiente de curtosis

21

As =

x i − x( )3

i =1

n

∑ns 3

Cu =

x i − x( )4

i =1

n

∑ns 4

As = 0→SimetriaAs>0→ Asimetria positivaAs < 0→ Asimetria negativa

Cu = 3→MesocúrticaCu>3→LeptocúrticaCu < 3→Platicúrtica

Page 22: Sesión 2-3: Estadística descriptiva - pinae.es · Gráficos variables cuantitativas à Polígonos de frecuencias 18 Distribución asimétrica positiva à media > mediana Distribución

Medidas de forma: datos agrupados por intervalos

n  Coeficiente de asimetría:

n  Coeficiente de curtosis

22

As =

xmi − x( )3⋅ f i

i =1

n

∑ns 3

Cu =

xmi − x( )4⋅ f i

i =1

n

∑ns 4

Variable(Li) xmi fi Fi

[l0 – L0) xm1 f1 F1

[l1 – L2) xm2 f2 F2

... Fi-1

[li – Li) xmi fi Fi

n

As = 0→SimetriaAs>0→ Asimetria positivaA < 0→ Asimetria negativa

Cu = 3→MesocúrticaCu>3→LeptocúrticaCu < 3→Platicúrtica