53
Estadística Descriptiva para variables continuas

Estadística Descriptiva para variables continuas

Embed Size (px)

DESCRIPTION

Estadística Descriptiva para variables continuas. Tópicos a tratar…. Repaso clase anterior Identificación de v ariables continuas Medidas de tendencia central y dispersión Presentaciones gráficas Estimación puntual e intervalos de confianza Manejo de valores fuera de rango. - PowerPoint PPT Presentation

Citation preview

Page 1: Estadística Descriptiva para variables continuas

Estadística Descriptiva para

variables continuas

Page 2: Estadística Descriptiva para variables continuas

Tópicos a tratar…

• Repaso clase anterior• Identificación de variables continuas• Medidas de tendencia central y dispersión• Presentaciones gráficas• Estimación puntual e intervalos de

confianza• Manejo de valores fuera de rango

Page 3: Estadística Descriptiva para variables continuas

Que buscamos?Obtener un ‘sabor’ de los datos

continuos…

•Estimar algunos parametros de la poblacion, en forma puntual y por intervalos

•‘Aprender’ de los datos continuos a través de una visualización gráfica

•Examinar la calidad de los datos

Page 4: Estadística Descriptiva para variables continuas

Clasificación general:

Categórica Cuantitativa o numérica

Nominal Ordinal Discreta Continua

Page 5: Estadística Descriptiva para variables continuas

Ejemplos:

• Nominales: Sexo, estado civil, presencia de morbilidad, resultado del tratamiento

• Ordinales: Severidad de morbilidad, riesgo quirúrgico, resistencia a antibioticos

• Discretas: Cociente intelectual, tiempo de tratamiento u hospitalización

• Contínuas: concentración de alcohol en la sangre

Page 6: Estadística Descriptiva para variables continuas

Comandos usados en STATA para identificar el tipo de variable:

• codebook

• tabulate

Page 7: Estadística Descriptiva para variables continuas
Page 8: Estadística Descriptiva para variables continuas
Page 9: Estadística Descriptiva para variables continuas
Page 10: Estadística Descriptiva para variables continuas

ATENCION !

• STATA puede identificar un tipo de variable de manera erronea !

• Debemos apoyarnos en la ciencia, en nuestro conocimiento previo de la variable con que estamos trabajando.

Page 11: Estadística Descriptiva para variables continuas

Recordemos las características de una variable continua con distribución normal…

Figure 10.10

66

Page 12: Estadística Descriptiva para variables continuas

Distribución de frecuencias

Una lista exhaustiva y mutuamente excluyente de categorias (cualitativas o cuantitativas) con una tabulación (en valores absolutos o porcentajes) de cuántas observaciones en los datos se encuentran en cada categoría.

Page 13: Estadística Descriptiva para variables continuas

Raw Score Frequency64 263 161 259 256 252 151 238 436 334 531 529 527 525 124 221 217 215 16 23 1

n = 50

Raw Scores(Intervals of Five) Frequency

60–64 555–59 450–54 345–49 040–44 035–39 730–34 1025–29 1120–24 415–19 310–14 05–9 20–4 1

n = 50

De ‘variables continuas’ a ‘variables categóricas’

MIRKO, usa tabulate con generate aqui para representar esto

Ojo que se les ha indicado que esto se usa mas para covariables que para sus outcomes

Page 14: Estadística Descriptiva para variables continuas

Representación gráfica de una tabulación bivariada

Page 15: Estadística Descriptiva para variables continuas

Comando “histogram”

Page 16: Estadística Descriptiva para variables continuas

Estadísticas de resumen:

El conjunto de agregados numéricos de una distribución de frecuencias las que resumen una característica específica de un conjunto de datos.

Page 17: Estadística Descriptiva para variables continuas

Medidas de tendencia central:

• Promedio o media aritmética. Mas sensible a valores extremos

• Mediana o percentil 50: Valor que divide una distribución ordenada por la mitad

• Moda: Valor mas frecuente. Es mas usada para variables categóricas

Page 18: Estadística Descriptiva para variables continuas

Medidas de dispersión:• Rango

• Intervalo intercuartil (diferencia entre los percentiles 25 y 75)

• Desviación estándar: en que monto promedio se desvían los valores observados de la media

• Varianza: media de las desviaciones (DE) elevada al cuadrado (?)

Page 19: Estadística Descriptiva para variables continuas

Comandos usados en STATA para obtener estadísticas de resumen

• codebook (variables numéricas)

• tabulate

Page 20: Estadística Descriptiva para variables continuas

Estimación puntual e intervalos de confianza

• Los parámetros de una población tienen un valor fijo, (es un número exacto)

• Usualmente estos parámetros no se conocen, por que es complicado medir a ‘toda la población’

• Ante esto, los parámetros se ‘estiman’ a partir de una ‘muestra’ de la población.

• La estimación puede ser ‘puntual’ o en un ‘intervalo de confianza’

Page 21: Estadística Descriptiva para variables continuas

Efectos del ‘muestreo’ en la estimación de un parámetro

Page 22: Estadística Descriptiva para variables continuas

Es mejor estimar el intervalo de confianza de un parámetro antes

que su estimación puntual…

• El intervalo de confianza es una ‘variable aleatoria’

• El 95% Intervalo de Confianza, es un intervalo que tiene un 95% de probabilidad de cubrir el verdadero valor del parámetro estimado

Page 23: Estadística Descriptiva para variables continuas

Intervalos de confianza de variables normales

Std.Err. = Std.Dev / sqrt(N)

Page 24: Estadística Descriptiva para variables continuas

Ci varlist, level( )

Page 25: Estadística Descriptiva para variables continuas

Exploración gráfica

• Una manera ‘visual’ y muy intuitiva de tener una imagen clara de los datos.

• Método muy usado para presentar resultados.

• Un solo gráfico puede contener una densidad muy alta de información

• Sujeta a interpretaciones subjetivas y problemas de ilusión

Page 26: Estadística Descriptiva para variables continuas

Desviaciones Estandar para Ninos y Adultos en Equipos de Basketball

Figure 10.8

6666

Page 27: Estadística Descriptiva para variables continuas

Representación gráfica de una tabulación bivariada

Page 28: Estadística Descriptiva para variables continuas

Comparando Desviaciones Estandard

Mean = 15.5 s = 3.338 11 12 13 14 15 16 17 18 19 20 21

11 12 13 14 15 16 17 18 19 20 21

Data B

Data A

Mean = 15.5 s = .9258

11 12 13 14 15 16 17 18 19 20 21

Mean = 15.5 s = 4.57

Data C

Page 29: Estadística Descriptiva para variables continuas

Dos bases de datos hipotéticas… Es importante tener una imagen visual de la distribución de la variable

La media provee una buena representación de los valores en la base de datos.

Datos de baja variabilidad

Datos con alta variabilidad

La media ya NO provee ahora una buena información de los datos comosucedía anterioremente

Al incrementar datos la distribución cambia..

Page 30: Estadística Descriptiva para variables continuas

Perfil de la distribución

• Describe cómo los Datos están Distribuídos

• Caracterización del perfil de la distribución:

Simétrica o sesgada

Page 31: Estadística Descriptiva para variables continuas

Perfil de la distribución

• Describe cómo los Datos están Distribuídos

• Caracterización del perfil de la distribución: Simétrica o sesgada

SimétricaMedia = Mediana = Moda

Page 32: Estadística Descriptiva para variables continuas

Perfil de la distribución

• Describe cómo los Datos están Distribuídos

• Caracterización del perfil de la distribución: Simétrica o sesgada

Sesgada izquierda SimétricaMean = Median = ModeMean Median Mode

Page 33: Estadística Descriptiva para variables continuas

Perfil de la distribución

• Describe cómo los Datos están Distribuídos

• Caracterización del perfil de la distribución: Simétrica o sesgada

Sesgada derechaSesgada izquierda SimétricaMedia = Mediana = ModaMedia Mediana Moda Mediana MediaModa

Page 34: Estadística Descriptiva para variables continuas

El comando ‘histogram’ en STATA

Page 35: Estadística Descriptiva para variables continuas

Histogram inf_edad, bin(12) kdensity

Page 36: Estadística Descriptiva para variables continuas

Box Plot (Gráfico de cajas)

• Se muestra gráficamente los datos utilizando 5 números (estadísticas de

resumen)

Mediana

4 6 8 10 12

Q3Q1 XMáximoXMínimo

Page 37: Estadística Descriptiva para variables continuas

Relación entre el perfil de la distribución y el Box Plot

Sesgada derechaSesgada izquierda Simétrica

Q1 Mediana Q3Q1 Mediana Q3 Q1

Mediana Q3

Page 38: Estadística Descriptiva para variables continuas

El comando ‘Graph’ en STATA

Page 39: Estadística Descriptiva para variables continuas

graph box inf_edad

0.0

1.0

2.0

3D

ensi

ty

0 20 40 60 80Edad del paciente

Page 40: Estadística Descriptiva para variables continuas

Box plot

Page 41: Estadística Descriptiva para variables continuas

Los gráficos ‘box-plot’ permiten realizar comparaciones

Page 42: Estadística Descriptiva para variables continuas

Gráficos ‘tallo y hoja’ comando ‘stem’ de STATA

Page 43: Estadística Descriptiva para variables continuas
Page 44: Estadística Descriptiva para variables continuas

Scatter-plots y Ejemplos de Relaciones No-lineales

Page 45: Estadística Descriptiva para variables continuas

Ejemplos en Stata!

Page 46: Estadística Descriptiva para variables continuas

Ganancias25%

Ganancias25%

Representación gráfica y problemas éticos

Last year, 25 percent of our sales dollar was profits. Depending on whether we present it to our stockholders or the unions, we don’t want to give it the same emphasis.

That’s easy. For our stockholders, we’ll show it in our annual report as a coin in perspective and take the 25 percent profits from the front …

Whereas for the union, we’ll show it from the back where it won’t look anywhere as impressive.

Ganancias25%

.

Page 47: Estadística Descriptiva para variables continuas

Representación gráfica y potenciales abusos

Oops, we certainly don’t want to advertise that sharp increase in administrative costs, it may raise questions by our stockholders.

No sweat. We’ll switch the two components around. This way, by placing the administrative costs at the top, it doesn’t look so damning. As a matter of fact, it looks like it’s going down.

LaborCosts

AdministrativeCosts

LaborCosts

AdministrativeCosts

Page 48: Estadística Descriptiva para variables continuas

Now, if you could only show this declining sales picture as going up, all my problems would be solved.

Sure thing; no problem. A bit of perspective here, a bit of fore-shortening there, and now the line looks like it’s going up.

‘87 ‘88 ‘89 ‘90 ‘91 ‘920

25

50

75

100

‘87 ‘88 ‘89 ‘90 ‘91 ‘920

25

50

75

100

Representación gráfica y potenciales abusos

Page 49: Estadística Descriptiva para variables continuas

Manejo de datos fuera de rango (outliers)

• Los Outliers son valores que se consideran “No Pertenecen” al conjunto de datos.

• Razones para darse:• 1. Errores de medición• 2. Resultados atípicos

• La recomendación es corregir los errores (si es posible) y remover las observaciones atípicas.

• PERO! Y si así es la ciencia ?! Mejor hacer doble análisis: con y sin ‘outliers’

Page 50: Estadística Descriptiva para variables continuas
Page 51: Estadística Descriptiva para variables continuas
Page 52: Estadística Descriptiva para variables continuas

Análisis de OUTLIERS:

Datos Simétricos

Valores que se exceden en 3 DS de la media

-3s X

outlier region

outlier region

+ 3sXX

Page 53: Estadística Descriptiva para variables continuas

Análisis de OUTLIERS:

Datos sesgados:

Valores que se exceden de 3 rangos intercuartiles por debajo del primer cuartil Q1 o por encima del tercer cuartil (Q3) (percentiles 25 y 75 respectivamente)

Sesgada izquierda Sesgada Positiva

Q1 – 3(Q3 – Q1)Q1 Q3 Q1 Q3 Q3 + 3(Q3 – Q1)

outlier region outlier

region