Clase 4 Estadística Inferencial

Estadística Inferencial

Rodrigo Asún Inostroza

Estadística Inferencial:

• Extrapola información desde una base de datos a un universo mayor.

• Procedimientos:

– Estimación de punto.

– Estimación de intervalo.

– Pruebas de hipótesis (ej: Chi cuadrado, t).

¿Como lo hace?• Implica: a partir de estadísticos calculados a

partir de la muestra, decir cosas de un universo no estudiado.

Universo: desconocido

Muestra: conocida

Ejemplo:• Problema investigación: ¿hay diferencias de género en los ingresos de los profesionales de ciencias sociales, a iguales tipos de trabajos?.

• Se obtiene una muestra probabilística de 400 profesionales. En ella la media de ingresos de los hombres es 900.000 pesos y la de las mujeres 800.000, diferencia 100.000.

• A partir de dicha diferencia encontrada en la muestra... ¿qué se puede decir del universo?.

• Solución: estadística inferencial.

¿Como trabaja la estadística inferencial?

• Se apoya en dos leyes de la probabilidad:

– Ley de los grandes números:

• Si se obtienen una muestra aleatorea de tamaño n de un universo, el valor del promedio de dicha muestra se aproximará al promedio del universo si n tiende a infinito.

– Teorema del límite central.

• Si se obtienen infinitas muestras aleatorias de tamaño grande de un universo, la distribución de las medias de las muestras se aproximará a una distribución:

n

uN

,

¿Entonces?• 1) En una distribución normal no podemos determinar

exactamente la probabilidad de un determinado resultado, pero si de un área de resultados:

• 2) Se formula una Hipótesis Nula:

– Es la hipótesis que se pone a prueba en un análisis estadístico.

– Normalmente es la que queremos rechazar.

– Normalmente habla de que no hay relación entre las variables.

– En este caso: diferencia de ingresos entre hombres y mujeres en el universo es 0.

• 3) Se supone a la Hipótesis nula como correcta.

• 4) Podemos entender nuestra muestra como un ejemplo del conjunto infinito de muestras posibles de un universo con hipótesis nula correcta (distribución de probabilidad para hip nula correcta).

¿Es probable nuestra muestra?• 5) Calcular probabilidad de, si hipótesis nula es correcta,

haber obtenido nuestra muestra o una aún más extrema.

Muestra dif 100 milDiferencia 0

¿Decisión?• Si nuestra muestra es probable... Argumento a favor de hipótesis nula.

– Para que nuestra muestra sea probable tiene que parecerse a Hip nula, implica poca diferencia.

• Si nuestra muestra no es probable. Tres opciones:

– Muestreo mal realizado... Descartable luego de revisar procedimientos.

– Simple casualidad, se obtuvo muestra muy improbable (pero no imposible) a pesar de que hipótesis nula es correcta... Puede ser pero es improbable.

– Hipótesis nula es incorrecta, por eso nuestra muestra parece extraña, pero nolo es realmente, lo que está mal es la hipótesis nula.

En resumen:• Comparamos nuestra muestra con una distribución de probabilidad construida a partir de hipótesis nula correcta.

• Medimos esa comparación en términos de probabilidad de haber obtenido esa muestra o una más extraña aún.

• Esa probabilidad se llama p.

• Si p es menor que un valor definido de antemano (llamado alfa), significa que sería una muestra poco probable dada la hipótesis nula.

En resumen (cont.):• Usualmente alta es 0,05, lo que es igual a 5%.

• Implica que usualmente si nuestra muestra tiene 5% de menos probabilidades de haber sido escogida de un universo con hipótesis nula incorrecta... Rechazamos la hipótesis Nula.

• Problema: podemos estar cometiendo un error... Podría ser que por azar hayamos obtenido esa muestra y hip nula igual sea correcta.

• Eso se llama error tipo 1, y hay que vivir con ello.

Tipos de operaciones estadísticas:• Estimación de punto:

– Muy simple, apoyándose en ley de los grandes números, si se obtiene una muestra grande, la mejor estimación del valor de una variable en el universo (parámetro), es valor del estadístico.

– Esto es correcto si estadístico:

• Es un estimador eficiente (poca varianza).

• No tiene sesgo. Ejemplo de sesgo:

– El mejor estimador de 2 es:

1

)( 22

1

n

xxS in Y no

n

xxS i

2

2 )(

• Estimación de intervalo:

– Implica estimar un intervalo en que es probable se encuentre el valor del parámetro, y no sólo el punto más probable.

– Es más seguro, pues se pueden hacer afirmaciones sobre el valor del parámetro dada cierta probabilidad.

– Se pueden calcular para muchos estadísticos, pero es más usual respecto de la media y la proporción.

– Ejemplo: Existe un 95% de confianza en que la media de ingresos de los chilenos esté entre 400.000 y 450.000 pesos.

– Ejemplo: Existe un 99% de confianza de que el candidato Juanito obtenga entre el 35 y el 40% de los votos.

• Cálculo de intervalos de confianza:

– Formula para la media:

nSzx

2

– Formula para la proporción:

nqpzp

2ˆ

Estimación de puntoHeterogeneidad del universo

% de confianza, traducido a puntuación z

• En simple:– Alrededor del estimador de punto se construye un intervalo (+ -).

– El ancho del intervalo depende de traducción a puntaje Z de confianza que se quiera tener:

• 1,96 para 95% de confianza.

• 2 para 95,5% de confianza.

– De la heterogeneidad del universo (desviación estandar de la distribución de muestreo).

• Ejemplo:– Se obtiene la siguiente muestra:

• n= 500 casos.

• p= 54%.

– Formula para intervalo de confianza con 95% confianza.

nqpzp

2ˆ

500465496,1%54

37,4%54 – Implica: hay 95% de confianza en que el candidato obtendrá

entre 49,63% y 58,37%.

• Pruebas de Hipótesis para dos variables:

– Se seleccionan de acuerdo a tres criterios:

• Nivel de medición de la primera variable.

• Nivel de medición de la segunda variable.

• Tamaño de la muestra.

– Para muestras grandes (más de 100 casos) se utilizan pruebas paramétricas (suponen distribución normal). En la próxima tabla están en azul.

– Para muestras pequeñas (menos de 100 casos) se utilizan pruebas no paramétricas (no suponen distribución normal). En la próxima tabla están en rojo.

– Funcionan bajo la misma mecánica. Pasos:

• Formulación de hipótesis. Siempre se pone a prueba hipótesis nula: no relación entre variables, independencia.

• Selección de la prueba a utilizar en función de tamaño de muestra y tipo de variables.

• Obtención de puntuación del estadístico.

• Obtención de significación.

• Si significación es menor que 0,05 se rechaza hipótesis nula. De lo contrario no se rechaza.

• Interpretación.

Pruebas de hipótesis más frecuentes por nivel de mediciónPruebas de hipótesis más frecuentes por nivel de medición

Nominal Ordinal Intervalar

Nominal dicotómica

Chi cuadrada Chi cuadrada t de student

U de Mantt-Whitney

Nominal no dicotómica

Chi cuadrada Chi cuadrada ANOVA

Ordinal ---- Chi cuadrada

Significación de Tau b de Kendall

Significación de r de Spearman

ANOVA

Kruskall- Wallis

Intervalar ---- ---- Significación de r de Pearson

Significación de r de Spearman

Documents

Clase 4 Estadística Inferencial