7

Click here to load reader

Interpretar intervalos

Embed Size (px)

DESCRIPTION

interpretacion intervalos

Citation preview

Page 1: Interpretar intervalos

EEDD 880000 EEssttaaddííssttiiccaass

DDrr.. EEddggaarrddoo JJ.. AAvviillééss

EEssttiimmaaddooss yy TTaammaaññooss ddee

MMuueessttrraass

En la estadística inferencial usamos datos de la muestra para hacer inferencias (o generalizaciones) acerca de la población. Las dos mayores aplicaciones de la estadística inferencial involucran el uso de datos de la muestra para (1) estimar el valor del parámetro de la población, y (2) probar algunos reclamos (o hipótesis) acerca de la población. Estimando la Media de la Población: Muestras Grandes El objetivo principal de esta sección es: Dada una colección de más de 30 valores en una muestra, desarrollar un estimado del valor de la media de la población µ.

SUPOSICIONES 1. n > 30 (La muestra tiene más de 30 valores. 2. La muestra es una muestra simple aleatoria. (Todas las muestras del mismo

tamaño tienen la misma oportunidad de ser seleccionadas).

PUNTO IMPORTANTE Los datos recogidos negligentemente pueden ser absolutamente sin valor, incluso si la muestra es absolutamente grande.

DEFINICIONES IMPORTANTES Un estimador es una fórmula o proceso usando datos de la muestra para estimar un parámetro de la población. Un estimado es un valor específico o rango de valores usados para aproximar un parámetro de la población. Un punto estimado es un valor simple (o punto) usado para aproximar un parámetro de la población. La media de la muestra x es el mejor punto estimado de la media de la población µ. Aunque se pueden usar otros estadísticos tales como la mediana de la muestra, el rango medio, o la moda como un estimado de la media poblacional µ, estudios han demostrado que la media muestral x usualmente provee el mejor estimado, por dos razones.

1. Para muchas poblaciones, la distribución de medias de la muestra x tiende a ser más consistente (con menos variación) que las distribuciones de otros estadísticos

Page 2: Interpretar intervalos

2de la muestra. (Esto es, si se usan medias muestrales para estimar la media de la población µ, esas medias muestrales tendrán una desviación estándar pequeña, que otros estadísticos de la muestra, como la mediana o la moda. Las diferencias entre x y µ por lo tanto, tienden a ser menores que las diferencias obtenidas por otros estadísticos, como la mediana).

2. Para todas las poblaciones, la media muestral x es un estimador imparcial de la

media poblacional µ, significando que la distribución de medias de la muestra tienden a centrar alrededor del valor de la media poblacional µ. (Esto es, medias muestrales no tienden sistemáticamente a sobreestimar el valor de µ, ni tampoco tiende sistemáticamente a subestimar µ. En vez, tienden a apuntar el valor mismo de µ.

DEFINICIÓN DE INTERVALOS DE CONFIANZA

Un intervalo de confianza (o intervalo de estimado) es un rango (o intervalo) de valores usados para estimar el valor verdadero del parámetro de la población. Un intervalo de confianza es asociado con unos grados de confianza, como 0.95 (o 95%). El grado de confianza nos dice el porciento de veces que el intervalo de confianza actualmente contiene el parámetro de la población, presumiendo que el proceso de estimación es repetido un número grande de veces.

DEFINICIÓN DE GRADOS DE CONFIANZA Los grados de confianza es la probabilidad 1 – α (frecuentemente expresada como el valor del porciento equivalente) que es la frecuencia relativa de veces que el intervalo de confianza actualmente contiene el parámetro de la población, presumiendo que el proceso de estimación es repetido un número grande de veces. (El grado de confianza es también llamado el nivel de confianza o el coeficiente de confianza.) Los más comunes selecciones para el nivel de confianza son 90% (con α = 0.10), 95% (con α = 0.05) y 99% (con α = 0.01). La alternativa más usada es la de 95% porque provee un buen balance entre precisión (según reflejado en el ancho del intervalo de confianza) y confiabilidad (según expresado en el grado de confianza).

INTERPRETANDO UN INTERVALO DE CONFIANZA Debemos tener cuidado en interpretar intervalos de confianza correctamente. Hay una interpretación correcta y una incorrecta acerca del siguiente intervalo de confianza: 98.08o F < µ < 98.32o F. Interpretación correcta:

Estamos 95% confiados de que el intervalo de 98.08 hasta 98.32 actualmente contiene el valor verdadero de µ. Esto significa que si tuviéramos que seleccionar muchas muestras diferentes de tamaño 106 y construir el intervalo de confianza, 95% de ellas realmente contienen el valor de la media poblacional µ. (Nótese que

Page 3: Interpretar intervalos

3en esta interpretación correcta, el nivel de 95% se refiere al proceso siendo usado para estimar la media, y no se refiere a la media poblacional en sí.

Interpretación incorrecta:

Hay un 95% de oportunidad de que el verdadero valor de µ esté entre 98.08 y 98.32.

Valores Críticos: Construyendo un intervalo de confianza requiere que se encuentre un valor estándar z que pueda ser usado para distinguir estadísticos de muestras que son probables para ocurrir de aquéllos que son no probables. Tal valor z es llamado un valor crítico (definido abajo) y está basado en las siguientes observaciones:

1. Sabemos por el teorema del límite central que las medias de la muestra tienden a ser normalmente distribuidas.

2. Las medias de la muestra tienen una oportunidad pequeña relativa (con probabilidad denotada por α de caer en uno de los colas extremas.

3. Denotando cada área de la cola sombreada como α/2, vemos que hay una probabilidad total α de que una media muestral esté en cualesquiera de las dos colas.

4. Por la regla de los complementos, hay una probabilidad de 1 – α de que una media muestral esté en la región no crítica.

5. La puntuación z separando la cola derecha de la curva es comúnmente denotada por 2αz y es referido como el valor crítico porque está en la línea borde separando medias muestrales que son probables de que ocurran de aquéllas que no lo son.

DEFINICIÓN DE VALOR CRÍTICO

Un valor crítico es el número en la línea borde separando estadísticos de muestra que son probables que ocurran de aquellos que no son probables que ocurran. El número

2αz es un valor crítico que es una puntuación z con la propiedad que separa un área de α/2 en la cola derecha de la distribución normal estándar. Estos son los valores críticos más usados, y han sido listados con otros dos valores comunes en la tabla que sigue:

Grado de confianza α Valor crítico, 2αz 90% 0.10 1.645 95% 0.05 1.96 99% 0.01 2.575

Page 4: Interpretar intervalos

4Margen de error: Definición: Cuando la data de una variable aleatoria simple es usada para estimar la media de una población µ, el margen de error, denotado por E es la máxima diferencia posible (con probabilidad 1 – α) entre la media muestral observada x y el verdadero valor de la media poblacional µ. El margen de error E es también llamado el máximo error del estimado, y puede ser calculado multiplicando el valor crítico y la desviación estándar de las medias muestrales.

nZE σα •

2=

Calculando E cuando σ es desconocida: Si n > 30, se puede reemplazar σ en la fórmula anterior por la desviación estándar de la muestra s. Si n ≤ 30, la población debe tener una distribución normal y se tiene que saber el valor de σ para usar la fórmula anterior. Intervalo de confianza (o intervalo de estimación) para la media poblacional µ (Basado en muestras grandes: n > 30)

ExEx +<<− µ

o bien,

Ex ±=µ o bien,

( )ExEx +− , Definición: Los dos valores Ex − y Ex + son llamados los límites del intervalo de confianza. Procedimiento para construir un intervalo de confianza para µ (Basados en muestras grandes: n > 30)

Page 5: Interpretar intervalos

51. Encontrar el valor crítico

2αZ que corresponde al grado de confianza deseado.

(Por ejemplo, si el grado de confianza es 95%, el valor crítico 2

αZ = 1.96).

2. Evaluar el margen de error E. Si la desviación estándar de la población σ es desconocida, usar el valor de la desviación estándar de la muestra s, provisto que n > 30.

3. Usando el valor calculado del margen de error E y el valor de la media muestral x , encontrar los valores de Ex − y Ex + . Sustituir esos valores en el intervalo de confianza, presentado arriba.

Estimando la media poblacional: Muestras Pequeñas Suposiciones:

n ≤ 30 La muestra es una muestra simple aleatoria. La muestra es de una población normalmente distribuida.

En el desarrollo de intervalos de confianza para estimaciones de µ, hay dos casos: (1) cuando la desviación estándar de la población σ es conocida; y (2) cuando σ es desconocida. Caso 1 (σ es conocida): Este primer caso es grandemente irreal, porque si no se conoce el valor de la media poblacional µ y se está tratando de estimar ese valor, se puede apostar seguramente que no se sabrá el valor de la desviación estándar de la población σ. Caso 2 (σ es desconocida): El segundo caso, donde σ es desconocida es más realista y práctico. Ahora, en vez de usar la distribución normal, se usará la distribución t (“Student t distribution”) desarrollada por Gosset (1876-1937). Distribución t Si la distribución de una población es esencialmente normal (aproximadamente en forma de campana), entonces la distribución de

ns

xt µ−=

es esencialmente una distribución t para todas las muestras de tamaño n. La distribución t es usada para encontrar valores críticos denotados por:

2αt

Page 6: Interpretar intervalos

6DEFINICIÓN DE GRADOS DE LIBERTAD

El número de grados de libertad para un conjunto de data simple es el número de valores muestrales que pueden variar después de que ciertas restricciones hayan sido impuestas a todos los valores de la data.

grados de libertad = n – 1 Margen de error E para una estimación de µ: [Basados en una σ desconocida y una muestra aleatoria pequeña simple (n ≤ 30) de una población normalmente distribuida]

nstE •

2α=

donde tα/2 tiene n – 1 grados de libertad. Intervalo de confianza para la estimación de µ: [Basados en una σ desconocida y una muestra aleatoria pequeña simple (n ≤ 30) de una población normalmente distribuida]

ExEx +<<− µ

donde

nstE •

2α=

Propiedades importantes de la Distribución t:

1. La distribución t (su gráfica) es diferente para tamaños de muestras diferentes. 2. La distribución t tiene la misma simetría general de campana como la distribución

normal estándar, pero esta refleja la variabilidad mayor que es esperado con muestras pequeñas.

3. La distribución t tiene una media de t = 0 (como la distribución normal estándar que tiene una media de z = 0).

4. La desviación estándar de la distribución t varía con el tamaño de la muestra, pero es mayor que 1, poco semejante a la distribución normal estándar que tiene σ = 1.

5. Según el tamaño de la muestra n aumenta, la distribución t se acerca a la distribución normal estándar. Para valores de (n > 30), las diferencias son muy pequeñas, que se puede usar los valores críticos z en vez de desarrollar una tabla mucho más grande de valores críticos t.

Page 7: Interpretar intervalos

7Condiciones para usar la Distribución t:

1. La muestra es pequeña (n ≤ 30); y 2. la desviación estándar σ es desconocida; y 3. la población principal tiene una distribución que es esencialmente normal.

Tomado de: Triola, M. F. (2001). Elementary Statistics. Boston, MA: Addison-Wesley .