15
Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10 Distribuciones de Probabilidad II 1) Pruebas de bondad de ajuste a. Definición La prueba de bondad de ajuste es aquella que tiene por objetivo determinar si los datos se ajustan a una determinada distribución de probabilidad. Esta prueba compara la distribución de frecuencias observada de una variable usualmente cualitativa, pero que también puede ser cuantitativa, con la distribución de frecuencias de la misma variable medida en un grupo de referencia. b. ¿Cuándo se usa? La prueba de bondad de ajuste se utiliza cuando no se conoce la distribución fundamental de la población. c. ¿Para qué se usa? Se utiliza cuando se quiere probar la hipótesis de que una distribución particular será satisfactoria como modelo de la población. d. ¿Qué herramientas existen para realizar Pruebas de Bondad de ajuste? La distribución ji-cuadrada se utiliza como procedimiento formal para probar la bondad del ajuste. El procedimiento requiere una muestra aleatoria de tamaño n de la población cuya probabilidad es desconocida. Estas n observaciones se ordenan en un histograma de frecuencias, con k intervalos de clase. Sea O i la frecuencia observada en el intervalo de clase i. Se calcula la frecuencia esperada a partir de la distribución de probabilidad hipotética para el intervalo de clase i-ésimo, denotado E i , de forma que: e. Dos ejemplos de problemas resueltos Problema 1 Se propone hipotéticamente que el número de defectos en tarjetas de circuitos impresos sigue una distribución de Poisson. Se ha colectado una muestra aleatoria de n = 60 tarjetas de circuitos impresos, y se observó el número de defectos. Los datos siguientes son los resultados: Número de defectos Frecuencia observada 0 32 1 15 2 9 3 4

Distribuciones de Probabilidad

Embed Size (px)

DESCRIPTION

Aspectos básicos sobre distribuciones de probabilidad

Citation preview

Page 1: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

Distribuciones de Probabilidad II

1) Pruebas de bondad de ajuste

a. Definición

La prueba de bondad de ajuste es aquella que tiene por objetivo determinar si los datos se ajustan a una

determinada distribución de probabilidad. Esta prueba compara la distribución de frecuencias observada de

una variable usualmente cualitativa, pero que también puede ser cuantitativa, con la distribución de

frecuencias de la misma variable medida en un grupo de referencia.

b. ¿Cuándo se usa?

La prueba de bondad de ajuste se utiliza cuando no se conoce la distribución fundamental de la población.

c. ¿Para qué se usa?

Se utiliza cuando se quiere probar la hipótesis de que una distribución particular será satisfactoria como

modelo de la población.

d. ¿Qué herramientas existen para realizar Pruebas de Bondad de ajuste?

La distribución ji-cuadrada se utiliza como procedimiento formal para probar la bondad del ajuste. El

procedimiento requiere una muestra aleatoria de tamaño n de la población cuya probabilidad es desconocida.

Estas n observaciones se ordenan en un histograma de frecuencias, con k intervalos de clase. Sea Oi la

frecuencia observada en el intervalo de clase i. Se calcula la frecuencia esperada a partir de la distribución de

probabilidad hipotética para el intervalo de clase i-ésimo, denotado Ei, de forma que:

e. Dos ejemplos de problemas resueltos

Problema 1

Se propone hipotéticamente que el número de defectos en tarjetas de circuitos impresos sigue una

distribución de Poisson. Se ha colectado una muestra aleatoria de n = 60 tarjetas de circuitos impresos, y

se observó el número de defectos. Los datos siguientes son los resultados:

Número de defectos Frecuencia observada

0 32

1 15

2 9

3 4

Page 2: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

//Obtención de parámetros

//Obtención de probabilidad de defectos

//Obtención de las frecuencias esperadas con n = 60,

Número de defectos Probabilidad Frecuencia esperada

0 0.472 28.32

1 0.354 21.24

2 0.133 7.98

Puesto que la frecuencia esperada en la última celda es menor que 3, se combinan las últimas dos celdas:

Número de defectos Frecuencia observada

Frecuencia esperada

0 32 28.32

1 15 21.24

2 (o más) 13 10.44

//Cálculo del grado de libertad

k-p-1 = 3-1-1 = 1 grado de libertad

//Procedimiento de ocho pasos para prueba de hipótesis

1. Variable de interés: Forma de distribución de los defectos en las tarjetas de circuitos impresos.

2. H0: La forma de distribución de los defectos es de Poisson.

3. H1: La forma de distribución de los defectos no es de Poisson.

4. α = 0.05

5. El estadístico de la prueba es: ∑

6. Se rechaza H0 si

.

Page 3: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

7. Cálculos

8. Conclusiones: puesto que

, no puede rechazarse la hipótesis nula de que la

distribución de los defectos en las tarjetas de circuitos impresos es de Poisson. El valor P para la prueba

es P = 0.0864.

Problema 2

Un ingeniero está probando una fuente de usada en una computadora notebook. Utilizando α = 0.05, él quiere

determinar si una distribución normal describe adecuadamente el volumen de salida. De una muestra

aleatoria de n = 100 unidades, obtiene las estimaciones muestrales de la media y la desviación estándar x =

5.04 V y s = 0.08 V.

//Dividiendo en 8 intervalos de clase, pi = 1/8 = 0.125, por lo que las frecuencias esperadas de las celdas son

Intervalo de clase Frecuencia observada oi Frecuencia esperada Ei

X < 4.948 12 12.5

4.948 ≤ x < 4.986 14 12.5

4.986 ≤ x < 5.014 12 12.5

5.014 ≤ x < 5.040 13 12.5

5.040 ≤ x < 5.066 12 12.5

5.066 ≤ x < 5.094 11 12.5

5.094 ≤ x < 5.132 12 12.5

5.132 ≤ x 14 12.5

Totales 100 100

//Aplicando procedimiento de 8 pasos:

1. La variable de interés es la forma de la distribución del voltaje de la fuente de poder.

2. H0: La forma de la distribución es normal.

3. H1: La forma de la distribución no es normal.

4. α = 0.05

5. El estadístico de la prueba es: ∑

6. Puesto que se estimaron dos parámetros de la distribución normal, el estadístico ji-cuadrada anterior

tiene k-p-1 = 8-2-1 = 5 grados de libertad. Por lo tanto, se rechazará H0 si

Page 4: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

7. Cálculos:

8. Conclusiones: puesto que

, no puede rechazarse H0 y no hay evidencia

robusta que indique que el voltaje de salida no tenga una distribución normal. El vapor P del

estadístico ji-cuadrada = 0.64 es P = 0.9861.

Page 5: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

2) Tipos de distribución de probabilidad

a. Distribución Gamma

i. Antecedentes y descripción

La distribución gamma tiene un caso particular que es la distribución de Erlang. Si el parámetro

r de una variable aleatoria de Erlang no es un entero, pero r>0, entonces la variable aleatoria

tiene una distribución gamma. La función gamma puede interpretarse como una generalización

para valores no enteros de r del término (r-1)!, que se usa en la función de densidad de

probabilidad de Erlang. La función gamma es:

para r > 0

ii. Función de densidad

La variable aleatoria X con función de densidad de probabilidad

para x > 0

Tiene una distribución gamma con parámetros λ > 0 y r > 0. Si r es un entero, entonces X tiene

una distribución de Erlang.

iii. Parámetros y significado

λ = parámetro de escala (determina qué tan amplia es la distribución)

r = parámetro de forma (afecta la forma de la distribución, no su desplazamiento)

iv. Categoría

Distribución de probabilidad continua.

v. Comportamiento gráfico (función de densidad de probabilidad)

Θ = λ, k = r

Page 6: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

vi. Problemas que puede resolver

La distribución gamma es un modelo de probabilidad utilizado frecuentemente para problemas

relacionados con tiempos en líneas de espera, duración de vida de un producto, etc.

vii. Ejemplo de problemas que resuelve (planteamiento y resolución)

El tiempo en horas que semanalmente requiere una máquina para mantenimiento es una

variable aleatoria con distribución gamma con parámetros =3, =2

a) Encuentre la probabilidad que en alguna semana el tiempo de mantenimiento sea mayor a 8

horas.

Su densidad de probabilidad es:

f(x) = 2x22x13

3

x1 ex16

1ex

32

1ex

1 ///

)()(

P(X>8) es el área resaltada en el gráfico

P(X>8) = 1 – P(X8) = 1 -

8

0

2x2 dxex16

1 / = 0.2381

Page 7: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

b. Distribución Ji-Cuadrada

i. Antecedentes y descripción

La distribución ji-cuadrada es un caso especial de la distribución gamma en la que λ=0.5 y r es

igual a los valores 0.5, 1, 1.5, 2, etc. Esta distribución se usa ampliamente en la estimación de

intervalos y en la prueba de hipótesis.

ii. Función de densidad

( )

iii. Parámetros y significado

K = número de grados de libertad.

iv. Categoría

Distribución de probabilidad continua.

v. Comportamiento (función de densidad de probabilidad)

Page 8: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

vi. Cómo se calcula el intervalo de confianza

Los valores de X2 dependerán de nivel de confianza que se quiera al cual le llamamos . Si

nos ubicamos en la gráfica se tiene:

b.

El intervalo de confianza se obtiene de la forma común, haciendo uso de alfa y la tabla.

vii. Problemas y planteamientos que ayuda a resolver

La distribución χ² tiene muchas aplicaciones en inferencia estadística, por ejemplo en la

denominada prueba χ² utilizada como prueba de independencia y como prueba de bondad de

ajuste y en la estimación de varianzas. También está involucrada en el problema de estimar la

media de una población normalmente distribuida y en el problema de estimar la pendiente de

una recta de regresión lineal, a través de su papel en la distribución t de Student, y participa en

todos los problemas de análisis de varianza.

viii. Dos ejemplos de problemas que resuelve

Problema 1

Suponga que los tiempos requeridos por un cierto autobús para alcanzar un de sus destinos en una

ciudad grande forman una distribución normal con una desviación estándar =1 minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad de que la varianza muestral sea mayor que 2.

Solución:

Primero se encontrará el valor de ji-cuadrada correspondiente a s2=2 como sigue:

El valor de 32 se busca adentro de la tabla en el renglón de 16 grados de libertad y se encuentra que a este valor le corresponde un área a la derecha de 0.01. En consecuencia, el valor de la probabilidad es P(s2>2)

Page 9: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

Problema 2

En trabajo de laboratorio se desea llevar a cabo comprobaciones cuidadosas de la variabilidad de los resultados que producen muestras estándar. En un estudio de la cantidad de calcio en el agua potable, el cual se efectúa como parte del control de calidad, se analizó seis veces la misma muestra en el laboratorio en intervalos aleatorios. Los seis resultados en partes por millón fueron 9.54, 9.61, 9.32, 9.48, 9.70 y 9.26. Estimar la varianza de los resultados de la población para este estándar, usando un nivel de confianza del 90%.

Solución:

Al calcular la varianza de la muestra se obtiene un valor de s2= 0.0285.

Se busca en la tabla los valores correspondientes con 5 grados de libertad, obteniéndose dos resultados. Para X2

(0.95,5)= 1.145 y para X2(0.0,5)= 11.07.

Entonces el intervalo de confianza está dado por:

y

ix. Valor esperado y varianza

Varianza = 2k

Valor esperado = k

Page 10: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

c. Distribución F

i. Antecedentes y descripción

La necesidad de disponer de métodos estadísticos para comparar las varianzas de dos

poblaciones es evidente a partir del análisis de una sola población. La distribución F es una

distribución de probabilidad continua. También se le conoce como distribución F de Snedecor o

como distribución F de Fisher-Snedecor. Una variable aleatoria de distribución F se construye

como el siguiente cociente:

Donde

U1 y U2 siguen una distribución chi-cuadrado con d1 y d2 grados de libertad

respectivamente, y

U1 y U2 son estadísticamente independientes.

La distribución F aparece frecuentemente como la distribución nula de una prueba estadística,

especialmente en el análisis de varianza.

ii. Función de densidad

La función de densidad de una F (d1, d2) viene dada por:

Para todo número real x 0, donde d1 y d2 son enteros positivos, y B es la función beta.

iii. Parámetros y significado

Grados de libertad del numerador y grados de libertad del denominador ambos enteros

positivos.

iv. Categoría

Distribución de probabilidad continua.

Page 11: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

v. Comportamiento

Función de densidad de probabilidad

Función de distribución de probabilidad

vi. ¿Cómo se calcula el intervalo de confianza?

La expresión para calcular el IC95% para el cociente de varianza es:

Donde: gln son los grados de libertad del numerador que se calculan como el tamaño muestral

del grupo con mayor varianza muestral menos uno, gld son los grados de libertad del

denominador que se calculan como el tamaño muestral del grupo con menor varianza muestral

menos uno.

vii. Problemas y planteamientos que ayuda a resolver

La distribución F aparece frecuentemente como la distribución nula de una prueba estadística,

especialmente en el análisis de varianza.

Page 12: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

viii. Dos ejemplos de problemas que resuelve

Problema 1

1. Encontrar el valor de F, en cada uno de los siguientes casos:

a. El área a la derecha de F, es de 0.25 con =4 y =9.

b. El área a la izquierda de F, es de 0.95 con =15 y =10.

c. El área a la derecha de F es de 0.95 con con =6 y =8.

d. El área a la izquierda de F, es de 0.10 con con =24 y =24

Solución:

a. Como el área que da la tabla es de cero a Fisher, se tiene que localizar primero los grados de libertad dos que son 9, luego un área de 0.75 con 4 grados de libertad uno.

b. En este caso se puede buscar el área de 0.95 directamente en la tabla con sus respectivos grados de libertad.

Page 13: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

c. Se tiene que buscar en la tabla un área de 0.05, puesto que nos piden un área a la derecha de F de 0.95.

d. Se busca directamente el área de 0.10, con sus respectivos grados de libertad.

Problema 2

2. Si s1

2 y s22 son las varianzas muestrales de muestras aleatorias independientes de tamaños n1=10 y

n2 =20, tomadas de poblaciones normales que tienen las mismas varianzas, encuentre P(s12/s2

2 2.42).

Solución:

Primero se establecen los grados de libertad. Como en el numerador está la población uno y en el denominador la población dos, entonces los grados de libertad uno equivalen a 10-1=9 y los grados de libertad dos a 20-1=19. Se procede a ir a la tabla a buscar los grados de libertad dos que son 19 y se observa que no están, por lo tanto se tiene que interpolar entre 15 y 20 grados de libertad, buscando el valor de fisher que quedaría:

Page 14: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

Este valor de 2.42 se busca en la columna de 9 grados de libertad uno, con 15 grados de libertad dos, y se encuentra lo siguiente:

Área

0.90 2.09

0.95 2.59

Al interpolar entre estos dos valores nos queda un área de 0.933. Se procede a hacer lo mismo pero con 20 grados de libertad dos:

Área

0.95 2.39

0.975 2.84

Al interpolar entre estos dos valores nos queda un área de 0.9516. Ahora ya se tienen las dos áreas referentes a los grados de libertad dos, por lo que se interpolará para ver cuánto le corresponde a los grados libertad dos con un valor de 19.

Área

15 0.933

20 0.9516

Al interpolar nos queda que para 9 grados de libertad uno y 19 grados de libertad dos con un valor de Fisher de 2.42 el área a la izquierda es de 0.9478.

Page 15: Distribuciones de Probabilidad

Inferencia Estadística Actividad 9 Manuel Muñoz Aguirre 05/10/10

ix. Valor esperado y varianza

Varianza:

para d2 > 4

Valor esperado: