Download docx - PRUEBAS ESTADÍSTIC1

PRUEBAS ESTADÍSTICA. (PRUEBAS DE BONDAD DE AJUSTE).

En la construcción del modelo de simulación es importante decidir si un conjunto

de datos se ajusta apropiadamente a una distribución específica de probabilidad.

Al probar la bondad del ajuste de un conjunto de datos, se comparan las

frecuencias observadas FO realmente en cada categoría o intervalo de clase con

las frecuencias esperadas teóricamente FE.

La prueba Ji cuadrada hace uso de la distribución del mismo nombre para probar

la bondad del ajuste al comparar el estadístico de prueba Xo2 con el valor en

tablas de la mencionada distribución Ji cuadrada con v grados de libertad y un

nivel de significancia alfa. En la siguiente sección aplicaremos esta prueba para

probar la hipótesis nula de que los números aleatorios (provenientes de un

generador) se ajustan a la distribución teórica uniforme continua.

Sea X una variable aleatoria discreta con valores x1, x2,......., xn Se propone la

hipótesis nula H0, de que la distribución de donde proviene la muestra se

comporta según un modelo teórico específico tal como la uniforme, la exponencial,

la normal, etc. Entonces FOi, representa el número de veces que ocurre el valor xi

mientras que FEi, es la frecuencia esperada proporcionada por el modelo teórico

propuesto. A menudo ocurre que muchas de las frecuencias FEi, (y también las

FOi) son muy pequeñas, entonces, como regla práctica adoptamos el criterio de

agrupar los valores consecutivos de estas frecuencias esperadas hasta que su

suma sea de al menos cinco. La medida estadística de prueba para la hipótesis

nula es:

Para n grande este estadístico de prueba tiene una distribución X2 aproximada

con V grados de libertad dados por:

V = (k –1) – (número de parámetros estimados)

Así, si se estiman dos parámetros como la media y la varianza, la medida

estadística tendrá (k – 3) grados de libertad. Se puede aplicar esta prueba a

variables continuas agrupando adecuadamente los valores en un número

adecuado de subintervalos o clases k. Una regla empírica para seleccionar el

número de clases es:

EJEMPLO. La siguiente muestra de tamaño 50 ha sido obtenida de una población

que registra la vida útil (en unidades de tiempo) de baterías alcalinas tipo AAA.

Pruébese la hipótesis nula de que la variable aleatoria vida útil de las baterías

sigue una distribución exponencial negativa. Considérese un nivel de significancia

alpha de 5%.

SOLUCIÓN. Calculamos los valores min = 0.023 y max = 8.223. Resultando ser el

rango o recorrido igual a 8.2. El valor promedio es de 2.3. A continuación

ordenamos los valores de manera ascendente y construimos el histograma de

frecuencias relativas con seis clases cada una de longitud 1.5. (Esto es debido a

que 8.2 / 6 = 1.3)

Re – agrupamos las clases de modo que la FO sea de al menos 5

Como nuestra hipótesis nula es que los datos se ajustan a la función de

probabilidad exponencial negativa, emplearemos tal función para calcular

mediante integración el porcentaje de probabilidad esperado para cada

subintervalo. Ya vimos que el valor promedio es de 2.3, sin embargo para fines

prácticos lo consideraremos como 2.0. El cálculo de la integral para la primer clase

es:

Entonces se tiene el valor:

Ahora compararemos este valor calculado contra el valor tabulado de la

distribución Ji – cuadrada con un nivel de significancia alpha de 5% y el número de

grados de libertad V = (k –1) – 1 = (4 –1) –1 = 2. (Obsérvese que se estimó el

parámetro promedio). Entonces

Como vemos el valor calculado es menor que el valor tabulado, por tanto la

conclusión es que no se puede rechazar la hipótesis nula de que la muestra

proviene de una distribución exponencial con media 2.0.

Prueba de Kolmogorov - SmirnovOtra prueba para la bondad de ajuste se apoya en la distribución de Kolmogorov –

Smirnov la que al ser desarrollada para variables continuas la hace más poderosa

por ejemplo, en el caso de los números aleatorios, que la Ji cuadrada. Por esta

razón, en esta sección la presentamos para un caso distinto al de la distribución

continua. Definamos la siguiente función de distribución empírica. Supóngase que

Y es una variable aleatoria continua que tiene una función de distribución F(y).

Una muestra aleatoria de n realizaciones de Y produce las observaciones y1,

y2, ..., yn. Reordenemos esos valores observados de menor a mayor, y las yi

ordenadas se representan mediante y(1) y(2) ..., y(n). Es decir, si y1 = 7, y2 = 9 y

y3 = 3, entonces y(1) = 3, y(2) = 7 y y(3) = 9. Ahora bien, la función de distribución

acumulada empírica esta definida por: F n(y) = fracción de la muestra menor o

igual a y Supóngase que se toma una variable aleatoria continua Y, bajo la

hipótesis nula, que tiene una función de distribución representada por F (y). La

hipótesis alterna es que F (y) no es la función verdadera de distribución de es la

función verdadera de distribución de Y. Después de observar una muestra

aleatoria de n valores de Y, F (y) debe estar “cerca“ de F n(y) siempre y cuando

sea verdadera la hipótesis nula. Por lo tanto, la medida estadística debe apreciar

la cercanía de F(y) a Fn(y) en todo el intervalo de valores de y. La medida

estadística D de K-S se basa en la distancia máxima entre F(y) y Fn(y), es decir, D

= máx ¦ F(y) - Fn(y) ¦

Se rechaza la hipótesis nula si D es “demasiado grande”. Como F(y) y Fn(y) no

son decrecientes y Fn(y) es constante entre observaciones de muestra, la

desviación máxima entre F(y) y Fn(y), se presentará ya sea en uno de los puntos

de observación y1 , ... yn , o inmediatamente a la izquierda de uno de ellos. Para

determinar el valor observado de D, se necesita entonces comprobar tan sólo.

Si en H0 se supone la forma de F (y), pero se deja sin especificar algunos de los

parámetros, entonces éstos se deben estimar a parir de los datos de la muestra

antes de poder llevar a cabo la prueba. Stephens (1974) dio valores de corte de

áreas superiores de 0.15, 0.10, 0.05, 0.025 y 0.01 para una forma modificada de la

tabla K – S para D (presentada en el apéndice de este libro), los cuales se

muestran en la siguiente tabla para tres casos. Estos casos son para la hipótesis

nula de una F(y) completamente especificada, una F(y) normal con promedio y

variancia desconocidos, y una F(y) exponencial con promedio desconocido.

TABLA DE KOLMOGOROV – SMIRNOV DE STEPHENS. Puntos porcentuales

del extremo superior para D modificada.

EJEMPLO. Considérese que las diez observaciones siguientes son una muestra

aleatoria de una distribución continua. Probar la hipótesis de que esos datos

provienen de una distribución exponencial con promedio 2, en el nivel de

significación 0.05. 0.406, 2.343, 0.538, 5.088, 5.587, 2.563, 0.023, 3.334, 3.491,

1.267. Solución. Se ordenan las diez observaciones ascendentemente y entonces

se calcula, para cada y(i), el valor de F(yi), donde H0 establece que F (y) es

exponencial con teta=2. Por tanto, F(yi) = 1 - e-yi/2 Registraremos los datos

ordenados así como los cálculos en la siguiente

TABLA

D+ es el valor máximo en la columna 6 y D- el máximo en la columna 7. Entonces

D + = 0.0886 y D – = 0.2901, lo cual da D = 0.2901. Para determinar el valor crítico

a partir de la tabla K - S, se necesita calcular.