Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
1
UNIVERSIDAD GRAN MARISCAL DE AYACUCHO
FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES
ESCUELA DE ADMINISTRACIÓN
NÚCLEO EL TIGRE-ESTADO ANZOÁTEGUI
VARIABLES ALEATORIAS
DOCENTE: MATA HAMLET
ESTUDIANTE LEIDIBETH RODRIGUEZ
EL TIGRE
2
INDICE
Pag.
Introducción 4 – 5
Pruebas Paramétricas 6
Prueba no Paramétricas 6 – 7
Distribución de Probabilidad 7 – 8
Propiedades 8 – 9
Distribuciones Discretas 9
Variables Discretas: Clasificación y Ejemplos 9
Distribución Bernoulli 9 – 12
Distribución Binominal 12 – 19
Distribución Geométrica 19 – 24
Distribución Binominal Negativa 24 – 27
Distribución Hipergeométrica 28 – 30
Distribución de Poisson 31 – 34
Variable Aleatoria 34
Distribuciones Continuas: Clasificación y Ejemplos 35
Distribuciones continuas: Uniforme. 35 – 37
Distribuciones Continuas Normal o Gaussiana 37 – 50
El Valor Esperado 50
Prueba de los Signos 51
3
Pruebas de wilcoxon de los rangos con signos 51 – 52
Prueba de wilcoxon para constar datos pareados 52 – 53
Prueba de Mann-Whitney para muestras independientes. 53
Prueba de Kruskal-Wallis 53 – 54
La Prueba de Kruskal-Wallis para comparar más de dos grupos 54 – 58
Prueba de corridas (Wald-Wolfowitz) 58 – 61
Prueba de U Mann-Whitney 62 – 66
Correlación 66 – 70
Coeficientes de correlación de rangos 70
Coeficientes de correlación de rangos de Pearson 71 – 73
Coeficiente de correlación simple por rangos de Kendall 73 – 79
Test de Cohen-Kappa 79 – 80
Los valores y concordancia de Kappa 80 – 86
Correlación de Spearman 87 – 92
Kolmogorov-Smirnov 93 – 94
Prueba de Kolmogorov-Smirnov 94 – 96
Conclusiones 97 – 99
Bibliografía 100
4
INTRODUCCION
En el siguiente trabajo hablaremos sobre las pruebas paramétricas y las
pruebas no paramétricas, se llaman paramétricas a aquellas pruebas estadísticas
que exigen que los datos a los que se aplican cumplan con los siguientes
requisitos: Que los valores de la variable dependiente sigan la distribución de la
curva normal que las varianzas de los grupos que se comparan en una variable
dependiente sean aproximadamente iguales y que la variable dependiente esté
medida en una escala que sea por lo menos de intervalo y no paramétricas a
aquellas que no presuponen una distribución de probabilidad para los datos, por
ello se conocen también como de distribución libre (distribution free).
Dentro de las pruebas no paramétricas se encuentra:
La prueba de Wilcoxon de los rangos con signos: Esta prueba nos permite
comparar nuestros datos con una mediana teórica.
El test de Kruskal-Wallis: es un estadístico no paramétrico para testear si
un grupo de datos proviene de la misma población. Se usa para determinar
si K muestras independientes se han tomado de poblaciones que tienen la
misma media, esta prueba no exige suposiciones de distribución normal
de la población y de homogeneidad de la varianza, solo se supone que la
variable tenga como base una distribución continua y se encuentre
medida en una escala ordinal.
La Prueba de corridas (Wald-Wolfowitz): Permite contrastar la hipótesis
nula de que dos muestras independientes proceden de poblaciones con
distribuciones continuas idénticas contra la hipótesis alternativa de que
5
las poblaciones difieren en algún aspecto, que puede ser tanto la tendencia
central como cualquier otra característica.
La prueba Mann-Whitney: es un método no paramétrico aplicado a dos
muestras independientes, cuyos datos han sido medidos al menos en una
escala de nivel ordinal. La prueba calcula el llamado estadístico U, cuya
distribución para muestras con más de 20 observaciones se aproxima
bastante bien a la distribución normal.
También se encuentran la correlación de Pearson, la correlación de
Kendall, el test de cohen-kappa, el coeficiente de correlación de Spearman y las
pruebas de kolmogorov-smirnov que se explicaran mas detalladamente en el
siguiente trabajo.
6
PRUEBAS PARAMETRICAS
Se llama paramétricas a aquellas pruebas estadísticas que exigen que los
datos a los que se aplican cumplan con los siguientes requisitos: Que los valores
de la variable dependiente sigan la distribución de la curva normal, por lo menos
en la población a la que pertenezca la muestra en la que se hizo la investigación;
que las varianzas de los grupos que se comparan en una variable dependiente
sean aproximadamente iguales (homocedasticidad, u homogeneidad de las
varianzas); y que la variable dependiente esté medida en una escala que sea por
lo menos de intervalo, aunque este último requisito no es compartido por todos
los estadísticos (McGuigan, 1993; Siegel, 1956). Cuando los datos cumplen con
los requisitos indicados, especialmente con los dos primeros, las pruebas
estadísticas paramétricas exhiben su máximo poder, es decir, su máxima
capacidad para detectar una relación real o verdadera entre dos variables, si es
que la misma existe. Las pruebas paramétricas más conocidas y usadas son la
prueba t de Student, la prueba F, llamada así en honor a Fisher, y el coeficiente
de correlación de Pearson, simbolizado por r. Cuando estas pruebas estadísticas
se aplican a datos que violan los dos primeros de los requisitos señalados,
pierden parte de su poder.
PRUEBAS NO PARAMETRICAS
Se denominan pruebas no paramétricas aquellas que no presuponen una
distribución de probabilidad para los datos, por ello se conocen también como
de distribución libre (distribution free). En la mayor parte de ellas los
resultados estadísticos se derivan únicamente a partir de procedimientos de
ordenación y recuento, por lo que su base lógica es de fácil comprensión.
7
Cuando trabajamos con muestras pequeñas (n < 10) en las que se
desconoce si es válido suponer la normalidad de los datos, conviene utilizar
pruebas no paramétricas, al menos para corroborar los resultados obtenidos a
partir de la utilización de la teoría basada en la normal.
En estos casos se emplea como parámetro de centralización la mediana,
que es aquel punto para el que el valor de X está el 50% de las veces por debajo
y el 50% por encima.
DISTRIBUCION DE PROBABILIDAD
Dada una variable aleatoria X la función de distribución de probabilidad
FX(x) asigna a un evento definido sobre x una probabilidad.
Entonces la probabilidad es:
Para simplificar la notación, cuando no hay lugar a confusión se omite el
subíndice X, y se escribe simplemente F(x)
Una función de distribución ha de cumplir 3 condiciones:
1. y
2. Es continua por la derecha
3. Es monótona no decreciente
8
La función de distribución es la acumulada de la función de densidad de
probabilidad f(x). Es decir, se calcula directamente según:
-Si x es una variable aleatoria discreta
-Si x es una variable aleatoria continua
PROPIEDADES
Para dos números reales cualesquiera a y b tal que (a < b), los sucesos
y serán mutuamente excluyentes y su suma es el
suceso , por lo que tenemos entonces que:
y finalmente
Por lo tanto una vez conocida la función de distribución F(x) para todos
los valores de la variable aleatoria x conoceremos completamente la distribución
de probabilidad de la variable.
9
Para realizar cálculos es más cómodo conocer las distribución de
probabilidad, para ver una representación gráfica de la probabilidad es más
práctico el uso de la función de densidad.
DISTRIBUCIONES DISCRETAS
Bastaría colocar la distribución discreta basada en la función de
probabilidad acumulada (entre 0% y 100%), generar un aleatorio (por la función
=aleatorio) y, por ejemplo, a través de una función de búsqueda y referencia
(buscar) identificar el valor correspondiente.
Usando una función de buscar y referencia, como buscar del Excel,
podríamos generar aleatorios y así aseguramos la aleatoriedad de las cantidades
obtenidas, y que luego de "n" simulaciones ("n" no debería ser menor a 1.000),
permitiría calcular el promedio y el riesgo de la distribución.
VARIABLES DISCRETAS CLASIFICACION Y EJEMPLOS
DISTRIBUCION BERNOULLI
Consiste en realizar un experimento aleatorio una sola vez y observar si
cierto suceso ocurre o no, siendo p la probabilidad de que esto sea así (éxito) y
q=1-p el que no lo sea (fracaso). En realidad no se trata más que de una variable
dicotómica, es decir que únicamente puede tomar dos modalidades, es por ello
que el hecho de llamar éxito o fracaso a los posibles resultados de las pruebas
obedece más una tradición literaria o histórica, en el estudio de las v.a., que a la
situación real que pueda derivarse del resultado. Podríamos por tanto definir este
experimento mediante una v.a. discreta X que toma los
10
valores X=0 si el suceso no ocurre, y X=1 en caso contrario, y que se
denota
Un ejemplo típico de este tipo de variables aleatorias consiste en lanzar
una moneda al aire y considerar la variable aleatoria.
Para una variable aleatoria de Bernouilli, tenemos que su función de
probabilidad es:
11
Y su función de distribución:
Su función característica es:
Los principales momentos de la X los podemos calcular directamente
O bien usando la función característica:
12
DISTRIBUCION BINOMIAL
Se dice que una variable aleatoria (v.a). X sigue una ley binomial de
parámetros n y p, , si es la suma de n v.a. independientes de
Bernouilli con el mismo parámetro,
p:
Esta definición puede interpretarse en el siguiente sentido: Supongamos que
realizamos n pruebas de Bernouilli, Xi, donde en todas ellas, la probabilidad de
éxito es la misma (p), y queremos calcular el número de éxitos, X, obtenidos el
total de las n pruebas.
Figura: Función de probabilidad de una variable binomial cunado n es
pequeño.
13
Por tanto, su función de distribución es
Figura: Función de probabilidad de una variable
binomial cuando n es grande.
14
La función característica de la suma de variables independientes es el
producto de las funciones características de estas:
Los principales momentos de X los calculamos más fácilmente a partir
de que de su propia definición:
15
Ejemplo
Un médico aplica un test a 10 alumnos de un colegio para detectar una
enfermedad cuya incidencia sobre una población de niños es del . La
sensibilidad del test es del y la especificidad del . ¿Cual es la
probabilidad de que exactamente a cuatro personas le de un resultado positivo?
Si en la muestra hay cuatro personas a las que el test les da positivo, ¿cuál es la
probabilidad de que entre estas, exactamente dos estén sanas? Calcular la
probabilidad de que el test suministre un resultado incorrecto para dos personas.
Calcular la probabilidad de que el resultado sea correcto para más de 7 personas.
Solución:
Los datos de que disponemos son:
Donde E, T+, y T- tienen el sentido que es obvio. Si queremos saber a
cuantas personas el test le dará un resultado positivo, tendremos que calcular
, para lo que podemos usar el teorema de la probabilidad total (estar
enfermo y no estarlo forman una colección exhaustiva y excluyente de
sucesos):
16
Sea X1 la v.a. que contabiliza el número de resultados positivos. Es claro
que llamando , se tiene que X sigue una distribución binomial
Por ello la probabilidad de que a cuatro personas le de él resultado del
test positivo es:
17
Si queremos calcular a cuantas personas les dará el test un resultado
positivo aunque en realidad estén sanas, hemos de calcular previamente
, o sea, el índice predictivo de falsos positivo:
Es importante observar este resultado. Antes de hacer los cálculos no era
previsible que si a una persona el test le da positivo, en realidad tiene una
probabilidad aproximadamente del de estar sana. Sea X2 la variable
aleatoria que contabiliza al número de personas al que el test le da positivo, pero
que están sanas en realidad. Entonces
Y
18
Por último vamos a calcular la probabilidad p3 de que el test de un
resultado erróneo, que es:
La variable aleatoria que contabiliza el número de resultados erróneos
del test es
Como la probabilidad de que el test sea correcto para más de siete
personas, es la de que sea incorrecto para menos de 3, se tiene
19
DISTRIBUCION GEOMETRICA
Consideramos una sucesión de v.a. independientes de Bernouilli,
Una v.a. X sigue posee una distribución geométrica, , si esta
es la suma del número de fracasos obtenidos hasta la aparición del primer éxito
en la sucesión . Por ejemplo
20
De este modo tenemos que la ley de probabilidad de X es
Observación
Es sencillo comprobar que realmente f es una ley de probabilidad, es decir,
. Para ello basta observar que la sucesión es una progresión
geométrica de razón q, a la que podemos aplicar su fórmula de sumación:
21
Observación
En la distribución geométrica el conjunto de posibles valores que puede
tomar la variable ( ) es infinito numerable, mientras que en la de Bernouilli y
en la binomial, estos eran en número finito.
La función característica se calcula teniendo en cuenta que de nuevo aparece la
sumación de los términos de una progresión geométrica, pero esta vez de razón
eit q:
La media y varianza de esta variable aleatoria son:
22
Ejemplo
Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta
el nacimiento de una hija. Calcular el número esperado de hijos (entre varones
y hembras) que tendrá el matrimonio. Calcular la probabilidad de que la pareja
acabe teniendo tres hijos o más.
Solución: Este es un ejemplo de variable geométrica. Vamos a suponer
que la probabilidad de tener un hijo varón es la misma que la de tener una hija
hembra. Sea X la v.a.
Es claro que
Sabemos que el número esperado de hijos varones es , por
tanto el número esperado en total entre hijos varones y la niña es 2.
23
La probabilidad de que la pareja acabe teniendo tres o más hijos, es la de
que tenga 2 o más hijos varones (la niña está del tercer lugar en adelante), es
decir,
Hemos preferido calcular la probabilidad pedida mediante el suceso
complementario, ya que sería más complicado hacerlo mediante la suma infinita
Observación
La distribución exponencial también puede ser definida como el número
de pruebas realizadas hasta la obtención del primer éxito (como hubiese sido
más adecuado en el ejemplo anterior). En este caso es un ejercicio sencillo
24
comprobar que X sólo puede tomar valores naturales mayores o iguales a 1, y
que:
DISTRIBUCION BINOMIAL NEGATIVA
Sobre una sucesión de v.a. de Bernouilli independientes,
Se define la v.a. X como el número de fracasos obtenidos hasta la
aparición de r éxitos en la sucesión . En este caso se dice que X sigue
una ley de distribución binomial negativa de parámetros r y p y se denota del
modo: . Su ley de probabilidad se deduce siguiendo el esquema:
=1mm
Es decir,
25
De nuevo, el conjunto de posibles valores de esta v.a. discreta es
.
Su función característica es
y sus momentos más importantes los obtenemos derivando esta última:
Ejemplo
Para tratar a un paciente de una afección de pulmón han de ser operados
en operaciones independientes sus 5 lóbulos pulmonares. La técnica a utilizar es
26
tal que si todo va bien, lo que ocurre con probabilidad de 7/11, el lóbulo queda
definitivamente sano, pero si no es así se deberá esperar el tiempo suficiente para
intentarlo posteriormente de nuevo. Se practicará la cirugía hasta que 4 de sus
5lóbulos funcionen correctamente. ¿Cuál es el valor esperado de intervenciones
que se espera que deba padecer el paciente? ¿Cuál es la probabilidad de que se
necesiten 10 intervenciones?
Solución: Este es un ejemplo claro de experimento aleatorio regido por
una ley binomial negativa, ya que se realizan intervenciones hasta que se
obtengan 4 lóbulos sanos, y éste es el criterio que se utiliza para detener el
proceso. Identificando los parámetros se tiene:
Lo que nos interesa es medir el número de intervenciones, Y, más que el
número de éxitos hasta el r-ésimo fracaso. La relación entre ambas v.a. es muy
simple:
27
Y=X+r
Luego
Luego el número esperado de intervenciones que deberá sufrir el paciente
es de 11. La probabilidad de que el número de intervenciones sea Y=10, es la de
que X=10-4=6. Por tanto:
Observación
La distribución binomial negativa también se puede definir como el
número de pruebas hasta la aparición de r éxitos. Como el número de pruebas
contabiliza tanto los éxitos como los fracasos se tendría según ésta definición
que
28
DISTRIBUCION HIPERGEOMETRICA
Por claridad, consideremos el siguiente ejemplo: Tenemos una baraja de
cartas españolas (N=40 naipes), de las cuales nos vamos a interesar en el palo
de oros (D=10 naipes de un mismo tipo). Supongamos que de esa baraja
extraemos n=8 cartas de una vez (sin reemplazamiento) y se nos plantea el
problema de calcular la probabilidad de que hayan k=2 oros (exactamente) en
esa extracción. La respuesta a este problema es
En lugar de usar como dato D es posible que tengamos la proporción
existente, p, entre el número total de oros y el número de cartas de la baraja
29
De modo que podemos decir que
Este ejemplo sirve para representar el tipo de fenómenos que siguen una
ley de distribución hipergeométrica. Diremos en general que una v.a. X sigue
una distribución hipergeométrica de parámetros, N, n y p, lo que
representamos del modo , si su función de probabilidad es
Observación
Cuando el tamaño de la población (N) es muy grande, la ley
hipergeométrica tiende a aproximarse a la binomial:
30
El valor esperado de la hipergeométrica es el mismo que el de la binomial,
Sin embargo su varianza
No es exactamente la de la binomial, pues está corregida por un factor,
, que tiende a 1 cuando . A este factor se le denomina factor de
corrección para población finita.
DISTRIBUCION DE POISSON
Una v.a. X posee una ley de distribución de probabilidades del tipo
Poisson cuando
31
Este tipo de leyes se aplican a sucesos con probabilidad muy baja de
ocurrir, obteniéndose como la distribución límite de una sucesión de variable
binomiales, , donde , y (por tanto ).
La demostración de esto consiste en
32
En general utilizaremos la distribución de Poisson como aproximación de
experimentos binomiales donde el número de pruebas es muy alto, pero la
probabilidad de éxito muy baja. A veces se suele utilizar como criterio de
aproximación:
La ley de Poisson la podemos encontrar tabulada en la tabla número 2,
para ciertos valores usuales de .
33
La función característica de es
De lo que se deduce que valor esperado y varianza coinciden
Ejemplo
Cierta enfermedad tiene una probabilidad muy baja de ocurrir,
p=1/100.000. Calcular la probabilidad de que en una ciudad con 500.000
habitantes haya más de 3 personas con dicha enfermedad. Calcular el número
esperado de habitantes que la padecen.
Solución: Si consideramos la v.a. X que contabiliza el número de personas
que padecen la enfermedad, es claro que sigue un modelo binomial, pero que
puede ser muy bien aproximado por un modelo de Poisson, de modo que
34
Así el número esperado de personas que padecen la enfermedad es .
Como , existe una gran dispersión, y no sería extraño encontrar
que en realidad hay muchas más personas o menos que están enfermas. La
probabilidad de que haya más de tres personas enfermas es:
VARIABLE ALEATORIA
Llamamos variable aleatoria o variable estocástica, X, a toda aplicación
que asocia a cada elemento del espacio muestral, E, un número real x.
Dicho de manera informal: es el valor numérico que “de alguna manera” se
asigna a un suceso.
El conjunto imagen de la aplicación se llama recorrido de la variable. Suele
confundirse variable aleatoria con recorrido.
Ejemplo 1. Si lanzamos tres monedas al aire y X es el número de caras
que salen, los valores que toma X son 0, 1, 2 y 3.
Ejemplo 2. Si de una camada de 6 cachorros se cuenta el nº de hembras
que se “obtienen” la variable aleatoria toma los valores x =0, x=1,....x =6-
Ejemplo 3. Al extraer una bombilla de una población y observar si es o
no defectuosa, X tomaría los valores 1 y 0 según sea o no defectuosa.
35
DISTRIBUCIONES CONTINUAS CLASIFICACION Y EJEMPLO
Distribuciones continuas: Uniforme.
La distribución uniforme es aquella que puede tomar cualquier valor
dentro de un intervalo, todos ellos con la misma probabilidad.
Es una distribución continua porque puede tomar cualquier valor y no
únicamente un número determinado (como ocurre en las distribuciones
discretas).
Ejemplo: El precio medio del litro de gasolina durante el próximo año se
estima que puede oscilar entre 140 y 160 ptas. Podría ser, por tanto, de 143 ptas.,
o de 143,4 ptas., o de 143,45 ptas., o de 143,455 ptas, etc. Hay infinitas
posibilidades, todas ellas con la misma probabilidad.
Su función de densidad, aquella que nos permite conocer la probabilidad que
tiene cada punto del intervalo, viene definida por:
Donde:
b: es el extremo superior (en el ejemplo, 160 ptas.)
a: es el extremo inferior (en el ejemplo, 140 ptas.)
Por lo tanto, la función de distribución del ejemplo sería:
36
Es decir, que el valor final esté entre 140 ptas. y 141 ptas. tiene un 5% de
probabilidad, que esté entre 141 y 142, otro 5%, etc.
El valor medio de esta distribución se calcula:
En el ejemplo:
Por lo tanto, el precio medio esperado de la gasolina para el próximo año
es de 150 ptas.
Veamos otro ejemplo:
El volumen de precipitaciones estimado para el próximo año en la ciudad
de Sevilla va a oscilar entre 400 y 500 litros por metro cuadrado. Calcular la
función de distribución y la precipitación media esperada:
Es decir, que el volumen de precipitaciones esté entre 400 y 401 litros tiene un
1% de probabilidades; que esté entre 401 y 402 litros, otro 1%, etc.
El valor medio esperado es:
37
Es decir, la precipitación media estimada en Sevilla para el próximo año es de
450 litros.
DISTRIBUCIONES CONTINUAS NORMAL O GAUSSIANA
Es el modelo de distribución más utilizado en la práctica, ya que multitud
de fenómenos se comportan según una distribución normal.
Esta distribución de caracteriza porque los valores se distribuyen formando una
campana de Gauss, en torno a un valor central que coincide con el valor medio
de la distribución:
Un 50% de los valores están a la derecha de este valor central y otro 50%
a la izquierda
Esta distribución viene definida por dos parámetros:
X: N (m, s2)
38
m: es el valor medio de la distribución y es precisamente donde se sitúa
el centro de la curva (de la campana de Gauss).
s2: es la varianza. Indica si los valores están más o menos alejados del
valor central: si la varianza es baja los valores están próximos a la media; si es
alta, entonces los valores están muy alejados de ella. Se representa por s2 porque
su raíz cuadrada, s, es la denominada desviación estándar.
Cuando la media de la distribución es 0 y la varianza es 1, se denomina
"normal tipificada", y su ventaja reside en que hay tablas, o rutinas de cálculo
que permiten obtener esos mismos valores, donde se recoge la probabilidad
acumulada para cada punto de la curva de esta distribución.
Además, toda distribución normal se puede transformar en una normal
tipificada:
Ejemplo: una variable aleatoria sigue el modelo de una distribución
normal con media 10 y varianza 4. Transformarla en una normal tipificada.
X: N (10, 4)
Para transformarla en una normal tipificada se crea una nueva variable
(Y) que será igual a la anterior (X) menos su media y dividida por su desviación
típica (que es la raíz cuadrada de la varianza)
En el ejemplo, la nueva variable sería:
39
Esta nueva variable se distribuye como una normal tipificada,
permitiéndonos, por tanto, conocer la probabilidad acumulada en cada valor.
Y: N (0, 1)
La distribución normal tipificada tiene la ventaja, como ya hemos
indicado, de que las probabilidades para cada valor de la curva se encuentran
recogidas en una tabla.
X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,
0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,
1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5723
0,
2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,
3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,
4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,
5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7090 0,7224
40
0,
6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,
7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7813 0,7852
0,
8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,
9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,
0 0,8416 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,
1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,
2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,
3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,
4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,
5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,
6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,
7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,
8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
41
1,
9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,
0
0,9772
5
0,9777
8
0,9783
1
0,9788
2
0,9793
2
0,9798
2
0,9803
0
0,9807
7
0,9812
4
0,9816
9
2,
1
0,9821
4
0,9825
7
0,9830
0
0,9834
1
0,9838
2
0,9842
2
0,9846
1
0,9850
0
0,9853
7
0,9857
4
2,
2
0,9861
0
0,9864
5
0,9867
9
0,9871
3
0,9874
5
0,9877
8
0,9880
9
0,9884
0
0,9887
0
0,9889
9
2,
3
0,9892
8
0,9895
6
0,9898
3
0,9901
0
0,9903
6
0,9906
1
0,9908
6 0,99111
0,9913
4
0,9915
8
2,
4
0,9918
0
0,9920
2
0,9922
4
0,9924
5
0,9926
6
0,9928
6
0,9930
5
0,9932
4
0,9934
3
0,9936
1
2,
5
0,9937
9
0,9939
6
0,9941
3
0,9943
0
0,9944
6
0,9946
1
0,9947
7
0,9949
2
0,9950
6
0,9952
0
2,
6
0,9953
4
0,9954
7
0,9956
0
0,9957
3
0,9958
5
0,9959
8
0,9960
9
0,9962
1
0,9963
2
0,9964
3
2,
7
0,9965
3
0,9966
4
0,9967
4
0,9968
3
0,9969
3
0,9970
2 0,99711
0,9972
0
0,9972
8
0,9973
6
2,
8
0,9974
4
0,9975
2
0,9976
0
0,9976
7
0,9977
4
0,9978
1
0,9978
8
0,9979
5
0,9980
1
0,9980
7
2,
9
0,9981
3
0,9981
9
0,9982
5
0,9983
1
0,9983
6
0,9984
1
0,9984
6
0,9985
1
0,9985
6
0,9986
1
42
¿Cómo se lee esta tabla?
La columna de la izquierda indica el valor cuya probabilidad acumulada
queremos conocer. La primera fila nos indica el segundo decimal del valor que
estamos consultando.
Ejemplo: queremos conocer la probabilidad acumulada en el valor
2,75.Entonces buscamos en la columna de la izquierda el valor 2,7 y en la
primera fila el valor 0,05. La casilla en la que se inter seccionan es su
probabilidad acumulada (0,99702, es decir 99.7%).
La tabla nos da la probabilidad acumulada, es decir, la que va desde el inicio de
la curva por la izquierda hasta dicho valor. No nos da la probabilidad concreta
en ese punto. En una distribución continua en el que la variable puede tomar
infinitos valores, la probabilidad en un punto concreto es prácticamente
despreciable.
Ejemplo: Imaginemos que una variable continua puede tomar valores
entre 0 y 5. La probabilidad de que tome exactamente el valor 2 es despreciable,
ya que podría tomar infinitos valores: por ejemplo: 1,99, 1,994, 1,9967, 1,9998,
1999791, etc.
Ejemplos:
Probabilidad acumulada en el valor 0,67: la respuesta es 0,7486
Probabilidad acumulada en el valor 1,35: la respuesta es 0,9115
Probabilidad acumulada en el valor 2,19: la respuesta es 0,98574
43
Esta tabla se puede utilizar con una distribución normal:
Ejemplo: el salario medio de los empleados de una empresa se distribuye según
una distribución normal, con media 5 millones de ptas. y desviación típica 1
millón de ptas. Calcular el porcentaje de empleados con un sueldo inferior a 7
millones de ptas.
Transformamos esa distribución en una normal tipificada, para ello se
crea una nueva variable (Y) que será igual a la anterior (X) menos su media y
dividida por la desviación típica
En el ejemplo, la nueva variable sería:
Esta nueva variable se distribuye como una normal tipificada. La variable
Y que corresponde a una variable X de valor 7 es:
Ya podemos consultar en la tabla la probabilidad acumulada para el valor
2 (equivalente a la probabilidad de sueldos inferiores a 7 millones de ptas.). Esta
probabilidad es 0,97725
Por lo tanto, el porcentaje de empleados con salarios inferiores a 7
millones de ptas. es del 97,725%.
44
Ejercicio 1: La renta media de los habitantes de un país es de 4 millones
de ptas/año, con una varianza de 1,5. Se supone que se distribuye según una
distribución normal. Calcular:
a) Porcentaje de la población con una renta inferior a 3 millones de ptas.
b) Renta a partir de la cual se sitúa el 10% de la población con mayores ingresos.
c) Ingresos mínimo y máximo que engloba al 60% de la población con renta
media.
a) Porcentaje de la población con una renta inferior a 3 millones de ptas.
Lo primero que tenemos que hacer es calcular la normal tipificada:
(*) Recordemos que el denominador es la desviación típica (raíz cuadrada de la
varianza)
El valor de Y equivalente a 3 millones de ptas es -0,816.
P (X < 3) = P (Y < -0,816)
Ahora tenemos que ver cuál es la probabilidad acumulada hasta ese
valor. Tenemos un problema: la tabla de probabilidades (ver lección 35) sólo
abarca valores positivos, no obstante, este problema tiene fácil solución, ya que
la distribución normal es simétrica respecto al valor medio.
45
Por lo tanto:
P (Y < -0,816) = P (Y > 0,816)
Por otra parte, la probabilidad que hay a partir de un valor es igual a 1
(100%) menos la probabilidad acumulada hasta dicho valor:
P (Y > 0,816) = 1 - P (Y < 0,816) = 1 - 0,7925 (aprox.) = 0,2075
Luego, el 20,75% de la población tiene una renta inferior a 3 millones ptas.
b) Nivel de ingresos a partir del cual se sitúa el 10% de la población con
renta más elevada.
Vemos en la tabla el valor de la variable tipificada cuya probabilidad acumulada
es el 0,9 (90%), lo que quiere decir que por encima se sitúa el 10% superior.
Ese valor corresponde a Y = 1,282 (aprox.). Ahora calculamos la variable
normal X equivalente a ese valor de la normal tipificada:
Despejando X, su valor es 5,57. Por lo tanto, aquellas personas con
ingresos superiores a 5,57 millones de ptas. constituyen el 10% de la población
con renta más elevada.
c) Nivel de ingresos mínimo y máximo que engloba al 60% de la
población con renta media.
46
Vemos en la tabla el valor de la variable normalizada y cuya probabilidad
acumulada es el 0,8 (80%). Como sabemos que hasta la media la probabilidad
acumulada es del 50%, quiere decir que entre la media y este valor de Y hay un
30% de probabilidad.
Por otra parte, al ser la distribución normal simétrica, entre -Y y la media
hay otro 30% de probabilidad. En definitiva, el segmento (-Y, Y) engloba al 60%
de población con renta media.
El valor de Y que acumula el 80% de la probabilidad es 0,842 (aprox.),
por lo que el segmento viene definido por (-0,842, +0,842). Ahora calculamos
los valores de la variable X correspondientes a estos valores de Y.
Los valores de X son 2,97 y 5,03. Por lo tanto, las personas con ingresos
superiores a 2,97 millones de ptas. e inferiores a 5,03 millones de ptas.
constituyen el 60% de la población con un nivel medio de renta.
Ejercicio 2: La vida media de los habitantes de un país es de 68 años, con
una varianza de 25. Se hace un estudio en una pequeña ciudad de 10.000
habitantes:
a) ¿Cuántas personas superarán previsiblemente los 75 años?
b) ¿Cuántos vivirán menos de 60 años?
a) Personas que vivirán (previsiblemente) más de 75 años.
Calculamos el valor de la normal tipificada equivalente a 75 años
47
Por lo tanto
P (X > 75) = (Y > 1,4) = 1 - P (Y < 1,4) = 1 - 0,9192 = 0,0808
Luego, el 8,08% de la población (808 habitantes) vivirán más de 75 años.
b) Personas que vivirán (previsiblemente) menos de 60 años.
Calculamos el valor de la normal tipificada equivalente a 60 años
Por lo tanto
P (X < 60) = (Y < -1,6) = P (Y > 1,6) = 1 - P (Y < 1,6) = 0,0548
Luego, el 5,48% de la población (548 habitantes) no llegarán
probablemente a esta edad.
Ejercicio 3: El consumo medio anual de cerveza de los habitantes de un
país es de 59 litros, con una varianza de 36. Se supone que se distribuye según
una distribución normal.
a) Si usted presume de buen bebedor, ¿cuántos litros de cerveza tendría
que beber al año para pertenecer al 5% de la población que más bebe?.
b) Si usted bebe 45 litros de cerveza al año y su mujer le califica de
borracho ¿qué podría argumentar en su defensa?
48
a) 5% de la población que más bebe.
Vemos en la tabla el valor de la variable tipificada cuya probabilidad acumulada
es el 0,95 (95%), por lo que por arriba estaría el 5% restante.
Ese valor corresponde a Y = 1,645 (aprox.). Ahora calculamos la variable
normal X equivalente a ese valor de la normal tipificada:
Despejando X, su valor es 67,87. Por lo tanto, tendría usted que beber
más de 67,87 litros al año para pertenecer a ese "selecto" club de grandes
bebedores de cerveza.
b) Usted bebe 45 litros de cerveza al año. ¿Es usted un borracho?
Vamos a ver en que nivel de la población se situaría usted en función de los litros
de cerveza consumidos.
Calculamos el valor de la normal tipificada correspondiente a 45 litros:
Por lo tanto
P (X < 45) = (Y < -2,2) = P (Y > 2,2) = 1 - P (Y < 2,2) = 0,0139
Luego, tan sólo un 1,39% de la población bebe menos que usted. Parece
un argumento de suficiente peso para que dejen de catalogarle de "enamorado
de la bebida"
49
Ejercicio 4: A un examen de oposición se han presentado 2.000
aspirantes. La nota media ha sido un 5,5, con una varianza de 1,5.
a) Tan sólo hay 100 plazas. Usted ha obtenido un 7,7. ¿Sería oportuno ir
organizando una fiesta para celebrar su éxito?
b) Va a haber una 2ª oportunidad para el 20% de notas más altas que no
se hayan clasificados. ¿A partir de que nota se podrá participar en esta "repesca"?
a) Ha obtenido usted un 7,7 de nota en su prueba.
Vamos a ver con ese 7,7 en que nivel porcentual se ha situado usted, para ello
vamos a comenzar por calcular el valor de la normal tipificada equivalente.
A este valor de Y le corresponde una probabilidad acumulada (ver tablas)
de 0,98214 (98,214%), lo que quiere decir que por encima de usted tan sólo se
encuentra un 1,786%.
Si se han presentado 2.000 aspirantes, ese 1,786% equivale a unos 36
aspirantes. Por lo que si hay 100 plazas disponibles, tiene usted suficientes
probabilidades como para ir organizando la "mejor de las fiestas".
b) "Repesca" para el 20% de los candidatos.
Vemos en la tabla el valor de la normal tipificada que acumula el 80% de la
probabilidad, ya que por arriba sólo quedaría el 20% restante.
50
Este valor de Y corresponde a 0,842 (aprox.). Ahora calculamos el valor
de la normal X equivalente:
Despejamos la X y su valor es 6,38. Por lo tanto, esta es la nota a partir de la
cual se podrá acudir a la "repesca".
EL VALOR ESPERADO
El valor esperado es un concepto fundamental en el estudio de las
distribuciones de probabilidad. Desde hace muchos años este concepto ha sido
aplicado ampliamente en el negocio de seguros y en los últimos veinte años ha
sido aplicado por otros profesionales que casi siempre toman decisiones en
condiciones de incertidumbre.
Para obtener el valor esperado de una variable aleatoria discreta,
multiplicamos cada valor que ésta puede asumir por la probabilidad de
ocurrencia de ese valor y luego sumamos los productos. Es un promedio
ponderado de los resultados que se esperan en el futuro.
PROPIEDADES DEL VALOR ESPERADO
1. E (K) = K K es una constante H(X)=K
2. E (K*X) = K*E(X) H(X)=K*X
3. E (K1* X + K2) = K1*E(X) + K2
51
PRUEBA DE LOS SIGNOS
Dada la muestra aleatoria simple de tamaño n,
(X1, x2,..., xn),
Extraída de una población con distribución continua, se quiere contrastar si su
mediana es igual a cierto valor dado de antemano, designado por med.
Es importante insistir en que no se acepta para la realización del test otra
hipótesis que no sea la continuidad de la distribución poblacional. La hipótesis
nula que se contrasta es:
H0: "la mediana de la población es med".
Frente a la alternativa:
H1: "la mediana de la población es diferente de med".
El estadístico a calcular es:
T = n° de casos en los que xi - med > 0,
Siendo i = 1, 2,..., n.
El estadístico T tiene una distribución binomial B(N, 0.5), donde N es el
número de diferencias (xi - med) no nulas
PRUEBAS DE WILCOXON DE LOS RANGOS CON SIGNOS
Esta prueba nos permite comparar nuestros datos con una mediana teórica
(por ejemplo un valor publicado en un artículo).
52
Llamemos M0 a la mediana frente a la que vamos a contrastar nuestros
datos, y sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-
M0, X2-M0,..., Xn-M0. Si la hipótesis nula fuera cierta estas diferencias se
distribuirían de forma simétrica en torno a cero.
Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-
M0| y se ordenan de menor a mayor, asignándoles su rango (número de orden).
Si hubiera dos o más diferencias con igual valor (empates), se les asigna el rango
medio (es decir que si tenemos un empate en las posiciones 2 y 3 se les asigna
el valor 2.5 a ambas). Ahora calculamos R+ la suma de todos los rangos de las
diferencias positivas, aquellas en las que Xi es mayor que M0 y R- la suma de
todos los rangos correspondientes a las diferencias negativas. Si la hipótesis nula
es ciertos ambos estadísticos deberán ser parecidos, mientras que si nuestros
datos tienen a ser más altos que la mediana M0, se reflejará en un valor mayor
de R+, y al contrario si son más bajos. Se trata de contrastar si la menor de las
sumas de rangos es excesivamente pequeña para ser atribuida al azar, o, lo que
es equivalente, si la mayor de las dos sumas de rangos es excesivamente grande.
PRUEBA DE WILCOXON PARA CONSTAR DATOS PAREADOS
El mismo razonamiento lo podemos aplicar cuando tenemos una muestra
de parejas de valores, por ejemplo antes y después del tratamiento, que podemos
denominar (X1, Y1), (X2, Y2),..., (Xn, Yn). De la misma forma, ahora
calcularemos las diferencias X1-Y1, X2-Y2,..., Xn-Yn y las ordenaremos en valor
absoluto, asignándoles el rango correspondiente. Calculamos R+ la suma de
rangos positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos R-
53
. Ahora la hipótesis nula es que esas diferencias proceden de una distribución
simétrica en torno a cero y si fueran ciertos los valores de R+ y R- serán
parecidos.
PRUEBA DE MANN-WHITNEY PARA MUESTRAS
INDEPENDIENTES.
Si tenemos dos series de valores de una variable continua obtenidas en
dos muestras independientes: X1, X2,..., Xn, Y1, Y2, ... , Ym, procederemos a
ordenar conjuntamente todos los valores en sentido creciente, asignándoles su
rango, corrigiendo con el rango medio los empates. Calculamos luego la suma
de rangos para las observaciones de la primera muestra Sx, y la suma de rangos
de la segunda muestra Sy. Si los valores de la población de la que se extrajo la
muestra aleatoria de X se localizan por debajo de los valores de Y, entonces la
muestra de X tendrá probablemente rangos más bajos, lo que se reflejará en un
valor menor de Sx del teóricamente probable. Si la menor de las sumas de rangos
es excesivamente baja, muy improbable en el caso de que fuera cierta la hipótesis
nula, ésta será rechazada.
PRUEBA DE KRUSKAL-WALLIS
El test de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un
estadístico no paramétrico para testear si un grupo de datos proviene de la misma
población. Es una extensión del test de la U de Mann-Whitney para 3 o más
grupos.
54
El test de Kruskal-Wallis es la alternativa no paramétrica del método
ANOVA, es decir, sirve para contrastar la hipótesis de que k muestras
cuantitativas han sido obtenidas de la misma población.
Se usa para determinar si K muestras independientes se han tomado de
poblaciones que tienen la misma media, esta prueba no exige suposiciones de
distribución normal de la población y de homogeneidad de la varianza, solo se
supone que la variable tenga como base una distribución continua y se encuentre
medida en una escala ordinal.
LA PRUEBA DE KRUSKAL-WALLIS PARA COMPARAR MÁS DE
DOS GRUPOS
Supongamos que tenemos k muestras representadas en una tabla como sigue
Niveles Observaciones de X
Nivel x11 x12 x1n1
Nivel x21 x22 x2n2
... ...
Nivel xk1 xk2 xknk
55
El número total de elementos en todas las muestras es:
La hipótesis a contrastar es:
El modo de realizar el contraste es el siguiente:
Se ordenan las observaciones de menor a mayor, asignando a cada una de
ellas su rango (1 para la menor, 2 para la siguiente, ...,Npara la mayor).
Para cada una de las muestras, se calcula Ri, , como la suma
de los rangos de las observaciones que les corresponden. Si H0 es falsa,
cabe esperar que esas cantidades sean muy diferentes.
Se calcula el estadístico:
La regla para decidir si se ha de rechazar o no la hipótesis nula es la siguiente:
Si el número de muestras es k=3 y el número de observaciones en cada
una de ellas no pasa de 5 se rechaza H0 si el valor de Hsupera el valor
teórico que encontramos en la tabla de Kruskall-Wallis --tabla número
11.
56
En cualquier otro caso, se compara el valor de H con el de la tabla de la
con k-1 grados de libertad. Se rechaza H0 si el valor del estadístico
supera el valor teórico .
Ejemplo
1. Se desea determinar si la motivación que tienen los mecánicos, los
carpinteros y los electricistas para realizar su trabajo es diferente, se desea probar
la hipótesis nula de que los puntajes obtenidos mediante un test por los
trabajadores de los tres oficios son los mismos, con la alterna de que son
diferentes. Supongamos se toman tres (K = 3) muestras independientes
respectivamente y que los tamaños de las muestras combinadas son como se
indica a continuación.
MECANICOS CARPINTEROS ELECTRICISTAS
Puntaje Rango Puntaje Rango Puntaje Rango
310 8,5 312 10 315 11
316 12,5 307 5 325 18
322 16 304 3 330 19
316 12,5 310 8,5 332 20
318 14 300 1 323 17
305 4 308 6,5 320 15
308 6,5 301 2
R1 = 740 R2 = 36 R3 = 100
N1 = 7 N2 = 7 N3 = 6
Número total en las tres muestras es:
57
N = 7 + 7 + 6 = 20
Se sustituye estos valores rn la formula y se obtiene
El valor crítico de x2 que separa el 1% superior de la distribución con
dos grados de libertad es 9.21034. Como el valor de H es mayor que este valor
crítico, se rechaza la hipótesis nula.
Se concluye que los puntajes sobre motivación son diferentes para los
trabajadores de los tres oficios al nivel de significancia del ∂= 0.01
2. Notas versus método
Método N Median Ave Rank Z
1 6 61.50 5.4 -2.29
2 7 85.00 13.8 2.72
3 5 74.00 8.4 -0.54
Total 18 9.5
H = 8.23 DF = 2 P = 0.016
H = 8.25 DF = 2 P = 0.016
58
Interpretación: Como el “p-value” es 0.016 menor que 5, se rechaza la
hipótesis nula y se concluye que los métodos no son todos iguales. Es decir; al
menos uno de los métodos tiene mediana distinta a los otros.
PRUEBA DE CORRIDAS (WALD-WOLFOWITZ)
Una condición básica en casi toda la estadística deductiva es que un
sistema de datos constituye una muestra escogida aleatoria de una población
homogénea dada. La condición de la aleatoriedad es esencial para cerciorarse de
que la muestra es verdaderamente representativa de la población. La prueba mas
usada para la aleatoriedad es la Prueba de corridas (Wald-Wolfowitz).
Una “Corrida” es una serie de observaciones similares.
Permite contrastar la hipótesis nula de que dos muestras independientes
proceden de poblaciones con distribuciones continuas idénticas contra la
hipótesis alternativa de que las poblaciones difieren en algún aspecto, que puede
ser tanto la tendencia central como cualquier otra característica.
Para realizar el contraste se combinan las observaciones de ambas
muestras, ordenándolas de menor a mayor, y se halla el número de rachas o
valores sucesivos de una misma muestra en la secuencia ordenada.
El estadístico de prueba es el número de rachas, R. Si los tamaños de las
muestras son el valor de R está comprendido entre 2 y n1 + n2. Si la hipótesis
nula es cierta, las observaciones de ambas muestras aparecerán muy mezcladas,
y en la secuencia ordenada habrá un gran número de rachas; por el contrario, si
59
ambas poblaciones de origen difieren las observaciones de cada muestra
tenderán a aparecer juntas y el número de rachas será pequeño.
Cuando ambos tamaños muéstrales son superiores a 10 la distribución de
R es aproximadamente normal de parámetros:
La decisión se basa en el valor tipificado de R, que tiene distribución
aproximadamente normal tipificada.
Aunque para realizar este contraste es suficiente que las variables se
midan en una escala ordinal, la presencia de empates, que este tipo de escala
favorece, afecta negativamente a la fiabilidad del contraste y en tal caso es
preferible utilizar la prueba de Kolmogorov-Smirnov.
Para conducir una Prueba de corridas en una muestra, realice los pasos
siguientes:
Paso 1: calcule la media de la muestra.
Paso 2: pasando por la secuencia de la muestra, substituya cualquier observación
con +, ó - dependiendo si está por debajo o por arriba de la media. Deseche
cualquier lazo.
Paso 3: Calcule R, n1, y n2.
Paso 4: calcule la media y la varianza esperada de R, como sigue:
60
a =1 + 2n1n2/(n 1 + n2).
s2 = 2n1n2(2n 1n2-n1- n2)/[[n1 + n2)2 (n1 + n2 -1)].
Paso 5: Calcule z = (R-m)/ s.
Paso 6: Conclusión:
Si z > Za, entonces debería tener un comportamiento cíclico y con estacionalidad
(sub mezclada).
Si z < - Za, debería tener una pendiente.
Si z < - Za/2, ó z > Za/2, rechaza la aleatoriedad.
Nota: Esta prueba es válida para los casos en los cuales n1 y n2 son
grandes, al menos mayores que 10. Para muestras de pequeñas de tamaños, las
tablas especiales deben ser utilizadas.
Ejemplo
En relación con una muestra aleatoria de n = 10 individuos, supongamos
que cuando se les clasifica por sexo la secuencia de observaciones es: M, M, M,
M, F, F, F, F, M, M. Estos datos contienen tres corridas, o series de elementos
semejantes.
61
Respecto de datos numéricos, un medio para obtener el esquema
requerido de dos categorías es clasificar cada observación según si es superior o
inferior a la mediana del grupo. En general, mucho menos corridas o mucho más
corridas que las que sería de esperar al azar resultarían en el rechazo de la
hipótesis nula de que la secuencia de observaciones es una secuencia aleatoria.
El número de corridas de elementos semejantes se determina de acuerdo
con los datos muéstrales, con el uso del símbolo R para designar el número de
corridas observadas. Si n1 equivale al número de elementos muestreados de un
tipo y n2 al número de elementos muestreados del segundo tipo, la media y el
error estándar asociados con la distribución de muestreo de la estadística de
prueba R cuando la secuencia es aleatoria son
Sin, n1 > 20 o n2 > 20, la distribución de muestreo de r aproxima la
distribución normal. Por lo tanto, en estas circunstancias la estadística R puede
convertirse a la estadística de prueba z de la siguiente manera:
20, en libros de texto especializados en 20 y n2 Cuando n1 estadística
no paramétrica se dispone de tablas de valores críticos de la estadística de prueba
R.
62
PRUEBA U DE MANN – WHITNEY
La prueba Mann-Whitney es un método no paramétrico aplicado a dos
muestras independientes, cuyos datos han sido medidos al menos en una escala
de nivel ordinal. La prueba calcula el llamado estadístico U, cuya distribución
para muestras con más de 20 observaciones se aproxima bastante bien a la
distribución normal.
Formulas:
El estadístico U :
─ R1
− R2
Donde:
U1 y U2 = valores estadísticos de U Mann-Whitney.
n1 = tamaño de la muestra del grupo 1.
n2 = tamaño de la muestra del grupo 2.
R1 = sumatoria de los rangos del grupo 1.
R2 = sumatoria de los rangos del grupo 2.
63
Las dos formulas pueden ofrecer dos valores U, designando el mayor
valor por U’ se verificará si se ha encontrado U o bien U’ y se comparara el
valor resultante es mayor que n1n2/2, se tratara de U’ y el valor de U se puede
hallar mediante la fórmula
U = n1 n2 − U’
Valor Promedio:
E(U) = n1 n2
2
Valor Z para conocer la probabilidad:
z = U − E(U) / σU
Donde:
Z = valor estadístico de la curva normal.
U = cualquier valor de U calculado (ya sea U1 o U2).
E(U)= valor promedio de U.
σU = desviación estándar de U.
La desviación estándar de U
64
Pasos:
1. Determinar el tamaño de las muestras (n1 y n2). Si n1 y n2 son menores
que 20, se consideran muestras pequeñas, pero si son mayores que 20, se
consideran muestras grandes.
2. Arreglar los datos en rangos del menor al mayor valor. En caso de que
existan ligas o empates de rangos iguales, se deberán detectar para un
ajuste posterior.
3. Calcular los valores de U1 y U2, de modo que se elija el más pequeño para
comparar con los críticos de U Mann-Whitney de la tabla de
probabilidades asociadas con valores pequeños como los de U en la
prueba de Mann-Whitney.
4. En caso de muestras grandes, calcular el valor Z, pues en estas
condiciones se distribuye normalmente.
5. Decidir si se acepta o rechaza la hipótesis.
Ejemplo:
Determinar si el número de unidades de cierto producto vendidas por
vendedores que tienen grado académico difiere del número de unidades vendidas
por aquellos que no han obtenido grado. Sean G y F los dos grupos de
vendedores respectivamente. Suponga además que se ha tomado
independientemente una muestra aleatoria de 10 vendedores con grado
académico (n1 = 10) y otra muestra aleatoria de 21 vendedores sin tal grado (n2
= 21). Las unidades vendidas y los rangos se muestran a continuación en el
cuadro para este ejemplo R1 = 98 y R2 = 398.
65
U= 10 (21) + 10 (10 + 1) − 98 = 167
2
UNIDADES VENDIDAS POR UNIDADES VENDIDAS POR
VENDEDORES G VENDEDORES F
1 82 24 1 92 31
2 75 19 2 90 29,5
3 70 15 3 90 29,5
4 65 11 4 89 28
5 60 8 5 86 27
6 58 7 6 85 26
7 50 4,5 7 83 25
8 50 4,5 8 81 22,5
9 46 3 9 81 22,5
10 42 2 10 78 21
11 76 20
12 73 18
13 72 17
14 71 16
15 68 14
16 67 13
17 66 12
18 64 10
19 63 9
20 52 6
21 40 1
R1 = 98 R2 = 398
n1 n2/2 = 10 (21) = 105
2
U = 10 (21) − 167 = 43
E (U)= 10 (21) = 105
2
66
Z = 43 − 105 = −2.62
23.66
Si el nivel de significancia se toma a ∂=0.01, los valores Z críticos son +/-
2.575 así que se rechaza la hipótesis nula y se concluye que el número de
unidades vendidas por los vendedores sin grado académico, no es igual al
número de unidades que logran vender los vendedores con dicho grado.
CORRELACION
La correlación indica la fuerza y la dirección de una relación lineal entre
dos variables aleatorias. Se considera que dos variables cuantitativas están
correlacionadas cuando los valores de una de ellas varían sistemáticamente con
respecto a los valores homónimos de la otra: si tenemos dos variables (A y B)
existe correlación si al aumentar los valores de A lo hacen también los de B y
viceversa. La correlación entre dos variables no implica, por sí misma, ninguna
relación de causalidad.
La relación entre dos variables cuantitativas queda representada mediante
la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales
67
componentes elementales de una línea de ajuste y, por lo tanto, de una
correlación, son la fuerza, el sentido y la forma:
La fuerza mide el grado en que la línea representa a la nube de puntos: si
la nube es estrecha y alargada, se representa por una línea recta, lo que indica
que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o
circular, la relación es débil.
El sentido mide la variación de los valores de B con respecto a A: si al
crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los
valores de A disminuyen los de B, la relación es negativa.
La forma establece el tipo de línea que define el mejor ajuste: la línea
recta, la curva monotónica o la curva no monotónica.
La apreciación visual de la existencia de correlación no es suficiente.
Usaremos un parámetro, llamado coeficiente de correlación que denotaremos
con la letra r, que nos permite valorar si ésta es fuerte o débil, positiva o negativa.
El cálculo es una tarea mecánica, que podemos realizar con una
calculadora o un programa informático. Nuestro interés está en saber
interpretarlo destacaremos una de sus propiedades
-1 < r < 1
Correlación Lineal Y Recta De Regresión
Cuando observamos una nube de puntos podemos apreciar si los puntos se
agrupan cerca de alguna curva. Aquí nos limitaremos a ver si los puntos se
68
distribuyen alrededor de una recta. Si así ocurre diremos que hay correlación
lineal. La recta se denomina recta de regresión.
Hablaremos de correlación lineal fuerte cuando la nube se parezca mucho a una
recta y será cada vez más débil (o menos fuerte) cuando la nube vaya
desparramándose con respecto a la recta.
En el gráfico observamos que en nuestro ejemplo la correlación es
bastante fuerte, ya que la recta que hemos dibujado está próxima a los puntos de
la nube.
Cuando la recta es creciente la correlación es positiva o directa: al
aumentar una variable, la otra tiene también tendencia a aumentar, como en el
ejemplo anterior. Cuando la recta es decreciente la correlación es negativa o
inversa: al aumentar una variable, la otra tiene tendencia a disminuir.
Ejemplo
Una persona se entrena para obtener el carnet de conducir repitiendo un
test de 50 preguntas. En la gráfica se describen el nº de errores que corresponden
a los intentos realizados.
69
Observa que hay una correlación muy fuerte (los puntos están "casi"
alineados) y negativa (la recta es decreciente).
Diagrama De Dispersión
La primera forma de describir una distribución bivariante es representar
los pares de valores en el plano cartesiano. El gráfico obtenido recibe el nombre
de nube de puntos o diagrama de dispersión.
Un diagrama de dispersión es una representación gráfica de la relación
entre dos variables, muy utilizada en las fases de Comprobación de teorías e
identificación de causas raíz y en el Diseño de soluciones y mantenimiento de
los resultados obtenidos. Tres conceptos especialmente destacables son que el
descubrimiento de las verdaderas relaciones de causa-efecto es la clave de la
resolución eficaz de un problema, que las relaciones de causa-efecto casi
siempre muestran variaciones, y que es más fácil ver la relación en un diagrama
de dispersión que en una simple tabla de números
70
Línea De Tendencia
La línea de tendencia es la herramienta básica más importante con la que
cuenta el analista técnico.
Es una línea o conjunto de líneas que se trazan en el gráfico uniendo con una
misma pendiente series sucesivas de puntos mínimos (línea de tendencia alcista)
o de puntos máximos (línea de tendencia bajista).
Sirve para determinar en primer lugar la dirección del mercado y
establecer sus objetivos de proyección.
Marca los niveles de soporte o de resistencia que están proyectando los
precios.
Permite analizar en cada momento el nivel de Beneficio/Riesgo que se
puede tomar al iniciar o cerrar una posición, tomando como referencia el precio
actual respecto a línea de tendencia y su proyección.
La ruptura de una línea de tendencia al alza o la baja es una de las señales
que confirma un cambio en la dirección de los precios.
Son la base para trazar los canales que encuadran el posible movimiento
de los precios.
Según sea la dispersión de los datos (nube de puntos) en el plano
cartesiano, pueden darse alguna de las siguientes relaciones, Lineal,
Logarítmica, Exponencial, Cuadrática, entre otras.
COEFICIENTES DE CORRELACION DE RANGOS
Existen diversos coeficientes que miden el grado de correlación,
adaptados a la naturaleza de los datos.
71
COEFICIENTE DE CORRELACION DE PEARSON
Es un índice estadístico que mide la relación lineal entre dos variables
cuantitativas. A diferencia de la covarianza, la correlación de Pearson es
independiente de la escala de medida de las variables.
La formula suele aparecer expresada como:
La primera expresión se resuelve utilizando la covarianza y las
desviaciones típicas de las dos variables
La segunda forma se utiliza cuando partimos de las puntuaciones típicas
empíricas.
Este estadístico, refleja el grado de relación lineal que existe entre dos variables.
El resultado numérico fluctúa entre los rangos de +1 a -1.
Una correlación de +1 significa que existe una relación lineal directa
perfecta (positiva) entre las dos variables. Es decir, las puntuaciones bajas
de la primera variable (X) se asocian con las puntuaciones bajas de la
segunda variable (Y), mientras las puntuaciones altas de X se asocian con
los valores altos de la variable Y.
72
Una correlación de -1 significa que existe una relación lineal inversa
perfecta (negativa) entre las dos variables. Lo que significa que las
puntuaciones bajas en X se asocian con los valores altos en Y, mientras
las puntuaciones altas en X se asocian con los valores bajos en Y.
Una correlación de 0 se interpreta como la no existencia de una relación
lineal entre las dos variables estudiadas.
73
COEFICIENTE DE CORRELACIÓN SIMPLE POR RANGOS DE
KENDALL
Este procedimiento estadístico para medir la correlación o asociación es
complementario del coeficiente de correlación parcial de Kendall; a su vez, es
una segunda opción de la correlación de Spearman.
La razón por la que se expone este modelo estadístico se debe a la
necesidad de comprender la mecánica aritmética y la interpretación de la prueba,
pues se requiere conocerla para realizar el coeficiente parcial de Kendall.
La fórmula es la siguiente:
74
Donde:
t (tau) = coeficiente de correlación de Kendall.
S = puntuación efectiva de los rangos.
N = tamaño de la muestra en parejas de variables.
Fórmula para determinar el nivel de significancia mediante el valor Z:
Donde:
Z = valor Z de la distribución normal.
t = coeficiente de correlación de Kendall.
N = tamaño de la muestra.
Pasos:
1. Alinear las observaciones del rango menor al mayor de la variable
independiente (X), de manera que se deje el rango que corresponde a la
pareja de la variable dependiente (Y).
2. Obtener la puntuación efectiva (S) en la variable dependiente, en función
del orden de ocurrencia de los rangos de Y con respecto a X.
3. Contar el número de parejas y aplicar la fórmula.
4. Calcular el nivel de significancia en función del valor Z, de acuerdo con
la ecuación, presentada anteriormente.
5. Una vez calculado el valor Z, se obtiene la probabilidad de su magnitud
en la tabla de coeficientes de correlación en niveles de p 0.05 y 0.01.
6. Decidir si se acepta o rechaza la hipótesis.
75
Ejemplo:
Un investigador está interesado en saber si el desarrollo mental de un niño
se asocia a la educación formal de la madre. De esta manera, obtiene la
calificación de desarrollo mental en la escala de Gesell de ocho niños elegidos
aleatoriamente y se informa del grado de escolaridad de las madres.
Elección de la prueba estadística.
Se desea medir asociación o correlación. Las calificaciones de la educación
formal de cada madre están dadas en una medición cualitativa, pero tienen una
escala ordinal, por lo cual es posible ordenarlas en rangos.
Planteamiento de la hipótesis.
Hipótesis alterna (Ha). El desarrollo mental de los hijos es una variable
dependiente de la educación formal de la madre; por lo tanto, existe una
correlación significativa.
Hipótesis nula (Ho). La asociación entre las variables educación formal
de la madre y desarrollo mental de los hijos no es significativa, ni hay
correlación.
Nivel de significación.
Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se
rechaza Ho.
76
Zona de rechazo.
Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.
Desarrollo mental de algunos niños y escolaridad de las madres.
Aplicación de la prueba estadística.
Inicialmente, las observaciones de las variables X y Y se ordenan en rangos.
Arreglo en rangos de las observaciones presentadas en la tabla anterior.
De acuerdo con esto, se efectúa un ordenamiento natural de los rangos de las
variables X y Y.
Rangos de la variable independiente X y su correspondiente de la variable
dependiente.
77
El cálculo de la puntuación efectiva (S) se realiza con el ordenamiento de los
rangos de la variable dependiente (Y).
El primer valor del rango de Y es 1. Respecto a los demás rangos, existen siete
mayores que Y y ninguno es menor, de manera que queda:
S = (7 - 0) +
Después está el rango 5, luego se hallan tres por arriba y tres por debajo de éste
y se continúa:
S = (7 - 0) + (3 - 3) +
En rango siguiente es el 3, del cual cuatro son mayores y uno menor, y queda:
S = (7 - 0) + (3 - 3) + (4 - 1) +
El rango inmediato es el 2, y los cuatro subsecuentes son mayores y ninguno
menor:
S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) +
Después se halla el rango 7, en el que uno es mayor y dos menores:
S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) +
Finalmente, se encuentra el rango 8, el subsecuente es el 6, que es menor y se
concluye el cálculo de S, como sigue:
S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) + (0 - 1)
S = 7 + 0 + 3 + 4 - 1 - 1 = 12
Aplicamos la ecuación de la prueba estadística.
78
Calculamos el nivel se significancia.
Una vez calculado el valor Z, se obtiene la probabilidad en la tabla de
coeficientes de correlación en niveles de p 0.05 y 0.01; a su vez en buscamos en
la tabla de probabilidades asociadas en valores extremos como los de 2 en la
distribución normal.
Se localiza el valor 1.4 y en la intersección de la columna 0.09, se observa el
valor 0.0681, el cual corresponde a la probabilidad de obtener un valor Z de esta
magnitud, que difiere del promedio y es mayor que el nivel de significancia.
Decisión.
Como el valor Z tiene mayor probabilidad que el nivel de significancia, se acepta
Ho y se rechaza Ha.
Interpretación.
La correlación entre las variables educación materna y desarrollo mental del hijo
no es significativa. Esta misma conclusión se obtuvo mediante el coeficiente de
correlación de Spearman.
En la sección de coeficiente de correlación de Spearman se señaló que al
aumentar el tamaño de la muestra, existe mayor probabilidad de empates o ligas
entre los rangos de las observaciones. Para esta condición se presenta la
siguiente ecuación:
79
Donde:
t (tau) = coeficiente de correlación de Kendall.
S = puntuación efectiva de los rangos.
N = tamaño de la muestra en parejas de variables.
Lx = sumatoria de ligas o empates dados en la variable independiente (X).
Ly = sumatoria de ligas o empates dados en la variable dependiente (Y).
El nivel de significancia se obtiene de la misma manera.
TEST DE COHEN-KAPPA
Test que evalúa las concordancias y discordancias intra e inter observador
respecto a una variable nominal (por ejemplo radiología positiva o negativa).
Cohen coeficiente kappa es una medida estadística de la confiabilidad
entre calificadores. En general, se cree que fue más robusto medida que simple
acuerdo por ciento desde κ cálculo tiene en cuenta el acuerdo que ocurren por
casualidad. Cohen kappa medidas el acuerdo entre dos calificadores que cada
clasificar N C temas en categorías mutuamente excluyentes.
80
La ecuación para κ es:
Donde Pr (a) es la relativa observada acuerdo entre los calificadores, y Pr
(e) es la probabilidad de que el acuerdo se debe a la casualidad. Si los
calificadores están completamente de acuerdo entonces κ = 1. Si no hay acuerdo
entre los calificadores (distintos de lo que cabría esperar por azar), entonces κ ≤
0.
El papel seminal kappa como la introducción de una nueva técnica fue
publicado por Jacob Cohen en la revista Educación y Psicología de medición en
1960.
Tenga en cuenta que las medidas de Cohen kappa acuerdo entre dos
calificadores sólo. Por una medida similar de acuerdo (Fleiss' kappa) que se
utiliza cuando hay más de dos calificadores.
LOS VALORES Y CONCORDANCIA DE KAPPA
Los valores de Kappa se verán en el siguiente cuadro sin embargo, no es
universalmente aceptada; Landis y Koch suministrado ninguna evidencia para
apoyar que, en lugar de basar su opinión personal. Se ha observado que estas
directrices pueden ser más perjudiciales que útiles ya que el número de
categorías y temas afectará a la magnitud del valor. El kappa será mayor
cuando hay un menor número de categorías.
81
Κ Interpretación
<0 No hay acuerdo
0,0 - 0,20 Muy bajo acuerdo
0,21 - 0,40 Baja acuerdo
0,41 - 0,60 Moderado acuerdo
0,61 - 0,80 Totalmente de acuerdo
0,81 - 1,00 Casi perfecto acuerdo
Cohen kappa se utiliza para comparar el grado de consenso entre los
calificadores (inspectores), por ejemplo, en Análisis de Sistemas de Medida.
Utiliza una tabla de contingencia.
Dos calificadores inspeccionar 150 partes independientemente y hacer las
siguientes determinaciones:
82
Bret
Rechazar
Aceptar
Total
Rechazar 20 19 39
Alice Aceptar 1 110 111
Total 21 129 150
Los valores esperados en cada celda sería:
Bret
Rechazar
Aceptar
Total
Rechazar 5,46 33,54 39
Alice Aceptar 15,54 95,46 111
Total 21 129 150
Estos son los valores que de a la misma asciende a si las determinaciones
fueron realizadas por pura casualidad y se calcula a partir de:
(Fila total de la columna total x) / total general
83
La prueba estadística de Kappa se calcula a partir de:
Donde:
Real El número de veces que los tasadores de acuerdo (110 + 20
= 130)
Espera El número de veces que se han puesto de acuerdo por
casualidad (5,46 + 95,46)
Ensayos El número de juicios
El valor de Kappa será de entre 0 y 1.
Si los resultados se hizo por casualidad, ni por calificadores sentencia muestra
el valor sería cero. Si los calificadores estaban en perfecto acuerdo, el número
de acuerdos de la igualdad de juicios y Kappa sería 1.
Supongamos que se trata de medir el grado de acuerdo entre varios
métodos o evaluadores que clasifican al paciente (o el resultado de una
observación) según una serie de posibilidades (categorías) mutuamente
excluyentes. El caso más sencillo se presenta cuando la variable cualitativa es
dicotómica (dos posibilidades) y se está comparando dos métodos de
clasificación (por ejemplo dos escalas clínicas).
La medida más simple de concordancia es la proporción de
84
coincidencias frente al total de sujetos: (a + d) / n.
Pero resulta que aunque no existiera ninguna relación entre los dos
métodos de clasificación, está claro que es previsible que encontremos algún
grado de concordancia entre ellos por puro azar. Así, si el método A consiste
en clasificar al paciente con resultado positivo si sale cara al lanzar una
moneda al aire y cruz en el caso contrario, y hacemos lo mismo en el método B
(con otra moneda diferente), es previsible encontrar en promedio del orden de
un 50 % de coincidencias.
Supongamos que el sistema A es un método científico de diagnóstico y
el método B es la opinión de un "vidente";también ahora es previsible
encontrar un cierto grado de concordancia debido en parte al azar.
Con el fin de determinar hasta qué punto la concordancia observada es
superior a la que es esperable obtener por puro azar, se define el índice de
concordancia kappa.
En caso de acuerdo perfecto la proporción de concordancia será 1, por
lo que 1-Pe representa el margen de acuerdo posible no atribuíble al azar. De
ese margen nosotros observamos probablemente sólo una parte Po-Pe, salvo
que haya acuerdo perfecto Po=1.
Así pues, en caso de concordancia perfecta el valor de kappa es 1; si la
concordancia observada es igual a la esperada kappa vale 0; y en el caso de que
85
el acuerdo observado sea inferior al esperado el índice kappa es menor que
cero.
Para calcular la concordancia esperada, el razonamiento es el siguiente:
de acuerdo con la tabla anterior la probabilidad de que el método A clasifique a
un sujeto como positivo podemos estimarla como f1/n; mientras que la
correspondiente probabilidad del método B la estimaremos como c1/n. Si
consideramos que existe independencia entre ambos métodos de clasificación,
la probabilidad de que coincidan clasificando al mismo sujeto como positivo
será entonces el producto de las dos probabilidades (sucesos independientes).
Aplicando el mismo razonamiento calculamos la probabilidad de que se
produzca acuerdo entre los métodos al clasificar a un sujeto como negativo, y
entonces la probabilidad de acuerdo cualquiera de las dos clasificaciones será la
suma de ambos valores.
En el caso de más de dos categorías, además del índice de concordancia
global puede ser interesante determinar el grado de concordancia específico en
alguna de las categorías (o en todas), lo que equivale a convertir el resultado
posible en dos únicas respuestas: se clasifica al paciente en la categoría de interés
o se clasifica en alguna de las restantes. De esta manera para cada una de las
categorías vamos convirtiendo la tabla original en tablas 2x2 y podemos
entonces calcular el valor del correspondiente índice kappa como si de una
variable dicotómica se tratara.
La gran utilización del índice de concordancia kappa en la literatura
médica se debe probablemente tanto a la facilidad de cálculo, como a su clara
86
interpretación; no obstante, tiene sus problemas y limitaciones que pueden
consultarse por el lector interesado en la bibliografía que acompaña este artículo.
El principal problema de esta medida de concordancia radica en que está pensada
para clasificaciones nominales, en las que no existe un orden de graduación entre
las diferentes categorías. Cuando esto no es así, pensemos por ejemplo en una
clasificación del tipo Muy grave - grave - leve - sin importancia, donde no es lo
mismo que el desacuerdo se produzca clasificando como sin importancia por un
evaluador y leve por otro, a que uno de ellos clasifique como sin importancia y
otro como muy grave. El índice kappa hasta ahora descrito únicamente tiene en
consideración si hay o no acuerdo, esto es si se clasifica o no al sujeto en la
misma categoría, por lo que a la hora de calcularlo pesan por igual las dos
situaciones anteriormente descritas.
Si deseamos tener en cuenta el hecho de que estamos manejando variables
ordinales para calcular una medida de concordancia, existen diferentes
posibilidades. La más sencilla es calcular individualmente la concordancia en
cada categoría, tal y como se comentó más arriba; pero de esta forma seguimos
sin ponderar el nivel de desacuerdo global según esa clasificación ordinal.
Otro enfoque más global consiste en asignar un peso a las diferentes
posibilidades de desacuerdo, de tal manera que se considere como más
importante un desacuerdo entre categorías alejadas que entre las próximas. Este
peso variará entre 0 (acuerdo, misma categoría) y 1 (desacuerdo con categorías
extremas). El problema surge a la hora de determinar esos pesos, ya que el valor
de concordancia obtenido será diferente según los pesos utilizados.
CORRELACION DE SPEARMAN
87
Es una prueba no paramétrica que mide la asociación o interdependencia
entre dos variables discretas. Para calcular ρ, los datos son ordenados y
reemplazados por su respectivo orden.
El estadístico ρ viene dado por la expresión:
Donde D es la diferencia entre los correspondientes valores de x - y. N es
el número de parejas.
Se tiene que considerar la existencia de datos idénticos a la hora de
ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia
Para muestras mayores de 20 observaciones, podemos utilizar la siguiente
aproximación a la distribución t de Student
La interpretación de coeficiente de Spearman es igual que la del
coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos
asociaciones negativas o positivas respectivamente, 0 cero, significa no
correlación pero no independencia. La tau de Kendall es un coeficiente de
88
correlación por rangos, inversiones entre dos ordenaciones de una distribución
normal bivariante.
Ejemplo.
CI Horas de TV a la semana
106 7
86 0
100 28
100 50
99 28
103 28
97 20
113 12
89
113 7
110 17
El primer paso es ordenar los datos de la primera columna. Después, se crean
dos columnas más. Ambas son para ordenar (establecer un lugar en la lista) de
las dos primeras columnas. Después se crea una columna "d" que muestra las
diferencias entre las dos columnas de orden. Finalmente, se crea otra columna
"d2". Esta última es sólo la columna d al cuadrado.
Después de realizar todo esto con los datos del ejemplo, se debería acabar con
algo como lo siguiente:
CI (i) Horas de TV a la semana (t) orden(i) orden(t) d d2
86 0 1 1 0 0
97 20 2 6 4 16
90
99 28 3 8 5 25
100 50 4.5 10 5.5 30.25
100 28 4.5 8 3.5 12.25
103 28 6 8 2 4
106 7 7 2.5 4.5 20.25
110 17 8 5 3 9
113 7 9.5 2.5 7 49
113 12 9.5 4 5.5 30.25
Nótese como el número de orden de los valores que son idénticos es la media de
los números de orden que les corresponderían si no lo fueran.
Los valores de la columna d2 pueden ser sumados para averiguar
. El valor de n es 10. Así que esos valores pueden ser sustituídos en la fórmula.
91
De lo que resulta ρ = − 0.187878787879.
La aproximación moderna al problema de averiguar si un valor observado
de ρ es significativamente diferente de cero (siempre tendremos 1 ≥ ρ ≥ −1) es
calcular la probabilidad de que fuera mayor o igual que el ρ observado, dada la
hipótesis nula, utilizando un test de permutación. Esta aproximación es casi
siempre superior a los métodos tradicionales, a no ser que el dato sea tan grande
que la potencia informática no sea suficiente para generar permutaciones (poco
probable con la informática moderna), o a no ser que sea difícil crear un
algoritmo para crear permutaciones que sean lógicas bajo la hipótesis nula en el
caso particular de que se trate (aunque normalmente estos algoritmos no ofrecen
dificultad).
Aunque el test de permutación es a menudo trivial para cualquiera con
recursos informáticos y experiencia en programación, todavía se usan
ampliamente los métodos tradicionales para obtener significación. La
aproximación más básica es comparar el ρ observado con tablas publicadas para
varios niveles de significación. Es una solución simple si la significación sólo
necesita saberse dentro de cierto rango, o ser menor de un determinado valor,
mientras haya tablas disponibles que especifiquen los rangos adecuados. Sin
embargo, generar estas tablas es computacionalmente intensivo y a lo largo de
los años se han usado complicados trucos matemáticos para generar tablas para
92
tamaños de muestra cada vez mayores, de modo que no es práctico para la
mayoría extender las tablas existentes.
Una aproximación alternativa para tamaños de muestra suficientemente
grandes es una aproximación a la distribución t de Student. Para tamaños de
muestra más grandes que unos 20 individuos, la variable
Tiene una distribución t de Student en el caso nulo (correlación cero). En
el caso no nulo (ej: para averiguar si un ρ observado es significativamente
diferente a un valor teórico o si dos ρs observados difieren significativamente,
los tests son mucho menos potentes, pero puede utilizarse de nuevo la
distribución t.
Una generalización del coeficiente de Spearman es útil en la situación en
la cual hay tres o más condiciones, varios individuos son observados en cada
una de ellas, y predecimos que las observaciones tendrán un orden en particular.
Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para
intentar cierta tarea, y predecimos que su habilidad mejorará de intento en
intento.
93
KOLMOGOROV – SMIRNOV
La prueba de Kolmogorov-Smirnov (también prueba K-S) es una prueba
no paramétrica que se utiliza para determinar la bondad de ajuste de dos
distribuciones de probabilidad entre sí.
En el caso de que queramos verificar la normalidad de una distribución,
la prueba de Lilliefors conlleva algunas mejoras con respecto a la de
Kolmogorov-Smirnov; y, en general, las pruebas Shapiro-Wilk o Anderson-
Darling son alternativas más potentes.
Conviene tener en cuenta que la prueba Kolmogorov-Smirnov es más
sensible a los valores cercanos a la mediana que a los extremos de la distribución.
La prueba de Anderson-Darling proporciona igual sensibilidad con valores
extremos.
La distribución de los datos Fn para n observaciones yi se define como
Para dos colas el estadístico viene dado por
Donde F(x) es la distribución presentada como hipótesis
94
La distribución de Kolmogorov es la distribución de la variable aleatoria
Donde B (t) es el puente browniano. La función de la distribución acumulativa
de K está dada por
PRUEBA DE KOLMOGOROV – SMIRNOV
Bajo la hipótesis nula de que la muestra proviene de la hipótesis de
distribución F (x),
En la distribución, donde B (t) es el puente browniano.
Si F es continua entonces bajo la hipótesis nula Converge a la
distribución de Kolmogorov, que no depende de F. Este resultado también
puede ser conocido como el teorema de Kolmogorov; ver Kolmogorov del
teorema de desambiguación.
La bondad de ajuste de prueba o la prueba de Kolmogorov-Smirnov se
construye utilizando los valores críticos de la distribución de Kolmogorov.
La hipótesis nula es rechazada en el nivel α si
95
K α, donde se encuentra desde
La asíntota poder de esta prueba es de 1. Si el o los parámetros de la
forma F (x) se determinará a partir de la X i, la desigualdad no podrá ocupar. En
este caso, Monte Carlo o se requieren otros métodos para determinar el nivel de
rechazo α.
Una forma más familiar de la prueba es:
Encontrarse en diferentes referencias.
La prueba de Kolmogorov-Smirnov también puede ser utilizada para
probar si dos subyacente unidimensionales diferentes distribuciones de
probabilidad. En este caso, la estadística de Kolmogorov-Smirnov es
Y la hipótesis nula es rechazada en el nivel α si
96
Este contraste, que es válido únicamente para variables continuas,
compara la función de distribución (probabilidad acumulada) teórica con la
observada, y calcula un valor de discrepancia, representado habitualmente como
D, que corresponde a la discrepancia máxima en valor absoluto entre la
distribución observada y la distribución teórica, proporcionando asimismo un
valor de probabilidad P, que corresponde, si estamos verificando un ajuste a la
distribución normal, a la probabilidad de obtener una distribución que discrepe
tanto como la observada si verdaderamente se hubiera obtenido una muestra
aleatoria, de tamaño n, de una distribución normal. Si esa probabilidad es grande
no habrá por tanto razones estadísticas para suponer que nuestros datos no
proceden de una distribución, mientras que si es muy pequeña, no será aceptable
suponer ese modelo probabilístico para los datos
97
CONCLUSIONES
1. Las pruebas paramétricas más conocidas y usadas son la prueba t de
Student, la prueba F, llamada así en honor a Fisher, y el coeficiente de
correlación de Pearson, simbolizado por r.
2. Las pruebas no paramétricas se conocen también como de distribución
libre.
3. Una función de distribución de probabilidad ha de cumplir 3 condiciones:
y
Es continua por la derecha
Es monótona no decreciente
4. La distribución discreta basada en la función de probabilidad acumulada
(entre 0% y 100%), genera un aleatorio.
5. La distribución de Bernoulli es una variable dicotómica puede tomar dos
modalidades, por ello que el hecho de llamar éxito o fracaso a los
posibles resultados de las pruebas obedece más una tradición literaria o
histórica.
6. La distribución de Bernoulli tiene como función característica
7. Una v.a. X sigue posee una distribución geométrica, , si esta
es la suma del número de fracasos obtenidos hasta la aparición del primer
éxito en la sucesión .
8. La distribución de binominal negativa tiene como ley de probabilidad:
98
9. El valor esperado de la hipergeométrica es el mismo que el de la binomial
10. Utilizaremos la distribución de Poisson
como aproximación de experimentos binomiales donde el número de
pruebas es muy alto, pero la probabilidad de éxito muy baja.
11. La distribución uniforme es aquella que puede tomar cualquier valor
dentro de un intervalo, todos ellos con la misma probabilidad
12. La distribución normal o gaussiana Es el modelo de distribución más
utilizado en la práctica, ya que multitud de fenómenos se comportan
según una distribución normal.
13. Para obtener el valor esperado de una variable aleatoria discreta,
multiplicamos cada valor que ésta puede asumir por la probabilidad de
ocurrencia de ese valor y luego sumamos los productos.
14. La prueba de wilcoxon de los rangos con signos nos permite comparar
nuestros datos con una mediana teórica.
15. Llamemos M0 a la mediana
16. El test de Kruskal-Wallis la alternativa no paramétrica del método
ANOVA, es decir, sirve para contrastar la hipótesis de que k muestras
cuantitativas han sido obtenidas de la misma población.
17. La Prueba de corridas (Wald-Wolfowitz).
Una “Corrida” es una serie de observaciones similares.
99
18. La prueba Mann-Whitney es un método no paramétrico aplicado a dos
muestras independientes, cuyos datos han sido medidos al menos en una
escala de nivel ordinal.
19. La correlación indica la fuerza y la dirección de una relación lineal entre
dos variables aleatorias.
20. La correlación de Pearson es independiente de la escala de medida de las
variables.
21. El coeficiente de correlación parcial de Kendall tiene como formula
22. Test de Cohen coeficiente kappa evalúa las concordancias y
discordancias intra e inter observador respecto a una variable nominal
23. La ecuación para κ es:
24. Correlación de Spearman viene dado por la expresión:
BIBLIOGRAFIA
1. www.google.co.ve
2. www.geocities.com
3. www.elrincondelvago.com
100
4. es.wikipedia.org
5. Estadística para las ciencias administrativas. Tercera edición. Lincoln L.
Chao
6. www.monografias.com