DOCENTE: MATA HAMLET · 2017. 10. 8. · pruebas no paramétricas, se llaman paramétricas a aquellas pruebas estadísticas que exigen que los datos a los que se aplican cumplan con

1

UNIVERSIDAD GRAN MARISCAL DE AYACUCHO

FACULTAD DE CIENCIAS ECONÓMICAS Y SOCIALES

ESCUELA DE ADMINISTRACIÓN

NÚCLEO EL TIGRE-ESTADO ANZOÁTEGUI

VARIABLES ALEATORIAS

DOCENTE: MATA HAMLET

ESTUDIANTE LEIDIBETH RODRIGUEZ

EL TIGRE

2

INDICE

Pag.

Introducción 4 – 5

Pruebas Paramétricas 6

Prueba no Paramétricas 6 – 7

Distribución de Probabilidad 7 – 8

Propiedades 8 – 9

Distribuciones Discretas 9

Variables Discretas: Clasificación y Ejemplos 9

Distribución Bernoulli 9 – 12

Distribución Binominal 12 – 19

Distribución Geométrica 19 – 24

Distribución Binominal Negativa 24 – 27

Distribución Hipergeométrica 28 – 30

Distribución de Poisson 31 – 34

Variable Aleatoria 34

Distribuciones Continuas: Clasificación y Ejemplos 35

Distribuciones continuas: Uniforme. 35 – 37

Distribuciones Continuas Normal o Gaussiana 37 – 50

El Valor Esperado 50

Prueba de los Signos 51

3

Pruebas de wilcoxon de los rangos con signos 51 – 52

Prueba de wilcoxon para constar datos pareados 52 – 53

Prueba de Mann-Whitney para muestras independientes. 53

Prueba de Kruskal-Wallis 53 – 54

La Prueba de Kruskal-Wallis para comparar más de dos grupos 54 – 58

Prueba de corridas (Wald-Wolfowitz) 58 – 61

Prueba de U Mann-Whitney 62 – 66

Correlación 66 – 70

Coeficientes de correlación de rangos 70

Coeficientes de correlación de rangos de Pearson 71 – 73

Coeficiente de correlación simple por rangos de Kendall 73 – 79

Test de Cohen-Kappa 79 – 80

Los valores y concordancia de Kappa 80 – 86

Correlación de Spearman 87 – 92

Kolmogorov-Smirnov 93 – 94

Prueba de Kolmogorov-Smirnov 94 – 96

Conclusiones 97 – 99

Bibliografía 100

4

INTRODUCCION

En el siguiente trabajo hablaremos sobre las pruebas paramétricas y las

pruebas no paramétricas, se llaman paramétricas a aquellas pruebas estadísticas

que exigen que los datos a los que se aplican cumplan con los siguientes

requisitos: Que los valores de la variable dependiente sigan la distribución de la

curva normal que las varianzas de los grupos que se comparan en una variable

dependiente sean aproximadamente iguales y que la variable dependiente esté

medida en una escala que sea por lo menos de intervalo y no paramétricas a

aquellas que no presuponen una distribución de probabilidad para los datos, por

ello se conocen también como de distribución libre (distribution free).

Dentro de las pruebas no paramétricas se encuentra:

La prueba de Wilcoxon de los rangos con signos: Esta prueba nos permite

comparar nuestros datos con una mediana teórica.

El test de Kruskal-Wallis: es un estadístico no paramétrico para testear si

un grupo de datos proviene de la misma población. Se usa para determinar

si K muestras independientes se han tomado de poblaciones que tienen la

misma media, esta prueba no exige suposiciones de distribución normal

de la población y de homogeneidad de la varianza, solo se supone que la

variable tenga como base una distribución continua y se encuentre

medida en una escala ordinal.

La Prueba de corridas (Wald-Wolfowitz): Permite contrastar la hipótesis

nula de que dos muestras independientes proceden de poblaciones con

distribuciones continuas idénticas contra la hipótesis alternativa de que

5

las poblaciones difieren en algún aspecto, que puede ser tanto la tendencia

central como cualquier otra característica.

La prueba Mann-Whitney: es un método no paramétrico aplicado a dos

muestras independientes, cuyos datos han sido medidos al menos en una

escala de nivel ordinal. La prueba calcula el llamado estadístico U, cuya

distribución para muestras con más de 20 observaciones se aproxima

bastante bien a la distribución normal.

También se encuentran la correlación de Pearson, la correlación de

Kendall, el test de cohen-kappa, el coeficiente de correlación de Spearman y las

pruebas de kolmogorov-smirnov que se explicaran mas detalladamente en el

siguiente trabajo.

6

PRUEBAS PARAMETRICAS

Se llama paramétricas a aquellas pruebas estadísticas que exigen que los

datos a los que se aplican cumplan con los siguientes requisitos: Que los valores

de la variable dependiente sigan la distribución de la curva normal, por lo menos

en la población a la que pertenezca la muestra en la que se hizo la investigación;

que las varianzas de los grupos que se comparan en una variable dependiente

sean aproximadamente iguales (homocedasticidad, u homogeneidad de las

varianzas); y que la variable dependiente esté medida en una escala que sea por

lo menos de intervalo, aunque este último requisito no es compartido por todos

los estadísticos (McGuigan, 1993; Siegel, 1956). Cuando los datos cumplen con

los requisitos indicados, especialmente con los dos primeros, las pruebas

estadísticas paramétricas exhiben su máximo poder, es decir, su máxima

capacidad para detectar una relación real o verdadera entre dos variables, si es

que la misma existe. Las pruebas paramétricas más conocidas y usadas son la

prueba t de Student, la prueba F, llamada así en honor a Fisher, y el coeficiente

de correlación de Pearson, simbolizado por r. Cuando estas pruebas estadísticas

se aplican a datos que violan los dos primeros de los requisitos señalados,

pierden parte de su poder.

PRUEBAS NO PARAMETRICAS

Se denominan pruebas no paramétricas aquellas que no presuponen una

distribución de probabilidad para los datos, por ello se conocen también como

de distribución libre (distribution free). En la mayor parte de ellas los

resultados estadísticos se derivan únicamente a partir de procedimientos de

ordenación y recuento, por lo que su base lógica es de fácil comprensión.

7

Cuando trabajamos con muestras pequeñas (n < 10) en las que se

desconoce si es válido suponer la normalidad de los datos, conviene utilizar

pruebas no paramétricas, al menos para corroborar los resultados obtenidos a

partir de la utilización de la teoría basada en la normal.

En estos casos se emplea como parámetro de centralización la mediana,

que es aquel punto para el que el valor de X está el 50% de las veces por debajo

y el 50% por encima.

DISTRIBUCION DE PROBABILIDAD

Dada una variable aleatoria X la función de distribución de probabilidad

FX(x) asigna a un evento definido sobre x una probabilidad.

Entonces la probabilidad es:

Para simplificar la notación, cuando no hay lugar a confusión se omite el

subíndice X, y se escribe simplemente F(x)

Una función de distribución ha de cumplir 3 condiciones:

1. y

2. Es continua por la derecha

3. Es monótona no decreciente

8

La función de distribución es la acumulada de la función de densidad de

probabilidad f(x). Es decir, se calcula directamente según:

-Si x es una variable aleatoria discreta

-Si x es una variable aleatoria continua

PROPIEDADES

Para dos números reales cualesquiera a y b tal que (a < b), los sucesos

y serán mutuamente excluyentes y su suma es el

suceso , por lo que tenemos entonces que:

y finalmente

Por lo tanto una vez conocida la función de distribución F(x) para todos

los valores de la variable aleatoria x conoceremos completamente la distribución

de probabilidad de la variable.

9

Para realizar cálculos es más cómodo conocer las distribución de

probabilidad, para ver una representación gráfica de la probabilidad es más

práctico el uso de la función de densidad.

DISTRIBUCIONES DISCRETAS

Bastaría colocar la distribución discreta basada en la función de

probabilidad acumulada (entre 0% y 100%), generar un aleatorio (por la función

=aleatorio) y, por ejemplo, a través de una función de búsqueda y referencia

(buscar) identificar el valor correspondiente.

Usando una función de buscar y referencia, como buscar del Excel,

podríamos generar aleatorios y así aseguramos la aleatoriedad de las cantidades

obtenidas, y que luego de "n" simulaciones ("n" no debería ser menor a 1.000),

permitiría calcular el promedio y el riesgo de la distribución.

VARIABLES DISCRETAS CLASIFICACION Y EJEMPLOS

DISTRIBUCION BERNOULLI

Consiste en realizar un experimento aleatorio una sola vez y observar si

cierto suceso ocurre o no, siendo p la probabilidad de que esto sea así (éxito) y

q=1-p el que no lo sea (fracaso). En realidad no se trata más que de una variable

dicotómica, es decir que únicamente puede tomar dos modalidades, es por ello

que el hecho de llamar éxito o fracaso a los posibles resultados de las pruebas

obedece más una tradición literaria o histórica, en el estudio de las v.a., que a la

situación real que pueda derivarse del resultado. Podríamos por tanto definir este

experimento mediante una v.a. discreta X que toma los

10

valores X=0 si el suceso no ocurre, y X=1 en caso contrario, y que se

denota

Un ejemplo típico de este tipo de variables aleatorias consiste en lanzar

una moneda al aire y considerar la variable aleatoria.

Para una variable aleatoria de Bernouilli, tenemos que su función de

probabilidad es:

11

Y su función de distribución:

Su función característica es:

Los principales momentos de la X los podemos calcular directamente

O bien usando la función característica:

12

DISTRIBUCION BINOMIAL

Se dice que una variable aleatoria (v.a). X sigue una ley binomial de

parámetros n y p, , si es la suma de n v.a. independientes de

Bernouilli con el mismo parámetro,

p:

Esta definición puede interpretarse en el siguiente sentido: Supongamos que

realizamos n pruebas de Bernouilli, Xi, donde en todas ellas, la probabilidad de

éxito es la misma (p), y queremos calcular el número de éxitos, X, obtenidos el

total de las n pruebas.

Figura: Función de probabilidad de una variable binomial cunado n es

pequeño.

13

Por tanto, su función de distribución es

Figura: Función de probabilidad de una variable

binomial cuando n es grande.

14

La función característica de la suma de variables independientes es el

producto de las funciones características de estas:

Los principales momentos de X los calculamos más fácilmente a partir

de que de su propia definición:

15

Ejemplo

Un médico aplica un test a 10 alumnos de un colegio para detectar una

enfermedad cuya incidencia sobre una población de niños es del . La

sensibilidad del test es del y la especificidad del . ¿Cual es la

probabilidad de que exactamente a cuatro personas le de un resultado positivo?

Si en la muestra hay cuatro personas a las que el test les da positivo, ¿cuál es la

probabilidad de que entre estas, exactamente dos estén sanas? Calcular la

probabilidad de que el test suministre un resultado incorrecto para dos personas.

Calcular la probabilidad de que el resultado sea correcto para más de 7 personas.

Solución:

Los datos de que disponemos son:

Donde E, T+, y T- tienen el sentido que es obvio. Si queremos saber a

cuantas personas el test le dará un resultado positivo, tendremos que calcular

, para lo que podemos usar el teorema de la probabilidad total (estar

enfermo y no estarlo forman una colección exhaustiva y excluyente de

sucesos):

16

Sea X1 la v.a. que contabiliza el número de resultados positivos. Es claro

que llamando , se tiene que X sigue una distribución binomial

Por ello la probabilidad de que a cuatro personas le de él resultado del

test positivo es:

17

Si queremos calcular a cuantas personas les dará el test un resultado

positivo aunque en realidad estén sanas, hemos de calcular previamente

, o sea, el índice predictivo de falsos positivo:

Es importante observar este resultado. Antes de hacer los cálculos no era

previsible que si a una persona el test le da positivo, en realidad tiene una

probabilidad aproximadamente del de estar sana. Sea X2 la variable

aleatoria que contabiliza al número de personas al que el test le da positivo, pero

que están sanas en realidad. Entonces

Y

18

Por último vamos a calcular la probabilidad p3 de que el test de un

resultado erróneo, que es:

La variable aleatoria que contabiliza el número de resultados erróneos

del test es

Como la probabilidad de que el test sea correcto para más de siete

personas, es la de que sea incorrecto para menos de 3, se tiene

19

DISTRIBUCION GEOMETRICA

Consideramos una sucesión de v.a. independientes de Bernouilli,

Una v.a. X sigue posee una distribución geométrica, , si esta

es la suma del número de fracasos obtenidos hasta la aparición del primer éxito

en la sucesión . Por ejemplo

20

De este modo tenemos que la ley de probabilidad de X es

Observación

Es sencillo comprobar que realmente f es una ley de probabilidad, es decir,

. Para ello basta observar que la sucesión es una progresión

geométrica de razón q, a la que podemos aplicar su fórmula de sumación:

21

Observación

En la distribución geométrica el conjunto de posibles valores que puede

tomar la variable ( ) es infinito numerable, mientras que en la de Bernouilli y

en la binomial, estos eran en número finito.

La función característica se calcula teniendo en cuenta que de nuevo aparece la

sumación de los términos de una progresión geométrica, pero esta vez de razón

eit q:

La media y varianza de esta variable aleatoria son:

22

Ejemplo

Un matrimonio quiere tener una hija, y por ello deciden tener hijos hasta

el nacimiento de una hija. Calcular el número esperado de hijos (entre varones

y hembras) que tendrá el matrimonio. Calcular la probabilidad de que la pareja

acabe teniendo tres hijos o más.

Solución: Este es un ejemplo de variable geométrica. Vamos a suponer

que la probabilidad de tener un hijo varón es la misma que la de tener una hija

hembra. Sea X la v.a.

Es claro que

Sabemos que el número esperado de hijos varones es , por

tanto el número esperado en total entre hijos varones y la niña es 2.

23

La probabilidad de que la pareja acabe teniendo tres o más hijos, es la de

que tenga 2 o más hijos varones (la niña está del tercer lugar en adelante), es

decir,

Hemos preferido calcular la probabilidad pedida mediante el suceso

complementario, ya que sería más complicado hacerlo mediante la suma infinita

Observación

La distribución exponencial también puede ser definida como el número

de pruebas realizadas hasta la obtención del primer éxito (como hubiese sido

más adecuado en el ejemplo anterior). En este caso es un ejercicio sencillo

24

comprobar que X sólo puede tomar valores naturales mayores o iguales a 1, y

que:

DISTRIBUCION BINOMIAL NEGATIVA

Sobre una sucesión de v.a. de Bernouilli independientes,

Se define la v.a. X como el número de fracasos obtenidos hasta la

aparición de r éxitos en la sucesión . En este caso se dice que X sigue

una ley de distribución binomial negativa de parámetros r y p y se denota del

modo: . Su ley de probabilidad se deduce siguiendo el esquema:

=1mm

Es decir,

25

De nuevo, el conjunto de posibles valores de esta v.a. discreta es

.

Su función característica es

y sus momentos más importantes los obtenemos derivando esta última:

Ejemplo

Para tratar a un paciente de una afección de pulmón han de ser operados

en operaciones independientes sus 5 lóbulos pulmonares. La técnica a utilizar es

26

tal que si todo va bien, lo que ocurre con probabilidad de 7/11, el lóbulo queda

definitivamente sano, pero si no es así se deberá esperar el tiempo suficiente para

intentarlo posteriormente de nuevo. Se practicará la cirugía hasta que 4 de sus

5lóbulos funcionen correctamente. ¿Cuál es el valor esperado de intervenciones

que se espera que deba padecer el paciente? ¿Cuál es la probabilidad de que se

necesiten 10 intervenciones?

Solución: Este es un ejemplo claro de experimento aleatorio regido por

una ley binomial negativa, ya que se realizan intervenciones hasta que se

obtengan 4 lóbulos sanos, y éste es el criterio que se utiliza para detener el

proceso. Identificando los parámetros se tiene:

Lo que nos interesa es medir el número de intervenciones, Y, más que el

número de éxitos hasta el r-ésimo fracaso. La relación entre ambas v.a. es muy

simple:

27

Y=X+r

Luego

Luego el número esperado de intervenciones que deberá sufrir el paciente

es de 11. La probabilidad de que el número de intervenciones sea Y=10, es la de

que X=10-4=6. Por tanto:

Observación

La distribución binomial negativa también se puede definir como el

número de pruebas hasta la aparición de r éxitos. Como el número de pruebas

contabiliza tanto los éxitos como los fracasos se tendría según ésta definición

que

28

DISTRIBUCION HIPERGEOMETRICA

Por claridad, consideremos el siguiente ejemplo: Tenemos una baraja de

cartas españolas (N=40 naipes), de las cuales nos vamos a interesar en el palo

de oros (D=10 naipes de un mismo tipo). Supongamos que de esa baraja

extraemos n=8 cartas de una vez (sin reemplazamiento) y se nos plantea el

problema de calcular la probabilidad de que hayan k=2 oros (exactamente) en

esa extracción. La respuesta a este problema es

En lugar de usar como dato D es posible que tengamos la proporción

existente, p, entre el número total de oros y el número de cartas de la baraja

29

De modo que podemos decir que

Este ejemplo sirve para representar el tipo de fenómenos que siguen una

ley de distribución hipergeométrica. Diremos en general que una v.a. X sigue

una distribución hipergeométrica de parámetros, N, n y p, lo que

representamos del modo , si su función de probabilidad es

Observación

Cuando el tamaño de la población (N) es muy grande, la ley

hipergeométrica tiende a aproximarse a la binomial:

30

El valor esperado de la hipergeométrica es el mismo que el de la binomial,

Sin embargo su varianza

No es exactamente la de la binomial, pues está corregida por un factor,

, que tiende a 1 cuando . A este factor se le denomina factor de

corrección para población finita.

DISTRIBUCION DE POISSON

Una v.a. X posee una ley de distribución de probabilidades del tipo

Poisson cuando

31

Este tipo de leyes se aplican a sucesos con probabilidad muy baja de

ocurrir, obteniéndose como la distribución límite de una sucesión de variable

binomiales, , donde , y (por tanto ).

La demostración de esto consiste en

32

En general utilizaremos la distribución de Poisson como aproximación de

experimentos binomiales donde el número de pruebas es muy alto, pero la

probabilidad de éxito muy baja. A veces se suele utilizar como criterio de

aproximación:

La ley de Poisson la podemos encontrar tabulada en la tabla número 2,

para ciertos valores usuales de .

33

La función característica de es

De lo que se deduce que valor esperado y varianza coinciden

Ejemplo

Cierta enfermedad tiene una probabilidad muy baja de ocurrir,

p=1/100.000. Calcular la probabilidad de que en una ciudad con 500.000

habitantes haya más de 3 personas con dicha enfermedad. Calcular el número

esperado de habitantes que la padecen.

Solución: Si consideramos la v.a. X que contabiliza el número de personas

que padecen la enfermedad, es claro que sigue un modelo binomial, pero que

puede ser muy bien aproximado por un modelo de Poisson, de modo que

34

Así el número esperado de personas que padecen la enfermedad es .

Como , existe una gran dispersión, y no sería extraño encontrar

que en realidad hay muchas más personas o menos que están enfermas. La

probabilidad de que haya más de tres personas enfermas es:

VARIABLE ALEATORIA

Llamamos variable aleatoria o variable estocástica, X, a toda aplicación

que asocia a cada elemento del espacio muestral, E, un número real x.

Dicho de manera informal: es el valor numérico que “de alguna manera” se

asigna a un suceso.

El conjunto imagen de la aplicación se llama recorrido de la variable. Suele

confundirse variable aleatoria con recorrido.

Ejemplo 1. Si lanzamos tres monedas al aire y X es el número de caras

que salen, los valores que toma X son 0, 1, 2 y 3.

Ejemplo 2. Si de una camada de 6 cachorros se cuenta el nº de hembras

que se “obtienen” la variable aleatoria toma los valores x =0, x=1,....x =6-

Ejemplo 3. Al extraer una bombilla de una población y observar si es o

no defectuosa, X tomaría los valores 1 y 0 según sea o no defectuosa.

35

DISTRIBUCIONES CONTINUAS CLASIFICACION Y EJEMPLO

Distribuciones continuas: Uniforme.

La distribución uniforme es aquella que puede tomar cualquier valor

dentro de un intervalo, todos ellos con la misma probabilidad.

Es una distribución continua porque puede tomar cualquier valor y no

únicamente un número determinado (como ocurre en las distribuciones

discretas).

Ejemplo: El precio medio del litro de gasolina durante el próximo año se

estima que puede oscilar entre 140 y 160 ptas. Podría ser, por tanto, de 143 ptas.,

o de 143,4 ptas., o de 143,45 ptas., o de 143,455 ptas, etc. Hay infinitas

posibilidades, todas ellas con la misma probabilidad.

Su función de densidad, aquella que nos permite conocer la probabilidad que

tiene cada punto del intervalo, viene definida por:

Donde:

b: es el extremo superior (en el ejemplo, 160 ptas.)

a: es el extremo inferior (en el ejemplo, 140 ptas.)

Por lo tanto, la función de distribución del ejemplo sería:

36

Es decir, que el valor final esté entre 140 ptas. y 141 ptas. tiene un 5% de

probabilidad, que esté entre 141 y 142, otro 5%, etc.

El valor medio de esta distribución se calcula:

En el ejemplo:

Por lo tanto, el precio medio esperado de la gasolina para el próximo año

es de 150 ptas.

Veamos otro ejemplo:

El volumen de precipitaciones estimado para el próximo año en la ciudad

de Sevilla va a oscilar entre 400 y 500 litros por metro cuadrado. Calcular la

función de distribución y la precipitación media esperada:

Es decir, que el volumen de precipitaciones esté entre 400 y 401 litros tiene un

1% de probabilidades; que esté entre 401 y 402 litros, otro 1%, etc.

El valor medio esperado es:

37

Es decir, la precipitación media estimada en Sevilla para el próximo año es de

450 litros.

DISTRIBUCIONES CONTINUAS NORMAL O GAUSSIANA

Es el modelo de distribución más utilizado en la práctica, ya que multitud

de fenómenos se comportan según una distribución normal.

Esta distribución de caracteriza porque los valores se distribuyen formando una

campana de Gauss, en torno a un valor central que coincide con el valor medio

de la distribución:

Un 50% de los valores están a la derecha de este valor central y otro 50%

a la izquierda

Esta distribución viene definida por dos parámetros:

X: N (m, s2)

38

m: es el valor medio de la distribución y es precisamente donde se sitúa

el centro de la curva (de la campana de Gauss).

s2: es la varianza. Indica si los valores están más o menos alejados del

valor central: si la varianza es baja los valores están próximos a la media; si es

alta, entonces los valores están muy alejados de ella. Se representa por s2 porque

su raíz cuadrada, s, es la denominada desviación estándar.

Cuando la media de la distribución es 0 y la varianza es 1, se denomina

"normal tipificada", y su ventaja reside en que hay tablas, o rutinas de cálculo

que permiten obtener esos mismos valores, donde se recoge la probabilidad

acumulada para cada punto de la curva de esta distribución.

Además, toda distribución normal se puede transformar en una normal

tipificada:

Ejemplo: una variable aleatoria sigue el modelo de una distribución

normal con media 10 y varianza 4. Transformarla en una normal tipificada.

X: N (10, 4)

Para transformarla en una normal tipificada se crea una nueva variable

(Y) que será igual a la anterior (X) menos su media y dividida por su desviación

típica (que es la raíz cuadrada de la varianza)

En el ejemplo, la nueva variable sería:

39

Esta nueva variable se distribuye como una normal tipificada,

permitiéndonos, por tanto, conocer la probabilidad acumulada en cada valor.

Y: N (0, 1)

La distribución normal tipificada tiene la ventaja, como ya hemos

indicado, de que las probabilidades para cada valor de la curva se encuentran

recogidas en una tabla.

X 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,

0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359

0,

1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5723

0,

2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141

0,

3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517

0,

4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879

0,

5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7090 0,7224

40

0,

6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549

0,

7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7813 0,7852

0,

8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133

0,

9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389

1,

0 0,8416 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621

1,

1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830

1,

2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015

1,

3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177

1,

4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319

1,

5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441

1,

6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545

1,

7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633

1,

8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706

41

1,

9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767

2,

0

0,9772

5

0,9777

8

0,9783

1

0,9788

2

0,9793

2

0,9798

2

0,9803

0

0,9807

7

0,9812

4

0,9816

9

2,

1

0,9821

4

0,9825

7

0,9830

0

0,9834

1

0,9838

2

0,9842

2

0,9846

1

0,9850

0

0,9853

7

0,9857

4

2,

2

0,9861

0

0,9864

5

0,9867

9

0,9871

3

0,9874

5

0,9877

8

0,9880

9

0,9884

0

0,9887

0

0,9889

9

2,

3

0,9892

8

0,9895

6

0,9898

3

0,9901

0

0,9903

6

0,9906

1

0,9908

6 0,99111

0,9913

4

0,9915

8

2,

4

0,9918

0

0,9920

2

0,9922

4

0,9924

5

0,9926

6

0,9928

6

0,9930

5

0,9932

4

0,9934

3

0,9936

1

2,

5

0,9937

9

0,9939

6

0,9941

3

0,9943

0

0,9944

6

0,9946

1

0,9947

7

0,9949

2

0,9950

6

0,9952

0

2,

6

0,9953

4

0,9954

7

0,9956

0

0,9957

3

0,9958

5

0,9959

8

0,9960

9

0,9962

1

0,9963

2

0,9964

3

2,

7

0,9965

3

0,9966

4

0,9967

4

0,9968

3

0,9969

3

0,9970

2 0,99711

0,9972

0

0,9972

8

0,9973

6

2,

8

0,9974

4

0,9975

2

0,9976

0

0,9976

7

0,9977

4

0,9978

1

0,9978

8

0,9979

5

0,9980

1

0,9980

7

2,

9

0,9981

3

0,9981

9

0,9982

5

0,9983

1

0,9983

6

0,9984

1

0,9984

6

0,9985

1

0,9985

6

0,9986

1

42

¿Cómo se lee esta tabla?

La columna de la izquierda indica el valor cuya probabilidad acumulada

queremos conocer. La primera fila nos indica el segundo decimal del valor que

estamos consultando.

Ejemplo: queremos conocer la probabilidad acumulada en el valor

2,75.Entonces buscamos en la columna de la izquierda el valor 2,7 y en la

primera fila el valor 0,05. La casilla en la que se inter seccionan es su

probabilidad acumulada (0,99702, es decir 99.7%).

La tabla nos da la probabilidad acumulada, es decir, la que va desde el inicio de

la curva por la izquierda hasta dicho valor. No nos da la probabilidad concreta

en ese punto. En una distribución continua en el que la variable puede tomar

infinitos valores, la probabilidad en un punto concreto es prácticamente

despreciable.

Ejemplo: Imaginemos que una variable continua puede tomar valores

entre 0 y 5. La probabilidad de que tome exactamente el valor 2 es despreciable,

ya que podría tomar infinitos valores: por ejemplo: 1,99, 1,994, 1,9967, 1,9998,

1999791, etc.

Ejemplos:

Probabilidad acumulada en el valor 0,67: la respuesta es 0,7486



43

Esta tabla se puede utilizar con una distribución normal:

Ejemplo: el salario medio de los empleados de una empresa se distribuye según

una distribución normal, con media 5 millones de ptas. y desviación típica 1

millón de ptas. Calcular el porcentaje de empleados con un sueldo inferior a 7

millones de ptas.

Transformamos esa distribución en una normal tipificada, para ello se

crea una nueva variable (Y) que será igual a la anterior (X) menos su media y

dividida por la desviación típica

En el ejemplo, la nueva variable sería:

Esta nueva variable se distribuye como una normal tipificada. La variable

Y que corresponde a una variable X de valor 7 es:

Ya podemos consultar en la tabla la probabilidad acumulada para el valor

2 (equivalente a la probabilidad de sueldos inferiores a 7 millones de ptas.). Esta

probabilidad es 0,97725

Por lo tanto, el porcentaje de empleados con salarios inferiores a 7

millones de ptas. es del 97,725%.

44

Ejercicio 1: La renta media de los habitantes de un país es de 4 millones

de ptas/año, con una varianza de 1,5. Se supone que se distribuye según una

distribución normal. Calcular:

a) Porcentaje de la población con una renta inferior a 3 millones de ptas.

b) Renta a partir de la cual se sitúa el 10% de la población con mayores ingresos.

c) Ingresos mínimo y máximo que engloba al 60% de la población con renta

media.

a) Porcentaje de la población con una renta inferior a 3 millones de ptas.

Lo primero que tenemos que hacer es calcular la normal tipificada:

(*) Recordemos que el denominador es la desviación típica (raíz cuadrada de la

varianza)

El valor de Y equivalente a 3 millones de ptas es -0,816.

P (X < 3) = P (Y < -0,816)

Ahora tenemos que ver cuál es la probabilidad acumulada hasta ese

valor. Tenemos un problema: la tabla de probabilidades (ver lección 35) sólo

abarca valores positivos, no obstante, este problema tiene fácil solución, ya que

la distribución normal es simétrica respecto al valor medio.

45

Por lo tanto:

P (Y < -0,816) = P (Y > 0,816)

Por otra parte, la probabilidad que hay a partir de un valor es igual a 1

(100%) menos la probabilidad acumulada hasta dicho valor:

P (Y > 0,816) = 1 - P (Y < 0,816) = 1 - 0,7925 (aprox.) = 0,2075

Luego, el 20,75% de la población tiene una renta inferior a 3 millones ptas.

b) Nivel de ingresos a partir del cual se sitúa el 10% de la población con

renta más elevada.

Vemos en la tabla el valor de la variable tipificada cuya probabilidad acumulada

es el 0,9 (90%), lo que quiere decir que por encima se sitúa el 10% superior.

Ese valor corresponde a Y = 1,282 (aprox.). Ahora calculamos la variable

normal X equivalente a ese valor de la normal tipificada:

Despejando X, su valor es 5,57. Por lo tanto, aquellas personas con

ingresos superiores a 5,57 millones de ptas. constituyen el 10% de la población

con renta más elevada.

c) Nivel de ingresos mínimo y máximo que engloba al 60% de la

población con renta media.

46

Vemos en la tabla el valor de la variable normalizada y cuya probabilidad

acumulada es el 0,8 (80%). Como sabemos que hasta la media la probabilidad

acumulada es del 50%, quiere decir que entre la media y este valor de Y hay un

30% de probabilidad.

Por otra parte, al ser la distribución normal simétrica, entre -Y y la media

hay otro 30% de probabilidad. En definitiva, el segmento (-Y, Y) engloba al 60%

de población con renta media.

El valor de Y que acumula el 80% de la probabilidad es 0,842 (aprox.),

por lo que el segmento viene definido por (-0,842, +0,842). Ahora calculamos

los valores de la variable X correspondientes a estos valores de Y.

Los valores de X son 2,97 y 5,03. Por lo tanto, las personas con ingresos

superiores a 2,97 millones de ptas. e inferiores a 5,03 millones de ptas.

constituyen el 60% de la población con un nivel medio de renta.

Ejercicio 2: La vida media de los habitantes de un país es de 68 años, con

una varianza de 25. Se hace un estudio en una pequeña ciudad de 10.000

habitantes:

a) ¿Cuántas personas superarán previsiblemente los 75 años?

b) ¿Cuántos vivirán menos de 60 años?

a) Personas que vivirán (previsiblemente) más de 75 años.

Calculamos el valor de la normal tipificada equivalente a 75 años

47

Por lo tanto

P (X > 75) = (Y > 1,4) = 1 - P (Y < 1,4) = 1 - 0,9192 = 0,0808

Luego, el 8,08% de la población (808 habitantes) vivirán más de 75 años.

b) Personas que vivirán (previsiblemente) menos de 60 años.

Calculamos el valor de la normal tipificada equivalente a 60 años

Por lo tanto

P (X < 60) = (Y < -1,6) = P (Y > 1,6) = 1 - P (Y < 1,6) = 0,0548

Luego, el 5,48% de la población (548 habitantes) no llegarán

probablemente a esta edad.

Ejercicio 3: El consumo medio anual de cerveza de los habitantes de un

país es de 59 litros, con una varianza de 36. Se supone que se distribuye según

una distribución normal.

a) Si usted presume de buen bebedor, ¿cuántos litros de cerveza tendría

que beber al año para pertenecer al 5% de la población que más bebe?.

b) Si usted bebe 45 litros de cerveza al año y su mujer le califica de

borracho ¿qué podría argumentar en su defensa?

48

a) 5% de la población que más bebe.

Vemos en la tabla el valor de la variable tipificada cuya probabilidad acumulada

es el 0,95 (95%), por lo que por arriba estaría el 5% restante.

Ese valor corresponde a Y = 1,645 (aprox.). Ahora calculamos la variable

normal X equivalente a ese valor de la normal tipificada:

Despejando X, su valor es 67,87. Por lo tanto, tendría usted que beber

más de 67,87 litros al año para pertenecer a ese "selecto" club de grandes

bebedores de cerveza.

b) Usted bebe 45 litros de cerveza al año. ¿Es usted un borracho?

Vamos a ver en que nivel de la población se situaría usted en función de los litros

de cerveza consumidos.

Calculamos el valor de la normal tipificada correspondiente a 45 litros:

Por lo tanto

P (X < 45) = (Y < -2,2) = P (Y > 2,2) = 1 - P (Y < 2,2) = 0,0139

Luego, tan sólo un 1,39% de la población bebe menos que usted. Parece

un argumento de suficiente peso para que dejen de catalogarle de "enamorado

de la bebida"

49

Ejercicio 4: A un examen de oposición se han presentado 2.000

aspirantes. La nota media ha sido un 5,5, con una varianza de 1,5.

a) Tan sólo hay 100 plazas. Usted ha obtenido un 7,7. ¿Sería oportuno ir

organizando una fiesta para celebrar su éxito?

b) Va a haber una 2ª oportunidad para el 20% de notas más altas que no

se hayan clasificados. ¿A partir de que nota se podrá participar en esta "repesca"?

a) Ha obtenido usted un 7,7 de nota en su prueba.

Vamos a ver con ese 7,7 en que nivel porcentual se ha situado usted, para ello

vamos a comenzar por calcular el valor de la normal tipificada equivalente.

A este valor de Y le corresponde una probabilidad acumulada (ver tablas)

de 0,98214 (98,214%), lo que quiere decir que por encima de usted tan sólo se

encuentra un 1,786%.

Si se han presentado 2.000 aspirantes, ese 1,786% equivale a unos 36

aspirantes. Por lo que si hay 100 plazas disponibles, tiene usted suficientes

probabilidades como para ir organizando la "mejor de las fiestas".

b) "Repesca" para el 20% de los candidatos.

Vemos en la tabla el valor de la normal tipificada que acumula el 80% de la

probabilidad, ya que por arriba sólo quedaría el 20% restante.

50

Este valor de Y corresponde a 0,842 (aprox.). Ahora calculamos el valor

de la normal X equivalente:

Despejamos la X y su valor es 6,38. Por lo tanto, esta es la nota a partir de la

cual se podrá acudir a la "repesca".

EL VALOR ESPERADO

El valor esperado es un concepto fundamental en el estudio de las

distribuciones de probabilidad. Desde hace muchos años este concepto ha sido

aplicado ampliamente en el negocio de seguros y en los últimos veinte años ha

sido aplicado por otros profesionales que casi siempre toman decisiones en

condiciones de incertidumbre.

Para obtener el valor esperado de una variable aleatoria discreta,

multiplicamos cada valor que ésta puede asumir por la probabilidad de

ocurrencia de ese valor y luego sumamos los productos. Es un promedio

ponderado de los resultados que se esperan en el futuro.

PROPIEDADES DEL VALOR ESPERADO

1. E (K) = K K es una constante H(X)=K

2. E (K*X) = K*E(X) H(X)=K*X

3. E (K1* X + K2) = K1*E(X) + K2

51

PRUEBA DE LOS SIGNOS

Dada la muestra aleatoria simple de tamaño n,

(X1, x2,..., xn),

Extraída de una población con distribución continua, se quiere contrastar si su

mediana es igual a cierto valor dado de antemano, designado por med.

Es importante insistir en que no se acepta para la realización del test otra

hipótesis que no sea la continuidad de la distribución poblacional. La hipótesis

nula que se contrasta es:

H0: "la mediana de la población es med".

Frente a la alternativa:

H1: "la mediana de la población es diferente de med".

El estadístico a calcular es:

T = n° de casos en los que xi - med > 0,

Siendo i = 1, 2,..., n.

El estadístico T tiene una distribución binomial B(N, 0.5), donde N es el

número de diferencias (xi - med) no nulas

PRUEBAS DE WILCOXON DE LOS RANGOS CON SIGNOS

Esta prueba nos permite comparar nuestros datos con una mediana teórica

(por ejemplo un valor publicado en un artículo).

52

Llamemos M0 a la mediana frente a la que vamos a contrastar nuestros

datos, y sea X1, X2 .. Xn los valores observados. Se calcula las diferencias X1-

M0, X2-M0,..., Xn-M0. Si la hipótesis nula fuera cierta estas diferencias se

distribuirían de forma simétrica en torno a cero.

Para efectuar esta prueba se calculan las diferencias en valor absoluto |Xi-

M0| y se ordenan de menor a mayor, asignándoles su rango (número de orden).

Si hubiera dos o más diferencias con igual valor (empates), se les asigna el rango

medio (es decir que si tenemos un empate en las posiciones 2 y 3 se les asigna

el valor 2.5 a ambas). Ahora calculamos R+ la suma de todos los rangos de las

diferencias positivas, aquellas en las que Xi es mayor que M0 y R- la suma de

todos los rangos correspondientes a las diferencias negativas. Si la hipótesis nula

es ciertos ambos estadísticos deberán ser parecidos, mientras que si nuestros

datos tienen a ser más altos que la mediana M0, se reflejará en un valor mayor

de R+, y al contrario si son más bajos. Se trata de contrastar si la menor de las

sumas de rangos es excesivamente pequeña para ser atribuida al azar, o, lo que

es equivalente, si la mayor de las dos sumas de rangos es excesivamente grande.

PRUEBA DE WILCOXON PARA CONSTAR DATOS PAREADOS

El mismo razonamiento lo podemos aplicar cuando tenemos una muestra

de parejas de valores, por ejemplo antes y después del tratamiento, que podemos

denominar (X1, Y1), (X2, Y2),..., (Xn, Yn). De la misma forma, ahora

calcularemos las diferencias X1-Y1, X2-Y2,..., Xn-Yn y las ordenaremos en valor

absoluto, asignándoles el rango correspondiente. Calculamos R+ la suma de

rangos positivos (cuando Xi es mayor que Yi), y la suma de rangos negativos R-

53

. Ahora la hipótesis nula es que esas diferencias proceden de una distribución

simétrica en torno a cero y si fueran ciertos los valores de R+ y R- serán

parecidos.

PRUEBA DE MANN-WHITNEY PARA MUESTRAS

INDEPENDIENTES.

Si tenemos dos series de valores de una variable continua obtenidas en

dos muestras independientes: X1, X2,..., Xn, Y1, Y2, ... , Ym, procederemos a

ordenar conjuntamente todos los valores en sentido creciente, asignándoles su

rango, corrigiendo con el rango medio los empates. Calculamos luego la suma

de rangos para las observaciones de la primera muestra Sx, y la suma de rangos

de la segunda muestra Sy. Si los valores de la población de la que se extrajo la

muestra aleatoria de X se localizan por debajo de los valores de Y, entonces la

muestra de X tendrá probablemente rangos más bajos, lo que se reflejará en un

valor menor de Sx del teóricamente probable. Si la menor de las sumas de rangos

es excesivamente baja, muy improbable en el caso de que fuera cierta la hipótesis

nula, ésta será rechazada.

PRUEBA DE KRUSKAL-WALLIS

El test de Kruskal-Wallis (de William Kruskal y W. Allen Wallis) es un

estadístico no paramétrico para testear si un grupo de datos proviene de la misma

población. Es una extensión del test de la U de Mann-Whitney para 3 o más

grupos.

54

El test de Kruskal-Wallis es la alternativa no paramétrica del método

ANOVA, es decir, sirve para contrastar la hipótesis de que k muestras

cuantitativas han sido obtenidas de la misma población.

Se usa para determinar si K muestras independientes se han tomado de

poblaciones que tienen la misma media, esta prueba no exige suposiciones de

distribución normal de la población y de homogeneidad de la varianza, solo se

supone que la variable tenga como base una distribución continua y se encuentre

medida en una escala ordinal.

LA PRUEBA DE KRUSKAL-WALLIS PARA COMPARAR MÁS DE

DOS GRUPOS

Supongamos que tenemos k muestras representadas en una tabla como sigue

Niveles Observaciones de X

Nivel x11 x12 x1n1

Nivel x21 x22 x2n2

... ...

Nivel xk1 xk2 xknk

55

El número total de elementos en todas las muestras es:

La hipótesis a contrastar es:

El modo de realizar el contraste es el siguiente:

Se ordenan las observaciones de menor a mayor, asignando a cada una de

ellas su rango (1 para la menor, 2 para la siguiente, ...,Npara la mayor).

Para cada una de las muestras, se calcula Ri, , como la suma

de los rangos de las observaciones que les corresponden. Si H0 es falsa,

cabe esperar que esas cantidades sean muy diferentes.

Se calcula el estadístico:

La regla para decidir si se ha de rechazar o no la hipótesis nula es la siguiente:

Si el número de muestras es k=3 y el número de observaciones en cada

una de ellas no pasa de 5 se rechaza H0 si el valor de Hsupera el valor

teórico que encontramos en la tabla de Kruskall-Wallis --tabla número

11.

56

En cualquier otro caso, se compara el valor de H con el de la tabla de la

con k-1 grados de libertad. Se rechaza H0 si el valor del estadístico

supera el valor teórico .

Ejemplo

1. Se desea determinar si la motivación que tienen los mecánicos, los

carpinteros y los electricistas para realizar su trabajo es diferente, se desea probar

la hipótesis nula de que los puntajes obtenidos mediante un test por los

trabajadores de los tres oficios son los mismos, con la alterna de que son

diferentes. Supongamos se toman tres (K = 3) muestras independientes

respectivamente y que los tamaños de las muestras combinadas son como se

indica a continuación.

MECANICOS CARPINTEROS ELECTRICISTAS

Puntaje Rango Puntaje Rango Puntaje Rango

310 8,5 312 10 315 11

316 12,5 307 5 325 18

322 16 304 3 330 19

316 12,5 310 8,5 332 20

318 14 300 1 323 17

305 4 308 6,5 320 15

308 6,5 301 2

R1 = 740 R2 = 36 R3 = 100

N1 = 7 N2 = 7 N3 = 6

Número total en las tres muestras es:

57

N = 7 + 7 + 6 = 20

Se sustituye estos valores rn la formula y se obtiene

El valor crítico de x2 que separa el 1% superior de la distribución con

dos grados de libertad es 9.21034. Como el valor de H es mayor que este valor

crítico, se rechaza la hipótesis nula.

Se concluye que los puntajes sobre motivación son diferentes para los

trabajadores de los tres oficios al nivel de significancia del ∂= 0.01

2. Notas versus método

Método N Median Ave Rank Z

1 6 61.50 5.4 -2.29

2 7 85.00 13.8 2.72

3 5 74.00 8.4 -0.54

Total 18 9.5

H = 8.23 DF = 2 P = 0.016

H = 8.25 DF = 2 P = 0.016

58

Interpretación: Como el “p-value” es 0.016 menor que 5, se rechaza la

hipótesis nula y se concluye que los métodos no son todos iguales. Es decir; al

menos uno de los métodos tiene mediana distinta a los otros.

PRUEBA DE CORRIDAS (WALD-WOLFOWITZ)

Una condición básica en casi toda la estadística deductiva es que un

sistema de datos constituye una muestra escogida aleatoria de una población

homogénea dada. La condición de la aleatoriedad es esencial para cerciorarse de

que la muestra es verdaderamente representativa de la población. La prueba mas

usada para la aleatoriedad es la Prueba de corridas (Wald-Wolfowitz).

Una “Corrida” es una serie de observaciones similares.

Permite contrastar la hipótesis nula de que dos muestras independientes

proceden de poblaciones con distribuciones continuas idénticas contra la

hipótesis alternativa de que las poblaciones difieren en algún aspecto, que puede

ser tanto la tendencia central como cualquier otra característica.

Para realizar el contraste se combinan las observaciones de ambas

muestras, ordenándolas de menor a mayor, y se halla el número de rachas o

valores sucesivos de una misma muestra en la secuencia ordenada.

El estadístico de prueba es el número de rachas, R. Si los tamaños de las

muestras son el valor de R está comprendido entre 2 y n1 + n2. Si la hipótesis

nula es cierta, las observaciones de ambas muestras aparecerán muy mezcladas,

y en la secuencia ordenada habrá un gran número de rachas; por el contrario, si

59

ambas poblaciones de origen difieren las observaciones de cada muestra

tenderán a aparecer juntas y el número de rachas será pequeño.

Cuando ambos tamaños muéstrales son superiores a 10 la distribución de

R es aproximadamente normal de parámetros:

La decisión se basa en el valor tipificado de R, que tiene distribución

aproximadamente normal tipificada.

Aunque para realizar este contraste es suficiente que las variables se

midan en una escala ordinal, la presencia de empates, que este tipo de escala

favorece, afecta negativamente a la fiabilidad del contraste y en tal caso es

preferible utilizar la prueba de Kolmogorov-Smirnov.

Para conducir una Prueba de corridas en una muestra, realice los pasos

siguientes:

Paso 1: calcule la media de la muestra.

Paso 2: pasando por la secuencia de la muestra, substituya cualquier observación

con +, ó - dependiendo si está por debajo o por arriba de la media. Deseche

cualquier lazo.

Paso 3: Calcule R, n1, y n2.

Paso 4: calcule la media y la varianza esperada de R, como sigue:

60

a =1 + 2n1n2/(n 1 + n2).

s2 = 2n1n2(2n 1n2-n1- n2)/[[n1 + n2)2 (n1 + n2 -1)].

Paso 5: Calcule z = (R-m)/ s.

Paso 6: Conclusión:

Si z > Za, entonces debería tener un comportamiento cíclico y con estacionalidad

(sub mezclada).

Si z < - Za, debería tener una pendiente.

Si z < - Za/2, ó z > Za/2, rechaza la aleatoriedad.

Nota: Esta prueba es válida para los casos en los cuales n1 y n2 son

grandes, al menos mayores que 10. Para muestras de pequeñas de tamaños, las

tablas especiales deben ser utilizadas.

Ejemplo

En relación con una muestra aleatoria de n = 10 individuos, supongamos

que cuando se les clasifica por sexo la secuencia de observaciones es: M, M, M,

M, F, F, F, F, M, M. Estos datos contienen tres corridas, o series de elementos

semejantes.

61

Respecto de datos numéricos, un medio para obtener el esquema

requerido de dos categorías es clasificar cada observación según si es superior o

inferior a la mediana del grupo. En general, mucho menos corridas o mucho más

corridas que las que sería de esperar al azar resultarían en el rechazo de la

hipótesis nula de que la secuencia de observaciones es una secuencia aleatoria.

El número de corridas de elementos semejantes se determina de acuerdo

con los datos muéstrales, con el uso del símbolo R para designar el número de

corridas observadas. Si n1 equivale al número de elementos muestreados de un

tipo y n2 al número de elementos muestreados del segundo tipo, la media y el

error estándar asociados con la distribución de muestreo de la estadística de

prueba R cuando la secuencia es aleatoria son

Sin, n1 > 20 o n2 > 20, la distribución de muestreo de r aproxima la

distribución normal. Por lo tanto, en estas circunstancias la estadística R puede

convertirse a la estadística de prueba z de la siguiente manera:

20, en libros de texto especializados en 20 y n2 Cuando n1 estadística

no paramétrica se dispone de tablas de valores críticos de la estadística de prueba

R.

62

PRUEBA U DE MANN – WHITNEY

La prueba Mann-Whitney es un método no paramétrico aplicado a dos

muestras independientes, cuyos datos han sido medidos al menos en una escala

de nivel ordinal. La prueba calcula el llamado estadístico U, cuya distribución

para muestras con más de 20 observaciones se aproxima bastante bien a la

distribución normal.

Formulas:

El estadístico U :

─ R1

− R2

Donde:

U1 y U2 = valores estadísticos de U Mann-Whitney.

n1 = tamaño de la muestra del grupo 1.

n2 = tamaño de la muestra del grupo 2.

R1 = sumatoria de los rangos del grupo 1.

R2 = sumatoria de los rangos del grupo 2.

63

Las dos formulas pueden ofrecer dos valores U, designando el mayor

valor por U’ se verificará si se ha encontrado U o bien U’ y se comparara el

valor resultante es mayor que n1n2/2, se tratara de U’ y el valor de U se puede

hallar mediante la fórmula

U = n1 n2 − U’

Valor Promedio:

E(U) = n1 n2

2

Valor Z para conocer la probabilidad:

z = U − E(U) / σU

Donde:

Z = valor estadístico de la curva normal.

U = cualquier valor de U calculado (ya sea U1 o U2).

E(U)= valor promedio de U.

σU = desviación estándar de U.

La desviación estándar de U

64

Pasos:

1. Determinar el tamaño de las muestras (n1 y n2). Si n1 y n2 son menores

que 20, se consideran muestras pequeñas, pero si son mayores que 20, se

consideran muestras grandes.

2. Arreglar los datos en rangos del menor al mayor valor. En caso de que

existan ligas o empates de rangos iguales, se deberán detectar para un

ajuste posterior.

3. Calcular los valores de U1 y U2, de modo que se elija el más pequeño para

comparar con los críticos de U Mann-Whitney de la tabla de

probabilidades asociadas con valores pequeños como los de U en la

prueba de Mann-Whitney.

4. En caso de muestras grandes, calcular el valor Z, pues en estas

condiciones se distribuye normalmente.

5. Decidir si se acepta o rechaza la hipótesis.

Ejemplo:

Determinar si el número de unidades de cierto producto vendidas por

vendedores que tienen grado académico difiere del número de unidades vendidas

por aquellos que no han obtenido grado. Sean G y F los dos grupos de

vendedores respectivamente. Suponga además que se ha tomado

independientemente una muestra aleatoria de 10 vendedores con grado

académico (n1 = 10) y otra muestra aleatoria de 21 vendedores sin tal grado (n2

= 21). Las unidades vendidas y los rangos se muestran a continuación en el

cuadro para este ejemplo R1 = 98 y R2 = 398.

65

U= 10 (21) + 10 (10 + 1) − 98 = 167

2

UNIDADES VENDIDAS POR UNIDADES VENDIDAS POR

VENDEDORES G VENDEDORES F

1 82 24 1 92 31

2 75 19 2 90 29,5

3 70 15 3 90 29,5

4 65 11 4 89 28

5 60 8 5 86 27

6 58 7 6 85 26

7 50 4,5 7 83 25

8 50 4,5 8 81 22,5

9 46 3 9 81 22,5

10 42 2 10 78 21

11 76 20

12 73 18

13 72 17

14 71 16

15 68 14

16 67 13

17 66 12

18 64 10

19 63 9

20 52 6

21 40 1

R1 = 98 R2 = 398

n1 n2/2 = 10 (21) = 105

2

U = 10 (21) − 167 = 43

E (U)= 10 (21) = 105

2

66

Z = 43 − 105 = −2.62

23.66

Si el nivel de significancia se toma a ∂=0.01, los valores Z críticos son +/-

2.575 así que se rechaza la hipótesis nula y se concluye que el número de

unidades vendidas por los vendedores sin grado académico, no es igual al

número de unidades que logran vender los vendedores con dicho grado.

CORRELACION

La correlación indica la fuerza y la dirección de una relación lineal entre

dos variables aleatorias. Se considera que dos variables cuantitativas están

correlacionadas cuando los valores de una de ellas varían sistemáticamente con

respecto a los valores homónimos de la otra: si tenemos dos variables (A y B)

existe correlación si al aumentar los valores de A lo hacen también los de B y

viceversa. La correlación entre dos variables no implica, por sí misma, ninguna

relación de causalidad.

La relación entre dos variables cuantitativas queda representada mediante

la línea de mejor ajuste, trazada a partir de la nube de puntos. Los principales

67

componentes elementales de una línea de ajuste y, por lo tanto, de una

correlación, son la fuerza, el sentido y la forma:

La fuerza mide el grado en que la línea representa a la nube de puntos: si

la nube es estrecha y alargada, se representa por una línea recta, lo que indica

que la relación es fuerte; si la nube de puntos tiene una tendencia elíptica o

circular, la relación es débil.

El sentido mide la variación de los valores de B con respecto a A: si al

crecer los valores de A lo hacen los de B, la relación es positiva; si al crecer los

valores de A disminuyen los de B, la relación es negativa.

La forma establece el tipo de línea que define el mejor ajuste: la línea

recta, la curva monotónica o la curva no monotónica.

La apreciación visual de la existencia de correlación no es suficiente.

Usaremos un parámetro, llamado coeficiente de correlación que denotaremos

con la letra r, que nos permite valorar si ésta es fuerte o débil, positiva o negativa.

El cálculo es una tarea mecánica, que podemos realizar con una

calculadora o un programa informático. Nuestro interés está en saber

interpretarlo destacaremos una de sus propiedades

-1 < r < 1

Correlación Lineal Y Recta De Regresión

Cuando observamos una nube de puntos podemos apreciar si los puntos se

agrupan cerca de alguna curva. Aquí nos limitaremos a ver si los puntos se

68

distribuyen alrededor de una recta. Si así ocurre diremos que hay correlación

lineal. La recta se denomina recta de regresión.

Hablaremos de correlación lineal fuerte cuando la nube se parezca mucho a una

recta y será cada vez más débil (o menos fuerte) cuando la nube vaya

desparramándose con respecto a la recta.

En el gráfico observamos que en nuestro ejemplo la correlación es

bastante fuerte, ya que la recta que hemos dibujado está próxima a los puntos de

la nube.

Cuando la recta es creciente la correlación es positiva o directa: al

aumentar una variable, la otra tiene también tendencia a aumentar, como en el

ejemplo anterior. Cuando la recta es decreciente la correlación es negativa o

inversa: al aumentar una variable, la otra tiene tendencia a disminuir.

Ejemplo

Una persona se entrena para obtener el carnet de conducir repitiendo un

test de 50 preguntas. En la gráfica se describen el nº de errores que corresponden

a los intentos realizados.

69

Observa que hay una correlación muy fuerte (los puntos están "casi"

alineados) y negativa (la recta es decreciente).

Diagrama De Dispersión

La primera forma de describir una distribución bivariante es representar

los pares de valores en el plano cartesiano. El gráfico obtenido recibe el nombre

de nube de puntos o diagrama de dispersión.

Un diagrama de dispersión es una representación gráfica de la relación

entre dos variables, muy utilizada en las fases de Comprobación de teorías e

identificación de causas raíz y en el Diseño de soluciones y mantenimiento de

los resultados obtenidos. Tres conceptos especialmente destacables son que el

descubrimiento de las verdaderas relaciones de causa-efecto es la clave de la

resolución eficaz de un problema, que las relaciones de causa-efecto casi

siempre muestran variaciones, y que es más fácil ver la relación en un diagrama

de dispersión que en una simple tabla de números

70

Línea De Tendencia

La línea de tendencia es la herramienta básica más importante con la que

cuenta el analista técnico.

Es una línea o conjunto de líneas que se trazan en el gráfico uniendo con una

misma pendiente series sucesivas de puntos mínimos (línea de tendencia alcista)

o de puntos máximos (línea de tendencia bajista).

Sirve para determinar en primer lugar la dirección del mercado y

establecer sus objetivos de proyección.

Marca los niveles de soporte o de resistencia que están proyectando los

precios.

Permite analizar en cada momento el nivel de Beneficio/Riesgo que se

puede tomar al iniciar o cerrar una posición, tomando como referencia el precio

actual respecto a línea de tendencia y su proyección.

La ruptura de una línea de tendencia al alza o la baja es una de las señales

que confirma un cambio en la dirección de los precios.

Son la base para trazar los canales que encuadran el posible movimiento

de los precios.

Según sea la dispersión de los datos (nube de puntos) en el plano

cartesiano, pueden darse alguna de las siguientes relaciones, Lineal,

Logarítmica, Exponencial, Cuadrática, entre otras.

COEFICIENTES DE CORRELACION DE RANGOS

Existen diversos coeficientes que miden el grado de correlación,

adaptados a la naturaleza de los datos.

71

COEFICIENTE DE CORRELACION DE PEARSON

Es un índice estadístico que mide la relación lineal entre dos variables

cuantitativas. A diferencia de la covarianza, la correlación de Pearson es

independiente de la escala de medida de las variables.

La formula suele aparecer expresada como:

La primera expresión se resuelve utilizando la covarianza y las

desviaciones típicas de las dos variables

La segunda forma se utiliza cuando partimos de las puntuaciones típicas

empíricas.

Este estadístico, refleja el grado de relación lineal que existe entre dos variables.

El resultado numérico fluctúa entre los rangos de +1 a -1.

Una correlación de +1 significa que existe una relación lineal directa

perfecta (positiva) entre las dos variables. Es decir, las puntuaciones bajas

de la primera variable (X) se asocian con las puntuaciones bajas de la

segunda variable (Y), mientras las puntuaciones altas de X se asocian con

los valores altos de la variable Y.

72

Una correlación de -1 significa que existe una relación lineal inversa

perfecta (negativa) entre las dos variables. Lo que significa que las

puntuaciones bajas en X se asocian con los valores altos en Y, mientras

las puntuaciones altas en X se asocian con los valores bajos en Y.

Una correlación de 0 se interpreta como la no existencia de una relación

lineal entre las dos variables estudiadas.

73

COEFICIENTE DE CORRELACIÓN SIMPLE POR RANGOS DE

KENDALL

Este procedimiento estadístico para medir la correlación o asociación es

complementario del coeficiente de correlación parcial de Kendall; a su vez, es

una segunda opción de la correlación de Spearman.

La razón por la que se expone este modelo estadístico se debe a la

necesidad de comprender la mecánica aritmética y la interpretación de la prueba,

pues se requiere conocerla para realizar el coeficiente parcial de Kendall.

La fórmula es la siguiente:

74

Donde:

t (tau) = coeficiente de correlación de Kendall.

S = puntuación efectiva de los rangos.

N = tamaño de la muestra en parejas de variables.

Fórmula para determinar el nivel de significancia mediante el valor Z:

Donde:

Z = valor Z de la distribución normal.

t = coeficiente de correlación de Kendall.

N = tamaño de la muestra.

Pasos:

1. Alinear las observaciones del rango menor al mayor de la variable

independiente (X), de manera que se deje el rango que corresponde a la

pareja de la variable dependiente (Y).

2. Obtener la puntuación efectiva (S) en la variable dependiente, en función

del orden de ocurrencia de los rangos de Y con respecto a X.

3. Contar el número de parejas y aplicar la fórmula.

4. Calcular el nivel de significancia en función del valor Z, de acuerdo con

la ecuación, presentada anteriormente.

5. Una vez calculado el valor Z, se obtiene la probabilidad de su magnitud

en la tabla de coeficientes de correlación en niveles de p 0.05 y 0.01.

6. Decidir si se acepta o rechaza la hipótesis.

75

Ejemplo:

Un investigador está interesado en saber si el desarrollo mental de un niño

se asocia a la educación formal de la madre. De esta manera, obtiene la

calificación de desarrollo mental en la escala de Gesell de ocho niños elegidos

aleatoriamente y se informa del grado de escolaridad de las madres.

Elección de la prueba estadística.

Se desea medir asociación o correlación. Las calificaciones de la educación

formal de cada madre están dadas en una medición cualitativa, pero tienen una

escala ordinal, por lo cual es posible ordenarlas en rangos.

Planteamiento de la hipótesis.

Hipótesis alterna (Ha). El desarrollo mental de los hijos es una variable

dependiente de la educación formal de la madre; por lo tanto, existe una

correlación significativa.

Hipótesis nula (Ho). La asociación entre las variables educación formal

de la madre y desarrollo mental de los hijos no es significativa, ni hay

correlación.

Nivel de significación.

Para todo valor de probabilidad igual o menor que 0.05, se acepta Ha y se

rechaza Ho.

76

Zona de rechazo.

Para todo valor de probabilidad mayor que 0.05, se acepta Ho y se rechaza Ha.

Desarrollo mental de algunos niños y escolaridad de las madres.

Aplicación de la prueba estadística.

Inicialmente, las observaciones de las variables X y Y se ordenan en rangos.

Arreglo en rangos de las observaciones presentadas en la tabla anterior.

De acuerdo con esto, se efectúa un ordenamiento natural de los rangos de las

variables X y Y.

Rangos de la variable independiente X y su correspondiente de la variable

dependiente.

77

El cálculo de la puntuación efectiva (S) se realiza con el ordenamiento de los

rangos de la variable dependiente (Y).

El primer valor del rango de Y es 1. Respecto a los demás rangos, existen siete

mayores que Y y ninguno es menor, de manera que queda:

S = (7 - 0) +

Después está el rango 5, luego se hallan tres por arriba y tres por debajo de éste

y se continúa:

S = (7 - 0) + (3 - 3) +

En rango siguiente es el 3, del cual cuatro son mayores y uno menor, y queda:

S = (7 - 0) + (3 - 3) + (4 - 1) +

El rango inmediato es el 2, y los cuatro subsecuentes son mayores y ninguno

menor:

S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) +

Después se halla el rango 7, en el que uno es mayor y dos menores:

S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) +

Finalmente, se encuentra el rango 8, el subsecuente es el 6, que es menor y se

concluye el cálculo de S, como sigue:

S = (7 - 0) + (3 - 3) + (4 - 1) + (4 - 0) + (1 - 2) + (0 - 1)

S = 7 + 0 + 3 + 4 - 1 - 1 = 12

Aplicamos la ecuación de la prueba estadística.

78

Calculamos el nivel se significancia.

Una vez calculado el valor Z, se obtiene la probabilidad en la tabla de

coeficientes de correlación en niveles de p 0.05 y 0.01; a su vez en buscamos en

la tabla de probabilidades asociadas en valores extremos como los de 2 en la

distribución normal.

Se localiza el valor 1.4 y en la intersección de la columna 0.09, se observa el

valor 0.0681, el cual corresponde a la probabilidad de obtener un valor Z de esta

magnitud, que difiere del promedio y es mayor que el nivel de significancia.

Decisión.

Como el valor Z tiene mayor probabilidad que el nivel de significancia, se acepta

Ho y se rechaza Ha.

Interpretación.

La correlación entre las variables educación materna y desarrollo mental del hijo

no es significativa. Esta misma conclusión se obtuvo mediante el coeficiente de

correlación de Spearman.

En la sección de coeficiente de correlación de Spearman se señaló que al

aumentar el tamaño de la muestra, existe mayor probabilidad de empates o ligas

entre los rangos de las observaciones. Para esta condición se presenta la

siguiente ecuación:

79

Donde:

t (tau) = coeficiente de correlación de Kendall.

S = puntuación efectiva de los rangos.

N = tamaño de la muestra en parejas de variables.

Lx = sumatoria de ligas o empates dados en la variable independiente (X).

Ly = sumatoria de ligas o empates dados en la variable dependiente (Y).

El nivel de significancia se obtiene de la misma manera.

TEST DE COHEN-KAPPA

Test que evalúa las concordancias y discordancias intra e inter observador

respecto a una variable nominal (por ejemplo radiología positiva o negativa).

Cohen coeficiente kappa es una medida estadística de la confiabilidad

entre calificadores. En general, se cree que fue más robusto medida que simple

acuerdo por ciento desde κ cálculo tiene en cuenta el acuerdo que ocurren por

casualidad. Cohen kappa medidas el acuerdo entre dos calificadores que cada

clasificar N C temas en categorías mutuamente excluyentes.

80

La ecuación para κ es:

Donde Pr (a) es la relativa observada acuerdo entre los calificadores, y Pr

(e) es la probabilidad de que el acuerdo se debe a la casualidad. Si los

calificadores están completamente de acuerdo entonces κ = 1. Si no hay acuerdo

entre los calificadores (distintos de lo que cabría esperar por azar), entonces κ ≤

0.

El papel seminal kappa como la introducción de una nueva técnica fue

publicado por Jacob Cohen en la revista Educación y Psicología de medición en

1960.

Tenga en cuenta que las medidas de Cohen kappa acuerdo entre dos

calificadores sólo. Por una medida similar de acuerdo (Fleiss' kappa) que se

utiliza cuando hay más de dos calificadores.

LOS VALORES Y CONCORDANCIA DE KAPPA

Los valores de Kappa se verán en el siguiente cuadro sin embargo, no es

universalmente aceptada; Landis y Koch suministrado ninguna evidencia para

apoyar que, en lugar de basar su opinión personal. Se ha observado que estas

directrices pueden ser más perjudiciales que útiles ya que el número de

categorías y temas afectará a la magnitud del valor. El kappa será mayor

cuando hay un menor número de categorías.

81

Κ Interpretación

<0 No hay acuerdo

0,0 - 0,20 Muy bajo acuerdo

0,21 - 0,40 Baja acuerdo

0,41 - 0,60 Moderado acuerdo

0,61 - 0,80 Totalmente de acuerdo

0,81 - 1,00 Casi perfecto acuerdo

Cohen kappa se utiliza para comparar el grado de consenso entre los

calificadores (inspectores), por ejemplo, en Análisis de Sistemas de Medida.

Utiliza una tabla de contingencia.

Dos calificadores inspeccionar 150 partes independientemente y hacer las

siguientes determinaciones:

82

Bret

Rechazar

Aceptar

Total

Rechazar 20 19 39

Alice Aceptar 1 110 111

Total 21 129 150

Los valores esperados en cada celda sería:

Bret

Rechazar

Aceptar

Total

Rechazar 5,46 33,54 39

Alice Aceptar 15,54 95,46 111

Total 21 129 150

Estos son los valores que de a la misma asciende a si las determinaciones

fueron realizadas por pura casualidad y se calcula a partir de:

(Fila total de la columna total x) / total general

83

La prueba estadística de Kappa se calcula a partir de:

Donde:

Real El número de veces que los tasadores de acuerdo (110 + 20

= 130)

Espera El número de veces que se han puesto de acuerdo por

casualidad (5,46 + 95,46)

Ensayos El número de juicios

El valor de Kappa será de entre 0 y 1.

Si los resultados se hizo por casualidad, ni por calificadores sentencia muestra

el valor sería cero. Si los calificadores estaban en perfecto acuerdo, el número

de acuerdos de la igualdad de juicios y Kappa sería 1.

Supongamos que se trata de medir el grado de acuerdo entre varios

métodos o evaluadores que clasifican al paciente (o el resultado de una

observación) según una serie de posibilidades (categorías) mutuamente

excluyentes. El caso más sencillo se presenta cuando la variable cualitativa es

dicotómica (dos posibilidades) y se está comparando dos métodos de

clasificación (por ejemplo dos escalas clínicas).

La medida más simple de concordancia es la proporción de

84

coincidencias frente al total de sujetos: (a + d) / n.

Pero resulta que aunque no existiera ninguna relación entre los dos

métodos de clasificación, está claro que es previsible que encontremos algún

grado de concordancia entre ellos por puro azar. Así, si el método A consiste

en clasificar al paciente con resultado positivo si sale cara al lanzar una

moneda al aire y cruz en el caso contrario, y hacemos lo mismo en el método B

(con otra moneda diferente), es previsible encontrar en promedio del orden de

un 50 % de coincidencias.

Supongamos que el sistema A es un método científico de diagnóstico y

el método B es la opinión de un "vidente";también ahora es previsible

encontrar un cierto grado de concordancia debido en parte al azar.

Con el fin de determinar hasta qué punto la concordancia observada es

superior a la que es esperable obtener por puro azar, se define el índice de

concordancia kappa.

En caso de acuerdo perfecto la proporción de concordancia será 1, por

lo que 1-Pe representa el margen de acuerdo posible no atribuíble al azar. De

ese margen nosotros observamos probablemente sólo una parte Po-Pe, salvo

que haya acuerdo perfecto Po=1.

Así pues, en caso de concordancia perfecta el valor de kappa es 1; si la

concordancia observada es igual a la esperada kappa vale 0; y en el caso de que

85

el acuerdo observado sea inferior al esperado el índice kappa es menor que

cero.

Para calcular la concordancia esperada, el razonamiento es el siguiente:

de acuerdo con la tabla anterior la probabilidad de que el método A clasifique a

un sujeto como positivo podemos estimarla como f1/n; mientras que la

correspondiente probabilidad del método B la estimaremos como c1/n. Si

consideramos que existe independencia entre ambos métodos de clasificación,

la probabilidad de que coincidan clasificando al mismo sujeto como positivo

será entonces el producto de las dos probabilidades (sucesos independientes).

Aplicando el mismo razonamiento calculamos la probabilidad de que se

produzca acuerdo entre los métodos al clasificar a un sujeto como negativo, y

entonces la probabilidad de acuerdo cualquiera de las dos clasificaciones será la

suma de ambos valores.

En el caso de más de dos categorías, además del índice de concordancia

global puede ser interesante determinar el grado de concordancia específico en

alguna de las categorías (o en todas), lo que equivale a convertir el resultado

posible en dos únicas respuestas: se clasifica al paciente en la categoría de interés

o se clasifica en alguna de las restantes. De esta manera para cada una de las

categorías vamos convirtiendo la tabla original en tablas 2x2 y podemos

entonces calcular el valor del correspondiente índice kappa como si de una

variable dicotómica se tratara.

La gran utilización del índice de concordancia kappa en la literatura

médica se debe probablemente tanto a la facilidad de cálculo, como a su clara

86

interpretación; no obstante, tiene sus problemas y limitaciones que pueden

consultarse por el lector interesado en la bibliografía que acompaña este artículo.

El principal problema de esta medida de concordancia radica en que está pensada

para clasificaciones nominales, en las que no existe un orden de graduación entre

las diferentes categorías. Cuando esto no es así, pensemos por ejemplo en una

clasificación del tipo Muy grave - grave - leve - sin importancia, donde no es lo

mismo que el desacuerdo se produzca clasificando como sin importancia por un

evaluador y leve por otro, a que uno de ellos clasifique como sin importancia y

otro como muy grave. El índice kappa hasta ahora descrito únicamente tiene en

consideración si hay o no acuerdo, esto es si se clasifica o no al sujeto en la

misma categoría, por lo que a la hora de calcularlo pesan por igual las dos

situaciones anteriormente descritas.

Si deseamos tener en cuenta el hecho de que estamos manejando variables

ordinales para calcular una medida de concordancia, existen diferentes

posibilidades. La más sencilla es calcular individualmente la concordancia en

cada categoría, tal y como se comentó más arriba; pero de esta forma seguimos

sin ponderar el nivel de desacuerdo global según esa clasificación ordinal.

Otro enfoque más global consiste en asignar un peso a las diferentes

posibilidades de desacuerdo, de tal manera que se considere como más

importante un desacuerdo entre categorías alejadas que entre las próximas. Este

peso variará entre 0 (acuerdo, misma categoría) y 1 (desacuerdo con categorías

extremas). El problema surge a la hora de determinar esos pesos, ya que el valor

de concordancia obtenido será diferente según los pesos utilizados.

CORRELACION DE SPEARMAN

87

Es una prueba no paramétrica que mide la asociación o interdependencia

entre dos variables discretas. Para calcular ρ, los datos son ordenados y

reemplazados por su respectivo orden.

El estadístico ρ viene dado por la expresión:

Donde D es la diferencia entre los correspondientes valores de x - y. N es

el número de parejas.

Se tiene que considerar la existencia de datos idénticos a la hora de

ordenarlos, aunque si éstos son pocos, se puede ignorar tal circunstancia

Para muestras mayores de 20 observaciones, podemos utilizar la siguiente

aproximación a la distribución t de Student

La interpretación de coeficiente de Spearman es igual que la del

coeficiente de correlación de Pearson. Oscila entre -1 y +1, indicándonos

asociaciones negativas o positivas respectivamente, 0 cero, significa no

correlación pero no independencia. La tau de Kendall es un coeficiente de

88

correlación por rangos, inversiones entre dos ordenaciones de una distribución

normal bivariante.

Ejemplo.

CI Horas de TV a la semana

106 7

86 0

100 28

100 50

99 28

103 28

97 20

113 12

89

113 7

110 17

El primer paso es ordenar los datos de la primera columna. Después, se crean

dos columnas más. Ambas son para ordenar (establecer un lugar en la lista) de

las dos primeras columnas. Después se crea una columna "d" que muestra las

diferencias entre las dos columnas de orden. Finalmente, se crea otra columna

"d2". Esta última es sólo la columna d al cuadrado.

Después de realizar todo esto con los datos del ejemplo, se debería acabar con

algo como lo siguiente:

CI (i) Horas de TV a la semana (t) orden(i) orden(t) d d2

86 0 1 1 0 0

97 20 2 6 4 16

90

99 28 3 8 5 25

100 50 4.5 10 5.5 30.25

100 28 4.5 8 3.5 12.25

103 28 6 8 2 4

106 7 7 2.5 4.5 20.25

110 17 8 5 3 9

113 7 9.5 2.5 7 49

113 12 9.5 4 5.5 30.25

Nótese como el número de orden de los valores que son idénticos es la media de

los números de orden que les corresponderían si no lo fueran.

Los valores de la columna d2 pueden ser sumados para averiguar

. El valor de n es 10. Así que esos valores pueden ser sustituídos en la fórmula.

91

De lo que resulta ρ = − 0.187878787879.

La aproximación moderna al problema de averiguar si un valor observado

de ρ es significativamente diferente de cero (siempre tendremos 1 ≥ ρ ≥ −1) es

calcular la probabilidad de que fuera mayor o igual que el ρ observado, dada la

hipótesis nula, utilizando un test de permutación. Esta aproximación es casi

siempre superior a los métodos tradicionales, a no ser que el dato sea tan grande

que la potencia informática no sea suficiente para generar permutaciones (poco

probable con la informática moderna), o a no ser que sea difícil crear un

algoritmo para crear permutaciones que sean lógicas bajo la hipótesis nula en el

caso particular de que se trate (aunque normalmente estos algoritmos no ofrecen

dificultad).

Aunque el test de permutación es a menudo trivial para cualquiera con

recursos informáticos y experiencia en programación, todavía se usan

ampliamente los métodos tradicionales para obtener significación. La

aproximación más básica es comparar el ρ observado con tablas publicadas para

varios niveles de significación. Es una solución simple si la significación sólo

necesita saberse dentro de cierto rango, o ser menor de un determinado valor,

mientras haya tablas disponibles que especifiquen los rangos adecuados. Sin

embargo, generar estas tablas es computacionalmente intensivo y a lo largo de

los años se han usado complicados trucos matemáticos para generar tablas para

92

tamaños de muestra cada vez mayores, de modo que no es práctico para la

mayoría extender las tablas existentes.

Una aproximación alternativa para tamaños de muestra suficientemente

grandes es una aproximación a la distribución t de Student. Para tamaños de

muestra más grandes que unos 20 individuos, la variable

Tiene una distribución t de Student en el caso nulo (correlación cero). En

el caso no nulo (ej: para averiguar si un ρ observado es significativamente

diferente a un valor teórico o si dos ρs observados difieren significativamente,

los tests son mucho menos potentes, pero puede utilizarse de nuevo la

distribución t.

Una generalización del coeficiente de Spearman es útil en la situación en

la cual hay tres o más condiciones, varios individuos son observados en cada

una de ellas, y predecimos que las observaciones tendrán un orden en particular.

Por ejemplo, un conjunto de individuos pueden tener tres oportunidades para

intentar cierta tarea, y predecimos que su habilidad mejorará de intento en

intento.

93

KOLMOGOROV – SMIRNOV

La prueba de Kolmogorov-Smirnov (también prueba K-S) es una prueba

no paramétrica que se utiliza para determinar la bondad de ajuste de dos

distribuciones de probabilidad entre sí.

En el caso de que queramos verificar la normalidad de una distribución,

la prueba de Lilliefors conlleva algunas mejoras con respecto a la de

Kolmogorov-Smirnov; y, en general, las pruebas Shapiro-Wilk o Anderson-

Darling son alternativas más potentes.

Conviene tener en cuenta que la prueba Kolmogorov-Smirnov es más

sensible a los valores cercanos a la mediana que a los extremos de la distribución.

La prueba de Anderson-Darling proporciona igual sensibilidad con valores

extremos.

La distribución de los datos Fn para n observaciones yi se define como

Para dos colas el estadístico viene dado por

Donde F(x) es la distribución presentada como hipótesis

94

La distribución de Kolmogorov es la distribución de la variable aleatoria

Donde B (t) es el puente browniano. La función de la distribución acumulativa

de K está dada por

PRUEBA DE KOLMOGOROV – SMIRNOV

Bajo la hipótesis nula de que la muestra proviene de la hipótesis de

distribución F (x),

En la distribución, donde B (t) es el puente browniano.

Si F es continua entonces bajo la hipótesis nula Converge a la

distribución de Kolmogorov, que no depende de F. Este resultado también

puede ser conocido como el teorema de Kolmogorov; ver Kolmogorov del

teorema de desambiguación.

La bondad de ajuste de prueba o la prueba de Kolmogorov-Smirnov se

construye utilizando los valores críticos de la distribución de Kolmogorov.

La hipótesis nula es rechazada en el nivel α si

95

K α, donde se encuentra desde

La asíntota poder de esta prueba es de 1. Si el o los parámetros de la

forma F (x) se determinará a partir de la X i, la desigualdad no podrá ocupar. En

este caso, Monte Carlo o se requieren otros métodos para determinar el nivel de

rechazo α.

Una forma más familiar de la prueba es:

Encontrarse en diferentes referencias.

La prueba de Kolmogorov-Smirnov también puede ser utilizada para

probar si dos subyacente unidimensionales diferentes distribuciones de

probabilidad. En este caso, la estadística de Kolmogorov-Smirnov es

Y la hipótesis nula es rechazada en el nivel α si

96

Este contraste, que es válido únicamente para variables continuas,

compara la función de distribución (probabilidad acumulada) teórica con la

observada, y calcula un valor de discrepancia, representado habitualmente como

D, que corresponde a la discrepancia máxima en valor absoluto entre la

distribución observada y la distribución teórica, proporcionando asimismo un

valor de probabilidad P, que corresponde, si estamos verificando un ajuste a la

distribución normal, a la probabilidad de obtener una distribución que discrepe

tanto como la observada si verdaderamente se hubiera obtenido una muestra

aleatoria, de tamaño n, de una distribución normal. Si esa probabilidad es grande

no habrá por tanto razones estadísticas para suponer que nuestros datos no

proceden de una distribución, mientras que si es muy pequeña, no será aceptable

suponer ese modelo probabilístico para los datos

97

CONCLUSIONES

1. Las pruebas paramétricas más conocidas y usadas son la prueba t de

Student, la prueba F, llamada así en honor a Fisher, y el coeficiente de

correlación de Pearson, simbolizado por r.

2. Las pruebas no paramétricas se conocen también como de distribución

libre.

3. Una función de distribución de probabilidad ha de cumplir 3 condiciones:

y

Es continua por la derecha

Es monótona no decreciente

4. La distribución discreta basada en la función de probabilidad acumulada

(entre 0% y 100%), genera un aleatorio.

5. La distribución de Bernoulli es una variable dicotómica puede tomar dos

modalidades, por ello que el hecho de llamar éxito o fracaso a los

posibles resultados de las pruebas obedece más una tradición literaria o

histórica.

6. La distribución de Bernoulli tiene como función característica

7. Una v.a. X sigue posee una distribución geométrica, , si esta

es la suma del número de fracasos obtenidos hasta la aparición del primer

éxito en la sucesión .

8. La distribución de binominal negativa tiene como ley de probabilidad:

98

9. El valor esperado de la hipergeométrica es el mismo que el de la binomial

10. Utilizaremos la distribución de Poisson

como aproximación de experimentos binomiales donde el número de

pruebas es muy alto, pero la probabilidad de éxito muy baja.

11. La distribución uniforme es aquella que puede tomar cualquier valor

dentro de un intervalo, todos ellos con la misma probabilidad

12. La distribución normal o gaussiana Es el modelo de distribución más

utilizado en la práctica, ya que multitud de fenómenos se comportan

según una distribución normal.

13. Para obtener el valor esperado de una variable aleatoria discreta,

multiplicamos cada valor que ésta puede asumir por la probabilidad de

ocurrencia de ese valor y luego sumamos los productos.

14. La prueba de wilcoxon de los rangos con signos nos permite comparar

nuestros datos con una mediana teórica.

15. Llamemos M0 a la mediana

16. El test de Kruskal-Wallis la alternativa no paramétrica del método

ANOVA, es decir, sirve para contrastar la hipótesis de que k muestras

cuantitativas han sido obtenidas de la misma población.

17. La Prueba de corridas (Wald-Wolfowitz).

Una “Corrida” es una serie de observaciones similares.

99

18. La prueba Mann-Whitney es un método no paramétrico aplicado a dos

muestras independientes, cuyos datos han sido medidos al menos en una

escala de nivel ordinal.

19. La correlación indica la fuerza y la dirección de una relación lineal entre

dos variables aleatorias.

20. La correlación de Pearson es independiente de la escala de medida de las

variables.

21. El coeficiente de correlación parcial de Kendall tiene como formula

22. Test de Cohen coeficiente kappa evalúa las concordancias y

discordancias intra e inter observador respecto a una variable nominal

23. La ecuación para κ es:

24. Correlación de Spearman viene dado por la expresión:

BIBLIOGRAFIA

1. www.google.co.ve

2. www.geocities.com

3. www.elrincondelvago.com

http://www.google.co.ve/

http://www.geocities.com/

http://www.elrincondelvago.com/

100

4. es.wikipedia.org

5. Estadística para las ciencias administrativas. Tercera edición. Lincoln L.

Chao

6. www.monografias.com

http://www.monografias.com/

Documents

DOCENTE: MATA HAMLET · 2017. 10. 8. · pruebas no paramétricas, se llaman paramétricas a aquellas pruebas estadísticas que exigen que los datos a los que se aplican cumplan con