Tesis de maestria: Muestreo para correlaciones

UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS

FACULTAD MATEMÁTICA, FÍSICA Y COMPUTACIÓN

MUESTREO PARA CORRELACIONES POR

CONTINGENCIAS Y DE PEARSON

Tesis presentada en opción al Título Académico de Máster en Matemática Aplicada

Autor: Lic. Gustavo Vicente Rojas García

Tutor: Dr. CT. Uvedel Bernabé Del Pino Paz

2007

Año 49 de la Revolución.

Índice

RESUMEN ....................................................................................................................................................... 3

INTRODUCCIÓN ............................................................................................................................................ 4

OBJETIVOS DE LA TESIS ............................................................................................................................ 6

OBJETIVO GENERAL: ...................................................................................................................................... 6 OBJETIVOS ESPECÍFICOS: ............................................................................................................................... 6

HIPÓTESIS: .................................................................................................................................................... 6

CAPÍTULO 1: ESTUDIO DE LAS DEPENDENCIAS ENTRE VARIABLES POR MEDIO DE LOS

COEFICIENTES DE CORRELACIONES. .................................................................................................... 7

1.1 CONSTRUCTOS Y VARIABLES .................................................................................................................. 7 1.2.1 Escalas de medidas ....................................................................................................................... 8 1.2.2 Clasificación de las variables según la escala de medición .......................................................... 9

1.3 LA COVARIANZA COMO MEDIDA DE DEPENDENCIA ENTRE DOS VARIABLES ALEATORIAS. ..................... 10 1.4 COEFICIENTES DE CORRELACIONES ....................................................................................................... 10

1.4.1 Coeficiente de correlación de Pearson ........................................................................................ 11 1.4.2 Coeficientes asociados a una tabla de contingencias .................................................................. 12 1.4.3 Coeficiente de correlación tetracórica. ....................................................................................... 12 1.4.4 Coeficiente biserial del punto. ..................................................................................................... 13 1.4.5 Coeficiente de correlación muestral por ranking de Spearman. ................................................. 14 1.4.6 Coeficiente de correlación muestral por ranking de Kendall. ..................................................... 16 1.4.7 Coeficiente G Gamma de Goodman- Kruskal ............................................................................. 17

CAPÍTULO 2: TABLAS Y COEFICIENTES DE CONTINGENCIAS ....................................................... 18

2.1 PROBABILIDADES DE CONTINGENCIAS ................................................................................................... 18 2.1.1 Estimación de probabilidades de contingencias .......................................................................... 19 2.1.2 Determinación del tamaño de la muestra para estimar probabilidades de contingencias de una

población por medio de la cota superior del error de muestreo. ......................................................... 22 2.1.3 Aplicaciones de las probabilidades de contingencias. ............................................................... 25

2.2 DÓCIMA DE HIPÓTESIS SOBRE LA INDEPENDENCIA DE VARIABLES EN UNA TABLA DE CONTINGENCIAS. 27 2.2.1 Procedimiento para la dócima de hipótesis sobre independencia de variables por medio de una

tabla de contingencias. ......................................................................................................................... 30 2.2.2 Aplicaciones de la dócima para determinar dependencias entre variables aleatorias. .............. 31

2.3 ANÁLISIS DE LOS RESIDUOS EN UNA TABLA DE CONTINGENCIAS. .......................................................... 32 2.3.1 Tamaño de muestra para el análisis de residuos cuando se usan los “residuos ajustados” de

todas las celdas. .................................................................................................................................... 34 2.3.2 Aplicación del análisis de residuos .............................................................................................. 35

2.4 COEFICIENTES DE CORRELACIONES ASOCIADOS A LAS TABLAS DE CONTINGENCIAS. ............................. 37 2.4.1 Coeficiente de contingencia ......................................................................................................... 37 2.4.2 Coeficiente V de Cramer .............................................................................................................. 38 2.4.3 Coeficiente φ (phi) ....................................................................................................................... 38

CAPÍTULO 3: COEFICIENTE DE CORRELACIÓN DE PEARSON. ...................................................... 39

3.1 COEFICIENTE DE CORRELACIÓN DE PEARSON PARA UNA POBLACIÓN. ................................................... 39

3.1.1 Interpretación geométrica de ................................................................................................... 39 3.2 ESTIMACIÓN PUNTUAL DEL COEFICIENTE DE CORRELACIÓN POBLACIONAL DE PEARSON POR MEDIO DE

UNA MUESTRA ALEATORIA SIMPLE .............................................................................................................. 42 3.2.1 Distribuciones muestrales asociadas al coeficiente de correlaciones de Pearson ...................... 42

3.3 ESTIMACIÓN POR INTERVALO DEL COEFICIENTE DE CORRELACIONES POBLACIONAL DE PEARSON ........ 43 3.3.1 Tamaño de muestra necesario, para estimar por un intervalo de confianza, el coeficiente de

correlaciones poblacional de Pearson ................................................................................................. 44 3.3.2 Implementación del muestreo ...................................................................................................... 46

Índice

_______________________________________________________________________________________________

3.3.3 Aplicaciones de la estimación por intervalo de confianza del coeficiente de correlación de

Pearson. ................................................................................................................................................ 47

3.4 DÓCIMAS DE HIPÓTESIS SOBRE EL COEFICIENTE DE CORRELACIÓN DE PEARSON. .................................. 48 3.4.1 Determinación del tamaño de la muestra. ................................................................................... 48 3.4.2 Aplicaciones del diseño muestral a las dócimas de hipótesis sobre el coeficiente de correlación

de Pearson. ........................................................................................................................................... 50

CONCLUSIONES: ......................................................................................................................................... 52

RECOMENDACIONES: ............................................................................................................................... 53

BIBLIOGRAFÍA: ........................................................................................................................................... 54

ANEXOS ......................................................................................................................................................... 56

ANEXO 1 SELECCIÓN DE LOS COEFICIENTES DE CORRELACIONES DE ACUERDO A LAS ESCALAS DE MEDIDAS

USADAS EN LAS VARIABLES. ........................................................................................................................ 56 ANEXO 2 TAMAÑOS DE MUESTRAS PARA CONSTRUIR INTERVALOS DE CONFIANZA PARA EL COEFICIENTE DE

CORRELACIÓN DE PEARSON. ........................................................................................................................ 57 ANEXO 3 TAMAÑOS DE MUESTRAS PARA DOCIMAR LA SIGNIFICACIÓN DEL COEFICIENTE DE CORRELACIÓN

DE PEARSON. ............................................................................................................................................... 58

3

Resumen

Una forma de estudiar la posible dependencia entre variables es por medio de los

coeficientes de correlaciones. El coeficiente de correlación establece una medida del

posible nexo existente entre las variables consideradas. En la tesis se examina la

clasificación de las variables de acuerdo a la escala de medida utilizada. Se enumeran los

principales coeficientes de correlaciones y en particular se detallan los coeficientes de

contingencias y correlaciones de Pearson.

Se determinan fórmulas de tamaño de muestra para estimar probabilidades de

contingencias, realizar análisis de residuos, construir intervalos de confianza y docimar

hipótesis sobre la significación del coeficiente de correlaciones de Pearson.

Los cálculos de tamaños de muestras se hacen a partir de las distribuciones muestrales, las

cuales de una manera asintótica convergen a distribuciones clásicas de la estadística.

En los intervalos de confianza se requiere prefijar la longitud del intervalo así como la

probabilidad de confianza. En el caso de las Dócimas establecer las probabilidades de

errores del tipo I y del tipo II.

Para ilustrar el cálculo de las fórmulas se presentan ejemplos cuyo único interés es mostrar

los procedimientos de cálculo.

4

Introducción

Desde el surgimiento de la raza humana, el hombre se ha preocupado por conocer y

entender el mundo que le rodea, descubrir las relaciones y leyes que lo rigen, para de esta

manera, orientarse hacia el futuro en busca de una vida mejor.

Esta es la razón por la cual estudia los diferentes fenómenos observables, buscando en

ellos nexos y relaciones que permitan explicar causas y efectos.

En el estudio de las dependencias entre causas y efectos, es importante analizar diferentes

características involucradas en ellos. Briones (1987), ayuda en este sentido definiendo el

concepto de variable como una propiedad, característica o atributo que puede darse en

ciertos objetos o sujetos.

Los grados o modalidades diferentes de las variables permiten la clasificación de los

individuos en categorías o clases y son susceptibles de identificación y medición.

Las variables pueden clasificarse de diferentes maneras. Se tiene la costumbre de llamar

variables respuestas a las asociadas con los efectos ocurridos en el fenómeno y variables

explicativas las asociadas con las causas o procesos del fenómeno estudiado.

En la búsqueda de los vínculos entre variables respuestas y variables explicativas puede

hacerse uso de diferentes métodos matemáticos, entre ellos, tiene especial importancia el

análisis de correlaciones.

Una forma de estudiar la posible dependencia entre variables es por medio de los

coeficientes de correlaciones. El coeficiente de correlación establece una medida del

posible nexo existente entre las variables consideradas. Para el estudio de población se

estudia el coeficiente de correlación poblacional, en cambio para estimaciones de los

parámetros correlaciónales desde una muestra, se examina el coeficiente de correlación

muestral. Un estudio de correlaciones necesita de una matriz muestral de datos, donde cada fila

representa un elemento de la muestra y cada columna las observaciones de la variable

correspondiente a ella. A partir de esta matriz se determina el coeficiente de correlación

muestral. Se denota generalmente por “r”. Surge la pregunta: ¿El número de observaciones

y las formas de obtenerlas garantizan tener un coeficiente de correlación muestral capaz de

representar el verdadero nexo entre las variables estudiadas?

La respuesta a esta pregunta requiere un análisis cuidadoso. Desde el coeficiente de

correlación muestral “r” se desea estimar el coeficiente de correlación poblacional “ρ”, que

es un parámetro fijo de la población estudiada. Para diferentes muestras se obtienen

Introducción

_______________________________________________________________________________________________

5

diferentes coeficientes de correlaciones muestrales, es por ello que “r” es una variable

aleatoria. La tarea es encontrar un tamaño de muestra que origine un intervalo con alta

probabilidad de confianza y una longitud lo más pequeña posible.

Además de lo anterior, se tienen variables con diferentes clasificaciones: variables

cualitativas que pueden ser ordinales o nominales. Variables cuantitativas que pueden ser

discretas o continuas. Esto origina la necesidad de definir diferentes coeficientes de

correlaciones, usados de acuerdo a los tipos de medidas usadas en cada una de las

variables.

Son varios los coeficientes de correlaciones: Contingencia, Biserial del Punto, Tetracórico,

Spearman, Kendall, Pearson, entre otros.

En el presente documento, en el primer capítulo se hace un panorama de los diferentes

coeficientes de correlaciones. En el siguiente capítulo se selecciona para su estudio las

tablas de contingencias. Estas a su vez se dividen en cuatro partes: cálculo de las

probabilidades de contingencias, dócimas de independencia entre dos variables, análisis de

los residuos y los coeficientes de correlaciones asociados a la contingencia. El tercer

capítulo se dedica al coeficiente de correlación de Pearson. Estimación puntual,

distribuciones muestrales, dócima de significación y fórmulas para su tamaño de muestra

son los objetos tratados.

6

Objetivos de la tesis

Objetivo general:

Desarrollar y organizar resultados referentes a procedimientos de muestreos,

necesarios para el análisis de correlaciones con dos variables.

Objetivos específicos:

Buscar criterios para la selección de un coeficiente de correlación, cuando se

estudia la dependencia entre dos variables.

Desarrollar un procedimiento muestral para tablas y coeficientes de contingencias.

Determinar los tamaños de muestras para intervalos de confianza y dócimas sobre

el coeficiente de correlación de Pearson.

Hipótesis:

El tamaño de la muestra influye de manera significativa en los resultados de un

análisis de correlaciones.

7

Capítulo 1: Estudio de las dependencias entre variables por medio

de los coeficientes de correlaciones.

En las investigaciones empíricas desarrolladas para conocer sobre diferentes fenómenos, es

importante definir características (constructos o variables) capaces de estudiar las

dependencias entre los factores y los efectos que tienen lugar en los mismos.

1.1 Constructos y variables

Asociados a las características estudiadas se definen constructos hipotéticos. La Torre y

otros (1996), presentan los constructos como entidades abstractas, bien definidas y

articuladas. Ejemplos de constructos son la inteligencia, la motivación, la capacidad de

aprendizaje en una investigación pedagógica.

Para estudiar los constructos se hace necesario analizar magnitudes observables que

funcionan como indicadoras del constructo en cuestión. Estas magnitudes reciben el

nombre de variables.

Las variables y los constructos están estrechamente ligados, de tal forma que constituyen,

en cierta forma, las dos caras de una misma moneda. Los constructos hipotéticos se

consideran como variables latentes, no observables directamente, en cambio las variables

se pueden definir de forma operativa, es decir, describiendo las operaciones o actividades

que han de realizarse para medir o manipular el objeto estudiado. El investigador ha de

traducir las variables a definiciones observables, cuantificables y medibles.

Por ejemplo, del constructo «inteligencia» (aptitud para enfrentarse a situaciones nuevas

con rapidez y éxito) se puede pasar a la variable «inteligencia» como puntuación obtenida

en un test; del constructo «capacidad de aprendizaje» a la variable «rendimiento escolar»

expresado en las calificaciones escolares.

Las operaciones o actividad que realiza el investigador para pasar del campo teórico, los

constructos, al campo de la realidad observable, variable operativa, se designa como

operativización de la variable. Consiste en encontrar variables más concretas, que sean

representativas de aquéllas asociadas a los constructos.

En la operativización, se enuncian o definen las variables, se deducen sus dimensiones o

aspectos principales y se buscan indicadores o circunstancias empíricas concretas de cada

Capítulo 1

_______________________________________________________________________________________________

8

dimensión. Hay que tener en cuenta que una misma variable puede ser operativizada de

diversas formas.

Para medir la intensidad de la acción explicada por ellas se han establecidos diferentes

sistemas y escalas de medidas. Estas escalas de acuerdo al comportamiento de la propiedad

estudiada, pueden ser nominal, ordinal, de intervalo o de razón.

1.2.1 Escalas de medidas

Siegel (1956), señala cuatro niveles de medida; cada uno posee sus propias características.

En cada uno de ellos, están o no permitidas determinadas operaciones aritméticas. El tipo

de escala depende de las operaciones empíricas que permite efectuar. En orden de

precisión creciente, las cuatro escalas o niveles de medida son: la nominal, la ordinal, la de

intervalos y la de razón.

Escala nominal: En esta escala la medición se da en un nivel elemental, los números u

otros símbolos se usan para la clasificación de objetos, personas o características. Cuando

se usan con el fin de distinguir entre sí los grupos a que pertenecen varios objetos, los

números o símbolos constituyen una escala nominal o clasificatoria. La operación de

escalamiento consiste en partir de una clase dada y formar un conjunto de subclases que se

excluyen mutuamente. La única relación implicada es la de equivalencia, es decir los

miembros de cualquier subclase deben ser equivalentes en la propiedad medida.

Escala ordinal: Puede suceder que los objetos de una categoría de la escala no sean

precisamente diferentes a los objetos de otra categoría de la escala, sino que están

relacionados entre sí. Relaciones típicas entre clases son las que comparan alturas,

preferencia, dificultad, perturbación, madurez, etc. Tales relaciones pueden formularse con

el signo “>”, que significa mayor que. En cuanto a escalas particulares, “>” puede usarse

para designar es preferible a, es más alto que, es más difícil que, etc. Su significado

específico depende de la naturaleza de la relación que define la escala. En un grupo dado

de clases equivalentes si la relación “>” se sostiene entre algunos pares de clases, tenemos

una escala parcialmente ordenada. Si la relación “>” se sostiene en todos los pares de

clases de tal modo que surja un rango ordenado completo, tenemos una escala ordinal.

Escala de intervalo: Cuando una escala tiene todas las características de una escala

ordinal y además conocemos la distancia entre dos números cualesquiera, tenemos una

medición considerablemente más fuerte que la ordinal. En tal caso, la medición se ha

ejecutado en el sentido de una escala de intervalo. La misma está caracterizada por una

Capítulo 1

_______________________________________________________________________________________________

9

unidad de medida común y constante que asigna un número real a todos los pares de

objetos en un conjunto ordenado. La proporción de dos intervalos cualesquiera es

independiente de la unidad de medida y del punto cero.

Escala de razón: Cuando una escala tiene todas las características de una escala de

intervalo y además tiene un punto cero real en su origen, es llamada escala de proporción o

de razón. La proporción de un punto a otro cualquiera de la escala es independiente de la

unidad. Cualquier prueba estadística puede usarse cuando se ha logrado la medida de

proporción.

1.2.2 Clasificación de las variables según la escala de medición

En la Enciclopedia Wikipedia (2007) se encuentra la siguiente clasificación de las variables:

Variables cualitativas: Son las variables que expresan distintas cualidades, características

o modalidad. Cada modalidad que se presenta se denomina atributo o categoría y la

medición consiste en una clasificación de dichos atributos. Las variables cualitativas

pueden ser ordinales o nominales. Las variables cualitativas pueden ser dicotómicas

cuando sólo pueden tomar dos valores posibles: “sí y no”, o son politómicas cuando

pueden adquirir tres o más valores. Dentro de ellas podemos distinguir:

Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados

siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones

sea uniforme, por ejemplo: “leve, moderado, grave”

Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un

criterio de orden como por ejemplo: “colores”, “lugar de residencia”.

Variables cuantitativas: Son las variables que se expresan mediante cantidades

numéricas. Las variables cuantitativas además pueden ser:

Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de

valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de

valores entre los distintos valores específicos que la variable pueda asumir. Ejemplo:

“número de hijos”.

Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo

especificado de valores. Ejemplos: “peso”, “altura”. Está limitada por la precisión del

aparato medidor, en teoría permiten que siempre existe un valor entre dos cualesquiera.

Capítulo 1

_______________________________________________________________________________________________

10

1.3 La covarianza como medida de dependencia entre dos

variables aleatorias.

Para estudiar las asociaciones entre variables se puede usar el concepto de covarianza

como medida de dependencia entre variables aleatorias.

En la teoría de probabilidades se estudia una condición necesaria y suficiente para que dos

variables aleatorias sean independientes. Sean X, Y variables aleatorias con función de

densidad conjunta f(x, y) y funciones de densidades marginales f(x) y f(y). Si se cumple

f(x, y) = f(x)f(y), las variables aleatorias X y Y son independientes. Para usar este

resultado, se necesita tener las funciones de densidades marginales y conjuntas de las

variables. Sin embargo en muchos casos no se conocen dichas densidades, es por ello que

se acude a características numéricas capaces de reflejar los niveles de dependencias entre

ambas variables

Un indicador importante de dependencia entre variables aleatorias es la covarianza entre

ellas. Se define así:

C(X, Y) = E(XY) – E(X)E(Y)

Si las variables aleatorias son independientes se cumple C(X, Y) = 0, es decir:

E(XY) = E(X)E(Y)

Cuando se incrementa la diferencia entre E(XY) y E(X)E(Y), aumenta el valor de la

covarianza, indicando una mayor dependencia entre las variables X e Y.

1.4 Coeficientes de correlaciones

Una forma de explicar la dependencia entre dos variables aleatorias, eliminando las

influencias de las dimensiones en los sistemas de medidas originalmente usados, es el

coeficiente de correlación. Stanton J. (2001) explica que es Sir Francis Galton (1889),

quien tiene el mérito de ser el primero en utilizar la correlación, aunque es su discípulo

Karl Pearson (1857-1936) quien estudia con profundidad sus propiedades.

La selección de un determinado coeficiente de correlación está en dependencia de la escala

de medidas usadas, el tipo de problema a resolver y los objetivos propuestos.

Los coeficientes de correlaciones deben ser fácilmente interpretables y deben estar

acotados de manera que los factores indiquen asociación perfecta o falta de asociación.

Suelen estar normalizados tomando valores entre 0 y 1 ó entre –1 y 1, lo cual permite las

comparaciones entre muestras o poblaciones de diferentes tamaños.

Capítulo 1

_______________________________________________________________________________________________

11

Gibbons (1971), expresa que una buena medida de asociación debe tener las siguientes

propiedades:

1. En el caso de tener una concordancia perfecta, es decir, para cualquier par de

observaciones (Xi, Yi) y (Xj, Yj), se tiene Xi,< Xj si Yi,< Yj, ó Xi,> Xj si Yi,> Yj la

medida de asociación tiene el valor +1.

2. En el caso de tener una disconcordancia perfecta, es decir, para cualquier par de

observaciones (Xi, Yi) y (Xj, Yj), se tiene Xi,< Xj si Yi,> Yj, ó Xi,> Xj si Yi,< Yj la

medida de asociación tiene el valor –1.

3. Si los criterios 1 y 2 no son verdaderos para todos los pares, la medida tiene un

valor en el intervalo [–1, +1].

4. La medida de asociación es cero cuando las variables X e Y son independientes.

5. La medida para X e Y es la misma medida para Y y X, ó –X y –Y ó –Y y –X.

6. El signo de la medida de –X e Y ó –Y y X es opuesto al signo de la medida de

X e Y.

7. La medida debe ser invariante a transformaciones de X e Y para los cuales el orden

de las magnitudes sea preservado.

1.4.1 Coeficiente de correlación de Pearson

Pearson (1896), define una medida de asociación lineal entre dos variables cuantitativas

(discretas ó continuas): X e Y. El coeficiente de correlación entre las variables aleatorias

X e Y se escribe así:

)Y(V)X(V

)Y,X(Cxy

Este coeficiente cumple con la siguiente propiedad:

–1 1

Si X e Y son variables aleatorias independientes, su coeficiente de correlación es cero.

Aunque en general no es verdad que una correlación cero indique independencia, este

coeficiente es una buena medida de la asociación entre las dos variables.

Las variables del fenómeno bajo estudio tienen un coeficiente de correlación poblacional.

Ese coeficiente es generalmente desconocido. Para conocer sobre él se realizan las

observaciones del fenómeno, constituyéndose así una muestra: M. Con el conjunto de

observaciones muestrales es posible estimar el valor del coeficiente de correlación

poblacional.

Capítulo 1

_______________________________________________________________________________________________

12

1.4.2 Coeficientes asociados a una tabla de contingencias

Una medida de asociación entre variables cualitativas nominales es el estadístico

Ji cuadrado. Para su cálculo, se construye una tabla de contingencias donde las f filas se

corresponden con los niveles de la primera variable y las c columnas con los niveles de la

segunda variable.

Para una muestra de n observaciones se determina el número de observaciones de la

muestra con las categorías correspondiente a la fila i y columna j. Este valor recibe el

nombre de frecuencia observada y se representa por nij. Se determina también la frecuencia

esperada bajo el supuesto de variables independientes. Se representa por eij. Pearson (1900)

define el estadístico Ji cuadrado así:

f

1i

c

1j ij

2

ijij2

e

en (1.1)

Mientras mayor sea el valor de χ2 la asociación entre las dos variables es mayor. Cuando se

tiene χ2 = 0, las variables estudiadas son independientes.

Varios coeficientes de correlaciones asociados a las tablas de contingencias son estudiados

en epígrafes del capítulo 2: el coeficiente C de contingencias en el 2.4.1, el coeficiente

V de Cramer en el 2.4.2 y el coeficiente φ en el 2.4.3.

1.4.3 Coeficiente de correlación tetracórica.

Cuando se estudia la asociación entre dos variables cuantitativas, cada una particionada en

dos clases, se usa el coeficiente de correlación tetracórica. Se representa por rt. Las clases

de cada variable son denotadas por 0 y 1. La disposición para su cálculo se muestra en la

siguiente tabla de contingencia 2x2:

Variable Y Total

1 0

Variable X 1 a b a + b

0 c d c + d

Total a + c b + d n

El cálculo de la correlación tetracórica es obtenido por iteración a partir de una serie

infinita en rt, que viene dada (Amón, 1978) por medio de:

Capítulo 1

_______________________________________________________________________________________________

13

24

r)z3z)(z3z(

6

r)1z)(1z(

2

rzzr

yyn

cbad4

t33

3

t22

2

t

t2

donde:

a, b, c, d son las frecuencias observadas de la tabla de contingencias.

n el tamaño de la muestra.

z el valor de la distribución normal donde el área de la izquierda de z es: n

ca

mientras que el área de la derecha de z es: n

db .

z' el valor de la distribución normal donde el área de la izquierda de z es: n

dc

mientras que el área de la derecha de z es: n

ba .

Los valores de y e y' son las ordenadas de la distribución normal correspondientes a

los valores de z y z'.

El signo de rt es positivo si ad > bc, es decir si las concordancias superan a las

discrepancias, y negativo si ad < bc.

Palmer y otros (2000) señalan que existen tablas que permiten obtener el valor aproximado

de rt conocido el valor del cociente bc

ad.

1.4.4 Coeficiente biserial del punto.

Cuando se desea estudiar la asociación entre una variable cuantitativa con una variable

cualitativa nominal dicotómica, se puede usar el coeficiente biserial del punto. Palmer, A.

y otros (2000).

Se codifica la variable dicotómica así:

Sea X = 0 cuando la variable cualitativa nominal adquiere la categoría designada por A

X = 1 cuando la variable cualitativa nominal adquiere la categoría designada por B

Sea p la proporción de elementos de la muestra donde X = 0.

Sea q la proporción de elementos de la muestra donde X = 1.

El coeficiente de correlación biserial del punto se define así:

pqs

yyr

y

qp

bp

Capítulo 1

_______________________________________________________________________________________________

14

py Media aritmética de los valores de la variable Y cuando la variable X = 1.

qy Media aritmética de los valores de la variable Y cuando la variable X = 0.

sy desviación estándar de los valores de la variable Y.

1.4.5 Coeficiente de correlación muestral por ranking de Spearman.

Cuando las dos variables son cualitativas ordinales, es posible estudiar el nexo entre ellas

usando el coeficiente de correlación por ranking de Spearman. Palmer, A., y otros (2000).

Sea n el número de elementos de la muestra. A cada elemento de la muestra se le asignan

los ranking correspondientes de las variables X y Y. Sea x(1), …, x(n) los ranking de la

primera variable y y(1), …, y(n) los ranking de la segunda variable. Para cada elemento se

calcula la diferencia di = x(i) – y(i), como una indicación de la disparidad entre los dos

conjuntos de rangos en esa observación. Cuanto mayor sean las di, tanto menos perfecta es

la asociación entre las dos variables.

El cálculo del coeficiente de correlación sería afectado por el uso directo de las di: las di

negativas cancelarían las positivas cuando se trata de determinar la magnitud de la

discrepancia. Se emplea di2 en lugar de di para eliminar esta dificultad.

Mientras mayores sean los di, mayor será el valor de

n

1i

2

id .

Usando xxii x , y yyi iy la expresión general para un coeficiente de correlación

puede ser escrita:

n

1i

n

1i

2

i

2

i

n

1i

ii

yx

yx

r (1.2)

Como las variables X e Y son cualitativas, es posible usar el ranking del valor original, en

este caso X e Y toman como valores los ranking correspondientes. El coeficiente de

correlación de las medidas originales se transforma en el coeficiente de correlación por

ranking de Spearman a nivel poblacional y se escribe s.

La suma de todos los valores de la variable x(i) corresponde a la suma de los n enteros:

1,…, n es:

Capítulo 1

_______________________________________________________________________________________________

15

n

1i

)i(2

)1n(nX

La suma de los cuadrados:

6

)1n2)(1n(nX

n

1i

2

)i(

Así,

n

1i

2

)i(

2

)i(

n

1i

n

1i

2

)i()i(

2

i xnx)xx(x

12

nn

4

)1n(n

6

)1n2)(1n(n 32n

1i

2

i

x (1.3)

De forma similar

n

1i

32

i12

nny (1.4)

Haciendo ii yx -d i se obtiene:

n

1i

2

i

n

1i

2n

1i

2n

1i

d-2 iiii yxyx (1.5)

Sustituyendo (1.3), (1.4) y (1.5) en (1.2) se tiene la fórmula para el coeficiente de

correlaciones por ranking de Spearman:

n-n

d6

-1r3

n

1i

2

i

S

(1.6)

Las distribuciones muestrales del coeficiente de correlaciones por ranking de Spearman se

estudian para dos alternativas: 1) tamaño de muestra pequeño, (muestras inferiores a 100

unidades) y 2) tamaño de muestra que se incrementa indefinidamente, originando la

distribución asintótica de este coeficiente.

Por esta razón el diseño de la muestra para estudiar correlaciones por ranking de Spearman

debe ajustarse a las variantes anteriores.

Palmer, A., Jiménez, R. y Montaño, J. J (2001) usan la distribución muestral asintótica del

coeficiente de correlación de Spearman:

1n

1;N~Vr s

n

Ls

Capítulo 1

_______________________________________________________________________________________________

16

Es decir, el intervalo de confianza 1– α para el coeficiente de correlación de Spearman es:

1n

1zr

1n

1zr qssqs

1.4.6 Coeficiente de correlación muestral por ranking de Kendall.

Cuando de las dos variables, al menos una es cualitativa ordinal, se puede usar el

coeficiente de correlación de ranking de Kendall, designado por rk. Es una medida de

correlación conveniente para datos que se puedan ordenar. Palmer, A., y otros (2000).

En cada una de las variables se sustituye cada valor por sus respectivos rankings. Los

rankings de la primera variable X se colocan en su orden natural:

x(1) = 1, x(2) = 2,…, x(n) = n .

A cada x(i) de la secuencia anterior se le asocia el ranking de la otra variable en esa unidad

poblacional. Sea y[i] el ranking de Y, cuando X alcanza el ranking i.

X x(1) = 1 x(2) = 2 x(i) = i x(n) = n

Y y[1] y[2] y[i] y[n]

Para h > i, sea αh la cantidad de rangos y(h) que cumplen la propiedad: y(h) > y(i), es decir

la cantidad de concordancias en cuanto al ranking.

Sea γh la cantidad de rangos y(h) donde para h > i se tiene y(h) < y(i), es decir, la cantidad de

discrepancias entre ranking de ambas variables.

La cantidad total de pares de unidades poblacionales a comparar es el número de

variaciones sin repetición de los n elementos de la muestra.

2

)1-n(n

2)!-(n

!nV

)2,n(

Se define Ф de la forma siguiente:

)-( hh

1n

1h

(αh – γh) es la diferencia ente concordancias y discrepancias en cuanto a los ranking,

cuando se compara el h-ésimo ranking de Y. La suma de esas diferencias tiene la siguiente

Capítulo 1

_______________________________________________________________________________________________

17

propiedad, si la suma es igual a las V(n -2), eso quiere decir que no hubo discrepancias entre

los ranking de X y de Y, por lo tanto la concordancia es perfecta, por ello las variables

X e Y están correlacionadas de forma perfecta.

Si las discrepancias son ciertas en su totalidad, Ф toma el valor -V(n-2),. En base a estas

consideraciones se define el coeficiente de correlación por rangos de Kendall:

1)-n(n

2

1

)γ-(α

r

1-n

1hhh

k

(1. 7)

rk asume valores en el intervalo [-1, +1]. Cuando las variables X e Y no están

correlacionadas, el coeficiente de correlación por ranking de Kendall rk toma el valor cero.

1.4.7 Coeficiente G Gamma de Goodman- Kruskal

Nagpaul P. S. (2001), expresa que cuando los valores de las dos variables se pueden

ordenar según sus rankings, el posible nexo entre dichas variables debe ser estudiado

usando el coeficiente G Gamma de Goodman Kruskal.

En este caso los n elementos de la muestra son ordenados de la misma manera que en el

coeficiente de correlación de Kendall.

Sea α el número de pares concordantes

γ el número de pares discordantes.

El coeficiente de correlación gamma G de Goodman-Kruskal se define de la siguiente

manera:

G

Cuando las variables X e Y son independientes, el número de pares concordantes es igual

al número de pares discordantes, el coeficiente gamma toma el valor cero.

Si todos los pares son concordantes, la relación entre X e Y es directa y perfecta. En este

caso el coeficiente gamma toma el valor +1.

Cuando todos los pares son discordantes, la relación entre X e Y es inversa y perfecta. En

este caso el coeficiente gamma tiene el valor -1.

El coeficiente gamma se diferencia del coeficiente de Kendall en el sentido que no

considera los pares donde los rankings están empatados.

18

Capítulo 2: Tablas y coeficientes de contingencias

2.1 Probabilidades de contingencias

La población Π, objeto de estudio, está compuesta por N elementos. En esta población se

investiga la posible asociación entre dos variables cualitativas X e Y. Para ello se necesita

estudiar un coeficiente de correlación que cumpla con las propiedades definidas en el

Capítulo 1. Uno de esos coeficientes es el de contingencias.

El coeficiente de contingencias es calculado desde una tabla de contingencias. En esta tabla

las f filas representan las f categorías de la primera variable X: A1, A2,…, Ai,..., Af y las c

columnas representan las c categorías: B1, B2,..., Bj,..., Bc de la segunda variable Y.

Las f c celdas de la tabla de contingencias contienen las frecuencias de elementos de Π

que tienen las categorías correspondientes a cada celda. En cada celda (i, j) existen Nij

elementos poblacionales, son aquellos donde X alcanza la categoría Ai mientras que Y

alcanza la categoría Bj.

Y

X

B1 B2 … Bj … Bc

A1 N11 N12 … N1j … N1c N1

A2 N21 N22 N2j … N2c N2

Ai Ni1 Ni2 … Nij … Nic Ni

Af Nf1 Nf2 … Nfj … Nfc Nf

N.1 N.2 … Nj … N.c N Tabla 2.1 Tabla de contingencias poblacionales.

Se pueden observar las siguientes relaciones:

c

1j

iji NN

donde Ni· es el número de elementos de la población con la categoría Ai.

f

1i

ijj NN

donde N·j es el número de elementos de la población con la categoría Bj. Además,

Capítulo 2

______________________________________________________________________________________________

19

f

1i

c

1j

ijNN

En la tabla de contingencias anterior se pueden definir las probabilidades asociadas a cada

una de las celdas. Se trata de la probabilidad que tiene un elemento poblacional de

pertenecer a una celda particular. Esta probabilidad para la celda (i, j) está dada por

N

Np

ij

ij (2.1)

Sea pi la probabilidad de que un elemento de la población tenga la categoría Ai y pj la

probabilidad de tener la categoría Bj. Es decir,

N

Np i

i

y N

Np

j

j

(2.2)

La tabla anterior, en función de las probabilidades de contingencias se puede escribir:

Y

X

B1 B2 … Bj … Bc

A1 p11 p12 … p1j … p1c p1

A2 p21 p22 p2j … p2c p2

Ai pi1 pi2 … pij … pic pi

Af pf1 pf2 … pfj … Pfc pf

p1 p2 … pj … pc 1 Tabla 2.2 Tabla de probabilidades de contingencias.

2.1.1 Estimación de probabilidades de contingencias

Una muestra simple aleatoria de tamaño n fijo se clasifica de acuerdo con las categorías de

dos variables aleatorias cualitativas. La distribución a priori de las frecuencias observadas

por casillas usadas en este tipo de muestreo tiene distribución multinomial, la cual es

determinada por el tamaño de la muestra n y las fc probabilidades pij

Sea vij la variable aleatoria cuyos valores es la cantidad de observaciones obtenidas con

categorías Ai y Bj, El valor obtenido se llama frecuencia observada y se escribe nij. Las

probabilidades de ocurrencias de una tabla de contingencias es:

Capítulo 2

______________________________________________________________________________________________

20

fcn

1i

1c

fjijfj

nfj

ijn

ij

1f

1j

c

1j

1c

1j

1f

1i

c

1jf

1i

c

1j

ij

fcfcijij1111

pp1pp

!n

!n

nv,..,nv,..,nvP

por ser pfc=

1f

1i

1c

1j

fj

c

1j

ij pp1

Se estima a continuación la probabilidad del evento que consiste en que una observación

caiga en una determinada celda (i, j) en el esquema multinomial.

Para la muestra aleatoria simple se tiene la función de verosimilitud:

fcfc)1c(f)1c(fijij1111ij nv,nv,..,nv,..,nvP)p(L

fc

fj

n1f

1i

1c

1j

fj

c

1j

ij

1c

1j

n

fj

1f

1i

c

1j

n

ijf

1i

c

1j

ij

ij pp1pp

!n

!n)p(L ij

Aplicando logaritmo natural:

1f

1i

1c

1j

fj

c

1j

ijfc

1f

1i

c

1j

fjfj

1f

1i

c

1j

ijij

f

1i

c

1jf

1i

c

1j

ij

ij

pp1lognplogn

plogn

!n

!nlog)p(Llog

Derivando respecto al parámetro pij se tiene:

fc

fc

ij

ij

ij

ij

p

1n0

p

1n0

p

)p(Llog

(2.3)

Igualando a cero, condición de extremo, (2.3) se transforma en:

0p

n

p

n

fc

fc

ij

ij

Equivalente a

Capítulo 2

______________________________________________________________________________________________

21

ijfcfcij pnpn

Sumando todos los i y j

f

1i

c

1j

ijfc

f

1i

c

1j

ijfc pnnp

pero:

1pynnf

1i

c

1j

ij

f

1i

c

1j

ij

por tanto el estimador de máxima verosimilitud para la probabilidad pfc es:

n

np̂ fc

fc

De forma análoga se puede hacer con cada uno de los f c parámetros pij. O sea el posible

estimador de máxima verosimilitud para la probabilidad pij es:

n

np̂

ij

ij

La segunda derivada de (2.3) respecto al parámetro pij es:

0p

1n

2

ij

ij

Por lo tanto el estimador n

np̂

ij

ij es de máxima verosimilitud.

Si el conjunto (v11, v12,…,vij,…,vfc) tiene distribución multinomial, entonces cada vij es una

variable aleatoria con distribución binomial:

ijij n-n

ij

n

ij

ijij

ijij )p-(1p)!n-(n!n

n!)nP(v (2.4)

Su valor esperado es:

E (vij) = n pij (2.5)

Su varianza es:

V (vij) = n pij (1 - pij). (2.6)

Capítulo 2

______________________________________________________________________________________________

22

2.1.2 Determinación del tamaño de la muestra para estimar probabilidades

de contingencias de una población por medio de la cota superior del error

de muestreo.

En una población finita las probabilidades de contingencias son:N

Np

ij

ij Un aspecto a

resolver, es estimar pij desde la muestra M. La variable aleatoria vij tiene distribución

binomial, por lo tanto en este caso

N

Nn)E(v

ij

ij (2.7)

N

N1

N

Nn)V(v

ijij

ij (2.8)

El estimador de máxima verosimilitud calculado para pij es:

n

np̂

ij

ij

En cada casilla (i-j), usando el teorema central del límite se tiene:

N

N1

N

N

n

1;

N

NNormal~V

n

n ijijij

n

Lij

La variable aleatoria límite de

N

N

n

n ijij es escrita por W. Se cumple:

2

ijij

n

Lijij

N

)NN(N

n

1;0Normal~W

N

N

n

n

La diferencia

N

N

n

n ijijes llamada error de muestreo. En base a su distribución

asintótica Normal, cuando se incrementa el tamaño de la muestra existen los valores

-zq y zq tales que:

P {-zq <

N

N1

N

N

n

1

N

N-

n

n

ijij

ijij

< zq}= γ (2.9)

Capítulo 2

______________________________________________________________________________________________

23

Aquí γ = 1 – α, es la probabilidad de confianza asociada al intervalo (-zq, zq ). El valor de

q es el área a la izquierda de -zq, el valor de esa área, es la mitad del complemento de γ, es

decir 2

.

La diferencia entre la probabilidad de contingencia muestral y la probabilidad de

contingencia poblacional se llama error de muestreo.

Sea Δ la cota superior de ese error de muestreo. Estandarizando la variable W se tiene con

una probabilidad de confianza γ:

N

N1

N

N

n

1z

ijijq

Elevando al cuadrado:

N

N1

N

N

n

1z

ijij2q

2

La fórmula para determinar el tamaño de muestra necesario para estimar pij por un

intervalo de confianza 1 – α es:

N

NN

N

Nzn

ijij

2

2q

(2.10)

En esta fórmula del tamaño de muestra para pij, existe la dificultad de que los valores Nij

son desconocidos, por lo que se requieren adoptar variantes para su cálculo.

Se exponen dos variantes:

1. Por medio de la acotación del producto de probabilidades binomiales.

2. Por medio de un muestreo secuencial.

1) Por medio de la acotación del producto de probabilidades binomiales.

El máximo valor posible del producto de las probabilidades de la distribución Binomial es

0.25. Es decir:

25,0N

N1

N

N ijij

Sustituyendo en (2.10) se tiene el tamaño de muestra:

2

2q

4

zn

(2.11)

Capítulo 2

______________________________________________________________________________________________

24

2) Por medio de un muestreo secuencial.

Este método comienza con una premuestra M0, formada por un número arbitrario de

observaciones que se denota por n0. Para la premuestra M0, se hace el análisis

correspondiente obteniéndose una primera tabla de contingencias donde se pueden estimar

las probabilidades N

N ijpor medio de los cocientes

0

ij

n

n.

Para determinar el tamaño de muestra que garantice un error de muestreo menor que la

cota Δ se debe usar la celda (i, j) donde 0

ij

n

nalcance su mayor valor. En ese caso se escribe:

0

*

ij

0

ij

n

n

n

nmax

Sustituyendo en (2.10):

0

*

ij

0

*

ij

2

2

q

1n

n1

n

nzn (2.12)

Se adicionan nuevas observaciones a la premuestra M0 hasta alcanzar el tamaño n1. La

muestra ampliada se denota por M1 y está compuesta por un número total de n1

observaciones. Para la muestra M1 se realiza el estudio con los elementos muestrales

adicionados. En base a ellos se realiza el cálculo de n2 por medio de:

1

1*

ij

1

1*

ij

2

2

q

2n

n1

n

nzn (2.13)

De forma general, en el paso h se tiene la muestra Mh-1. Se selecciona la mayor frecuencia

observada 1h*

ijn .

Con este valor se calcula el tamaño de muestra del paso siguiente:

1

1*h

ij

1

1*h

ij

2

2

q

hn

n1

n

n

Δ

zn (2.14)

Este procedimiento debe continuarse hasta obtener nh+1 ≤ nh, es decir, hasta que el nuevo

tamaño de muestra tenga un valor menor o similar al tamaño de la muestra anterior.

Capítulo 2

______________________________________________________________________________________________

25

2.1.3 Aplicaciones de las probabilidades de contingencias.

Ejemplo 2.1.3 Sobre el uso de las probabilidades de contingencias.

Con la base de datos del proyecto Mercury de la UFMT (1997), se seleccionan las

variables:

X: Poblado de residencia.

Y: Niveles de contaminación de Mercurio en cabello.

Se desea estimar en cada una de las poblaciones de la bajada cuiabana, al sur de Barão de

Melgaço la probabilidad de contaminación por Mercurio que tienen sus pobladores.

Las seis poblaciones estudiadas son:

Barra de Arica

Piuva y Rancheria

Estirom Cumplido

Puerto Brandom

Cuiaba Mirim

Boca de Conchas

Para obtener las tablas con las probabilidades de incidencias en cada uno de los poblados,

se usa una probabilidad de confianza 0.95 y una cota superior del error de muestreo igual a

0.10 con las cuales se pueden determinan los tamaños de muestras necesarios del

procedimiento secuencial.

Para este propósito, el punto de partida es una muestra inicial M0, cuyo tamaño es fijado en

n0 = 30.

A las 30 personas seleccionadas para M0, se les toma una pequeña muestra de cabellos, los

que son analizados en los laboratorios de la UFMT. El análisis proporciona los valores de

ppm de Hg contenidos en ellos. De acuerdo a los valores alcanzados, las personas se

clasifican así:

no contaminada

normal bajo exposición

contaminada

Los resultados obtenidos aparecen en la tabla 2.3.

Para obtener el tamaño de la muestra M1, se mantiene la misma probabilidad de confianza

y cota superior de error de muestreo y sustituyendo en la fórmula (2.12) por la mayor

probabilidad de contingencia se obtiene el valor n1 = 62.

Capítulo 2

______________________________________________________________________________________________

26

Niveles de Hg Total

Poblados: No

contaminado

Bajo la

norma Contaminado

BARRA DE ARICA

personas 1 3 0 4

Probabilidad ,033 ,100 ,000 ,133

PIUVA + RANCHERIA

Personas 0 1 0 1

Probabilidad ,000 ,033 ,000 ,033

ESTIROM CUMPRIDO

Personas 1 6 0 7

Probabilidad ,033 ,200 ,000 ,233

PUERTO BRANDOM

Personas 4 5 2 11

Probabilidad ,133 ,167 ,067 ,367

CUIABA MIRIM Personas 0 6 1 7

Probabilidad ,000 ,200 ,033 ,233

BOCA DE CONCHAS

Personas 0 0 0 0

Probabilidad ,000 ,000 ,000 ,000

Total Personas 6 21 3 30

Probabilidad ,200 ,700 ,100 1,000

Tabla 2.3 Resultados de M0

Para formar la muestra M1, a las 30 personas de la muestra M0, se le adicionan 32 nuevos

individuos, con ellos se completa el tamaño calculado de 62 personas.

Los cálculos correspondientes a la muestra M1 aparecen en la tabla 2.4.

Niveles de Hg Total

Poblados: No

contaminado

Bajo la

norma Contaminado

BARRA DE ARICA

personas 1 6 2 9

Probabilidad ,016 ,097 ,032 ,145

PIUVA + RANCHERIA

Personas 1 3 1 5

Probabilidad ,016 ,048 ,016 ,081

ESTIROM CUMPRIDO

Personas 2 12 1 15

Probabilidad ,032 ,194 ,016 ,242

PUERTO BRANDOM

Personas 6 10 3 19

Probabilidad ,097 ,161 ,048 ,306

CUIABA MIRIM Personas 1 10 1 12

Probabilidad ,016 ,161 ,016 ,194

BOCA DE CONCHAS

Personas 0 0 2 2

Probabilidad ,000 ,000 ,032 ,032

Total Personas 11 41 10 62

Probabilidad ,177 ,661 ,161 1,000

Tabla 2.4 Resultados de M1

Con la misma probabilidad de confianza y cota superior de error de muestreo y

sustituyendo en la fórmula (2.13) por la mayor probabilidad de contingencia se obtiene el

valor n2 = 61. Como n2 < n1 se detiene el proceso. Por lo tanto M1 se convierte en la

muestra recomendada para la determinación de las probabilidades de contingencias.

Capítulo 2

______________________________________________________________________________________________

27

En base a las estimaciones de probabilidades realizadas en M1, la población con mayor

probabilidad, respecto al total, de tener personas contaminadas es Puerto Brandom con un

valor de 0.048.

2.2 Dócima de hipótesis sobre la independencia de variables en

una tabla de contingencias.

Un importante uso de las tablas de contingencias es cuando se desea conocer si las

variables X e Y son independientes. Es decir, conocer si el evento de que un individuo

tiene una categoría Ai no afecta la probabilidad de que ese individuo tenga la categoría Bj

en la variable Y. En lenguaje de teoría de probabilidades:

P(Bj|Ai) = P(Bj) y P(Ai|Bj) = P(Ai)

Equivale a P(Ai ∙ Bj) = P(Ai) ∙ P(Bj). Cuando la probabilidad de la ocurrencia conjunta de

eventos es igual al producto de las probabilidades de cada uno de ellos, los eventos son

independientes.

En una tabla de contingencias las variables X e Y son independientes si todas las

probabilidades de contingencias son iguales al producto de sus respectivas probabilidades

marginales.

Las probabilidades marginales para las f categorías Ai de la variable X se escriben:

P(Ai) = pi (i = 1,...,f).

De forma análoga las probabilidades marginales para las c categorías de la variable Y se

escriben:

P(Bj) = pj (j = 1,...,c).

La dócima de hipótesis sobre la posible independencia de las variables X e Y tiene como

hipótesis nula:

H0: pij = pi pj (i, j)

Equivalente a la proposición: Las variables X e Y son independientes.

Frente a esta hipótesis se plantea la hipótesis alternativa:

H1: pij ≠ pi pj (i, j)

Cuando ocurre la hipótesis nula H0: pij = pi pj, (i, j), las variables X e Y son

independientes, en cambio si tiene lugar la hipótesis alternativa H1: pij ≠ pi pj para algún

(i, j), existe entonces alguna interacción entre las variables.

Capítulo 2

______________________________________________________________________________________________

28

Cuando se realiza un muestreo aleatorio simple de tamaño n, la distribución conjunta de

(v11, v12,…,vij,…,vfc) tiene dimensión fc-1 teniendo función de verosimilitud:

fc

fjij

n1f

1i

1c

1j

fj

c

1j

ij

1c

1j

n

fj

1f

1i

c

1j

n

ijf

1i

c

1j

ij

fcfcijij1111

pp1pp

!n

n!

nv,..,nv,..,nvP

El espacio paramétrico Ω de esta verosimilitud tiene dimensión fc - 1 alcanzando su

máximo cuando n

np̂

ij

ij .

Para el espacio restringido , donde la hipótesis de independencia es cierta, se tiene la

función de verosimilitud:

c

1j

n

j

f

1i

n

if

1i

c

1j

ij

fcfcijij1111ji pp

!n

!nnv,..,nv,..,nvP

El máximo de esta función de verosimilitud se tiene para n

np̂ i

i

y n

np̂

j

j

, donde

c

1j

iji nn ,

f

1i

ijj nn .

Sea λ la razón de verosimilitud generalizada para esta dócima de hipótesis:

Lmax

Lmaxλ

Ω

Θ

Sustituyendo en las respectivas funciones de verosimilitudes y simplificando queda la

razón de verosimilitud generalizada:

f

1i

c

1j

n

ij

f

1i

f

1i

n

j

n

i

ij

ji

n

n

n

n

n

n

λ

Si la hipótesis nula sobre la independencia entre las variables es cierta, la distribución

límite de -2logλ es una distribución Ji cuadrado con (f-1)(c-1) grados de libertad. Sea:

Capítulo 2

______________________________________________________________________________________________

29

f

1i

c

1j ji

2

ji

ij

2

n

nn

n

nnn

.

Cuando H0: pij = pi pj (i, j) es cierta entonces los dos estadísticos: -2logλ y χ2

convergen a la misma ley de distribución: Ji cuadrado con (f-1)(c-1) grados de libertad.

La cantidad n

nne

ji

ij

equivale a la frecuencia esperada de la celda (i, j) en el caso de

tener variables aleatorias independientes. Por esta razón es válida la fórmula (1.1):

f

1i

c

1j ij

2

ijij2

e

enχ

En la medida que aumenta el valor del estadístico χ2 la asociación de las variables se hace

mayor.

Si 2

α1

2 χχ se rechaza la hipótesis inicial sobre la independencia de las variables

aleatorias. Caso contrario, no se rechaza la posible independencia entre estas variables.

Una corrección para continuidad debida a Yates es usada en determinadas situaciones. Se

trata que el estadístico χ2 construido desde variables aleatorias con distribuciones discretas

tenga distribución límite Ji cuadrado que es continua. Frank Yates (1934) sugiere una

corrección para continuidad la cual ajusta la dócima Ji cuadrado de Pearson sustrayendo

0.5 desde la diferencia en módulo existente entre frecuencia observada y frecuencia

esperada para tablas de contingencias 22. Esta corrección es conveniente para cuando se

tienen células con frecuencias esperadas menor que 5. Su expresión es:

f

1i

c

1j ij

2

ijij

2

Ye

2

1en

El estadístico 2

Y tiene distribución límite Ji cuadrado con (f–1) × (c–1) grados de libertad.

Por esta razón la región crítica para esta dócima es similar, es decir, si 2

1

2

Y se

rechaza la independencia de las variables aleatorias. Caso contrario, no se rechaza esa

posible independencia de estas variables.

Otro estadístico asintóticamente con la misma distribución que el estadístico Ji cuadrado es

el estadístico: razón de verosimilitud (Fisher, 1924, Neyman y Pearson, 1928).

El estadístico razón de verosimilitud se denota por ̂ y se define:

Capítulo 2

______________________________________________________________________________________________

30

f

1i

c

1j ij

ij

ije

nlogn2ˆ

El intervalo de posibles valores de ̂ es: 0 ≤ ̂ < +∞.

Una advertencia: El estadístico ̂ no puede ser usado si una de las frecuencias esperadas

en la tabla de contingencia es cero.

2.2.1 Procedimiento para la dócima de hipótesis sobre independencia de

variables por medio de una tabla de contingencias.

1. Determinar las dos variables cuya posible dependencia se desea encontrar.

2. Plantear la hipótesis inicial de independencia entre las variables.

3. Plantear la hipótesis alternativa de asociación entre esas variables.

4. Fijar la probabilidad de rechazar la hipótesis inicial cuando esta es cierta. Se

representa por α y se le llama probabilidad de cometer un error de tipo I o también

nivel de significación.

5. Asociar una variable a las filas de la tabla de contingencias y la otra a sus

columnas.

6. Definir los niveles de cada una de las variables.

7. Por medio de una muestra de tamaño n, calcular las frecuencias correspondiente a

la combinación de los niveles de las dos variables en cada celda de la tabla de

contingencias. Estas frecuencias se denominan frecuencias observadas y se escriben

como nij.

8. Calcular las frecuencias esperadas de cada una de las celdas por medio del producto

de las frecuencias marginales correspondientes a cada variable dividido por el

tamaño de la muestra.

9. Calcular el valor del estadístico Ji cuadrado 2

m

10. Para el α utilizado, determinar en la distribución Ji cuadrado con (f-1)(c-1) grados

de libertad el valor 2

1 cuya probabilidad de ser superado es α.

11. Realizar la decisión entre la hipótesis inicial y la hipótesis alternativa.

Si 22

α1m χχ se rechaza la hipótesis inicial, es decir, se admite la

asociación entre las variables estudiadas.

Capítulo 2

______________________________________________________________________________________________

31

Si 22

α1m χχ no se rechaza la hipótesis inicial, es decir, se admite la

independencia entre las variables estudiadas.

2.2.2 Aplicaciones de la dócima para determinar dependencias entre

variables aleatorias.

En la dócima sobre independencia entre las variables se deben tener presentes un conjunto

de circunstancias: una de las principales se refiere al número de categorías a usar. No debe

ser tan pequeño que no se pueda estudiar la posible asociación entre las variables ni tan

grande que incremente de forma desproporcionada el número de celdas, en este caso

disminuye tanto la frecuencia absoluta observada como la frecuencia absoluta esperada,

distorsionando los estadísticos utilizados.

Ejemplo 2.2.2 Sobre la dócima de independencia entre variables.

Se desea conocer si en personas hipertensas existe asociación o no entre los antecedentes

de Accidente Cardiovascular y el nivel de Stress. Siguiendo el procedimiento explicado se

desarrollan los siguientes pasos:

1. Las dos variables cuya posible asociación se desea docimar son:

X: Antecedentes de accidente cardiovascular.

Y: Stress.

2. Se plantea la hipótesis inicial equivalente a la afirmación de que ambas variables

son independientes.

3. Se escribe la hipótesis alternativa: Los antecedentes de ACV están asociados a los

niveles de Stress.

4. La probabilidad de rechazar la hipótesis inicial cuando ella es cierta se fija en 0.05.

5. Para realizar esta dócima se asocia la variable ACV a las filas y los niveles de

Stress a las columnas.

6. Los niveles de la primera variables ACV son:

“no” para los hipertensos sin antecedentes cardiovasculares.

“si” para los hipertensos con antecedentes de accidentes cardiovasculares.

En la segunda variable se estudia el nivel de Stress por medio de pruebas que

califican a los hipertensos en Stress Bajo, Stress Medio ó en Stress alto.

7. Se seleccionan 30 casos de hipertensos con accidentes cardiovasculares y otros 30

casos de hipertensos sin accidentes de este tipo. En cada uno por medio de su

Capítulo 2

______________________________________________________________________________________________

32

historia clínica y las pruebas correspondientes se construye la tabla de

contingencias de frecuencias observadas

Antecedentes de ACV vs Stress

Stress Total

Bajo Medio Alto

Antecedentes

de ACV

No 18 10 2 30

Si 5 9 16 30

Total 23 19 18 60

8. Por medio de las frecuencias marginales se calculan las frecuencias esperadas bajo

la hipótesis inicial.

9. El estadístico Ji cuadrado calculado desde las frecuencias observadas y esperadas

de la tabla de contingencias proporciona el valor 2

m = 18,289.

10. Para α = 0.05 y grados de libertad 2, se tiene 991.52

95.

11. Como 22

95.m se rechaza la hipótesis inicial, es decir, existe asociación entre los

antecedentes de accidentes cardiovasculares y los niveles de stress.

2.3 Análisis de los residuos en una tabla de contingencias.

Después de rechazar la hipótesis inicial H0 de variables aleatorias independientes, en una

dócima de hipótesis sobre asociación de variables en una tabla de contingencias, resulta

conveniente realizar un análisis de todos los residuos.

El análisis de los residuos consiste en examinar las discrepancias entre frecuencias

observadas y frecuencias esperadas en cada uno de los términos que forman el estadístico

χ2. Es decir, el análisis de residuos permite detectar la combinación de los niveles de los

factores que pueden ser causantes de tal asociación. Los términos del estadístico χ2 tienen

la forma:

ij

2

ijij

e

)e-n(

nij son los valores de la variable aleatoria vij con distribución binomial, siendo n el número

de pruebas y pij la probabilidad de la ocurrencia del evento.

En cada una de las celdas de la tabla de contingencias se tiene una frecuencia esperada eij

la cual se corresponde con el valor esperado de esa distribución, es decir, eij = npij.

Los residuos estandarizados se definen así:

Capítulo 2

______________________________________________________________________________________________

33

ij

ijij

ije

)e-n(

El vínculo entre el estadístico χ2 y los residuos estandarizados es:

f

1i

c

1j

2

ij

2 εχ

Se tiene:

0)npnp(np

1)(E ijij

ij

ij

ijijij

ij

ij p1)p1(npnp

1)(V

Sea qij = 1-pij la probabilidad del evento: la n-ésima observación NO pertenece a la celda

(i, j). En este caso:

ijij q)(V

La probabilidad de no pertenecer a la celda (i, j) se representa por qij, la probabilidad de no

pertenecer a la fila i por qi y la probabilidad de no pertenecer a la columna j por qj.

Los estimadores de máxima verosimilitud para qij, qi y qj y son:

n

n1p̂1q̂

ij

ijij

n

n1p̂1q̂ i

ii

n

n1p̂1q̂

j

jj

Bajo el supuesto de independencia, o sea, si la hipótesis nula es cierta, se tiene entonces:

jiij qqq

es decir, la probabilidad de no pertenecer a la celda (i, j) es igual al producto de las

probabilidades de no pertenecer ni a la fila i ni a la columna j.

Por esta razón la estimación de V(εij) es:

n

n1

n

n1V̂

jiij

Como consecuencia se definen los “residuos ajustados”:

Capítulo 2

______________________________________________________________________________________________

34

ij

ij

ij

V̂

)ε(d

Usando el teorema central del límite, cuando se incrementa el tamaño de la muestra se

tiene la convergencia en ley de las dij a una distribución normal estándar (0, 1), es decir,

dij N (0; 1)

Con una probabilidad 1 – α se pueden encontrar los valores –zq y zq tales que

1)zdz-P( qijq

De esta forma, los términos del estadístico χ2 tales que qij zd pueden ser los

responsables de la asociación entre las variables aleatorias X e Y.

2.3.1 Tamaño de muestra para el análisis de residuos cuando se usan los

“residuos ajustados” de todas las celdas.

La suma de todos los “residuos ajustados” dij converge también en ley a la distribución

normal, la esperanza matemática de esta suma sigue siendo cero, pero su varianza es fc.

En el caso de los promedios de los “residuos ajustados” se tiene:

n

fc,0N

fc

d

dL

f

1i

c

1j

ij

De forma estándar:

)1,0(N

n

fc

d L

Por lo tanto:

α1)z

n

fc

dz-P( qq

Si n

fczd q , el promedio de los “residuos ajustados” son significativamente diferentes

de cero.

Fijando una cota para el promedio de los “residuos ajustados” se puede determinar un

tamaño de muestra con la confianza de que estos “residuos ajustados” sean bien estimados:

Capítulo 2

______________________________________________________________________________________________

35

n

fczΔ q

Por lo tanto:

2

2

q

Δ

cfzn

(2.15)

Observación: Mientras más aumenten las categorías de las variables X e Y mayor será el

tamaño de muestra requerido.

2.3.2 Aplicación del análisis de residuos

Ejemplo 2.3.2 Sobre el uso del análisis de residuos.

En el Plano director participativo de la ciudad de Tabatinga, interior del estado de

Amazonas, Brasil, se desarrolla una investigación para diagnosticar los principales

problemas de esa ciudad. Entre otras variables, se desea conocer si existe asociación entre

el estar enfermo o no con el tipo de agua usada en sus casas: acueducto o pozo.

La probabilidad de confianza es fijada en 0.95 y el límite superior para el promedio de los

“residuos ajustados” sin significación se fija en 0.1

Sustituyendo en la fórmula (2.15) y redondeando el resultado obtenido a un múltiplo de 10

se tiene n = 1540.

La muestra es constituida por 1540 personas. Ellas son visitadas y después de ser

entrevistadas, se tiene la siguiente tabla de frecuencias observadas:

Tipo de agua Total

Acueducto Pozo artesano

Estar enfermo

ó no

no 856 614 1470

sí 25 45 70

Total 881 659 1540

Se formulan la hipótesis inicial y alternativa:

H0: El tipo de agua es independiente de enfermarse o no.

H1: El tipo de agua es un factor de riesgo para estar enfermo o no.

Capítulo 2

______________________________________________________________________________________________

36

Se usa el procedimiento tabla de contingencias para docimar las hipótesis. Los resultados

del análisis de contingencias se muestran en las tablas 2.5 y 2.6.

Tipo de agua: Totales Acueducto Pozo artesano

Estar enfermo:

no

Frecuencias observadas 856 614 1470

Frecuencias esperadas 841 629 1470

Residuales 15 -15

Residuales estandarizados .5 -.6

Residuales ajustados 3.7 -3.7

sí

Frecuencias observadas 25 45 70


Residuales -15 15

Residuales estandarizados -2.4 2.7

Residuales ajustados -3.7 3.7

Totales Frecuencias marginales 881 659 1540


Tabla 2.5 Tabla de contingencia del ejemplo 2.3.2

Valores

grados de libertad

Significación asintótica bilateral.

Estadístico Ji cuadrado

13.839(b) 1 .000

Corrección de Continuidad

12.934 1 .000

Razón de Verosimilitud

13.702 1 .000

Número de casos validos

1540

Tabla 2.6 Resultados del ejemplo 2.3.2

Por medio del estadístico Ji cuadrado se obtiene una asociación significativa entre las dos

variables. Esta significación es ratificada con la corrección de continuidad y la razón de

verosimilitud.

Haciendo el análisis de los residuos en cada una de las celdas de la tabla de contingencias

se observa significación en los cuatro residuales ajustados, por lo tanto, todos los residuos

son significativos.

Por lo tanto el tipo de agua: Acueducto o Pozo artesano influye en el hecho de estar

enfermo o no.

Capítulo 2

______________________________________________________________________________________________

37

2.4 Coeficientes de correlaciones asociados a las tablas de

contingencias.

Cuando es rechazada la hipótesis inicial sobre la independencia de las variables estudiadas

surgen las preguntas: ¿Cuál es la intensidad de la asociación entre esas variables? ¿Cuál es

la dirección en que se produce la asociación?

Son varios los coeficientes de correlaciones usados para estos fines. Entre ellos se pueden

citar los coeficientes: contingencia, V de Cramer y phi.

2.4.1 Coeficiente de contingencia

Se define el coeficiente de contingencia por medio del estadístico χ2. Es usado para medir

el grado de asociación entre dos variables X e Y. Se define así:

2

2

nC

Si las dos variables X e Y son completamente independientes, los valores de C y χ2 son

iguales a cero. Cuando se incrementa el valor de C está implicado un aumento del grado de

asociación entre ambas variables. En la fórmula (1.1) se observa como el coeficiente de

contingencia es menor estricto que uno para cualquier n.

Una desventaja del coeficiente de contingencia es la imposibilidad de alcanzar

exactamente el valor uno. El valor máximo de C es:

u

1uCmax

, donde u = min (f, c)

El valor máximo que puede alcanzar el coeficiente de contingencia depende del número de

categorías de las variables estudiadas. En el caso de una tabla 22 el máximo valor de

C es 0.7071, en cambio para una tabla 33 es 0.8165. Esto origina otra desventaja, dos

coeficientes de contingencias no son comparables, a menos que ellos sean calculados de

tablas de contingencias del mismo tamaño.

En el ejemplo 2.3.2 el coeficiente de contingencia C = .048 con probabilidad de

significación 0.007. Es interesante observar lo siguiente: Aunque el valor del coeficiente es

pequeño, sin embargo es significativamente diferente de cero, lo cual ratifica la no

independencia entre las variables.

Capítulo 2

______________________________________________________________________________________________

38

2.4.2 Coeficiente V de Cramer

Un coeficiente dependiente del estadístico χ2 de uso frecuente es el coeficiente V de

Cramer. Se define de la siguiente forma:

gnV

2

, donde g = min (f-1, c-1)

V alcanza valores entre 0 y 1.

Cero: cuando el estadístico χ2 es cero, es decir, cuando todas las frecuencias

observadas son iguales a todas las frecuencias esperadas. Significa que las variables

estudiadas son independientes.

Uno: cuando las dos variables tienen iguales marginales.

Una ventaja de este coeficiente consiste en la posibilidad de calcular su distribución

muestral y así poder determinar su error típico de estimación.

En el ejemplo 2.3.2 el coeficiente V de Cramer tiene el siguiente valor V = .048 con

probabilidad de significación 0.007. Se observa la coincidencia entre la contingencia y el

coeficiente V de Cramer en este ejemplo.

2.4.3 Coeficiente φ (phi)

Una importante medida basada en el estadístico Ji cuadrado es el coeficiente φ (phi). El

estadístico Ji cuadrado depende del tamaño de la muestra y el nivel de asociación existente

entre las variables estudiadas. El coeficiente φ elimina el factor “tamaño de muestra” al

dividir el valor del coeficiente χ2 por n (tamaño de muestra).

n

2

Tiene la ventaja que su distribución muestral es conocida, por lo cual se puede calcular su

error estándar de estimación.

Como desventaja principal tiene que puede ser mayor que uno, lo cual afecta sus

propiedades como medida de asociación entre las variables.

En el ejemplo 2.3.2 el coeficiente φ alcanza el siguiente valor φ = .048 con probabilidad de

significación 0.007. Como se observa en el ejemplo, los coeficientes de contingencia, V de

Cramer y φ coinciden en valor y significación lo cual ratifica la asociación entre las

variables estudiadas.

39

Capítulo 3: Coeficiente de correlación de Pearson.

En este capítulo se examina uno de los principales coeficientes de correlaciones para

variables medidas en escalas por intervalos o de razón. Es el coeficiente de correlación de

Pearson. Se define el coeficiente para una población y se hacen cálculos para obtener

tamaños de muestras necesarios para hacer estimaciones por intervalos de confianza de

este coeficiente a nivel poblacional, con un bajo nivel de errores y una alta precisión. De

igual forma se determina el tamaño de muestra necesario para hacer dócimas de hipótesis

sobre la significación del coeficiente. Con el propósito de ilustrar estos aspectos, se

presentan aplicaciones usando el coeficiente de correlaciones muestral de Pearson.

3.1 Coeficiente de correlación de Pearson para una población.

Cuando en el fenómeno estudiado las dos variables son cuantitativas se usa el coeficiente

de correlaciones de Pearson. Es llamado así en homenaje a Karl Pearson. Las dos

variables son designadas por X e Y.

El coeficiente de correlación poblacional de Pearson para las variables X e Y se define así:

)Y(V)X(V

)Y,X(C

Este coeficiente es una medida de la relación lineal entre las dos variables. El valor de

está dentro del intervalo [-1, +1]. El valor -1 representa una perfecta correlación negativa

mientras que el valor +1 representa una perfecta correlación positiva. El valor 0 representa

falta de correlación. Cuando las variables X e Y son independientes, el numerador se anula

y el coeficiente de correlación poblacional tiene el valor cero. En cambio una correlación

nula no implica la independencia de variables.

3.1.1 Interpretación geométrica de

Los datos poblacionales proporcionan parejas de valores para cada elemento de la

población: (Xi, Yi), i = 1, 2,…, N, la fórmula de la covarianza, en este caso, es

N

1i

iiXY )Y-)(YX-(XS

Capítulo 3

______________________________________________________________________________________________

40

Se pueden escribir las observaciones poblacionales en forma de vectores, de la siguiente

manera:

)Y,...,Y(Y

)X,...,X(X

)Y,...,Y(Y

)X,...,X(X

N1

N1

=

=

=

=

Usando las notaciones del producto escalar de vectores se tiene:

YY

22

Y

XX

22

X

XY

SY-YN

1)Y-Y)(Y-Y(

N

1S

SX-XN

1)X-X)(X-X(

N

1S

)Y-Y)(X-X(N

1S

===

===

=

Con esta descripción geométrica de las varianzas y covarianzas, podemos poner de

manifiesto la existencia de paralelismo entre las desviaciones de las variables X e Y, con

respecto a sus centros de gravedad ya que

θcosY-YX-X)Y-Y)(X-X(

donde θ es el ángulo entre los vectores )X-X(

y )Y-Y(

.

O sea, el coeficiente de correlación poblacional de Pearson es el coseno del ángulo

formado por los vectores )X-X(

y )Y-Y(

, siendo = cos θ.

Figura 3.1

Si los vectores )X-X(

y )Y-Y(

son totalmente paralelos entonces cos θ = 1. En este

caso existirá una constante de proporcionalidad m tal que:

Capítulo 3

______________________________________________________________________________________________

41

)Y-Y(

= m )Y-Y(

Como ρ = cos θ, entonces = 1, lo cual significa que los valores de X e Y en el plano

cartesiano correspondiente están perfectamente alineados. Cuando ρ = -1, entonces existe

una dependencia lineal perfecta decreciente como puede apreciarse en la Figura 3.2.

Figura 3.2

En cambio si ρ = +1, la dependencia lineal es perfecta y creciente. Obsérvese la Figura 3.3.

Figura 3.3

Capítulo 3

______________________________________________________________________________________________

42

3.2 Estimación puntual del coeficiente de correlación poblacional

de Pearson por medio de una muestra aleatoria simple

En el fenómeno estudiado se realizan observaciones con el propósito de tener una muestra

M. Sea n el número de elementos muestrales. En cada elemento muestral se miden las

variables X e Y formando la muestra compuesta por: (x1; y1), (x2; y2),…, (xn; yn). Con

estos datos se construye un estimador puntual para el coeficiente de correlación

poblacional de Pearson. Este estimador se representa por r.

Es decir, el estimador puntual del coeficiente de correlaciones poblacional es:

∑∑

∑n

1i

2

i

n

1i

2

i

n

1i

ii

)y-(y)x-(x

)y-)(yx-(x

r (3.1)

El subíndice i cuenta las observaciones muestrales, en este caso i = 1, 2,…, n.

Al estimador r se le denomina coeficiente de correlación muestral de Pearson. Como el

valor de r es función de los valores muestrales obtenidos, el estimador es una variable

aleatoria. Es decir, para cada selección muestral de la misma población, r toma un valor

diferente.

Una tarea es conocer la distribución del coeficiente de correlación muestral.

3.2.1 Distribuciones muestrales asociadas al coeficiente de correlaciones de

Pearson

Para el caso de variables aleatorias con distribución normal bivariada, Fisher [1] encontró

para una muestra de tamaño n, la distribución muestral de r. Este estimador tiene función

de densidad:

)1in(2

1

!i

)r2(

)!1n(

)r1()1(2);r(f 2

0i

i2

2n

22

1n

21n

(3.2)

Por medio de transformaciones,

-1

n)-r(U

2

→Z distribuido N(0,1) (3.3)

es decir, U converge en ley a la variable aleatoria Z con distribución normal estándar.

Capítulo 3

______________________________________________________________________________________________

43

Cuando ρ = 0 la función de densidad del coeficiente de correlación muestral de Pearson es:

1r1

!2

4n

)r1(!2

3n

)r(f

2

4n

2

(3.4)

Esta función de densidad es similar a la función de densidad de la distribución t de Student.

Por medio de la siguiente transformación se puede obtener.

2r-1

2-nrt = . (3.5)

con distribución t de Student con n – 2 grados de libertad cuando ρ = 0.

Cuando ρ ≠ 0, la función de densidad de r se estudia con ayuda del estadístico:

r - 1

r1ln

2

1Zr

+= (3.6)

Zr tiene distribución normal siendo E(Zr) = Zρ y V(Zr) =3-n

1 .

Aquí,

-1

1ln

2

1Z

3.3 Estimación por intervalo del coeficiente de correlaciones

poblacional de Pearson

Ya se ha examinado la estimación puntual de este coeficiente, pero eso no es suficiente, se

necesita conocer el error originado por el muestreo, así como la probabilidad de tener el

verdadero valor de ρ próximo al valor obtenido. Para estos casos se usa una estimación por

intervalo de confianza.

Un intervalo de confianza, es aquel intervalo donde se encuentra el valor del parámetro

desconocido con una probabilidad de confianza γ. Se denota por L la longitud del intervalo

de confianza.

Para estimar el coeficiente de correlación de Pearson por medio de un intervalo de

confianza se usan las distribuciones muestrales de r. Desde la expresión (3.6) se deduce

que la expresión: ZZ3nZ r tiene distribución normal estándar. Por lo tanto, con

probabilidad 1 – α se cumple:

Capítulo 3

______________________________________________________________________________________________

44

qr z1

1ln

2

1Z3nz

q

donde

21

2

zq

zyzqz

.

A continuación se despeja ρ en dicho intervalo

3n

z

1

1ln

2

1Z

3n

z qr

q

rq

r Z3n

z

1

1ln

2

1Z

3n

z

q

3-n

zZ

-1

1ln

2

1

3-n

z-Z

q

rr

q

(3.7)

(3.7)en para,-

doSustituyen , 1 ρ 1- ρ1

ρ1ln

2

1 ρtanh

-1

3n

zZ

3n

zZ tieneSe

q

r

1-

r

tanh q

como -1tanh htan

El intervalo de confianza para el coeficiente de correlación ρ es:

]3-n

z Ztanh[]

3-n

z -Ztanh[

q

r

q

r (3.8)

3.3.1 Tamaño de muestra necesario, para estimar por un intervalo de

confianza, el coeficiente de correlaciones poblacional de Pearson

Cuando se fija la longitud del intervalo de confianza para el coeficiente de correlación

poblacional , es posible determinar el valor de n, o sea el tamaño de la muestra con el

cual se garantiza un límite del error de muestreo menor que la semi-amplitud del intervalo

de confianza.

Capítulo 3

______________________________________________________________________________________________

45

Sea L la longitud del intervalo de confianza para estimar ρ con una probabilidad de

confianza 1 – α., desde (3.8) se tiene:

]3-n

z -Ztanh[ - ]

3-n

z Ztanh[

q

r

q

rL += (3.9)

Como se cumplen:

)bcosh()acosh(

)ba(senh)btanh()atanh(

(3.10)

2

)bacosh()bacosh()bcosh()acosh(

(3.11)

Usando (3.10) se tiene en (3.9):

3n

qz

rZcosh

3n

qz

rZcosh

3n

qz 2

senh

L (3.12)

Usando (3.11) en (3.12):

3n

qz 2

coshr

Z2cosh

3n

qz 2

senh 2

L (3.13)

2

eexcoshy

2

eexsenh Utilizando

xxxx

se tiene en (3.13):

3n

qz2

e3n

qz2

erz2erz2

e

3n

qz2

e23n

qz2

e2L

Efectuando:

0 2 L 3n

qz 2

e rZ2e rZ2

e L 3n

qz 4

e 2L

Haciendo 3n

qz 2

ey

Capítulo 3

______________________________________________________________________________________________

46

0 2 L y rZ2e rZ2

e L 2y 2L

Resolviendo la ecuación de segundo grado

2)2(L

162

)r2zer2z

(e2

L)r2zer2z

L(e3n

q2z

e

Despejando n se tiene:

3

1)2(r2)(L

21)2(r2r2L212rL2ln

2q4z

n

Como 22222 1rrL21rL y 0)1r)(2L( 2 el doble signo de la raíz se

convierte en positivo.

De esta forma el tamaño de muestra para estimar el coeficiente de correlación de Pearson

por medio de un intervalo de confianza de longitud L es:

3

1)2(r2)(L

21)2(r2r2L212rL2ln

2q4z

n

(3.14)

Observaciones:

1. En la misma medida que el valor del coeficiente de correlación pre-muestral se hace

menor, aumenta el valor del tamaño de muestra.

2. Una reducción de la probabilidad de confianza afecta en poca medida el tamaño de la

muestra.

3. El elemento de la fórmula (3.14) que influye más decisivamente en el valor de n es la

longitud del intervalo de confianza. Compare en la Tabla 3.1 los valores de n para l = 0.2

con los valores de n para l = 0.1

3.3.2 Implementación del muestreo

Para implementar el muestreo en primer término se debe seleccionar el tamaño del

intervalo y la probabilidad de confianza. Por medio de una muestra inicial tener un primer

valor del coeficiente de correlación muestral de Pearson. Con esos datos, ir a la fórmula

(3.14) y calcular el tamaño de muestra.

Capítulo 3

______________________________________________________________________________________________

47

Ejemplo 3.3.2 Sobre el tamaño de muestra necesario para obtener un intervalo de

confianza del coeficiente de correlación.

Se supone que se desea calcular un intervalo de confianza de longitud 0.2 y probabilidad

0.95 para estimar el coeficiente de correlación de Pearson. Desde una muestra inicial se

obtiene un coeficiente de correlación muestral 0.4. ¿Cuál debe ser el tamaño de la muestra

definitiva?

Aquí r = 0.4 L = 0.2 γ = 0.95 lo cual implica zq = 1.96, Sustituyendo se tiene el tamaño

de muestra 273.

Una tabla de valores de n para γ = 0.95, con valores de L = 0.1 ó 0.2 y diferentes valores de

r aparece en la tabla A.1 del anexo A.

Una vez calculado el tamaño de muestra, es decir, el valor de n, por un procedimiento

aleatorio, se selecciona un número n de unidades de la población. Es importante garantizar

que todas las unidades poblacionales tengan la misma probabilidad de pertenecer a la

muestra.

Una vez realizado el muestreo y hecho el cálculo del nuevo coeficiente de correlación

muestral, este valor debe ser comparado con el valor obtenido en la premuestra. Si la

discrepancia es acentuada, debe ser calculado un nuevo tamaño de muestra n1, y realizar

n – n1 observaciones adicionales. Este proceso se debe continuar hasta que las diferencias

entre los valores de r converjan a cero.

Ya estabilizadas las correlaciones muestrales, la estimación puntual del coeficiente de

correlación poblacional es usada para construir el intervalo de confianza para el coeficiente

de correlación poblacional.

3.3.3 Aplicaciones de la estimación por intervalo de confianza del

coeficiente de correlación de Pearson.

Ejemplo 3.3.3 Sobre la estimación de un intervalo de confianza para el coeficiente de

correlación de Pearson.

En la estación meteorológica de Benjamin Constant en el estado de Amazonas, Brasil se

desea estimar el valor del coeficiente de correlación entre la temperatura del aire a la 1pm

y la humedad relativa también a la 1pm. Esta estimación se desea hacer con un error del

muestreo en el coeficiente de correlación muestral menor de 0.1. La probabilidad de

confianza está fijada en 0.95.

Capítulo 3

______________________________________________________________________________________________

48

Se toma el mes de Junio 2000 como premuestra, para esos 30 días se obtiene un coeficiente

de correlación de Pearson igual a – 0.6084. Sustituyendo este valor en la fórmula (3.14),

se obtiene el tamaño de muestra necesario para este tipo de estimación, en este caso,

n = 156.

Para la estimación del coeficiente de correlación poblacional se usa en definitiva una

muestra de 184 observaciones formada por los datos meteorológicos de Mayo, Junio y

Julio del 2000 más los datos meteorológicos de Mayo, Junio y Julio del 2001.

Con estas 184 observaciones se obtiene un coeficiente de correlación muestral: – 0.5281.

Es decir

r = – 0.5281

Para construir el intervalo de confianza para el coeficiente de correlación de la población

se requiere calcular Zr, usando la fórmula (3.6), se tiene

Zr = – 0.5875.

El límite inferior del intervalo de confianza es

L1 = )3-n

z -(Ztanh

q

r = tanh (– 0.5875 – 3-184

96,1) = tanh (– 0.7332) = – 0.6250

El límite superior del intervalo de confianza es

L2 = )3-n

z (Ztanh

q

r + = tanh (– 0.5875 +3-184

96,1) = tanh (– 0.4418) = – 0.4152

Es decir, con probabilidad de confianza 0.95 se puede decir:

– 0.6250 < ρ < – 0.4152

Esto es, el coeficiente de correlación entre la temperatura al aire 1PM y la humedad

relativa 1PM en la estación meteorológica de Benjamín Constant, Amazonas, Brasil, está

entre – 0.625 y – 0.4152.

3.4 Dócimas de hipótesis sobre el coeficiente de correlación de

Pearson.

Si el propósito es realizar una dócima sobre la significación del coeficiente de correlación

de Pearson, la determinación del número de unidades muestrales es necesario hacerlo de

manera diferente.

3.4.1 Determinación del tamaño de la muestra.

Si se quiere llevar a cabo un estudio con el fin de determinar si existe o no una relación

significativa entre dos variables numéricas X e Y. Para llevar a cabo la investigación, se

recoge una muestra de individuos en donde de cada uno de ellos se determina el valor que

Capítulo 3

______________________________________________________________________________________________

49

toma cada una de las dos variables. A continuación se muestra cómo calcular el tamaño de

muestra necesario para contrastar la hipótesis inicial H0: ρ = 0 versus H1: ρ ≠ 0.

Como se dijo anteriormente, la distribución muestral del coeficiente de Pearson no es

normal, pero bajo la suposición de que las dos variables de estudio presentan una

distribución normal bivariada, el coeficiente de correlación de Pearson puede

transformarse para conseguir un valor de z que sigue una distribución normal.

r

rz

1

1ln

2

1

Siendo el error estándar de z aproximadamente igual a 3n

1

.

Utilizando esta aproximación, se obtiene fácilmente una fórmula para el cálculo del

número de unidades a muestrear. Se precisa conocer:

1. La magnitud de la correlación que se desea detectar ρ. esto es, se precisa tener una

idea, a partir de publicaciones o estudios previos, del valor aproximado del

coeficiente de correlación existente entre las dos variables a estudiar.

2. El nivel de confianza, con el cual se desea trabajar: 1 – α. Siendo α la probabilidad

de cometer un error de tipo I.

3. La potencia de la dócima 1 – β. Siendo β la probabilidad de cometer un error de

tipo II.

4. Se debe precisar además si el contraste de hipótesis se va a realizar con un

planteamiento unilateral (el ρ calculado es mayor o menor de cero) o bilateral (el ρ

calculado es diferente de cero).

Si se dispone de los datos anteriores, el cálculo del tamaño muestral con un planteamiento

bilateral puede realizarse mediante la expresión:

3

r1

r1ln

2

1

zz

n

2

1

21

donde los valores z1-α/2 y z1-β se obtienen desde la distribución normal estándar una vez

elegidos los valores de α y β.

En el Anexo, en la tabla A.3 aparecen tamaños de muestras para diferentes valores del

coeficiente de correlación muestral, α = P(I) = 0.05, 1– β = 1– P(II) = 0.90

Para un planteamiento unilateral, el razonamiento es análogo, llegando a la siguiente

fórmula para el cálculo del tamaño muestral:

Capítulo 3

______________________________________________________________________________________________

50

3

r1

r1ln

2

1

zzn

2

11

Las fórmulas anteriores pueden modificarse con el fin de ajustar el tamaño muestral

previsto para el estudio a posibles pérdidas de información que se pueden producir durante

el desarrollo del mismo. Así, asumiendo un porcentaje de pérdidas g, el tamaño de la

muestra a estudiar vendrá dado por g1

n'n

, donde n denota el valor del tamaño muestral

calculado por cualquiera de las dos fórmulas anteriores según el caso.

3.4.2 Aplicaciones del diseño muestral a las dócimas de hipótesis sobre el

coeficiente de correlación de Pearson.

Ejemplo 3.4.2 Sobre las dócimas asociadas al coeficiente de correlación de Pearson.

Se desea estudiar las correlaciones entre las tensiones arteriales “máximas y mínimas”, y la

edad. Usando la base de datos Mercury de la UFMT. Se seleccionan 224 personas cuya

distribución por edades aparece en el siguiente gráfico:

Gráfico 1

Capítulo 3

______________________________________________________________________________________________

51

Los coeficientes de correlaciones entre las variables estudiadas aparecen en la tabla:

Tensión arterial máxima

Tensión arterial mínima

Frecuencia cardiaca

Edad

Tensión arterial máxima Correlación de Pearson 1 ,794(**) -,082 ,579(**)

Significación bilateral . ,000 ,221 ,000

n 224 224 224 224

Tensión arterial mínima Correlación de Pearson ,794(**) 1 -,114 ,605(**)

Significación bilateral ,000 . ,088 ,000

n 224 224 224 224

Frecuencia cardiaca Correlación de Pearson -,082 -,114 1 -,074

Significación bilateral ,221 ,088 . ,272

n 224 224 224 224

Edad Correlación de Pearson ,579(**) ,605(**) -,074 1

Significación bilateral ,000 ,000 ,272 .

N 224 224 224 224

Tabla 3.1 Matriz de correlaciones del ejemplo 3.4.2

Como el máximo interés es determinar si existe correlación significativa α = P(I) = 0.05

con β = P(II) = 0.10 entre las tensiones arteriales y la edad se usa el valor de r = 0.6 para

determinar el tamaño de muestra necesario. Usando la tabla A.3 del Anexo 3 se encuentra

n = 25, por ello se mantiene como válida la muestra de 224 personas.

Se puede observar en la muestra estudiada un coeficiente de correlación positivo entre

tensión arterial máxima y mínima con valor 0.7944 altamente significativo.

La edad tiene correlación positiva altamente significativa con la tensión arterial máxima y

la tensión arterial mínima. En cambio no correlaciona con la frecuencia cardiaca, aunque

su signo es negativo.

52

Conclusiones:

1. El coeficiente de correlación debe ser seleccionado en base a las escalas de medidas

usadas en cada una de las variables.

2. La determinación del tamaño de muestra en las de tablas de contingencias varia

según sea el objetivo:

a) Determinar probabilidades de incidencias.

b) Docimar independencias entres dos variables.

c) Analizar la asociación entre las variables.

3. El tamaño de muestra para construir intervalo de confianza para el coeficiente de

correlación poblacional de Pearson es función de la longitud del intervalo, de la

probabilidad de confianza y del coeficiente de correlación muestral. Por esta razón

se sugiere un procedimiento secuencial para este propósito.

4. El tamaño de muestra para docimar la significación del coeficiente de correlación

poblacional de Pearson es función de las probabilidades de cometer errores del tipo

I y del tipo II y del valor del coeficiente de correlación muestral. Por esta razón se

sugiere un procedimiento secuencial para esta dócima.

53

Recomendaciones:

1. Estudiar procedimientos de muestreos para los coeficientes de correlaciones de

Spearman, Kendall, Gamma, …

2. Continuar profundizando sobre las propiedades asintóticas de los tamaños de

muestras.

3. Extender los estudios de muestreos para los análisis de correlaciones con más de

dos variables.

54

Bibliografía:

Amon, J. (1978), Estadística para psicólogos 1. Estadística descriptiva, Ed. Pirámide.

Madrid.

Anderson, T.W., (1958), An Introduction to Multivariate Statistical York, Ed. John Wiley

and Sons, Inc. New York.

Briones (1987), Métodos y técnicas de investigación social. Editorial Trillas. México.

Cué J.L., E. Castell y J. M. Hernández, (1987), Estadística II, Ministerio de Educación

Superior. Ediciones UH. Ciudad Habana. Cuba

Daniel, W., (1990), Applied nonparametric statistics, 2ª ed. Boston: PWS-KENT.

Fisher, R.A. (1915), Frequency distribution of the values of the correlation coefficient in

samples from an indefinitely large population, Biometrika, 10, 507-521.

Fisher, R.A. (1924), The distribution of the partial correlation coefficient, Metron 3, 329-

332.

Fisz M. (1963), Probability Theory and Mathematical Statistics, Ed. John Wiley and Sons,

Inc. New York.

Galton, F. (1889), Natural Inheritance, Ed. Macmillan and Co. London.

Gibbons, J.D., (1971), Nonparametric Statistical Inference, McGraw-Hill Book Company.

New York.

Hoel, P. G., (1962), Introducción a la Estadistica Matemática, Ed. John Wiley and Sons,

Inc. New York.

Latorre, A., Del Rincón, I y Arnal, A. (1996), Bases metodológicas de la investigación

educativa, Yordi Hurtado Mampeó- Editor Barcelona, España.

Linares, G., (1990), Análisis de Datos, Ministerio de Educación Superior. Ediciones UH.

Ciudad Habana. Cuba

Nagpaul, P. S. (2001), Guide to Advanced Data Analysis using IDAMS Software,

http://www.unesco.org/webworld/idams/advguide/TOC.htm

Neyman, J. y E. S. Pearson (1928), On the use and interpretation of certain test criteria for

purpose of statistical inference, Biometrika 20A, 175-240 y 263-294.

Palmer, A.; Jiménez, R. y J. J. Montaño, (2000), Tutorial sobre el coeficiente de

correlación con una ó dos variables categóricas, Revista Electrónica De Psicología

Vol. 4, número 2 ISSN 1137-8492.

http://www.psiquiatria.com/psicologia/revista/50/2830

http://www.unesco.org/webworld/idams/advguide/TOC.htm



Bibliografía

______________________________________________________________________________________________

55

Palmer, A.; Jiménez, R. y J. J. Montaño, (2001), Tutorial sobre el coeficiente de

correlación lineal de Pearson, Revista Electrónica De Psicología Vol. 5, número 1

ISSN 1137-8492 http://www.psiquiatria.com/psicologia/revista/51/2815

Pearson, K. (1896), Mathematical Contributions to the Theory of Evolution. III.

Regression, Heredity and Panmixia, Philosophical Transactions of the Royal Society

of London, 187, 253-318.

Pearson, K. (1900), On a criterion that a given system of deviations from the probable in

the case of a correlated system of variables is such that it can reasonably supposed to

have arisen from random sampling, Philos. Mag., Ser. 5, 50, 157-175.

Rao, C. R. (1973), Linear Statistical inference and its Applications, 2nd Edition. Editorial

John Wiley and Sons, Inc. New York.

Siegel, S., (1956), Non-parametric Statistics for the Behavioral Sciences, McGraw-Hill

Book Company. New York.

Stanton J. M. (2001), Galton, Pearson, and the Peas: A Brief History of Linear Regression

for Statistics Instructors, Journal of Statistics Education Volume 9, Number 3

Quantitative Methods in Public Administration Phi, the contingency coefficient,

Tschuprow’s T, y Cramer’s V.

“http://www2.chass.ncsu.edu/garson/pa765/assocnominal.htm”

Wikipedia, la enciclopedia libre (2007), Variable estadística, Wikipedia Foundation , Inc

“http://es.wikipedia.org/wiki/Variable_estadÃstica”

Wilks S. S., (1962), Mathematical Statistics, Editorial John Wiley and Sons, Inc. New

York.

Yates, F (1934). Contingency table involving small numbers and the χ2 test. Journal of the

Royal Statistical Society (Supplement) 1: 217-235.


http://www2.chass.ncsu.edu/garson/pa765/assocnominal.htm

http://es.wikipedia.org/wiki/Variable_estadÃstica

56

Anexos

Anexo 1 Selección de los coeficientes de correlaciones de acuerdo

a las escalas de medidas usadas en las variables.

Escalas de medidas usadas en las

variables Coeficiente Notación Recorrido

Variable cualitativa nominal

versus

variable cualitativa nominal:

Contingencia. C u

1uC0

u = min. {f, c}

V de Cramer. V 0 ≤ V ≤ 1

Coeficiente φ. Φ 0 ≤ φ ≤ +∞

Variable cualitativa nominal dicotómica

versus

variable cuantitativa continua: Biserial del punto. Rbp -∞ ≤ rbp ≤ +∞

Variable cuantitativa continua

particionada en dos clases versus

variable cuantitativa continua

particionada en dos clases:

Tetracórica. RT -∞ ≤ rT ≤ +∞

Variable cualitativa ordinal versus

variable cualitativa ordinal ó

variables cuantitativas cuyos valores

son reemplazados por rankings.

Spearman. RS -1 ≤ rS ≤ 1

Variable cualitativa ordinal versus

variable cualitativa ordinal ó

variables cuantitativas cuyos valores

son reemplazados por rankings.

Kendall. RK -1 ≤ rK ≤ 1

Variables cuyos valores son

reemplazados por rankings.

Gamma de

Goodman-

Kruskall

G -1 ≤ G ≤ 1

Variable cuantitativa versus variable

cuantitativa: Pearson r -1 ≤ r ≤ 1

Tabla A.1 Escalas de medidas de las variables y coeficientes de correlaciones usados.

Anexos

______________________________________________________________________________________________

57

Anexo 2 Tamaños de muestras para construir intervalos de confianza para

el coeficiente de correlación de Pearson.

L r z.975 n L r z.975 n

.10 .00 1.96 1537 .20 .00 1.96 385

.10 .05 1.96 1529 .20 .05 1.96 383

.10 .10 1.96 1507 .20 .10 1.96 377

.10 .15 1.96 1469 .20 .15 1.96 368

.10 .20 1.96 1417 .20 .20 1.96 355

.10 .25 1.96 1351 .20 .25 1.96 339

.10 .30 1.96 1274 .20 .30 1.96 319

.10 .35 1.96 1185 .20 .35 1.96 297

.10 .40 1.96 1086 .20 .40 1.96 273

.10 .45 1.96 979 .20 .45 1.96 246

.10 .50 1.96 867 .20 .50 1.96 218

.10 .55 1.96 750 .20 .55 1.96 190

.10 .60 1.96 633 .20 .60 1.96 161

.10 .65 1.96 516 .20 .65 1.96 132

.10 .70 1.96 404 .20 .70 1.96 104

.10 .75 1.96 299 .20 .75 1.96 78

.10 .80 1.96 204 .20 .80 1.96 55

.10 .85 1.96 124 .20 .85 1.96 35

.10 .90 1.96 62 .20 .90 1.96 20

.10 .95 1.96 21 .20 .95 1.96 10

TABLA A.2

Tamaños de muestras para construir un intervalo de confianza del coeficiente de

correlación poblacional de Pearson para valores de L y r con γ = 0.95

Nota: Los tamaños de muestras en las líneas sombreadas no son confiables, por ser

calculados con procedimientos asintóticos, validos sólo cuando n es grande.

Anexos

______________________________________________________________________________________________

58

Anexo 3 Tamaños de muestras para docimar la significación del coeficiente

de correlación de Pearson.

α z.975 β 1-β z.90 r n

.05 1.96 .10 .90 1.28 .05 4195

.05 1.96 .10 .90 1.28 .10 1046

.05 1.96 .10 .90 1.28 .15 463

.05 1.96 .10 .90 1.28 .20 258

.05 1.96 .10 .90 1.28 .25 164

.05 1.96 .10 .90 1.28 .30 113

.05 1.96 .10 .90 1.28 .35 82

.05 1.96 .10 .90 1.28 .40 61

.05 1.96 .10 .90 1.28 .45 48

.05 1.96 .10 .90 1.28 .50 38

.05 1.96 .10 .90 1.28 .55 30

.05 1.96 .10 .90 1.28 .60 25

.05 1.96 .10 .90 1.28 .65 20

.05 1.96 .10 .90 1.28 .70 17

.05 1.96 .10 .90 1.28 .75 14

.05 1.96 .10 .90 1.28 .80 12

.05 1.96 .10 .90 1.28 .85 10

.05 1.96 .10 .90 1.28 .90 8

.05 1.96 .10 .90 1.28 .95 6

TABLA A.3

Tamaños de muestras para docimar el coeficiente de correlación de Pearson para

valores de α = 0.05 y β = 0.90.

Nota: Los tamaños de muestras en las líneas sombreadas no son confiables, por ser

calculados con procedimientos asintóticos, validos sólo cuando n es grande.

Documents

Tesis de maestria: Muestreo para correlaciones