Upload
others
View
5
Download
0
Embed Size (px)
Citation preview
UNIVERSIDAD CENTRAL “MARTA ABREU” DE LAS VILLAS
FACULTAD MATEMÁTICA, FÍSICA Y COMPUTACIÓN
MUESTREO PARA CORRELACIONES POR
CONTINGENCIAS Y DE PEARSON
Tesis presentada en opción al Título Académico de Máster en Matemática Aplicada
Autor: Lic. Gustavo Vicente Rojas García
Tutor: Dr. CT. Uvedel Bernabé Del Pino Paz
2007
Año 49 de la Revolución.
Índice
RESUMEN ....................................................................................................................................................... 3
INTRODUCCIÓN ............................................................................................................................................ 4
OBJETIVOS DE LA TESIS ............................................................................................................................ 6
OBJETIVO GENERAL: ...................................................................................................................................... 6 OBJETIVOS ESPECÍFICOS: ............................................................................................................................... 6
HIPÓTESIS: .................................................................................................................................................... 6
CAPÍTULO 1: ESTUDIO DE LAS DEPENDENCIAS ENTRE VARIABLES POR MEDIO DE LOS
COEFICIENTES DE CORRELACIONES. .................................................................................................... 7
1.1 CONSTRUCTOS Y VARIABLES .................................................................................................................. 7 1.2.1 Escalas de medidas ....................................................................................................................... 8 1.2.2 Clasificación de las variables según la escala de medición .......................................................... 9
1.3 LA COVARIANZA COMO MEDIDA DE DEPENDENCIA ENTRE DOS VARIABLES ALEATORIAS. ..................... 10 1.4 COEFICIENTES DE CORRELACIONES ....................................................................................................... 10
1.4.1 Coeficiente de correlación de Pearson ........................................................................................ 11 1.4.2 Coeficientes asociados a una tabla de contingencias .................................................................. 12 1.4.3 Coeficiente de correlación tetracórica. ....................................................................................... 12 1.4.4 Coeficiente biserial del punto. ..................................................................................................... 13 1.4.5 Coeficiente de correlación muestral por ranking de Spearman. ................................................. 14 1.4.6 Coeficiente de correlación muestral por ranking de Kendall. ..................................................... 16 1.4.7 Coeficiente G Gamma de Goodman- Kruskal ............................................................................. 17
CAPÍTULO 2: TABLAS Y COEFICIENTES DE CONTINGENCIAS ....................................................... 18
2.1 PROBABILIDADES DE CONTINGENCIAS ................................................................................................... 18 2.1.1 Estimación de probabilidades de contingencias .......................................................................... 19 2.1.2 Determinación del tamaño de la muestra para estimar probabilidades de contingencias de una
población por medio de la cota superior del error de muestreo. ......................................................... 22 2.1.3 Aplicaciones de las probabilidades de contingencias. ............................................................... 25
2.2 DÓCIMA DE HIPÓTESIS SOBRE LA INDEPENDENCIA DE VARIABLES EN UNA TABLA DE CONTINGENCIAS. 27 2.2.1 Procedimiento para la dócima de hipótesis sobre independencia de variables por medio de una
tabla de contingencias. ......................................................................................................................... 30 2.2.2 Aplicaciones de la dócima para determinar dependencias entre variables aleatorias. .............. 31
2.3 ANÁLISIS DE LOS RESIDUOS EN UNA TABLA DE CONTINGENCIAS. .......................................................... 32 2.3.1 Tamaño de muestra para el análisis de residuos cuando se usan los “residuos ajustados” de
todas las celdas. .................................................................................................................................... 34 2.3.2 Aplicación del análisis de residuos .............................................................................................. 35
2.4 COEFICIENTES DE CORRELACIONES ASOCIADOS A LAS TABLAS DE CONTINGENCIAS. ............................. 37 2.4.1 Coeficiente de contingencia ......................................................................................................... 37 2.4.2 Coeficiente V de Cramer .............................................................................................................. 38 2.4.3 Coeficiente φ (phi) ....................................................................................................................... 38
CAPÍTULO 3: COEFICIENTE DE CORRELACIÓN DE PEARSON. ...................................................... 39
3.1 COEFICIENTE DE CORRELACIÓN DE PEARSON PARA UNA POBLACIÓN. ................................................... 39
3.1.1 Interpretación geométrica de ................................................................................................... 39 3.2 ESTIMACIÓN PUNTUAL DEL COEFICIENTE DE CORRELACIÓN POBLACIONAL DE PEARSON POR MEDIO DE
UNA MUESTRA ALEATORIA SIMPLE .............................................................................................................. 42 3.2.1 Distribuciones muestrales asociadas al coeficiente de correlaciones de Pearson ...................... 42
3.3 ESTIMACIÓN POR INTERVALO DEL COEFICIENTE DE CORRELACIONES POBLACIONAL DE PEARSON ........ 43 3.3.1 Tamaño de muestra necesario, para estimar por un intervalo de confianza, el coeficiente de
correlaciones poblacional de Pearson ................................................................................................. 44 3.3.2 Implementación del muestreo ...................................................................................................... 46
Índice
_______________________________________________________________________________________________
3.3.3 Aplicaciones de la estimación por intervalo de confianza del coeficiente de correlación de
Pearson. ................................................................................................................................................ 47
3.4 DÓCIMAS DE HIPÓTESIS SOBRE EL COEFICIENTE DE CORRELACIÓN DE PEARSON. .................................. 48 3.4.1 Determinación del tamaño de la muestra. ................................................................................... 48 3.4.2 Aplicaciones del diseño muestral a las dócimas de hipótesis sobre el coeficiente de correlación
de Pearson. ........................................................................................................................................... 50
CONCLUSIONES: ......................................................................................................................................... 52
RECOMENDACIONES: ............................................................................................................................... 53
BIBLIOGRAFÍA: ........................................................................................................................................... 54
ANEXOS ......................................................................................................................................................... 56
ANEXO 1 SELECCIÓN DE LOS COEFICIENTES DE CORRELACIONES DE ACUERDO A LAS ESCALAS DE MEDIDAS
USADAS EN LAS VARIABLES. ........................................................................................................................ 56 ANEXO 2 TAMAÑOS DE MUESTRAS PARA CONSTRUIR INTERVALOS DE CONFIANZA PARA EL COEFICIENTE DE
CORRELACIÓN DE PEARSON. ........................................................................................................................ 57 ANEXO 3 TAMAÑOS DE MUESTRAS PARA DOCIMAR LA SIGNIFICACIÓN DEL COEFICIENTE DE CORRELACIÓN
DE PEARSON. ............................................................................................................................................... 58
3
Resumen
Una forma de estudiar la posible dependencia entre variables es por medio de los
coeficientes de correlaciones. El coeficiente de correlación establece una medida del
posible nexo existente entre las variables consideradas. En la tesis se examina la
clasificación de las variables de acuerdo a la escala de medida utilizada. Se enumeran los
principales coeficientes de correlaciones y en particular se detallan los coeficientes de
contingencias y correlaciones de Pearson.
Se determinan fórmulas de tamaño de muestra para estimar probabilidades de
contingencias, realizar análisis de residuos, construir intervalos de confianza y docimar
hipótesis sobre la significación del coeficiente de correlaciones de Pearson.
Los cálculos de tamaños de muestras se hacen a partir de las distribuciones muestrales, las
cuales de una manera asintótica convergen a distribuciones clásicas de la estadística.
En los intervalos de confianza se requiere prefijar la longitud del intervalo así como la
probabilidad de confianza. En el caso de las Dócimas establecer las probabilidades de
errores del tipo I y del tipo II.
Para ilustrar el cálculo de las fórmulas se presentan ejemplos cuyo único interés es mostrar
los procedimientos de cálculo.
4
Introducción
Desde el surgimiento de la raza humana, el hombre se ha preocupado por conocer y
entender el mundo que le rodea, descubrir las relaciones y leyes que lo rigen, para de esta
manera, orientarse hacia el futuro en busca de una vida mejor.
Esta es la razón por la cual estudia los diferentes fenómenos observables, buscando en
ellos nexos y relaciones que permitan explicar causas y efectos.
En el estudio de las dependencias entre causas y efectos, es importante analizar diferentes
características involucradas en ellos. Briones (1987), ayuda en este sentido definiendo el
concepto de variable como una propiedad, característica o atributo que puede darse en
ciertos objetos o sujetos.
Los grados o modalidades diferentes de las variables permiten la clasificación de los
individuos en categorías o clases y son susceptibles de identificación y medición.
Las variables pueden clasificarse de diferentes maneras. Se tiene la costumbre de llamar
variables respuestas a las asociadas con los efectos ocurridos en el fenómeno y variables
explicativas las asociadas con las causas o procesos del fenómeno estudiado.
En la búsqueda de los vínculos entre variables respuestas y variables explicativas puede
hacerse uso de diferentes métodos matemáticos, entre ellos, tiene especial importancia el
análisis de correlaciones.
Una forma de estudiar la posible dependencia entre variables es por medio de los
coeficientes de correlaciones. El coeficiente de correlación establece una medida del
posible nexo existente entre las variables consideradas. Para el estudio de población se
estudia el coeficiente de correlación poblacional, en cambio para estimaciones de los
parámetros correlaciónales desde una muestra, se examina el coeficiente de correlación
muestral. Un estudio de correlaciones necesita de una matriz muestral de datos, donde cada fila
representa un elemento de la muestra y cada columna las observaciones de la variable
correspondiente a ella. A partir de esta matriz se determina el coeficiente de correlación
muestral. Se denota generalmente por “r”. Surge la pregunta: ¿El número de observaciones
y las formas de obtenerlas garantizan tener un coeficiente de correlación muestral capaz de
representar el verdadero nexo entre las variables estudiadas?
La respuesta a esta pregunta requiere un análisis cuidadoso. Desde el coeficiente de
correlación muestral “r” se desea estimar el coeficiente de correlación poblacional “ρ”, que
es un parámetro fijo de la población estudiada. Para diferentes muestras se obtienen
Introducción
_______________________________________________________________________________________________
5
diferentes coeficientes de correlaciones muestrales, es por ello que “r” es una variable
aleatoria. La tarea es encontrar un tamaño de muestra que origine un intervalo con alta
probabilidad de confianza y una longitud lo más pequeña posible.
Además de lo anterior, se tienen variables con diferentes clasificaciones: variables
cualitativas que pueden ser ordinales o nominales. Variables cuantitativas que pueden ser
discretas o continuas. Esto origina la necesidad de definir diferentes coeficientes de
correlaciones, usados de acuerdo a los tipos de medidas usadas en cada una de las
variables.
Son varios los coeficientes de correlaciones: Contingencia, Biserial del Punto, Tetracórico,
Spearman, Kendall, Pearson, entre otros.
En el presente documento, en el primer capítulo se hace un panorama de los diferentes
coeficientes de correlaciones. En el siguiente capítulo se selecciona para su estudio las
tablas de contingencias. Estas a su vez se dividen en cuatro partes: cálculo de las
probabilidades de contingencias, dócimas de independencia entre dos variables, análisis de
los residuos y los coeficientes de correlaciones asociados a la contingencia. El tercer
capítulo se dedica al coeficiente de correlación de Pearson. Estimación puntual,
distribuciones muestrales, dócima de significación y fórmulas para su tamaño de muestra
son los objetos tratados.
6
Objetivos de la tesis
Objetivo general:
Desarrollar y organizar resultados referentes a procedimientos de muestreos,
necesarios para el análisis de correlaciones con dos variables.
Objetivos específicos:
Buscar criterios para la selección de un coeficiente de correlación, cuando se
estudia la dependencia entre dos variables.
Desarrollar un procedimiento muestral para tablas y coeficientes de contingencias.
Determinar los tamaños de muestras para intervalos de confianza y dócimas sobre
el coeficiente de correlación de Pearson.
Hipótesis:
El tamaño de la muestra influye de manera significativa en los resultados de un
análisis de correlaciones.
7
Capítulo 1: Estudio de las dependencias entre variables por medio
de los coeficientes de correlaciones.
En las investigaciones empíricas desarrolladas para conocer sobre diferentes fenómenos, es
importante definir características (constructos o variables) capaces de estudiar las
dependencias entre los factores y los efectos que tienen lugar en los mismos.
1.1 Constructos y variables
Asociados a las características estudiadas se definen constructos hipotéticos. La Torre y
otros (1996), presentan los constructos como entidades abstractas, bien definidas y
articuladas. Ejemplos de constructos son la inteligencia, la motivación, la capacidad de
aprendizaje en una investigación pedagógica.
Para estudiar los constructos se hace necesario analizar magnitudes observables que
funcionan como indicadoras del constructo en cuestión. Estas magnitudes reciben el
nombre de variables.
Las variables y los constructos están estrechamente ligados, de tal forma que constituyen,
en cierta forma, las dos caras de una misma moneda. Los constructos hipotéticos se
consideran como variables latentes, no observables directamente, en cambio las variables
se pueden definir de forma operativa, es decir, describiendo las operaciones o actividades
que han de realizarse para medir o manipular el objeto estudiado. El investigador ha de
traducir las variables a definiciones observables, cuantificables y medibles.
Por ejemplo, del constructo «inteligencia» (aptitud para enfrentarse a situaciones nuevas
con rapidez y éxito) se puede pasar a la variable «inteligencia» como puntuación obtenida
en un test; del constructo «capacidad de aprendizaje» a la variable «rendimiento escolar»
expresado en las calificaciones escolares.
Las operaciones o actividad que realiza el investigador para pasar del campo teórico, los
constructos, al campo de la realidad observable, variable operativa, se designa como
operativización de la variable. Consiste en encontrar variables más concretas, que sean
representativas de aquéllas asociadas a los constructos.
En la operativización, se enuncian o definen las variables, se deducen sus dimensiones o
aspectos principales y se buscan indicadores o circunstancias empíricas concretas de cada
Capítulo 1
_______________________________________________________________________________________________
8
dimensión. Hay que tener en cuenta que una misma variable puede ser operativizada de
diversas formas.
Para medir la intensidad de la acción explicada por ellas se han establecidos diferentes
sistemas y escalas de medidas. Estas escalas de acuerdo al comportamiento de la propiedad
estudiada, pueden ser nominal, ordinal, de intervalo o de razón.
1.2.1 Escalas de medidas
Siegel (1956), señala cuatro niveles de medida; cada uno posee sus propias características.
En cada uno de ellos, están o no permitidas determinadas operaciones aritméticas. El tipo
de escala depende de las operaciones empíricas que permite efectuar. En orden de
precisión creciente, las cuatro escalas o niveles de medida son: la nominal, la ordinal, la de
intervalos y la de razón.
Escala nominal: En esta escala la medición se da en un nivel elemental, los números u
otros símbolos se usan para la clasificación de objetos, personas o características. Cuando
se usan con el fin de distinguir entre sí los grupos a que pertenecen varios objetos, los
números o símbolos constituyen una escala nominal o clasificatoria. La operación de
escalamiento consiste en partir de una clase dada y formar un conjunto de subclases que se
excluyen mutuamente. La única relación implicada es la de equivalencia, es decir los
miembros de cualquier subclase deben ser equivalentes en la propiedad medida.
Escala ordinal: Puede suceder que los objetos de una categoría de la escala no sean
precisamente diferentes a los objetos de otra categoría de la escala, sino que están
relacionados entre sí. Relaciones típicas entre clases son las que comparan alturas,
preferencia, dificultad, perturbación, madurez, etc. Tales relaciones pueden formularse con
el signo “>”, que significa mayor que. En cuanto a escalas particulares, “>” puede usarse
para designar es preferible a, es más alto que, es más difícil que, etc. Su significado
específico depende de la naturaleza de la relación que define la escala. En un grupo dado
de clases equivalentes si la relación “>” se sostiene entre algunos pares de clases, tenemos
una escala parcialmente ordenada. Si la relación “>” se sostiene en todos los pares de
clases de tal modo que surja un rango ordenado completo, tenemos una escala ordinal.
Escala de intervalo: Cuando una escala tiene todas las características de una escala
ordinal y además conocemos la distancia entre dos números cualesquiera, tenemos una
medición considerablemente más fuerte que la ordinal. En tal caso, la medición se ha
ejecutado en el sentido de una escala de intervalo. La misma está caracterizada por una
Capítulo 1
_______________________________________________________________________________________________
9
unidad de medida común y constante que asigna un número real a todos los pares de
objetos en un conjunto ordenado. La proporción de dos intervalos cualesquiera es
independiente de la unidad de medida y del punto cero.
Escala de razón: Cuando una escala tiene todas las características de una escala de
intervalo y además tiene un punto cero real en su origen, es llamada escala de proporción o
de razón. La proporción de un punto a otro cualquiera de la escala es independiente de la
unidad. Cualquier prueba estadística puede usarse cuando se ha logrado la medida de
proporción.
1.2.2 Clasificación de las variables según la escala de medición
En la Enciclopedia Wikipedia (2007) se encuentra la siguiente clasificación de las variables:
Variables cualitativas: Son las variables que expresan distintas cualidades, características
o modalidad. Cada modalidad que se presenta se denomina atributo o categoría y la
medición consiste en una clasificación de dichos atributos. Las variables cualitativas
pueden ser ordinales o nominales. Las variables cualitativas pueden ser dicotómicas
cuando sólo pueden tomar dos valores posibles: “sí y no”, o son politómicas cuando
pueden adquirir tres o más valores. Dentro de ellas podemos distinguir:
Variable cualitativa ordinal: La variable puede tomar distintos valores ordenados
siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones
sea uniforme, por ejemplo: “leve, moderado, grave”
Variable cualitativa nominal: En esta variable los valores no pueden ser sometidos a un
criterio de orden como por ejemplo: “colores”, “lugar de residencia”.
Variables cuantitativas: Son las variables que se expresan mediante cantidades
numéricas. Las variables cuantitativas además pueden ser:
Variable discreta: Es la variable que presenta separaciones o interrupciones en la escala de
valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de
valores entre los distintos valores específicos que la variable pueda asumir. Ejemplo:
“número de hijos”.
Variable continua: Es la variable que puede adquirir cualquier valor dentro de un intervalo
especificado de valores. Ejemplos: “peso”, “altura”. Está limitada por la precisión del
aparato medidor, en teoría permiten que siempre existe un valor entre dos cualesquiera.
Capítulo 1
_______________________________________________________________________________________________
10
1.3 La covarianza como medida de dependencia entre dos
variables aleatorias.
Para estudiar las asociaciones entre variables se puede usar el concepto de covarianza
como medida de dependencia entre variables aleatorias.
En la teoría de probabilidades se estudia una condición necesaria y suficiente para que dos
variables aleatorias sean independientes. Sean X, Y variables aleatorias con función de
densidad conjunta f(x, y) y funciones de densidades marginales f(x) y f(y). Si se cumple
f(x, y) = f(x)f(y), las variables aleatorias X y Y son independientes. Para usar este
resultado, se necesita tener las funciones de densidades marginales y conjuntas de las
variables. Sin embargo en muchos casos no se conocen dichas densidades, es por ello que
se acude a características numéricas capaces de reflejar los niveles de dependencias entre
ambas variables
Un indicador importante de dependencia entre variables aleatorias es la covarianza entre
ellas. Se define así:
C(X, Y) = E(XY) – E(X)E(Y)
Si las variables aleatorias son independientes se cumple C(X, Y) = 0, es decir:
E(XY) = E(X)E(Y)
Cuando se incrementa la diferencia entre E(XY) y E(X)E(Y), aumenta el valor de la
covarianza, indicando una mayor dependencia entre las variables X e Y.
1.4 Coeficientes de correlaciones
Una forma de explicar la dependencia entre dos variables aleatorias, eliminando las
influencias de las dimensiones en los sistemas de medidas originalmente usados, es el
coeficiente de correlación. Stanton J. (2001) explica que es Sir Francis Galton (1889),
quien tiene el mérito de ser el primero en utilizar la correlación, aunque es su discípulo
Karl Pearson (1857-1936) quien estudia con profundidad sus propiedades.
La selección de un determinado coeficiente de correlación está en dependencia de la escala
de medidas usadas, el tipo de problema a resolver y los objetivos propuestos.
Los coeficientes de correlaciones deben ser fácilmente interpretables y deben estar
acotados de manera que los factores indiquen asociación perfecta o falta de asociación.
Suelen estar normalizados tomando valores entre 0 y 1 ó entre –1 y 1, lo cual permite las
comparaciones entre muestras o poblaciones de diferentes tamaños.
Capítulo 1
_______________________________________________________________________________________________
11
Gibbons (1971), expresa que una buena medida de asociación debe tener las siguientes
propiedades:
1. En el caso de tener una concordancia perfecta, es decir, para cualquier par de
observaciones (Xi, Yi) y (Xj, Yj), se tiene Xi,< Xj si Yi,< Yj, ó Xi,> Xj si Yi,> Yj la
medida de asociación tiene el valor +1.
2. En el caso de tener una disconcordancia perfecta, es decir, para cualquier par de
observaciones (Xi, Yi) y (Xj, Yj), se tiene Xi,< Xj si Yi,> Yj, ó Xi,> Xj si Yi,< Yj la
medida de asociación tiene el valor –1.
3. Si los criterios 1 y 2 no son verdaderos para todos los pares, la medida tiene un
valor en el intervalo [–1, +1].
4. La medida de asociación es cero cuando las variables X e Y son independientes.
5. La medida para X e Y es la misma medida para Y y X, ó –X y –Y ó –Y y –X.
6. El signo de la medida de –X e Y ó –Y y X es opuesto al signo de la medida de
X e Y.
7. La medida debe ser invariante a transformaciones de X e Y para los cuales el orden
de las magnitudes sea preservado.
1.4.1 Coeficiente de correlación de Pearson
Pearson (1896), define una medida de asociación lineal entre dos variables cuantitativas
(discretas ó continuas): X e Y. El coeficiente de correlación entre las variables aleatorias
X e Y se escribe así:
)Y(V)X(V
)Y,X(Cxy
Este coeficiente cumple con la siguiente propiedad:
–1 1
Si X e Y son variables aleatorias independientes, su coeficiente de correlación es cero.
Aunque en general no es verdad que una correlación cero indique independencia, este
coeficiente es una buena medida de la asociación entre las dos variables.
Las variables del fenómeno bajo estudio tienen un coeficiente de correlación poblacional.
Ese coeficiente es generalmente desconocido. Para conocer sobre él se realizan las
observaciones del fenómeno, constituyéndose así una muestra: M. Con el conjunto de
observaciones muestrales es posible estimar el valor del coeficiente de correlación
poblacional.
Capítulo 1
_______________________________________________________________________________________________
12
1.4.2 Coeficientes asociados a una tabla de contingencias
Una medida de asociación entre variables cualitativas nominales es el estadístico
Ji cuadrado. Para su cálculo, se construye una tabla de contingencias donde las f filas se
corresponden con los niveles de la primera variable y las c columnas con los niveles de la
segunda variable.
Para una muestra de n observaciones se determina el número de observaciones de la
muestra con las categorías correspondiente a la fila i y columna j. Este valor recibe el
nombre de frecuencia observada y se representa por nij. Se determina también la frecuencia
esperada bajo el supuesto de variables independientes. Se representa por eij. Pearson (1900)
define el estadístico Ji cuadrado así:
f
1i
c
1j ij
2
ijij2
e
en (1.1)
Mientras mayor sea el valor de χ2 la asociación entre las dos variables es mayor. Cuando se
tiene χ2 = 0, las variables estudiadas son independientes.
Varios coeficientes de correlaciones asociados a las tablas de contingencias son estudiados
en epígrafes del capítulo 2: el coeficiente C de contingencias en el 2.4.1, el coeficiente
V de Cramer en el 2.4.2 y el coeficiente φ en el 2.4.3.
1.4.3 Coeficiente de correlación tetracórica.
Cuando se estudia la asociación entre dos variables cuantitativas, cada una particionada en
dos clases, se usa el coeficiente de correlación tetracórica. Se representa por rt. Las clases
de cada variable son denotadas por 0 y 1. La disposición para su cálculo se muestra en la
siguiente tabla de contingencia 2x2:
Variable Y Total
1 0
Variable X 1 a b a + b
0 c d c + d
Total a + c b + d n
El cálculo de la correlación tetracórica es obtenido por iteración a partir de una serie
infinita en rt, que viene dada (Amón, 1978) por medio de:
Capítulo 1
_______________________________________________________________________________________________
13
24
r)z3z)(z3z(
6
r)1z)(1z(
2
rzzr
yyn
cbad4
t33
3
t22
2
t
t2
donde:
a, b, c, d son las frecuencias observadas de la tabla de contingencias.
n el tamaño de la muestra.
z el valor de la distribución normal donde el área de la izquierda de z es: n
ca
mientras que el área de la derecha de z es: n
db .
z' el valor de la distribución normal donde el área de la izquierda de z es: n
dc
mientras que el área de la derecha de z es: n
ba .
Los valores de y e y' son las ordenadas de la distribución normal correspondientes a
los valores de z y z'.
El signo de rt es positivo si ad > bc, es decir si las concordancias superan a las
discrepancias, y negativo si ad < bc.
Palmer y otros (2000) señalan que existen tablas que permiten obtener el valor aproximado
de rt conocido el valor del cociente bc
ad.
1.4.4 Coeficiente biserial del punto.
Cuando se desea estudiar la asociación entre una variable cuantitativa con una variable
cualitativa nominal dicotómica, se puede usar el coeficiente biserial del punto. Palmer, A.
y otros (2000).
Se codifica la variable dicotómica así:
Sea X = 0 cuando la variable cualitativa nominal adquiere la categoría designada por A
X = 1 cuando la variable cualitativa nominal adquiere la categoría designada por B
Sea p la proporción de elementos de la muestra donde X = 0.
Sea q la proporción de elementos de la muestra donde X = 1.
El coeficiente de correlación biserial del punto se define así:
pqs
yyr
y
qp
bp
Capítulo 1
_______________________________________________________________________________________________
14
py Media aritmética de los valores de la variable Y cuando la variable X = 1.
qy Media aritmética de los valores de la variable Y cuando la variable X = 0.
sy desviación estándar de los valores de la variable Y.
1.4.5 Coeficiente de correlación muestral por ranking de Spearman.
Cuando las dos variables son cualitativas ordinales, es posible estudiar el nexo entre ellas
usando el coeficiente de correlación por ranking de Spearman. Palmer, A., y otros (2000).
Sea n el número de elementos de la muestra. A cada elemento de la muestra se le asignan
los ranking correspondientes de las variables X y Y. Sea x(1), …, x(n) los ranking de la
primera variable y y(1), …, y(n) los ranking de la segunda variable. Para cada elemento se
calcula la diferencia di = x(i) – y(i), como una indicación de la disparidad entre los dos
conjuntos de rangos en esa observación. Cuanto mayor sean las di, tanto menos perfecta es
la asociación entre las dos variables.
El cálculo del coeficiente de correlación sería afectado por el uso directo de las di: las di
negativas cancelarían las positivas cuando se trata de determinar la magnitud de la
discrepancia. Se emplea di2 en lugar de di para eliminar esta dificultad.
Mientras mayores sean los di, mayor será el valor de
n
1i
2
id .
Usando xxii x , y yyi iy la expresión general para un coeficiente de correlación
puede ser escrita:
n
1i
n
1i
2
i
2
i
n
1i
ii
yx
yx
r (1.2)
Como las variables X e Y son cualitativas, es posible usar el ranking del valor original, en
este caso X e Y toman como valores los ranking correspondientes. El coeficiente de
correlación de las medidas originales se transforma en el coeficiente de correlación por
ranking de Spearman a nivel poblacional y se escribe s.
La suma de todos los valores de la variable x(i) corresponde a la suma de los n enteros:
1,…, n es:
Capítulo 1
_______________________________________________________________________________________________
15
n
1i
)i(2
)1n(nX
La suma de los cuadrados:
6
)1n2)(1n(nX
n
1i
2
)i(
Así,
n
1i
2
)i(
2
)i(
n
1i
n
1i
2
)i()i(
2
i xnx)xx(x
12
nn
4
)1n(n
6
)1n2)(1n(n 32n
1i
2
i
x (1.3)
De forma similar
n
1i
32
i12
nny (1.4)
Haciendo ii yx -d i se obtiene:
n
1i
2
i
n
1i
2n
1i
2n
1i
d-2 iiii yxyx (1.5)
Sustituyendo (1.3), (1.4) y (1.5) en (1.2) se tiene la fórmula para el coeficiente de
correlaciones por ranking de Spearman:
n-n
d6
-1r3
n
1i
2
i
S
(1.6)
Las distribuciones muestrales del coeficiente de correlaciones por ranking de Spearman se
estudian para dos alternativas: 1) tamaño de muestra pequeño, (muestras inferiores a 100
unidades) y 2) tamaño de muestra que se incrementa indefinidamente, originando la
distribución asintótica de este coeficiente.
Por esta razón el diseño de la muestra para estudiar correlaciones por ranking de Spearman
debe ajustarse a las variantes anteriores.
Palmer, A., Jiménez, R. y Montaño, J. J (2001) usan la distribución muestral asintótica del
coeficiente de correlación de Spearman:
1n
1;N~Vr s
n
Ls
Capítulo 1
_______________________________________________________________________________________________
16
Es decir, el intervalo de confianza 1– α para el coeficiente de correlación de Spearman es:
1n
1zr
1n
1zr qssqs
1.4.6 Coeficiente de correlación muestral por ranking de Kendall.
Cuando de las dos variables, al menos una es cualitativa ordinal, se puede usar el
coeficiente de correlación de ranking de Kendall, designado por rk. Es una medida de
correlación conveniente para datos que se puedan ordenar. Palmer, A., y otros (2000).
En cada una de las variables se sustituye cada valor por sus respectivos rankings. Los
rankings de la primera variable X se colocan en su orden natural:
x(1) = 1, x(2) = 2,…, x(n) = n .
A cada x(i) de la secuencia anterior se le asocia el ranking de la otra variable en esa unidad
poblacional. Sea y[i] el ranking de Y, cuando X alcanza el ranking i.
X x(1) = 1 x(2) = 2 x(i) = i x(n) = n
Y y[1] y[2] y[i] y[n]
Para h > i, sea αh la cantidad de rangos y(h) que cumplen la propiedad: y(h) > y(i), es decir
la cantidad de concordancias en cuanto al ranking.
Sea γh la cantidad de rangos y(h) donde para h > i se tiene y(h) < y(i), es decir, la cantidad de
discrepancias entre ranking de ambas variables.
La cantidad total de pares de unidades poblacionales a comparar es el número de
variaciones sin repetición de los n elementos de la muestra.
2
)1-n(n
2)!-(n
!nV
)2,n(
Se define Ф de la forma siguiente:
)-( hh
1n
1h
(αh – γh) es la diferencia ente concordancias y discrepancias en cuanto a los ranking,
cuando se compara el h-ésimo ranking de Y. La suma de esas diferencias tiene la siguiente
Capítulo 1
_______________________________________________________________________________________________
17
propiedad, si la suma es igual a las V(n -2), eso quiere decir que no hubo discrepancias entre
los ranking de X y de Y, por lo tanto la concordancia es perfecta, por ello las variables
X e Y están correlacionadas de forma perfecta.
Si las discrepancias son ciertas en su totalidad, Ф toma el valor -V(n-2),. En base a estas
consideraciones se define el coeficiente de correlación por rangos de Kendall:
1)-n(n
2
1
)γ-(α
r
1-n
1hhh
k
(1. 7)
rk asume valores en el intervalo [-1, +1]. Cuando las variables X e Y no están
correlacionadas, el coeficiente de correlación por ranking de Kendall rk toma el valor cero.
1.4.7 Coeficiente G Gamma de Goodman- Kruskal
Nagpaul P. S. (2001), expresa que cuando los valores de las dos variables se pueden
ordenar según sus rankings, el posible nexo entre dichas variables debe ser estudiado
usando el coeficiente G Gamma de Goodman Kruskal.
En este caso los n elementos de la muestra son ordenados de la misma manera que en el
coeficiente de correlación de Kendall.
Sea α el número de pares concordantes
γ el número de pares discordantes.
El coeficiente de correlación gamma G de Goodman-Kruskal se define de la siguiente
manera:
G
Cuando las variables X e Y son independientes, el número de pares concordantes es igual
al número de pares discordantes, el coeficiente gamma toma el valor cero.
Si todos los pares son concordantes, la relación entre X e Y es directa y perfecta. En este
caso el coeficiente gamma toma el valor +1.
Cuando todos los pares son discordantes, la relación entre X e Y es inversa y perfecta. En
este caso el coeficiente gamma tiene el valor -1.
El coeficiente gamma se diferencia del coeficiente de Kendall en el sentido que no
considera los pares donde los rankings están empatados.
18
Capítulo 2: Tablas y coeficientes de contingencias
2.1 Probabilidades de contingencias
La población Π, objeto de estudio, está compuesta por N elementos. En esta población se
investiga la posible asociación entre dos variables cualitativas X e Y. Para ello se necesita
estudiar un coeficiente de correlación que cumpla con las propiedades definidas en el
Capítulo 1. Uno de esos coeficientes es el de contingencias.
El coeficiente de contingencias es calculado desde una tabla de contingencias. En esta tabla
las f filas representan las f categorías de la primera variable X: A1, A2,…, Ai,..., Af y las c
columnas representan las c categorías: B1, B2,..., Bj,..., Bc de la segunda variable Y.
Las f c celdas de la tabla de contingencias contienen las frecuencias de elementos de Π
que tienen las categorías correspondientes a cada celda. En cada celda (i, j) existen Nij
elementos poblacionales, son aquellos donde X alcanza la categoría Ai mientras que Y
alcanza la categoría Bj.
Y
X
B1 B2 … Bj … Bc
A1 N11 N12 … N1j … N1c N1
A2 N21 N22 N2j … N2c N2
Ai Ni1 Ni2 … Nij … Nic Ni
Af Nf1 Nf2 … Nfj … Nfc Nf
N.1 N.2 … Nj … N.c N Tabla 2.1 Tabla de contingencias poblacionales.
Se pueden observar las siguientes relaciones:
c
1j
iji NN
donde Ni· es el número de elementos de la población con la categoría Ai.
f
1i
ijj NN
donde N·j es el número de elementos de la población con la categoría Bj. Además,
Capítulo 2
______________________________________________________________________________________________
19
f
1i
c
1j
ijNN
En la tabla de contingencias anterior se pueden definir las probabilidades asociadas a cada
una de las celdas. Se trata de la probabilidad que tiene un elemento poblacional de
pertenecer a una celda particular. Esta probabilidad para la celda (i, j) está dada por
N
Np
ij
ij (2.1)
Sea pi la probabilidad de que un elemento de la población tenga la categoría Ai y pj la
probabilidad de tener la categoría Bj. Es decir,
N
Np i
i
y N
Np
j
j
(2.2)
La tabla anterior, en función de las probabilidades de contingencias se puede escribir:
Y
X
B1 B2 … Bj … Bc
A1 p11 p12 … p1j … p1c p1
A2 p21 p22 p2j … p2c p2
Ai pi1 pi2 … pij … pic pi
Af pf1 pf2 … pfj … Pfc pf
p1 p2 … pj … pc 1 Tabla 2.2 Tabla de probabilidades de contingencias.
2.1.1 Estimación de probabilidades de contingencias
Una muestra simple aleatoria de tamaño n fijo se clasifica de acuerdo con las categorías de
dos variables aleatorias cualitativas. La distribución a priori de las frecuencias observadas
por casillas usadas en este tipo de muestreo tiene distribución multinomial, la cual es
determinada por el tamaño de la muestra n y las fc probabilidades pij
Sea vij la variable aleatoria cuyos valores es la cantidad de observaciones obtenidas con
categorías Ai y Bj, El valor obtenido se llama frecuencia observada y se escribe nij. Las
probabilidades de ocurrencias de una tabla de contingencias es:
Capítulo 2
______________________________________________________________________________________________
20
fcn
1i
1c
fjijfj
nfj
ijn
ij
1f
1j
c
1j
1c
1j
1f
1i
c
1jf
1i
c
1j
ij
fcfcijij1111
pp1pp
!n
!n
nv,..,nv,..,nvP
por ser pfc=
1f
1i
1c
1j
fj
c
1j
ij pp1
Se estima a continuación la probabilidad del evento que consiste en que una observación
caiga en una determinada celda (i, j) en el esquema multinomial.
Para la muestra aleatoria simple se tiene la función de verosimilitud:
fcfc)1c(f)1c(fijij1111ij nv,nv,..,nv,..,nvP)p(L
fc
fj
n1f
1i
1c
1j
fj
c
1j
ij
1c
1j
n
fj
1f
1i
c
1j
n
ijf
1i
c
1j
ij
ij pp1pp
!n
!n)p(L ij
Aplicando logaritmo natural:
1f
1i
1c
1j
fj
c
1j
ijfc
1f
1i
c
1j
fjfj
1f
1i
c
1j
ijij
f
1i
c
1jf
1i
c
1j
ij
ij
pp1lognplogn
plogn
!n
!nlog)p(Llog
Derivando respecto al parámetro pij se tiene:
fc
fc
ij
ij
ij
ij
p
1n0
p
1n0
p
)p(Llog
(2.3)
Igualando a cero, condición de extremo, (2.3) se transforma en:
0p
n
p
n
fc
fc
ij
ij
Equivalente a
Capítulo 2
______________________________________________________________________________________________
21
ijfcfcij pnpn
Sumando todos los i y j
f
1i
c
1j
ijfc
f
1i
c
1j
ijfc pnnp
pero:
1pynnf
1i
c
1j
ij
f
1i
c
1j
ij
por tanto el estimador de máxima verosimilitud para la probabilidad pfc es:
n
np̂ fc
fc
De forma análoga se puede hacer con cada uno de los f c parámetros pij. O sea el posible
estimador de máxima verosimilitud para la probabilidad pij es:
n
np̂
ij
ij
La segunda derivada de (2.3) respecto al parámetro pij es:
0p
1n
2
ij
ij
Por lo tanto el estimador n
np̂
ij
ij es de máxima verosimilitud.
Si el conjunto (v11, v12,…,vij,…,vfc) tiene distribución multinomial, entonces cada vij es una
variable aleatoria con distribución binomial:
ijij n-n
ij
n
ij
ijij
ijij )p-(1p)!n-(n!n
n!)nP(v (2.4)
Su valor esperado es:
E (vij) = n pij (2.5)
Su varianza es:
V (vij) = n pij (1 - pij). (2.6)
Capítulo 2
______________________________________________________________________________________________
22
2.1.2 Determinación del tamaño de la muestra para estimar probabilidades
de contingencias de una población por medio de la cota superior del error
de muestreo.
En una población finita las probabilidades de contingencias son:N
Np
ij
ij Un aspecto a
resolver, es estimar pij desde la muestra M. La variable aleatoria vij tiene distribución
binomial, por lo tanto en este caso
N
Nn)E(v
ij
ij (2.7)
N
N1
N
Nn)V(v
ijij
ij (2.8)
El estimador de máxima verosimilitud calculado para pij es:
n
np̂
ij
ij
En cada casilla (i-j), usando el teorema central del límite se tiene:
N
N1
N
N
n
1;
N
NNormal~V
n
n ijijij
n
Lij
La variable aleatoria límite de
N
N
n
n ijij es escrita por W. Se cumple:
2
ijij
n
Lijij
N
)NN(N
n
1;0Normal~W
N
N
n
n
La diferencia
N
N
n
n ijijes llamada error de muestreo. En base a su distribución
asintótica Normal, cuando se incrementa el tamaño de la muestra existen los valores
-zq y zq tales que:
P {-zq <
N
N1
N
N
n
1
N
N-
n
n
ijij
ijij
< zq}= γ (2.9)
Capítulo 2
______________________________________________________________________________________________
23
Aquí γ = 1 – α, es la probabilidad de confianza asociada al intervalo (-zq, zq ). El valor de
q es el área a la izquierda de -zq, el valor de esa área, es la mitad del complemento de γ, es
decir 2
.
La diferencia entre la probabilidad de contingencia muestral y la probabilidad de
contingencia poblacional se llama error de muestreo.
Sea Δ la cota superior de ese error de muestreo. Estandarizando la variable W se tiene con
una probabilidad de confianza γ:
N
N1
N
N
n
1z
ijijq
Elevando al cuadrado:
N
N1
N
N
n
1z
ijij2q
2
La fórmula para determinar el tamaño de muestra necesario para estimar pij por un
intervalo de confianza 1 – α es:
N
NN
N
Nzn
ijij
2
2q
(2.10)
En esta fórmula del tamaño de muestra para pij, existe la dificultad de que los valores Nij
son desconocidos, por lo que se requieren adoptar variantes para su cálculo.
Se exponen dos variantes:
1. Por medio de la acotación del producto de probabilidades binomiales.
2. Por medio de un muestreo secuencial.
1) Por medio de la acotación del producto de probabilidades binomiales.
El máximo valor posible del producto de las probabilidades de la distribución Binomial es
0.25. Es decir:
25,0N
N1
N
N ijij
Sustituyendo en (2.10) se tiene el tamaño de muestra:
2
2q
4
zn
(2.11)
Capítulo 2
______________________________________________________________________________________________
24
2) Por medio de un muestreo secuencial.
Este método comienza con una premuestra M0, formada por un número arbitrario de
observaciones que se denota por n0. Para la premuestra M0, se hace el análisis
correspondiente obteniéndose una primera tabla de contingencias donde se pueden estimar
las probabilidades N
N ijpor medio de los cocientes
0
ij
n
n.
Para determinar el tamaño de muestra que garantice un error de muestreo menor que la
cota Δ se debe usar la celda (i, j) donde 0
ij
n
nalcance su mayor valor. En ese caso se escribe:
0
*
ij
0
ij
n
n
n
nmax
Sustituyendo en (2.10):
0
*
ij
0
*
ij
2
2
q
1n
n1
n
nzn (2.12)
Se adicionan nuevas observaciones a la premuestra M0 hasta alcanzar el tamaño n1. La
muestra ampliada se denota por M1 y está compuesta por un número total de n1
observaciones. Para la muestra M1 se realiza el estudio con los elementos muestrales
adicionados. En base a ellos se realiza el cálculo de n2 por medio de:
1
1*
ij
1
1*
ij
2
2
q
2n
n1
n
nzn (2.13)
De forma general, en el paso h se tiene la muestra Mh-1. Se selecciona la mayor frecuencia
observada 1h*
ijn .
Con este valor se calcula el tamaño de muestra del paso siguiente:
1
1*h
ij
1
1*h
ij
2
2
q
hn
n1
n
n
Δ
zn (2.14)
Este procedimiento debe continuarse hasta obtener nh+1 ≤ nh, es decir, hasta que el nuevo
tamaño de muestra tenga un valor menor o similar al tamaño de la muestra anterior.
Capítulo 2
______________________________________________________________________________________________
25
2.1.3 Aplicaciones de las probabilidades de contingencias.
Ejemplo 2.1.3 Sobre el uso de las probabilidades de contingencias.
Con la base de datos del proyecto Mercury de la UFMT (1997), se seleccionan las
variables:
X: Poblado de residencia.
Y: Niveles de contaminación de Mercurio en cabello.
Se desea estimar en cada una de las poblaciones de la bajada cuiabana, al sur de Barão de
Melgaço la probabilidad de contaminación por Mercurio que tienen sus pobladores.
Las seis poblaciones estudiadas son:
Barra de Arica
Piuva y Rancheria
Estirom Cumplido
Puerto Brandom
Cuiaba Mirim
Boca de Conchas
Para obtener las tablas con las probabilidades de incidencias en cada uno de los poblados,
se usa una probabilidad de confianza 0.95 y una cota superior del error de muestreo igual a
0.10 con las cuales se pueden determinan los tamaños de muestras necesarios del
procedimiento secuencial.
Para este propósito, el punto de partida es una muestra inicial M0, cuyo tamaño es fijado en
n0 = 30.
A las 30 personas seleccionadas para M0, se les toma una pequeña muestra de cabellos, los
que son analizados en los laboratorios de la UFMT. El análisis proporciona los valores de
ppm de Hg contenidos en ellos. De acuerdo a los valores alcanzados, las personas se
clasifican así:
no contaminada
normal bajo exposición
contaminada
Los resultados obtenidos aparecen en la tabla 2.3.
Para obtener el tamaño de la muestra M1, se mantiene la misma probabilidad de confianza
y cota superior de error de muestreo y sustituyendo en la fórmula (2.12) por la mayor
probabilidad de contingencia se obtiene el valor n1 = 62.
Capítulo 2
______________________________________________________________________________________________
26
Niveles de Hg Total
Poblados: No
contaminado
Bajo la
norma Contaminado
BARRA DE ARICA
personas 1 3 0 4
Probabilidad ,033 ,100 ,000 ,133
PIUVA + RANCHERIA
Personas 0 1 0 1
Probabilidad ,000 ,033 ,000 ,033
ESTIROM CUMPRIDO
Personas 1 6 0 7
Probabilidad ,033 ,200 ,000 ,233
PUERTO BRANDOM
Personas 4 5 2 11
Probabilidad ,133 ,167 ,067 ,367
CUIABA MIRIM Personas 0 6 1 7
Probabilidad ,000 ,200 ,033 ,233
BOCA DE CONCHAS
Personas 0 0 0 0
Probabilidad ,000 ,000 ,000 ,000
Total Personas 6 21 3 30
Probabilidad ,200 ,700 ,100 1,000
Tabla 2.3 Resultados de M0
Para formar la muestra M1, a las 30 personas de la muestra M0, se le adicionan 32 nuevos
individuos, con ellos se completa el tamaño calculado de 62 personas.
Los cálculos correspondientes a la muestra M1 aparecen en la tabla 2.4.
Niveles de Hg Total
Poblados: No
contaminado
Bajo la
norma Contaminado
BARRA DE ARICA
personas 1 6 2 9
Probabilidad ,016 ,097 ,032 ,145
PIUVA + RANCHERIA
Personas 1 3 1 5
Probabilidad ,016 ,048 ,016 ,081
ESTIROM CUMPRIDO
Personas 2 12 1 15
Probabilidad ,032 ,194 ,016 ,242
PUERTO BRANDOM
Personas 6 10 3 19
Probabilidad ,097 ,161 ,048 ,306
CUIABA MIRIM Personas 1 10 1 12
Probabilidad ,016 ,161 ,016 ,194
BOCA DE CONCHAS
Personas 0 0 2 2
Probabilidad ,000 ,000 ,032 ,032
Total Personas 11 41 10 62
Probabilidad ,177 ,661 ,161 1,000
Tabla 2.4 Resultados de M1
Con la misma probabilidad de confianza y cota superior de error de muestreo y
sustituyendo en la fórmula (2.13) por la mayor probabilidad de contingencia se obtiene el
valor n2 = 61. Como n2 < n1 se detiene el proceso. Por lo tanto M1 se convierte en la
muestra recomendada para la determinación de las probabilidades de contingencias.
Capítulo 2
______________________________________________________________________________________________
27
En base a las estimaciones de probabilidades realizadas en M1, la población con mayor
probabilidad, respecto al total, de tener personas contaminadas es Puerto Brandom con un
valor de 0.048.
2.2 Dócima de hipótesis sobre la independencia de variables en
una tabla de contingencias.
Un importante uso de las tablas de contingencias es cuando se desea conocer si las
variables X e Y son independientes. Es decir, conocer si el evento de que un individuo
tiene una categoría Ai no afecta la probabilidad de que ese individuo tenga la categoría Bj
en la variable Y. En lenguaje de teoría de probabilidades:
P(Bj|Ai) = P(Bj) y P(Ai|Bj) = P(Ai)
Equivale a P(Ai ∙ Bj) = P(Ai) ∙ P(Bj). Cuando la probabilidad de la ocurrencia conjunta de
eventos es igual al producto de las probabilidades de cada uno de ellos, los eventos son
independientes.
En una tabla de contingencias las variables X e Y son independientes si todas las
probabilidades de contingencias son iguales al producto de sus respectivas probabilidades
marginales.
Las probabilidades marginales para las f categorías Ai de la variable X se escriben:
P(Ai) = pi (i = 1,...,f).
De forma análoga las probabilidades marginales para las c categorías de la variable Y se
escriben:
P(Bj) = pj (j = 1,...,c).
La dócima de hipótesis sobre la posible independencia de las variables X e Y tiene como
hipótesis nula:
H0: pij = pi pj (i, j)
Equivalente a la proposición: Las variables X e Y son independientes.
Frente a esta hipótesis se plantea la hipótesis alternativa:
H1: pij ≠ pi pj (i, j)
Cuando ocurre la hipótesis nula H0: pij = pi pj, (i, j), las variables X e Y son
independientes, en cambio si tiene lugar la hipótesis alternativa H1: pij ≠ pi pj para algún
(i, j), existe entonces alguna interacción entre las variables.
Capítulo 2
______________________________________________________________________________________________
28
Cuando se realiza un muestreo aleatorio simple de tamaño n, la distribución conjunta de
(v11, v12,…,vij,…,vfc) tiene dimensión fc-1 teniendo función de verosimilitud:
fc
fjij
n1f
1i
1c
1j
fj
c
1j
ij
1c
1j
n
fj
1f
1i
c
1j
n
ijf
1i
c
1j
ij
fcfcijij1111
pp1pp
!n
n!
nv,..,nv,..,nvP
El espacio paramétrico Ω de esta verosimilitud tiene dimensión fc - 1 alcanzando su
máximo cuando n
np̂
ij
ij .
Para el espacio restringido , donde la hipótesis de independencia es cierta, se tiene la
función de verosimilitud:
c
1j
n
j
f
1i
n
if
1i
c
1j
ij
fcfcijij1111ji pp
!n
!nnv,..,nv,..,nvP
El máximo de esta función de verosimilitud se tiene para n
np̂ i
i
y n
np̂
j
j
, donde
c
1j
iji nn ,
f
1i
ijj nn .
Sea λ la razón de verosimilitud generalizada para esta dócima de hipótesis:
Lmax
Lmaxλ
Ω
Θ
Sustituyendo en las respectivas funciones de verosimilitudes y simplificando queda la
razón de verosimilitud generalizada:
f
1i
c
1j
n
ij
f
1i
f
1i
n
j
n
i
ij
ji
n
n
n
n
n
n
λ
Si la hipótesis nula sobre la independencia entre las variables es cierta, la distribución
límite de -2logλ es una distribución Ji cuadrado con (f-1)(c-1) grados de libertad. Sea:
Capítulo 2
______________________________________________________________________________________________
29
f
1i
c
1j ji
2
ji
ij
2
n
nn
n
nnn
.
Cuando H0: pij = pi pj (i, j) es cierta entonces los dos estadísticos: -2logλ y χ2
convergen a la misma ley de distribución: Ji cuadrado con (f-1)(c-1) grados de libertad.
La cantidad n
nne
ji
ij
equivale a la frecuencia esperada de la celda (i, j) en el caso de
tener variables aleatorias independientes. Por esta razón es válida la fórmula (1.1):
f
1i
c
1j ij
2
ijij2
e
enχ
En la medida que aumenta el valor del estadístico χ2 la asociación de las variables se hace
mayor.
Si 2
α1
2 χχ se rechaza la hipótesis inicial sobre la independencia de las variables
aleatorias. Caso contrario, no se rechaza la posible independencia entre estas variables.
Una corrección para continuidad debida a Yates es usada en determinadas situaciones. Se
trata que el estadístico χ2 construido desde variables aleatorias con distribuciones discretas
tenga distribución límite Ji cuadrado que es continua. Frank Yates (1934) sugiere una
corrección para continuidad la cual ajusta la dócima Ji cuadrado de Pearson sustrayendo
0.5 desde la diferencia en módulo existente entre frecuencia observada y frecuencia
esperada para tablas de contingencias 22. Esta corrección es conveniente para cuando se
tienen células con frecuencias esperadas menor que 5. Su expresión es:
f
1i
c
1j ij
2
ijij
2
Ye
2
1en
El estadístico 2
Y tiene distribución límite Ji cuadrado con (f–1) × (c–1) grados de libertad.
Por esta razón la región crítica para esta dócima es similar, es decir, si 2
1
2
Y se
rechaza la independencia de las variables aleatorias. Caso contrario, no se rechaza esa
posible independencia de estas variables.
Otro estadístico asintóticamente con la misma distribución que el estadístico Ji cuadrado es
el estadístico: razón de verosimilitud (Fisher, 1924, Neyman y Pearson, 1928).
El estadístico razón de verosimilitud se denota por ̂ y se define:
Capítulo 2
______________________________________________________________________________________________
30
f
1i
c
1j ij
ij
ije
nlogn2ˆ
El intervalo de posibles valores de ̂ es: 0 ≤ ̂ < +∞.
Una advertencia: El estadístico ̂ no puede ser usado si una de las frecuencias esperadas
en la tabla de contingencia es cero.
2.2.1 Procedimiento para la dócima de hipótesis sobre independencia de
variables por medio de una tabla de contingencias.
1. Determinar las dos variables cuya posible dependencia se desea encontrar.
2. Plantear la hipótesis inicial de independencia entre las variables.
3. Plantear la hipótesis alternativa de asociación entre esas variables.
4. Fijar la probabilidad de rechazar la hipótesis inicial cuando esta es cierta. Se
representa por α y se le llama probabilidad de cometer un error de tipo I o también
nivel de significación.
5. Asociar una variable a las filas de la tabla de contingencias y la otra a sus
columnas.
6. Definir los niveles de cada una de las variables.
7. Por medio de una muestra de tamaño n, calcular las frecuencias correspondiente a
la combinación de los niveles de las dos variables en cada celda de la tabla de
contingencias. Estas frecuencias se denominan frecuencias observadas y se escriben
como nij.
8. Calcular las frecuencias esperadas de cada una de las celdas por medio del producto
de las frecuencias marginales correspondientes a cada variable dividido por el
tamaño de la muestra.
9. Calcular el valor del estadístico Ji cuadrado 2
m
10. Para el α utilizado, determinar en la distribución Ji cuadrado con (f-1)(c-1) grados
de libertad el valor 2
1 cuya probabilidad de ser superado es α.
11. Realizar la decisión entre la hipótesis inicial y la hipótesis alternativa.
Si 22
α1m χχ se rechaza la hipótesis inicial, es decir, se admite la
asociación entre las variables estudiadas.
Capítulo 2
______________________________________________________________________________________________
31
Si 22
α1m χχ no se rechaza la hipótesis inicial, es decir, se admite la
independencia entre las variables estudiadas.
2.2.2 Aplicaciones de la dócima para determinar dependencias entre
variables aleatorias.
En la dócima sobre independencia entre las variables se deben tener presentes un conjunto
de circunstancias: una de las principales se refiere al número de categorías a usar. No debe
ser tan pequeño que no se pueda estudiar la posible asociación entre las variables ni tan
grande que incremente de forma desproporcionada el número de celdas, en este caso
disminuye tanto la frecuencia absoluta observada como la frecuencia absoluta esperada,
distorsionando los estadísticos utilizados.
Ejemplo 2.2.2 Sobre la dócima de independencia entre variables.
Se desea conocer si en personas hipertensas existe asociación o no entre los antecedentes
de Accidente Cardiovascular y el nivel de Stress. Siguiendo el procedimiento explicado se
desarrollan los siguientes pasos:
1. Las dos variables cuya posible asociación se desea docimar son:
X: Antecedentes de accidente cardiovascular.
Y: Stress.
2. Se plantea la hipótesis inicial equivalente a la afirmación de que ambas variables
son independientes.
3. Se escribe la hipótesis alternativa: Los antecedentes de ACV están asociados a los
niveles de Stress.
4. La probabilidad de rechazar la hipótesis inicial cuando ella es cierta se fija en 0.05.
5. Para realizar esta dócima se asocia la variable ACV a las filas y los niveles de
Stress a las columnas.
6. Los niveles de la primera variables ACV son:
“no” para los hipertensos sin antecedentes cardiovasculares.
“si” para los hipertensos con antecedentes de accidentes cardiovasculares.
En la segunda variable se estudia el nivel de Stress por medio de pruebas que
califican a los hipertensos en Stress Bajo, Stress Medio ó en Stress alto.
7. Se seleccionan 30 casos de hipertensos con accidentes cardiovasculares y otros 30
casos de hipertensos sin accidentes de este tipo. En cada uno por medio de su
Capítulo 2
______________________________________________________________________________________________
32
historia clínica y las pruebas correspondientes se construye la tabla de
contingencias de frecuencias observadas
Antecedentes de ACV vs Stress
Stress Total
Bajo Medio Alto
Antecedentes
de ACV
No 18 10 2 30
Si 5 9 16 30
Total 23 19 18 60
8. Por medio de las frecuencias marginales se calculan las frecuencias esperadas bajo
la hipótesis inicial.
9. El estadístico Ji cuadrado calculado desde las frecuencias observadas y esperadas
de la tabla de contingencias proporciona el valor 2
m = 18,289.
10. Para α = 0.05 y grados de libertad 2, se tiene 991.52
95.
11. Como 22
95.m se rechaza la hipótesis inicial, es decir, existe asociación entre los
antecedentes de accidentes cardiovasculares y los niveles de stress.
2.3 Análisis de los residuos en una tabla de contingencias.
Después de rechazar la hipótesis inicial H0 de variables aleatorias independientes, en una
dócima de hipótesis sobre asociación de variables en una tabla de contingencias, resulta
conveniente realizar un análisis de todos los residuos.
El análisis de los residuos consiste en examinar las discrepancias entre frecuencias
observadas y frecuencias esperadas en cada uno de los términos que forman el estadístico
χ2. Es decir, el análisis de residuos permite detectar la combinación de los niveles de los
factores que pueden ser causantes de tal asociación. Los términos del estadístico χ2 tienen
la forma:
ij
2
ijij
e
)e-n(
nij son los valores de la variable aleatoria vij con distribución binomial, siendo n el número
de pruebas y pij la probabilidad de la ocurrencia del evento.
En cada una de las celdas de la tabla de contingencias se tiene una frecuencia esperada eij
la cual se corresponde con el valor esperado de esa distribución, es decir, eij = npij.
Los residuos estandarizados se definen así:
Capítulo 2
______________________________________________________________________________________________
33
ij
ijij
ije
)e-n(
El vínculo entre el estadístico χ2 y los residuos estandarizados es:
f
1i
c
1j
2
ij
2 εχ
Se tiene:
0)npnp(np
1)(E ijij
ij
ij
ijijij
ij
ij p1)p1(npnp
1)(V
Sea qij = 1-pij la probabilidad del evento: la n-ésima observación NO pertenece a la celda
(i, j). En este caso:
ijij q)(V
La probabilidad de no pertenecer a la celda (i, j) se representa por qij, la probabilidad de no
pertenecer a la fila i por qi y la probabilidad de no pertenecer a la columna j por qj.
Los estimadores de máxima verosimilitud para qij, qi y qj y son:
n
n1p̂1q̂
ij
ijij
n
n1p̂1q̂ i
ii
n
n1p̂1q̂
j
jj
Bajo el supuesto de independencia, o sea, si la hipótesis nula es cierta, se tiene entonces:
jiij qqq
es decir, la probabilidad de no pertenecer a la celda (i, j) es igual al producto de las
probabilidades de no pertenecer ni a la fila i ni a la columna j.
Por esta razón la estimación de V(εij) es:
n
n1
n
n1V̂
jiij
Como consecuencia se definen los “residuos ajustados”:
Capítulo 2
______________________________________________________________________________________________
34
ij
ij
ij
V̂
)ε(d
Usando el teorema central del límite, cuando se incrementa el tamaño de la muestra se
tiene la convergencia en ley de las dij a una distribución normal estándar (0, 1), es decir,
dij N (0; 1)
Con una probabilidad 1 – α se pueden encontrar los valores –zq y zq tales que
1)zdz-P( qijq
De esta forma, los términos del estadístico χ2 tales que qij zd pueden ser los
responsables de la asociación entre las variables aleatorias X e Y.
2.3.1 Tamaño de muestra para el análisis de residuos cuando se usan los
“residuos ajustados” de todas las celdas.
La suma de todos los “residuos ajustados” dij converge también en ley a la distribución
normal, la esperanza matemática de esta suma sigue siendo cero, pero su varianza es fc.
En el caso de los promedios de los “residuos ajustados” se tiene:
n
fc,0N
fc
d
dL
f
1i
c
1j
ij
De forma estándar:
)1,0(N
n
fc
d L
Por lo tanto:
α1)z
n
fc
dz-P( qq
Si n
fczd q , el promedio de los “residuos ajustados” son significativamente diferentes
de cero.
Fijando una cota para el promedio de los “residuos ajustados” se puede determinar un
tamaño de muestra con la confianza de que estos “residuos ajustados” sean bien estimados:
Capítulo 2
______________________________________________________________________________________________
35
n
fczΔ q
Por lo tanto:
2
2
q
Δ
cfzn
(2.15)
Observación: Mientras más aumenten las categorías de las variables X e Y mayor será el
tamaño de muestra requerido.
2.3.2 Aplicación del análisis de residuos
Ejemplo 2.3.2 Sobre el uso del análisis de residuos.
En el Plano director participativo de la ciudad de Tabatinga, interior del estado de
Amazonas, Brasil, se desarrolla una investigación para diagnosticar los principales
problemas de esa ciudad. Entre otras variables, se desea conocer si existe asociación entre
el estar enfermo o no con el tipo de agua usada en sus casas: acueducto o pozo.
La probabilidad de confianza es fijada en 0.95 y el límite superior para el promedio de los
“residuos ajustados” sin significación se fija en 0.1
Sustituyendo en la fórmula (2.15) y redondeando el resultado obtenido a un múltiplo de 10
se tiene n = 1540.
La muestra es constituida por 1540 personas. Ellas son visitadas y después de ser
entrevistadas, se tiene la siguiente tabla de frecuencias observadas:
Tipo de agua Total
Acueducto Pozo artesano
Estar enfermo
ó no
no 856 614 1470
sí 25 45 70
Total 881 659 1540
Se formulan la hipótesis inicial y alternativa:
H0: El tipo de agua es independiente de enfermarse o no.
H1: El tipo de agua es un factor de riesgo para estar enfermo o no.
Capítulo 2
______________________________________________________________________________________________
36
Se usa el procedimiento tabla de contingencias para docimar las hipótesis. Los resultados
del análisis de contingencias se muestran en las tablas 2.5 y 2.6.
Tipo de agua: Totales Acueducto Pozo artesano
Estar enfermo:
no
Frecuencias observadas 856 614 1470
Frecuencias esperadas 841 629 1470
Residuales 15 -15
Residuales estandarizados .5 -.6
Residuales ajustados 3.7 -3.7
sí
Frecuencias observadas 25 45 70
Frecuencias esperadas 40 30 70
Residuales -15 15
Residuales estandarizados -2.4 2.7
Residuales ajustados -3.7 3.7
Totales Frecuencias marginales 881 659 1540
Frecuencias esperadas 881 659 1540
Tabla 2.5 Tabla de contingencia del ejemplo 2.3.2
Valores
grados de libertad
Significación asintótica bilateral.
Estadístico Ji cuadrado
13.839(b) 1 .000
Corrección de Continuidad
12.934 1 .000
Razón de Verosimilitud
13.702 1 .000
Número de casos validos
1540
Tabla 2.6 Resultados del ejemplo 2.3.2
Por medio del estadístico Ji cuadrado se obtiene una asociación significativa entre las dos
variables. Esta significación es ratificada con la corrección de continuidad y la razón de
verosimilitud.
Haciendo el análisis de los residuos en cada una de las celdas de la tabla de contingencias
se observa significación en los cuatro residuales ajustados, por lo tanto, todos los residuos
son significativos.
Por lo tanto el tipo de agua: Acueducto o Pozo artesano influye en el hecho de estar
enfermo o no.
Capítulo 2
______________________________________________________________________________________________
37
2.4 Coeficientes de correlaciones asociados a las tablas de
contingencias.
Cuando es rechazada la hipótesis inicial sobre la independencia de las variables estudiadas
surgen las preguntas: ¿Cuál es la intensidad de la asociación entre esas variables? ¿Cuál es
la dirección en que se produce la asociación?
Son varios los coeficientes de correlaciones usados para estos fines. Entre ellos se pueden
citar los coeficientes: contingencia, V de Cramer y phi.
2.4.1 Coeficiente de contingencia
Se define el coeficiente de contingencia por medio del estadístico χ2. Es usado para medir
el grado de asociación entre dos variables X e Y. Se define así:
2
2
nC
Si las dos variables X e Y son completamente independientes, los valores de C y χ2 son
iguales a cero. Cuando se incrementa el valor de C está implicado un aumento del grado de
asociación entre ambas variables. En la fórmula (1.1) se observa como el coeficiente de
contingencia es menor estricto que uno para cualquier n.
Una desventaja del coeficiente de contingencia es la imposibilidad de alcanzar
exactamente el valor uno. El valor máximo de C es:
u
1uCmax
, donde u = min (f, c)
El valor máximo que puede alcanzar el coeficiente de contingencia depende del número de
categorías de las variables estudiadas. En el caso de una tabla 22 el máximo valor de
C es 0.7071, en cambio para una tabla 33 es 0.8165. Esto origina otra desventaja, dos
coeficientes de contingencias no son comparables, a menos que ellos sean calculados de
tablas de contingencias del mismo tamaño.
En el ejemplo 2.3.2 el coeficiente de contingencia C = .048 con probabilidad de
significación 0.007. Es interesante observar lo siguiente: Aunque el valor del coeficiente es
pequeño, sin embargo es significativamente diferente de cero, lo cual ratifica la no
independencia entre las variables.
Capítulo 2
______________________________________________________________________________________________
38
2.4.2 Coeficiente V de Cramer
Un coeficiente dependiente del estadístico χ2 de uso frecuente es el coeficiente V de
Cramer. Se define de la siguiente forma:
gnV
2
, donde g = min (f-1, c-1)
V alcanza valores entre 0 y 1.
Cero: cuando el estadístico χ2 es cero, es decir, cuando todas las frecuencias
observadas son iguales a todas las frecuencias esperadas. Significa que las variables
estudiadas son independientes.
Uno: cuando las dos variables tienen iguales marginales.
Una ventaja de este coeficiente consiste en la posibilidad de calcular su distribución
muestral y así poder determinar su error típico de estimación.
En el ejemplo 2.3.2 el coeficiente V de Cramer tiene el siguiente valor V = .048 con
probabilidad de significación 0.007. Se observa la coincidencia entre la contingencia y el
coeficiente V de Cramer en este ejemplo.
2.4.3 Coeficiente φ (phi)
Una importante medida basada en el estadístico Ji cuadrado es el coeficiente φ (phi). El
estadístico Ji cuadrado depende del tamaño de la muestra y el nivel de asociación existente
entre las variables estudiadas. El coeficiente φ elimina el factor “tamaño de muestra” al
dividir el valor del coeficiente χ2 por n (tamaño de muestra).
n
2
Tiene la ventaja que su distribución muestral es conocida, por lo cual se puede calcular su
error estándar de estimación.
Como desventaja principal tiene que puede ser mayor que uno, lo cual afecta sus
propiedades como medida de asociación entre las variables.
En el ejemplo 2.3.2 el coeficiente φ alcanza el siguiente valor φ = .048 con probabilidad de
significación 0.007. Como se observa en el ejemplo, los coeficientes de contingencia, V de
Cramer y φ coinciden en valor y significación lo cual ratifica la asociación entre las
variables estudiadas.
39
Capítulo 3: Coeficiente de correlación de Pearson.
En este capítulo se examina uno de los principales coeficientes de correlaciones para
variables medidas en escalas por intervalos o de razón. Es el coeficiente de correlación de
Pearson. Se define el coeficiente para una población y se hacen cálculos para obtener
tamaños de muestras necesarios para hacer estimaciones por intervalos de confianza de
este coeficiente a nivel poblacional, con un bajo nivel de errores y una alta precisión. De
igual forma se determina el tamaño de muestra necesario para hacer dócimas de hipótesis
sobre la significación del coeficiente. Con el propósito de ilustrar estos aspectos, se
presentan aplicaciones usando el coeficiente de correlaciones muestral de Pearson.
3.1 Coeficiente de correlación de Pearson para una población.
Cuando en el fenómeno estudiado las dos variables son cuantitativas se usa el coeficiente
de correlaciones de Pearson. Es llamado así en homenaje a Karl Pearson. Las dos
variables son designadas por X e Y.
El coeficiente de correlación poblacional de Pearson para las variables X e Y se define así:
)Y(V)X(V
)Y,X(C
Este coeficiente es una medida de la relación lineal entre las dos variables. El valor de
está dentro del intervalo [-1, +1]. El valor -1 representa una perfecta correlación negativa
mientras que el valor +1 representa una perfecta correlación positiva. El valor 0 representa
falta de correlación. Cuando las variables X e Y son independientes, el numerador se anula
y el coeficiente de correlación poblacional tiene el valor cero. En cambio una correlación
nula no implica la independencia de variables.
3.1.1 Interpretación geométrica de
Los datos poblacionales proporcionan parejas de valores para cada elemento de la
población: (Xi, Yi), i = 1, 2,…, N, la fórmula de la covarianza, en este caso, es
N
1i
iiXY )Y-)(YX-(XS
Capítulo 3
______________________________________________________________________________________________
40
Se pueden escribir las observaciones poblacionales en forma de vectores, de la siguiente
manera:
)Y,...,Y(Y
)X,...,X(X
)Y,...,Y(Y
)X,...,X(X
N1
N1
=
=
=
=
Usando las notaciones del producto escalar de vectores se tiene:
YY
22
Y
XX
22
X
XY
SY-YN
1)Y-Y)(Y-Y(
N
1S
SX-XN
1)X-X)(X-X(
N
1S
)Y-Y)(X-X(N
1S
===
===
=
Con esta descripción geométrica de las varianzas y covarianzas, podemos poner de
manifiesto la existencia de paralelismo entre las desviaciones de las variables X e Y, con
respecto a sus centros de gravedad ya que
θcosY-YX-X)Y-Y)(X-X(
donde θ es el ángulo entre los vectores )X-X(
y )Y-Y(
.
O sea, el coeficiente de correlación poblacional de Pearson es el coseno del ángulo
formado por los vectores )X-X(
y )Y-Y(
, siendo = cos θ.
Figura 3.1
Si los vectores )X-X(
y )Y-Y(
son totalmente paralelos entonces cos θ = 1. En este
caso existirá una constante de proporcionalidad m tal que:
Capítulo 3
______________________________________________________________________________________________
41
)Y-Y(
= m )Y-Y(
Como ρ = cos θ, entonces = 1, lo cual significa que los valores de X e Y en el plano
cartesiano correspondiente están perfectamente alineados. Cuando ρ = -1, entonces existe
una dependencia lineal perfecta decreciente como puede apreciarse en la Figura 3.2.
Figura 3.2
En cambio si ρ = +1, la dependencia lineal es perfecta y creciente. Obsérvese la Figura 3.3.
Figura 3.3
Capítulo 3
______________________________________________________________________________________________
42
3.2 Estimación puntual del coeficiente de correlación poblacional
de Pearson por medio de una muestra aleatoria simple
En el fenómeno estudiado se realizan observaciones con el propósito de tener una muestra
M. Sea n el número de elementos muestrales. En cada elemento muestral se miden las
variables X e Y formando la muestra compuesta por: (x1; y1), (x2; y2),…, (xn; yn). Con
estos datos se construye un estimador puntual para el coeficiente de correlación
poblacional de Pearson. Este estimador se representa por r.
Es decir, el estimador puntual del coeficiente de correlaciones poblacional es:
∑∑
∑n
1i
2
i
n
1i
2
i
n
1i
ii
)y-(y)x-(x
)y-)(yx-(x
r (3.1)
El subíndice i cuenta las observaciones muestrales, en este caso i = 1, 2,…, n.
Al estimador r se le denomina coeficiente de correlación muestral de Pearson. Como el
valor de r es función de los valores muestrales obtenidos, el estimador es una variable
aleatoria. Es decir, para cada selección muestral de la misma población, r toma un valor
diferente.
Una tarea es conocer la distribución del coeficiente de correlación muestral.
3.2.1 Distribuciones muestrales asociadas al coeficiente de correlaciones de
Pearson
Para el caso de variables aleatorias con distribución normal bivariada, Fisher [1] encontró
para una muestra de tamaño n, la distribución muestral de r. Este estimador tiene función
de densidad:
)1in(2
1
!i
)r2(
)!1n(
)r1()1(2);r(f 2
0i
i2
2n
22
1n
21n
(3.2)
Por medio de transformaciones,
-1
n)-r(U
2
→Z distribuido N(0,1) (3.3)
es decir, U converge en ley a la variable aleatoria Z con distribución normal estándar.
Capítulo 3
______________________________________________________________________________________________
43
Cuando ρ = 0 la función de densidad del coeficiente de correlación muestral de Pearson es:
1r1
!2
4n
)r1(!2
3n
)r(f
2
4n
2
(3.4)
Esta función de densidad es similar a la función de densidad de la distribución t de Student.
Por medio de la siguiente transformación se puede obtener.
2r-1
2-nrt = . (3.5)
con distribución t de Student con n – 2 grados de libertad cuando ρ = 0.
Cuando ρ ≠ 0, la función de densidad de r se estudia con ayuda del estadístico:
r - 1
r1ln
2
1Zr
+= (3.6)
Zr tiene distribución normal siendo E(Zr) = Zρ y V(Zr) =3-n
1 .
Aquí,
-1
1ln
2
1Z
3.3 Estimación por intervalo del coeficiente de correlaciones
poblacional de Pearson
Ya se ha examinado la estimación puntual de este coeficiente, pero eso no es suficiente, se
necesita conocer el error originado por el muestreo, así como la probabilidad de tener el
verdadero valor de ρ próximo al valor obtenido. Para estos casos se usa una estimación por
intervalo de confianza.
Un intervalo de confianza, es aquel intervalo donde se encuentra el valor del parámetro
desconocido con una probabilidad de confianza γ. Se denota por L la longitud del intervalo
de confianza.
Para estimar el coeficiente de correlación de Pearson por medio de un intervalo de
confianza se usan las distribuciones muestrales de r. Desde la expresión (3.6) se deduce
que la expresión: ZZ3nZ r tiene distribución normal estándar. Por lo tanto, con
probabilidad 1 – α se cumple:
Capítulo 3
______________________________________________________________________________________________
44
qr z1
1ln
2
1Z3nz
q
donde
21
2
zq
zyzqz
.
A continuación se despeja ρ en dicho intervalo
3n
z
1
1ln
2
1Z
3n
z qr
q
rq
r Z3n
z
1
1ln
2
1Z
3n
z
q
3-n
zZ
-1
1ln
2
1
3-n
z-Z
q
rr
q
(3.7)
(3.7)en para,-
doSustituyen , 1 ρ 1- ρ1
ρ1ln
2
1 ρtanh
-1
3n
zZ
3n
zZ tieneSe
q
r
1-
r
tanh q
como -1tanh htan
El intervalo de confianza para el coeficiente de correlación ρ es:
]3-n
z Ztanh[]
3-n
z -Ztanh[
q
r
q
r (3.8)
3.3.1 Tamaño de muestra necesario, para estimar por un intervalo de
confianza, el coeficiente de correlaciones poblacional de Pearson
Cuando se fija la longitud del intervalo de confianza para el coeficiente de correlación
poblacional , es posible determinar el valor de n, o sea el tamaño de la muestra con el
cual se garantiza un límite del error de muestreo menor que la semi-amplitud del intervalo
de confianza.
Capítulo 3
______________________________________________________________________________________________
45
Sea L la longitud del intervalo de confianza para estimar ρ con una probabilidad de
confianza 1 – α., desde (3.8) se tiene:
]3-n
z -Ztanh[ - ]
3-n
z Ztanh[
q
r
q
rL += (3.9)
Como se cumplen:
)bcosh()acosh(
)ba(senh)btanh()atanh(
(3.10)
2
)bacosh()bacosh()bcosh()acosh(
(3.11)
Usando (3.10) se tiene en (3.9):
3n
qz
rZcosh
3n
qz
rZcosh
3n
qz 2
senh
L (3.12)
Usando (3.11) en (3.12):
3n
qz 2
coshr
Z2cosh
3n
qz 2
senh 2
L (3.13)
2
eexcoshy
2
eexsenh Utilizando
xxxx
se tiene en (3.13):
3n
qz2
e3n
qz2
erz2erz2
e
3n
qz2
e23n
qz2
e2L
Efectuando:
0 2 L 3n
qz 2
e rZ2e rZ2
e L 3n
qz 4
e 2L
Haciendo 3n
qz 2
ey
Capítulo 3
______________________________________________________________________________________________
46
0 2 L y rZ2e rZ2
e L 2y 2L
Resolviendo la ecuación de segundo grado
2)2(L
162
)r2zer2z
(e2
L)r2zer2z
L(e3n
q2z
e
Despejando n se tiene:
3
1)2(r2)(L
21)2(r2r2L212rL2ln
2q4z
n
Como 22222 1rrL21rL y 0)1r)(2L( 2 el doble signo de la raíz se
convierte en positivo.
De esta forma el tamaño de muestra para estimar el coeficiente de correlación de Pearson
por medio de un intervalo de confianza de longitud L es:
3
1)2(r2)(L
21)2(r2r2L212rL2ln
2q4z
n
(3.14)
Observaciones:
1. En la misma medida que el valor del coeficiente de correlación pre-muestral se hace
menor, aumenta el valor del tamaño de muestra.
2. Una reducción de la probabilidad de confianza afecta en poca medida el tamaño de la
muestra.
3. El elemento de la fórmula (3.14) que influye más decisivamente en el valor de n es la
longitud del intervalo de confianza. Compare en la Tabla 3.1 los valores de n para l = 0.2
con los valores de n para l = 0.1
3.3.2 Implementación del muestreo
Para implementar el muestreo en primer término se debe seleccionar el tamaño del
intervalo y la probabilidad de confianza. Por medio de una muestra inicial tener un primer
valor del coeficiente de correlación muestral de Pearson. Con esos datos, ir a la fórmula
(3.14) y calcular el tamaño de muestra.
Capítulo 3
______________________________________________________________________________________________
47
Ejemplo 3.3.2 Sobre el tamaño de muestra necesario para obtener un intervalo de
confianza del coeficiente de correlación.
Se supone que se desea calcular un intervalo de confianza de longitud 0.2 y probabilidad
0.95 para estimar el coeficiente de correlación de Pearson. Desde una muestra inicial se
obtiene un coeficiente de correlación muestral 0.4. ¿Cuál debe ser el tamaño de la muestra
definitiva?
Aquí r = 0.4 L = 0.2 γ = 0.95 lo cual implica zq = 1.96, Sustituyendo se tiene el tamaño
de muestra 273.
Una tabla de valores de n para γ = 0.95, con valores de L = 0.1 ó 0.2 y diferentes valores de
r aparece en la tabla A.1 del anexo A.
Una vez calculado el tamaño de muestra, es decir, el valor de n, por un procedimiento
aleatorio, se selecciona un número n de unidades de la población. Es importante garantizar
que todas las unidades poblacionales tengan la misma probabilidad de pertenecer a la
muestra.
Una vez realizado el muestreo y hecho el cálculo del nuevo coeficiente de correlación
muestral, este valor debe ser comparado con el valor obtenido en la premuestra. Si la
discrepancia es acentuada, debe ser calculado un nuevo tamaño de muestra n1, y realizar
n – n1 observaciones adicionales. Este proceso se debe continuar hasta que las diferencias
entre los valores de r converjan a cero.
Ya estabilizadas las correlaciones muestrales, la estimación puntual del coeficiente de
correlación poblacional es usada para construir el intervalo de confianza para el coeficiente
de correlación poblacional.
3.3.3 Aplicaciones de la estimación por intervalo de confianza del
coeficiente de correlación de Pearson.
Ejemplo 3.3.3 Sobre la estimación de un intervalo de confianza para el coeficiente de
correlación de Pearson.
En la estación meteorológica de Benjamin Constant en el estado de Amazonas, Brasil se
desea estimar el valor del coeficiente de correlación entre la temperatura del aire a la 1pm
y la humedad relativa también a la 1pm. Esta estimación se desea hacer con un error del
muestreo en el coeficiente de correlación muestral menor de 0.1. La probabilidad de
confianza está fijada en 0.95.
Capítulo 3
______________________________________________________________________________________________
48
Se toma el mes de Junio 2000 como premuestra, para esos 30 días se obtiene un coeficiente
de correlación de Pearson igual a – 0.6084. Sustituyendo este valor en la fórmula (3.14),
se obtiene el tamaño de muestra necesario para este tipo de estimación, en este caso,
n = 156.
Para la estimación del coeficiente de correlación poblacional se usa en definitiva una
muestra de 184 observaciones formada por los datos meteorológicos de Mayo, Junio y
Julio del 2000 más los datos meteorológicos de Mayo, Junio y Julio del 2001.
Con estas 184 observaciones se obtiene un coeficiente de correlación muestral: – 0.5281.
Es decir
r = – 0.5281
Para construir el intervalo de confianza para el coeficiente de correlación de la población
se requiere calcular Zr, usando la fórmula (3.6), se tiene
Zr = – 0.5875.
El límite inferior del intervalo de confianza es
L1 = )3-n
z -(Ztanh
q
r = tanh (– 0.5875 – 3-184
96,1) = tanh (– 0.7332) = – 0.6250
El límite superior del intervalo de confianza es
L2 = )3-n
z (Ztanh
q
r + = tanh (– 0.5875 +3-184
96,1) = tanh (– 0.4418) = – 0.4152
Es decir, con probabilidad de confianza 0.95 se puede decir:
– 0.6250 < ρ < – 0.4152
Esto es, el coeficiente de correlación entre la temperatura al aire 1PM y la humedad
relativa 1PM en la estación meteorológica de Benjamín Constant, Amazonas, Brasil, está
entre – 0.625 y – 0.4152.
3.4 Dócimas de hipótesis sobre el coeficiente de correlación de
Pearson.
Si el propósito es realizar una dócima sobre la significación del coeficiente de correlación
de Pearson, la determinación del número de unidades muestrales es necesario hacerlo de
manera diferente.
3.4.1 Determinación del tamaño de la muestra.
Si se quiere llevar a cabo un estudio con el fin de determinar si existe o no una relación
significativa entre dos variables numéricas X e Y. Para llevar a cabo la investigación, se
recoge una muestra de individuos en donde de cada uno de ellos se determina el valor que
Capítulo 3
______________________________________________________________________________________________
49
toma cada una de las dos variables. A continuación se muestra cómo calcular el tamaño de
muestra necesario para contrastar la hipótesis inicial H0: ρ = 0 versus H1: ρ ≠ 0.
Como se dijo anteriormente, la distribución muestral del coeficiente de Pearson no es
normal, pero bajo la suposición de que las dos variables de estudio presentan una
distribución normal bivariada, el coeficiente de correlación de Pearson puede
transformarse para conseguir un valor de z que sigue una distribución normal.
r
rz
1
1ln
2
1
Siendo el error estándar de z aproximadamente igual a 3n
1
.
Utilizando esta aproximación, se obtiene fácilmente una fórmula para el cálculo del
número de unidades a muestrear. Se precisa conocer:
1. La magnitud de la correlación que se desea detectar ρ. esto es, se precisa tener una
idea, a partir de publicaciones o estudios previos, del valor aproximado del
coeficiente de correlación existente entre las dos variables a estudiar.
2. El nivel de confianza, con el cual se desea trabajar: 1 – α. Siendo α la probabilidad
de cometer un error de tipo I.
3. La potencia de la dócima 1 – β. Siendo β la probabilidad de cometer un error de
tipo II.
4. Se debe precisar además si el contraste de hipótesis se va a realizar con un
planteamiento unilateral (el ρ calculado es mayor o menor de cero) o bilateral (el ρ
calculado es diferente de cero).
Si se dispone de los datos anteriores, el cálculo del tamaño muestral con un planteamiento
bilateral puede realizarse mediante la expresión:
3
r1
r1ln
2
1
zz
n
2
1
21
donde los valores z1-α/2 y z1-β se obtienen desde la distribución normal estándar una vez
elegidos los valores de α y β.
En el Anexo, en la tabla A.3 aparecen tamaños de muestras para diferentes valores del
coeficiente de correlación muestral, α = P(I) = 0.05, 1– β = 1– P(II) = 0.90
Para un planteamiento unilateral, el razonamiento es análogo, llegando a la siguiente
fórmula para el cálculo del tamaño muestral:
Capítulo 3
______________________________________________________________________________________________
50
3
r1
r1ln
2
1
zzn
2
11
Las fórmulas anteriores pueden modificarse con el fin de ajustar el tamaño muestral
previsto para el estudio a posibles pérdidas de información que se pueden producir durante
el desarrollo del mismo. Así, asumiendo un porcentaje de pérdidas g, el tamaño de la
muestra a estudiar vendrá dado por g1
n'n
, donde n denota el valor del tamaño muestral
calculado por cualquiera de las dos fórmulas anteriores según el caso.
3.4.2 Aplicaciones del diseño muestral a las dócimas de hipótesis sobre el
coeficiente de correlación de Pearson.
Ejemplo 3.4.2 Sobre las dócimas asociadas al coeficiente de correlación de Pearson.
Se desea estudiar las correlaciones entre las tensiones arteriales “máximas y mínimas”, y la
edad. Usando la base de datos Mercury de la UFMT. Se seleccionan 224 personas cuya
distribución por edades aparece en el siguiente gráfico:
Gráfico 1
Capítulo 3
______________________________________________________________________________________________
51
Los coeficientes de correlaciones entre las variables estudiadas aparecen en la tabla:
Tensión arterial máxima
Tensión arterial mínima
Frecuencia cardiaca
Edad
Tensión arterial máxima Correlación de Pearson 1 ,794(**) -,082 ,579(**)
Significación bilateral . ,000 ,221 ,000
n 224 224 224 224
Tensión arterial mínima Correlación de Pearson ,794(**) 1 -,114 ,605(**)
Significación bilateral ,000 . ,088 ,000
n 224 224 224 224
Frecuencia cardiaca Correlación de Pearson -,082 -,114 1 -,074
Significación bilateral ,221 ,088 . ,272
n 224 224 224 224
Edad Correlación de Pearson ,579(**) ,605(**) -,074 1
Significación bilateral ,000 ,000 ,272 .
N 224 224 224 224
Tabla 3.1 Matriz de correlaciones del ejemplo 3.4.2
Como el máximo interés es determinar si existe correlación significativa α = P(I) = 0.05
con β = P(II) = 0.10 entre las tensiones arteriales y la edad se usa el valor de r = 0.6 para
determinar el tamaño de muestra necesario. Usando la tabla A.3 del Anexo 3 se encuentra
n = 25, por ello se mantiene como válida la muestra de 224 personas.
Se puede observar en la muestra estudiada un coeficiente de correlación positivo entre
tensión arterial máxima y mínima con valor 0.7944 altamente significativo.
La edad tiene correlación positiva altamente significativa con la tensión arterial máxima y
la tensión arterial mínima. En cambio no correlaciona con la frecuencia cardiaca, aunque
su signo es negativo.
52
Conclusiones:
1. El coeficiente de correlación debe ser seleccionado en base a las escalas de medidas
usadas en cada una de las variables.
2. La determinación del tamaño de muestra en las de tablas de contingencias varia
según sea el objetivo:
a) Determinar probabilidades de incidencias.
b) Docimar independencias entres dos variables.
c) Analizar la asociación entre las variables.
3. El tamaño de muestra para construir intervalo de confianza para el coeficiente de
correlación poblacional de Pearson es función de la longitud del intervalo, de la
probabilidad de confianza y del coeficiente de correlación muestral. Por esta razón
se sugiere un procedimiento secuencial para este propósito.
4. El tamaño de muestra para docimar la significación del coeficiente de correlación
poblacional de Pearson es función de las probabilidades de cometer errores del tipo
I y del tipo II y del valor del coeficiente de correlación muestral. Por esta razón se
sugiere un procedimiento secuencial para esta dócima.
53
Recomendaciones:
1. Estudiar procedimientos de muestreos para los coeficientes de correlaciones de
Spearman, Kendall, Gamma, …
2. Continuar profundizando sobre las propiedades asintóticas de los tamaños de
muestras.
3. Extender los estudios de muestreos para los análisis de correlaciones con más de
dos variables.
54
Bibliografía:
Amon, J. (1978), Estadística para psicólogos 1. Estadística descriptiva, Ed. Pirámide.
Madrid.
Anderson, T.W., (1958), An Introduction to Multivariate Statistical York, Ed. John Wiley
and Sons, Inc. New York.
Briones (1987), Métodos y técnicas de investigación social. Editorial Trillas. México.
Cué J.L., E. Castell y J. M. Hernández, (1987), Estadística II, Ministerio de Educación
Superior. Ediciones UH. Ciudad Habana. Cuba
Daniel, W., (1990), Applied nonparametric statistics, 2ª ed. Boston: PWS-KENT.
Fisher, R.A. (1915), Frequency distribution of the values of the correlation coefficient in
samples from an indefinitely large population, Biometrika, 10, 507-521.
Fisher, R.A. (1924), The distribution of the partial correlation coefficient, Metron 3, 329-
332.
Fisz M. (1963), Probability Theory and Mathematical Statistics, Ed. John Wiley and Sons,
Inc. New York.
Galton, F. (1889), Natural Inheritance, Ed. Macmillan and Co. London.
Gibbons, J.D., (1971), Nonparametric Statistical Inference, McGraw-Hill Book Company.
New York.
Hoel, P. G., (1962), Introducción a la Estadistica Matemática, Ed. John Wiley and Sons,
Inc. New York.
Latorre, A., Del Rincón, I y Arnal, A. (1996), Bases metodológicas de la investigación
educativa, Yordi Hurtado Mampeó- Editor Barcelona, España.
Linares, G., (1990), Análisis de Datos, Ministerio de Educación Superior. Ediciones UH.
Ciudad Habana. Cuba
Nagpaul, P. S. (2001), Guide to Advanced Data Analysis using IDAMS Software,
http://www.unesco.org/webworld/idams/advguide/TOC.htm
Neyman, J. y E. S. Pearson (1928), On the use and interpretation of certain test criteria for
purpose of statistical inference, Biometrika 20A, 175-240 y 263-294.
Palmer, A.; Jiménez, R. y J. J. Montaño, (2000), Tutorial sobre el coeficiente de
correlación con una ó dos variables categóricas, Revista Electrónica De Psicología
Vol. 4, número 2 ISSN 1137-8492.
http://www.psiquiatria.com/psicologia/revista/50/2830
Bibliografía
______________________________________________________________________________________________
55
Palmer, A.; Jiménez, R. y J. J. Montaño, (2001), Tutorial sobre el coeficiente de
correlación lineal de Pearson, Revista Electrónica De Psicología Vol. 5, número 1
ISSN 1137-8492 http://www.psiquiatria.com/psicologia/revista/51/2815
Pearson, K. (1896), Mathematical Contributions to the Theory of Evolution. III.
Regression, Heredity and Panmixia, Philosophical Transactions of the Royal Society
of London, 187, 253-318.
Pearson, K. (1900), On a criterion that a given system of deviations from the probable in
the case of a correlated system of variables is such that it can reasonably supposed to
have arisen from random sampling, Philos. Mag., Ser. 5, 50, 157-175.
Rao, C. R. (1973), Linear Statistical inference and its Applications, 2nd Edition. Editorial
John Wiley and Sons, Inc. New York.
Siegel, S., (1956), Non-parametric Statistics for the Behavioral Sciences, McGraw-Hill
Book Company. New York.
Stanton J. M. (2001), Galton, Pearson, and the Peas: A Brief History of Linear Regression
for Statistics Instructors, Journal of Statistics Education Volume 9, Number 3
Quantitative Methods in Public Administration Phi, the contingency coefficient,
Tschuprow’s T, y Cramer’s V.
“http://www2.chass.ncsu.edu/garson/pa765/assocnominal.htm”
Wikipedia, la enciclopedia libre (2007), Variable estadística, Wikipedia Foundation , Inc
“http://es.wikipedia.org/wiki/Variable_estadÃstica”
Wilks S. S., (1962), Mathematical Statistics, Editorial John Wiley and Sons, Inc. New
York.
Yates, F (1934). Contingency table involving small numbers and the χ2 test. Journal of the
Royal Statistical Society (Supplement) 1: 217-235.
56
Anexos
Anexo 1 Selección de los coeficientes de correlaciones de acuerdo
a las escalas de medidas usadas en las variables.
Escalas de medidas usadas en las
variables Coeficiente Notación Recorrido
Variable cualitativa nominal
versus
variable cualitativa nominal:
Contingencia. C u
1uC0
u = min. {f, c}
V de Cramer. V 0 ≤ V ≤ 1
Coeficiente φ. Φ 0 ≤ φ ≤ +∞
Variable cualitativa nominal dicotómica
versus
variable cuantitativa continua: Biserial del punto. Rbp -∞ ≤ rbp ≤ +∞
Variable cuantitativa continua
particionada en dos clases versus
variable cuantitativa continua
particionada en dos clases:
Tetracórica. RT -∞ ≤ rT ≤ +∞
Variable cualitativa ordinal versus
variable cualitativa ordinal ó
variables cuantitativas cuyos valores
son reemplazados por rankings.
Spearman. RS -1 ≤ rS ≤ 1
Variable cualitativa ordinal versus
variable cualitativa ordinal ó
variables cuantitativas cuyos valores
son reemplazados por rankings.
Kendall. RK -1 ≤ rK ≤ 1
Variables cuyos valores son
reemplazados por rankings.
Gamma de
Goodman-
Kruskall
G -1 ≤ G ≤ 1
Variable cuantitativa versus variable
cuantitativa: Pearson r -1 ≤ r ≤ 1
Tabla A.1 Escalas de medidas de las variables y coeficientes de correlaciones usados.
Anexos
______________________________________________________________________________________________
57
Anexo 2 Tamaños de muestras para construir intervalos de confianza para
el coeficiente de correlación de Pearson.
L r z.975 n L r z.975 n
.10 .00 1.96 1537 .20 .00 1.96 385
.10 .05 1.96 1529 .20 .05 1.96 383
.10 .10 1.96 1507 .20 .10 1.96 377
.10 .15 1.96 1469 .20 .15 1.96 368
.10 .20 1.96 1417 .20 .20 1.96 355
.10 .25 1.96 1351 .20 .25 1.96 339
.10 .30 1.96 1274 .20 .30 1.96 319
.10 .35 1.96 1185 .20 .35 1.96 297
.10 .40 1.96 1086 .20 .40 1.96 273
.10 .45 1.96 979 .20 .45 1.96 246
.10 .50 1.96 867 .20 .50 1.96 218
.10 .55 1.96 750 .20 .55 1.96 190
.10 .60 1.96 633 .20 .60 1.96 161
.10 .65 1.96 516 .20 .65 1.96 132
.10 .70 1.96 404 .20 .70 1.96 104
.10 .75 1.96 299 .20 .75 1.96 78
.10 .80 1.96 204 .20 .80 1.96 55
.10 .85 1.96 124 .20 .85 1.96 35
.10 .90 1.96 62 .20 .90 1.96 20
.10 .95 1.96 21 .20 .95 1.96 10
TABLA A.2
Tamaños de muestras para construir un intervalo de confianza del coeficiente de
correlación poblacional de Pearson para valores de L y r con γ = 0.95
Nota: Los tamaños de muestras en las líneas sombreadas no son confiables, por ser
calculados con procedimientos asintóticos, validos sólo cuando n es grande.
Anexos
______________________________________________________________________________________________
58
Anexo 3 Tamaños de muestras para docimar la significación del coeficiente
de correlación de Pearson.
α z.975 β 1-β z.90 r n
.05 1.96 .10 .90 1.28 .05 4195
.05 1.96 .10 .90 1.28 .10 1046
.05 1.96 .10 .90 1.28 .15 463
.05 1.96 .10 .90 1.28 .20 258
.05 1.96 .10 .90 1.28 .25 164
.05 1.96 .10 .90 1.28 .30 113
.05 1.96 .10 .90 1.28 .35 82
.05 1.96 .10 .90 1.28 .40 61
.05 1.96 .10 .90 1.28 .45 48
.05 1.96 .10 .90 1.28 .50 38
.05 1.96 .10 .90 1.28 .55 30
.05 1.96 .10 .90 1.28 .60 25
.05 1.96 .10 .90 1.28 .65 20
.05 1.96 .10 .90 1.28 .70 17
.05 1.96 .10 .90 1.28 .75 14
.05 1.96 .10 .90 1.28 .80 12
.05 1.96 .10 .90 1.28 .85 10
.05 1.96 .10 .90 1.28 .90 8
.05 1.96 .10 .90 1.28 .95 6
TABLA A.3
Tamaños de muestras para docimar el coeficiente de correlación de Pearson para
valores de α = 0.05 y β = 0.90.
Nota: Los tamaños de muestras en las líneas sombreadas no son confiables, por ser
calculados con procedimientos asintóticos, validos sólo cuando n es grande.