Upload
angel-oswaldo-vazquez
View
5.025
Download
4
Embed Size (px)
DESCRIPTION
He analizado tres tipos de media cada una de ellas tiene su campo de aplicación particular y preferente con sus respectivos impedimentos en ciertos casos complicaciones y limitaciones; se expresa que para cuando se realiza el análisis de una población tenemos que sacar por lo menos tres medias para luego de compararlas extraer de ellas conclusiones valederas. Estudié también las relaciones entres dos variables o variables bidimensionales, sus principales medidas y la forma de representarlas de manera gráfica y tabular mediante tablas, analizando ciertas interpretaciones que llevará a conclusiones luego de otros análisis estadísticos.
Citation preview
Medias y Relaciones entre dos Variables
MEDIAS ESTADÍSTICAS Y RELACIONES ENTRE VARIABLES
Media Geométrica, Armónica y Cuadrática y Relaciones entre dos Variables
Angel Oswaldo Vázquez Patiño
Universidad de Cuenca
1
Medias y Relaciones entre dos Variables
Extracto
Se ha analizado tres tipos de media cada una de ellas tiene su campo de
aplicación particular y preferente con sus respectivos impedimentos en ciertos casos
complicaciones y limitaciones; se expresa que para cuando se realiza el análisis de una
población tenemos que sacar por lo menos tres medias para luego de compararlas
extraer de ellas conclusiones valederas. Se estudió también las relaciones entres dos
variables o variables bidimensionales, sus principales medidas y la forma de
representarlas de manera gráfica y tabular mediante tablas, analizando ciertas
interpretaciones que llevará a conclusiones luego de otros análisis estadísticos.
2
Medias y Relaciones entre dos Variables
Media Geométrica, Armónica y Cuadrática y Relaciones entre dos Variables
Media Geométrica
Definición
La media geométrica (expresada en algunos casos por Mg, Mo, G) es una medida de
tendencia central que se utiliza en algunos casos en los que la variable posee, ya sea valores
que tienen cierta relación constante o aproximadamente constante (Caballero, 1975) entre
ellos, o en las que la variable tiene un crecimiento geométrico con variaciones acumulativas,
es decir, con tendencia exponencial (Martínez, 1998); por ejemplo: en valores cuyas
variaciones son expresadas en forma de grados más que por sus diferencias absolutas
(Carson, 1954). La media geométrica se plantea como la enésima raíz del producto de N
valores tomados por una variable.
Datos no Agrupados. La media geométrica (representada en este caso por G) para datos no
agrupados se la define de la siguiente manera:
Media Geométrica (G) = (el producto de los n valores)1/n
Ahora de una manera simbólica, si n es el número de valores representados por X1, X2, X3,…,
Xn, entonces se tiene que:
G = (X1, X2, X3,…, Xn)1/n
G = ( Πxi )1/n
“La letra griega π (pi) se lee como “multiplicación de”, es decir, corresponde al producto de
los elementos o valores que tome la variable” (Martínez, 1998, p. 111).
Una forma muy conveniente de facilitar el cálculo de esta medida de tendencia es la
utilización de logaritmos (se acostumbra utilizar logaritmos en base 10), deduciendo entonces
la siguiente fórmula:
Log ( G ) = Log [ (X1, X2, X3,…, Xn)1/n ]
Log ( G ) = [ Log (X1, X2, X3,…, Xn) ]/n
3
Medias y Relaciones entre dos Variables
Log( G ) = [ Log X1 + Log X2 + Log X3 + … + Log Xn ]/n
Log ( G ) = (1/n) Σ Log Xi
Dando una nueva definición para este caso se puede decir que el logaritmo de la
media geométrica es igual a “la media aritmética de los logaritmos de cada uno de los datos”
(Mills, s.f., p. 117).
Datos Agrupados. En caso de que las medidas o valores a las que se estén refiriendo la media
hayan sido ponderadas, es decir, distribuidas en frecuencias, las fórmulas presentadas
anteriormente deben tener una leve modificación ya que a la vez también deben estar
ponderadas, es decir, la variable se multiplicará así misma tantas veces como sea su
respectiva frecuencia absoluta. Teniendo en cuenta esto, si f1, f2, f3,…, fn son las frecuencias
absolutas de los valores X1, X2, X3,…, Xk respectivamente, entonces la fórmula para hallar la
media geométrica será la siguiente:
G = [ (X1 )f1 ∙ (X2)f2 ∙ (X3)f3 ∙…∙ (Xk)fk ]1/n
G = [ Πxifi ]1/n
O bien sea también en forma logarítmica:
Log ( G ) = (1/n)( f1∙Log X1 + f2∙Log X2 + f3∙Log X3 + … + fn∙Log Xn )
Log ( G ) = (1/n) Σ fi ∙Log Xi
La fórmula recomendada es esta última ya sea para variables cuantitativas discretas o
continuas.
Propiedades
1. En la fórmula de la media geométrica intervienen tres elementos como son: G, n y el
producto de n valores, por lo que, conocidos dos de estos es fácil encontrar el valor del
tercero, mas los valores individuales no se podrán determinar ya que son muy amplias las
posibilidades que darán el mismo producto de los n valores.
4
Medias y Relaciones entre dos Variables
2. Para calcular la media geométrica se utilizan todos los valores recogidos de la muestra, por
lo que cada uno de esos datos tienen una consecuencia en la media a encontrar; además de la
definición dada se puede apreciar rápidamente que si un valor es igual a cero la media
geométrica también lo será, por tanto en ese caso no será conveniente utilizar tal medida.
3. De haber el caso en el que un dato sea negativo y el número de elementos sea par, la raíz
de este producto será un número imaginario, además que si este producto es negativo y el
número de elementos es impar habrá un resultado que será tomado como media geométrica
pero que no será en realidad representativo puesto que será negativo también.
4. Los valores extremos que se utilizan para la obtención de la media geométrica afectan casi
de manera nula al resultado, caso que no es igual en el cálculo de la media aritmética por
ejemplo, por lo cual es apropiado utilizarla en algunas distribuciones asimétricas.
5.
La media geométrica equilibra las razones de los valores individuales, es decir, el
producto de las razones con respecto a la media geométrica de los valores inferiores a
la misma, es igual al producto de las razones de la media geométrica con respecto a
los valores superiores a la misma. Por ejemplo, la media geométrica de los valores 1,
4, 9, 12 y 18 es 6. El producto de las razones de los valores individuales, los cuales
son menores que G, con respecto a G es (…)
[ 1/6 ∙ 4/6 = 1/9 ]
El producto de las razones de G con respecto a los valores individuales, los cuales son
mayores que G, es (…)
[ 6/9 ∙ 6/12 ∙ 6/18 = 1/9 ]
Por lo tanto, los productos de las razones de los valores superiores e inferiores a la
media geométrica son iguales: (…)
[ 1/6 ∙ 4/6 = 6/9 ∙ 6/12 ∙ 6/18]
5
Medias y Relaciones entre dos Variables
Enunciando de una manera diferente: las desviaciones de los logaritmos de los valores
originales hacia arriba y hacia abajo del logaritmo de la media geométrica son iguales
(Shao, 1971, p. 201).
6.
La media geométrica da igual ponderación a las razones de cambio iguales. En otras
palabras, al promediar razones de cambio geométricamente, la razón que muestra el
doble de su base es compensada por la otra que muestra la mitad de su base (…); la
razón que muestra cinco veces su base, es compensada por otra que muestra un quinto
de su base (…); y así sucesivamente. Las razones son ordinariamente expresadas en
porcientos. Puesto que la base de cada razón expresada en porciento es siempre igual
a 1 o 100%, el promedio de dos razones las cuales se compensan, deberá ser 100%
también. La media geométrica dará la respuesta satisfactoria, puesto que la media
geométrica de un número y su recíproco es siempre igual a 1, tal como (…)
[ G = (1/2 ∙ 2)1/2 = √1 = 1 ]
puesto que ½ es el recíproco de 2 o 4/1 (Shao, 1971, pp. 201-202).
7. “La media geométrica de las razones de los valores individuales con respecto a cada valor
precedente inmediato en una secuencia de valores es el único promedio apropiado para las
razones” (Shao, 1971, p. 202).
8. La media geométrica es el promedio más apropiado para las variaciones de números
proporcionales y relaciones de medidas, puesto que da iguales pesos a iguales variaciones
proporcionales.
Aplicaciones
Cuando sea necesario promediar ciertos porcentajes de variaciones o simplemente
razones en vez de diferencias absolutas, se suele necesitar aplicar la media geométrica; por
ejemplo se suele utilizar en series de datos como tipos de interés anuales, inflación, etc.,
6
Medias y Relaciones entre dos Variables
donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores; en la
estadística económica se aplica a los números índices de precios donde se da mayor
importancia a las variaciones relativas; a continuación se dará a conocer un problema
económico en el que se necesita la utilización del concepto de media geométrica, se refiere al
cálculo del tanto por ciento de imposición de una suma de dinero a interés compuesto, cuando
se conoce el capital impuesto, la suma obtenida y el número de años que duró la imposición
(Mills, s.f.):
Supongamos que una producción ha experimentado un incremento del 25% del
primero al segundo año, y 40% del segundo al tercer año.
1º año, 100
2º año, 125, 25 por ciento de variación (incremento)
3º año, 175, 40 por ciento de variación (incremento)
¿Cuál es la tasa promedio de aumento durante estos (…) años? Se ve que el segundo
año es 125 por ciento del primero y el tercero 140 por ciento del segundo
Luego:(…)
[ G = (1.25 * 1.4)1/2 = 1.323 ]
o la rata promedio de crecimiento es 32.3 por ciento.
Si extraemos raíz cuadrada a ambos lados de la ecuación anterior, quedará:
(…)
[ {(1.25*1.40)1/2 }2 = (1.323)2 ]
1.25 x 1.40 = (1 + .323)2
Ahora, 1.25 x 1.40 = 1.75. Entonces
1.75 = (1 + 0.323)2
O sea P2 = 1.75, P0 = 1 y r = 0.323. Entonces la anterior puede ser escrita como
7
Medias y Relaciones entre dos Variables
P2 = P0 (1 + r)2
que es la conocida fórmula del interés compuesto.
Este resultado se puede generalizar como se demuestra a continuación, Si con
un capital inicial P0 (…) se obtiene un interés Pn (…) al cabo de n años, la media
geométrica r de las tasas de aumento de los n años se encuentra resolviendo la
ecuación:
Pn = P0 (1 + r)n (Yamane, 1979).
Esta fórmula se puede deducir del modo siguiente:
P1 = P0 + P0r = P0(1 + r)
P2 = P1 + P1r = P0(1 + r) + P0(1 + r)r = P0(1 + r) (1 + r) = P0(1 + r)2
P3 = P2 + P2r = P0(1 + r)2 + P0(1 + r)2r = P0(1 + r)2(1 + r) = P0(1 + r)3
y de manera análoga, tenemos que P10 = P0(1 + r)10. Y si sabemos que n es el número de años
que transcurre, se deduce que:
Pn = P0(1 + r)n (Carson, 1954).
Se menciona además una aplicación de esta medida de posición central en datos que se
agrupan en orden cronológico, como es el crecimiento en la población de una región
cualquiera, que además presenta un crecimiento geométrico y en el que se desea calcular la
población promedio entre dos censos (Carson, 1954; Martínez, 1998). Por ejemplo si una
empresa de censo reportó que la población de cierta nación ha crecido de 7621 en 1900 a
17932 en 1960 se calculará cuál fue la población media para 1930:
G = (7621 * 17932)1/2 = 11690.15706; lo cual indica que la población media en 1930 fue de
aproximadamente 11690 habitantes.
Ejemplos
8
Medias y Relaciones entre dos Variables
1. Se desea conocer cuál fue el crecimiento medio diario de una población de bacterias en un
cultivo que creció de 1000 a 4000 en tres días.
Solución
Ya que de 1000 a 4000 es un 300% de crecimiento, uno podría sospechar que
el crecimiento medio diario es 3000%/3 = 100%. Sin embargo, implicaría que el
primer día subiría ya de 1000 a 2000, el segundo a 4000 y el tercero a 8000, contra lo
dicho.
Denotemos el crecimiento medio diario por r. Entonces
Población de bacterias tras 1 día = 1000 + 1000r = 1000(1 + r)
Población de bacterias tras 2 días = 1000(1 + r) + 1000(1 + r)r =
1000(1 + r)2
Población de bacterias tras 3 días = 1000(1 + r)2 + 1000(1 + r)2r
= 1000(1 + r)3
Esta última expresión debe dar 4000. Por tanto, 1000(1 + r)3 = 4000, (1 + r)3 = 4, 1 + r
= ³√4 y r = ³√4 – 1 = 1.587 - 1 = 0.587, así que r = 58.7% (Spiegel, s.f.).
Respuesta: El crecimiento medio diario de la población de bacterias en el cultivo analizado
ha sido de 58.7%.
Como se puede notar fácilmente se ha utilizado la fórmula del interés compuesto analizado
anteriormente.
2.
En 1970 y 1980 la población de EE.UU. era de 203.3 y 226.5 millones,
respectivamente.
(a) Hallar el porcentaje medio de crecimiento anual.
(b) Estimar la población en 1974.
9
Medias y Relaciones entre dos Variables
(c) Si el porcentaje medio de crecimiento entre 1980 y 1990 es el de la parte (a), ¿cuál
será la población en 1990? (Spiegel, s.f., p. 89)
Solución
(a) Utilizaremos la fórmula del interés compuesto, ya que el crecimiento de la población se
da de manera geométrica, entonces:
226.5 = 203.3 (1 + r)10 → r = (226.5/203.3)1/10 – 1 = 1.01086 – 1 = 0.01086
Lo cual indica que el porcentaje medio de crecimiento anual es de 1.086%.
(b) Nuevamente aplicaremos la fórmula utilizada en el literal a, entonces tenemos:
P4 = 203.3 (1 + 0.01086)4 = 203.3 (1.01086)4 = 212.27
Lo que nos indica que la población en 1974 fue de 212.27 millones.
(c) Nos apoyamos en los datos encontrados anteriormente y desarrollamos la fórmula ya
aprendida:
P20 = 203.3 (1 + 0.01086)20 = 203.3 (1.01086)20 = 252.32
Respuesta: La población para 1990 es de 252.32 millones.
Media Armónica
Definición
La media Armónica (expresada en algunos casos por Mn, M-1, MA, H1 ó H) es una
medida de tendencia central cuya aplicación es restringida y se la utiliza generalmente para
no tener errores en la elaboración de algunas clases de datos (AulaFacil S.L., 2000). “La
media armónica de una serie de medidas es el número recíproco de la media aritmética de los
recíprocos de cada una de aquéllas” (Mills, s.f., p. 121).
Datos no Agrupados. Para el caso de tener datos no agrupados la media armónica
(representada en este caso por G), como ya se expresó en la definición, está denotada por:
H = n / ( 1/X1 + 1/X2 + 1/X3 + …+ 1/Xn )
O ya sea de manera más concisa, por:
10
Medias y Relaciones entre dos Variables
H = n / (Σ1/Xi)
Datos Agrupados. Para el caso de analizar datos que se manejen en forma agrupada el cálculo
de la media armónica es similar al de datos no agrupados, pero, “cada recíproco de los
valores originales debe ser ponderado por la frecuencia que representa el valor en el cálculo”
(Shao, 1971, p. 208). Teniendo entonces la siguiente fórmula para este caso:
H = n / ( f1/X1 + f2/X2 + f3/X3 + …+ fn/Xn )
O ya sea de manera más concisa, por:
H = n / (Σfi/Xi) ; donde Σfi = n
Propiedades
1. La media armónica se calcula utilizando todos los elementos en un conjunto de valores,
por lo tanto cada uno de estos contribuye a que se vea perturbado el valor de la media, pero
este valor es menos afectado por los extremos que la media geométrica aun.
2. La media armónica se utiliza en su gran mayoría para promediar velocidades, y en el
campo de la economía se emplea para la elaboración de los datos de precios.
3. “La dificultad del cálculo de la media armónica disminuye su utilidad en al práctica del
análisis estadístico más corriente” (Mills, s.f., p. 125).
4.
La media armónica no es tan frecuentemente usada como un promedio de un conjunto
de valores como lo es la media aritmética. Sin embargo, es útil en casos especiales
para promediar razones. La razón usualmente indica la relación entre dos tipos
diferentes de unidades de medida que pueden ser expresadas recíprocamente. Por
ejemplo, si un hombre caminó 10 millas en dos horas, la razón de su velocidad de
caminar puede ser expresada: (…)
[ (10 millas)/(2 horas) = (5 millas)/(1 hora) = 5 millas por hora ]
11
Medias y Relaciones entre dos Variables
donde la unidad del primer término es una milla y la unidad del segundo término es
una hora. O, recíprocamente, (…)
[ (2 horas)/(10 millas) = (1/5 horas)/(1 milla) = 1/5 horas por milla ]
donde la unidad del primer término es una hora y la unidad del segundo término es
una milla (Shao, 1971, p. 209).
Aplicaciones
La media armónica es poco usada, por lo que su aplicación es limitada y por lo
general cuando se hace uso de la misma se emplea en casos en que la variable está dada en
forma de tasas, cuando la variable tiene un comportamiento armónico y en aquellos
problemas en los que se desea calcular la velocidad media.
Ejemplo
El siguiente ejemplo es usado para ilustrar cómo se debe usar la media armónica.
(…) Tres estudiantes hicieron una carrera de relevos de 3,600 millas. Cada uno de
ellos manejó 1,200 millas. Sus velocidades al manejar están dadas más abajo.
Encontrar la velocidad promedio por hora de los tres estudiantes durante la carrera.
Estudiante Velocidad al manejar
A 40 millas por hora
B 50 millas por hora
C 60 millas por hora
Solución.
1) Tomar la media aritmética de las velocidades:
(…) [ Med = (40 + 50 + 60)/3 = 50 millas por hora ]
La respuesta es correcta solamente si podemos suponer que el valor constante es el
número de horas, la cual es aplicable a cada estudiante. Esto es, cada estudiante
manejó el mismo número de horas durante la carrera. (Note que la unidad de segundo
12
Medias y Relaciones entre dos Variables
término en la media y en cada razón dada es una hora; misma que la unidad del valor
constante usado en el supuesto.) Sin embargo, este no es el caso, puesto que el número
de horas empleado en la carrera por cada uno de los tres estudiantes es
Estudiante A 1,200/40 = 30 horas
Estudiante B 1,200/50 = 24 horas
Estudiante C 1,200/60 = 20 horas
Total 74 horas
El número total de millas recorridas por los tres estudiantes al promedio de 50 millas
por hora debería ser
50 x 74 = 3,700 millas
el cual no está de acuerdo con la distancia dada, 3,600 millas de la carrera. Por lo
tanto, el método de la media aritmética no da la respuesta correcta en este caso.
2) Tomar la media armónica de las velocidades. Primero, encontrar los
recíprocos de las velocidades dadas.
Estudiante Recíproco de la velocidad
A 1/40 horas por milla
B 1/50 horas por milla
C 1/60 horas por milla
En seguida, tomar la media aritmética de los recíprocos: (…)
[ (1/40 + 1/50 + 1/60)/3 = (15/600 + 12/600 + 10/600)/3 = 37/1,800 horas por milla ]
Entonces, el recíproco del promedio de los recíprocos es (…)
[ H = (1,800 millas)/(37 horas) = 48.6 millas por hora ]
O simplemente calculando la media armónica directamente de las velocidades dadas,
como sigue: (…)
[ H = 3/(1/40 + 1/50 + 1/60) = 1,800/37= 4824/37 millas por hora ]
13
Medias y Relaciones entre dos Variables
Comprobación: El total de millas recorridas en 74 horas a 4824/37 millas por
hora es
4824/37 x 74 = 3,600 millas (correcto)
El número real de millas recorridas (1,200 millas cada uno) no está incluido en
los cálculos anteriores. Cuando el método de la media armónica es usado, se supone
que el valor constante es el número de millas, el cual es igualmente aplicable a cada
estudiante. Es decir, cada estudiante manejó el mismo número de millas. (Note que la
unidad del primer término en la media armónica y en cada razón dada es una milla,
misma que la unidad del valor constante usado en el supuesto.) Este supuesto es cierto
en este caso. Por lo tanto, el método de la media armónica de la respuesta correcta
(Shao, 1971, pp. 210-212).
Media Cuadrática
Definición
La media cuadrática (expresada en algunos casos por MQ ó Q) es una medida
de tendencia central utilizada generalmente cuando la variable toma valores positivos y
negativos y se quiere despreciar estos signos en el cálculo. Se trata de elevar al cuadrado cada
valor de la variable para de esta manera eliminar los signos no positivos, luego calcular la
media aritmética de esos valores y finalmente extraer la raíz cuadrada de esta (Wikipedia,
2006, 16 de noviembre).
Datos no Agrupados. La media cuadrática (representada en este caso por Q) de un conjunto
de datos X1, X2, X3,…, Xn se define como:
Q = [(X12 + X2
2 + X32 + … + Xn
2)/n]1/2
De manera más concisa:
Q = [(Σ Xi2)/n]1/2
Propiedades
14
Medias y Relaciones entre dos Variables
1. Para calcular la media cuadrática no se tienen en cuenta los signos positivos o negativos de
los valores que se analizan.
Aplicaciones
La media cuadrática es utilizada cuando la variable toma valores positivos y negativos
como es el caso de los errores de medida; además es utilizada a menudo en las aplicaciones
físicas y muy poco en estudios de negocios y economía.
Ejemplos
Se obtendrá la media cuadrática de seis números: 1, 8, -9, 3, 4 y -2
Q = [(12 + 82 + (-9)2 + 32 + 42 + (-2)2)/6]1/2 = 5.4
Relaciones Entre las Diferentes Medias
1. La media aritmética de una serie de cantidades es mayor que la media geométrica.
2. La media geométrica de una serie de cantidades es mayor que su media armónica.
La única excepción a estas dos últimas reglas se presenta cuando todas las cantidades
que forman la serie son iguales, pues en este caso las tres medias son también iguales.
3. La media geométrica de dos cantidades cualesquiera es igual a la media geométrica
entre la media aritmética y la armónica de ambas cantidades. Así, si las cantidades son
2 y 8, la media armónica es 31/5; la geométrica, 4, y la aritmética, 5, resultando ser 4 la
media geométrica, entre 31/5 y 5. Esto no ocurre cuando la serie contiene más de dos
términos (Mills, s.f., p. 123).
La magnitud relativa de las tres diferentes medias para los mismos datos puede ser expresada
como sigue:
Q > Med. Aritmética > G > H
Lo que quiere decir que la media cuadrática es mayor a la media aritmética que a su vez es
mayor a la media geométrica que es mayor a la media armónica.
Relación Entre Dos Variables
15
Medias y Relaciones entre dos Variables
Definición
Es el análisis de una población o muestra significativa que describe una muestra
mediante dos variables X e Y, en la que habrá una relación entre estas dos variables.
Representación Tabular
En el análisis de una población o muestra significativa de individuos, caracterizadas
por las variables X e Y, estás se las representa respectivamente por:
X~> x1, x2,…, xi,…,xk
Y~> y1, y2, …, yi, …,yp
donde k y p son las modalidades que presentan X e Y respectivamente.
Con el fin de organizar toda la información recogida se la representa en una tabla con
k*p casillas, de manera que tengan p columnas y k filas, así:
Y y1 y2 … yj … yp
X x1 n11 n12 … n1j … n1p n1∙
x2 n21 n22 … n2j … n2p n2∙
… … … … … … … …xi ni1 ni2 … nij … nip ni∙
… … … … … … … …xk nk1 nk2 … nkj … nkp nk∙
n∙1 n∙2 … n∙j … n∙p n∙∙
Frecuencia Absoluta. Es el número de individuos representados con nij que a la vez presentan
las modalidades xi e yi.
Distribuciones Marginales
Frecuencia Absoluta Marginal. Es el número de individuos que presentan la modalidad xi o
yj y se representan como ni. y n.j respectivamente dados por:
ni. = ni1 + ni2 + … + nip
n.j = n1j + n2j + … + nkj
El número total de elementos n lo obtenemos mediante:
N = n.. = Σk Σp
nij
16
Medias y Relaciones entre dos Variables
Distribuciones Condicionales
Variable Condicionada. Es aquella variable X definida sobre un conjunto más pequeño de la
población de la cual estamos interesados, que está formado por los elementos con modalidad
Yj (El número de elementos es n.j), se la representa mediante X|yj o X|Y=yj, y su distribución de
frecuencias absolutas es la columna j de la tabla.
Dependencia entre Variables
Dependencia Funcional. La dependencia funcional o dependencia total es una relación exacta
en donde tomado un valor X no es necesario practicar la de y (o viceversa) pues su valor está
dado de manera exacta por una fórmula matemática o física. Ejm Y = X/100 => X = 100 Y.
Independencia. Es todo lo contrario a la dependencia funcional. “Dos variables X eY son
independientes si la distribución marginal de una de ellas es la misma que la condicionada
por cualquier valor de la otra” (UMA, s.f., p. 78). Esto implicará que en la tabla todas las filas
y columnas van a ser proporcionales entre ellas.
Representación Gráfica
La representación gráfica de dos variables se la puede realizar utilizando el clásico eje
de coordenadas xy en donde cada valor de elemento se lo pondrá su respectivo eje.
y. .
.. . .
x. …. .
. . …
.
Representación Numérica
Covarianza. Es una medida de variabilidad común de dos variables cuantitativas que está
afectada por las unidades en las que cada variable se mide y está definida como sigue:
17
Medias y Relaciones entre dos Variables
SXY = (1/n) Σ (xi - x)(yi - y) x = x media y = y media
La covarianza divide una nube de puntos en cuatro cuadrantes de los que están en el primer y
tercer cuadrante aportan positivamente a SXY y los que están en el segundo y cuarto lo hacen
de negativamente.
Interpretación de la covarianza
. Si SXY > 0 las dos variables crecen o decrecen a la vez (nube de puntos creciente).
. Si SXY < 0 cuando una variable crece, la otra tiene tendencia a decrecer (nube de
puntos decreciente).
. Si los puntos se reparten con igual intensidad alrededor de (x, y), SXY = 0 (no hay
relación lineal) (UMA, s.f., p. 80).
Coeficiente de correlación lineal de Pearson
Para que haya una medida de variabilidad que no sea afectada por las unidades en las
que cada variable se mide se divide la covarianza por el producto de las desviaciones típicas
de cada variable, para así conseguir tener un coeficiente adimensional llamado coeficiente de
correlación lineal de Pearson y denotado por r, cuya fórmula es la siguiente:
r = (SXY)/(SXSY)
Propiedades
1. Es adimensional.
2. No varia para las transformaciones lineales de las variables.
3. Está en el rango (-1,1).
4. Si |r| ≈ 1, se tiene una relación lineal muy fuerte entre las variables.
5. Si r ≈ 0, se puede decir que las variables son incorreladas es decir que no existe relación
lineal entre ellas.
Regresión
18
Medias y Relaciones entre dos Variables
Permite hacer predicciones sobre posibles valores de una variable Y en función de otra
X o viceversa. Es una deducción a partir de una serie de datos observando las relaciones que
existen entre las variables.
Relación Funcional. Es la invención de una variable Ŷ como función de otra X o viceversa, y
el criterio que se debe seguir para su elaboración es que la diferencia entre Y e Ŷ se lo más
pequeña posible.
Ŷ = ƒ(X), Y - Ŷ = error, el error debe ser el mínimo posible.
Bondad de ajuste.
Consideremos un conjunto de observaciones sobre n individuos de una población, en los
que se miden ciertas variables X e Y:
X~> x1, x2,…, xn
Y~> y1, y2, …, yn
Estamos interesados en hacer regresión para determinar, de modo aproximado los
valores de Y conocidos los de X, debemos definir variable Ŷ = ƒ(X), que debe tomar los
valores
Ŷ~>ŷ1 = ƒ(x1), ŷ2 = ƒ(x2),…, ŷn = ƒ(xn)
de modo que:
Y - Ŷ~>y1 - ŷ1 ≈ 0, y2 – ŷ2 ≈ 0,…, yn – ŷn ≈ 0
Ello se puede expresar definiendo una nueva variable E que mida las diferencias entre
los auténticos valores de Y y los teóricos suministrados por la regresión,
E = Y - Ŷ~> e1 = y1 - ŷ1, e2 = y2 – ŷ2,…, en = yn – ŷn
y calculando Ŷ de modo que E tome valores cercanos a 0. Dicho de otro modo, E debe
ser una variable cuya media debe ser 0, y cuya varianza S2E debe ser pequeña (en
comparación con la de Y). Por ello se define el coeficiente de determinación de la
regresión de Y sobre X, R2Y|x, como
19
Medias y Relaciones entre dos Variables
R2Y|x = 1- S2
E/S2Y (UMA, s.f., pp. 85-86).
Si el coeficiente de determinación de la regresión es un valor de casi 1 se puede decir que la
curva de regresión es buena. Este coeficiente analizado anteriormente sirve para medir el
grado de bondad del ajuste, es decir, para medir de qué manera las diferencias entre los
valores originales de una variable y los de la aproximación son pequeños en relación con los
de la variabilidad de la variable que intentamos aproximar.
Regresión Lineal. Esta regresión consiste en hallar los valores para las constantes a y b para
usar una relación funcional de tipo lineal que se puede escribir como Ŷ = a + b∙X buscando el
mínimo error posible entre Ŷ e Y. Estas constantes a y b son llamados coeficientes de
regresión y están dados por:
a = y – bx
b = SXY/S2X
Interpretación de los coeficientes de regresión
(…)
∙ Si b > 0, las dos variables aumentan o disminuyen a la vez.
∙ Si b < 0, cuando una variable aumenta, la otra disminuye (UMA, s.f., p. 87).
Propiedades de la regresión lineal
(…)
∙ Si |r| ≈ 1 el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir
de X y viceversa).
∙ Si |r| ≈ 0 las variables X e Y no están relacionadas (linealmente al menos), por tanto no
tiene sentido hacer un ajuste lineal. Sin embargo no es seguro que las dos variables no
posean ninguna relación en el caso r = 0, ya que si bien el ajuste lineal puede no ser (…)
[procedente], tal vez otro tipo de ajuste sí lo sea (UMA, s.f., p. 89).
Ejemplo de cálculo en regresión lineal
20
Medias y Relaciones entre dos Variables
En un grupo de 8 pacientes se miden las cantidades antropométricas peso y edad,
obteniéndose los siguientes resultados:
Resultado de las medicionesX ≡ edad 12 8 10 11 7 7 10 14Y ≡ peso 58 42 51 54 40 39 49 56
¿Existe una relación lineal importante entre ambas variables? Calcular la recta de
regresión de la edad en función del peso y la del peso en función de la edad. Calcular la
bondad del ajuste ¿En qué medida, por término medio, varía el peso cada año? ¿En
cuánto aumenta la edad por cada kilo de peso?
Solución
Para saber si existe una relación lineal entre ambas variables se calcula el coeficiente de
correlación lineal, que vale:
r = SXY/SXSY = 15,2031/(2,3150 x 6,9631) = 0,9431
ya que
(…)
[ x = x media y = y media
Σ xi = 79 → x = 79/8 = 9,875 años
Σ yi = 389 → y = 389/8 = 48,625 Kg
Σ x2i = 823 → S2
X = 823/8 – 9,8752= 5,3594 años2
SX = 2,3150 años
Σ y2i = 19,303 → S2
Y = 19,303/8 – 48,6252 = 48,4844 Kg2
SY = 6,9631 Kg
Σ xiyi = 3,963 → SXY = 3,963/8 – 9,875 x 48,625 = 15,2031 Kg ∙ año ]
21
Medias y Relaciones entre dos Variables
Por tanto el ajuste lineal es muy bueno. Se puede decir que el ángulo entre el vector
formado por las desviaciones del peso con respecto a su valor medio y el de la edad con
respecto a su valor medio, θ, es:
r = cos θ → θ = arc cos r ≈ 19º
es decir, entre esos vectores hay un buen grado de paralelismo (sólo unos 19 grados de
desviación).
La recta de regresión del peso en función de la edad es
Ŷ = a1 + b1X = 20,6126 + 2,8367 ∙X
a1 = y – b1x = 20,6126 Kg
b1 = SXY/S2X = 2,8367 Kg/año
La recta de regresión de la edad como función del peso es
[X ↔ Ŷ]
(…)[X] = a2 + b2Y = -5,3738 + 0,3136 ∙Y
a2 = (…)[x] – b2y = -5,3738 años
b2 = SXY/S2Y = 0,3136 años/Kg
que como se puede comprobar, no resulta de despejar en la recta de regresión de Y
sobre X.
La bondad del ajuste es
R2X|Y = R2
Y|X = r2 = 0,8894
por tanto podemos decir que el 88,94% de la variabilidad del peso en función de la
edad es explicada mediante la recta de regresión correspondiente. Lo mismo podemos
decir en cuanto a la variabilidad de la edad en función del peso. Del mismo modo puede
decirse que hay un 100 – 88,94% = 11,06% de varianza que no es explicada por las
rectas de regresión. Por tanto la varianza residual de la regresión del peso en función de
la edad es
22
Medias y Relaciones entre dos Variables
S2E = (1 – r2) ∙ S2
Y = 0,1106 x 48,4844 = 5,33 Kg2
y la de la edad en función del peso:
S2E = (1 – r2) ∙ S2
X = 0,1106 x 5,3594 = 0,59 años2
Por último la cantidad en que varía el peso de un paciente cada año es, según la recta
de regresión del peso en función de la edad, la pendiente de esta recta, es decir, b1 =
2,8367 Kg/año. Cuando dos personas difieren en peso, en promedio la diferencia de
edad entre ambas se rige por la cantidad b2 = 0,3136 años/Kg de diferencia (UMA, s.f.,
pp. 92-94).
23
Medias y Relaciones entre dos Variables
Referencias
AulaFacil S.L. (2000). Medidas de Posición Central. Extraído el 11 de Abril del 2007 desde
http://www.aulafacil.com/CursoEstadistica/Lecc-4-est.htm
Caballero, W. (1975). Introducción a la Estadística. San José de Costa Rica. 1975.
Carson McCormick, T. (1954). Técnica de la Estadística Social (1ª ed.). México: Fondo de
Cultura Económica México-Buenos Aires. 1954.
Martínez, C. (1998). Estadística Comercial (2da ed.). Santa Fe de Bogota, Colombia: Editorial
Norma. 1998.
Mills, F. (s.f.). Métodos Estadísticos (Aplicada a la economía y los negocios). Madrid,
España: M. Aguilar Editor. 1935.
Shao, S. P. (1971). Estadísticas para economistas y administradores de empresas (3ra ed.).
México: Editorial Herrero Hermanos. 1971.
Spiegel, M. (s.f.). Estadística (2da ed.). España: McGraw-Hill. 1991.
UMA. (s.f.). Bioestadística.
Yamane, T. (1979). Estadística (3ra ed). México: Editorial Harla. 1979.
Wikipedia. (2006, 16 de Noviembre). Media Cuadrática. Extraído el 14 de Abril del 2007
desde http://es.wikipedia.org/wiki/Media_cuadrática
24