Medias y Relaciones entre dos Variables

Medias y Relaciones entre dos Variables

MEDIAS ESTADÍSTICAS Y RELACIONES ENTRE VARIABLES

Media Geométrica, Armónica y Cuadrática y Relaciones entre dos Variables

Angel Oswaldo Vázquez Patiño

Universidad de Cuenca

1


Extracto

Se ha analizado tres tipos de media cada una de ellas tiene su campo de

aplicación particular y preferente con sus respectivos impedimentos en ciertos casos

complicaciones y limitaciones; se expresa que para cuando se realiza el análisis de una

población tenemos que sacar por lo menos tres medias para luego de compararlas

extraer de ellas conclusiones valederas. Se estudió también las relaciones entres dos

variables o variables bidimensionales, sus principales medidas y la forma de

representarlas de manera gráfica y tabular mediante tablas, analizando ciertas

interpretaciones que llevará a conclusiones luego de otros análisis estadísticos.

2


Media Geométrica, Armónica y Cuadrática y Relaciones entre dos Variables

Media Geométrica

Definición

La media geométrica (expresada en algunos casos por Mg, Mo, G) es una medida de

tendencia central que se utiliza en algunos casos en los que la variable posee, ya sea valores

que tienen cierta relación constante o aproximadamente constante (Caballero, 1975) entre

ellos, o en las que la variable tiene un crecimiento geométrico con variaciones acumulativas,

es decir, con tendencia exponencial (Martínez, 1998); por ejemplo: en valores cuyas

variaciones son expresadas en forma de grados más que por sus diferencias absolutas

(Carson, 1954). La media geométrica se plantea como la enésima raíz del producto de N

valores tomados por una variable.

Datos no Agrupados. La media geométrica (representada en este caso por G) para datos no

agrupados se la define de la siguiente manera:

Media Geométrica (G) = (el producto de los n valores)1/n

Ahora de una manera simbólica, si n es el número de valores representados por X1, X2, X3,…,

Xn, entonces se tiene que:

G = (X1, X2, X3,…, Xn)1/n

G = ( Πxi )1/n

“La letra griega π (pi) se lee como “multiplicación de”, es decir, corresponde al producto de

los elementos o valores que tome la variable” (Martínez, 1998, p. 111).

Una forma muy conveniente de facilitar el cálculo de esta medida de tendencia es la

utilización de logaritmos (se acostumbra utilizar logaritmos en base 10), deduciendo entonces

la siguiente fórmula:

Log ( G ) = Log [ (X1, X2, X3,…, Xn)1/n ]

Log ( G ) = [ Log (X1, X2, X3,…, Xn) ]/n

3


Log( G ) = [ Log X1 + Log X2 + Log X3 + … + Log Xn ]/n

Log ( G ) = (1/n) Σ Log Xi

Dando una nueva definición para este caso se puede decir que el logaritmo de la

media geométrica es igual a “la media aritmética de los logaritmos de cada uno de los datos”

(Mills, s.f., p. 117).

Datos Agrupados. En caso de que las medidas o valores a las que se estén refiriendo la media

hayan sido ponderadas, es decir, distribuidas en frecuencias, las fórmulas presentadas

anteriormente deben tener una leve modificación ya que a la vez también deben estar

ponderadas, es decir, la variable se multiplicará así misma tantas veces como sea su

respectiva frecuencia absoluta. Teniendo en cuenta esto, si f1, f2, f3,…, fn son las frecuencias

absolutas de los valores X1, X2, X3,…, Xk respectivamente, entonces la fórmula para hallar la

media geométrica será la siguiente:

G = [ (X1 )f1 ∙ (X2)f2 ∙ (X3)f3 ∙…∙ (Xk)fk ]1/n

G = [ Πxifi ]1/n

O bien sea también en forma logarítmica:

Log ( G ) = (1/n)( f1∙Log X1 + f2∙Log X2 + f3∙Log X3 + … + fn∙Log Xn )

Log ( G ) = (1/n) Σ fi ∙Log Xi

La fórmula recomendada es esta última ya sea para variables cuantitativas discretas o

continuas.

Propiedades

1. En la fórmula de la media geométrica intervienen tres elementos como son: G, n y el

producto de n valores, por lo que, conocidos dos de estos es fácil encontrar el valor del

tercero, mas los valores individuales no se podrán determinar ya que son muy amplias las

posibilidades que darán el mismo producto de los n valores.

4


2. Para calcular la media geométrica se utilizan todos los valores recogidos de la muestra, por

lo que cada uno de esos datos tienen una consecuencia en la media a encontrar; además de la

definición dada se puede apreciar rápidamente que si un valor es igual a cero la media

geométrica también lo será, por tanto en ese caso no será conveniente utilizar tal medida.

3. De haber el caso en el que un dato sea negativo y el número de elementos sea par, la raíz

de este producto será un número imaginario, además que si este producto es negativo y el

número de elementos es impar habrá un resultado que será tomado como media geométrica

pero que no será en realidad representativo puesto que será negativo también.

4. Los valores extremos que se utilizan para la obtención de la media geométrica afectan casi

de manera nula al resultado, caso que no es igual en el cálculo de la media aritmética por

ejemplo, por lo cual es apropiado utilizarla en algunas distribuciones asimétricas.

5.

La media geométrica equilibra las razones de los valores individuales, es decir, el

producto de las razones con respecto a la media geométrica de los valores inferiores a

la misma, es igual al producto de las razones de la media geométrica con respecto a

los valores superiores a la misma. Por ejemplo, la media geométrica de los valores 1,

4, 9, 12 y 18 es 6. El producto de las razones de los valores individuales, los cuales

son menores que G, con respecto a G es (…)

[ 1/6 ∙ 4/6 = 1/9 ]

El producto de las razones de G con respecto a los valores individuales, los cuales son

mayores que G, es (…)

[ 6/9 ∙ 6/12 ∙ 6/18 = 1/9 ]

Por lo tanto, los productos de las razones de los valores superiores e inferiores a la

media geométrica son iguales: (…)

[ 1/6 ∙ 4/6 = 6/9 ∙ 6/12 ∙ 6/18]

5


Enunciando de una manera diferente: las desviaciones de los logaritmos de los valores

originales hacia arriba y hacia abajo del logaritmo de la media geométrica son iguales

(Shao, 1971, p. 201).

6.

La media geométrica da igual ponderación a las razones de cambio iguales. En otras

palabras, al promediar razones de cambio geométricamente, la razón que muestra el

doble de su base es compensada por la otra que muestra la mitad de su base (…); la

razón que muestra cinco veces su base, es compensada por otra que muestra un quinto

de su base (…); y así sucesivamente. Las razones son ordinariamente expresadas en

porcientos. Puesto que la base de cada razón expresada en porciento es siempre igual

a 1 o 100%, el promedio de dos razones las cuales se compensan, deberá ser 100%

también. La media geométrica dará la respuesta satisfactoria, puesto que la media

geométrica de un número y su recíproco es siempre igual a 1, tal como (…)

[ G = (1/2 ∙ 2)1/2 = √1 = 1 ]

puesto que ½ es el recíproco de 2 o 4/1 (Shao, 1971, pp. 201-202).

7. “La media geométrica de las razones de los valores individuales con respecto a cada valor

precedente inmediato en una secuencia de valores es el único promedio apropiado para las

razones” (Shao, 1971, p. 202).

8. La media geométrica es el promedio más apropiado para las variaciones de números

proporcionales y relaciones de medidas, puesto que da iguales pesos a iguales variaciones

proporcionales.

Aplicaciones

Cuando sea necesario promediar ciertos porcentajes de variaciones o simplemente

razones en vez de diferencias absolutas, se suele necesitar aplicar la media geométrica; por

ejemplo se suele utilizar en series de datos como tipos de interés anuales, inflación, etc.,

6


donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores; en la

estadística económica se aplica a los números índices de precios donde se da mayor

importancia a las variaciones relativas; a continuación se dará a conocer un problema

económico en el que se necesita la utilización del concepto de media geométrica, se refiere al

cálculo del tanto por ciento de imposición de una suma de dinero a interés compuesto, cuando

se conoce el capital impuesto, la suma obtenida y el número de años que duró la imposición

(Mills, s.f.):

Supongamos que una producción ha experimentado un incremento del 25% del

primero al segundo año, y 40% del segundo al tercer año.

1º año, 100

2º año, 125, 25 por ciento de variación (incremento)

3º año, 175, 40 por ciento de variación (incremento)

¿Cuál es la tasa promedio de aumento durante estos (…) años? Se ve que el segundo

año es 125 por ciento del primero y el tercero 140 por ciento del segundo

Luego:(…)

[ G = (1.25 * 1.4)1/2 = 1.323 ]

o la rata promedio de crecimiento es 32.3 por ciento.

Si extraemos raíz cuadrada a ambos lados de la ecuación anterior, quedará:

(…)

[ {(1.25*1.40)1/2 }2 = (1.323)2 ]

1.25 x 1.40 = (1 + .323)2

Ahora, 1.25 x 1.40 = 1.75. Entonces

1.75 = (1 + 0.323)2

O sea P2 = 1.75, P0 = 1 y r = 0.323. Entonces la anterior puede ser escrita como

7


P2 = P0 (1 + r)2

que es la conocida fórmula del interés compuesto.

Este resultado se puede generalizar como se demuestra a continuación, Si con

un capital inicial P0 (…) se obtiene un interés Pn (…) al cabo de n años, la media

geométrica r de las tasas de aumento de los n años se encuentra resolviendo la

ecuación:

Pn = P0 (1 + r)n (Yamane, 1979).

Esta fórmula se puede deducir del modo siguiente:

P1 = P0 + P0r = P0(1 + r)

P2 = P1 + P1r = P0(1 + r) + P0(1 + r)r = P0(1 + r) (1 + r) = P0(1 + r)2

P3 = P2 + P2r = P0(1 + r)2 + P0(1 + r)2r = P0(1 + r)2(1 + r) = P0(1 + r)3

y de manera análoga, tenemos que P10 = P0(1 + r)10. Y si sabemos que n es el número de años

que transcurre, se deduce que:

Pn = P0(1 + r)n (Carson, 1954).

Se menciona además una aplicación de esta medida de posición central en datos que se

agrupan en orden cronológico, como es el crecimiento en la población de una región

cualquiera, que además presenta un crecimiento geométrico y en el que se desea calcular la

población promedio entre dos censos (Carson, 1954; Martínez, 1998). Por ejemplo si una

empresa de censo reportó que la población de cierta nación ha crecido de 7621 en 1900 a

17932 en 1960 se calculará cuál fue la población media para 1930:

G = (7621 * 17932)1/2 = 11690.15706; lo cual indica que la población media en 1930 fue de

aproximadamente 11690 habitantes.

Ejemplos

8


1. Se desea conocer cuál fue el crecimiento medio diario de una población de bacterias en un

cultivo que creció de 1000 a 4000 en tres días.

Solución

Ya que de 1000 a 4000 es un 300% de crecimiento, uno podría sospechar que

el crecimiento medio diario es 3000%/3 = 100%. Sin embargo, implicaría que el

primer día subiría ya de 1000 a 2000, el segundo a 4000 y el tercero a 8000, contra lo

dicho.

Denotemos el crecimiento medio diario por r. Entonces

Población de bacterias tras 1 día = 1000 + 1000r = 1000(1 + r)

Población de bacterias tras 2 días = 1000(1 + r) + 1000(1 + r)r =

1000(1 + r)2

Población de bacterias tras 3 días = 1000(1 + r)2 + 1000(1 + r)2r

= 1000(1 + r)3

Esta última expresión debe dar 4000. Por tanto, 1000(1 + r)3 = 4000, (1 + r)3 = 4, 1 + r

= ³√4 y r = ³√4 – 1 = 1.587 - 1 = 0.587, así que r = 58.7% (Spiegel, s.f.).

Respuesta: El crecimiento medio diario de la población de bacterias en el cultivo analizado

ha sido de 58.7%.

Como se puede notar fácilmente se ha utilizado la fórmula del interés compuesto analizado

anteriormente.

2.

En 1970 y 1980 la población de EE.UU. era de 203.3 y 226.5 millones,

respectivamente.

(a) Hallar el porcentaje medio de crecimiento anual.

(b) Estimar la población en 1974.

9


(c) Si el porcentaje medio de crecimiento entre 1980 y 1990 es el de la parte (a), ¿cuál

será la población en 1990? (Spiegel, s.f., p. 89)

Solución

(a) Utilizaremos la fórmula del interés compuesto, ya que el crecimiento de la población se

da de manera geométrica, entonces:

226.5 = 203.3 (1 + r)10 → r = (226.5/203.3)1/10 – 1 = 1.01086 – 1 = 0.01086

Lo cual indica que el porcentaje medio de crecimiento anual es de 1.086%.

(b) Nuevamente aplicaremos la fórmula utilizada en el literal a, entonces tenemos:

P4 = 203.3 (1 + 0.01086)4 = 203.3 (1.01086)4 = 212.27

Lo que nos indica que la población en 1974 fue de 212.27 millones.

(c) Nos apoyamos en los datos encontrados anteriormente y desarrollamos la fórmula ya

aprendida:

P20 = 203.3 (1 + 0.01086)20 = 203.3 (1.01086)20 = 252.32

Respuesta: La población para 1990 es de 252.32 millones.

Media Armónica

Definición

La media Armónica (expresada en algunos casos por Mn, M-1, MA, H1 ó H) es una

medida de tendencia central cuya aplicación es restringida y se la utiliza generalmente para

no tener errores en la elaboración de algunas clases de datos (AulaFacil S.L., 2000). “La

media armónica de una serie de medidas es el número recíproco de la media aritmética de los

recíprocos de cada una de aquéllas” (Mills, s.f., p. 121).

Datos no Agrupados. Para el caso de tener datos no agrupados la media armónica

(representada en este caso por G), como ya se expresó en la definición, está denotada por:

H = n / ( 1/X1 + 1/X2 + 1/X3 + …+ 1/Xn )

O ya sea de manera más concisa, por:

10


H = n / (Σ1/Xi)

Datos Agrupados. Para el caso de analizar datos que se manejen en forma agrupada el cálculo

de la media armónica es similar al de datos no agrupados, pero, “cada recíproco de los

valores originales debe ser ponderado por la frecuencia que representa el valor en el cálculo”

(Shao, 1971, p. 208). Teniendo entonces la siguiente fórmula para este caso:

H = n / ( f1/X1 + f2/X2 + f3/X3 + …+ fn/Xn )

O ya sea de manera más concisa, por:

H = n / (Σfi/Xi) ; donde Σfi = n

Propiedades

1. La media armónica se calcula utilizando todos los elementos en un conjunto de valores,

por lo tanto cada uno de estos contribuye a que se vea perturbado el valor de la media, pero

este valor es menos afectado por los extremos que la media geométrica aun.

2. La media armónica se utiliza en su gran mayoría para promediar velocidades, y en el

campo de la economía se emplea para la elaboración de los datos de precios.

3. “La dificultad del cálculo de la media armónica disminuye su utilidad en al práctica del

análisis estadístico más corriente” (Mills, s.f., p. 125).

4.

La media armónica no es tan frecuentemente usada como un promedio de un conjunto

de valores como lo es la media aritmética. Sin embargo, es útil en casos especiales

para promediar razones. La razón usualmente indica la relación entre dos tipos

diferentes de unidades de medida que pueden ser expresadas recíprocamente. Por

ejemplo, si un hombre caminó 10 millas en dos horas, la razón de su velocidad de

caminar puede ser expresada: (…)

[ (10 millas)/(2 horas) = (5 millas)/(1 hora) = 5 millas por hora ]

11


donde la unidad del primer término es una milla y la unidad del segundo término es

una hora. O, recíprocamente, (…)

[ (2 horas)/(10 millas) = (1/5 horas)/(1 milla) = 1/5 horas por milla ]

donde la unidad del primer término es una hora y la unidad del segundo término es

una milla (Shao, 1971, p. 209).

Aplicaciones

La media armónica es poco usada, por lo que su aplicación es limitada y por lo

general cuando se hace uso de la misma se emplea en casos en que la variable está dada en

forma de tasas, cuando la variable tiene un comportamiento armónico y en aquellos

problemas en los que se desea calcular la velocidad media.

Ejemplo

El siguiente ejemplo es usado para ilustrar cómo se debe usar la media armónica.

(…) Tres estudiantes hicieron una carrera de relevos de 3,600 millas. Cada uno de

ellos manejó 1,200 millas. Sus velocidades al manejar están dadas más abajo.

Encontrar la velocidad promedio por hora de los tres estudiantes durante la carrera.

Estudiante Velocidad al manejar

A 40 millas por hora

B 50 millas por hora

C 60 millas por hora

Solución.

1) Tomar la media aritmética de las velocidades:

(…) [ Med = (40 + 50 + 60)/3 = 50 millas por hora ]

La respuesta es correcta solamente si podemos suponer que el valor constante es el

número de horas, la cual es aplicable a cada estudiante. Esto es, cada estudiante

manejó el mismo número de horas durante la carrera. (Note que la unidad de segundo

12


término en la media y en cada razón dada es una hora; misma que la unidad del valor

constante usado en el supuesto.) Sin embargo, este no es el caso, puesto que el número

de horas empleado en la carrera por cada uno de los tres estudiantes es

Estudiante A 1,200/40 = 30 horas

Estudiante B 1,200/50 = 24 horas

Estudiante C 1,200/60 = 20 horas

Total 74 horas

El número total de millas recorridas por los tres estudiantes al promedio de 50 millas

por hora debería ser

50 x 74 = 3,700 millas

el cual no está de acuerdo con la distancia dada, 3,600 millas de la carrera. Por lo

tanto, el método de la media aritmética no da la respuesta correcta en este caso.

2) Tomar la media armónica de las velocidades. Primero, encontrar los

recíprocos de las velocidades dadas.

Estudiante Recíproco de la velocidad

A 1/40 horas por milla

B 1/50 horas por milla

C 1/60 horas por milla

En seguida, tomar la media aritmética de los recíprocos: (…)

[ (1/40 + 1/50 + 1/60)/3 = (15/600 + 12/600 + 10/600)/3 = 37/1,800 horas por milla ]

Entonces, el recíproco del promedio de los recíprocos es (…)

[ H = (1,800 millas)/(37 horas) = 48.6 millas por hora ]

O simplemente calculando la media armónica directamente de las velocidades dadas,

como sigue: (…)

[ H = 3/(1/40 + 1/50 + 1/60) = 1,800/37= 4824/37 millas por hora ]

13


Comprobación: El total de millas recorridas en 74 horas a 4824/37 millas por

hora es

4824/37 x 74 = 3,600 millas (correcto)

El número real de millas recorridas (1,200 millas cada uno) no está incluido en

los cálculos anteriores. Cuando el método de la media armónica es usado, se supone

que el valor constante es el número de millas, el cual es igualmente aplicable a cada

estudiante. Es decir, cada estudiante manejó el mismo número de millas. (Note que la

unidad del primer término en la media armónica y en cada razón dada es una milla,

misma que la unidad del valor constante usado en el supuesto.) Este supuesto es cierto

en este caso. Por lo tanto, el método de la media armónica de la respuesta correcta

(Shao, 1971, pp. 210-212).

Media Cuadrática

Definición

La media cuadrática (expresada en algunos casos por MQ ó Q) es una medida

de tendencia central utilizada generalmente cuando la variable toma valores positivos y

negativos y se quiere despreciar estos signos en el cálculo. Se trata de elevar al cuadrado cada

valor de la variable para de esta manera eliminar los signos no positivos, luego calcular la

media aritmética de esos valores y finalmente extraer la raíz cuadrada de esta (Wikipedia,

2006, 16 de noviembre).

Datos no Agrupados. La media cuadrática (representada en este caso por Q) de un conjunto

de datos X1, X2, X3,…, Xn se define como:

Q = [(X12 + X2

2 + X32 + … + Xn

2)/n]1/2

De manera más concisa:

Q = [(Σ Xi2)/n]1/2

Propiedades

14


1. Para calcular la media cuadrática no se tienen en cuenta los signos positivos o negativos de

los valores que se analizan.

Aplicaciones

La media cuadrática es utilizada cuando la variable toma valores positivos y negativos

como es el caso de los errores de medida; además es utilizada a menudo en las aplicaciones

físicas y muy poco en estudios de negocios y economía.

Ejemplos

Se obtendrá la media cuadrática de seis números: 1, 8, -9, 3, 4 y -2

Q = [(12 + 82 + (-9)2 + 32 + 42 + (-2)2)/6]1/2 = 5.4

Relaciones Entre las Diferentes Medias

1. La media aritmética de una serie de cantidades es mayor que la media geométrica.

2. La media geométrica de una serie de cantidades es mayor que su media armónica.

La única excepción a estas dos últimas reglas se presenta cuando todas las cantidades

que forman la serie son iguales, pues en este caso las tres medias son también iguales.

3. La media geométrica de dos cantidades cualesquiera es igual a la media geométrica

entre la media aritmética y la armónica de ambas cantidades. Así, si las cantidades son

2 y 8, la media armónica es 31/5; la geométrica, 4, y la aritmética, 5, resultando ser 4 la

media geométrica, entre 31/5 y 5. Esto no ocurre cuando la serie contiene más de dos

términos (Mills, s.f., p. 123).

La magnitud relativa de las tres diferentes medias para los mismos datos puede ser expresada

como sigue:

Q > Med. Aritmética > G > H

Lo que quiere decir que la media cuadrática es mayor a la media aritmética que a su vez es

mayor a la media geométrica que es mayor a la media armónica.

Relación Entre Dos Variables

15


Definición

Es el análisis de una población o muestra significativa que describe una muestra

mediante dos variables X e Y, en la que habrá una relación entre estas dos variables.

Representación Tabular

En el análisis de una población o muestra significativa de individuos, caracterizadas

por las variables X e Y, estás se las representa respectivamente por:

X~> x1, x2,…, xi,…,xk

Y~> y1, y2, …, yi, …,yp

donde k y p son las modalidades que presentan X e Y respectivamente.

Con el fin de organizar toda la información recogida se la representa en una tabla con

k*p casillas, de manera que tengan p columnas y k filas, así:

Y y1 y2 … yj … yp

X x1 n11 n12 … n1j … n1p n1∙

x2 n21 n22 … n2j … n2p n2∙

… … … … … … … …xi ni1 ni2 … nij … nip ni∙

… … … … … … … …xk nk1 nk2 … nkj … nkp nk∙

n∙1 n∙2 … n∙j … n∙p n∙∙

Frecuencia Absoluta. Es el número de individuos representados con nij que a la vez presentan

las modalidades xi e yi.

Distribuciones Marginales

Frecuencia Absoluta Marginal. Es el número de individuos que presentan la modalidad xi o

yj y se representan como ni. y n.j respectivamente dados por:

ni. = ni1 + ni2 + … + nip

n.j = n1j + n2j + … + nkj

El número total de elementos n lo obtenemos mediante:

N = n.. = Σk Σp

nij

16


Distribuciones Condicionales

Variable Condicionada. Es aquella variable X definida sobre un conjunto más pequeño de la

población de la cual estamos interesados, que está formado por los elementos con modalidad

Yj (El número de elementos es n.j), se la representa mediante X|yj o X|Y=yj, y su distribución de

frecuencias absolutas es la columna j de la tabla.

Dependencia entre Variables

Dependencia Funcional. La dependencia funcional o dependencia total es una relación exacta

en donde tomado un valor X no es necesario practicar la de y (o viceversa) pues su valor está

dado de manera exacta por una fórmula matemática o física. Ejm Y = X/100 => X = 100 Y.

Independencia. Es todo lo contrario a la dependencia funcional. “Dos variables X eY son

independientes si la distribución marginal de una de ellas es la misma que la condicionada

por cualquier valor de la otra” (UMA, s.f., p. 78). Esto implicará que en la tabla todas las filas

y columnas van a ser proporcionales entre ellas.

Representación Gráfica

La representación gráfica de dos variables se la puede realizar utilizando el clásico eje

de coordenadas xy en donde cada valor de elemento se lo pondrá su respectivo eje.

y. .

.. . .

x. …. .

. . …

.

Representación Numérica

Covarianza. Es una medida de variabilidad común de dos variables cuantitativas que está

afectada por las unidades en las que cada variable se mide y está definida como sigue:

17


SXY = (1/n) Σ (xi - x)(yi - y) x = x media y = y media

La covarianza divide una nube de puntos en cuatro cuadrantes de los que están en el primer y

tercer cuadrante aportan positivamente a SXY y los que están en el segundo y cuarto lo hacen

de negativamente.

Interpretación de la covarianza

. Si SXY > 0 las dos variables crecen o decrecen a la vez (nube de puntos creciente).

. Si SXY < 0 cuando una variable crece, la otra tiene tendencia a decrecer (nube de

puntos decreciente).

. Si los puntos se reparten con igual intensidad alrededor de (x, y), SXY = 0 (no hay

relación lineal) (UMA, s.f., p. 80).

Coeficiente de correlación lineal de Pearson

Para que haya una medida de variabilidad que no sea afectada por las unidades en las

que cada variable se mide se divide la covarianza por el producto de las desviaciones típicas

de cada variable, para así conseguir tener un coeficiente adimensional llamado coeficiente de

correlación lineal de Pearson y denotado por r, cuya fórmula es la siguiente:

r = (SXY)/(SXSY)

Propiedades

1. Es adimensional.

2. No varia para las transformaciones lineales de las variables.

3. Está en el rango (-1,1).

4. Si |r| ≈ 1, se tiene una relación lineal muy fuerte entre las variables.

5. Si r ≈ 0, se puede decir que las variables son incorreladas es decir que no existe relación

lineal entre ellas.

Regresión

18


Permite hacer predicciones sobre posibles valores de una variable Y en función de otra

X o viceversa. Es una deducción a partir de una serie de datos observando las relaciones que

existen entre las variables.

Relación Funcional. Es la invención de una variable Ŷ como función de otra X o viceversa, y

el criterio que se debe seguir para su elaboración es que la diferencia entre Y e Ŷ se lo más

pequeña posible.

Ŷ = ƒ(X), Y - Ŷ = error, el error debe ser el mínimo posible.

Bondad de ajuste.

Consideremos un conjunto de observaciones sobre n individuos de una población, en los

que se miden ciertas variables X e Y:

X~> x1, x2,…, xn

Y~> y1, y2, …, yn

Estamos interesados en hacer regresión para determinar, de modo aproximado los

valores de Y conocidos los de X, debemos definir variable Ŷ = ƒ(X), que debe tomar los

valores

Ŷ~>ŷ1 = ƒ(x1), ŷ2 = ƒ(x2),…, ŷn = ƒ(xn)

de modo que:

Y - Ŷ~>y1 - ŷ1 ≈ 0, y2 – ŷ2 ≈ 0,…, yn – ŷn ≈ 0

Ello se puede expresar definiendo una nueva variable E que mida las diferencias entre

los auténticos valores de Y y los teóricos suministrados por la regresión,

E = Y - Ŷ~> e1 = y1 - ŷ1, e2 = y2 – ŷ2,…, en = yn – ŷn

y calculando Ŷ de modo que E tome valores cercanos a 0. Dicho de otro modo, E debe

ser una variable cuya media debe ser 0, y cuya varianza S2E debe ser pequeña (en

comparación con la de Y). Por ello se define el coeficiente de determinación de la

regresión de Y sobre X, R2Y|x, como

19


R2Y|x = 1- S2

E/S2Y (UMA, s.f., pp. 85-86).

Si el coeficiente de determinación de la regresión es un valor de casi 1 se puede decir que la

curva de regresión es buena. Este coeficiente analizado anteriormente sirve para medir el

grado de bondad del ajuste, es decir, para medir de qué manera las diferencias entre los

valores originales de una variable y los de la aproximación son pequeños en relación con los

de la variabilidad de la variable que intentamos aproximar.

Regresión Lineal. Esta regresión consiste en hallar los valores para las constantes a y b para

usar una relación funcional de tipo lineal que se puede escribir como Ŷ = a + b∙X buscando el

mínimo error posible entre Ŷ e Y. Estas constantes a y b son llamados coeficientes de

regresión y están dados por:

a = y – bx

b = SXY/S2X

Interpretación de los coeficientes de regresión

(…)

∙ Si b > 0, las dos variables aumentan o disminuyen a la vez.

∙ Si b < 0, cuando una variable aumenta, la otra disminuye (UMA, s.f., p. 87).

Propiedades de la regresión lineal

(…)

∙ Si |r| ≈ 1 el ajuste es bueno (Y se puede calcular de modo bastante aproximado a partir

de X y viceversa).

∙ Si |r| ≈ 0 las variables X e Y no están relacionadas (linealmente al menos), por tanto no

tiene sentido hacer un ajuste lineal. Sin embargo no es seguro que las dos variables no

posean ninguna relación en el caso r = 0, ya que si bien el ajuste lineal puede no ser (…)

[procedente], tal vez otro tipo de ajuste sí lo sea (UMA, s.f., p. 89).

Ejemplo de cálculo en regresión lineal

20


En un grupo de 8 pacientes se miden las cantidades antropométricas peso y edad,

obteniéndose los siguientes resultados:

Resultado de las medicionesX ≡ edad 12 8 10 11 7 7 10 14Y ≡ peso 58 42 51 54 40 39 49 56

¿Existe una relación lineal importante entre ambas variables? Calcular la recta de

regresión de la edad en función del peso y la del peso en función de la edad. Calcular la

bondad del ajuste ¿En qué medida, por término medio, varía el peso cada año? ¿En

cuánto aumenta la edad por cada kilo de peso?

Solución

Para saber si existe una relación lineal entre ambas variables se calcula el coeficiente de

correlación lineal, que vale:

r = SXY/SXSY = 15,2031/(2,3150 x 6,9631) = 0,9431

ya que

(…)

[ x = x media y = y media

Σ xi = 79 → x = 79/8 = 9,875 años

Σ yi = 389 → y = 389/8 = 48,625 Kg

Σ x2i = 823 → S2

X = 823/8 – 9,8752= 5,3594 años2

SX = 2,3150 años

Σ y2i = 19,303 → S2

Y = 19,303/8 – 48,6252 = 48,4844 Kg2

SY = 6,9631 Kg

Σ xiyi = 3,963 → SXY = 3,963/8 – 9,875 x 48,625 = 15,2031 Kg ∙ año ]

21


Por tanto el ajuste lineal es muy bueno. Se puede decir que el ángulo entre el vector

formado por las desviaciones del peso con respecto a su valor medio y el de la edad con

respecto a su valor medio, θ, es:

r = cos θ → θ = arc cos r ≈ 19º

es decir, entre esos vectores hay un buen grado de paralelismo (sólo unos 19 grados de

desviación).

La recta de regresión del peso en función de la edad es

Ŷ = a1 + b1X = 20,6126 + 2,8367 ∙X

a1 = y – b1x = 20,6126 Kg

b1 = SXY/S2X = 2,8367 Kg/año

La recta de regresión de la edad como función del peso es

[X ↔ Ŷ]

(…)[X] = a2 + b2Y = -5,3738 + 0,3136 ∙Y

a2 = (…)[x] – b2y = -5,3738 años

b2 = SXY/S2Y = 0,3136 años/Kg

que como se puede comprobar, no resulta de despejar en la recta de regresión de Y

sobre X.

La bondad del ajuste es

R2X|Y = R2

Y|X = r2 = 0,8894

por tanto podemos decir que el 88,94% de la variabilidad del peso en función de la

edad es explicada mediante la recta de regresión correspondiente. Lo mismo podemos

decir en cuanto a la variabilidad de la edad en función del peso. Del mismo modo puede

decirse que hay un 100 – 88,94% = 11,06% de varianza que no es explicada por las

rectas de regresión. Por tanto la varianza residual de la regresión del peso en función de

la edad es

22


S2E = (1 – r2) ∙ S2

Y = 0,1106 x 48,4844 = 5,33 Kg2

y la de la edad en función del peso:

S2E = (1 – r2) ∙ S2

X = 0,1106 x 5,3594 = 0,59 años2

Por último la cantidad en que varía el peso de un paciente cada año es, según la recta

de regresión del peso en función de la edad, la pendiente de esta recta, es decir, b1 =

2,8367 Kg/año. Cuando dos personas difieren en peso, en promedio la diferencia de

edad entre ambas se rige por la cantidad b2 = 0,3136 años/Kg de diferencia (UMA, s.f.,

pp. 92-94).

23


Referencias

AulaFacil S.L. (2000). Medidas de Posición Central. Extraído el 11 de Abril del 2007 desde

http://www.aulafacil.com/CursoEstadistica/Lecc-4-est.htm

Caballero, W. (1975). Introducción a la Estadística. San José de Costa Rica. 1975.

Carson McCormick, T. (1954). Técnica de la Estadística Social (1ª ed.). México: Fondo de

Cultura Económica México-Buenos Aires. 1954.

Martínez, C. (1998). Estadística Comercial (2da ed.). Santa Fe de Bogota, Colombia: Editorial

Norma. 1998.

Mills, F. (s.f.). Métodos Estadísticos (Aplicada a la economía y los negocios). Madrid,

España: M. Aguilar Editor. 1935.

Shao, S. P. (1971). Estadísticas para economistas y administradores de empresas (3ra ed.).

México: Editorial Herrero Hermanos. 1971.

Spiegel, M. (s.f.). Estadística (2da ed.). España: McGraw-Hill. 1991.

UMA. (s.f.). Bioestadística.

Yamane, T. (1979). Estadística (3ra ed). México: Editorial Harla. 1979.

Wikipedia. (2006, 16 de Noviembre). Media Cuadrática. Extraído el 14 de Abril del 2007

desde http://es.wikipedia.org/wiki/Media_cuadrÃ¡tica

24

Documents

Medias y Relaciones entre dos Variables