Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 1
BLOQUE I: ESTADÍSTICA DESCRIPTIVA
TEMA 1. ESTADISTICA DESCRIPTIVA UNIDIMENSIONAL 1. Generalidades Estadística: Conjunto de teorías y técnicas para la recopilación, el análisis, la interpretación y la presentación de conjuntos de datos Etapas en un estudio estadístico:
• Recogida de datos, incluyendo el diseño de cómo se ha de realizar dicha recogida
• Ordenación y representación de los datos obtenidos • Descripción de las características más importantes • Análisis estadístico formal de dichos datos, que permitirá
extraer conclusiones así como tomar decisiones Estadística Descriptiva: Parte de la Estadística que tiene por objeto el estudio de conjuntos numerosos de datos con el fin de dar una descripción numérica, ordenación y simplificación de la información recogida en los datos Algunos conceptos básicos de la Estadística Descriptiva Población: conjunto de individuos o elementos sobre el que recaen las observaciones y objeto de nuestro estudio Muestra: subconjunto representativo de toda la población. Se suele considerar una muestra de la población porque no siempre es posible estudiar exhaustivamente la población por motivos de tiempo, coste excesivo u otro tipo de dificultad Carácter: propiedad que deseamos observar sobre los elementos de la población Modalidad: cada uno de los estados diferentes que puede presentar un carácter. Las modalidades de un carácter deben ser exhaustivas e incompatibles. Cada elemento debe pertenecer a una y solamente a una modalidad
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 2
M1
M2
…Mk
P
jiMMMMMP
ji
k
≠==
,21
φI
UKUU
Atendiendo a sus modalidades, los caracteres se pueden clasificar en
• Caracteres cuantitativos: sus distintas modalidades son medibles
• Caracteres cualitativos: sus modalidades no están sujetas a medida Los caracteres cualitativos se denominan también atributos Los caracteres cuantitativos se denominan también variables estadísticas y se dividen en
• Variables estadísticas discretas: número finito o infinito numerable de modalidades
• Variables estadísticas continuas: número de modalidades no
numerable A veces la distinción entre variables estadísticas discretas y continuas es arbitraria. Variables discretas con un gran número de valores se pueden aproximar por continuas y, a su vez, variables continuas pueden tratarse como discretas debido, por ejemplo, a la imprecisión de los instrumentos de medida Ejemplos. Para los habitantes de un cierto municipio se pueden estudiar los siguientes caracteres: sexo, estado civil, profesión, número de hermanos, edad, estatura,...
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 3
Distribución de frecuencias
Población: P Número de individuos observados: n Carácter: C Modalidades: M1,M2,...,Mk
Frecuencia absoluta de la modalidad Mi, ni: número de individuos observados que presentan dicha modalidad Y se cumple que
n1+...+nk=n
Frecuencia relativa de la modalidad Mi, fi: proporción de individuos observados que presentan dicha modalidad, se obtiene como
nnf i
i =
Y se verifica que
f1+...+fk=1 Distribución de frecuencias: conjunto de modalidades que presenta un carácter junto con sus frecuencias (relativas o absolutas)
Distribución de frecuencias absolutas: {(Mi,ni): i=1,..., k)} Distribución de frecuencias relativas: {(Mi,fi): i=1,..., k)}
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 4
2. Tabla de frecuencias Los datos se representan en una tabla como sigue
CarácterC
Frecuencias absolutasni
Frecuencias relativas fi
M1 n1 f1 M2 n2 f2 . . . . . . . . .
Mk nk fk n 1
Ejemplo. Clasificación de los empleados de una empresa según su nivel de estudios (atributo)
Nivel de estudios Mi
Frecuencias absolutasni
Frecuencias relativasfi
Sin Estudios Estudios Primarios
Grado Medio Grado Superior
15 25 21 9
0.2143 0.3571 0.3000 0.1286
70 1 Ejemplo. Clasificación de los alumnos de un Facultad de Ciencias por secciones (atributo)
Secciones Mi
Frecuencias absolutasni
Frecuencias relativasfi
Químicas Matemáticas
Físicas Biológicas Geológicas
1500 750
1000 500 250
0.3750 0.1875 0.2500 0.1250 0.0625
4000 1
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 5
Para variables estadísticas se definen las frecuencias absolutas acumuladas y las frecuencias relativas acumuladas, respectivamente, como
Ni=n1+...+ni Fi=f1+...+fi Variables estadísticas discretas → X: x1, x2,..., xk, donde x1 <x2<...<xk
Frecuencias absolutas
Frecuencias relativas
Valor xi
ni Ni fi Fi x1 n1 N1 f1 F1 x2 n2 N2 f2 F2 . . . . . . . . . . . . . . .
xk nk Nk fk Fk n 1
Ejemplo. Número de piezas defectuosas producidas diariamente en una fábrica (variable estadística discreta)
Frecuencias absolutas
Frecuencias relativas
Valor xi
ni Ni fi Fi 0 1 2 3 4 5
6 o más
40 26 14 6 3 0 1
40 66 80 86 89 89 90
0.444 0.289 0.156 0.067 0.033 0.000 0.011
0.444 0.733 0.889 0.956 0.989 0.989
1 90 1
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 6
Variables estadísticas continuas → X: [e0,e1], (e1,e2],..., (ek-1,ek], con e0<...<ek (ei-1,ei]: clase i-ésima
ei-1, ei: extremo inferior y extremo superior respectivamente de la clase i-ésima
ai= ei - ei-1: amplitud de la clase i-ésima xi=( ei-1 + ei)/2: marca de la clase i-ésima
hi=ni/ai: densidad de frecuencia para la clase i-ésima (número de observaciones por unidad de intervalo)
Frecuencias absolutas
Frecuencias relativas
Intervalo (ei-1,ei]
ni Ni fi Fi [e0,e1] n1 N1 f1 F1 (e1,e2] n2 N2 f2 F2
. . . . .
. . . . .
. . . . . (ek-1,ek] nk Nk fk Fk
n 1 Ejemplo. Tiempo de vida en horas de unas determinadas componentes de una máquina (variable estadística continua)
Frecuencias absolutas
Frecuencias relativas
Intervalo (ei-1,ei]
Marcas de clase
xi ni Ni fi Fi [0,20]
(20,100] (100,150] (150,250] (250,400]
10 60 125 200 325
7 15 22 19 7
7 22 44 63 70
0.1 0.214 0.314 0.271
0.1
0.1 0.314 0.628 0.899
1 70 1
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 7
3. Representación gráfica • Las representaciones gráficas tiene por objeto proporcionar una síntesis
visual de la distribución de frecuencias • Todas las representaciones gráficas se basan en el principio de hacer
proporcional las frecuencias a alguna magnitud de la figura representada, generalmente el área encerrada
• Atendiendo a la naturaleza del carácter en estudio se utilizan diferentes tipos
de representación Caracteres cualitativos
• Diagrama de
rectángulos • Diagrama de sectores
Variables estadísticas discretas
• Diagrama de barras • Polígono de
frecuencias • Curva acumulativa o
de distribución
Caracteres cuantitativos
Variables estadísticas continuas
• Histograma • Polígono de
frecuencias • Curva acumulativa o
de distribución
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 8
Caracteres cualitativos • Diagrama de rectángulos: En el eje de abscisas se asocia a cada modalidad
un rectángulo de base constante y altura proporcional a la frecuencia correspondiente
n4
n2 n1 n3 M1 M2 M3 M4 • Diagrama de sectores: Un círculo cualquiera se divide en tantos sectores
circulares como modalidades diferentes tenga el carácter, de manera que la amplitud de cada sector circular sea proporcional a la frecuencia correspondiente. Para su construcción, el ángulo que define cada sector queda determinado por
αi=2 π fi (si el ángulo se expresa en radianes) αi=360º fi (si el ángulo se expresa en grados sexagesimales)
M1 M4
M2 M3
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 9
Caracteres cuantitativos Se define la función de distribución de una variable estadística X de la siguiente forma:
F(x)=proporción de individuos con valor de la variable menor o igual a x Variables estadísticas discretas • Diagrama de barras: En un sistema de ejes cartesianos se representa el
conjunto de puntos {(xi,ni): i=1,...,k} ó {(xi,fi): i=1,...,k}, y posteriormente se unen con el eje de abscisas mediante segmentos verticales n5
n2 n1 n3 n4 x1 x2 x3 x4 x5
• Polígono de frecuencias: Se construye uniendo con segmentos los extremos
superiores de los segmentos verticales en el diagrama de barras
n5 n2 n1 n3 n4 x1 x2 x3 x4 x5
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 10
• Curva acumulativa o de distribución: Consiste en la representación gráfica de la función de distribución
⎪⎪⎪⎪
⎩
⎪⎪⎪⎪
⎨
⎧
≥<≤
<≤<≤
<
=
−−
k
k1k1k
322
211
1
xxsi1xxxsiF
.........xxxsiFxxxsiF
xxsi0
F(x)
Propiedades: • Se mantiene constante entre cada par de valores de la variable • Función no decreciente en toda la recta real • Función continua en todo punto de la recta real que no sea un valor de la
variable • Función continua a la derecha en los valores de la variable • 1 F(x) lim 0 F(x) lim
x- x==
+∞→∞→
F5=1
F4 F3 F2 F1 x1 x2 x3 x4 x5
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 11
Variables estadísticas continuas • Histograma: Se representan sobre el eje de abscisas los extremos de los
intervalos de clase de la variable y sobre cada uno de ellos se construye un rectángulo cuya área sea proporcional a su frecuencia absoluta (con el mismo factor de proporcionalidad para todas las clases); por tanto, su altura será igual a su densidad de frecuencia hi
h2 h3 h4 h1 h5 e0 e1 e2 e3 e4 e5 • Polígono de frecuencias: Se construye uniendo con segmentos los puntos
medios de los lados superiores de los rectángulos que forman el histograma
h2 h3 h4 h1 h5 e0 e1 e2 e3 e4 e5
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 12
• Curva acumulativa o de distribución: Consiste en la representación gráfica de la función de distribución. En este caso, se conoce la función de distribución para los extremos de los intervalos (ei-1,ei]
⎪⎪⎪
⎩
⎪⎪⎪
⎨
⎧
≥=
==<
=
−−
k
1k1k
22
11
0
exsi1exsiF
.........exsiFexsiFexsi0
F(x)
Como no se conocen los valores de F(x) supondremos que esta función aumenta de forma lineal entre los extremos de los intervalos
Propiedades: • Función no decreciente en toda la recta real • Función continua en todo punto de la recta real • 1 F(x) lim 0 F(x) lim
x- x==
+∞→∞→
F5=1 F4 F3 F2 F1 e0 e1 e2 e3 e4 e5
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 13
4. Síntesis numérica de una variable estadística unidimensional Nos centraremos a partir de ahora en el estudio de variables estadísticas A continuación definimos cantidades numéricas, denominadas características o medidas, que representan o sintetizan determinados aspectos de la distribución de la variable estadística. Éstas se clasifican en
• Medidas de posición o localización: describen cómo se comportan globalmente los datos observados y localizan la distribución de frecuencias
• Medidas de dispersión: miden la desviación o variabilidad de las
observaciones entre sí o en relación con un valor de referencia, generalmente con respecto a una medida de posición central informando sobre la representatividad de dicha medida
• Medidas de forma: resumen características relativas a la forma de la
distribución. Cuantifican aspectos sobre la posible simetría de la distribución (medidas de asimetría) y sobre la concentración de las observaciones más centrales con respecto a una distribución de referencia (medidas de curtosis o apuntamiento)
• Medidas de posición
• Medidas de posición central
Media aritmética: Suma de los datos observados ponderados por sus frecuencias relativas
i
k
1iii
k
1ii nx
n1fxx ∑∑
==
==
Moda: Valor de la variable que se presenta con mayor frecuencia Para variables estadísticas discretas el cálculo de la moda es inmediato. No tiene por qué ser única
Para variables estadísticas continuas se define el intervalo modal como el intervalo que presenta mayor densidad de frecuencia. Para obtener un valor concreto del intervalo como moda se tienen en cuenta las densidades de frecuencia de los intervalos adyacentes a dicho intervalo
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 14
Un procedimiento gráfico para su cálculo se ilustra en la siguiente figura: hi hi+1 hi-1
ei-2 ei-1 Mo ei ei+1
1ii
i
1ii
1i
hhMoe
hheMo
+−
−
−−
=−−
La moda tenderá a aproximarse al intervalo contiguo con mayor densidad de frecuencia
Mediana: La mediana como medida de tendencia central es el valor que divide al conjunto de todas las observaciones (supuestas ordenadas en orden creciente o decreciente) en dos subconjuntos con el mismo número de observaciones cada uno, de manera que uno está formado por todas las observaciones menores o iguales que la mediana y el otro por las mayores Se define como el valor de la variable estadística, Me, tal que la ordenada en la función de distribución vale 0.5, es decir, la solución de la ecuación
F(Me)=0.5
Cálculo de la mediana:
Para variables estadísticas discretas, la mediana es el valor de la variable que verifica xMe=Me ⇒ F(xMe-1) < 0.5 y F(xMe) ≥ 0.5
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 15
(Me,0.5)
Para su cálculo se consideran las frecuencias relativas acumuladas Fi (o las frecuencias absolutas acumuladas, Ni) 1. Si existe alguna frecuencia relativa acumulada Fi que coincida con 0.5,
Fi = 0.5 (ó Ni = n /2),
Me = (xi + xi+1)/2 2. En otro caso, se considera la frecuencia relativa acumulada que por
primera vez supera a 0.5, Fi (o la frecuencia absoluta acumulada que por primera vez supera a n/2, Ni), y
Me = xi
Para variables estadísticas continuas, se determina la mediana de forma gráfica como
F(x) 1
F(ei)=Fi 0.5
F(ei-1)=Fi-1 0 ei-1 Me ei
1ii
1ii
1i
1i
FFee
F0.5eMe
−
−
−
−
−−
=−−
O, equivalentemente,
1ii
1ii
1i
1i
NNee
Nn/2eMe
−
−
−
−
−−
=−−
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 16
• Medidas de posición no central
Cuantiles. Se define el cuantil de orden α (0<α<1) como el valor de la variable xα tal que su ordenada en la función de distribución vale α, es decir, la solución de la ecuación
F(xα)=α
Casos particulares de cuantiles para valores concretos de α: Cuartiles: Q1, Q2 y Q3, para α=0.25, 0.5 y 0.75, respectivamente
F(Q1)=0.25, F(Q2)=0.5 y F(Q3)=0.75
Deciles: D1, D2, ..., D9, para α=0.1, 0.2 ,..., y 0.9, respectivamente
F(D1)=0.1, F(D2)=0.2,..., y F(D9)=0.9 Percentiles: P1, P2, ..., P99, para α=0.01, 0.02 , ..., y 0.99, respectivamente
F(P1)=0.01, F(P2)=0.02,..., y F(P99)=0.99 Cálculo de cuantiles
Caso discreto:
Se consideran las frecuencias relativas acumuladas Fi (o las frecuencias absolutas acumuladas, Ni)
1. Si existe alguna frecuencia relativa acumulada Fi que coincida con α, Fi = α (ó Ni = n α), entonces
xα = (xi + xi+1)/2
2. En otro caso, se considera la frecuencia relativa acumulada que
por primera vez supera a α, Fi (o la frecuencia absoluta acumulada que por primera vez supera a nα, Ni), y
xα= xi
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 17
(x α , α)=( x α , F(x α))
Caso continuo:
Se consideran las frecuencias relativas acumuladas Fi (o las frecuencias absolutas acumuladas, Ni)
1. Si existe alguna frecuencia relativa acumulada Fi que coincida con α, Fi = α (ó Ni = n α),
xα = ei
2. En otro caso, se considera la frecuencia relativa acumulada que por primera vez supera a α, Fi (o la frecuencia absoluta acumulada que por primera vez supera a nα, Ni), y
xα ∈ (ei-1, ei]
Para el cálculo práctico se generaliza el procedimiento introducido para la mediana
F(x) 1
F(ei)=Fi
α
F(ei-1)=Fi-1 0 ei-1 xα ei
1ii
1ii
1i
1iα
FFee
Fαex
−
−
−
−
−−
=−−
O equivalentemente,
1ii
1ii
1i
1iα
NNee
Nnαex
−
−
−
−
−−
=−−
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 18
• Medidas de dispersión
• Medidas de dispersión absoluta. Miden la dispersión o variabilidad en las mismas unidades que la variable en estudio. No sirven para comparar la variabilidad o dispersión de distribuciones distintas Rango: Amplitud del intervalo donde se encuentran distribuidas todas las observaciones
R = Max xi – Min xi Rango intercuartílico: Amplitud del intervalo donde se encuentran distribuidas el 50% de las observaciones centrales
RI = Q3 - Q1 Desviación absoluta media respecto a un valor ‘a’: Media aritmética de las desviaciones en valor absoluto entre los valores observados y ‘a’
i
k
1iii
k
1iia n |x|
n1 f |x| D ∑∑
==
−=−= aa
Desviación cuadrática media respecto a un valor ‘a’: Media aritmética de los cuadrados de las desviaciones entre los valores observados y ‘a’
i
k
1i
2ii
k
1i
2ia n a) x(
n1 f a) x( Q ∑∑
==
−=−=
Caso particular: desviación cuadrática media respecto a la media aritmética, denominada varianza (denotada por σ2 o por Var X)
i
k
1i
2ii
k
1i
2i n ) x x(
n1 f )x x( XVar ∑∑
==
−=−=
A la raíz cuadrada positiva de la varianza se le denomina desviación típica (denotada por σ)
Nota: La varianza se puede descomponer como la media de los cuadrados de los valores menos el cuadrado de la media.
2 i
k
1i
2i i
k
1i
2i xf x f )x x( XVar −=−= ∑∑
==
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 19
• Medidas de dispersión relativa. Son medidas adimensionales que
permiten comparar la variabilidad de distintas distribuciones y la representatividad de sus promedios
Coeficiente de variación de Pearson: Cociente entre la desviación típica y la media aritmética
xσ Cv =
Interpretación: mide la representatividad de la media como medida que resume toda la información de la variable al comparar distintas distribuciones de frecuencias. Cuanto menor sea el valor de dicho coeficiente mayor representatividad de la media, más agrupados están los valores observados en torno a su valor medio
• Medidas de forma
• Medidas de asimetría: Miden el grado de asimetría de la distribución de frecuencias Una distribución de frecuencias es simétrica si su correspondiente representación gráfica (diagrama de barras o histograma, según sea la variable discreta o continua, respectivamente) es simétrica respecto a un eje vertical
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 20
Distribución asimétrica a la derecha o asimétrica positiva si las observaciones están desplazadas hacia la derecha Distribución asimétrica a la izquierda o asimétrica negativa si las observaciones están desplazadas hacia la izquierda Sesgo a la izquierda Sesgo a la derecha
Coeficientes de asimetría de Pearson:
σMo - xa'
σMe) - x( 3 a PP ==
Coeficiente de asimetría de Fisher:
3
31
σmg = if )x x(m
k
1i
3 i3 ∑
=
−=
Interpretación del signo de los coeficientes:
Signo positivo ⇒ Asimetría a la derecha o positiva Signo negativo ⇒ Asimetría a la izquierda o negativa
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 21
• Medidas de curtosis o apuntamiento: Se aplican a distribuciones
unimodales y simétricas o levemente asimétricas para estudiar la mayor o menor concentración de los valores en torno a la media y cómo se comportan las colas, comparándose con la distribución de probabilidad normal o curva de Gauss
Coeficiente de curtosis de Fisher:
3σmg 4
42 −= if)x x(m
k
1i
4 i4 ∑
=
−=
Coeficiente nulo ⇒ Igual de apuntada que la distribución normal Interpretación del signo del coeficiente:
Signo positivo ⇒ Más apuntada que la distribución normal Signo negativo ⇒ Menos apuntada que la distribución normal
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 22
Gráfico Box-Whisker Representación gráfica de una distribución en la que intervienen las siguientes medidas: mediana (Me), primer y tercer cuartil (Q1 y Q3), mínimo y máximo (min y max) • Sobre una escala se dibuja una caja que se extiende desde el primer cuartil
hasta el tercer cuartil • Se divide la caja en la posición que ocupa la mediana • Se consideran aquellos valores que distan de la caja 1.5 veces el recorrido
intercuartílico (RI=Q3-Q1), denominados valores anómalos o atípicos
Se traza un segmento desde el primer cuartil hasta el menor valor observado que no sea anómalo y otro segmento desde el tercer cuartil hasta el mayor valor observado que no sea anómalo Los valores anómalos se añaden a la representación como puntos aislados
Ejemplo. Representar con un diagrama Box-Whisker los siguientes datos:
15, 15, 17, 18, 19, 19, 19, 20, 20, 20, 23, 24, 25, 30, 32, 32, 38, 41, 61, 63, 64, 67, 80, 99, 132, 137, 140
n=27 Me=30 Q1=19 Q3=64 RI = Q3 - Q1 = 64 - 19 = 45 1.5 RI=67.5 Q1 - 1.5 RI = 19 - 67.5 = - 48.5 Q3 + 1.5 RI = 64 + 67.5 = 131.5 Valores anómalos: 132, 137, 140
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 23
TEMA 2. ESTADISTICA DESCRIPTIVA BIDIMENSIONAL 1. Concepto de variable estadística bidimensional Se está interesado en el estudio conjunto de dos caracteres sobre cada uno de los individuos que forman la población. Estos dos caracteres se denotan por X e Y. La variable que representa estos dos caracteres se denota por (X,Y) y se denomina variable estadística bidimensional
X: x1, x2, ..., xk Y: y1, y2, ..., yp
Cada individuo de la población presentará un valor xi de X y un valor yj de Y, que se denotará por el par (xi,yj) Distribución conjunta Se consideran n individuos sobre los que se observan las variables X e Y Frecuencia absoluta conjunta del par (xi,yj), nij: número de individuos observados que presentan el valor xi de X y el valor yj de Y
n nnp
1j
k
1iij
k
1i
p
1jij ∑∑∑∑
= == =
==
Frecuencia relativa conjunta del par (xi,yj), fij: proporción de individuos observados que presentan el valor xi de X y el valor yj de Y
∑∑∑∑= == =
===p
1j
k
1iij
k
1i
p
1jij
ijij 1 ff
nn
f
Distribución de frecuencias:
{(xi,yj),nij): i=1,...,k, j=1,...,p} {(xi,yj),fij): i=1,...,k, j=1,...,p} Ejemplo. Peso y altura, edad y salario,...
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 24
Tabla de correlación: Representación numérica de los datos en una tabla de doble entrada
X/Y y1 y2 . . . yp ni. x1 n11 n12 . . . n1p n1. x2 n21 n22 . . . n2p n2. . . . . . . . . . . . . . . . . . . . . . . . .
xk nk1 nk2 . . . nkp nk. n.j n.1 n.2 . . . n.p n
∑
∑
=
=
=
=
k
1i
j ij j
p
1ji iji.
Y de y valor elpresentan que individuos de númeron n.
X de valor xelpresentan que individuos de númeron n
Ejemplo. Se han estudiado los pesos y las tallas de un grupo de individuos, obteniendo la siguiente información:
X/Y 159-161 161-163 163-165 165-167 167-169 169-171 ni. 48 3 2 2 1 0 0 8 51 2 3 4 2 2 1 14 54 1 3 6 8 5 1 24 57 0 0 1 2 8 3 14 60 0 0 0 2 4 4 10 n.j 6 8 13 15 19 9 70
X: Peso (en Kg.) Y: Talla (en cm.)
Distribución del peso Distribución de la talla
X ni. Y n.j 48 8 159-161 6 51 14 161-163 8 54 24 163-165 13 57 14 165-167 15 60 10 167-169 19
70 169-171 9 70
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 25
2. Distribuciones marginales y condicionadas Distribuciones marginales: Distribuciones unidimensionales correspondientes a las variables X e Y
• La distribución marginal de X expresa cómo se distribuye la variable X independientemente de los valores presentados por la variable Y
• La distribución marginal de Y expresa cómo se distribuye la variable
Y independientemente de los valores presentados por la variable X
Distribución marginal de X Distribución marginal de Y
X ni. fi. Y n.j f.j x1 n1. f1. y1 n.1 f.1 . . . . . . . . . . . . . . . . . .
xk nk. fk. yp n.p f.p
n 1 n 1
Distribuciones condicionadas: Las distribuciones condicionadas expresan cómo se distribuyen, según una de las dos variables, el conjunto de individuos que cumplen una condición, ésta expresada por un valor o un conjunto de valores que presenta la otra variable Distribución de X condicionada a Y=yj Distribución de Y condicionada a X=xi
X/Y=yj ni|j fi|j Y/X=xi nj|i fj|i x1 n1j f1|j y1 ni1 f1|i . . . . . . . . . . . . . . . . . .
xk nkj fk|j yp nip fp|i
n.j 1 ni. 1
.j
ij
.j
j|ij|iijj|i n
nnn
f nn ===
i.
ij
i.
j|ii|jijj|i n
nnn
f nn ===
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 26
3. Dependencia e independencia estadística Dependencia funcional
• Se dice que Y depende funcionalmente de X si para cada valor de X se observa un único valor de Y
• Se dice que X depende funcionalmente de Y si para cada valor de Y
se observa un único valor de X
• La dependencia funcional no es una propiedad recíproca Independencia estadística: X e Y son estadísticamente independientes si se verifica la condición
.ji.ij.ji.
ij fff ó nnn
n == para todo i, j
O equivalentemente,
ji, ,ff i.j|i ∀= O equivalentemente,
ji, ,ff .ji|j ∀=
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 27
TEMA 3. REGRESION Y CORRELACION
• Objetivo de la Teoría de Regresión: Encontrar una función que exprese lo mejor posible el tipo de relación entre dos o más variables
• Objetivo de la Teoría de Correlación: Estudiar el grado de dependencia
entre las variables 1. Planteamiento del problema de regresión
Y: variable dependiente X: variable independiente
Formalmente, se pretende expresar la variable Y en términos de la función X mediante una expresión de la forma
Y = f (X)
utilizando la mejor función f que relaciona a X e Y Si dos variables presentan una dependencia estadística, gráficamente no es posible encontrar una curva que pase por todos los puntos del diagrama de dispersión. El objetivo de la regresión consistirá en seleccionar una función tal que su gráfica, aunque no pase por todos los puntos observados, esté lo más próxima posible a dichos puntos Y X
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 28
Criterio de mínimos cuadrados Y Error cometido eij = yj - f(xi) yj eij f(xi ) xi X Predicción para y cuando x=xi: ŷx=xi=f(xi) Criterio: Encontrar la función f que minimice la media de los cuadrados de los errores cometidos
f ))f(x-(y fe ijji,
2ij
fij
ji,
2ij
fminmin ∑∑ →
Esta formulación es muy general y en la práctica nos restringimos a familias paramétricas de funciones como, por ejemplo,
f(x) = a + b x f(x) = a + b x + c x2
f(x) = a bx f(x) = a xb
donde a y b son constantes denominadas parámetros. Cuando representamos los datos en un diagrama de dispersión decidimos qué función ajustarle
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 29
2. Regresión lineal mínimo-cuadrática • Recta de regresión de Y sobre X: y = a + b x ŷx=xi = a + b xi
Criterio de mínimos cuadrados:
f ))bx(a-(y ijji,
2ij
b a,min∑ +
Valores óptimos para a y b:
x b - y a XVar
Y)Cov(X,b ==
Recta mínimo-cuadrática:
)x(xXVar
Y)Cov(X,yy −=−
• Recta de regresión de X sobre Y: x = a’ + b’ y x y=yj = a’ + b’ yj
Criterio de mínimos cuadrados:
f ))yb'(a'-(x ijji,
2ji
b' ,a'min∑ +
Valores óptimos para a’ y b’:
y b' - x a' Var Y
Y)Cov(X,b' ==
Recta mínimo-cuadrática:
)y(y
Var YY)Cov(X,xx −=−
donde y xfyx f )y(y )x(x Y)Cov(X, ijj
ji,
iijjji,
i ⋅−=−−= ∑∑ es una medida conjunta del
grado de relación entre las variables X e Y, denominada covarianza entre X e Y.
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 30
• Interpretación del signo de la covarianza Signo positivo ⇒ Relación directa entre las variables, las dos variables varían en el mismo sentido Signo negativo ⇒ Relación inversa entre las variables, las dos variables varían en sentido contrario
3. Varianza residual y Coeficiente de correlación lineal El criterio de mínimos cuadrados utiliza como medida del error que se comete cuando se ajusta una curva a unos datos la media de los cuadrados de los residuos, denominada varianza residual. En el caso en que se desee predecir la variable Y a partir de valores de X utilizando la función f, la varianza residual se calcula como
n en1feS ij
ji,
2ijij
ji,
2ij
2ry ∑∑ ==
donde eij = yj - f(xi).
• Cuando 0S2ry = la curva ajustada pasa por todos los puntos observados y el
ajuste será perfecto • Cuanto menor sea la varianza residual menores serán los residuos y mejor
será el ajuste de la curva a la nube de puntos Problema que presenta esta medida: no se sabe a partir de qué valor S2
ry es suficientemente pequeña o suficientemente grande para poder concluir que el ajuste realizado sea un buen o un mal ajuste Bondad del ajuste de la recta: coeficiente de correlación lineal Se define el coeficiente de correlación lineal como
Var Y XVar
Y)Cov(X,r =
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 31
Propiedades: • El coeficiente de correlación es una medida adimensional que toma
valores entre –1 y 1 • Mide el grado de dependencia lineal entre las variables
• Interpretación del signo de r
Signo positivo ⇒ Relación directa entre las variables, las dos variables varían en el mismo sentido Signo negativo ⇒ Relación inversa entre las variables, las dos variables varían en sentido contrario
• Se verifica la relación
YVar
S1r VarY )r(1S
2ry(recta)222
ry(recta) −=⇒−=
XVar
S1r VarX )r(1S
2rx(recta)222
rx(recta) −=⇒−=
Interpretación de los valores de r2
• Si r2=0 ⇒ No existe dependencia lineal entre las variables
Recta de regresión de Y/X:
yy =
Recta de regresión de X/Y:
xx = Las rectas de regresión son perpendiculares
• Si r2=1 ⇒ Las rectas de regresión pasan por todos los valores observados, el ajuste lineal es perfecto. Las dos rectas de regresión coinciden
• Cuanto más se aproxime r2 a 1 mejor ajuste lineal
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 32
Ejemplo. La siguiente tabla muestra las ventas y devoluciones en millones de pts de 7 empresas
Ventas (X) 17 23 40 21 19 20 10 Devoluciones (Y) 3 5 11 5 4 4 1
a) Representar los datos gráficamente mediante un diagrama de dispersión b) Calcular la recta de mínimos cuadrados para predecir las devoluciones en
función de las ventas. Representar gráficamente esta recta c) Obtener una predicción lineal de las devoluciones en pts para una empresa
con 22 millones de ventas d) ¿Es fiable la predicción obtenida? Dar una medida de la bondad del ajuste e) Obtener la varianza residual para la recta ajustada. Solución a) Representación de los datos:
b) Recta de regresión de Y/X: )x(x
XVar Y)Cov(X,yy −=−
Cálculo de medias, varianzas y covarianza:
xi yi xi yi xi2 yi
2 17 3 51 289 9 23 5 115 529 25 40 11 440 1600 12121 5 105 441 25 19 4 76 361 16 20 4 80 400 16 10 1 10 100 1 150 33 877 3720 213
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 33
2437.724286.217
3720 XVar 21.42867
150x 2 =−===
2049.87143.47
213 Var Y 7143.4733y 2 =−===
24.26484.71434286.21
7877 Y)(X, Cov =⋅−=
Recta de regresión de Y/X:
0.3359x2.4836 y 21.4286)(x
72.243724.26484.7143y +−=⇒−=−
Representación gráfica:
c) Predicción para x=22:
4.9062 22 . 0.3359 2.4836 - y 22x =+==
d) Cálculo de r2:
9933.02049.82437.72
2648.24 22 =
⋅=r
El valor de r2 es próximo a 1 y el valor 22 está dentro del rango de valores observados de la variable x ⇒ Buen ajuste lineal y predicciones fiables
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 34
e) Utilizando la relación
VarY )r(1S 22ry(recta) −=
se tiene que
0.05497 8.2049 ) 0.9933 - 1 ( VarY )r(1S 22ry(recta) =⋅=−=
O bien, se calcula directamente como
∑=
=−=7
1
22ry(recta) )ˆ(
n1S
ixxi i
yy
xi yi ixxy =ˆ 2)ˆ(ixxi yy =−
17 3 3.2267 0.05139 23 5 5.2421 0.05861 40 11 10.9524 0.00226 21 5 4.5703 0.18464 19 4 3.8985 0.01030 20 4 4.2344 0.05494 10 1 0.8754 0.01552 0.37766
Con lo cual,
05497.07
37766.0)ˆ(n1S
7
1
22ry(recta) ≅=−= ∑
==
ixxi i
yy
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 35
4. Otros tipos de ajuste Hipérbola equilátera:
xbay +=
1. Se realiza el cambio de variable
x1z =
2. Se obtiene la recta de regresión de Y/Z, y=A+Bz, donde A=a y B=b
3. Se deshace el cambio considerando a = A y b = B
Función exponencial: xba y =
1. Se realiza la siguiente transformación
b logx a log y log +=
2. Se realiza el cambio de variable ylogz = 3. Se obtiene la recta de regresión de Z/X, z = A+B x,
donde A=log a y B=log b
4. Se deshace el cambio considerando a = antilog A y b =antilog B
Función potencial: bxa y =
1. Se realiza la siguiente transformación
x log ba log y log +=
2. Se realizan los cambios de variable
ylogz = x logt =
3. Se obtiene la recta de regresión de Z/T, z = A+B t,
donde A=log a y B=b
4. Se deshace el cambio considerando a = antilog A y b = B
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 36
Ejemplo. La siguiente tabla muestra la evolución de la concentración de una determinada componente cuando se disuelve en un medio ácido:
Tiempo (en segundos)
Concentración
3 5 10 15 20 30 40 50 60 75
25.82 23.36 18.19 14.17 11.03 6.69 4.05 2.46 1.49 0.7
a) Representar los datos gráficamente mediante un diagrama de dispersión.
¿Qué función parece ajustarse a estos datos? b) Realizar una transformación logarítmica a los datos de la concentración y
representar los datos gráficamente. ¿Qué tipo de relación existe entre dichos datos?
c) Calcular la recta de mínimos cuadrados para predecir el logaritmo de la concentración en función del tiempo. Representar gráficamente esta recta
d) ¿Qué función utilizamos para predecir la concentración en función del tiempo?
f) Obtener una predicción de la concentración cuando hayan transcurrido 45 segundos
Solución a) Representación de los datos:
Parece adecuado un ajuste exponencial
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 37
b) Tiempo
(en segundos)Concentración
y z=Ln(y)
3 5 10 15 20 30 40 50 60 75
25.82 23.36 18.19 14.17 11.03 6.69 4.05 2.46 1.49 0.7
3.2511 3.1510 2.9008 2.6511 2.4006 1.9006 1.3987 0.9001 0.3987 -0.3566
Representación de los datos:
Parece adecuado un ajuste lineal c) Recta de regresión de Z/X: )x(x
XVar Z)Cov(X,zz −=−
549.7481 XVar 8.30x == 1.3787 Var Z 8596.1z == 5321.27Z)(X, Cov −= Recta de regresión de Z/X:
0.05008x4021.3z )8.30(x
549.748127.53218596.1z −=⇒−=−
Estadística. Ingeniería Técnica Obras Públicas. Curso Académico 2008-2009. 38
Representación gráfica:
d) 0.05008x -3.4021ey 0.05008x 4021.3Ln(y) 0.05008x 4021.3z =⇒−=⇒−=
-0.05008x-0.05008x3.4021 30.027eeey ==⇒
e) Predicción para x=45:
1534.330.027ey 45 -0.0500845x == ⋅
=