Upload
truonglien
View
218
Download
0
Embed Size (px)
Citation preview
Descripcion numerica de datos: medidas descriptivas
Centro Posicion Variacion Forma
⇓ ⇓ ⇓ ⇓media cuartiles rango coef. asimetrıa
mediana percentiles rango intercuartılico coef. apuntamientomoda varianza
desviacion tıpicacoef. de variacion
Descripcion numerica de datos: medidas descriptivas
X ¿Para que sirven?, ¿que informacion proporcionan?
X ¿Se pueden calcular todas con todo tipo de variables?
X ¿Cuales son las mas adecuadas en cada caso?
X ¿Como calcularlas sin ordenador? Uso de la calculadora
Tendencia central: la media (aritmetica)
Media (aritmetica)Es el promedio de todos los datos de la muestra:
x =
∑ni=1 xin
=x1 + . . .+ xn
n
I Es la medida de tendencia central mas usada.
I Representa el centro de gravedad de los datos
I Se calcula solo para variables cuantitativas
I Su calculo explıcito depende de como se presenten los datosx1, x2, . . . , xn
La media: ejemplo
Para el ejemplo de los 46 profesionales informaticos, ¿cual es suexperiencia media?
x =1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + · · ·+ 17 + 20
46= 7.5 anos
¿Como la calcularıas a traves de las tablas de frecuencias absolutas?, ¿yde las relativas?
Experiencia, xi Frec. absolutas, ni Frec. relativas, fi1 5 0,1092 4 0,0873 4 0,0874 4 0,0875 3 0,0656 4 0,0877 1 0,0228 4 0,087
10 4 0,08711 2 0,04312 2 0,04313 2 0,04314 1 0,02215 1 0,02216 3 0,06517 1 0,02220 1 0,022
Total 46 1
La media con datos agrupados
Se trabaja con las marcas de clase. En el ejemplo de los 46 profesionalesinformaticos, ¿cual es su salario medio?
Nota: salario medio a traves de los datos brutos x = 17250.413
La media: propiedades
X Linealidad: Si Y = a + bX ⇒ y = a + bx
Si el salario de los 46 profesionales se incrementa en un 2 %, ¿Comocambia el salario medio?
Si despues de ese incremento se reduce en 100 dolares, ¿Como quedaahora?
X Inconvenientes: es muy sensible a valores extremos (observacionesatıpicas, outliers).
Ejemplo: X : 3, 1, 5, 4, 2, Y : 3, 1, 50, 4, 2
x =3 + 1 + 5 + 4 + 2
5= 3 y =
3 + 1 + 50 + 4 + 2
5= 12
Se ha multiplicado por 4!!No es recomendable usarla como medida central en datos muyasimetricos.
Tendencia central: la mediana
Es la observacion que ocupa el lugar central
1 1 1 3 3 5 5 7 8 8 9
1. Ordenamos los datos de menor a mayor
2. Tenemos en cuenta tambien los que se repiten
3. Seleccionamos el valor que ocupa la posicion central
1 1 1 3 3 5 5 7 8 8 ⇒ M =3 + 5
2= 4
MedianaLista ordenada de menor a mayor: x(1), x(2), . . . , x(n)
M =
x((n+1)/2) si n impar
x(n/2)+x(n/2+1)
2 si n par
La mediana: calculo a traves de la tabla de frecuenciasExperiencia, xi ni fi Ni Fi
1 5 0,109 5 0,1092 4 0,087 9 0,1963 4 0,087 13 0,2834 4 0,087 17 0,3705 3 0,065 20 0, 435 < 0.5
M=6 4 0,087 24 0, 522 > 0.57 1 0,022 25 0,5438 4 0,087 29 0,6309 0 0 29 0,630
10 4 0,087 33 0,71711 2 0,043 35 0,76112 2 0,043 37 0,80413 2 0,043 39 0,84814 1 0,022 40 0,87015 1 0,022 41 0,89116 3 0,065 44 0,95717 1 0,022 45 0,97818 0 0 45 0,97810 0 0 45 0,97820 1 0,022 46 1,000
La mediana: propiedades
X Linealidad: Si Y = a + bX ⇒ My = a + bMx
Si el salario de los 46 profesionales se incrementa en un 2 %, ¿Comocambia el salario mediano?
Si despues de ese incremento se reduce en 100 dolares, ¿Como quedaahora?
X ¿Tiene sentido preguntarse por la Mediana de la formacionacademica?
¿y de la variable nominal haber desempenado o no un cargo deresponsabilidad?
X Ventaja: No es sensible a valores extremos.
Ejemplo: X : 3, 1, 5, 4, 2, Y : 3, 1, 50, 4, 2
Mx = 3 My = 3
Es recomendable usar la Mediana como medida central en datos muyasimetricos.
La media y la mediana de datos muy asimetricosSalario bruto anual en 2014, Encuesta de Estructura Salarial 2014, I.N.E.
“La diferencia entre el salario medio y el mediano se explica porque en elcalculo del valor medio influyen notablemente los salarios muy altosaunque se refieran a pocos trabajadores.´´ (En la Nota de Prensa delINE de 28 de octubre de 2016)
Tendencia central: la moda
Es el valor mas frecuente
En el ejemplo, la moda de la experiencia es 1 ano, con una frecuencia de5 empleados
Los valores 2,3,4,8 y 10 tienen una frecuncia de 4 empleados
Tendencia central: la moda
¿Tiene sentido preguntarse por la moda de la formacion academica?
¿Y de la variable nominal haber desempenado o no un cargo deresponsabilidad?
La moda: propiedades
X Puede calcularse para variables cualitativas y cuantitativas. La unicaque tiene sentido para cualitativas nominales.
X No afectada por valores extremos.
X Puede no haber moda.
X Puede haber mas de una moda: bimodal–trimodal–plurimodal
¿Que nos puede estar indicando?
Medidas de localizacion: cuartiles y percentiles
X Los cuartiles dividen los datos ordenados en cuatro segmentos querecogen la misma cantidad de observaciones.
X Los percentiles dividen los datos ordenados en cien segmentos querecogen la misma cantidad de observaciones.
1. Ordenamos los datos de menor a mayor
2. Tenemos en cuenta tambien los que se repiten
3. Seleccionamos el valor que ocupa la posicion:
I El primer cuartil Q1 ocupa la posicion 14(n + 1).
I El segundo cuartil Q2 (= mediana) ocupa la posicion 12(n + 1).
I El tercer cuartil Q3 ocupa la posicion 34(n + 1).
I El percentil k-esimo Pk , ocupa la posicion k(n + 1)/100,k = 1, . . . , 99, y deja el k % de los datos por debajo de el y el100-k % por encima.
Medidas de variacion
X El rango y el rango intercuartılico
X La varianza y la desviacion tıpica
X El coeficiente de variacion
Variacion: rango y rango intercuartılico (RIC)
I El rango es la medida de variacion mas simple
R = xmax − xmın
I Ignora la manera en que se distribuyen los datos.
I Sensible a observaciones atıpicas (outliers).
Ejemplo: Dadas las observaciones 3, 1, 5, 4, 2, R = 5− 1 = 4
Ejemplo: Dadas las observaciones 3, 1, 5, 4, 100, R = 100− 1 = 99
I El rango intercuartılico (RIC) puede eliminar ciertos problemasprovocados por los datos atıpicos. Se “eliminan” las observacionesde mayor valor y las de menor valor y se calcula el rango del 50 %central de la muestra.
RIC = 3er cuartil− 1er cuartil = Q3 − Q1
Variacion: rango intercuartılico y diagrama de cajas
I Las observaciones atıpicas (outliers) se encuentran
I por debajo de Q1 − 1.5 · RICI por encima de Q3 + 1.5 · RIC
I Para observaciones atıpicas (outliers) extremos, reemplazar 1.5 por 3en la definicion anterior
25% 25% 25% 25%
12 24 31 42 58
xmin Q1 ((Q2))MEDIANA
Q3 xmax
RI=18
Diagrama de Cajas Box-Plot
I Muestra cinco medidas de centralizacion.
I Muestra una medida robusta de dispersion.
I Permite estudiar la simetrıa de los datos.
I Da un criterio de deteccion de datos atıpicos.
I Es muy util para comparar datos
I Variante: cuando se presentan varios Box-Plot, se puede hacer elancho de la caja proprocional al numero de observaciones.
Medidas de variacion: varianza
I Promedio de cuadrados de las desviaciones de valores a la media.
I Varianza poblacional.
σ2 =
∑Ni=1 (xi − µ)2
N
I Varianza muestral
σ2 =
∑ni=1 (xi − x)2
n=
mas rapido de calcular︷ ︸︸ ︷∑ni=1 x
2i − n(x)2
n⇐ dividido por n
I Cuasi-varianza muestral (varianza muestral corregida)
s2 =
∑ni=1 (xi − x)2
n − 1=
∑ni=1 x
2i − n(x)2
n − 1⇐ dividido por n − 1
I Su relacion es
σ2 =n − 1
ns2
I Si a, b (b 6= 0) son numeros reales e Y = a + bX , se tiene s2y = b2s2
x
Medidas de variacion: desviacion tıpica o estandar (DT)
I La medida de dispersion mas utilizada.
I La desviacion tıpica poblacional, la desviacion tıpica muestral y lacuasi-desviacion tıpica muestral son respectivamente
σ =√σ2 σ =
√σ2 s =
√s2
I Describe la variacion sobre la media.
I Posee las misma unidades que los datos, mientras que para lavarianza se tienen unidades2
I Tanto la varianza como DT pueden verse afectadas por la presenciade observaciones atıpicas.
Calculo de la varianza y la desviacion tıpicaEjemplo: X : 11, 12, 13, 16, 16, 17, 18, 21, Y : 14, 15, 15, 15, 16, 16, 16, 17,Z : 11, 11, 11, 12, 19, 20, 20, 20
x =124
8= 15.5 y =
124
8= 15.5 z =
124
8= 15.5
n∑i=1
x2i = 112 + 122 + . . .+ 212 = 2000
n∑i=1
y 2i = 142 + 152 + . . .+ 172 = 1928
n∑i=1
z2i = 112 + 112 + . . .+ 202 = 2068
s2x =
∑ni=1 x
2i − n(x)2
n − 1=
2000− 8(15.5)2
8− 1=
78
7= 11.1429 ⇒ sx = 3.3381
s2y =
1928− 8(15.5)2
8− 1=
6
7= 0.8571 ⇒ sy = 0.9258
s2z =
2068− 8(15.5)2
8− 1=
146
7= 20.8571 ⇒ sz = 4.5670
Comparacion de desviaciones tıpicas
Ejemplo cont.: X : 11, 12, 13, 16, 16, 17, 18, 21,Y : 14, 15, 15, 15, 16, 16, 16, 17, Z : 11, 11, 11, 12, 19, 20, 20, 20
●
●
●
● ● ●
●
●
● ●
●
●
●
●
●
●
● ● ● ●
●
● ● ●
11 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
11 12 13 14 15 16 17 18 19 20 21
z == 15.5 sz == 4.6
y == 15.5 sy == 0.9
x == 15.5 sx == 3.3
Medidas de variacion: coeficiente de variacion (CV)
I Es una medida relativa de variacion que se define como
CV =s
|x |
I Es una medida adimensional (sin unidades). Suele expresarse en %.
I Muestra la variacion con respecto a la media.
I Se utiliza para comparar la dispersion entre distintas variables, o bienentre diferentes grupos de individuos.
Ejemplo: Variabilidad en el precio del ano anterior de dos StocksStock A: Precio promedio el ano anterior = 50, Desviacion tıpica = 5Stock B: Precio promedio el ano anterior = 100, Desviacion tıpica = 5
CVA =5
50= 0.10 CVB =
5
100= 0.05
Ambos stocks poseen la misma DT, pero el stock B es menos variable en
relacion a la media de su precio.
Puntuaciones tipificadas.
I Cuando la variable es numerica y los datos no estan agrupados enintervalos de clase, calculamos la media y la varianza como:
x =
∑ki=1 xini
n, s2 =
∑ki=1 x
2i ni − nx2
n − 1
Pero si los datos estan agrupados en intervalos de clase, entonces paracalcular la media y la varianza, reemplazaremos los valores xi por lasmarcas de clase correspondientes.
I Tipificar una variable X significa calcular
X − x
s
Si se aplica esta transformacion a todas las observaciones x1, . . . , xn, seobtienen las puntuaciones tipificadas z1, . . . , zn, donde cadazi = (xi − x)/s, para i = 1, . . . , n. Notar que la muestra tipificada tienemedia cero y desviacion tıpica uno.
Medidas de forma
X Coeficiente de asimetrıa de Fisher
X Coeficiente de curtosis de Fisher
X Regla empırica
Forma: comparacion de la media, la mediana y la moda
Tres tipos de distribuciones:
I Asimetrica a la izquierda Media < Mediana < Moda.
I Simetrica Media = Mediana = Moda.
I Asimetrica a la derecha Moda < Mediana < Media.
LEFT−SKEWEDx <<< M
SYMMETRICx === M
RIGHT−SKEWEDM <<< x
Asimétrica Izquierda Simétrica Asimétrica Derecha
Nota: La distribucion en que esta en el centro se conoce como normal oacampanada (ver figuras)
Medidas de forma: Asimetrıa
I Coeficiente de Asimetrıa → γ1 =1n
∑ni=1(xi−x)3
S3 . Hay asimetrıa a laderecha (positiva) si γ1 > 0, y viceversa.
Asimetría a la derecha
Fre
qu
en
cy
0 1 2 3 4 5 60
10
20
30
40
50
60
γ1
=
2.236
Asimetría a la izquierda
Fre
qu
en
cy
0.0 0.2 0.4 0.6 0.8 1.0
05
01
00
15
02
00
γ1
=
−1.401
Medidas de forma: apuntamiento
I Coef. de Apuntamiento (curtosis) → γ2 =1n
∑ni=1(xi−x)4
S4 − 3
I Para la Normal estandar, γ2 = 0. Si γ2 > 0→ leptocurtica (masapuntada que la normal) y platicurtica si γ2 < 0
Distribución Leptocúrtica
De
nsity
−2 0 2 4
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
Distribución Platicúrtica
De
nsity
−1.0 0.0 1.0 2.0
0.0
0.2
0.4
0.6
0.8
1.0
Regla empırica
Si la distribucion de los datos es acampanada (normal), es decir,simetrica y con colas suaves, se verifica:
I 68 % de los datos en (x − 1s, x + 1s)
I 95 % de los datos en (x − 2s, x + 2s)
I 99.7 % de los datos en (x − 3s, x + 3s)
Nota: Esta regla se conoce tambien como la regla del 68-95-99.7
Ejemplo: Sabemos que para una muestra de 100 observaciones, la mediaes 40 y la cuasi-desviacion tıpica es 5. Suponiendo que los datos tienenuna distribucion acampanada, ¿cuales son los extremos del intervalo quecontiene el 95 % de las observaciones?
95 % de xi ’s estan en: (x ± 2s) = (40± 2(5)) = (30, 50)