35
Estad´ ıstica I Tema 2: An´ alisis de datos univariantes Descripci´onnum´ erica de datos

Estadística I Tema 2: Análisis de datos univariantes ... · Medidas de tendencia central X La media (aritm etica) ... La media con datos agrupados Se trabaja con las marcas de clase

Embed Size (px)

Citation preview

Estadıstica ITema 2: Analisis de datos univariantes

Descripcion numerica de datos

Descripcion numerica de datos: medidas descriptivas

Centro Posicion Variacion Forma

⇓ ⇓ ⇓ ⇓media cuartiles rango coef. asimetrıa

mediana percentiles rango intercuartılico coef. apuntamientomoda varianza

desviacion tıpicacoef. de variacion

Descripcion numerica de datos: medidas descriptivas

X ¿Para que sirven?, ¿que informacion proporcionan?

X ¿Se pueden calcular todas con todo tipo de variables?

X ¿Cuales son las mas adecuadas en cada caso?

X ¿Como calcularlas sin ordenador? Uso de la calculadora

Medidas de tendencia central

X La media (aritmetica)

X La mediana

X La moda

Tendencia central: la media (aritmetica)

Media (aritmetica)Es el promedio de todos los datos de la muestra:

x =

∑ni=1 xin

=x1 + . . .+ xn

n

I Es la medida de tendencia central mas usada.

I Representa el centro de gravedad de los datos

I Se calcula solo para variables cuantitativas

I Su calculo explıcito depende de como se presenten los datosx1, x2, . . . , xn

La media: ejemplo

Para el ejemplo de los 46 profesionales informaticos, ¿cual es suexperiencia media?

x =1 + 1 + 1 + 1 + 1 + 2 + 2 + 2 + 2 + · · ·+ 17 + 20

46= 7.5 anos

¿Como la calcularıas a traves de las tablas de frecuencias absolutas?, ¿yde las relativas?

Experiencia, xi Frec. absolutas, ni Frec. relativas, fi1 5 0,1092 4 0,0873 4 0,0874 4 0,0875 3 0,0656 4 0,0877 1 0,0228 4 0,087

10 4 0,08711 2 0,04312 2 0,04313 2 0,04314 1 0,02215 1 0,02216 3 0,06517 1 0,02220 1 0,022

Total 46 1

La media con datos agrupados

Se trabaja con las marcas de clase. En el ejemplo de los 46 profesionalesinformaticos, ¿cual es su salario medio?

Nota: salario medio a traves de los datos brutos x = 17250.413

La media: propiedades

X Linealidad: Si Y = a + bX ⇒ y = a + bx

Si el salario de los 46 profesionales se incrementa en un 2 %, ¿Comocambia el salario medio?

Si despues de ese incremento se reduce en 100 dolares, ¿Como quedaahora?

X Inconvenientes: es muy sensible a valores extremos (observacionesatıpicas, outliers).

Ejemplo: X : 3, 1, 5, 4, 2, Y : 3, 1, 50, 4, 2

x =3 + 1 + 5 + 4 + 2

5= 3 y =

3 + 1 + 50 + 4 + 2

5= 12

Se ha multiplicado por 4!!No es recomendable usarla como medida central en datos muyasimetricos.

Tendencia central: la mediana

Es la observacion que ocupa el lugar central

1 1 1 3 3 5 5 7 8 8 9

1. Ordenamos los datos de menor a mayor

2. Tenemos en cuenta tambien los que se repiten

3. Seleccionamos el valor que ocupa la posicion central

1 1 1 3 3 5 5 7 8 8 ⇒ M =3 + 5

2= 4

MedianaLista ordenada de menor a mayor: x(1), x(2), . . . , x(n)

M =

x((n+1)/2) si n impar

x(n/2)+x(n/2+1)

2 si n par

La mediana: calculo a traves de la tabla de frecuenciasExperiencia, xi ni fi Ni Fi

1 5 0,109 5 0,1092 4 0,087 9 0,1963 4 0,087 13 0,2834 4 0,087 17 0,3705 3 0,065 20 0, 435 < 0.5

M=6 4 0,087 24 0, 522 > 0.57 1 0,022 25 0,5438 4 0,087 29 0,6309 0 0 29 0,630

10 4 0,087 33 0,71711 2 0,043 35 0,76112 2 0,043 37 0,80413 2 0,043 39 0,84814 1 0,022 40 0,87015 1 0,022 41 0,89116 3 0,065 44 0,95717 1 0,022 45 0,97818 0 0 45 0,97810 0 0 45 0,97820 1 0,022 46 1,000

La mediana: propiedades

X Linealidad: Si Y = a + bX ⇒ My = a + bMx

Si el salario de los 46 profesionales se incrementa en un 2 %, ¿Comocambia el salario mediano?

Si despues de ese incremento se reduce en 100 dolares, ¿Como quedaahora?

X ¿Tiene sentido preguntarse por la Mediana de la formacionacademica?

¿y de la variable nominal haber desempenado o no un cargo deresponsabilidad?

X Ventaja: No es sensible a valores extremos.

Ejemplo: X : 3, 1, 5, 4, 2, Y : 3, 1, 50, 4, 2

Mx = 3 My = 3

Es recomendable usar la Mediana como medida central en datos muyasimetricos.

La media y la mediana de datos muy asimetricosSalario bruto anual en 2014, Encuesta de Estructura Salarial 2014, I.N.E.

“La diferencia entre el salario medio y el mediano se explica porque en elcalculo del valor medio influyen notablemente los salarios muy altosaunque se refieran a pocos trabajadores.´´ (En la Nota de Prensa delINE de 28 de octubre de 2016)

Tendencia central: la moda

Es el valor mas frecuente

En el ejemplo, la moda de la experiencia es 1 ano, con una frecuencia de5 empleados

Los valores 2,3,4,8 y 10 tienen una frecuncia de 4 empleados

Tendencia central: la moda

¿Tiene sentido preguntarse por la moda de la formacion academica?

¿Y de la variable nominal haber desempenado o no un cargo deresponsabilidad?

Tendencia central: la moda

¿Tiene sentido preguntarse por la moda del salario? ⇒ intervalo modal

La moda: propiedades

X Puede calcularse para variables cualitativas y cuantitativas. La unicaque tiene sentido para cualitativas nominales.

X No afectada por valores extremos.

X Puede no haber moda.

X Puede haber mas de una moda: bimodal–trimodal–plurimodal

¿Que nos puede estar indicando?

Medidas de localizacion

X Los cuartiles

X Los percentiles

Medidas de localizacion: cuartiles y percentiles

X Los cuartiles dividen los datos ordenados en cuatro segmentos querecogen la misma cantidad de observaciones.

X Los percentiles dividen los datos ordenados en cien segmentos querecogen la misma cantidad de observaciones.

1. Ordenamos los datos de menor a mayor

2. Tenemos en cuenta tambien los que se repiten

3. Seleccionamos el valor que ocupa la posicion:

I El primer cuartil Q1 ocupa la posicion 14(n + 1).

I El segundo cuartil Q2 (= mediana) ocupa la posicion 12(n + 1).

I El tercer cuartil Q3 ocupa la posicion 34(n + 1).

I El percentil k-esimo Pk , ocupa la posicion k(n + 1)/100,k = 1, . . . , 99, y deja el k % de los datos por debajo de el y el100-k % por encima.

Medidas de localizacion: ejemplo cuartiles

Medidas de localizacion: ejemplo percentiles

Medidas de variacion

X El rango y el rango intercuartılico

X La varianza y la desviacion tıpica

X El coeficiente de variacion

Variacion: rango y rango intercuartılico (RIC)

I El rango es la medida de variacion mas simple

R = xmax − xmın

I Ignora la manera en que se distribuyen los datos.

I Sensible a observaciones atıpicas (outliers).

Ejemplo: Dadas las observaciones 3, 1, 5, 4, 2, R = 5− 1 = 4

Ejemplo: Dadas las observaciones 3, 1, 5, 4, 100, R = 100− 1 = 99

I El rango intercuartılico (RIC) puede eliminar ciertos problemasprovocados por los datos atıpicos. Se “eliminan” las observacionesde mayor valor y las de menor valor y se calcula el rango del 50 %central de la muestra.

RIC = 3er cuartil− 1er cuartil = Q3 − Q1

Variacion: rango intercuartılico y diagrama de cajas

I Las observaciones atıpicas (outliers) se encuentran

I por debajo de Q1 − 1.5 · RICI por encima de Q3 + 1.5 · RIC

I Para observaciones atıpicas (outliers) extremos, reemplazar 1.5 por 3en la definicion anterior

25% 25% 25% 25%

12 24 31 42 58

xmin Q1 ((Q2))MEDIANA

Q3 xmax

RI=18

Diagrama de Cajas Box-Plot

I Muestra cinco medidas de centralizacion.

I Muestra una medida robusta de dispersion.

I Permite estudiar la simetrıa de los datos.

I Da un criterio de deteccion de datos atıpicos.

I Es muy util para comparar datos

I Variante: cuando se presentan varios Box-Plot, se puede hacer elancho de la caja proprocional al numero de observaciones.

Medidas de variacion: varianza

I Promedio de cuadrados de las desviaciones de valores a la media.

I Varianza poblacional.

σ2 =

∑Ni=1 (xi − µ)2

N

I Varianza muestral

σ2 =

∑ni=1 (xi − x)2

n=

mas rapido de calcular︷ ︸︸ ︷∑ni=1 x

2i − n(x)2

n⇐ dividido por n

I Cuasi-varianza muestral (varianza muestral corregida)

s2 =

∑ni=1 (xi − x)2

n − 1=

∑ni=1 x

2i − n(x)2

n − 1⇐ dividido por n − 1

I Su relacion es

σ2 =n − 1

ns2

I Si a, b (b 6= 0) son numeros reales e Y = a + bX , se tiene s2y = b2s2

x

Medidas de variacion: desviacion tıpica o estandar (DT)

I La medida de dispersion mas utilizada.

I La desviacion tıpica poblacional, la desviacion tıpica muestral y lacuasi-desviacion tıpica muestral son respectivamente

σ =√σ2 σ =

√σ2 s =

√s2

I Describe la variacion sobre la media.

I Posee las misma unidades que los datos, mientras que para lavarianza se tienen unidades2

I Tanto la varianza como DT pueden verse afectadas por la presenciade observaciones atıpicas.

Calculo de la varianza y la desviacion tıpicaEjemplo: X : 11, 12, 13, 16, 16, 17, 18, 21, Y : 14, 15, 15, 15, 16, 16, 16, 17,Z : 11, 11, 11, 12, 19, 20, 20, 20

x =124

8= 15.5 y =

124

8= 15.5 z =

124

8= 15.5

n∑i=1

x2i = 112 + 122 + . . .+ 212 = 2000

n∑i=1

y 2i = 142 + 152 + . . .+ 172 = 1928

n∑i=1

z2i = 112 + 112 + . . .+ 202 = 2068

s2x =

∑ni=1 x

2i − n(x)2

n − 1=

2000− 8(15.5)2

8− 1=

78

7= 11.1429 ⇒ sx = 3.3381

s2y =

1928− 8(15.5)2

8− 1=

6

7= 0.8571 ⇒ sy = 0.9258

s2z =

2068− 8(15.5)2

8− 1=

146

7= 20.8571 ⇒ sz = 4.5670

Comparacion de desviaciones tıpicas

Ejemplo cont.: X : 11, 12, 13, 16, 16, 17, 18, 21,Y : 14, 15, 15, 15, 16, 16, 16, 17, Z : 11, 11, 11, 12, 19, 20, 20, 20

● ● ●

● ●

● ● ● ●

● ● ●

11 12 13 14 15 16 17 18 19 20 21

11 12 13 14 15 16 17 18 19 20 21

11 12 13 14 15 16 17 18 19 20 21

z == 15.5 sz == 4.6

y == 15.5 sy == 0.9

x == 15.5 sx == 3.3

Medidas de variacion: coeficiente de variacion (CV)

I Es una medida relativa de variacion que se define como

CV =s

|x |

I Es una medida adimensional (sin unidades). Suele expresarse en %.

I Muestra la variacion con respecto a la media.

I Se utiliza para comparar la dispersion entre distintas variables, o bienentre diferentes grupos de individuos.

Ejemplo: Variabilidad en el precio del ano anterior de dos StocksStock A: Precio promedio el ano anterior = 50, Desviacion tıpica = 5Stock B: Precio promedio el ano anterior = 100, Desviacion tıpica = 5

CVA =5

50= 0.10 CVB =

5

100= 0.05

Ambos stocks poseen la misma DT, pero el stock B es menos variable en

relacion a la media de su precio.

Puntuaciones tipificadas.

I Cuando la variable es numerica y los datos no estan agrupados enintervalos de clase, calculamos la media y la varianza como:

x =

∑ki=1 xini

n, s2 =

∑ki=1 x

2i ni − nx2

n − 1

Pero si los datos estan agrupados en intervalos de clase, entonces paracalcular la media y la varianza, reemplazaremos los valores xi por lasmarcas de clase correspondientes.

I Tipificar una variable X significa calcular

X − x

s

Si se aplica esta transformacion a todas las observaciones x1, . . . , xn, seobtienen las puntuaciones tipificadas z1, . . . , zn, donde cadazi = (xi − x)/s, para i = 1, . . . , n. Notar que la muestra tipificada tienemedia cero y desviacion tıpica uno.

Medidas de forma

X Coeficiente de asimetrıa de Fisher

X Coeficiente de curtosis de Fisher

X Regla empırica

Forma: comparacion de la media, la mediana y la moda

Tres tipos de distribuciones:

I Asimetrica a la izquierda Media < Mediana < Moda.

I Simetrica Media = Mediana = Moda.

I Asimetrica a la derecha Moda < Mediana < Media.

LEFT−SKEWEDx <<< M

SYMMETRICx === M

RIGHT−SKEWEDM <<< x

Asimétrica Izquierda Simétrica Asimétrica Derecha

Nota: La distribucion en que esta en el centro se conoce como normal oacampanada (ver figuras)

Medidas de forma: Asimetrıa

I Coeficiente de Asimetrıa → γ1 =1n

∑ni=1(xi−x)3

S3 . Hay asimetrıa a laderecha (positiva) si γ1 > 0, y viceversa.

Asimetría a la derecha

Fre

qu

en

cy

0 1 2 3 4 5 60

10

20

30

40

50

60

γ1

=

2.236

Asimetría a la izquierda

Fre

qu

en

cy

0.0 0.2 0.4 0.6 0.8 1.0

05

01

00

15

02

00

γ1

=

−1.401

Medidas de forma: apuntamiento

I Coef. de Apuntamiento (curtosis) → γ2 =1n

∑ni=1(xi−x)4

S4 − 3

I Para la Normal estandar, γ2 = 0. Si γ2 > 0→ leptocurtica (masapuntada que la normal) y platicurtica si γ2 < 0

Distribución Leptocúrtica

De

nsity

−2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

Distribución Platicúrtica

De

nsity

−1.0 0.0 1.0 2.0

0.0

0.2

0.4

0.6

0.8

1.0

Regla empırica

Si la distribucion de los datos es acampanada (normal), es decir,simetrica y con colas suaves, se verifica:

I 68 % de los datos en (x − 1s, x + 1s)

I 95 % de los datos en (x − 2s, x + 2s)

I 99.7 % de los datos en (x − 3s, x + 3s)

Nota: Esta regla se conoce tambien como la regla del 68-95-99.7

Ejemplo: Sabemos que para una muestra de 100 observaciones, la mediaes 40 y la cuasi-desviacion tıpica es 5. Suponiendo que los datos tienenuna distribucion acampanada, ¿cuales son los extremos del intervalo quecontiene el 95 % de las observaciones?

95 % de xi ’s estan en: (x ± 2s) = (40± 2(5)) = (30, 50)