124
Temas 4, 5 y 6: Par´ ametros o Medidas Estad´ ısticas. Complementos Jos´ e Antonio Mayor Gallego Departamento de Estad´ ıstica e Investigaci´ on Operativa Universidad de Sevilla. Facultad de Matem´ aticas emico 2006-2006 Jos´ e A. Mayor. Universidad de Sevilla. [email protected] Estad´ ıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 1/113

Temas 4, 5 y 6: Parámetros o Medidas Estadísticas ...personal.us.es/jmayor/ficheros/t040506_gestp.pdf · Parametros centrales o de tendencia central.´ ... forma en que se reparten

Embed Size (px)

Citation preview

Temas 4, 5 y 6: Parametros o MedidasEstadısticas. Complementos

Jose Antonio Mayor Gallego

Departamento de Estadıstica e Investigacion Operativa

Universidad de Sevilla. Facultad de Matematicas

Curso Academico 2006-2006Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 1/113

Contenidos1 TEMA 4. Parametros centrales o de tendencia central.

Media aritmeticaMedia geometricaMedianaLos cuartilesLos percentilesLa moda

2 TEMA 5. Parametros de dispersionVarianza y desviacion tıpicaCoeficiente de variacion de PearsonEl recorrido intercuartılicoCoeficiente ∆x

3 TEMA 6. Medidas de forma. Otras medidasMedidas o parametros de forma

Coeficiente de asimetrıa de PearsonCoeficiente de asimetrıa de FisherCoeficiente de curtosis o aplastamiento

Medidas de concentracion. Curva de Lorenz. Indice de Gini4 Complementos: Deteccion de valores singulares. Diagramas de caja

IntroduccionDeteccion de valores singularesDiagrama de caja o “Box-Plot”

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 2/113

Parametros o Medidas Estadısticas

Las medidas estadısticas o par ametros estadısticoscomo ciertos valores “representativos” de una masa de datos,en el sentido de condensar en ellos la informacion contenidaen dichos datos, en relacion a sus valores mas caracterısticoso a la forma en la que se reparten.

Estas medidas estadısticas nos daran informacion sobre lasituacion, dispersion y otros patrones de comportamiento delos datos, de manera que sea posible captar rapidamente laestructura de los mismos y tambien la comparacion entredistintos conjuntos de datos.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 3/113

Clases de parametros estadısticos

a) Parametros centrales o de tendencia central . Estandestinados a definir valores centrales o caracterısticos dela serie de datos. Por ejemplo, la serie de datos ordenada,

1, 3, 3, 3, 4, 5, 5, 5, 7

se reparte alrededor del valor central 4.

b) Parametros de dispersi on . Sirven para caracterizar laforma en que se reparten los datos, unos con respecto alos otros, o todos con respecto a un valor central . Porejemplo, dadas las dos series siguientes,

6, 6, 7, 7, 8, 9, 9, 10, 10 1, 2, 4, 6, 8, 10, 12, 14, 15

Ambas se reparten en torno al valor central 8, sin embargola primera esta menos dispersa alrededor de dicho valorque la segunda.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 4/113

Clases de parametros estadısticos

a) Parametros centrales o de tendencia central . Estandestinados a definir valores centrales o caracterısticos dela serie de datos. Por ejemplo, la serie de datos ordenada,

1, 3, 3, 3, 4, 5, 5, 5, 7

se reparte alrededor del valor central 4.

b) Parametros de dispersi on . Sirven para caracterizar laforma en que se reparten los datos, unos con respecto alos otros, o todos con respecto a un valor central . Porejemplo, dadas las dos series siguientes,

6, 6, 7, 7, 8, 9, 9, 10, 10 1, 2, 4, 6, 8, 10, 12, 14, 15

Ambas se reparten en torno al valor central 8, sin embargola primera esta menos dispersa alrededor de dicho valorque la segunda.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 4/113

Clases de parametros estadısticos

c) Parametros de forma . Recogen la existencia de ciertospatrones de tipo geometrico en la distribucion defrecuencias, como son el grado de simetrıa o el mayor omenor aplanamiento.

d) Otros par ametros . Parametros de diversidad yconcentracion.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 5/113

Clases de parametros estadısticos

c) Parametros de forma . Recogen la existencia de ciertospatrones de tipo geometrico en la distribucion defrecuencias, como son el grado de simetrıa o el mayor omenor aplanamiento.

d) Otros par ametros . Parametros de diversidad yconcentracion.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 5/113

Terminologıa empleada

Distribucion Tipo I. Los datos brutos X1, X2, · · · , Xn

0 0 0 1 1 6 5 1 0 0 50 0 0 0 0 1 1 1 1 1 15 4 4 4 3 3 4 4 0 0 03 0 1 2 2 2 2 2 2 2 32 2 2 2 2 3 2 3 3 2 12 2 2 2 2 3 3 2 3 2 30 0 0 0 1 1 1 2 1 1 10 0 2 2 2 2 3 2 1 1 22 2 2 2 2 3 2 2 2 2 21 1 1 1 2 2 2 2 2 2 13 3 3 3 3 3 3 3 3 3 32 2 2 2 2 2 2 2 2 2 21 1 1 1 1 1 1 1 1 1 12 2 2 2 2 2 2

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 6/113

Terminologıa empleada

Distribucion Tipo II. Pocas modalidades. Sin intervalos.

xi ni fi Ni Fi

0 20 0′13333 20 0′133331 35 0′23333 55 0′366672 62 0′41333 117 0′780003 24 0′16000 141 0′940004 5 0′03333 146 0′973335 3 0′02000 149 0′993336 1 0′00667 150 1′00000

150 1

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 7/113

Terminologıa empleada

Distribucion Tipo III. Datos agrupados en intervalos.

(ei−1, ei ] xi ni Ni fi Fi

(46′5, 55′5] 51 11 11 0′06286 0′06286(55′5, 64′5] 60 16 27 0′09143 0′15429(64′5, 73′5] 69 39 66 0′22286 0′37714(73′5, 82′5] 78 63 129 0′36000 0′73714(82′5, 91′5] 87 35 164 0′20000 0′93714(91′5, 100′5] 96 11 175 0′06286 1′00000

175 1

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 8/113

Media aritmetica. Parametro muy popular.

Se define como la suma de todas las observaciones divididapor el numero total de las mismas. Simbolicamente, si tenemosn observaciones,

X1, X2, . . . , Xn

se suele denotar la media aritmetica como X y se define como,

X =1n

n∑i=1

Xi

Por ejemplo, los datos 1, 2, 4, 5, 7, 8, 9, 10, 11, 13, tienen comomedia aritmetica,

X =1 + 2 + 4 + 5 + 7 + 8 + 9 + 10 + 11 + 13

10=

7010

= 7

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 9/113

1 La media aritmetica solo es aplicable a valores numericos.2 Es un parametro unico. Un conjunto de datos numericos

solo tiene una media aritmetica.3 La media aritmetica generalmente no es un valor

observado. Por ejemplo,

1 + 4 + 63

= 3′666..

4 La media aritmetica no depende del orden en el que estenlos datos

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 10/113

Sensibilidad de la media aritmetica

La media aritmetica es un parametro sensible a lapresencia de valores muy separados de la masa principal dedatos. Por ejemplo, la serie de valores,

1, 1, 2, 2, 2, 4, 4, 4, 70

posee un valor fuertemente diferente del resto, el 70. La mediaaritmetica calculada con los 8 primeros valores es 2’5, lo queconstituye un valor central razonable. Por el contrario, si seconsidera tambien el ultimo valor, la media aritmetica resultaser 10, que es un valor muy poco significativo.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 11/113

Propiedades de linealidad

aX = aX , siendo a un numero real cualquiera. Porejemplo, la media de 1, 2 y 3 es 2, y la media de 3, 6 y 9es 3× 2 = 6.

X + Y = X + Y . Por ejemplo, la media de 1, 2 y 3 es 2, yla media de 3, 4 y 5 es 4. Entonces la media de 1+3, 2+4 y3+5 es 2+4=6.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 12/113

Propiedades de linealidad

aX = aX , siendo a un numero real cualquiera. Porejemplo, la media de 1, 2 y 3 es 2, y la media de 3, 6 y 9es 3× 2 = 6.

X + Y = X + Y . Por ejemplo, la media de 1, 2 y 3 es 2, yla media de 3, 4 y 5 es 4. Entonces la media de 1+3, 2+4 y3+5 es 2+4=6.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 12/113

Media aritmetica. Distribucion Tipo I.

X =1n

n∑i=1

Xi

Media aritm etica de hijos. 150 familias.

X =1

150(0 + 0 + 0 + 1 + 1 + · · ·+ 2 + 2 + 2) = 1′813..

Media aritm etica de puntuaciones. 175 alumnos.

X =1

175(76 + 66 + · · ·+ 79) = 75′5

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 13/113

Media aritmetica. Distribucion Tipo II.

X =1n

k∑i=1

nixi

xi son las modalidades

Hijos de 150 familias

X =1

150(0× 20 + 1× 35 + 2× 62 + 3× 24

+4× 5 + 5× 3 + 6× 1) = 1′813...

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 14/113

Media aritmetica. Distribucion Tipo III.

X =1n

k∑i=1

nixi

xi son las marcas de clase

Puntuaciones de 175 estudiantes

X =1

175(51× 11 + 60× 16 + 69× 39 + 78× 63

+87× 35 + 96× 11) = 75′6

Observacion

Este valor no es exactamente la media aritmetica de los datosoriginales o brutos pues la agrupacion en intervalo, comosabemos, produce perdida de informacion, sin embargo es unvalor bastante aproximado.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 15/113

Media geometrica.

Dados los n valores, X1, X2,...,Xn, de una variable X , quesupondremos que solo asume valores mayores que cero, sumedia geom etrica es la raız n-esima del producto de dichosvalores.Ejemplo, dados los valores 3, 6, 11, su media geometrica es,

X G =3√

3× 6× 11 =3√

198 = 5′8285

Y la media geometrica de 1 y 9 es,

X G =2√

1× 9 = 3

Las formulas para distribuciones Tipo I, Tipo II y Tipo III, son,

X G = n

√√√√ n∏i=1

Xi = n

√√√√ k∏i=1

xnii

NOTA: Se verifica X G ≤ X , es decir, la media geometrica essiempre menor o igual que la media artimetica.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 16/113

Media geometrica. Aplicacion economica

Pequena clase de Economıa

Si un artıculo sube de precio de un ano a otro, por ejemplopasa de costar 100 euros a 120, llamamos ındice de subida alnumero que multiplicado por 100 nos da 120.

En este caso, dicho ındice serıa 1′2 ya que,

100× 1′2 = 120

NOTESE que la subida ha sido del 20 %.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 17/113

Media geometrica. Aplicacion economica

Supongamos que un producto tiene un valor inicial de 10euros, y durante tres anos consecutivos sube de precio segunlos ındices 1′05, 1′03 y 1′06 respectivamente. Queremoscalcular el ındice medio de incremento anual .

El que el primer ano el ındice sea 1′05 quiere decir que alfinal del ano, el precio pasa de 10 a 10× 1′05 = 10′5 euros, esdecir, sube medio euro .

El segundo ano el precio pasa a ser10′5× 1′03 = 10× 1′05× 1′03. Finalmente, al cabo del tercerano, el precio sera

Precio final = 10× 1′05× 1′03× 1′06

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 18/113

Media geometrica. Aplicacion economica

Ahora queremos calcular un ındice anual medio queaplicado de lugar a la subida anterior. Vamos a llamarle I a eseındice que buscamos. El precio al final serıa,

Precio final = 10× I × I × I = 10× I3

Y como el precio final es el mismo, tendremos,

10× I3 = 10× 1′05× 1′03× 1′06

o sea,I3 = 1′05× 1′03× 1′06

y por consiguiente,

I =3√

1′05× 1′03× 1′06

es decir, la media geom etrica de los tres ındices . El calculode esta cantidad se deja al alumno como pequeno ejercicio.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 19/113

Mediana

Si tenemos una distribucion de Tipo I con n observacionesnumericas,

X1, X2, . . . , Xn

la mediana es, basicamente, en la serie de valores ordenadosde menor a mayor, el valor central, el que esta en el medio.

Cuando n es impar, hay siempre un valor central, y no hayproblema. Pero si n es par hay dos valores centrales¿Que hacer en tal caso?

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 20/113

Mediana. Regla practica para distribuciones Tipo I.

1 En primer lugar se ordenan los valores de menor amayor .

2 A continuacion se aplica la siguiente regla,• si n es impar. La mediana es el valor central de las

observaciones ordenadas.• si n es par. La mediana es la suma de los dos valores

centrales, dividida por 2.

Para representar la mediana usaremos la notacion Me.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 21/113

Mediana

Ejemplo

Dados los siete datos 7, 3, 1, 9, 17, 15, 8, primero se ordenan,

1, 3, 7, 8, 9, 15, 17

y por consiguiente tienen como mediana el valor Me = 8.

Y los seis datos, 15, 7, 3, 1, 9, 8, primero se ordenan,

1, 3, 7, 8, 9, 15

por lo que tienen como mediana el valor Me = (7 + 8)/2 = 7′5.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 22/113

Mediana. Distribuciones Tipo II.

Ejemplo. Hijos de 150 familias.

xi ni Ni

0 20 201 35 552 62 1173 24 1414 5 1465 3 1496 1 150

Dividiendo el numero total de observaciones por 2, obtenemos150/2 = 75, y entonces, en la tabla, buscamos la primeraobservacion cuya frecuencia acumulada supere dicho valor. Eneste caso, dicha observacion es 2, que es la mediana. Es decir,Me = 2.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 23/113

Mediana. Distribuciones Tipo II. Caso especial.

En algunos casos puede ocurrir que una frecuencia acumuladacoincida exactamente con el numero de observaciones divididopor dos. Por ejemplo, en la siguiente tabla,

xi ni Ni

1 10 103 20 304 14 447 26 708 10 809 8 88

la mitad del numero de observaciones es 88/2 = 44 quecoincide con la frecuencia acumulada de la modalidad x3 = 4.Para hallar la mediana en esta situacion, se tomara dicho valory el siguiente y se calculara la media aritmetica de los dosvalores. La mediana sera pues Me = (4 + 7)/2 = 5′5.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 24/113

Mediana. Distribuciones Tipo III.

Ejemplo. Puntuaciones de 175 alumnos.

(ei−1, ei ] xi ni Ni

(46′5, 55′5] 51 11 11(55′5, 64′5] 60 16 27(64′5, 73′5] 69 39 66(73′5, 82′5] 78 63 129(82′5, 91′5] 87 35 164(91′5, 100′5] 96 11 175

Se buscara el primer intervalo cuya frecuencia acumuladasupere la mitad de las observaciones, es decir, 175/2 = 87′5.En este caso, dicho intervalo es (73′5, 82′5]. Este intervalo sedenomina intervalo mediano y su marca de clase, 78.

Entonces −→

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 25/113

Mediana. Distribuciones Tipo III.

Formula de calculo

La mediana se calcula empleando la formula siguiente,

Me = ei−1 +n/2− Ni−1

ni× ai

ei−1 es el extremo inferior del intervalo mediano.

ai es la amplitud del intervalo mediano, o sea,ai = ei − ei−1.

Ni−1 es la frecuencia acumulada del intervalo anterior oprevio al mediano.

ni es el numero de observaciones en el intervalo mediano.

En nuestro caso, tendremos,

Me = 73′5 +175/2− 66

63× 9 = 76′57..

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 26/113

Mediana

IMPORTANTE: Robustez de la mediana

Observemos que la mediana es el valor que divide una seriede observaciones ordenadas, en dos partes iguales. Pordepender de los valores a traves de su orden, la mediana espoco sensible a la existencia de valores muy separados de lamasa principal de datos, por ellos, si nuestros datos contienenvalores de este tipo, sera preferible usar la mediana en vez dela media aritmetica como parametro central.Por ejemplo, dada la serie de valores 1, 1, 2, 2, 2, 4, 4, 4, 70, yaconsiderada cuando se estudio la media aritmetica, la medianaes 2 y este valor es mas indicativo que la media aritmetica, 10,pues al contrario que esta, no se ve influenciado por el valor70. En este sentido, se dice que la mediana es un parametroresistente o robusto , y que la media aritmetica no lo es.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 27/113

Cuartiles

Observacion

Estos parametros son parientes cercanos de la mediana, yrealmente no todos son parametros de tendencia central. Noobstante los explicamos aquı debido a su estrecha relacion conla mediana.

Los cuartiles dividen la serie de datos en cuartos

Ya hemos visto que la mediana, en la serie ordenada de datos,divide la masa de datos en dos partes iguales, es decir, deja aderecha e izquierda el 50 % de los mismos. Podemosconsiderar tambien valores que dividen el conjunto de los datosen cuatro partes iguales, es decir, dejan a su izquierda el 25 %,el 50 % y el 75 % de las observaciones. Dichos valores sedenominan cuartiles y se denotan como Q1, Q2 y Q3,respectivamente. Es claro que Q2 = Me por definicion. Veamoscomo se calcula Q1.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 28/113

Cuartiles

Observacion

Estos parametros son parientes cercanos de la mediana, yrealmente no todos son parametros de tendencia central. Noobstante los explicamos aquı debido a su estrecha relacion conla mediana.

Los cuartiles dividen la serie de datos en cuartos

Ya hemos visto que la mediana, en la serie ordenada de datos,divide la masa de datos en dos partes iguales, es decir, deja aderecha e izquierda el 50 % de los mismos. Podemosconsiderar tambien valores que dividen el conjunto de los datosen cuatro partes iguales, es decir, dejan a su izquierda el 25 %,el 50 % y el 75 % de las observaciones. Dichos valores sedenominan cuartiles y se denotan como Q1, Q2 y Q3,respectivamente. Es claro que Q2 = Me por definicion. Veamoscomo se calcula Q1.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 28/113

Cuartiles. Distribucion Tipo I.

Calculo de Q1

Si tenemos una distribucion de Tipo I con n observacionesnumericas, X1, X2, . . . , Xn, para hallar el primer cuartil, seordenan los valores de menor a mayor y a continuacion sebusca en dicha serie ordenada el primer valor cuyo numero deorden supere n/4

Ası, los siete datos 7, 3, 1, 9, 17, 15, 8, primero se ordenan,

1, 3, 7, 8, 9, 15, 17

y al ser n/4 = 7/4 = 1′75, Q1 sera la observacion que en laserie ordenada ocupa el lugar 2, es decir, Q1 = 3.

Calculo de Q3

Para hallar Q3, el procedimiento es analogo peroconsiderando 3n/4 en vez de n/4.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 29/113

Cuartiles. Distribucion Tipo I.

Calculo de Q1

Si tenemos una distribucion de Tipo I con n observacionesnumericas, X1, X2, . . . , Xn, para hallar el primer cuartil, seordenan los valores de menor a mayor y a continuacion sebusca en dicha serie ordenada el primer valor cuyo numero deorden supere n/4

Ası, los siete datos 7, 3, 1, 9, 17, 15, 8, primero se ordenan,

1, 3, 7, 8, 9, 15, 17

y al ser n/4 = 7/4 = 1′75, Q1 sera la observacion que en laserie ordenada ocupa el lugar 2, es decir, Q1 = 3.

Calculo de Q3

Para hallar Q3, el procedimiento es analogo peroconsiderando 3n/4 en vez de n/4.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 29/113

Cuartiles. Distribucion Tipo I.

Calculo de Q1. Caso especial.

Puede ocurrir que el orden de la observacion coincidaexactamente con n/4 (sucede cuando n es multiplo de 4), ental caso, el primer cuartil se obtiene tomando dichaobservacion y la siguiente, y calculando su media aritmetica.Por ejemplo si tenemos los doce datos,

1, 3, 7, 8, 9, 9, 10, 12, 13, 13, 14, 15

n/4 = 3, luego el primer cuartil es la media aritmetica entre eltercer y cuarto valor de la serie de observaciones,

Q1 = (7 + 8)/2 = 7′5

IMPORTANTE: La misma consideracion se hace para elcalculo del tercer cuartil, Q3.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 30/113

Cuartiles. Distribuciones Tipo II.

Ejemplo. Hijos de 150 familias.

xi ni Ni

0 20 201 35 552 62 1173 24 1414 5 1465 3 1496 1 150

Se divide el numero de observaciones, n, por 4,n/4 = 150/4 = 37′5, y en la tabla, se busca la primeramodalidad cuya frecuencia acumulada supere dicho valor. Eneste caso es 1, que es el primer cuartil Q1. Para calcular eltercer cuartil, Q3, buscaremos la primera modalidad cuyafrecuencia acumulada supere 3n/4 = 450/4 = 112′5, dichamodalidad es Q3 = 2.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 31/113

Cuartiles. Distribuciones Tipo II. Caso especial.

En algunos casos puede ocurrir que una frecuenciaacumulada coincida exactamente con el numero deobservaciones dividido por cuatro. Por ejemplo,

xi ni Ni

1 10 103 12 224 18 407 30 708 10 809 8 88

Ahora la cuarta parte del numero de observaciones es 22que coincide con la frecuencia acumulada de 3. Para hallar Q1

se tomara dicho valor y el siguiente y se calculara la mediaaritmetica de ambos. En este caso sera Q1 = (3 + 4)/2 = 3′5.Una situacion similar se puede presentar en el calculo de Q3

siendo analogo el procedimiento a seguir.Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 32/113

Cuartiles. Distribuciones Tipo III.

Ejemplo. Puntuaciones de 175 alumnos.

(ei−1, ei ] xi ni Ni

(46′5, 55′5] 51 11 11(55′5, 64′5] 60 16 27(64′5, 73′5] 69 39 66(73′5, 82′5] 78 63 129(82′5, 91′5] 87 35 164(91′5, 100′5] 96 11 175

Para hallar Q1 se buscara el primer intervalo cuya frecuenciaacumulada supere la cuarta parte de las observaciones, esdecir, 175/4 = 43′75. En este caso, dicho intervalo es(64′5, 73′5]. Entonces −→

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 33/113

Cuartiles. Distribuciones Tipo III.

Q1. Formula de calculo

El primer cuartil se calcula empleando la formula siguiente,

Q1 = ei−1 +n/4− Ni−1

ni× ai

ei−1 es el extremo inferior del intervalo hallado.

ai es la amplitud de dicho intervalo, es decir, ai = ei − ei−1

Ni−1 es la frecuencia acumulada del intervalo previo oprecedente al considerado.

ni es el numero de observaciones en el intervaloconsiderado.

En nuestro caso, tendremos,

Q1 = 64′5 +175/4− 27

39× 9 = 68′365..

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 34/113

Cuartiles. Distribuciones Tipo III.

Q3. Formula de calculo

Para hallar Q3, se buscara el primer intervalo cuyafrecuencia acumulada supere las tres cuartas partes de lasobservaciones , esto es, (3× 175)/4 = 131′25. En este caso,dicho intervalo es (82′5, 91′5]. Q3 se calculara aplicando lasiguiente formula,

Q3 = ei−1 +3n/4− Ni−1

ni× ai

ei−1 es el extremo inferior del intervalo hallado.

ai es la amplitud de dicho intervalo, es decir, ai = ei − ei−1

Ni−1 es la frecuencia acumulada del intervalo previo oprecedente al considerado.

ni es el numero de observaciones en el intervaloconsiderado.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 35/113

Cuartiles. Distribuciones Tipo III.

Q3. Formula de calculo

En nuestro caso, aplicanfo la formula anteriorontendremos,

Q3 = 82′5 +525/4− 129

35× 9 = 83′078..

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 36/113

Cuartiles. Observaciones

IMPORTANTE: Robustez de los cuartiles

Al igual que la mediana, los cuartiles tienen la propiedadde ser resistentes o robustos frente a la existencia deobservaciones muy separadas de la masa principal de datos.

IMPORTANTE: Parametros de posicion

Es necesario notar, como hicimos al principio de esteapartado, que los cuartiles, salvo Q2 que coincide con lamediana, no son realmente parametros de tendencia central.Los denominaremos parametros de posici on ya quedeterminan la posicion o punto que separa determinadosporcentajes del total de las observaciones. No obstante, por susimilitud con la mediana los hemos explicado aquı.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 37/113

Cuartiles. Observaciones

IMPORTANTE: Robustez de los cuartiles

Al igual que la mediana, los cuartiles tienen la propiedadde ser resistentes o robustos frente a la existencia deobservaciones muy separadas de la masa principal de datos.

IMPORTANTE: Parametros de posicion

Es necesario notar, como hicimos al principio de esteapartado, que los cuartiles, salvo Q2 que coincide con lamediana, no son realmente parametros de tendencia central.Los denominaremos parametros de posici on ya quedeterminan la posicion o punto que separa determinadosporcentajes del total de las observaciones. No obstante, por susimilitud con la mediana los hemos explicado aquı.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 37/113

Percentiles

Delimitan por su izquierda el 1 %, el 2 %, el 3 %, etc, yası hasta el 100 % de las observaciones. Hay pues 100percentiles que denotamos como Pc1, Pc2, Pc3,..., Pc100.

Realmente ya conocemos algunos percentiles, porejemplo, Pc25 = Q1, Pc50 = Me = Q2 y Pc75 = Q3.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 38/113

Percentiles. Distribucion de Tipo I.

Dadas n observaciones numericas,

X1, X2, . . . , Xn

para hallar el percentil k -esimo, es decir, Pck , se ordenan losvalores de menor a mayor y a continuacion se busca en dichaserie ordenada el primer valor cuyo numero de orden superek × n/100.

Calculemos por ejemplo Pc40 para los siete datos 7, 3, 1,9, 17, 15, 8. Primeramente se ordenan,

1, 3, 7, 8, 9, 15, 17

y al ser 40× 7/100 = 2′8, Pc40 sera la observacion que en laserie ordenada ocupa el lugar 3, o sea, la tercera observacion,es decir, Pc40 = 7.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 39/113

Percentiles. Distribuciones de Tipo II.

xi ni Ni

0 20 201 35 552 62 1173 24 1414 5 1465 3 1496 1 150

Hallemos por ejemplo el percentil 60. Primero calculamosk × n/100 = 60× 150/100 = 90. Y ahora buscamos lamodalidad cuya frecuencia acumulada supere esta cantidad.La frecuencia acumulada correspondiente es 117, y porconsiguiente el percentil buscado es Pc60 = 2.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 40/113

Percentiles. Distribuciones de Tipo III.

(ei−1, ei ] xi ni Ni

(46′5, 55′5] 51 11 11(55′5, 64′5] 60 16 27(64′5, 73′5] 69 39 66(73′5, 82′5] 78 63 129(82′5, 91′5] 87 35 164(91′5, 100′5] 96 11 175

Hallemos por ejemplo el percentil Pc70.Primeramente se buscara el primer intervalo cuya frecuenciaacumulada supere k × n/100 = 70× 175/100 = 122′5. Eneste caso, dicho intervalo es (73′5, 82′5] pues su frecuenciaacumulada es 129 que es la primera de la lista que supera122’5.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 41/113

Percentiles. Distribuciones de Tipo III.

(ei−1, ei ] xi ni Ni

(46′5, 55′5] 51 11 11(55′5, 64′5] 60 16 27(64′5, 73′5] 69 39 66(73′5, 82′5] 78 63 129(82′5, 91′5] 87 35 164(91′5, 100′5] 96 11 175

Hallemos por ejemplo el percentil Pc70.Primeramente se buscara el primer intervalo cuya frecuenciaacumulada supere k × n/100 = 70× 175/100 = 122′5. Eneste caso, dicho intervalo es (73′5, 82′5] pues su frecuenciaacumulada es 129 que es la primera de la lista que supera122’5.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 41/113

Percentiles. Distribuciones de Tipo III.

Seguidamente Pc70 se calculara aplicando la siguiente formula,

Pck = ei−1 +k × n/100− Ni−1

niai

donde k es el numero del percentil, en este caso 70, y,

ei−1 es el extremo inferior del intervalo hallado.

ai es la amplitud de dicho intervalo, es decir, ai = ei − ei−1

Ni−1 es la frecuencia acumulada del intervalo previo oprecedente al considerado.

ni es el numero de observaciones en el intervaloconsiderado.

En nuestro caso, tendremos,

Pc70 = 73′5 +70× 175/100− 66

63× 9 = 81′571..

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 42/113

Percentiles

OBSERVACION

Al igual que la mediana y los cuartiles, los percentilestambien tienen la propiedad de ser resistentes o robustosfrente a la existencia de observaciones muy separadas de lamasa principal de datos.

OBSERVACION

Como en el apartado anterior, es necesario notar que lospercentiles no son en general parametros de tendencia central.Como antes, podrıan denominarse parametros de posici on yaque determinan la posicion o punto que separa determinadosporcentajes del total de las observaciones. No obstante, por susimilitud, se explican en esta seccion.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 43/113

Percentiles

OBSERVACION

Al igual que la mediana y los cuartiles, los percentilestambien tienen la propiedad de ser resistentes o robustosfrente a la existencia de observaciones muy separadas de lamasa principal de datos.

OBSERVACION

Como en el apartado anterior, es necesario notar que lospercentiles no son en general parametros de tendencia central.Como antes, podrıan denominarse parametros de posici on yaque determinan la posicion o punto que separa determinadosporcentajes del total de las observaciones. No obstante, por susimilitud, se explican en esta seccion.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 43/113

Percentiles

OBSERVACION: Los percentiles informan sobre la posicion

Los percentiles son cantidades que proporcionaninformacion relevante sobre la situacion de una unidadestadıstica en relacion al conjunto de todas.

Por ejemplo, si en un estudio de las estaturas de un conjuntode personas se verifica que Pc95 = 176 cm., esto significa queuna persona de 176 cm. o mas pertenece al 5 % de individuosmas altos.

Y si en un estudio de los salarios de los trabajadores de unagran empresa, fuera Pc10 = 1200 EUROS, un trabajador quegane 970 EUROS pertenece al grupo formado por el 10 % quemenos gana.

Y si al corregir las notas de un examen un profesor observaque un alumno tiene una calificacion superior al percentil 98,ello no significa que el alumno haya obtenido una grancalificacion.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 44/113

Percentiles

OBSERVACION: Los percentiles informan sobre la posicion

Los percentiles son cantidades que proporcionaninformacion relevante sobre la situacion de una unidadestadıstica en relacion al conjunto de todas.

Por ejemplo, si en un estudio de las estaturas de un conjuntode personas se verifica que Pc95 = 176 cm., esto significa queuna persona de 176 cm. o mas pertenece al 5 % de individuosmas altos.

Y si en un estudio de los salarios de los trabajadores de unagran empresa, fuera Pc10 = 1200 EUROS, un trabajador quegane 970 EUROS pertenece al grupo formado por el 10 % quemenos gana.

Y si al corregir las notas de un examen un profesor observaque un alumno tiene una calificacion superior al percentil 98,ello no significa que el alumno haya obtenido una grancalificacion.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 44/113

Percentiles

OBSERVACION: Los percentiles informan sobre la posicion

Los percentiles son cantidades que proporcionaninformacion relevante sobre la situacion de una unidadestadıstica en relacion al conjunto de todas.

Por ejemplo, si en un estudio de las estaturas de un conjuntode personas se verifica que Pc95 = 176 cm., esto significa queuna persona de 176 cm. o mas pertenece al 5 % de individuosmas altos.

Y si en un estudio de los salarios de los trabajadores de unagran empresa, fuera Pc10 = 1200 EUROS, un trabajador quegane 970 EUROS pertenece al grupo formado por el 10 % quemenos gana.

Y si al corregir las notas de un examen un profesor observaque un alumno tiene una calificacion superior al percentil 98,ello no significa que el alumno haya obtenido una grancalificacion.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 44/113

Moda

La moda es la observacion mas frecuente, esto es, la masobservada. Al contrario de las medidas estudiadas hastaahora, puede ser hallada tanto para datos cualitativos comocuantitativos. Se denota por Mo.

Por ejemplo, consideremos las observaciones cuantitativas,

3, 4, 3, 5, 6, 7, 6, 5, 4, 3, 4, 5, 6, 2, 6, 7, 8, 4, 5, 4, 6, 4, 7

la moda sera Mo = 4 por ser el valor mas observado.Puede ocurrir que halla dos valores que sean los mas

observados, en tal caso ambos son moda, es decir, hay dosmodas. Por ejemplo,

1, 2, 3, 4, 3, 4, 3, 4, 3, 4, 5, 6, 7, 3, 4, 10

tiene dos modas, Mo1 = 3 y Mo2 = 4. En este caso se diceque la serie de observaciones es bimodal. Analogamentepuede haber tres modas, cuatro, etc.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 45/113

Moda

Si las observaciones son cualitativas, el calculo de la modase hace igualmente hallando la que mas se repite. Por ejemplo,si observamos el estado civil de 15 personas y obtenemos losvalores,

C, S, C, C, C, D, C, S, C, C, C, C, D, S, S

siendo S :sin pareja, C :casado o con pareja, D :divorciado.La moda sera Mo = C, que es el valor mas frecuente.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 46/113

Moda. Distribucion Tipo II.

xi ni Ni

0 20 201 35 552 62 1173 24 1414 5 1465 3 1496 1 150

En este caso, la moda sera Mo = 2 pues es la modalidad quepresenta mayor frecuencia absoluta. Recuerdese que podrıadarse el caso de que hubiera mas de una moda.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 47/113

Moda. Distribucion Tipo III.

(ei−1, ei ] xi ni Ni

(46′5, 55′5] 51 11 11(55′5, 64′5] 60 16 27(64′5, 73′5] 69 39 66(73′5, 82′5] 78 63 129(82′5, 91′5] 87 35 164(91′5, 100′5] 96 11 175

Buscaremos el intervalo que tenga asociado el rectangulo demayor altura en el histograma. Recordemos [vease Tema 3.]que las alturas se calculan mediante la formula hi = ni/ai . Esteintervalo se denomina intervalo modal

Notemos que si todos los intervalos tienen la misma amplitudo anchura, dicho intervalo de mayor altura asociadasera tambien el de mayor frecuencia, siendo esta situaci on lade nuestro ejemplo .

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 48/113

Moda. Distribucion Tipo III.

En nuestro ejemplo, el intervalo modal sera (73′5, 82′5].Para calcular entonces la moda emplearemos la siguienteformula,

Mo = ei−1 +δ1

δ1 + δ2ai

siendo,

ei−1 es el extremo inferior de la clase o intervalo modal.

δ1 = hi − hi−1

δ2 = hi − hi+1

hi es la altura del intervalo modal, hi−1 la altura delintervalo previo y hi+1 la altura del intervalo posterior.

ai es la amplitud o anchura del intervalo modal.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 49/113

Moda. Distribucion Tipo III.

Para nuestros datos, los calculos son,

ei−1 = 73′5

δ1 = 63/9− 39/9 = 24/9

δ2 = 63/9− 35/9 = 28/9

ai = 9

Y por consiguiente,

Mo = ei−1 +δ1

δ1 + δ2ai = 73′5 +

24/924/9 + 28/9

× 9 = 77′65..

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 50/113

PARAMETROS DE DISPERSION

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 51/113

Varianza

La varianza es una medida de dispersion que se basa en ladesviacion de las observaciones con respecto a su mediaaritmetica, y se denota por σ2

x (a veces se emplea la notacionmas simple σ2 por sobreentenderse que hace mencion a lavariable X ). SVeamos la formula. Si tenemos las observaciones numericas,

X1, X2, . . . , Xn

la varianza vendra dada por,

σ2x =

1n

n∑i=1

(Xi − X )2

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 52/113

Varianza

Ejemplo

Consideremos las dos series de observaciones 6, 6, 7, 7, 8, 9,9, 10, 10 y 1, 2, 4, 6, 8, 10, 12, 14, 15, que provienen deobservar una misma variable sobre dos poblaciones.Ambas tienen como media aritmetica el valor 8. Sus varianzasson, para la primera serie,

σ2x =

19((6− 8)2 + (6− 8)2 + (7− 8)2 + (7− 8)2 + (8− 8)2+

+(9− 8)2 + (9− 8)2 + (10− 8)2 + (10− 8)2) = 2′22..

y para la segunda,

σ2x =

19((1− 8)2 + (2− 8)2 + (4− 8)2 + (6− 8)2 + (8− 8)2+

+(10− 8)2 + (12− 8)2 + (14− 8)2 + (15− 8)2) = 23′33..

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 53/113

Varianza

Es obvio que la segunda serie tiene una varianza muy superiora la primera.

Observemos que para la primera serie, a pesar de que lamedia es la misma, es decir, 8, las cantidades estan mascercanas entre si.

En este caso, como las series tienen similar media y provienende la misma variable, podemos pues decir que la segundaserie esta mas dispersa que la primera.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 54/113

Desviacion tıpica

Desviacion tıpica

Es la raız cuadrada de la varianza. Se denota por σx . Es decir,

σx = +

√σ2

x = +

√√√√1n

n∑i=1

(Xi − X )2

Ası, para las anteriores series de observaciones,

6, 6, 7, 7, 8, 9, 9, 10, 10 y 1, 2, 4, 6, 8, 10, 12, 14, 15

las desviaciones tıpicas son, respectivamente,√

2′22.. = 1′489.. y√

23′33.. = 4′830..

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 55/113

Formula practica para la varianza

Formula practica

σ2x =

1n

n∑i=1

X 2i − X

2

que simbolicamente se puede expresar como X 2 − X2.

Regla nemotecnica

σ2x = X 2 − X

2

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 56/113

Formula practica para la varianza

Ejemplo

Para los datos 1, 2, 4, 6, 8, 10, 12, 14, 15, la media aritmetica es

X =19(1 + 2 + 4 + 6 + 8 + 10 + 12 + 14 + 15) = 8

y la media de los cuadrados,

X 2 =1n

n∑i=1

X 2i =

19(1+4+16+36+64+100+144+196+225)

=786

9= 87′33..

siendo pues la varianza,

σ2x = X 2 − X

2= 87′33..− 82 = 23′33..

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 57/113

Formula practica de la varianza

OBSERVACION

Con la formula practica, el calculo de la varianza se reducebasicamente al calculo de dos medias aritmeticas, la de lasobservaciones, y la de los cuadrados de las observaciones.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 58/113

Varianza. Distribucion Tipo II.

σ2x =

1n

k∑i=1

nix2i − X

2

siendo xi las distintas modalidades.

Varianza de hijos de 150 familias

xi ni x2i

0 20 02

1 35 12

2 62 22

3 24 32

4 5 42

5 3 52

6 1 62

NOTA: Se crea una columna con las modalidades al cuadrado.Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 59/113

Varianza. Distribucion Tipo II.

Varianza de hijos de 150 familias. Continuacion.

X =1

15020× 0 + 35× 1 + 62× 2 + 4× 3 + 5× 4 + 3× 5 + 1× 6)

= 1′813..

1n

k∑i=1

nix2i =

1150

(20× 02 + 35× 12 + 62× 22 + 24× 32 + 5× 42

+3× 52 + 1× 62) = 4′6

σ2x = 4′6− (1′813)2 = 1′313.. hijos2 y σx =

√1′313.. = 1′145.. hijos

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 60/113

Varianza. Distribucion Tipo III

Se aplica la misma formula que para distribuciones de Tipo II,es decir,

σ2x =

1n

k∑i=1

nix2i − X

2

siendo ahora xi las marcas de clase de los intervalos .

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 61/113

Varianza. Distribucion Tipo III.

Varianza de las puntuaciones de 175 estudiantes

(ei−1, ei ] xi ni x2i

(46′5, 55′5] 51 11 512

(55′5, 64′5] 60 16 602

(64′5, 73′5] 69 39 692

(73′5, 82′5] 78 63 782

(82′5, 91′5] 87 35 872

(91′5, 100′5] 96 11 962

X =1

175(11×51+16×60+39×69+63×78+35×87+11×96) = 75′6..

1n

k∑i=1

nix2i =

1175

(11×512+16×602+39×692+63×782+35×872+11×962)

= 5836′99..

σ2x = 5836′99..− (75′6..)2 = 124′63.. puntos2

σx =√

124′63.. = 11′16.. puntos

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 62/113

Observaciones finales sobre la varianza

OBSERVACION

Resaltemos que, al igual que ocurrıa con la media aritmetica,cuando los datos se agrupan en intervalos, no vamos a obtenerexactamente el mismo valor que si aplicaramos la formuladirectamente a los datos iniciales aunque sı un valoraproximado.

OBSERVACION

Es importante observar que, en forma analoga a como ocurrecon la media aritmetica, la varianza tiene el inconveniente deser sensible a la presencia de valores marcadamenteseparados de la masa principal de los datos, por ello serıaconveniente disponer de una medida de dispersion que no seviera muy afectada por tales valores. En un apartado siguienteveremos una con dicha propiedad.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 63/113

Observaciones finales sobre la varianza

OBSERVACION

Resaltemos que, al igual que ocurrıa con la media aritmetica,cuando los datos se agrupan en intervalos, no vamos a obtenerexactamente el mismo valor que si aplicaramos la formuladirectamente a los datos iniciales aunque sı un valoraproximado.

OBSERVACION

Es importante observar que, en forma analoga a como ocurrecon la media aritmetica, la varianza tiene el inconveniente deser sensible a la presencia de valores marcadamenteseparados de la masa principal de los datos, por ello serıaconveniente disponer de una medida de dispersion que no seviera muy afectada por tales valores. En un apartado siguienteveremos una con dicha propiedad.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 63/113

Coeficiente de variacion

Limitaciones de la varianza

La varianza esta afectada por la magnitud media de lascantidades ası como por las unidades en las que estenmedidas.

Ejemplo

Las estaturas, en centımetros, de cinco alumnos de Primero deEnsenanza Secundaria Obligatoria son 145, 139, 135, 143y 135. Y las de seis alumnos de Cuarto de EnsenanzaSecundaria Obligatoria son 163, 174, 175, 169, 171 y 178.La varianza de las estaturas de los alumnos de Primero esσ2

x = 16′64. Y la de los de Cuarto σ2x = 23′2222.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 64/113

Coeficiente de variacion

Ejemplo

La varianza de las estaturas de los alumnos de Primero esσ2

x = 16′64. Y la de los de Cuarto σ2x = 23′2222.

Aparentemente los de cuarto presentan mas dispersion, noobstante podemos plantearnos que el hecho de que los deCuarto sean globalmente mas altos hace que los valoresnumericos se separen mas entre sı a pesar de que,intrınsecamente las estaturas de los de Cuarto esten menosdispersas que las de los de Primero.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 65/113

Coeficiente de variacion

Coeficiente de variacion de Pearson

Para dilucidar esta cuestion los estadısticos han ideado elsiguiente coeficiente denominado coeficiente de variaci on dePearson,

Cvx =σx

|X |Al dividir la desviacion tıpica por la media aritmeticacompensamos el efecto o influencia de la magnitud global omedia.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 66/113

Coeficiente de variacion

Si en el ejemplo anterior calculamos este coeficiente en cada grupo,

Alumnos de Primero de E.S.O.

X =15

(145 + +139 + 135 + 143 + 135) = 139′4

σx =√

16′64 = 4′0792 Cvx =σx

|X |=

4′0792139′4

= 0′02926

Alumnos de Cuarto de E.S.O.

X =16

(163 + 174 + 175 + 169 + 171 + 178) = 171′6667

σx =√

23′2222 = 4′8189 Cvx =σx

|X |=

4′8189171′6667

= 0′02807

Por lo que las estaturas de los alumnos de Cuartos estan menosdispersas, en relacion a su magnitud media, que las de los dePrimero, a pesar de que estas ultimas presenten menos varianza.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 67/113

Coeficiente de variacion

Otro problema que se presenta a veces es la influencia de lasunidades.

Ejemplo

Un ingeniero mide las longitudes de tres piezas en centımetros,obteniendo 1, 1′5 y 1′2. Otro ingeniero emplea milımetros,siendo pues las longitudes 10, 15 y 12. La varianza de 1, 1′5y 1′2 es σ2

x = 0′04222, mientras que la varianza de 10, 15 y 12es σ2

x = 4′2222.Resulta obvio que comparar las dispersiones simplemente pormedio de las varianzas parece un poco ilogico pues lasmedidas son las mismas y lo que ha cambiado es la unidad demedicion. En esta situacion no podemos pues emplear lavarianza para comparar la dispersion real.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 68/113

Coeficiente de variacion

Solucion: emplear el coeficiente de variacion

Datos en centımetros. 1, 1′2 y 1′5.

X =13

(1+1′2+1′5) = 1′2333 σx =√

0′04222 = 0′20548

Cvx =σx

|X |=

0′205481′2333

= 0′166606

Datos en milımetros. 10, 12 y 15.

X =13

(10+12+15) = 12′3333 σx =√

4′2222 = 2′0548

Cvx =σx

|X |=

2′054812′333

= 0′166606

Los coeficientes de variacion son iguales por lo que la dispersion reales la misma. Es decir, el coeficiente de variacion no esta influenciadopor la unidad de medida empleada.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 69/113

Coeficiente de variacion

Conclusiones

El coeficiente de variacion es una medida de dispersionadimensional y ademas compensada del efecto queproduce la mayor o menor magnitud global de lascantidades.

Se ha de emplear cuando se quiere comparar la dispersionde dos o mas conjuntos de observaciones medidas enunidades distintas y/o con valores promedio distintos.

El coeficiente de variacion no es un parametro robusto, porno serlo ni la media aritmetica ni la desviacion tıpica.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 70/113

Recorrido intercuartılico

Sabemos que el primer cuartil, Q1 deja a su izquierda el 25 %de las observaciones, y que el tercer cuartil Q3 deja a suizquierda el 75 %.Esto significa que entre Q1 y Q3 se encuentran el 50 % centralde las observaciones. El intervalo [Q1, Q3] se denominaintervalo intercuartılicoLa longitud del intervalo intercuartılico, puede ser consideradacomo una medida de dispersion que se denomina recorridointercuartılico y se denota IQR, es decir,

IQR = Q3 −Q1

Esta medida de dispersion es robusta por serlo tambien loscuartiles, es decir, esta poco influenciada por la presencia devalores muy extremos.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 71/113

Recorrido intercuartılico

Para los datos,

1, 3, 7, 8, 9, 9, 10, 12, 13, 13, 14, 15

se tiene que,Q1 = 7′5 Q3 = 13

luego,IQR = 13− 7′5 = 5′5

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 72/113

Recorrido intercuartılico

Si tenemos los datos siguientes,

xi ni Ni

1 10 103 14 244 16 407 30 708 10 809 8 88

entonces,

Q1 = 3 Q3 = 7 ⇒ IQR = Q3 −Q1 = 7− 3 = 4

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 73/113

Recorrido intercuartılico

Y para los datos,

(ei−1, ei ] xi ni Ni

(46′5, 55′5] 51 11 11(55′5, 64′5] 60 16 27(64′5, 73′5] 69 39 66(73′5, 82′5] 78 63 129(82′5, 91′5] 87 35 164(91′5, 100′5] 96 11 175

se tendra,Q1 = 68′365.. Q3 = 83′078..

⇒ IQR = Q3 −Q1 = 83′078− 68′365 = 14′713..

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 74/113

Coeficiente ∆x

Cuando se trata de comparar las dispersiones de dosconjuntos de datos nos encontramos con el mismo problemaque para la varianza, es decir, la influencia tanto de la unidadde medicion como de la magnitud media de las cantidades. Poresta razon, de la misma forma que en aquel caso se definio encoeficiente de variacion de Pearson, ahora podemos definir uncoeficiente similar dividiendo IQR por el valor absoluto de lamediana. Obtenemos ası el siguiente parametro quedenominaremos coeficiente ∆x ,

∆x =IQR|Me|

=Q3 −Q1

|Me|

Como en el caso del coeficiente de variacion de Pearson, estenuevo coeficiente es adimensional y esta liberado de lainfluencia de la mayor o menor magnitud media de lasobservaciones.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 75/113

Coeficiente ∆x

Ejemplo

Las estaturas, en centımetros, de cinco alumnos de Primero deEnsenanza Secundaria Obligatoria, son 145, 139, 135, 143y 135. Y las de seis alumnos de Cuarto de EnsenanzaSecundaria Obligatoria son 163, 174, 175, 169, 171 y 178.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 76/113

Coeficiente ∆x

Calculemos el coeficiente ∆x para cada caso

Primero de E.S.O. 145, 139, 135, 143, 135. Ordenadas son 135,135, 139, 143, 145.

Q1 = 135 Q3 = 143 Me = 139 IQR = Q3 −Q1 = 8

∆x =IQR|Me|

=8

139= 0′057553957

Cuarto de E.S.O. 163, 174, 175, 169, 171, 178. Ordenadas son163, 169, 171, 174, 175, 178.

Q1 = 169 Q3 = 175 Me = 172′5 IQR = Q3 −Q1 = 6

∆x =IQR|Me|

=6

172′5= 0′034782609

Por consiguiente, las estaturas de los alumnos de Cuarto presentanmenos dispersion que las de los alumnos de Primero.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 77/113

Coeficiente ∆x

Conclusiones

El coeficiente ∆x es una medida de dispersionadimensional y ademas compensada del efecto queproduce la mayor o menor magnitud global de lascantidades.

Se ha de emplear cuando se quiere comparar la dispersionde dos o mas conjuntos de observaciones medidas enunidades distintas y/o con valores promedio distintos.

Tiene la ventaja sobre coeficiente de variacion de ser unparametro robusto, por lo que deberıa ser preferidocuando existan valores extremos anomalos.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 78/113

PARAMETROS O MEDIDAS DE FORMA.OTRAS MEDIDAS

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 79/113

Patrones de simetrıa de una distribucion de frecuencias

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 80/113

Coeficiente de asimetrıa de Pearson

As =X −Mo

σx

As = 0, distribucion simetrica.

As < 0, distribucion asimetrica o sesgada a la izquierda.

As > 0, distribucion asimetrica o sesgada a la derecha.

Aunque a veces puede ser util, es un coeficiente poco preciso ysolo tiene utilidad cuando la distribucion es unimodal ycampaniforme.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 81/113

Coeficiente de asimetrıa de Fisher

• Distribucion Tipo I.

γ1 =1

n σ3x

n∑i=1

(Xi − X )3

• Distribuciones Tipo II y Tipo III.

γ1 =1

n σ3x

k∑i=1

ni(xi − X )3

γ1 = 0, distribucion simetrica.

γ1 < 0, distribucion asimetrica o sesgada a la izquierda.

γ1 > 0, distribucion asimetrica o sesgada a la derecha.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 82/113

Coeficiente de curtosis o aplastamiento

• Distribucion Tipo I.

γ2 =

(1

n σ4x

n∑i=1

(Xi − X )4

)− 3

• Distribuciones Tipo II y Tipo III.

γ2 =

(1

n σ4x

k∑i=1

ni(xi − X )4

)− 3

γ2 = 0, distribucion mesocurtica. Ni muy aplastada ni muyapuntada.

γ2 > 0, distribucion leptocurtica. Distribucion apuntada.

γ2 < 0, distribucion platicurtica. Distribucion aplastada.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 83/113

Patrones de aplastamiento de una distribucion de frecuencias

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 84/113

Concentracion

El concepto de concentraci on hace referencia al grado deuniformidad en el reparto del total de la variable sobre cadauno de los individuos o elementos.El estudio de la concentracion es de gran interes en el ambitoeconomico, cuando se trata de estudiar el grado de equidad enel reparto de la riqueza, los salarios, o bienes en general. Dehecho, este concepto se emplea frecuentemente en estudiossobre el reparto de bienes como riqueza o salario, enempresas, clases sociales, paıses o regiones geograficas engeneral.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 85/113

Concentracion

Ejemplo

Los cinco trabajadores de la empresa A ganan, mensualmente,

1400, 1500, 1390, 1600, 1550 Euros.

Los cuatro empleados de la empresa B ganan, mensualmente,

1300, 1400, 1350, 5000 Euros.

Los sueldos de la empresa A presentan menos concentracionque los de la empresa B pues el total esta mas uniformementerepartido en A que en B.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 86/113

Estudio de la concentracion. Distribuciones de Tipo II.

Lo veremos con el ejemplo del numero de hijos de 150 familias.Construimos la tabla usual, ampliandola con otras cantidadesque se ven a continuacion,

xi ni fi Fi si Si Pi % Ti %

0 20 0′13333 0′13333 0 0 13′333 0′0001 35 0′23333 0′36666 35 35 36′666 12′8682 62 0′41333 0′78000 124 159 78′000 58′4563 24 0′16000 0′94000 72 231 94′000 84′9264 5 0′03333 0′97333 20 251 97′333 92′2795 3 0′02000 0′99333 15 266 99′333 97′7946 1 0′00666 1′00000 6 272 100′000 100′000

150 272

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 87/113

Concentracion. Distribuciones de Tipo II.

Cantidades importantes

si . Es la suma de las observaciones en cada modalidad.En nuestro caso se obtiene multiplicando el valor de lamodalidad por la frecuencia absoluta, es decir, si = ni xi .Por ejemplo, s3 = 2× 62 = 124, o sea, las familias con 2hijos reunen en total 124 hijos.

Si . Es la cantidad anterior, acumulada, es decir,Si = s1 + s2 + · · ·+ si .

Pi . Representa el porcentaje de observaciones menores oiguales que xi , es decir, Pi = 100× Fi . Observemos quesiempre se verificara Pk = 100.

Ti . Es el porcentaje que representa Si con respecto a lasuma total Sk , es decir, Ti = 100× Si/Sk . Observemosque siempre se verificara Tk = 100.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 88/113

Concentracion. Distribuciones de Tipo II.

Observacion

La modalidad 1, es decir, CERO hijos, representa unporcentaje igual a P1 del numero total de elementos, familiasen este caso, pero su valor asociado de la variable, numero dehijos en este caso, representa un porcentaje igual a T1. Lasmodalidades primera y segunda representan un porcentajeigual a P2 del numero total de elementos, familias en este caso,pero su valor asociado de la variable, numero de hijos en estecaso, representa un porcentaje igual a T2, y ası sucesivamente.

Importante

Observando la evolucion conjunta de las columnas P y Tpodemos estudiar la concentracion.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 89/113

Curva de Lorenz

Importante

Observando la evolucion conjunta de las columnas P y Tpodemos estudiar la concentracion.

Para ello, dibujamos un cuadrado de lado 100 y representamoslos puntos (0, 0), (T1, P1), (T2, P2),...,(Tk , Pk ) = (100, 100).Uniendolos por segmentos obtendremos una lınea que semantiene siempre por encima de la bisectriz, como puedeverse en la grafica adjunta, en la que hemos representadodicha poligonal y tambien la bisectriz.Esta poligonal se denomina curva de Lorenz o curva deconcentraci on . La mınima concentracion corresponde a unreparto uniforme del total, y la curva de Lorenz coincide con labisectriz. Por contra, si este reparto es menos equitativo, esdecir, el total tiende a concentrarse mas en uno o variosvalores, la curva tiende a alejarse de la bisectriz.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 90/113

Curva de Lorenz

��

��

��

��

��

��

��

��

���

(0, 0)

(100, 100)

δ

�������%

%%

%%#

##

##

#

T1

P1

T2

P2

""!!!!!

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 91/113

Queremos un parametro para cuantificar laconcentracion

A mayor concentracion, mayor superficie entre la curva deLorenz y la bisectriz. A menor concentracion, menor superficie.Entonces, para medir la concentracion podemos emplear dichasuperficie. Vamos a llamarle δ. Este valor esta comprendidoentre CERO que serıa su valor mınimo, y 5000 que serıa suvalor maximo.El estadıstico italiano Gini invento el ındice que lleva su nombredividiendo δ por su valor maximo,

IG =δ

5000

y de esta forma,0 ≤ IG ≤ 1

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 92/113

Indice de Gini

Interpretacion

Cuanto mas proximo este IG a UNO, hay masconcentracion.

Cuanto mas proximo este IG a CERO, hay menosconcentracion.

Formula para su calculo

IG =1

10000

k∑i=2

(Pi−1 × Ti − Pi × Ti−1)

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 93/113

Ejemplo: numero de hijos

xi ni fi Fi si Si Pi % Ti %

0 20 0′13333 0′13333 0 0 13′333 0′0001 35 0′23333 0′36666 35 35 36′666 12′8682 62 0′41333 0′78000 124 159 78′000 58′4563 24 0′16000 0′94000 72 231 94′000 84′9264 5 0′03333 0′97333 20 251 97′333 92′2795 3 0′02000 0′99333 15 266 99′333 97′7946 1 0′00666 1′00000 6 272 100′000 100′000

150 272

IG =1

10000((13′333× 12′868− 36′666× 0′000)

+(36′666× 58′456− 78′000× 12′868) + · · ·+99′333× 100, 00− 100′00× 97′794)) = 0′3355

Este resultado nos indica la presencia de cierto grado de concentracion,aunque no excesivo. Notese que para el calculo anterior se van multiplicandode forma cruzada las Pi por las Ti . estos productos se restan, y losresultados se suman.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 94/113

Concentracion. Distribuciones de Tipo III.

Para este tipo de distribucion, se procede de forma similar peroempleando las marcas de clase, xi . Veamos un ejemplo.Tenemos una variable ya agrupada en intervalos.

Intervalo xi ni Fi si Si Pi Ti

(0′5, 1′5] 1 5 5/50 = 0′10 5 5 10′00 3′16(1′5, 2′5] 2 14 19/50 = 0′38 28 33 38′00 20′88(2′5, 3′5] 3 15 34/50 = 0′68 45 78 68′00 49′36(3′5, 4′5] 4 7 41/50 = 0′82 28 106 82′00 67′08(4′5, 5′5] 5 4 45/50 = 0′90 20 126 90′00 79′74(5′5, 6′5] 6 3 48/50 = 0′96 18 144 96′00 91′14(6′5, 7′5] 7 2 50/50 = 1′00 14 158 100′00 100′00

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 95/113

Concentracion. Distribuciones de Tipo III.

Cantidades importantes

si . Es la suma de las observaciones en cada intervalo.Usualmente no se dispone de estas observaciones,empleandose entonces como aproximaci on la suma delas marcas de clase, es decir, si = ni xi .

Si . Es la cantidad anterior, acumulada, es decir,Si = s1 + s2 + · · ·+ si .

Pi . Representa el porcentaje de observaciones menores oiguales que Xi , es decir, Pi = 100× Fi . Observemos quesiempre se verificara Pk = 100.

Ti . Es el porcentaje que representa Si con respecto a lasuma total Sk , es decir, Ti = 100× Si/Sk . Observemosque siempre se verificara Tk = 100.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 96/113

Curva de Lorenz. Indice de Gini

Como en el caso de las distribuciones de Tipo II, ahora seprocede de la misma forma, representando los puntos (0, 0),(T1, P1), (T2, P2),...,(Tk , Pk ) = (100, 100), que daran lugar a lacurva de Lorenz o curva de concentraci on , y calculando elındice de Gini,

IG =1

10000

k∑i=2

(Pi−1 × Ti − Pi × Ti−1)

que aplicada a los datos de nuestro ejemplo, proporciona,

IG =1

10000(10′0× 20′88− 38′00× 3′16 + · · ·

+96′00× 100, 00− 100′00× 91′14) = 0′2594

es decir, poca concentracion.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 97/113

Concentracion. Distribuciones de Tipo I.

Finalmente veremos como calcular el ındice de Gini paradistribuciones Tipo I. Lo haremos con un ejemplo pequeno,pero suficiente para mostrar el metodo. Supongamos cincosueldos, en miles de Euros, 4, 3, 2, 2, 1. Primero se ordenande menor a mayor, y se construye la siguiente tabla, que esanaloga a las calculadas para las distribuciones Tipos II y III.

Xi ni fi Fi si Si Pi % Ti %

1 1 1/5 = 0′2 1/5 = 0′2 1 1 20′000 100× 1/12 = 8′3332 1 1/5 = 0′2 2/5 = 0′4 2 3 40′000 100× 3/12 = 25′0002 1 1/5 = 0′2 3/5 = 0′6 2 5 60′000 100× 5/12 = 41′6673 1 1/5 = 0′2 4/5 = 0′8 3 8 80′000 100× 8/12 = 66′6674 1 1/5 = 0′2 5/5 = 1′0 4 12 100′000 100× 12/12 = 100′00

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 98/113

Concentracion. Distribuciones de Tipo I.

Xi ni fi Fi si Si Pi % Ti %

1 1 1/5 = 0′2 1/5 = 0′2 1 1 20′000 100× 1/12 = 8′3332 1 1/5 = 0′2 2/5 = 0′4 2 3 40′000 100× 3/12 = 25′0002 1 1/5 = 0′2 3/5 = 0′6 2 5 60′000 100× 5/12 = 41′6673 1 1/5 = 0′2 4/5 = 0′8 3 8 80′000 100× 8/12 = 66′6674 1 1/5 = 0′2 5/5 = 1′0 4 12 100′000 100× 12/12 = 100′00

IG =1

10000

k∑i=2

(Pi−1 × Ti − Pi × Ti−1)

que aplicada a los datos de nuestro ejemplo, proporciona,

IG =1

10000((20′000× 25′000− 40′000× 8′333)

+(40′000× 41′667− 60′000× 25′000) + · · ·+80′000× 100, 00− 100′00× 66′667)) = 0′2333

Hay concentracion pero poca. De forma similar se dibuja lacurva de Lorenz a partir de las Pi y las Ti .

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 99/113

Deteccion de valores singulares y/o anomalos

Consideremos los siguientes datos numericos, relativos a lastallas de 20 alumnos de Tercero de Ensenanza SecundariaObligatoria, en centımetros,

150 151 150 147 155 145 151 152 150 149 160 142158 153 144 190 145 147 151 156

Existe un valor singular , 190, que se puede considerar comoatıpico o anomalo .

¿Es posible que dicho valor provenga de la misma fuenteo poblacion?

¿Estara afectado de algun error?

En caso afirmativo, ¿Que tipo de error?

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 100/113

Clasificacion de observaciones singulares

Observaciones singulares

Observaci on AT IPICA. Es aquel valor que presenta unagran variabilidad de tipo inherente.

Observaci on ERRONEA. Es aquel valor que seencuentra afectado de algun tipo de error.

Definicion

Se llamara “OUTLIER” a aquella observacion que siendoatıpica y/o erronea, tiene un comportamiento muy diferenterespecto al resto de los datos, en relacion al analisis que sedesea realizar sobre las observaciones.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 101/113

Deteccion de “outliers”. Metodo IQR.

1 Calcular Q1, Q3 e IQR2 Calcular las vallas interiores .

f1 = Q1 − 1′5× IQR f2 = Q3 + 1′5× IQR

3 Calcular las vallas exteriores .

F1 = Q1 − 3× IQR F2 = Q3 + 3× IQR

Toda observacion que quede fuera de las vallas interioressera considerada como “OUTLIER”, y se conceptua como valoranomalo. Los “OUTLIERS” que ademas esten fuera de lasvallas exteriores se conceptuan como valores muy anomalos.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 102/113

Ejemplo. Estaturas de los alumnos

150 151 150 147 155 145 151 152 150 149 160 142158 153 144 190 145 147 151 156

1 Cuartiles y recorrido intercuartılico.

Q1 = 147 Q3 = 154 IQR = 7

2 Vallas interiores.

f1 = 147−1′5×7 = 136′5 f2 = 154+1′5×7 = 164′5

3 Vallas exteriores.

F1 = 147− 3× 7 = 126 F2 = 154 + 3× 7 = 175

Conclusion

Luego el valor 190 es un valor muy anomalo, que requiere unestudio pormenorizado. Puede ser un error en lasobservaciones, o que realmente existe un alumno de elevadaestatura.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 103/113

Diagrama de caja o “Box-Plot”

Utilidad

Este tipo de diagramas expresa muy claramente la distribucionde los datos: su valor central, simetrıa, concentracion yobservaciones anomalas.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 104/113

Diagrama de caja o “Box-Plot”. Construcion

1 Fijar la escala segun los valores mınimo y maximo.2 Localizar la mediana y los cuartiles, Q1 y Q3, y dibujar un

rectangulo o caja que conecte estos ultimos. Dentro delmismo, marcar la mediana con un segmento. La amplitudde la caja sera el recorrido intercuartılico, IQR.

3 Detectar valores anomalos. Las observaciones fuera delas vallas interiores pero dentro de las exteriores serepresentan como pequenos cuadrados o cırculos, y lasque queden fuera de las vallas exteriores con asteriscos ocruces. Esta regla puede varıar.

4 A cada lado de la caja se trazan segmentos que terminanen las observaciones m as extremas dentro de lasvallas interiores , que se denominan valores adyacentes.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 105/113

Diagrama de caja o “Box-Plot”

Q1 Me Q3 f2 F2f1F1

� ∗

Observaciones

Los valores que queden fuera de las vallas interiores perodentro de las exteriores se han representado con �, y las quequeden fuera de las vallas exteriores con ∗.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 106/113

Comparacion de datos con diagramas de caja

Es interesante emplear este diagrama para comparar variosconjuntos de datos, suponiendo por supuesto que dichacomparacion tenga sentido.

Ejemplo

Compararemos dos conjuntos de datos relativos a laspuntuaciones de 175 alumnos por una parte, y de 120 por otra.Construiremos los correspondientes diagramas de caja, y losubicaremos en un mismo grafico, con una escala comun.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 107/113

Puntuaciones de 175 estudiantes

76 66 77 50 81 69 75 73 84 62 6571 93 54 70 55 86 63 84 76 80 8878 69 77 75 52 60 68 71 84 70 8978 87 98 80 76 55 65 77 64 82 7075 73 82 72 84 75 85 78 83 74 8168 76 77 61 66 85 58 92 96 51 8778 77 90 75 62 81 63 72 68 76 7286 80 92 79 84 70 50 70 71 77 6975 91 80 87 83 64 85 61 77 65 6774 90 78 82 73 88 85 89 65 75 7684 55 81 75 77 69 83 70 86 69 9679 98 51 97 63 90 54 74 71 89 7682 71 83 77 84 78 90 53 98 75 6964 70 81 77 67 83 79 85 76 72 5776 65 71 74 94 75 66 95 80 91 8056 83 82 60 74 81 79 80 61 79

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 108/113

Puntuaciones de 175 estudiantes. Resultados.

Mediante el programa EXCEL, hemos calculado losparametros,

Q1 = 69 Q2 = Me = 76 Q3 = 83

a partir de los cuales tenemos,

IQR = Q3 −Q1 = 14

f1 = Q1 − 1′5× IQR = 48 f2 = Q3 + 1′5× IQR = 104

F1 = Q1 − 3× IQR = 27 F2 = Q3 + 3× IQR = 125

La puntuacion mınima es 50, y la maxima 98. Ası pues, todaslas observaciones quedan dentro de las vallas interiores, y nodetectamos “outliers”. Los valores adyacentes son pues 50 y98.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 109/113

Puntuaciones de 120 estudiantes

41 46 54 60 54 61 50 50 53 5551 58 61 48 51 60 43 53 62 5556 62 45 49 55 59 56 53 59 5358 55 50 48 61 62 57 58 58 5361 50 62 49 53 60 54 34 49 5860 53 56 53 59 52 61 53 56 6039 54 50 60 57 52 55 59 53 5554 59 54 60 57 50 45 57 60 5555 59 55 54 49 58 52 53 60 5451 56 58 53 54 49 61 50 60 5358 55 51 56 62 54 58 50 53 5561 60 54 51 53 54 55 48 58 62

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 110/113

Puntuaciones de 120 estudiantes. Resultados.

Mediante el programa EXCEL, hemos calculado losparametros,

Q1 = 52 Q2 = Me = 55 Q3 = 58′5

a partir de los cuales tenemos,

IQR = Q3 −Q1 = 6′5

f1 = Q1−1′5×IQR = 42′25 f2 = Q3+1′5×IQR = 68′25

F1 = Q1 − 3× IQR = 32′5 F2 = Q3 + 3× IQR = 78

La puntuacion mınima es 34, y la maxima 62. Ası pues, existenobservaciones por debajo de la valla interior inferior, enconcreto, 34, 39 y 41, que son consideradas como “outliers”.

Por encima de la valla interior superior no hay observaciones.Los valores adyacentes son las observaciones 43 y 62. No hayobservaciones fuera de las vallas exteriores, es decir, muyanomalas.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 111/113

Diagramas de caja

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 112/113

Conclusiones

Las puntuaciones del grupo de 175 estudiantes songlobalmente mejores que las del grupo de 120 estudiantes. Porejemplo, se puede observar que las medianas de ambosgrupos de puntuaciones difieren en casi 20 unidades.

Observese tambien que en el grupo de 175 estudiantes no sedetectan “outliers”, al contrario de lo que sucede en el grupo de120 estudiantes en el que se observan tres “outliers”, que porestar dentro de las vallas los hemos representados porpequenos cuadrados, es decir, �.

Recuerdese que algunos programas de ordenador, empleansımbolos distintos, por ejemplo pequenos cırculos, es decir, ◦.

Jose A. Mayor. Universidad de Sevilla. [email protected] Estadıstica Adva. 2006-2007. TEMAS 4, 5 y 6. D.G.A.P. 113/113