24
Tema 1. ESTAD ´ ISTICA DESCRIPTIVA M. J. Rubio Un poco de Historia Una de las m´ as bellas leyendas de las mil y una noches cuenta que el califa Har´ un al Rasid sal´ ıa disfrazado de mercader de su palacio para conocer la opini´on de los habitantes de Bagdad. Tambi´ en el escritor estadounidense Mark Twain, muchos a˜ nos despu´ es, hace del pr´ ıncipe Eduardo un mendigo, que de este modo llegar a conocer omo viv´ ıan y pensaban sus s´ ubditos. El estudio estad´ ıstico m´as antiguo que se conoce se realiz´o en China cuando el emperador Yao encarg´ o la confecci´ on de un censo del imperio. Esto suceda a finales del tercer milenio antes de Cristo. Tambi´ en se tienen noticias de que en el antiguo Egipto se realizaron estad´ ısticas y trabajos censales de tipo agr´ ıcola. Otro censo famoso, seg´ un relataba el historiador T´ acito, fue el que recog´ ıa las propiedades y los ej´ ercitos del imperio de Roma en tiempos del emperador Octavio Augusto. No obstante, hemos de esperar alg´ un tiempo hasta que aparezcan los trabajos de John Graunt, un comerciante de mercer´ ıa ingl´ es, considerado como el precursor de la actual estad´ ıstica. Graunt, entre los a˜ nos 1604 y 1661, realiz´ o un estudio sobre los nacimientos y defunciones de Londres y, a partir de los datos obtenidos, extrajo consecuencias formulando leyes demogr´ aficas y comportamientos sociol´ ogicos. Treinta a˜ nos m´ as tarde publica el astr´onomo Halley un estudio sobre las tasas de mortalidad, sent´ andose las bases de los estudios sobre esperanza de vida. Hoy, en el siglo XXI, los m´ etodos han cambiado de manera radical y en la actualidad la importancia de la estad´ ıstica es enorme: los m´ etodos estad´ ısticos son fundamentales para estimar, planificar, predecir y decidir en problemas relacionados con la pol´ ıtica, la sociolog´ ıa, la investigaci´ on, la industria, la econom´ ıa y una larga lista de actividades. 1

Tema matematicas 2 estadistica

Embed Size (px)

DESCRIPTION

apuntes universidad la rioja

Citation preview

Page 1: Tema matematicas 2 estadistica

Tema 1. ESTADISTICA DESCRIPTIVA

M. J. Rubio

Un poco de Historia

Una de las mas bellas leyendas de las mil y una noches cuenta que el califa Harunal Rasid salıa disfrazado de mercader de su palacio para conocer la opinion de loshabitantes de Bagdad. Tambien el escritor estadounidense Mark Twain, muchos anosdespues, hace del prıncipe Eduardo un mendigo, que de este modo llegar a conocercomo vivıan y pensaban sus subditos.

El estudio estadıstico mas antiguo que se conoce se realizo en China cuando elemperador Yao encargo la confeccion de un censo del imperio. Esto suceda a finales deltercer milenio antes de Cristo. Tambien se tienen noticias de que en el antiguo Egipto serealizaron estadısticas y trabajos censales de tipo agrıcola. Otro censo famoso, segunrelataba el historiador Tacito, fue el que recogıa las propiedades y los ejercitos delimperio de Roma en tiempos del emperador Octavio Augusto. No obstante, hemos deesperar algun tiempo hasta que aparezcan los trabajos de John Graunt, un comerciantede mercerıa ingles, considerado como el precursor de la actual estadıstica. Graunt, entrelos anos 1604 y 1661, realizo un estudio sobre los nacimientos y defunciones de Londresy, a partir de los datos obtenidos, extrajo consecuencias formulando leyes demograficasy comportamientos sociologicos. Treinta anos mas tarde publica el astronomo Halleyun estudio sobre las tasas de mortalidad, sentandose las bases de los estudios sobreesperanza de vida.

Hoy, en el siglo XXI, los metodos han cambiado de manera radical y en la actualidadla importancia de la estadıstica es enorme: los metodos estadısticos son fundamentalespara estimar, planificar, predecir y decidir en problemas relacionados con la polıtica, lasociologıa, la investigacion, la industria, la economıa y una larga lista de actividades.

1

Page 2: Tema matematicas 2 estadistica

1. Conceptos basicos

La Estadıstica se puede definir como la ciencia que tiene por objeto dar meto-dos para el tratamiento de los datos de observacion y su aplicacion para la toma dedecisiones.

Tambien se dice que es “la ciencia que estudia el comportamiento de los fenomenosde masas”. Es decir, la ciencia encargada de la

1. Observacion y analisis de los datos.2. Interpretacion y obtencion de conclusiones y previsiones.

La rama de la Estadıstica que se ocupa de la organizacion, sıntesis y descripcionde los datos es la Estadıstica descriptiva mientras que la rama que utiliza los datosde la muestra para inferir algo acerca de una poblacion, se denomina Estadısticainferencial.

A continuacion introduciremos las nociones generales basicas que utilizaremos:

Definicion 1 Universo, Colectivo o sımplemente Poblacion es el conjunto o coleccionde elementos que son objeto de estudio.

Definicion 2 Se dice unidad estadıstica o individuo a cada uno de los elementos dela poblacion.

Definicion 3 Se denomina tamano de la poblacion al numero de elementos que lacomponen y se acostumbra a distinguir entre poblacion finita e infinita.

Definicion 4 Una muestra es un subconjunto de elementos de la poblacion.

A veces el estudio estadıstico no se puede realizar observando todos los elementos dela poblacion. Pueden ser cuestiones de tipo economico, de tiempo o por ser la poblacionmuy grande. Esto hace que sea preferible un muestreo.

La muestra no puede ser cualquier subconjunto, sino que debe ser representativode toda la poblacion. Ello se estudia en la llamada “Teorıa de Muestras”.

Definicion 5 Los caracteres son las cualidades de los individuos de la poblacion queson objeto de estudio. Se clasifican en dos, segun sean medibles o no:

Cuantitativos o variables (m2 de vivienda, edad): son aquellos caracteres sus-ceptibles de ser cuantificados, es decir, que se pueden describir mediante numeros.

Cualitativos o atributos (color de ojos, nacionalidad): son aquellos que por sunaturaleza no se pueden cuantificar y por lo tanto se describen mediante palabras.

Definicion 6 Los diferentes valores que puede tomar un caracter se denominan mo-dalidades. Estas deben estar bien definidas de tal manera que cada individuo perte-nezca a una unica modalidad.

Definicion 7 A los valores numericos de las distintas modalidades que toma un carac-ter cuantitativo se llama Variable estadıstica. Distinguimos dos tipos de variables:

Variable discreta: (n◦ de hijos, n◦ de acciones vendidas un dıa en la Bolsa) esaquella que solo puede tomar valores determinados o aislados. Es decir, aquella para la

2

Page 3: Tema matematicas 2 estadistica

que entre dos valores, por muy alejados que esten, no puede tomar mas que un numerofinito de valores.

Variable continua: (temperaturas tomadas en un observatorio cada hora) si puedetomar infinitos valores entre dos valores dados, por proximos que esten estos.

2. Distribuciones de Frecuencias

Uno de los conceptos que utilizaremos en las definiciones posteriores es el de fre-cuencia que no es sino el numero de veces que aparece una determinada modalidad deun caracter. La utilizacion de las frecuencias en tablas estadısticas permite organizary resumir el conjunto de datos de manera que sea mas comprensible y significativo.

2.1. Definiciones

En adelante consideraremos una poblacion o muestra de tamano N y la variableestadıstica X que presenta las modalidades x1, x2, ..., xk.

Las siguientes definiciones son tambien validas para caracteres cualitativos.Frecuencia absoluta de xi (ni): numero de veces que se presenta ese valor xi en

el conjunto de las observaciones.Frecuencia relativa de xi (fi): es el cociente entre la frecuencia absoluta y el total

de individuos. Representa la proporcion de individuos que presentan una determinadamodalidad.

fi =ni

Ni = 1, 2, ..., k

Frecuencias acumuladas de xi absolutas (Ni) o relativas (Fi). Llamamosfrecuencia acumulada de un valor xi a la suma de todas las frecuencias de los valoresque sean inferiores o iguales a el. Si los valores estan ordenados de forma creciente,entonces

Ni =i∑

j=1

nj Fi =i∑

j=1

fj =Ni

Ni = 1, 2, ..., k

Si los datos estan ordenados de forma decreciente, entonces se definen las frecuenciasacumuladas descendentes de xi como la suma de las frecuencias (absolutas o relativas)de todos los valores que sean mayores o iguales que xi.

Propiedades de las frecuencias. De las definiciones anteriores se deducen lassiguientes propiedades:

1) 0 ≤ ni ≤ N 2) Nk =k∑

i=1

ni = N 3) ni = Ni −Ni−1

4) 0 ≤ fi ≤ 1 5) Fk =k∑

i=1

fi = 1 6) fi = Fi − Fi−1

3

Page 4: Tema matematicas 2 estadistica

2.2. Distribuciones y tablas de frecuencias

Una vez recogidos los datos de la muestra, se efectua una primera clasificacion,llamada distribucion de frecuencias, donde aparecen las modalidades observadas juntoa su frecuencia. La presentacion se hace en forma de tabla, donde se agrupan y ordenanlos datos.

Las distribuciones de frecuencias se clasifican en tres tipos atendiendo al numerode observaciones y al numero de valores distintos que toma la variable:

i) Cuando hay muy pocas observaciones y, en consecuencia, un numero reducido devalores distintos que toma la variable.

ii) Cuando el numero de observaciones es grande, pero el numero de valores distintosque toma la variable es pequeno.

iii) Cuando el numero de observaciones es grande y el numero de valores distintosque toma la variable es tambien grande.

En los dos primeros casos se actua de igual forma, es decir, para construir la tablaestadıstica correspondiente basta con poner en una primera columna los pocos valoresdistintos de la variable, y en la segunda, las frecuencias que estemos interesados enmostrar. Si los valores estan ordenados de menor a mayor, se disponen como en latabla siguiente:

xi ni fi Ni Fi

x1 n1 f1 N1 F1

x2 n2 f2 N2 F2...

......

......

xk nk fk Nk Fk

Ejemplo 1 Se ha lanzado un dado al aire 50 veces, obteniendose los siguientes resul-tados:

6 2 3 2 4 6 1 5 3 16 3 4 1 3 5 4 2 6 22 1 6 5 6 1 3 1 4 33 2 5 4 4 2 5 3 3 61 1 3 2 1 3 6 4 5 5

Construir la tabla de frecuencias absolutas, absolutas acumuladas, relativas y relativasacumulas.

xi ni fi Ni Fi

1 9 9/50 9 9/502 8 8/50 17 17/503 11 11/50 28 28/504 7 7/50 35 35/505 7 7/50 42 42/506 8 8/50 50 50/50 = 1

4

Page 5: Tema matematicas 2 estadistica

En el tercer caso, cuando el numero de observaciones es grande ası como el de valoresdistintos de la variable, evidentemente, no es aconsejable realizar una tabla como laanterior. Por tanto, lo que se hace es agrupar los valores de la variable en intervalos,que pueden ser de amplitud constante o no, y calcular las frecuencias en cada intervalo.En estos casos las frecuencias no mediran el numero o porcentaje de veces que se repiteun valor sino un intervalo.

Tomar el intervalo como unidad de estudio, en lugar de cada valor de la variable,supone una simplificacion pero tambien se pierde informacion. Por tanto, es importanteelegir un numero adecuado de intervalos que equilibre estos dos aspectos.

Cada intervalo o clase queda especificado por sus extremos. En general para el i-esimo intervalo, se denota por (Li) al extremo superior y por (Li−1) al extremo inferior.

Se llama amplitud del intervalo y se denota por (ai) a la distancia entre losextremos del interval: ai = Li − Li−1

La union de todos los intervalos ha de recubrir a todos los valores de la variable(axhaustivo) pero sin solaparse (excluyente).

Para facilitar el manejo matematico de los intervalos, es preciso considerar un valorcomo representante de cada intervalo al que se denomina marca de clase y se denotapor (xi). En general se toma como tal, el punto medio del intervalo.

En el caso de que los intervalos tengan distinta amplitud, un valor a tener en cuentaes la densidad de frecuencia absoluta (hi) que es el numero de observaciones del

i-esimo intervalo por unidad de longitud: hi =ni

aiPara consruir la tabla estadıstica se colocan ordenadamente los intervalos,las marcas

de clase y las frecuencias correspondientes, como se muestra en la siguiente tabla:

[Li−1, Li) xi ni fi Ni Fi

[L0, L1) x1 n1 f1 N1 F1

[L1, L2) x2 n2 f2 N2 F2...

......

......

...[Lk−1, Lk] xk nk fk Nk Fk

Ejemplo 2 En una central electrica se ha medido cada hora la tension de la corrienteen voltios para regular su salida, obteniendose los siguientes resultados en un periodode 30 horas:

226 221 228 216 219 219 227 225 220 220226 215 221 224 222 218 227 230 222 212220 215 219 232 219 217 220 211 220 223

Construir la tabla de frecuencias absolutas y acumuladas, agrupando previamente losvalores en intervalos de amplitud 5 voltios y como primer intervalo el 210-215.

Intervalos ni Nia Nid

210 - 215 2 2 30215 - 220 9 11 28220 - 225 11 22 19225 - 230 6 28 8230 - 235 2 30 2

5

Page 6: Tema matematicas 2 estadistica

Realizadas las frecuencias acumuladas ascendentes y descendentes podemos decir,por ejemplo, que el numero de horas en que la tension de la corriente es menos de 220voltios es N220a = 11 y que el numero de horas en que la tension de la corriente es masde 225 voltios es N225d = 8.

2.3. Representaciones graficas

Las graficas ayudan a visualizar la informacion obtenida. Las frecuencias (abso-lutas, relativas o acumuladas) se representan mediante distintos tipos de graficos. Acontinuacion se relacionan algunos de los mas utilizados.

2.3.1. Caracteres cualitativos

Diagrama de rectangulos. Para cada modalidad se presenta un rectangulocuya altura coincide con la frecuencia absoluta (o relativa).

Diagrama de sectores. Consiste en dividir un cırculo en sectores circulares cuyasareas sean proporcionales a las frecuencias de cada modalidad. El angulo (en grados)del sector circular correspondiente a la modalidad i-esima es θi = 360.fi

Pictograma. Consiste en efectuar dibujos alusivos, de tamano proporcional a lafrecuencia de cada modalidad (similar a un diagrama de rectangulos, cambiando estospor dibujos). Tambien se suele tomar un dibujo como unidad y repetirlo tantas vecescomo indique su frecuencia.

Cartograma. Se utiliza cuando la poblacion estudiada pertenece a una zona geografi-ca. Entonces, sobre el mismo plano se representan las distintas modalidades medianterayas, puntos, colores, etc.

Ejercicio 1 Durante un determinado perıodo la ditribucion de clientes de un hotelsegun su nacionalidad fue la siguiente: espanoles (500), franceses (120), otros (100).Representarlos graficamente.

2.3.2. Caracteres cuantitativos

En este caso las representaciones graficas se realizan sobre los ejes coordenados y aveces, para que sea mas significativa , se realiza un cambio de escala en los ejes.

Diagrama de barras. Se utilizan para representar variables discretas y es similaral de rectangulos. Se asigna a cada valor de la variable una barra o rectangulo (todosde igual base) de marnera que su altura sea proporcional a la frecuencia que representa.

Diagrama de sectores. Se utiliza generalmente en variables sin agrupar en in-tervalos. Consiste en dividir un cırculo en sectores proporcionales a las frecuencias decada modalidad.

Histograma. Se utiliza en variables agrupadas en intervalos. Para cada intervalo,se dibuja un rectangulo apoyado sobre el eje X cuya base es el intervalo y cuya area esproporcional a la frecuencia a representar. Por tanto, la altura del rectangulo i-esimo(hi) sera proporcional a su densidad de frecuencia.

6

Page 7: Tema matematicas 2 estadistica

En particular, si los intervalos son de igual amplitud, las alturas de los rectangulosseran iguales a las frecuencias respectivas, ya que al ser las bases de los rectangulosiguales, las areas solo dependeran de las alturas.

Polıgono de frecuencias. Se obtiene uniendo los extremos de las barras en eldiagrama de barras o los puntos medios superiores de los rectangulos en el histograma

Polıgono de frecuencias acumuladas. Igual que el polıgono de frecuencias peroutilizando las correspondientes frecuencias acumuladas.

Ejercicio 2 Representar el diagrama de barras, polıgono de frecuencias, diagrama debarras acumulativo y grafico de sectores con los datos del ejemplo1.

Ejercicio 3 Construir el histograma y el polıgono de frecuencias absolutas del ejem-plo 2

Ejercicio 4 Realizar el histograma de la siguiente distribucion:

Valores Frecuencias2 - 4 254 - 6 366 - 9 48

9 - 13 61

3. Medidas de Posicion

Las medidas de posicion central o promedios, son valores alrededor de los cuales seagrupan los valores de la variable. Estos valores pueden ser mas o menos representativosy nos permiten comparar distintas muestras.

Las medidas de posicion central mas utilizadas son la media aritmetica, la medianay la moda.

3.1. Media aritmetica

Consideramos una variable X que toma los valores distintos x1, x2, ...xk con fre-cuencias n1, n2, ..., nk respectivamente haciendo un total de N datos.

La media aritmetica se define como la suma de todos los valores de la distribucion,dividida por el numero total de observaciones. Se denota x:

x =x1n1 + x2n2 + · · ·+ xknk

N=

k∑i=1

xini

N=

k∑i=1

xifi

Es claro que solo es valida para caracteres cuantitativos. La media es un numero quese encuentra siempre entre los valores extremos de la variable y se considera el centrode gravedad de las observaciones, en el sentido de que la suma de las diferencias de lasobservaciones respecto de la media es cero. Por otro lado, tiene como inconveniente lainfluencia que, sobre ella, ejercen de los valores extremos de la distribucion. Para evitaresto, a veces, se utiliza la trimedia o media recortada al 5 %.

7

Page 8: Tema matematicas 2 estadistica

Ejercicio 5 Calcula la media de la distribucion dada en el ejemplo 1

Ejercicio 6 Calcula la media en el ejercicio 4

Comportamiento de la media respecto a las transformaciones linealesSi x es la media de la variable X, entonces ax + b es la media aritmetica de la

variable aX + b.

Ejercicio 7 En una empresa los salarios correspondientes a cinco categorıas diferentesson los son los siguientes: 800, 1200, 1600, 2000, 2400. Calcula la media de los mismos.

3.2. Moda

La moda es el valor de la variable que presenta mayor frecuencia. Puede no serunica, incluso no existir. Puede usarse incluso con variables cualitativas y viene asolucionar el problema que tiene la media cuando no coincide con ningun valor de lavariable o cuando interesa destacar la frecuencia de los valores de la misma.

Ejemplo. Calcula la moda de los siguientes datos: { 2, 2, 5, 7, 7, 7, 9, 9, 10}Ejemplo. Calcula la moda de los siguientes datos: { 1, 2, 3, 5}Ejemplo. Calcula la moda de los siguientes datos: { 1, 1, 4, 5, 7, 8, 8, 9}

Li−1 LiMo

hi+1

hi

hi−1 C

B

A

D

E

F

G

En el caso de valores agrupados en intervalos, se toma como intervalo modal

el de mayor altura (hi =ni

ai

) en el histograma, y se calcula

Mo = Li−1 +δ1

δ1 + δ2ai, donde δ1 = hi − hi−1 y δ2 = hi − hi+1

Ejercicio 8 Calcula de dos formas distintas (datos agrupados y sin agrupar) la modadel ejercicio 2.

Ejercicio 9 Calcula la moda de la distribucion dada en el ejercicio 4

8

Page 9: Tema matematicas 2 estadistica

3.3. Mediana

La mediana es el valor de la variable que ocupa el centro de las observacionescuando estan ordenadas de forma creciente o decreciente. Es decir, deja el mismonumero de obsevaciones por encima que por debajo de el.

Si la variable es discreta y el numero de observaciones N es impar, la mediana esel valor central, mientras que si es par, sera la media aritmetica de los dos valorescentrales.

Ejemplo. La mediana de los siguientes datos: { 1, 2, 4, 5, 7} es Me= 4

Ejemplo. La mediana de { 1, 2, 3, 4, 5, 6, 7, 8} es Me=4 + 5

2= 4,5

Li−1 LiMe

N/2

Ni

Ni−1A B C

E

D

x

En el caso de valores agrupados en intervalos, se contempla primero el inter-valo que contenga a la mediana (Intervalo mediano: [Li−1, Li]), para posteriormenteinterpolar en el mediante la formula

Me = Li−1 +N/2−Ni−1

ni

ai

Esta medida tiene la ventaja respecto de la media aritmetica de ser menos sensiblea los valores extremos de las observaciones.

Ejercicio 10 Calcula de dos formas distintas (datos agrupados y sin agrupar) la me-diana del ejemplo 2.

3.4. Cuantiles

Los cuantiles son medidas no centrales, que dividen a la poblacion en partes y nospermiten conocer la posicion de un valor de la variable respecto de los demas.

Los cuantiles de orden q son q − 1 valores (Q1/q, Q2/q, ..., Qq−1/q) que dividen ladistribucion en q partes con el mismo numero de observaciones. En general un cuantildivide a la poblacion en dos partes de tal manera que una proporcion de la poblaciones menor que el y el resto mayor.

9

Page 10: Tema matematicas 2 estadistica

Distinguimos tres tipos de cuantiles:

Cuartiles: son 3 y dividen a la poblacion en 4 partes iguales. El primer cuartil Q1

es el que deja a su izquierda la cuarta parte de la poblacion que es menor que el y elresto mayor; el segundo cuartil Q2 coincide con la mediana y el tercero Q3 deja a suizquierda las tres cuartas partes de la poblacion que son menores que el.

Deciles: son 9 y dividen a la poblacion en 10 partes iguales. Se llama d-esimo decilDd al valor tal que 10d% de las observaciones son menores o iguales que el y el restomayores (d = 1, 2, ..., 9):

D1, D2, ..., D5 = Me, ..., D9

Percentiles o Centiles: son 99 y dividen a la poblacion en 100 partes iguales.Llamamos percentil k-esimo Pk al valor tal que k% de las observaciones son menoreso iguales que el y el resto mayores (k = 1, 2, ..., 99):

P1, P2, ..., P10 = D1, ..., P25 = Q1, ..., P50 = Me, ..., P99

En el caso de valores agrupados en intervalos, para calcular el percentil k-esimo

se elige el intervalo que contiene al valor Nk

100que buscamos y se calcula

Pk = Li−1 +N k

100−Ni−1

ni

ai

Li−1 LiPk

N k100

Ni

Ni−1A B C

E

D

x

Ejercicio 11 Calcula algunos cuantiles para el ejemplo 2.

4. Medidas de dispersion

Una medida de posicion central reduce la informacion de la poblacion a un solodato. Sin embargo, no siempre caracteriza perfectamente la distribucion. Sera mas omenos representativa dependiendo de los valores de la variable y de dicha medida.

Las medidas de dispersion se utilizan para determinar lo agrupada o dispersa queesta una poblacion y por tanto si la medida de posicion central calculada, es represen-tativa.

10

Page 11: Tema matematicas 2 estadistica

En lo que sigue consideraremos la variableX que toma los valores distintos x1, x2, ...xk

con frecuencias respectivas n1, n2, ..., nk haciendo un total de N datos.

Ejemplo 3 La edad de dos grupos de individuos representados por las distribucionesunitarias X e Y se dan en la siguiente tabla

xi yi

Individuo 1 14 anos 2 anosIndividuo 2 16 anos 4 anosIndividuo 3 18 anos 5 anosIndividuo 4 20 anos 39 anosIndividuo 5 22 anos 40 anos

Suma de edades 90 anos 90 anosMedia aritmetica x = 18 anos y = 18 anos

Evidentemente los dos grupos son muy diferentes entre sı; uno corresponde a un grupode jovenes, mientras que el otro podrıa ser una familia con 3 hijos. Medidas de posicioncomo la media de edad, mediana, moda o cuantiles, no aportan suficiente informacionpara conocer adecuadamente la distribucion.

4.1. Rango

El rango o recorrido es la medida de dispersion mas simple y es la diferencia entreel mayor y menor valor de la variable.

En general, las medidas centrales seran tanto mas representativas cuanto mas pe-queno sea el recorrido.

Ejercicio 12 Calcula el rango en los ejemplos 1, 2 y 3.

En ocasiones, con objeto de evitar la influencia de los valores extremos de la variable,se utilizan otros rangos que corresponden a los distintos cuantiles:

Rango o intercuartılico: Diferencia entre el tercer y primer cuartil.Rango o interdecılico: Diferencia entre el decil 9 y el primer decil.Rango o intercentılico: Diferencia entre el percentil 99 y el primero.

Ejercicio 13 Calcula los rangos intercuartılicos en los ejemplos 1 y 2.

4.2. Desviacion media

Una medida de la dispersion de los datos de una muestra se puede obtener calcu-lando las distancias de cada uno de los datos a un valor p elegido previamente.

Generalmente tomaremos como parametro p una medida de tendencia central (me-dia o mediana).

La desviacion media respecto a un parametro p es la media aritmetica de las dis-tancias de las observaciones a dicho parametro p.

DM(p) =1

N

k∑i=1

|xi − p|ni =k∑

i=1

|xi − p|fi

11

Page 12: Tema matematicas 2 estadistica

Si tomamos como parametro p la media, hablaremos de desviacion media respectoa la media:

DM(x) =k∑

i=1

|xi − x|fi

Si tomamos como parametro p la mediana, hablaremos de desviacion media respectoa la mediana o desviacion mediana:

DM(Me) =k∑

i=1

|xi −Me|fi

Cuando los valores estan agrupados en intervalos xi seran las marcas de clase.

Ejercicio 14 Calcula la desviacion media en los ejemplos 1 y 2.

Ejercicio 15 Calcula la desviacion mediana en el ejercicio 4.

4.3. Varianza y desviacion tıpica

Son las medidas de dispersion mas utilizadas.Se define la varianza de un conjunto de datos como la media aritmetica de los

cuadrados de las desviacines de los datos respecto a la media.

σ2 =1

N

k∑i=1

(xi − x)2 ni =k∑

i=1

(xi − x)2 fi

El calculo de la varianza puede simplificarse mediante la siguiente formula queconsiste en efectuar la diferencia entre la media de los cuadrados y el cuadrado de lamedia:

σ2 =1

N

k∑i=1

x2ini − x2 =

k∑i=1

x2i fi − x2

Al elevar al cuadrado las desviaciones con respecto a la media, las unidades de lavarianza no son las mismas que las de los datos. Para compensar esto de algun modo,se calcula su raiz cuadrada. Ası, se define la desviacion tıpica como la raiz cuadradade la varianza.

σ =√σ2 =

√√√√ 1

N

k∑i=1

(xi − x)2 ni =

√√√√ 1

N

k∑i=1

x2ini − x2

Como se desprede de su definicion, la varianza y desviacion tıpica son numerospositivos. Si σ = 0 significa que las observaciones son iguales a la media. Luego, larepresentatividad de la media sera mayor cuanto mas pequena sea la desviacion tıpica.

Ejercicio 16 Calcula la desviacion tıpica de las dos distribuciones X e Y del ejemplo3

12

Page 13: Tema matematicas 2 estadistica

Para distribuciones cuya forma se aproxima a la distribucion normal, se puedeconsiderar que en el intervalo (x− σ, x+ σ) se encuentra entre el 60 % y el 75 % de lasobservaciones y hasta el 95 % en el intervalo (x− 2σ, x+ 2σ)

Ambos parametros (varianza y desviacion tıpica) son independientes del cambio deorigen, pero no de escala, es decir, si σ2 es la varianza de la variable X, entonces a2σ2

es la varianza de la variable aX + b.

4.3.1. Cuasivarianza y cuasidesviacion tıpica

En ciertas ocasiones se acostumbra a utilizar mas la cuasivarianza y cuasidesviaciontıpica.

La cuasivarianza es:

S2 =1

N − 1

k∑i=1

(xi − x)2 ni y se verifica que Nσ2 = (N − 1)S2

La cuasidesviacion tıpica se define como la raız cuadrada de la cuasivarianza:

S =√S2

4.3.2. Variable tipificada

Llamaremos variable tipificada o estandarizada a aquella que tiene de media 0 y dedesviacion tıpica 1.

Utilizando la media y la desviacion tıpica de una variable X dada, podemos consi-derar una nueva variable:

Z =X − xσ

, es decir, zi =xi − xσ

Esta nueva variable Z tipificada, es adimensional (independiente de las unidadesutilizadas) y mide la desviacion de la variable X respecto de su media en terminos desu desviacion tıpica. Por ello, resulta muy util para comparar distribuciones.

Ejercicio 17 Un estudiante obtubo 84 puntos en el examen final de Estadıstica, en elque la nota media fue 76 y la desviacion tıpica 10. En el examen final de Fısica obtuvo90 puntos, siendo la media 82 y la desviacion tıpica 16. Aunque en las dos asignaturasestuvo muy por encima de la media, ¿en cual sobresalio mas?

4.4. Coeficiente de variacion

Coeficiente de variacion de Pearson es el cociente entre la desviacion tıpica yla media:

CV =σ

|x|Este coeficiente pierde representatividad cuando la media se acerca a cero. Mide la

dispersion relativa de la poblacion y es independiente de la unidad de medida o cambio

13

Page 14: Tema matematicas 2 estadistica

de escala; por tanto, permite establecer comparacion entre las dispersiones de muestrasque vengan expresadas en distintas unidades.

En ocasiones, para poder trabajar con porcentajes, este coeficiente es multiplicadopor 100.

En general, se define el coeficiente de variacion media respecto un promedio p comosigue:

CVM(p) =DM(p)

|p|Analogamente a lo dicho en la desviacion media, se suele elegir como parametro p lamedia o la mediana.

Ejercicio 18 Calcula el coeficiente de variacion de Pearson de las dos distribucionesX e Y del ejemplo 3. ¿Que puede decirse de la representatividad de la media en cadauno de los dos grupo?

Ejercicio 19 Se ha aplicado un mismo test a dos grupos de alumnos A y B. Losresultados obtenidos han sido respectivamente xA = 38, σA = 7 y xB = 38, σB = 7.¿Que grupo tiene mayor dispersion?

5. Medidas de forma

Estas medidas nos dan una idea de la forma de la distribucion sin necesidad derealizar su representacion grafica (diagrama de barras o histograma).

Dichas medidas comparan aspectos de la representacion grafica de la variable (si-metrıa y apuntamiento) con la curva normal o campana de Gauss que nos sirve comomodelo.

Figura 1: Campana de Gauss, variable no agrupada y agrupada en intervalos respecti-vamente

5.1. Medidas de simetrıa

Las medidas de simetrıa se orientan a establecer un indicador que permita establecerel grado de simetrıa o asimetrıa que presenta la distribucion sin necesidad de llevar acabo su representacion grafica.

14

Page 15: Tema matematicas 2 estadistica

Decimos que una distribucion de frecuencias es simetrica cuando los valores de lavariable que equidistan de un valor central tienen las mismas frecuencias. En este casose verifica:

x = Me = Mo

En caso de no ser simetrica se dice asimetrica. La asimetrıa puede darse a derechao a izquierda.

Una distribucion se dice asimetrica a derecha o positiva si las frecuencias presentanuna cola a derecha. Es decir, si descienden mas lentamente por la derecha.

x ≥Me ≥Mo

Una distribucion se dice asimetrica a izquierda o negativa si las frecuencias presen-tan una cola a izquierda. Es decir, si descienden mas lentamente por la izquierda.

x ≤Me ≤Mo

A continuacion damos dos coeficientes o indicadores del grado de simetrıa de unadistribucion sin necesidad de representarla.

• Coeficiente de asimetrıa de PearsonLa siguiente formulacion se puede aplicar a las distribuciones con un numero impar

de modas, siendo Mo la moda central.

Ap =x−Mo

σAp > 0 Asimetrıa a derecha o positivaAp = 0 Puede ser SimetrıaAp < 0 Asimetrıa a izquierda o negativa

Ejercicio 20 Utilizar el coeficiente de Pearson para determinar el sesgo en los ejem-plos 1 y 2.

15

Page 16: Tema matematicas 2 estadistica

• Coeficiente de asimetrıa de Fisher

AF =m3

σ3siendo m3 =

1

N

k∑i=1

(xi − x)3 niAF > 0 Asimetrıa a derecha o positivaAF = 0 Puede ser SimetrıaAF < 0 Asimetrıa a izquierda o negativa

Ejercicio 21 Utilizar el coeficiente de Fisher para determinar el sesgo en los ejemplos1 y 2.

Notar que toda distribucion simetrica tiene nulo el coeficiente de asimetrıa, pero elrecıproco no es cierto, es decir, existen distribuciones asimetricas para las que el ındicede asimetrıa, es nulo.

5.2. Medidas de apuntamiento o curtosis

El apuntamiento o curtosis mide el grado de acumulacion de frecuencias en tornoa la zona central. Es decir, si la grafica de la distribucion es mas o menos apuntadao aplastada que la de la distribucion normal (Campana de Gauss) con igual media yvarianza.

Coeficiente de curtosis

g2 =m4

σ4siendo m4 =

1

N

k∑i=1

(xi − x)4 nig2 > 3 Mas apuntamiento que la normal : leptocurticag2 = 3 Igual apuntamiento que la normal : mesocurticag2 < 3 Menos apuntamiento que la normal : platicurtica

A veces se define K = g2 − 3 para comparar con 0.

Ejercicio 22 Utilizar este coeficiente para determinar la curtosis en los ejercicios 1 y2.

16

Page 17: Tema matematicas 2 estadistica

6. Relacion de ejercicios

1. Responde a las siguientes preguntas:

a) Sobre la base de una encuesta se llego a la conclusion que el 10 % de losespanoles que viajaron al extranjero durante el ano 2005 prefirieron no con-tratar ningun seguro de viaje. ¿Se llego a esa conclusion a partir de unamuestra o de una poblacion?

b) El 15 % de las matriculaciones realizadas en Espana durante los ultimos cincoanos fueron de una determinada marca comercial. ¿Se llego a esa conclusiona partir de una muestra o de una poblacion?

2. Para cada uno de los siguientes conjuntos de datos, indica si son cualitativos ocuantitativos y describe las distintas modalidades.

a) Superficie de los cincos continentes

b) Numero de miembros de una familia

c) Estado civil de una persona

d) Marcas de ordenadores utilizados por 100 estudiantes de Ingenierıa

e) Precio medio por metro cuadrado de la vivienda en cuatro ciudades espanolas:Madrid, Barcelona, Santander, Logrono.

3. Las calificaciones obtenidas por 80 alumnos de una clase en la asignatura dematematicas ha sido las siguientes:

Notas 0 1 2 3 4 5 6 7 8 9 10Alumnos 4 5 6 9 12 15 10 8 5 4 2

Se pide

a) Frecuencias absolutas, relativas y acumuladas.

b) Porcentaje de alumnos suspensos.

c) Porcentaje de alumnos con calificacion de notable.

d) Numero de alumnos aprobados.

e) Diagrama de barras y polıgono de frecuencias.

4. Los siguientes datos corresponden al numero de pasajeros de 28 autobuses cuandosalen de la terminal del centro de una ciudad con destino a realizar un City Tour.Los autobuses tienen 49 asientos cada uno y los pasajeros adicionales deben viajarde pie.

52 50 38 42 48 55 52 51 36 47 52 53 57 5635 36 58 49 46 50 49 52 38 41 55 48 59 49

a) Sintetiza los datos en una tabla, agrupandolos en intervalos de amplitud 5.

17

Page 18: Tema matematicas 2 estadistica

b) Calcula las frecuencias acumuladas y acumuladas relativas.

c) ¿Cuantos autobuses llevan pasajeros de pie por no tener asientos disponibles?

d) ¿Cuantos autobuses llevan como maximo 44 pasajeros?

e) ¿Cuantos autobuses llevan al menos 40 pasajeros?

f) ¿Que porcentaje de autobuses llevan entre 45 y 49 pasajeros?

g) Representa el histograma y el polıgono de frecuencias.

5. De un examen realizado a un grupo de alumnos, cuyas notas se han evaluado del1 al 8, se ha obtenido el siguiente cuadro estadıstico:

xi ni Ni fi Fi

1 4 0,082 43 16 0,164 7 0,145 5 286 387 7 45 0,148

Se pide:

a) Rellenar la tabla estadıstica.

b) Numero de alumnos que se han examinado.

c) Numero de alumnos que han obtenido una nota superior a 3.

d) Porcentaje de alumnos que han sacado una nota igual a 6.

e) Porcentaje de alumnos que han sacado una nota inferior a 4.

f) Numero de alumnos que han obtenido una nota superior a 2 e inferior a 5.

g) Diagrama de frecuencias relativas acumuladas.

6. Comprueba que la suma de las desviaciones de todos los valores respecto a sumedia aritmetica es cero:

1

N

k∑i=1

(xi − x)ni =k∑

i=1

(xi − x)fi = 0

Aplıcalo a la siguiente distribucion

xi 1 2 3 4 5ni 5 7 4 1 8

18

Page 19: Tema matematicas 2 estadistica

7. Los siguientes valores corresponden al tiempo que esperan para ser atendidos 15clientes de una companıa aerea (en minutos):

20, 25, 22, 20, 25, 20, 21, 22, 22, 24, 23, 20, 23, 20, 23

Obtener:

a) El tiempo medio de espera.

b) El tiempo maximo que espero el 50 % de los clientes.

c) El tiempo mas frecuente de espera.

8. Los viajes en avion realizados por los gerentes comerciales de 50 cadenas hotelerasdistribuidas por Europa durante un mes se recogen en la siguiente tabla:

Li−1 − Li ni

[40, 100) 10[100, 200) 20[200, 500) 15[500, 1000] 5

Realiza el histograma y calcula la mediana y la moda.

9. Cien pequenos agentes de viaje se agrupan de acuerdo con su numero de clientesen la siguiente distribucion:

Li−1 − Li [0, 2] (2, 3] (3, 5] (5, 7] (7, 10] (10, 15]ni 20 30 20 15 10 5

Calcula la mediana y la moda.

10. Dada la siguiente tabla de frecuenias

xi ni Ni Porcentaje1 62 11 12,53 94 275 10 256 7,5

Completa la tabla y halla el tercer cuartil, el septimo decil y el percentil 99.

11. Una variable X tiene por polıgono acumulativo de frecuencias absolutas el dadoen la figura. Se pide:

a) Realiza una tabla estadıstica con los distintos intervalos, frecuencias absolutasy relativas y frecuencias acumuladas.

19

Page 20: Tema matematicas 2 estadistica

b) Percentil en el que esta el valor 182.

12. Medido el coeficiente intelectual de un grupo de 100 alumnos se han obtenidolos siguientes resultados

C. I. 61− 69 69− 77 77− 85 85− 93 93− 101 101− 109 109− 117 117− 125N0 alum. 2 10 12 20 25 18 9 4

Se pide calcular.

a) La media, la mediana y la moda.

b) Percentil correspondiente al coeficiente 90. Idem con 105.

c) ¿Que tanto por ciento del total representan los alumnos con coeficiente inte-lectual comprendido en el intervalo (90, 105)?

13. Se ha medido el numero de pulsaciones que tienen los jugadores de las plantillasde dos equipos de futbol antes de un entrenamiento. Los resultados obtenidos sereflejan en la tabla siguiente:

N0 de pulsaciones 45− 49 49− 53 53− 57 57− 61 61− 65 165− 69N0 de jugadores 3 3 8 10 12 8

Se pide calcular:

a) La media, la mediana y la moda.

b) Valor correspondiente al percentil 24 y percentil 79.

20

Page 21: Tema matematicas 2 estadistica

c) Numero de jugadores con pulsaciones comprendidas entre 50 y 64.

d) Porcentaje de jugadores que superan las 60 pulsaciones.

14. Calcula la desviacion media y la desviacion mediana de una distribucion defrecuencias que toma los siguientes valores: 1, 6, 8 y 9.

15. Se ha revisado un lote de 1000 piezas esmaltadas, obteniendose el numero dedefectos que se indica en la siguiente tabla:

N0 de defectos 0 1 2 3 4Frecuencia 600 310 75 13 2

Determina la media, la desviacion media y la desviacion tıpica de la distribucion.

16. Calcula la varianza y la desviacion tıpica de los siguientes datos: 4, 6, 10, 16.

17. ¿Cuales son los datos de una muestra sabiendo que N = 2, x = 2,625 y σ =1,125?

18. Un fabricante de tubos de television tiene dos tipos de tubos, A y B. Los tubostienen unas duraciones respectivas de 1495 y 1875 horas, y desviaciones tıpicasde 280 y 310 horas. ¿ Que tubo tiene la mayor dispersion absoluta?, ¿y dispersionrelativa?

19. A un grupo de de 10 alumnos se les hizo una prueba de razonamiento y otra dehabilidad. Calcula en que prueba hubo mayor variabilidad de resultados, sabiendoque estos fueron:

Razonamiento 40 38 65 56 16 55 28 62 32 48Habilidad 36 18 54 47 21 56 68 70 72 38

20. Los vecinos de una finca urbana se han tallado y pesado, obteniendo los siguien-tes resultados

Talla Pesox = 1,68 m y = 68,5 kgrσx = 0,5 m σy = 6,5 kgr

¿Donde existe mayor dispersion?

21. En la siguiente tabla se presentan las puntuaciones obtenidas por los 8 partici-pantes en las pruebas de paralelas y por 6 participantes en la prueba anillas enuna competicion gimnastica.

Paralelas 9, 45 9, 55 9, 05 9,65 9,25 9,85 9,70 9,40Anillas 9,50 9, 60 9, 10 9,50 9,00 9,05

21

Page 22: Tema matematicas 2 estadistica

¿En cual de las dos pruebas tiene mejor nivel el participante con puntuacionesrepresentadas en negrita? ¿En que grupo de puntuaciones existe mayor variacion?

22. Halla el coeficiente de asimetrıa de Pearson de la siguiente distribucion e inter-preta el resultado

xi 1 2 3 4 5ni 1 2 4 10 3

23. Determinar los valores de la media aritmetica y de la desviacion tıpica de un con-junto de observaciones con moda Mo = 2, 3, coeficiente de asimetrıa de PearsonAp = 0, 2 y coeficiente de variacion CV = 0, 4

24. En la siguiente distribucion de frecuencias calcula los coeficientes de asimetrıade Fisher y el de curtosis. Interpreta los resultados obtenidos.

Intervalos 0− 1 1− 2 2− 3 3− 4 4− 5ni 10 11 12 9 8

25. Una variable X tiene por polıgono acumulativo de frecuencias absolutas el dado

en la figura. Se pide:

a) Realiza una tabla estadıstica con los distintos valores, frecuencias absolutasy frecuencias acumuladas.

b) Halla el tercer cuartil, ası como el porcentaje de valores que estan en el inter-valo (x− σ, x+ σ).

c) Valora la simetrıa de la distribucion mediante un coeficiente apropiado.

22

Page 23: Tema matematicas 2 estadistica

26. Se han medido los pesos de un conjunto de futbolistas despues de realizar unpartido. Los datos obtenidos son.

Peso (en Kg) 70− 74 74− 78 78− 82 82− 86 86− 90 90− 94N0 de jugadores 3 3 7 10 12 5

a) Calcula la mediana y moda. Halla el valor correspondiente al percentil 15.Interpreta este ultimo valor.

b) ¿Cuantos futbolistas tienen un peso entre 79 y 88 Kg? ¿En que percentilesta un futbolista con un peso de 90 kgs? ¿Que porcentaje de deportistastienen un peso superior a este ultimo?

27. En el siguiente histograma se representa el numero de dıas de estancia de losclientes de un hotel.

a) Realiza una tabla estadıstica con los distintos intervalos, frecuencias absolutas,frecuencias acumuladas y densidad de frecuencia en cada intervalo.

b) Calcula la mediana y moda. Halla el valor correspondiente al primer cuartil

c) ¿Cuantos clientes tienen una estancia entre 5 y 15 dıas? ¿En que percentilesta un cliente con una estancia de 7 dıas? ¿Que porcentaje de clientestienen una estancia superior a 15 dıas?

28. Del ayuntamiento de un cierto pueblo se han obtenido los resultados siguientesque dan el numero de fincas agrıcolas en relacion con su superficie de explotacion(en Hectareas)

Superficie 0− 5 5− 10 10− 15 15− 20 20− 25N0 de fincas 1 10 4 4 1

23

Page 24: Tema matematicas 2 estadistica

a) Calcula la superficie media de explotacion y el porcentaje de fincas con unasuperficie superior a la media anterior.

b) Calcula la moda y el percentil 70. Interpreta estos valores.

c) Si se esta pensando en edificar el terreno de las fincas que sobrepasan las 16Hectareas, calcula el porcentaje de fincas que no estan en esta situacion.¿En que percentil se encuentra una finca cuya superficie es de 16 Ha.?

29. Una empresa decide ampliar su actual plantilla de trabajadores y para ellosomete a un tes a 80 aspirantes. Las puntuaciones obtenidas por estos se resumenen la siguiente tabla:

Puntuaciones 0− 20 20− 40 40− 60 60− 80 80− 100N0 de aspirantes 5 15 30 18 12

a) Calcula la media, mediana y moda interpretando los valores obtenidos.

b) Si de momento se decide contratar al 25 % de los aspirantes con mayor pun-tuacion ¿ cual sera la nota mınima requerida para ser contratado?

c) ¿En que percentil se encuentra un aspirante con 70 de puntuacion?

d) Valora la simetrıa de la distribucion mediante un coeficiente apropiado.

e) Con el fin de tener evaluados a todos los aspirantes de 0 a 10 en vez de 0a 100 como al principio, se dividen por 10 las calificaciones iniciales. ¿Deque forma afectarıa este hecho a la media y a la varianza de la distribucioninicial?

24