Apuntes Estadística Descriptiva

Embed Size (px)

DESCRIPTION

Estadística descriptiva

Text of Apuntes Estadística Descriptiva

1 "ESTADSTICA DESCRIPTIVA" 1.1 Parte bsica

2 1.1.1 Introduccin a la Estadstica 1.1.1.1 Concepto de Estadstica y Estadsticas La primera acepcin del trmino "Estadstica", que tiene origen histrico, hace referencia a una determinada informacin numrica; esta acepcin se encuentra cada da ms arraigada en nuestra sociedad debido al abultado conjunto de nmeros y cifras en el que se encuentra inmersa: P. I. B., ndices de precios, tasas de inflacin, evolucin del paro, cotizaciones burstiles, accidentes de circulacin, porcentajes de votantes, porcentajes de personas que padecen una determinada enfermedad, etc. Una segunda acepcin entiende la estadstica como una ciencia que facilita los mtodos precisos para la obtencin de informacin numrica, y que tambin proporciona mtodos de anlisis de esa informacin recogida y mtodos de investigacin aplicables al resto de las Ciencias. La primera se corresponde bsicamente con la estadstica descriptiva y la segunda con la estadstica inferencial. 1.1.1.2 Etapas del anlisis estadstico Las diversas fases por las que atraviesa el anlisis estadstico son: a) Recogida de datos, que no por ser elemental, est exenta de dificultades e indicaciones que hay que observar, ya que una recogida mal efectuada puede ocasionar un sesgo de la informacin y del posterior anlisis, por lo que el objeto de la investigacin debe plantearse de una manera minuciosa, as como la organizacin del trabajo de campo necesario para la recogida de datos. b) Ordenacin y presentacin de los datos, y que suele presentarse mediante unas tablas de simple o de doble entrada. c) Resumen de la informacin, para tratar de describir las caractersticas ms relevantes que pueden tener los datos, y que se realiza mediante la determinacin de parmetros estadsticos que intentan resumir toda la informacin que aporte el conjunto de datos.

3 d) Anlisis estadstico, a travs de mtodos facilitados por la Estadstica Matemtica, para tratar de verificar hiptesis sobre regularidades que pueden detectarse en las etapas previas. 1.1.1.3 Poblacin y muestra Recibe el nombre de Poblacin, Colectivo o Universo, todo conjunto de individuos o elementos que tienen unas caractersticas comunes. Dado que no siempre es posible estudiar todos los elementos de la poblacin, ya sea por razones econmicas, de rapidez de obtencin de la informacin, o porque los elementos se destruyen en el proceso de la investigacin, con frecuencia es necesario examinar slo una parte de la poblacin, que se denomina muestra; para que una muestra sea vlida como objeto de estudio, ha de ser representativa de la poblacin, es decir ha de tener las mismas caractersticas, en los caracteres estudiados, que la poblacin. 1.1.1.4 Caracteres de una poblacin Llamaremos variable al carcter objeto de estudio, que puede tomar distintos valores. Las variables pueden ser cuantitativa o cualitativas, segn que tomen, o no, valores cuantificables. Las variables de tipo cuantitativo, que estudian caracteres cuantificables, pueden clasificarse de diversas formas: variables discretas o continuas, segn que slo puedan tomar valores aislados o, por el contrario, todos los valores de un intervalo. 1.1.1.5 Tipos de escalas En determinado tipo de estudios, quiz tenga mayor relevancia diferenciar las variables segn el tipo de escala utilizada, distinguiendo: . Escala nominal: el carcter estudiado se clasifica en categoras no numricas, sin que puedan establecerse ninguna relacin de orden entre ellas,

4 por ejemplo: las profesiones laborales, el estado civil, la ideologa poltica, el sexo, etc. . Escala ordinal: el carcter estudiado es de tipo no numrico, pero se pueden establecer algn tipo de orden entre las distintas categoras. Este es el caso del nivel de estudios (primarios, medios, superiores), los tipos de clases sociales (baja, media, alta),etc. . Escala de intervalo: puede establecerse alguna unidad de medida y cuantificar numricamente la distancia existente entre dos observaciones. Es la escala cuantitativa, encontrndose en este caso gran nmero de variables entre ellas, como por ejemplo: salarios, presupuestos, gastos, etc. . Escala de proporcin: son aquellas variables en las que adems de una unidad de medida, se fija un punto origen, que marca el cero. En este tipo pueden considerarse la edad, el peso, el nmero de unidades en stock en un inventario, etc.

5 1.1.2 Variables estadsticas unidimensionales 1.1.2.1 Distribucin de frecuencias. Clases. Vamos a tratar ahora de estructurar y ordenar los conjuntos numricos de los datos obtenidos en la observacin de una muestra o poblacin para as poder proceder con ms facilidad a su estudio. Empezaremos estudiando las frecuencias en sus diversas clases: . Frecuencia absoluta: es el nmero de veces que se repite cada valor de la variable en el conjunto de todas las observaciones de la misma. En general la frecuencia absoluta del dato xi se representa por f i . Frecuencia relativa: es el cociente entre la frecuencia absoluta y el nmero total de datos u observaciones. El nmero total de datos lo representamos por n, y la frecuencia relativa del dato xi se representa por hi Se verifica por lo tanto: hi = fi/n . Frecuencia absoluta acumulada: es la suma de las frecuencias absolutas de los valores inferiores o iguales al considerado. Evidentemente los valores de la variable deben de estar ordenados en forma creciente. En general, la frecuencia absoluta acumulada del dato xi se representa por Fi Evidentemente, la ltima frecuencia absoluta acumulada coincide con el tamao de la muestra. Se verifica pues: Fi = f j j=1 i ! . Frecuencia relativa acumulada: es el cociente entre la frecuencia absoluta acumulada y el nmero total de datos u observaciones. Anlogamente a la anterior, los valores de la variable deben de estar ordenados en forma creciente, es decir, la escala debe de ser numrica o, al menos, ordinal.

6 La ltima frecuencia relativa acumulada es 1. Generalmente la frecuencia relativa acumulada del dato xi de la variable se representa por Fi, y verifica: Hi = Fi n = f j j=1 i !n 1.1.2.2 Propiedades de las frecuencias 1 La suma de las frecuencias absolutas coincide con tamao de la muestra: f i i ! = n 2 Todas las frecuencias absolutas son positivas y menores o iguales que n . 0 = fi = n 3 La suma de las frecuencias relativas es 1: hi i ! =1 4 Todas las frecuencias relativas son positivas y menores o iguales que 1: 0 = hi = n 5 La frecuencia absoluta acumulada correspondiente a un valor de la variable se obtiene sumando la frecuencia absoluta acumulada del valor anterior, con la frecuencia absoluta del dato. DISTRIBUCIN DE FRECUENCIAS Llamaremos distribucin de frecuencias al conjunto de los valores que toma una variable, junto con sus frecuencias correspondientes. As pues, para determinar una distribucin de frecuencias debemos conocer todos los valores xi de la variable y cualquiera de las columnas de frecuencias (pues el paso de una a otra es inmediato).

7 Distinguiremos dos tipos fundamentales de distribucin de frecuencias: las no agrupadas en intervalos y las agrupadas en intervalos. La distribucin de frecuencias no est agrupada en intervalos cuando cada valor de la variable tiene asociado su frecuencia. Pero ocurre frecuentemente, sobre todo en variables de tipo continuo, que el nmero de valores distintos que toma la variable es demasiado grande; en este caso, para mayor comodidad en el tratamiento de la informacin, parece aconsejable agrupar esos valores en intervalos, teniendo en cuenta que lo que ganamos en manejabilidad lo perdemos en informacin de la distribucin. En la agrupacin en intervalos hay que tener en cuenta tres aspectos: a) Que el mximo de informacin se obtiene en la recogida de datos y que sta se pierde al agrupar en intervalos. b) Las distribuciones agrupadas en intervalos no se presentan realmente as, sino que es el investigador el que las agrupa para manejar mejor los datos. c) Al agrupar hay que tener en cuenta las frecuencias. Un intervalo queda determinado por sus extremos y, en general, el intervalo isimo se representa por [Li-1,Li), donde Li es el extremo superior del intervalo y Li-1 el extremo inferior del mismo. Llamaremos amplitud del intervalo, ai, a la diferencia entre sus extremos superior e inferior: ai = Li - Li-1 Esta amplitud puede ser constante para todos los intervalos, o variable, aunque es ms cmodo que sea constante. Cuando un investigador decide agrupar los datos en intervalos se encuentra con dos cuestiones iniciales: 1.- Cmo se debe tomar la amplitud, constante o variable? 2.- Cuntos intervalos conviene tomar ? La respuesta a estas pregunta depende de la naturaleza del problema, y aunque hay muchas reglas escritas en los textos de estadstica, en la prctica suelen resultar estriles.

8 Posteriormente se hace un recuento de los datos que corresponden a cada intervalo, para determinar la frecuencia de cada uno de ellos. Aparece un problema cuando un dato coincide con alguno de los extremos de los intervalos; como regla general, se toman los intervalos cerrados por la izquierda y abiertos por la derecha [Li- 1,Li), es decir, se incluirn dentro del intervalo los datos que coincidan con el extremo inferior del mismo, y se excluirn de ste los que coincidan con su extremo superior, incluidos, por lo tanto, en el intervalo posterior. Para evitar este problema de incluir o no incluir los datos en los intervalos, los extremos se suelen tomar con un decimal ms que los de los datos, siendo, normalmente este decimal un 5. Por ltimo cabe destacar que tomaremos como representante de cada intervalo su punto medio, que denominaremos marca de clase, y designaremos por ci. As la marca de clase del intervalo [Li-1,Li) ser: ci = Li!1 + Li 2 EJEMPLO 1.1: Investigados los precios por habitacin de 50 hoteles de una ciudad, se han obtenido los siguientes resultados: 7000 3000 5000 4000 5000 7000 4000 7500 8000 5000 5000 500 3000 7000 10000 15000 5000 7500 12000 8000 4000 5000 3000 5000 10000 3000