15
1 Muestreo y Estadística Descriptiva (Apunte escrito por Osvaldo Ferreiro y Javiera Desormeaux) I. Conceptos y Técnicas de Muestreo Para entender el trabajo de la Estadística, es necesario entender su sentido y carácter. Para algunos, la Estadística es la ciencia que estudia la variabilidad, es decir, el cambio entre los datos. Vivimos en un mundo lleno de variabilidad, donde las diferentes “medidas” toman diferentes valores para diferentes personas y elementos. Dichas personas y elementos son integrantes de “Poblaciones” o “Muestras”. Todo estudio estadístico está finalmente referido a una “Población”. Sin embargo, es muy común no poder obtener los valores de la población completa (hacer un “buen censo”), como desearíamos, y nos tenemos que conformar con obtener una “buena muestra”. Es importante aclarar, desde ya, que tener una “buena muestra” es mejor (en realidad, mucho mejor) que tener un “mal censo”. Como la gran mayoría de los estudios estadísticos están basados en muestras, es necesario estudiar los métodos o metodologías para la selección de muestras. Una vez que sabemos cómo obtener buenas muestras, tenemos entonces los “datos” ya sea provenientes de un censo o de una muestra. Necesitamos así, extraer y resumir la información contenida en ellos. Esto es tarea de la Estadística Descriptiva (también llamada a veces “Análisis de datos”). Si hemos estado trabajando en base a un censo, al realizar los estudios de Estadística Descriptiva hemos terminado el estudio estadístico. Desgraciadamente es muy poco habitual que podamos contar con un buen censo, sino solamente con los datos correspondientes a una muestra (generalmente de menos de un 1% de la población de interés). En tales casos, es necesario aplicar técnicas de la Inferencia Estadística para poder “extender” los resultados de la muestra a la población. Desde ya es importante señalar que pasar los resultados de la muestra directamente a la población, práctica que resulta muy habitual tanto en organizaciones, gobierno y especialmente en los medios de comunicación, es inapropiada y puede llevar a conclusiones erróneas. Muestreo Antes de entrar en el estudio de las metodologías de muestreo, debemos conocer qué es una POBLACION y una MUESTRA. Definiciones: - Población: conjunto de elementos sobre los cuales interesa obtener conclusiones en un estudio - Muestra: subconjunto de elementos de la población, el cual es realmente observado Habitualmente necesitamos tomar una muestra “representativa” de la población bajo estudio. Nos preguntamos en qué consiste dicha condición. En una primera

Apuntes Muestreo y Estadística Descriptiva (1)

Embed Size (px)

DESCRIPTION

math

Citation preview

Page 1: Apuntes Muestreo y Estadística Descriptiva (1)

1

Muestreo y Estadística Descriptiva (Apunte escrito por Osvaldo Ferreiro y Javiera Desormeaux)

I. Conceptos y Técnicas de Muestreo

Para entender el trabajo de la Estadística, es necesario entender su sentido y carácter. Para algunos, la Estadística es la ciencia que estudia la variabilidad, es decir, el cambio entre los datos. Vivimos en un mundo lleno de variabilidad, donde las diferentes “medidas” toman diferentes valores para diferentes personas y elementos. Dichas personas y elementos son integrantes de “Poblaciones” o “Muestras”. Todo estudio estadístico está finalmente referido a una “Población”. Sin embargo, es muy común no poder obtener los valores de la población completa (hacer un “buen censo”), como desearíamos, y nos tenemos que conformar con obtener una “buena muestra”. Es importante aclarar, desde ya, que tener una “buena muestra” es mejor (en realidad, mucho mejor) que tener un “mal censo”. Como la gran mayoría de los estudios estadísticos están basados en muestras, es necesario estudiar los métodos o metodologías para la selección de muestras. Una vez que sabemos cómo obtener buenas muestras, tenemos entonces los “datos” ya sea provenientes de un censo o de una muestra. Necesitamos así, extraer y resumir la información contenida en ellos. Esto es tarea de la Estadística Descriptiva (también llamada a veces “Análisis de datos”). Si hemos estado trabajando en base a un censo, al realizar los estudios de Estadística Descriptiva hemos terminado el estudio estadístico. Desgraciadamente es muy poco habitual que podamos contar con un buen censo, sino solamente con los datos correspondientes a una muestra (generalmente de menos de un 1% de la población de interés). En tales casos, es necesario aplicar técnicas de la Inferencia Estadística para poder “extender” los resultados de la muestra a la población. Desde ya es importante señalar que pasar los resultados de la muestra directamente a la población, práctica que resulta muy habitual tanto en organizaciones, gobierno y especialmente en los medios de comunicación, es inapropiada y puede llevar a conclusiones erróneas. Muestreo Antes de entrar en el estudio de las metodologías de muestreo, debemos conocer qué es una POBLACION y una MUESTRA. Definiciones:

- Población: conjunto de elementos sobre los cuales interesa obtener conclusiones en un estudio

- Muestra: subconjunto de elementos de la población, el cual es realmente observado

Habitualmente necesitamos tomar una muestra “representativa” de la población bajo estudio. Nos preguntamos en qué consiste dicha condición. En una primera

Page 2: Apuntes Muestreo y Estadística Descriptiva (1)

2

verbalización del concepto diríamos que una muestra representativa es aquélla que contiene una parte de todos los elementos esenciales de la población. No obstante, como se puede apreciar, esta definición no parece precisa. Una forma más precisa para hablar del tema es señalar que una muestra es representativa de la población en estudio si logra capturar (contener) la variabilidad en ella. Lo ideal es que las muestras sean tomadas con participación del azar (muestras aleatorias). Las razones para ello son de dos tipos: las muestras posibles son muchísimas más de las que nos imaginamos (y por ello debemos ayudarnos del azar para dar posibilidad a todas ellas), y los seres humanos siempre tenemos preferencias que ejercemos incluso inconscientemente. Al ejercer nuestras preferencias, que en otras ocasiones puede ser razonable y preferible, en el caso de la selección de una muestra representativa resulta inconveniente pues más bien nos conduce a la selección de una muestra “sesgada”. Metodologías de Muestreo Es muy conveniente que el muestreo sea aleatorio, es decir, con participación del azar. A modo de ejemplo, los precios y rendimientos de las acciones de la bolsa varían al azar, de igual manera que el comportamiento de los electrones, átomos y moléculas es aleatorio, es decir, no nos permiten predecir con certeza qué es lo que va a pasar, sino que sólo podemos determinar la probabilidad de que algo específico ocurra. En realidad, podemos distinguir dos “tipos” de azar: Azar “Caótico” y Azar con Regularidad. El primer caso corresponde a la situación en que todas las posibilidades pueden suceder con igual “chance” (más adelante le llamaremos “probabilidad”) y, en consecuencia, no hay ninguna forma científica de predecir el resultado a ocurrir pues no existe resultado más probable. En esta situación, tampoco podemos aprender de repeticiones pasadas del “experimento o fenómeno” aleatorio (“con participación del azar”). Distinto es el caso cuando se trata de “azar con regularidad”. A diferencia de los juegos de azar, que para que sean justos en su mayoría corresponden a azar caótico, las situaciones de la vida ordinaria y profesional son, en una inmensa mayoría, correspondientes al segundo tipo mencionado. Así, existen resultados de mayor chance de aparición que otros y hay base científica para realizar una predicción, aunque por tratarse de un fenómeno o experimento aleatorio, no puede estar excente de posibilidad de error. Para mayor explicación, el azar caótico se refiere a que no hay razón alguna para elegir un resultado determinado, en otras palabras, sólo se tienen preferencias o “tincadas”. Un caso interesante es el llamado juego del LOTO que se juega en Chile, organizado por la Polla Chilena de Beneficiencia. En dicho concurso, en su versión más simple, el participante necesita seleccionar 6 números de entre los primeros 39 enteros positivos (1 a 39). Como aprenderemos a determinar más adelante, existen 3.262.623 selecciones posibles de seis números. Cada una de ellas tienen la misma chance (probabilidad) de ser seleccionada en el momento del sorteo. No obstante, la mayor parte de los concursantes creen, equivocadamente, que las selecciones sin números seguidos tiene mayor chance de ganar. Este error proviene del hecho de que salen usualmente selecciones sin números repetidos pero ello se debe a que eswte tipo de combinaciones

Page 3: Apuntes Muestreo y Estadística Descriptiva (1)

3

son muchísimas más (¡también aprenderemos a comprobarlo!). Los participantes suelen escoger un cartón de números separados; suponiendo que la apuesta fue acertada, el premio se reparte habitualmente entre varios jugadores dado que muchos personas apostaron por números separados. En la práctica, maximiza la probabilidad de llevarse un premio muy grande un concursante que apostara a una combinación que no excluyese números consecutivos. En este juego, hay en realidad dos probabilidades distintas actuando:

1. Probabilidad de que una determinada selección de seis números resulta efectivamnete ganadora. Esta probabilidad es la misma para todos las selecciones posibles (1/3.262.623).

2. Probabilidad de ganar como único ganador, en caso de acertar la combinación ganadora. Esta probabilidad es distinta, como hemos comentado previamente, según las “opiniones” (no científicas) prevalecientes en el público.

La primera de estas dos probabilidades está asociada al concepto de azar caótico; en cambio, la segunda tiene claras componentes de azar “con regularidad”. Tipos de Muestreo (Aleatorio) Como hemos señalado previamente, es muy relevante que las muestras sean aleatorias o al menos pseudo-aleatorias. Este último caso corresponde a una situación en que no hay de nuestra parte un sorteo formal para seleccionarm los elementos de una muestra aleatoria, pero se puede pensar, con bastante confianza, que la “naturaleza” provee de una muestra aleatoria al materializar los elementos de la muestra. Un ejemplo de ello es la utilización de los pacientes que sufren una determinada enfermedad y que han sido internados o consultado en un hospital o clínica durante un período. Dicho conjunto de pacientes puede ser visto como una muestra pseudo-aleatoria de la población de pacientes de la enfermedad y de características (socioeconómicas, tipo de alimentación, etc.) similares a los que llegan a dicho centro de atención de salud. Es usual que este último tema pueda presentar una dificultad, pues existe la tentación de considerar al grupo como una muestra pseudo-aleatoria de la población de pacientes del país. En dicho caso, no se está fallando tanto con la selección de la muestra, sino más bien con la identificación de la población a que está referida. De acuerdo a lo señalado en el párrafo precedente, los cuatro tipos de muestreo que veremos a continuación, se denominan “aleatorios” y luego sus características específicas. 1. Muestreo Aleatorio Simple (M.A.S) El M.A.S ocurre cuando toda muestra posible de n elementos seleccionados de entre N tiene igual chance de ser seleccionada. Esto implica que cada elemento de la población de N elementos tiene igual probabilidad de participar en la muestra seleccionada. Gráficamente, un Muestreo Aleatorio Simple se puede representar de la siguiente manera: de una población de tamaño “N” se obtiene de forma aleatoria una muestra de tamaño “n” donde todos los elementos tienen la misma probabilidad de ser seleccionados (1/N)

Page 4: Apuntes Muestreo y Estadística Descriptiva (1)

4

Considerando una población de tamaño (finito) N

y la selección de una muestra de tamaño

n, y considerando como muestras distintas aquéllas

que difieran en al menos un elemento, se tiene: El número de muestras en un M.A.S se define:

)!(!

!

nNn

N

n

N

−=

, donde K! = K*(K-1)*(K-2)*…*2*1

Ejemplo: Con N=6 y n=4

15!2!4

!6 =⋅

muestras posibles

2. Muestreo Aleatorio Estratificado (M.A.E) El M.A.E ocurre cuando la población se puede dividir en estratos. Los estratos son grupos que se presumen más homogéneos que la población en general, es decir, que presentan una menor variabilidad, o son subgrupos de comportamientos muy diferentes. El M.A.E viene de una M.A.S en cada estrato y se reúnen en la muestra total. Los estratos se pueden formar en base a “variables estratificadoras”, tales como: género, comuna, nivel educacional, nivel socioeconómico, etc. Es muy habitual que el M.A.E sea “proporcional”: ocurre cuando cada estrato representa en la muestra la misma proporción que en la población. Se busca que la muestra sea representativa de la población. Tenemos una población de N elementos, formada por K estratos, de tamaños N1,N2,...,Nk , respectivamente. En el M.A.E escogemos n elementos, con n1,n2,...,nk elementos de los repectivos estratos; entonces el número de muestras posibles es:

N1

n1

N2

n2

⋅ ...⋅

Nk

nk

Para el caso proporcional, el número de muestras posibles corresponde a:

n1

N1

=n2

N2

= ...=nk

Nk

=n

N

Page 5: Apuntes Muestreo y Estadística Descriptiva (1)

5

Gráficamente, un Muestreo Aleatorio Estratificado se representa de la siguiente manera: se divide a una población de tamaño “N” en distintos estratos. Luego, en cada estrato se selecciona una muestra de tamaño n a través de un muestreo aleatorio simple. Por ejemplo, se divide a la población según el grupo socioeconómico y luego se seleccionan hogares (muestra representativa) de cada grupo.

La figura muestra una población formada por dos estratos, de los que se obtiene una M.A.S de elementos de cada uno Ejemplo: ¿cuántas muestras posibles hay? ¿Serán las mismos que en el caso del M.A.S? ¿Por qué? Supongamos que en una población de 175 personas, las mujeres (M) y los hombres (H) pueden ser de estatura alta (A) o estatura baja (B). Podemos considerar 4 estratos: MA, HA, MB y HB, con tamaños respectivos –número de personas integrantes- 60, 70, 20, 25. Imaginemos una muestra aleatoria estratificada –aproximadamente “proporcional”- de n=12 personas, con tamaños respectivos por estrato de 4, 5, 1 y 2 personas. La figura ilustra la situación:

Nº de formas de elegir 4 MA:

4

60; Nº de formas de elegir 5 HA:

5

70

Nº de formas de elegir 1 MB:

1

20; Nº de formas de elegir 2 HB:

2

25

Nº de formas de elegir la m.a.e.:

4

60.

1

20.

5

70.

2

25= 16105,3 ⋅

MA HA 60 70 (4) (5) MB HB 20 25 (1) (2)

Page 6: Apuntes Muestreo y Estadística Descriptiva (1)

6

Las muestras de diferentes estratos son independientes y por ello los números de muestras correspondientes a estratos distintos se multiplican. El número de muestras aleatorias estratificadas es distinto al número de muestras aleatorias simples. Esto es porque en una primera instancia se definen los estratos y luego se extrae una M.A.S de cada estrato; entonces por contrucción, el número de muestras aleatorias estratificadas es más pequeño que para el caso de las simples. 3. Muestreo Aleatorio Sistemático Para un Muestreo Aleatorio Sistemático se debe tener un orden de los elementos de la población, como por ejemplo la edad. Consideremos que la población tenga N elementos y que se necesita escoger una muestra aleatoria de tamaño n. Se puede definir el “paso” del muestreo como:

k =N

n

(Esto es la “parte entera” del cuociente N

n, ejemplos:

5,4[ ]= 5; 12,2[ ]= 12; −3,6[ ]= −4; −7,1[ ]= −8 ) Definido el “paso” k, se sortea un valor entero “l” entre 1 y k. Así, se observan los valores de órdenes l, l+k, l+2k,…, l+(n-1)k. De allí el nombre de muestreo (aleatorio) sistemático. Se puede tener k muestras sistemáticas diferentes. Ejemplo: Para una población de 30756 elementos y debiendo obtener una muestra aleatoria estratificada de 250 elementos, tenemos

k = N

n

=

30576

250

= 122,304[ ]= 122(paso)

Se obtienen 250 grupos de 122 elementos cada uno; seleccionaremos una ficha de cada grupo, correspondiente al mismo orden dentro del grupo correspondiente. Ejemplo: siempre seleccionamos la ficha Nº L en cada uno de los 122 grupos. El número L

debiera haber sido seleccionado al azar entre los enteros 1 y 122. El paso de selección del muestreo aleatorio sistemático se calcula como la división entre el tamaño de la población y el tamaño de la muestra, tomándose la parte entera del resultado. Luego se hace un sorteo (que es aleatorio) y se elige un número para ser observado en cada grupo. Ejemplo: seleccionamos el 36 en cada grupo de 122 fichas. Es equivalente a observar las fichas de órdenes 36, 36+122, 36+122+122, etc. De allí el nombre de “paso” que recibe la constante k. Podemos seleccionar también 122 muestras distintas.

Page 7: Apuntes Muestreo y Estadística Descriptiva (1)

7

4. Muestreo Aleatorio por Conglomerados. En este caso se supone una población dividida en grupos (que llamaremos conglomerados), los que suponemos con la misma variabilidad que la población en general (usualmente a diferencia de los estratos). En este tipo de muestreo, se sortea un determinado número de conglomerados, los que son observdos completos. Siendo C el número de conglomerados en la población y e el número de conglomerados en la muestra, ¿Cuántas muestras posibles podemos tener?

)!(!

!

ece

C

e

C

−⋅=

ESTADISTICA DESCRIPTIVA Ahora ya tenemos observada una población o una muestra (situación muchísimo más habitual), habiendo observado una importante cantidad de datos y, por lo tanto, lo que haremos es analizar los datos para entender la información que ellos portan. En realidad, no nos interesan los datos en sí mismos. Lo que nos interesa realmente es la información contenida en ellos. ¿Cómo podemos definir la información en los datos? Es suficiente que nos hagamos la pregunta: ¿Qué aprendemos de los datos? La respuesta a esta pregunta será la información que podremos utilizar en el análisis. Cuando uno tiene una población y selecciona una muestra, se obtienen datos que provienen de las variables observadas. Definición: Variable: Medida que cambia, es decir, que puede tomar diferentes valores o condiciones. Podemos distinguir tres tipos de variables: Nominal, Ordinal e Intervalar. Estos tres tipos de variables reflejan distintos tipos de información, en orden creciente de la riqueza de la información que contienen. Tomemos el caso de una encuesta donde usualmente hay diferentes tipos de variables y niveles.

- Variables de Tipo Nominal:

En este nivel, sólo se pueden clasificar los datos en clases o categorías. Es el nivel que tiene menor riqueza de información. Ejemplos: nombre, ciudad de residencia, nacionalidad, lenguaje materno, género, raza, carrera que estudia, estado civil, comuna donde vive, etc.

Page 8: Apuntes Muestreo y Estadística Descriptiva (1)

8

- Variables de Tipo Ordinal:

En este nivel, además de poder clasificar los datos de la población o de la muestra en clases o categorías, éstas tienen un orden en relación a la intensidad de la variable. Ejemplos:

• Preguntas con alternativas como: muy de acuerdo, neutral, en desacuerdo;

• Nivel de educación formal con alternativas: ninguno, educación básica incompleta, educación básica completa, educación media incompleta, educación media completa, educación superior incompleta y educación media completa;

• Nivel socioeconómico. En una variable ordinal podemos clasificar y ordenar, pero no podemos cuantificar las diferencias entre “valores”.

- Variables de Tipo Intervalar:

En este nivel, además de clasificar y ordenar, podemos cuantificar las diferencias de intensidad entre un elemento y otro (de la muestra o población). Ejemplos de variables intervalares: edad, peso, temperatura, calificación en un curso, número de hermanos, número de cuadras de distancia del domicilio a la universidad, etc. Las variables intervalares pueden ser de dos tipos, de razón y no de razón:

o De razón: Cuando se pueden establecer cuocientes o razones entre sus valores. Tiene un cero absoluto. Ejemplos: número de hijos, edad.

o No de razón: sólo se puede establecer diferencias pero no razones, ya que no hay un cero absoluto sino que relativo. Ejemplos: temperatura en ºC, calificaciones en Chile (con nota mínimo 1,0)

Las variables intervalares pueden ser discretas y continuas:

o Discretas: pueden tomar sólo valores aislados. Ejemplo: número de hijos, calificaciones.

o Continuas: toman valores en intervalos. Ejemplo: peso, edad, temperatura, tiempo en la espera.

Cuando tenemos datos de variables, podemos calcular las frecuencias y la distribución de frecuencias.

- Frecuencia Absoluta de una Categoría: número de elementos de la categoría - Frecuencia Relativa de una Categoría: número de elementos de la categoría

dividido por el número total de elementos.

Page 9: Apuntes Muestreo y Estadística Descriptiva (1)

9

Representación Gráfica de la Distribución de Frecuencias

- Nivel Nominal: gráfico de torta, gráfico de barra (sin orden en las clases o categorías, no existe jerarquía por estar antes o después de alguna clase, es arbitrario)

- Nivel Ordinal: gráfico de barra (en variables ordinales con orden el cual es

determinado por la variable. Ejemplo: el nivel educacional)

- Nivel intervalar: Histograma .

HISTOGRAMA El histograma es el clásico diagrama para representar la variabilidad en variables intervalares. Considerando una variable X de tipo intervalar (de razón o no de razón), se divide su recorrido efectivo en clases o subintervalos. Por ejemplo, si se tratase de la Estatura (medida en mts.) en personas adultas, su recorrido efectivo podría considerarse el intervalo [1.5 , 2.0]. En ese caso, podrían tomarse las clases como los subintervalos: [1.50 , 1.54) , [1.54 , 1.58) , [1.58 , 1.62) , [1.62 , 1.66) , [1.66 , 1.72) , [1.72 , 1.76) , [1.76 , 1.80) , [1.80 , 1.84) , [1.84 , 1.88) , [1.88 , 1.92) , [1.92 , 1.96) , [1.96 , 2.00] Es decir, 12 subintervalos o clases. El número de clases no debe ser muy grande (por ejemplo, mayor a 20), pues se pierde la visualización de la variabilidad en la distribución de frecuencias. El mismo fenómeno tiende a ocurrir en caso de que el

Page 10: Apuntes Muestreo y Estadística Descriptiva (1)

10

número de clase sea muy pequeño. De allí que habitualmente se piense queel número de clase debe ser entre 10 y 20. También se puede tener que las primeras y/o últimas clases tengan muy poca frecuencia (por ejemplo, para la Estatura hay pocas personas de más de 1.90 mts.). En ese caso, se puede romper la igualdad de ancho de los subintervalos o clases, quedando en total sólo 11 de ellos, donde el último será [1.90 , 2.00]. Para cada subintervalo o clase se determina su frecuencia absoluta o número de elementos en la clase; y también su frecuencia relativa o número de elementos en la clase, dividido por el número total de elementos. Se representa en el eje “x” la variable en estudio, con respecto a la cual se han definido las clases, y en el eje “y” las frecuencias correspondientes o sus frecuencias relativas. Sobre los intervalos de clase, se levantan rectángulos que representan las frecuencias absolutas o relativas. Mirando el histograma, se puede concluir el tipo de variación que tiene la variable y si hay indicios de valores extremos. Ejemplo: Se quiere analizar la efectividad que ha tenido una vacuna contra la influenza humana. Aleatoriamente se obtienen 100 datos y los queremos organizar en un histograma con 10 barras, cada una con las efectividades A,B,C,D,E,F,G,H,I,J respectivamente. Las efectividades están medidas con una escala entre 0 y 1, donde el valor 0 se da cuando la efectividad de la vacuna es nula y 1 cuando la vacuna es totalmente efectiva. Las efectividades en cuestión son:

0,479 0,081 0,694 0,482 0,151 0,940 0,686 0,152 0,586 0,844 0,106 0,267 0,667 0,649 0,786 0,821 0,886 0,324 0,352 0,836 0,246 0,974 0,338 0,582 0,367 0,024 0,083 0,433 0,724 0,427 0,631 0,343 0,523 0,485 0,179 0,985 0,958 0,882 0,613 0,870 0,840 0,688 0,207 0,673 0,607 0,640 0,093 0,264 0,040 0,128 0,494 0,251 0,824 0,575 0,560 0,272 0,175 0,476 0,677 0,670 0,513 0,002 0,599 0,113 0,817 0,825 0,456 0,854 0,809 0,530 0,008 0,177 0,973 0,956 0,118 0,955 0,575 0,194 0,116 0,499 0,559 0,493 0,726 0,924 0,890 0,466 0,574 0,724 0,072 0,956 0,483 0,978 0,640 0,195 0,545 0,734 0,593 0,874 0,418 0,490

Para obtener el intervalo por efectividad (o clase), se debe calcular:

1) Máximo: 0,985 2) Mínimo: 0,002 3) Rango(Máximo-Mínimo): 0,983 4) Ancho de clase(Rango/5 clases): 0,098

Así, los intervalos para cada clase son:

Page 11: Apuntes Muestreo y Estadística Descriptiva (1)

11

Efectividad Intervalo A 0,891-0,985 B 0,792-0,890 C 0,693-0,791 D 0,594-0,692 E 0,495-0,593 F 0,396-0,494 G 0,297-0,395 H 0,198-0,296 I 0,099-0,197 J 0-0,098

Una vez calculadas las frecuencias para cada clase se obtiene el siguiente histograma:

Histograma

0

20

40

60

80

A B C D E F G H I J

Efectividad

Fre

cuen

cia

A modo de ejemplo, la clase D tiene una frecuencia de 70, es decir, hay 70 efectividades con valores entre 0,594 y 0,692. Medidas de Localización Las medidas de localización dividen a la población o muestra de manera proporcional y nos informan sobre su distribución. Estas medidas puede ser de tipo central (media, moda y mediana) o de tipo no central (cuartiles, deciles y percentiles). Para las siguientes definiciones, suponemos n datos (población o muestra), ordenados de menor a mayor según la intensidad de la característica de interés. Los datos originales los denotaremos como X1, X2, …, Xn y los datos ordenados como X(1), X(2), …, X(n). Llamamos X(j) al dato de orden j. Para determinar el cuantil n de orden q )10( ≤≤ q para n datos, con nqr ⋅= , se procede como sigue: (1) Si r es decimal, entonces la medida de localización es el valor de orden siguiente a r, es decir, X

r =q⋅n[ ]+1( ).

Page 12: Apuntes Muestreo y Estadística Descriptiva (1)

12

(2) Si r es entero, entonces la medida de localización es el promedio de los valores de

órdenes (r) y (r+1): X(r = q⋅n) + X(r +1)

2

Así, podemos definir el cuantil de orden q, como: Cuantiles: el cuantil de orden “q” es el valor que acumula hasta él una frecuencia relativa acumulada equivalente a q )10( ≤≤ q . Cuartiles: Son los valores que dividen a la población o muestra en “cuartos”. Son 3 valores que distribuyen los datos, ondenados de forma creciente, en tramos de igual número de ellos , en los que cada uno concentra el 25% de los resultados. Por ejemplo, el segundo cuartil corresponde al valor con 50% acumulado. Deciles: Son los valores que dividen a la población o muestra en “décimos”. Son 9 valores que distribuyen los datos, odenados de forma creciente, en diez tramos de igual tamaño, en los que cada uno de ellos concentra el 10% de los resultados (q es múltiplo de 0,1 para los deciles). Por ejemplo, el cuarto decil deja un 60% sobre él y un 40% de los datos bajo él. Percentiles: Son los valores que dividen a la población o muestra en “centésimos”. Son 99 valores que distribuyen los datos, ordenados de forma creciente o decreciete, en cien tramos iguales, en los que cada uno de ellos concentra el 1% de los resultados (q es múltiplo de 0,01para los percentiles). Por ejemplo: el percentil 32 deja 32% debajo de él y 68% sobre él; Mediana: La Mediana es el valor que divide a la población o muestra en mitades. Por ello, corresponde al segundo cuartil, al quinto decil y al cincuentavo percentil. Ejemplo: Supongamos que hay 430 datos que se quieren estudiar, por lo tanto n=430. Para calcular el decil tres, se tiene que q=0,3 por lo tanto r = q ⋅ n = 0,3⋅ 430 = 129 . Dado

que 129 es un número entero, el valor del decil tres es D3 =X(129) + X(130)

2.

Para el cuartil dos el procedimiento es el mismo pero ahora q=0,4 por lo tanto r = q ⋅ n = 0,4 ⋅ 430 = 172 . Dado que 172 es un número entero, el valor del cuartil dos

es Q2 =X(172) + X(173)

2

Para el caso del tercer cuartil, q=0,75 por lo tanto r = q ⋅ n = 0,75⋅ 430= 322,5. Dado que 322,5 es un número impar, entonces el valor del cuartil tres es Q3 = X(323). Ahora si

el número de datos aumenta a 432, entonces r = q ⋅ n = 0,75⋅ 432= 324 . Dado que 324

es un numero entero, el valor del nuevo cuartil tres es Q3` =X(324) + X(325)

2

Page 13: Apuntes Muestreo y Estadística Descriptiva (1)

13

Medidas de Tendencia Central

Como su nombre lo sugiere, las medidas de tendencia central tiene como principal objetivo resumir en un valor que intenta ser representativo, el comportamiento principal o central de la variable en estudio, reflejado en los datos existentes, sean provenientes de una población o muestra.

Las principales medidas de tendencia central que estudiaremos son la Media (Promedio), Mediana y Moda.

Haciendo el análisis por nivel de medición, en orden creciente de calidad de información. Es importante señalar desde ya que a medida que se sube de nivel de información, las medidas que se pueden utilizar en niveles inferiores pueden siempre utilizarse en niveles superiores.

Nivel Nominal:

En el nivel Nominal, como solamente podemos clasificar los datos en clases o categorías, sólo podemos utilizar la moda o clase modal como medida de tendencia central.

Moda o Clase Modal: “Valor” que más se repite en la muestra o población. Se habla de “Moda Muestral” y de “Moda Poblacional”.

Toda muestra y población puede tener más de una moda si dos o más “valores” diferentes se repiten igual número de veces.

Nivel Ordinal:

Además de la posibilidad de utilizar la moda o clase modal, podemosusar la Mediana como medida de tendencia central. Como ya sabemos, la Mediana es el valor que divide a la poblaciónn o muestra en mitades, según la intensidad de la variable en estudio.

Nivel Intervalar: En el nivel intervalar, tanto en los casos de razón o no de razón, podemos agregar la Media (para poblaciones) y el Promedio (para muestras). Para ambos la definición es equivalente, siendo la suma de los datos dividida por el total de datos.

µN

XiN

i∑

== 1 : Media (Poblacional). Se denota habitualmente mediante la letra griega µ.

n

XiX

n

i∑

== 1 : Promedio (Muestral).

La media y el promedio (según se trate de una población o muestra) son buenos parámetros o

Page 14: Apuntes Muestreo y Estadística Descriptiva (1)

14

medidas de tendencia central, excepto cuando la población o muestra presenta datos extremos (muy grandes o muy pequeños). Los datos extremos influyen fuertemente en el vaor que toman la Media y el Promedio, haciéndolos poco representativos del comportamiento en general.

Por ejemplo, si para un grupo de seis alumnos de un curso las calificaciones en una actividad fuesen:

3.7 , 3.0 , 3.6 , 3.4 , 3.8, 6.9

Su media o promedio sería 4.07 ó 4.1 (aproximándolo a un decimal). Como en Chile usualmente la calificación que define la aprobación de una actividad académica es 4.0, dicho valor haría pensar en la aprobación del grupo de alumnos; sin embargo, sólo uno de los seis alumnos ha aprobado la actividad. Esta distorsión se produce por la existencia del valor 6.9, que es un valor extremo para estos datos. Medidas de dispersión o variabilidad El objetivo de estas medidas de dispersión es medir la variabilidad de un conjunto de datos. Esto es posible hacerlo para los tres niveles de medición: nominal, ordinal e intervalar. Nivel Nominal: Podemos definir la “tasa de variación” como v=1-fm, donde fm es la frecuencia relativa modal. Si la moda incluyese el 40% de las observaciones, entonces fm=0,4 y v=0,6. Significaría que el 60% de los datos están fuera de la clase modal. La tasa de variación muestra la proporción de elementos fuera de la clase modal. Si la tasa de variación es más grande, entonces hay una mayor variabilidad con respecto a la clase modal. ¿Entre qué valores puede encontrarse v? Dejamos al lector determnar que si por ejemplo, la muestra tiene n datos, v puede tomar los valores ((n-1)/n), ((n-2)/n), … , (1/n), 0.0 . ¿Por qué no puede tomar el valor 1.0? Nivel Ordinal : Unamedida de variabilidad que podemos usar aquí es el rango. El rango es la diferencia entre el máximo valor y el mínimo valor de la muestra o población. Tiene el problema que es muy afectado por valores extremos, perdiendo a veces su capacidad de explicación. Una alternativa interesante está dada por los rangos “restringidos”. El rango intercuartil es la diferencia entre el tercer y el primer cuartil (Q3-Q1) y el rango interdecil es el intervalo entre el noveno y el primer decil (D9-D1). Estos rangos restringidos evitan el efecto de los valores extremos.

Page 15: Apuntes Muestreo y Estadística Descriptiva (1)

15

Nivel Intervalar : En este nivel, las medidas de dispersión se calculan con respecto a la media y al promedio según se trate de una población o de una muestra. Supongamos que se tiene una población de tamaño N con

Media: ∑=

=N

i N

Xi

1

µ , y

Varianza (poblacional): ∑ ∑= =

−=−=N

i

N

iiX

NXi

N 1 1

2222 1)(

1 µµσ .

Si se selecciona una muestra de tamaño n, su promedio y su varianza muestral serán los estimadores o aproximadores de sus valores correspondientes de la población:

Promedio (muestral): ∑=

=n

i n

Xi

1

µ̂

y

Varianza muestral: ∑ ∑= =

⋅−

−−

=−−

=n

i

n

ii X

n

nX

nXXi

nS

1 1

2222

11

1)(

1

1

El valor de la varianza estrictamente sólo tiene interpretación comparativa. Cuando una variable sólo toma valores mayores o iguales a cero, es útil definir el coeficiente de variación:

- µσ=CV � Porcentaje de la media que representa la desviación estándar.

- X

SCV = � cuán importante es la variabilidad en relación al promedio.

Q1 mediana Q3

disperso concentrado