36

Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Embed Size (px)

Citation preview

Page 1: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de
Page 2: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Objetivos del módulo 2:

Introducir el concepto de distribución univariada y caracterización de una población en base a una variable.

Entender el uso de la matriz de datos originales para elaborar tablas y gráficas como resumen de la información contenida en una variable.

Conocer distintos tipos de presentaciones tabulares, su uso de acuerdo a las características de la población y de las variables, así como sus componentes.

Conocer distintos tipos de presentaciones gráficas y su uso de acuerdo a las características de la población y de las variables.

Page 3: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Países

Tasa de desempleo

urbano

Tasa de desempleo

urbano

Tasa de desempleo

urbano

Tasa de desempleo

urbano Ind. de Gini

Ingreso urbano

Tasa de mortal.infantil (p/ mil

nac.vivos) 2000 2001 2002 2003 Ult.dato 2002 Argentina 15,1 17,4 19,7 17,3 59 16 Bolivia 7,5 8,5 8,7 9,5 55,4 56 Brasil 7,1 6,2 11,7 12,3 62,8 30 Chile 9,2 9,1 9 8,5 54,6 10 Colombia 17,2 18,2 17,6 16,7 57,5 19 Ecuador 14,1 10,4 8,6 9,8 51,3 25 Guyana 54 Paraguay 10 10,8 14,7 11,2 51,1 26 Perú 8,5 9,3 9,4 9,4 47,7 30 Suriname 31 Uruguay 13,6 15,3 17 16,9 45,5 14 Venezuela 13,9 13,3 15,8 18 19 Antigua y Barb. 12 Barbados 9,2 9,9 10,3 11,1 12 Belice 34 Costa Rica 5,3 5,8 6,8 6,7 46,5 9 Cuba 5,5 4,1 3,3 2,3 7 Dominica 13 El Salvador 6,5 7 6,2 6,2 47,7 33 Granada 20 Guatemala 3,1 3,4 52,4 36 Haití 79 Honduras 5,9 6,1 7,7 53,3 32 Jamaica 15,5 15 15,1 13,1 17 México 2,2 2,5 2,7 3,2 47,7 24 Nicaragua 9,8 10,5 11,6 10,2 56 32 Panamá 15,2 17 16,5 15,6 51,5 19 Rep.Dominicana 13,9 15,4 16,1 16,6 54,8 32 Trinidad y T. 12,2 10,8 10,4 10,6 17 Fuente: CEPAL:Comisión Económica para América Latina y el Caribe

Page 4: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

TABLAS DE DISTRIBUCIÓN DE FRECUENCIAS - TDF

Para llegar a la elaboración de las tablas y las gráficas correspondientes a una variable, es necesario construir la DISTRIBUCION DE FRECUENCIAS y el GRAFICO de la variable a estudiar.

Page 5: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Procedimiento para construir TDF

Paso 1. De la matriz nos iremos quedando con

una columna por vez, lo que corresponderá a pasar a trabajar con los valores asumidos por todas las unidades para una determinada variable.

Page 6: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Procedimiento para construir TDF

Paso 2. Una TDF consta de dos columnas

básicamente. En la primera se listan todos los valores o categorías de la variable. En la segunda se registra el número de observaciones o unidades con las que se asocia cada categoría

Page 7: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Frecuencia Veces que se repite una categoría o valor en caso de variables numéricas (segunda columna)

Distribución de frecuencias: a) Es una forma de organizar y resumir los datos agrupados en categorías, en las cuales se muestra el número de observaciones que contiene cada categoría; b) Es una función que asocia en forma gráfica o tabular los valores observados de la variable con sus respectivas frecuencias (número de observaciones).

En el caso de resumir la información de una sola variable, hablamos de DISTRIBUCION UNIVARIADA DE FRECUENCIAS. Con este tipo de distribuciones trabajaremos en este y en los próximos dos módulos.

DEFINCIIONES

Page 8: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

TABLA DE DISTRIBUCION DE FRECUENCIAS: es una presentación ordenada de los distintos valores de una variable en base a los datos originales, es decir, una forma de presentar la distribución univariada de frecuencias.

La Tabla puede variar de acuerdo a algunas características de la distribución; fundamentalmente dos, el número de observaciones y el recorrido de la variable estadística.

El RECORRIDO o RANGO de la variable es la distancia entre el valor más alto y el más bajo (volveremos sobre este concepto en el módulo 4).

De acuerdo a este criterio, podemos distinguir los siguientes tipos de tablas estadísticas:

Page 9: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Tablas tipo I: datos originalesCuando el tamaño de la población o

muestra y el recorrido de la variable son pequeños, no hay que hacer nada especial, simplemente anotarlas de manera ordenada en filas o columnas.

Nos quedamos con la columna correspondiente a esa variable en la matriz de datos, y ordenamos sus valores en el caso que el sistema de categorías sea de nivel ordinal o mayor

Page 10: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Por ejemplo, si tenemos una muestra de las edades de 5 miembros de una familia: 45, 8, 5, 16, 38 sólo cabe ordenarlos en forma ascendente en su presentación: 5-8-16-38-45.

Page 11: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Tablas tipo II: tablas de distribución de frecuencias simplesSe apela a estas tablas cuando el tamaño de

la población y/o muestra es grande y el recorrido de la variable es pequeño, por lo que hay valores de la variable que se repiten.

Por ejemplo, si preguntamos el número de personas activas que hay en 50 familias obtenemos la siguiente tabla:

Page 12: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Variable: Número de integrantes del hogar *imaginemos estos datos son una columna de la matriz de datos originales de N=50

2 1 2 2 1 2 4 2 1 1

2 3 2 1 1 1 3 4 2 2

2 2 1 2 1 1 1 3 2 2

3 2 3 1 2 4 2 1 4 1

1 3 4 3 2 2 2 1 3 3

Page 13: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Podemos observar que la variable toma valores comprendidos entre 1 y 4, por lo que precisaremos una tabla en la que resumamos estos datos obteniéndose la siguiente tabla de frecuencias.

Integrantes del hogar

Número de hogares

1 16

2 20

3 9

4 5

Total 50

Page 14: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Tablas tipo III: tablas de frecuencias con datos agrupados en clases Cuando el tamaño de la población y/o

muestra y el recorrido de la variable son grandes, será necesario agrupar en intervalos los valores de la variable.

Page 15: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

N= 30 recorrido 0 / 985

450 115 250 300 17 0 5 18 200 675 50 37 78 159 230 500 120 100 18 125 31 42 56 110 25 268 60 15 20 985

Page 16: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Clases o intervalos de claseEvidentemente, la variable tiene un recorrido muy

grande, 980 pesos, por lo que si queremos hacer una tabla con estos datos tendremos que tomar clases que agrupen los valores. A estas clases le debemos definir un «recorrido». Para decidir el recorrido de las clases, necesitaremos decidir ¿cuántas clases queremos?.

RECOMENDACIÓN> Normalmente se suele trabajar con no más de 10 o 12 clases. Tomemos entonces 10.

recorrido =985 – 0 = 985Dividimos el recorrido entre 10 (985/10)= 98,5. Por

lo que podríamos pensar que una buena decisión es tomar clases de recorrido 99 (más cómodo que 98,5)

Page 17: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Construcción de la clases: con limites realesSe toman los limites superior e inferior “reales” de

la distribución de datos. Es decir, el primer intervalo es 0 – 99; el segundo 100 a 199; el tercero 200 a 299, y así sucesivamente.. (ver tabla)

Primer clase: - Límite inferior de la primer clase (L i = 0). Primer

valor de la variable ordenada- Límite superior de la primer clase (L s =99) Escribimos entonces las siguientes clases y sus

respectivas frecuencias (veces que se repite el valor):

Page 18: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Ejemplo de tabla con limites reales

Clases Frecuencia simple absoluta (fi)

0 - 99 15 100 - 199 6

200 - 299 4 300 - 399 1 400 - 499 1 500 - 599 1 600 - 699 1 700 - 799 0 800 - 899 0 900 - 999 1

Page 19: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Construcción de la clases: con limites teóricos

Se toman los denominados límites “teóricos” sumando al límite superior y restando al límite inferior “0,5” unidades. ( Li – 0,5) (Ls + 0,5). Esto significa que el primer intervalo tiene un recorrido de -0,5 a 99,5; el segundo de 99,5 a 199,5. Sin embargo, se podrá observar a través de la recolección de ejemplos que no es usual usar decimales en la presentación de las clases, por lo que cuando se construye una tabla en base a los límites teóricos, encontraremos estas cifras redondeadas de tal forma que veremos: el primer intervalo va de 0 a 100; el segundo de 100 a 200, el tercero, de 200 a 300 y, así sucesivamente…. Habrá que tener en cuenta, sin embargo, que si bien la primer clase se define como (0 a 100) no incluye el 100; esta cifra esta incluida en la segunda clase. Lo mismo con el 200, 300, etc…..De esta forma respetaremos el criterio antes mencionado de definición exhaustiva y mutuamente excluyente de cada clase.

Page 20: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Ejemplo de tabla construida en base a límites teóricos:

Primer clase: - Límite inferior de la primer clase (L i = 0).

Primer valor de la variable ordenada- Límite superior de la primer clase (L s

=100).  Escribimos entonces las siguientes clases y

sus respectivas frecuencias (veces que se repiten los valores 0, 1, 2, …. Hasta 99, excluyendo al 100):

Page 21: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Ejemplo de tabla con limites teóricos

[ Li-1 , Li ) fi

[ 0 – 100 ) 15

[ 100 - 200) 6

[ 200 - 300) 4

[ 300 – 400) 1

[ 400 - 500) 1

[ 500 - 600) 1

[ 600 - 700) 1

[ 700 - 800) 0

[ 800 - 900) 0

[ 900 - 1000) 1

Page 22: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

TIPOS DE FRECUENCIASRecuerde: Las tablas de frecuencia nos permiten

presentar la distribución de los datos observados de una forma resumida y ordenada en función de las categorías de la variable de interés

 Por eso, distintos tipos de frecuencias pueden

expresarse en la tabla. Estas son: frecuencias:absolutas / relativas / relativas porcentuales,simples / acumuladas

Page 23: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Frecuencia absoluta Se llama frecuencia absoluta (simple) (fi)

de un valor de la variable al número de veces que se presenta dicho valor. La representaremos por fi. En el ejemplo anterior el valor «tener en el bolsillo entre 900 y 1000 pesos» obtuvo en la medición una frecuencia absoluta de 1. La suma de todas las frecuencias absolutas es igual al total de la población.

Page 24: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Integrantes del hogar

Número de hogares

1 16

2 20

3 9

4 5

Total 50

Page 25: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Frecuencia relativaSe llama frecuencia relativa (simple) (fr)

de un valor a la frecuencia absoluta dividida por el número total de individuos que conforman la población o muestra (N o n). Es por tanto, una proporción. La representaremos por fr . En el ejemplo anterior la frecuencia relativa de esta clase o intervalo [ 900 - 1000) es 1/30 = 0,033. La suma de todas las frecuencias relativas es igual a la unidad (1).

Page 26: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Integrantes del hogar

Frecuencia relativa = fi dividido N

1 0,32

2 0,40

3 0,18

4 0,10

Page 27: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Frecuencia absoluta acumuladaSe llama frecuencia absoluta acumulada (Fi) al

número de veces que se presenta un valor y todos los anteriores a él. Se representa por Fi. En el caso del ejemplo anterior el intervalo [ 0 – 100 ) acumula 15 casos; el intervalo [ 100 - 200) acumula 21 casos (6 que corresponden a este intervalo + 15 casos que se le agregan por corresponder al intervalo anterior; el intervalo [ 200 - 300) acumula 25 casos (4 que corresponden a este intervalo + 21 casos que se le agregan por corresponder a los dos intervalos que le preceden. Las frecuencias absolutas acumuladas llegan a acumular N en el último valor o clase considerada.

Page 28: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Integrantes del hogar

Frecuencia absoluta acumulada = fi + fi anteriores

1 16

2 36

3 45

4 50

Page 29: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Frecuencia relativa acumuladaSe llama frecuencia relativa acumulada

(Fr) a la frecuencia absoluta acumulada dividida por el número total de observaciones. La representaremos por FR Las frecuencias relativas acumuladas llegan a acumular 1 en el último valor o clase considerada

Page 30: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Integrantes del hogar

Frecuencia relativa acumulada= fr + fr anteriores

1 0,32

2 0,72

3 0,90

4 1,00

Page 31: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Frecuencia porcentual Se llama frecuencia porcentual (%) al

tanto por ciento de las veces que se ha obtenido un determinado resultado. Se obtiene multiplicando por 100 la frecuencia relativa y se representa por n%. Se puede calcular la frecuencia porcentual tanto para frecuencias simples como para frecuencias acumuladas. (% acumulado)

Page 32: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Integrantes del hogar

Frecuencia porcentual = fr * 100

1 32

2 40

3 18

4 10

Page 33: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

[ Li-1 , Li ) fi Fr % Fi Fr % acumulado

[ 0 – 100 ) 15 0,50 50 15 0,5 50 [ 100 - 200) 6 0,20 20 21 0,70 70 [ 200 - 300) 4 0,13 13 25 0,83 83 [ 300 – 400) 1 0,03 3 26 0,87 87 [ 400 - 500) 1 0,03 3 27 0,90 90 [ 500 - 600) 1 0,03 3 28 0,93 93 [ 600 - 700) 1 0,03 3 29 0,97 97 [ 700 - 800) 0 0,00 0 29 0,97 97 [ 800 - 900) 0 0,00 0 29 0,97 97 [ 900 - 1000) 1 0,03 3 30 1,00 100 30 1,00 100

Page 34: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Xi fi fr f% Fi Fr F%

0 = bachillerato, 30 0,15 15 30 0,15 15 1 = licenciatura sin título;

120 0,6 30 150 0,75 75

2 = licenciatura con título

40 0,2 120 190 0,95 95

3 = postgrado 10 0,05 40 200 1,00 100

200 1 100

Page 35: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Xi fi fr f%

0 = viudo, 30 0,15 15 1 = casado 120 0,6 30 2 =soltero 40 0,2 120

3 = divorciado 10 0,05 40

200 1 100

Page 36: Objetivos del módulo 2: Introducir el concepto de distribución univariada y caracterización de una población en base a una variable. Entender el uso de

Una tabla de distribución de frecuencias es una forma de presentar los datos sobre una

característica de la población en estudio; por tanto debe contener la información necesaria

para que el lector pueda analizarla.

Esto implica que debe tener explícitamente:

Título, en el cual se describe qué variable se está presentando, qué tipo de tabla es

(frecuencia simple, acumulada, porcentual, etc.) y cuál es la población que se está

caracterizando (Por ejemplo: “Trabajadores ocupados de Montevideo, año 2007”;

“Personal administrativo de la empresa XXX, año 2006”)

Fuente de donde proviene la información: cuál es el origen de la matriz de datos

que se está resumiendo. (Por ejemplo: “Encuesta Continua de Hogares, INE”;

“Encuesta a la empresa XXX, realizada por el autor del informe”)

Las columnas deben estar encabezadas por el tipo de frecuencia que contienen.