Upload
raquelitazamorano
View
230
Download
1
Embed Size (px)
DESCRIPTION
Curso Estadística UAH 2014
Citation preview
Universidad Alberto Hurtado
Distribuciones de Frecuencia
Tablas y Grficos
Paulina Gajardo Serrano 1
Sntesis de contenido
Repaso de la clase anterior:
Categorizaciones de variables Variables cualitativas vs. variables cuantitativas Variables y Escala de medida Categorizacin de variables cuantitativas:
Variables discretas Variables continuas
Estructura de una base de datos
Diccionario de datos
Bases de datos y software: Estructura en Excel y en SPSS
VARIABLES Y ESCALAS DE
MEDIDA
En general:
Las variables que se miden en escala de medida nominal y ordinal son clasificadas
como cualitativas (categricas)
Las variables que se miden en escala de intervalo y de ratio son clasificadas como
cuantitativas
Variables discretas vs. continuas
Las unidades de medida de variables
discretas no pueden ser subdivididas
Las unidades de medida de variables
continuas pueden ser subdivididas sin
lmites
Matriz de datos
La informacin de variables para cada
observacin se presenta en lo que se
denomina una Matriz de Datos
Tambin se le llama Base de datos
4/15/2014 Footer Text 5
Frecuencias
Frecuencias Absolutas:
Cantidad de repeticiones de cada valor observado de la variable
Se denota generalmente como ni o fi
La suma de las frecuencias absolutas es igual al tamao de la muestra (o de la
poblacin segn sea el caso)
Valor mnimo = 0 y mximo = n
Frecuencias Relativas:
Proporcin (porcentaje) que cada valor de la variable tiene en relacin con el total de las
observaciones
Se denota generalmente por hi La suma de todas las frecuencias
relativas es igual a 1 (o 100%)
Valor mnimo = 0 y mximo = 100
4/15/2014 Footer Text 7
Frecuencias
TABLAS DE DISTRIBUCIN DE
FRECUENCIAS,
EJEMPLOS
4/15/2014 Footer Text 8
Tabla de distribucin de frecuencias para
EDUC
Frecuencias
Absolutas ni
Frecuencias
Relativas hi
Grfico de Barras (EDUC)
Las barras muestran frecuenci as
SIN
ED
UC
. FO
RM
AL
BASIC
A IN
CO
M.
BASIC
A C
OM
PL.
M.H
UM
. INC
OM
PLE
TA
M.T
EC
.PR
OF.
INC
OM
PLE
TA
M.H
UM
. CO
MPLE
TA
M.T
EC
CO
MPLE
TA
TEC
. O U
NIV
. IN
CO
MPLE
TA.
TEC
NIC
A O
UN
IV. C
OM
PLE
TA
NIVEL EDUCACIONAL
0
10
20
30
Rec
uent
o
Tabla de Distribucin de Frecuencias para Ingreso
Autnomo Individual (1)
Frecuencia PorcentajePorcentaje
vlido
Porcentaje
acumulado
Vlidos 494 1 0,5 1,0 1,0
988 1 0,5 1,0 2,1
6667 1 0,5 1,0 3,1
25000 1 0,5 1,0 4,2
29290 1 0,5 1,0 5,2
35000 1 0,5 1,0 6,3
39520 2 1 2,1 8,3
50000 1 0,5 1,0 9,4
50500 1 0,5 1,0 10,4
50670 1 0,5 1,0 11,5
78820 1 0,5 1,0 12,5
5226750 1 0,5 1,0 97,9
8255160 1 0,5 1,0 99,0
10251675 1 0,5 1,0 100,0
Total 96 48 100,0
Perdidos Sistema 104 52
Total 200 100
Intervalos de Ingreso autnomo
22 11,0 22,9 22,9
35 17,5 36,5 59,4
17 8,5 17,7 77,1
5 2,5 5,2 82,3
4 2,0 4,2 86,5
1 ,5 1,0 87,5
2 1,0 2,1 89,6
1 ,5 1,0 90,6
9 4,5 9,4 100,0
96 48,0 100,0
104 52,0
200 100,0
0-100.000
100.001-200.000
200.001-300.000
300.001-400.000
400.001-500.000
500.001-600.000
600.001-700.000
900.001-1.000.000
1.000.000 y ms
Total
Vlidos
SistemaPerdidos
Total
Frecuencia Porcentaje
Porcentaje
vlido
Porcentaje
acumulado
Tabla de Distribucin de Frecuencias para Ingreso
Autnomo Individual (2)
Histograma para Ingreso Autnomo
Individual
2500000 5000000 7500000 10000000
Ingreso Autnomo
0
25
50
75
Rec
uent
o
Resumiendo:
Para variables continuas con muchos valores
Las tablas de distribucin de frecuencias y los grficos de barra funcionan mejor para una pequea cantidad de valores observados de la variable (variables en escalas de medida nominal, ordinal o variables discretas).
Cuando los valores son muchos (especialmente en el caso de variables continuas) se necesitan modificaciones
Solucin: resumir la informacin para valores de la variables agrupados Tablas de distribucin de frecuencias con intervalos Histogramas en lugar de grficos de barras
Tablas de contingencia
Dos o ms variables en una sola tabla
Frecuencias absolutas (n)
Frecuencias relativas (%)
En relacin con el total
Por fila
Por columna
Al cruzar una variable con n categoras
en las filas y m categoras en las
columnas se crean n*m subcategoras
Pobreza vs. educacin
Frecuencias ABSOLUTAS
Presenta las cantidades en cifras absolutas (18 subcategoras)
Qu tipo de anlisis permite efectuar directamente (sin ningn cambio adicional) y cuales
no?
Nivel educacional y nivel de pobreza
Pobres
no
extremos
No
pobresTotal
Sin Educ. Formal 3 9 12
Bsica Incom. 3 17 20
Bsica Compl. 1 14 15
M. Hum. Incompleta 2 19 21
M. Tc. Prof. Incompleta 0 2 2
M. Hum. Completa 3 14 17
M. Tc Completa 0 3 3
Tcnico Nivel Superior o Profesional Incompleta 2 11 13
Tcnico Nivel Superior o Profesional Completa 0 9 9
Total 14 98 112
Pobreza vs. educacin
Frecuencias relativas (totales)
Presenta cantidades en porcentaje
Proporciona la importancia relativa de cada subcategora en relacin con el total de
observaciones
Qu tipo de anlisis permite efectuar directamente (sin ningn cambio adicional) y cuales no?
Pobres
no
extremos
No
pobresTotal
Sin Educ. Formal 2,7% 8,0% 10,7%
Bsica Incom. 2,7% 15,2% 17,9%
Bsica Compl. 0,9% 12,5% 13,4%
M. Hum. Incompleta 1,8% 17,0% 18,8%
M. Tc. Prof. Incompleta 0,0% 1,8% 1,8%
M. Hum. Completa 2,7% 12,5% 15,2%
M. Tc Completa 0,0% 2,7% 2,7%
Tcnico Nivel Superior o Profesional Incompleta1,8% 9,8% 11,6%
Tcnico Nivel Superior o Profesional Completa 0,0% 8,0% 8,0%
Total 12,5% 87,5% 100,0%
Pobreza vs. educacin
Frecuencias relativas (filas =100)
Presenta cantidades en porcentaje
Proporciona la importancia relativa de cada subcategora en relacin cada categora de las filas
Qu tipo de anlisis permite efectuar directamente (sin ningn cambio adicional) y cuales no?
Pobres
no
extremos
No
pobresTotal
Sin Educ. Formal 25,0% 75,0% 100,0%
Bsica Incom. 15,0% 85,0% 100,0%
Bsica Compl. 6,7% 93,3% 100,0%
M. Hum. Incompleta 9,5% 90,5% 100,0%
M. Tc. Prof. Incompleta 0,0% 100,0% 100,0%
M. Hum. Completa 17,6% 82,4% 100,0%
M. Tc Completa 0,0% 100,0% 100,0%
Tcnico Nivel Superior o Profesional Incompleta15,4% 84,6% 100,0%
Tcnico Nivel Superior o Profesional Completa 0,0% 100,0% 100,0%
Total 12,5% 87,5% 100,0%
Pobreza vs. educacin
Frecuencias relativas (colm. =100)
Presenta cantidades en porcentaje
Proporciona la importancia relativa de cada subcategora en relacin cada categora de las
columnas
Qu tipo de anlisis permite efectuar directamente (sin ningn cambio adicional) y cuales no?
Pobres
no
extremos
No
pobresTotal
Sin Educ. Formal 21,4% 9,2% 10,7%
Bsica Incom. 21,4% 17,3% 17,9%
Bsica Compl. 7,1% 14,3% 13,4%
M. Hum. Incompleta 14,3% 19,4% 18,8%
M. Tc. Prof. Incompleta 0,0% 2,0% 1,8%
M. Hum. Completa 21,4% 14,3% 15,2%
M. Tc Completa 0,0% 3,1% 2,7%
Tcnico Nivel Superior o Profesional Incompleta14,3% 11,2% 11,6%
Tcnico Nivel Superior o Profesional Completa 0,0% 9,2% 8,0%
Total 100,0% 100,0% 100,0%
REPRESENTACIN GRFICA DE
VARIABLES
Distribucin grfica de frecuencias
Conceptos bsicos
Grficos de barras
Histogramas
Ojivas
Diagramas de dispersin (nube de puntos)
Series de tiempo
Ejemplos: Excel y SPSS
CONCEPTO
Un grfico es una representacin pictrica del comportamiento de variables
Sintetiza informacin en una forma que debe resultar ms sencilla de entender y/o ms atractiva a quin lo observa
Pueden presentar (entre otras): Distribuciones de frecuencias de variables: grficos de
barras, histogramas, grficos de torta, etc.
El comportamiento de una variable cuantitativa en funcin del tiempo (series de tiempo)
El comportamiento (asociacin) de dos variables cuantitativas (diagramas de dispersin o nubes de puntos)
Caractersticas para graficar datos
(Edward R. Tufte)
Las caractersticas bsicas de una presentacin grfica adecuada incluyen:
a. Mostrar los datos
b. Hacer que el observador se concentre en lo sustancial del grfico, y no en como se desarroll
c. Evitar distorsiones
d. Facilitar la comparacin de datos
e. Cumplir con un objetivo claro
f. Que estn integradas las descripciones estadsticas y verbales de las grficas
Principios de excelencia grafica
(Edward R. Tufte)
a. La excelencia estadstica es una presentacin bien diseada de los datos que proporciona sustancia, estadsticas y diseo.
b. La excelencia grfica comunica ideas complejas con claridad, precisin y eficiencia.
c. La excelencia grfica proporciona al observador el mayor nmero de ideas en el menor tiempo y con el mnimo de tinta.
d. La excelencia grfica casi siempre involucra varias dimensiones.
e. La excelencia grfica requiere decir la verdad acerca de los datos.
Variables que se trabajarn
EDUC: Variable cualitativa ordinal que representa el nivel educacional de las personas.
ESC: Variable numrica en escala de medida de ratio (discreta) que representa los aos de estudio completos de las personas.
CORTE: Variable categrica que indica si la persona pertenece a un hogar no pobre pobre no indigente (o extremo).
IAI: Variable numrica en escala de ratio (continua) que representa el Ingreso autnomo individual de cada encuestado.
Grfico de barras(1)
Caractersticas:
Puede aplicarse a cualquier tipo de variable
Relacionado con lo anterior el eje horizontal no necesariamente requiere estar ordenado.
Eje horizontal: valores de la variable.
Eje vertical: Frecuencias (absolutas o
relativas).
Grfico de barras(2)
Eje horizontal: valores de la variable
Eje vertical: Frecuencias (absolutas o relativas)
Grfico de barras (3)
Variante(1):
Dos variables por barra: Cada barra suma las frecuencias absolutas para cada categora de una
variable en el eje horizontal y la segunda variable
se representa mediante subcategoras de la
primera
0
5
10
15
20
25
No pobres
Pobres no extremos
Grfico de barras (4)
Variante(2):
Dos variables por barra: Similar a la anterior slo que cada barra representa el 100% de cada
categora del eje horizontal y en su interior se
presenta el % para cada categora de la 2 variable
0%10%20%30%40%50%60%70%80%90%
100%
No pobres
Pobres no extremos
Grfico de barras (5)
Observacin: Cada una de las barras del
grfico anterior puede representarse tambin
mediante una torta que totaliza 100% para
cada nivel educacional. Ej:
25%
75%
Sin Educ. Formal
Pobres no
extremos
No pobres
7%
93%
Bsica Compl.
Pobres no
extremos
No pobres
15%
85%
Bsica Incom.
Pobres no
extremos
No pobres
HISTOGRAMA(1)
Eje horizontal: valores de la variable CUANTITATIVA
Eje vertical: Frecuencias (absolutas o relativas)
Algunas observaciones:
La variable IAI toma muchsimos valores en las 64 obs.
por lo que no tendra sentido hacer un histograma de los datos sin agruparlos en
intervalos
La seleccin de un ancho de intervalo no era necesaria en el caso de variables cualitativas
En este caso, cada intervalo tiene base de $250.000
Observe que no hay separacin entre las barras porqu?
HISTOGRAMA(2)
Algunas observaciones:
Ej: La primera barra indica que hay 34 personas con ingresos entre $0 y $250.000
Al disponer la informacin de esta forma no sabemos cuanto gana cada uno de ellos
Podramos escoger el punto medio de cada intervalo(valor de la variable) como el
representante del intervalo.
As para el 1 intervalo sera $125.000, el 2 $375.000, el 3 $625.000 y as
sucesivamente
Cada uno de dichos puntos recibe el nombre genrico de Marca de Clase
Se puede unir las marcas de clase con una lnea a la que denominaremos poligonal
Un tipo especial de poligonal es aquel que surge al graficar las frecuencias acumuladas
HISTOGRAMA(3)
La poligonal que une las frecuencias acumuladas se denomina OJIVA
LAS OJIVAS NUNCA SON
DECRECIENTES
Diagramas de dispersion (1)
En muchas ocasiones resulta til observar el comportamiento simultaneo de dos variables (no slo de una y sus frecuencias)
Por ejemplo, se trata de analizar si los aos de estudio de las personas tienen algn efecto sobre sus ingresos
Al igual que en los histogramas se utiliza un grfico con un eje vertical y otro horizontal
Eje vertical (y) para la variable dependiente. Ej: IAI
Eje horizontal(x) para la variable independiente. Ej: EDUC
Diagramas de dispersion (2)
Algunas observaciones:
Observe que no tiene sentido unir los puntos cual sera el orden correcto
para unirlos?
Si slo las personas con mayor cantidad de aos de escolaridad
pueden acceder a los mayores ingresos
ello constuitira una evidencia de que
existe relacin directa entre ambas
variables
Respalda el grfico dicha intuicin?
Qu forma tendra la nube de puntos si la relacin entre ambas variables no
existiese o bien si existiese una relacin inversa?
Nota: Los diagramas de dispersin se utilizan generalmente para variables cuantitativas
Series de tiempo(1)
Es un tipo especial de grfico de dos dimensiones.
Una serie de tiempo est constituda por un nmero
determinado de mediciones efectuadas sobre una variable
durante un perodo de tiempo.
Los grficos de series de tiempo representan la evolucin
de una variable (eje y) para varios aos (eje x)
A diferencia de los diagramas de dispersin los puntos
suelen unirse mediante una lnea ya que existe una sola
observacin para cada periodo de tiempo analizado.
Estos grficos son particularmente usados para describir el
comportamiento de variables econmicas y financieras
Series de tiempo(2)
Algunas observaciones:
El eje horizontal representa el tiempo medido con la periodicidad con que la
variable fue medida
Por ello el eje puede estar expresado en aos, en meses, etc.