Upload
adalberto-santiago
View
33
Download
7
Embed Size (px)
DESCRIPTION
Excelente apuntes de estadística descriptiva
Citation preview
Grficos Estadsticos Angel F. Arvelo L
ANGEL FRANCISCO ARVELO LUJAN Angel Francisco Arvelo Lujn es un Profesor Universitario Venezolano en el rea de Probabilidad y Estadstica, con ms de 40 aos de experiencia en las ms reconocidas universidades del rea metropolitana de Caracas. Universidad Catlica Andrs Bello : Profesor Titular Jubilado 1970 a 2003 Universidad Central de Venezuela: Profesor por Concurso de Oposicin desde 1993 al presente Universidad Simn Bolvar: Profesor desde 2005 al presente Universidad Metropolitana: Profesor desde 1973 a 1987 Universidad Nacional Abierta: Revisor de contenidos, desde 1979 hasta 2004 Sus datos personales son : Lugar y Fecha de Nacimiento: Caracas, 16-02-1947 Correo electrnico: [email protected] Telfono: 58 416 6357636 Estudios realizados: Ingeniero Industrial. UCAB Caracas 1968 Mster en Estadstica Matemtica CIENES , Universidad de Chile 1972 Cursos de Especializacin en Estadstica No Paramtrica Universidad de Michigan 1982 Doctorado en Gestin Tecnolgica: Universidad Politcnica de Madrid 2006 al Presente El Profesor Arvelo fue Director de la Escuela de Ingeniera Industrial de la Universidad Catlica Andrs Bello (1974-1979) , Coordinador de los Laboratorios de esa misma Universidad especializados en ensayos de Calidad, Auditor de Calidad, y autor del libro Capacidad de Procesos Industriales UCAB 1998. En numerosas oportunidades, el Profesor Arvelo ha dictado cursos empresariales en el rea de Estadstica General y Control Estadstico de Procesos. Una mayor informacin sobre otras publicaciones del Prof. Arvelo, pueden ser obtenida en la siguiente pgina web: www.arvelo.com.ve
Grficos Estadsticos Angel F. Arvelo L.
2
CONSTRUCCION DE GRAFICOS ESTADISTICOS
1 Tablas de Frecuencias para datos cualitativos Al observar una
variable cualitativa, no obtenemos como resultado un valor numrico, sino un dato
perteneciente a una determinada clase o categora; en virtud de lo cual, al
clasificar los datos muestrales , o poblacionales , de una variable cualitativa, lo que
se obtiene es una tabla que seala el nmero de veces que se ha encontrado
cada clase o categora dentro de la muestra o dentro de la poblacin , segn sea
el caso.
El nmero de veces que se observa una determinada clase o categora se llama
frecuencia , y la tabla que seala la frecuencia de cada clase o categora tabla
de frecuencias.
Por ejemplo, supongamos que hemos tomado una muestra de estudiantes
universitarios, y le hemos preguntado a cada uno de ellos la carrera que cursan.
Al finalizar nuestra encuesta, encontraremos una tabla, como la siguiente:
Carrera Frecuencia
Derecho 34
Medicina 56
Ingeniera 47
Economa 26
Sociologa 17
Administracin 20
TOTAL 200
Tabla 1
Para construir la tabla es necesario contar el
nmero de estudiantes pertenecientes a cada
carrera, y transcribir en ella el resultado del conteo.
La frecuencia de cada carrera representa el total de
estudiantes encontrados en ella.
Puesto que la ubicacin de cada elemento dentro de cada categora se supone
que es una y solo una*1, es decir, que un mismo elemento no puede pertenecer
simultneamente a dos categoras diferentes, resulta obvio que la suma de las
frecuencias da por resultado el total de observaciones realizadas.
Designando por: n = Nmero total de observaciones realizadas
k= Nmero de categoras
fi = Frecuencia de la categora i .
Se tiene: n = fii
i k
1
1 De no cumplirse esta exigencia , tendr que definirse algn criterio que permita definir la categora nica
a la cual pertenece cada elemento.
Grficos Estadsticos Angel F. Arvelo L.
3
Se define como frecuencia relativa de una determinada categora, a la razn
entre su frecuencia, y el total de observaciones ; es decir :
Frecuencia Relativa =hi= f
f
f
n
i
j
j
j k
i
1
Generalmente esta frecuencia relativa se expresa en forma porcentual, y
representa cuantas partes por cada 100 del total , le corresponden a la categora
en cuestin .
Frecuencia Relativa Porcentual = hi% = f
f
f
n
i
j
j
j k
i
1
100% 100%
Para las frecuencias relativas se cumple: hii
i k
1
= 1
Demostracin: hii
i k
1
= f
n
f
n
n
n
i
i
i n i
i
i n
1
1 1
Para las frecuencias relativas porcentuales, por una demostracin anloga, se
verifica: hii
i k
1
%= 100 %
Ejemplo 1: Calcular las frecuencias relativas, y la frecuencias relativas
porcentuales, para las categoras de la Tabla 1 .
n = fii
i k
1
= 200
La frecuencia relativa , y la relativa porcentual de la categora Derecho es:
hi = 34
200 = 0,17 , hi% = 17%.
Para Medicina: hi56
200= 0.28, hi %= 28.00%
Al hacer los clculos para las dems categoras se encuentra:
Grficos Estadsticos Angel F. Arvelo L.
4
Carrera
Frecuencia Absoluta
Frecuencia Relativa
Frecuencia Relativa
Porcentual
Derecho 34 0,170 17,00%
Medicina 56 0,280 28,00%
Ingeniera 47 0,235 23,50%
Economa 26 0,130 13,00%
Sociologa 17 0,085 8,50%
Administracin 20 0,100 10,00%
TOTAL 200 1,000 100,00%
2 Representacin Grfica de Datos Cualitativos. Uno de los objetivos
primordiales de la Estadstica Descriptiva, es la elaboracin de grficas que de
una manera clara y precisa describan el comportamiento de los datos.
Para representar el comportamiento de datos cualitativos, los principales grficos
son:
1) El Histograma : Este grfico conocido tambin como grfico de barras
constituye la representacin de la tabla de frecuencias, y segn utilice frecuencias,
frecuencias relativas, o relativas porcentuales puede ser de tres tipos:
De frecuencias absolutas
De frecuencias relativas.
De frecuencias relativas porcentuales.
Lo ms frecuente es que sea de frecuencias relativas porcentuales, por la gran
aceptacin que tiene el uso de porcentajes.
Para construirlo, se trazan dos ejes cartesianos.
En eje horizontal se representan las categoras, y para ello se divide en tantos
segmentos de igual amplitud como categoras se tengan. Cada segmento
representa a una categora.
En el eje vertical se representan las frecuencias.
A cada categora se le asigna un rectngulo, de igual ancho (menor que la
amplitud del segmento ), centrado , y de altura igual a su frecuencia.
As por ejemplo, para los datos de la Tabla 1, el histograma de frecuencias
relativas porcentuales, es el siguiente:
Grficos Estadsticos Angel F. Arvelo L.
5
Normas para construir un Histograma
a) Ancho de las clases : El ancho de las barras es arbitrario , pero debe ser igual
para todas las categoras, por dos razones fundamentales:
a.1 Para no establecer diferencias entre categoras.
a.2 Para que las reas de los rectngulos resulten proporcionales a sus
frecuencias. Al tener todos los rectngulos igual ancho, se verifica: A
A
f
f
i
j
i
j
,
siendo A el rea y f la frecuencia de las categoras i y j .
b) Separacin entre las barras o rectngulos: Para variables cualitativas, las barras
o rectngulos deben quedar separadas para no dar una sensacin de continuidad.
Esta separacin debe ser la misma para todas las barras.
c) Orden de colocacin de las clases: El orden de colocacin de las clases dentro
del histograma puede ser usado para manipular el mensaje de la grfica, y as por
ejemplo , si se quiere disimular que una clase tiene baja frecuencia basta con
colocarla entre dos que tengan menos , o si se quiere resaltar que una clase tiene
mucha frecuencia se coloca entre las dos que tengan poca .
Por la razn anterior, al colocar las diferentes clases hay que respetar la siguiente
regla:
Si se trata de una variable nominal hay que ordenar en orden alfabtico las
distintas categoras de la variable.
Si se trata de una variable ordinal, hay que colocar las diferentes categoras en
su orden natural, por lo general de menor a mayor.
d) Escala vertical: Regla de los tres cuartos: La seleccin de la escala vertical
tiene una gran influencia en la apariencia de la grfica, pues si se elige una
escala demasiado grande, todos los rectngulos van a resultar con una altura
insignificante, y las diferencias de frecuencia entre ellos no ser perceptible.
Grficos Estadsticos Angel F. Arvelo L.
6
Por ejemplo, los mismos datos de la tabla 1, representados con una escala vertical
hasta 100%, tendran la siguiente apariencia:
El lector puede fcilmente apreciar que a pesar de ser los mismos datos, las dos
grficas son significativamente diferentes, con distintos mensajes.
Para evitar que las escalas elegidas den lugar a grficos que resulten
desproporcionados, se da esta regla conocida como regla de los tres cuartos de
altura:
En la construccin de un histograma de frecuencias (absolutas, relativas o
porcentuales), la escala vertical correspondiente a las frecuencias, debe ser tal
que la altura correspondiente al rectngulo de mayor frecuencia (el ms alto), debe
ser aproximadamente igual a tres cuartos del ancho total del eje horizontal.
e) Ubicacin del origen: La escala vertical del histograma debe ser aritmtica, y
partir del origen cero.
Lo anterior significa que debe ser una escala de razn, y que iguales proporciones
entre las alturas de los rectngulos deben reflejar iguales proporciones entre las
frecuencias de las categoras..
Una de las maneras ms fciles de sorprender al lector de una grfica en su
buena fe, es utilizar un origen diferente del cero, o utilizar una escala no aritmtica.
As por ejemplo, si la tabla de frecuencias relativas porcentuales correspondiente a
los datos de la Tabla 1, los representamos tomando como origen el 5%,
encontraremos la siguiente grfica:
Grficos Estadsticos Angel F. Arvelo L.
7
Esta grfica no se corresponde con la realidad de los datos, pues da la sensacin
de que por ejemplo, hay el triple de estudiantes en Derecho que en Sociologa,
que no es lo realmente encontrado en la muestra.
2) Grficos Circulares: Los grficos circulares conjuntamente con los
histogramas constituyen la forma ms frecuente de representar datos cualitativos.
Su construccin se fundamenta en que el rea de un sector circular guarda con el
rea de todo el crculo, la misma relacin que su arco con toda la circunferencia:
En un grfico circular , el crculo completo representa al conjunto total de datos,
mientras que el sector representa a una de las categoras , y se construye de
manera que el rea del sector guarde con el rea del crculo la misma proporcin
que la frecuencia de la categora guarda con el nmero total de datos; es decir:
Area del Sector "i"
Area del Circulo
i
2
f
n
i i =
f
n
i2 .
Como lo ms frecuente es trabajar con el ngulo expresado en grados y no en
radianes, se concluye que para calcular el ngulo central i correspondiente a
cada categora i, se aplica a 2 = 360 , la frecuencia relativa de la categora i:
i = f
n
i360 360 = hi
Lo anterior puede ser resumido en los siguientes pasos para construir un grfico
circular:
Paso 1: Se dibuja un crculo de radio arbitrario R .
Paso 2: Se calcula la frecuencia relativa de cada categora .
Paso 3 : Se multiplica cada frecuencia relativa por 360 , obtenindose as el
ngulo central correspondiente a cada categora .
Grficos Estadsticos Angel F. Arvelo L.
8
Paso 4: Con un transportador se miden sobre el circulo, uno a continuacin del
otro, los ngulos centrales correspondientes . Por lo general, los
ngulos se miden en el mismo sentido de las manecillas del reloj, y
comenzando desde el punto ms alto de la circunferencia. Jams se
seala sobre el grfico, el valor del ngulo central.
Paso 5: Se trazan los radios correspondientes a cada sector, y se rellenan sus
reas con colores que guarden cierta relacin con la categora
representada. Si se quiere, se puede indicar sobre el rea de cada
categora, su frecuencia relativa porcentual.
Ejemplo 2: Construir un grfico circular para los datos de la Tabla 1 .
Una vez calculadas las frecuencias relativas de cada categora, es necesario
calcular su ngulo central correspondiente: i = hi . 360 .
Los resultados despus de ordenar a las categoras por orden alfabtico, son los
siguientes: CARRERA Frecuencia Relativa Angulo Central ()
Administracin 0.10 36.00
Derecho 0.17 61.20
Economa 0.13 46.80
Ingeniera 0.24 84.60
Medicina 0.28 100.80
Sociologa 0.09 30.60
Total 1.00 360.00
Seguidamente, se dibuja un crculo de un radio cualquiera, dependiendo del
tamao con que quiera hacer la grfica, y comenzando por el punto ms alto de la
circunferencia, y en sentido del reloj, se van midiendo uno a continuacin del otro,
los diferentes ngulos centrales ,hasta cubrir la circunferencia completa.
Grficos Estadsticos Angel F. Arvelo L.
9
Es importante destacar que estos grficos tambin son conocidos bajo el nombre
de "Grficos de Pastel o de Torta" por la gran similitud que presentan con un
pastel picado en pedazos, sealando cul pedazo le corresponde a cada
categora.
3) Grficos de Figuras geomtricas proporcionales: El principio bsico en que
se fundamenta la construccin de grficas estadsticas para representar
frecuencias, es el de proporcionalidad de reas, segn el cual las reas de los
sectores deben guardar la misma relacin que sus frecuencias.
Es decir, en todo grfico estadstico de frecuencias debe cumplirse la siguiente
relacin: Area del tor i
Area del tor j
Frecuencia de la categoria i
Frecuencia de la categoria j
sec " "
sec " "
" "
" "
El lector puede fcilmente demostrar que tanto el histograma, como el grfico
circular respetan este principio.
El grfico de figuras geomtricas proporcionales se utiliza fundamentalmente para
comparar las frecuencias o tamaos de las diferentes categoras, y para ello
selecciona un figura geomtrica, generalmente un crculo o un cuadrado, y cada
figura representa a una categora; no como en el caso del grfico circular , donde
el sector representa a la categora , y el crculo al total de datos.
El procedimiento para construir este tipo de grficas es el siguiente:
Paso N 1: Se selecciona el tipo de figura a utilizar
Paso N 2: Las diferentes categoras se ordenan de menor a mayor frecuencia.
Paso N 3: A la categora de menor frecuencia se le asigna una figura de
dimensiones arbitrarias.
Paso N 4: Se calculan las dimensiones que deben tener las figuras
correspondientes a las dems categoras, segn el principio de
proporcionalidad de reas.
Paso N 5: Se representan las diferentes figuras, sobre un mismo eje, y dispuestas
de menor a mayor frecuencia.
Ejemplo 3: Representar los datos de la tabla 1, en un grfico de cuadrados
proporcionales.
Solucin: Segn el procedimiento descrito anteriormente, tenemos:
Paso1:La figura a utilizar es el cuadrado .
Grficos Estadsticos Angel F. Arvelo L
Paso 2 : Se ordenan las categoras de menor a mayor frecuencia .
Carrera
Frecuencia Absoluta
Sociologa 17
Administracin 20
Economa 26
Derecho 34
Ingeniera 47
Medicina 56
TOTAL 200
Paso N 3: A la categora de menor frecuencia, en este caso Sociologa le
asignamos arbitrariamente un cuadrado de lado 30 mm.
Paso N 4: Para calcular las dimensiones de los dems cuadrados, hay que tener
en cuenta de que el rea de un cuadrado de lado "L" es L2 y por lo tanto, segn el
principio de proporcionalidad de reas, debe verificarse: L
L
f
fi
j
i
j
2
2 L L
f
fj i
j
i
El lado del cuadrado correspondiente a la segunda categora, en este caso
Administracin ser: L L2 120
17 = 32.54, pues L1= 30 mm.
Procediendo en forma anloga para las dems categoras se tiene:
Economa : L L3 126
17 = 37.10 . Derecho: L L4 1
34
17 = 42.43
Ingeniera: L L5 147
17 = 49.88 . Medicina : L L6 1
56
17 = 54.45
Paso N 5: Por ltimo se procede a dibujar los seis cuadrados , con centro sobre
un mismo eje, y en forma ascendente .
Grficos Estadsticos Angel F. Arvelo L
11
Otra situacin en donde los grficos de figuras geomtricas proporcionales son
particularmente tiles, es cuando se quiere representar la evolucin que ha
experimentado una cierta variable a lo largo del tiempo.
Ejemplo 4 : Supongamos que una canasta familiar est formada por un conjunto
de artculos de primera necesidad, y que el precio de esta canasta se ha ido
incrementando con el tiempo.
Supongamos que el precio de esta canasta en los ltimos cinco aos ha sido:
Ao 1 2 3 4 5
Precio 2500 3700 4100 5000 6000
Representar en un grfico de crculos proporcionales la evolucin en el precio de
esta canasta familiar.
Solucin: En este caso, el procedimiento a seguir es idntico al descrito con
anterioridad, con la nica diferencia que el rea en lugar de representar
frecuencia, va a representar precio.
Al crculo correspondiente al ao 1, se le asigna un radio arbitrario, y el radio de
los dems crculos se determina por proporcionalidad de reas.
Como el rea de un crculo es A= r2 (Pr )
(Pr )
ecio
ecio
r
r
i i
1
2
12
r r
ecio
ecioi
i1
1
(Pr )
(Pr )
Haciendo los clculos, se obtiene: r1 = 40 mm ( arbitrario)
r r2 13700
2500= 48.66 ; r r3 1
4100
2500= 51.22 ;
r r4 15000
2500= 56.57 ; r r5 1
6000
2500= 61.97
El grfico de crculos proporcionales resulta:
4) Diagramas de Pareto: Cuando se investigan las posibles causas que pueden
generar un determinado problema, es frecuente que el investigador desee
identificar cules son las causas ms importantes , a fin de centrar su atencin en
ellas, y no diluir su esfuerzo en la correccin de causas de poca importancia.
Grficos Estadsticos Angel F. Arvelo L
12
El economista italiano Vilfredo Pareto ( 1848 - 1923) estableci que las causas
que ocasionan un determinado problema pueden ser clasificadas como las pocas
vitales y las muchas triviales. Las primeras son aquellas pocas causas que
ocasionan el problema la mayor parte de las veces; mientras que las segundas
son aquellas muchas causas que ocasionan el problema raras veces.
Este principio de Pareto dio origen a una regla conocida como bajo el nombre del
80-20 , segn la cual , el 80% de las veces el problema es ocasionado por el 20%
de las causas.
El objetivo del diagrama de Pareto, es identificar los pocos vitales, es decir ese
20% de causas importantes, a fin de centrar la accin correctiva en ellas.
En un diagrama de Pareto, la variable cualitativa en estudio, es la causa que
ocasion un determinado problema, y para construirlo se procede como sigue:
Paso N1: Se elabora una tabla de frecuencias para las causas que han
ocasionado un determinado problema. Se supone que cada vez que se ha
presentado el problema ha sido por una y sola una de las causas.
Paso N 2: Se ordenan estas causas de mayor a menor frecuencia.
Paso N 3 : Se calcula la frecuencia relativa porcentual de cada causa.
Paso N4 : Las frecuencias relativas porcentuales se acumulan, sumando la
frecuencia relativa porcentual de cada causa con todas las anteriores.
Paso N 5: El eje horizontal se divide en segmentos de igual amplitud, tantos como
causas se tengan . Cada segmento representa a una causa, y estas quedan
ordenadas de mayor a menor frecuencia.
Paso N 6 : Para cada causa se construye un rectngulo de altura igual a su
frecuencia relativa porcentual .
Paso N 7: Para cada causa , sobre la recta vertical que pasa por el punto medio
de su segmento , se ubica un punto a una altura igual a su frecuencia relativa
porcentual acumulada.
Paso N 8 : Los diferentes puntos obtenidos en el paso anterior se unen mediante
segmentos rectos .
Ejemplo 5 : Supongamos que en una industria se hizo un seguimiento, acerca de
las causas que ocasionaron la interrupcin del trabajo en una cierta mquina.
Los resultados obtenidos fueron:
Grficos Estadsticos Angel F. Arvelo L
13
Causa de la interrupcin Frecuencia
Falta de energa elctrica 4
Fatiga del operario 32
Manejo incorrecto 17
Falta de suministro 30
Falta de lubricacin 7
Falta de calibracin 11
Falla mecnica 6
Operador ausente 3
Otros 6
Hacer el Diagrama de Pareto correspondiente, e interpretarlo.
Solucin: Hay que ordenar las causas por orden de frecuencia, de mayor a menor,
calcular la frecuencia relativa porcentual de cada una, y luego acumularlas, tal
como se muestra en la tabla a continuacin.
Causa de la interrupcin Frecuencia Frecuencia Relativa
porcentual
Frecuencia relativa porcentual
acumulada
Fatiga del Operario 32 27.59 % 27.59 %
Falta de suministro 30 25.86 % 53.45 %
Manejo incorrecto 17 14.66 % 68.10 %
Falta de calibracin 11 9.48 % 77.59 %
Falta de lubricacin 7 6.03 % 83.62 %
Falla mecnica 6 5.17 % 88.79 %
Otras 6 5.17 % 93.97 %
Falta de energa elctrica 4 3.45 % 97.41 %
Operador ausente 3 2.59 % 100.00 %
TOTAL 116 100.00 %
De la tabla se deduce que las causas ms importantes son las cuatro primeras,
pues entre ellas acumulan el 77.59 % de las interrupciones, de manera que a la
hora de tomar las medidas correctivas necesarias para combatir estas
interrupciones , se tendrn identificadas las causas ms importantes.
El diagrama de Pareto correspondiente es el siguiente:
Grficos Estadsticos Angel F. Arvelo L
14
5) Grficos polares : Este tipo de grficas se utiliza principalmente para
representar la evolucin de una cierta variable en el tiempo.
Para construirlo los pasos son los siguientes:
Paso N 1: Se traza una circunferencia cualquiera.
Paso N 2: Comenzando desde el punto ms alto de la circunferencia, y en el
sentido de giro de las manecillas del reloj , se divide la circunferencia en tantos
arcos como clases se tengan , para lo cual se divide 360 en tantas partes como
clases se tengan .
Paso N 3 : Se trazan los radios correspondientes a cada uno de los puntos que
dividen a la circunferencia en partes iguales . Estos radios representan a las
diferentes clases de la variable en estudio.
Paso N 4: Sobre cada uno de esos radios, y tomando como origen el centro de la
circunferencia, se construyen segmentos de longitud igual a la frecuencia, o al
valor de la variable, para cada categora.
Paso N 5: Se borra la circunferencia inicial, y los puntos extremos de los
diferentes segmentos consecutivos se unen mediante trazos rectos.
Ejemplo 6 : Supongamos que el precio de un artculo a lo largo del ao ha venido
experimentando sucesivos aumentos, y que la siguiente tabla expresa cual ha sido
su precio al cierre de cada uno de los meses del ao:
Mes Enero Feb. Marzo Abril Mayo Junio Julio Agosto Sept. Oct. Nov. Dic.
Precio 100 105 108 108 110 114 115 120 133 150 170 184
Grficos Estadsticos Angel F. Arvelo L
15
Construir un grfico polar para mostrar la evolucin de los precios de este artculo
durante el ao.
Solucin : En este caso , como se tienen doce categoras , cada radio va a ser
trazado con centro en el origen , y con una separacin de 360
12 30 .
Sobre cada uno de ellos, y en forma consecutiva se va a representar un segmento
de longitud igual al precio del artculo en ese mes, y siguiendo los pasos antes
sealados se obtendr la siguiente grfica polar:
Es de hacer notar que en este caso, como hubo un continuo aumento en el precio
del artculo a lo largo de todo el ao, el radio correspondiente a cada mes fue cada
vez mayor, dando lugar a una curva en forma de espiral, que es la llamada espiral
inflacionaria, tan conocida en nuestro pas .
7) Pictogramas: Son grficos en donde se utiliza un smbolo, que generalmente
guarda cierta relacin con la variable que se quiere representar, para expresar su
frecuencia o valor.
As por ejemplo, si se quisiera representar la poblacin de diversos pases,
podramos hacerlo dibujando una silueta humana, y diciendo que cada una de
ellas representa una poblacin de digamos 1.000.000 habitantes; de esa forma en
lugar de indicar la cifra numrica que corresponde a la poblacin de cada pas, lo
Grficos Estadsticos Angel F. Arvelo L
16
haramos colocando tantas siluetas humanas como millones de habitantes tenga
ese pas.
8) Cartogramas: Este tipo de grfica se utiliza cuando la variable cualitativa que
se quiere representar es la ubicacin geogrfica .
Para construirlo, se dibuja el mapa de la regin y se van colocando sobre las
diferentes localidades seales que indiquen el valor de la variable en esa
localidad.
Tambin es posible, en lugar de indicar el valor numrico o frecuencia de la
variable para cada localidad , colocar un smbolo que guarde relacin con la
variable, y sobre el mapa colocar tantas veces el smbolo como frecuencia o valor
tenga la variable en esa localidad , dando, lugar as a un pictograma dibujado
sobre un mapa.
As por ejemplo, si quisiramos representar como se distribuye la produccin
petrolera de Venezuela en las diferentes regiones del pas, podramos seleccionar
un smbolo, como por ejemplo el barril , hacer una equivalencia y decir que
cada barril dibujado representa una produccin de por ejemplo = 50.000
barriles diarios en esa regin, y luego dibujar sobre cada regin en el mapa de
Venezuela , tantos barriles como sea su produccin .
9) Dos variables Cualitativas: En este caso, los datos se organizan en una tabla llamada tabla de contingencia, la cual tiene una forma matricial con filas y columnas, que corresponden a cada categora de las variables cualitativas en consideracin. En cada cruce de fila de con columna, se coloca la frecuencia absoluta que le corresponde a esa combinacin. Por ejemplo, supongamos que las dos variables cualitativas en consideracin son A y B, y que A tiene k categoras, mientras que B tiene h. La tabla de contingencia tiene por consiguiente k filas y h columnas , y en cada casilla se coloca la frecuencia que le corresponde a la fila y columna correspondiente.
B1 B2 ....... Bh Total El total de la fila representa el
A1 f11 f12 ....... f1h f1. nmero de observaciones que se
A2 f21 f22 ....... f2h f2. encontraron en cada una de las
....... ....... ....... fij ....... ....... categoras de A , y se llama
Ak fk1 fk2 ....... fkh fk. Frecuencia marginal de A.
Total f.1 f.2 ....... f.h n
Grficos Estadsticos Angel F. Arvelo L
17
Anlogamente, el total de la columna, representa la frecuencia de cada una de las categoras de la variable B, y recibe el nombre de Frecuencia marginal de B. La notacin a seguir es la siguiente: fij = Frecuencia de casilla ubicada en la fila i, y la columna j.
fi. = fijj
j h
1
= Frecuencia marginal de la fila i .
f.j = fiji
i k
1
= Frecuencia marginal de la columna j .
n = fijj
j h
i
i k
11
= fii
i k
.
1
= f jj
j h
.
1
= Nmero total de observaciones.
Una tabla de contingencia, puede ser representada grficamente de varias maneras, como en el siguiente ejemplo. Ejemplo 7 A un grupo de estudiantes universitarios, se le pregunt la carrera que cursan y su sexo. Los resultados se dan en la siguiente tabla:
CARRERA
SEXO Derecho Economa Ingeniera Letras Medicina Total
Hombre 71 63 84 16 53 287
Mujer 95 52 57 31 78 313
Total 166 115 141 47 131 600
Hacer la representacin grfica de estos datos. Solucin: Los totales de fila y de columna representan las frecuencias marginales de cada variable. Para hacer la representacin grfica, existen las siguientes alternativas: a) El histograma tridimensional : En este grfico, se selecciona a uno de los ejes, por ejemplo el X para una de las variables, al eje Y para la otra variable, y al eje Z para las frecuencias. Los ejes X y Y se dividen en tantos segmentos de igual longitud como categoras tengan cada una de las variables, quedando as el plano XY cuadriculado. Sobre cada cuadro, se construye un prisma rectangular con altura igual a la frecuencia, obteniendo el siguiente grfico:
Grficos Estadsticos Angel F. Arvelo L
18
b) El Histograma Doble. Con las frecuencias marginales de una de las variables se construye un histograma convencional, y luego el rectngulo que corresponda a cada categora de esta variable se divide en partes proporcionales segn la otra variable. As por ejemplo, si se construye el histograma para las carreras, y luego el rectngulo que seala que seala la frecuencia de cada carrera se divide segn el sexo de los estudiantes que la cursan, se obtiene el siguiente grfico:
Si en lugar de construir el histograma para las carreras, se construye el del sexo, se obtiene este otro grfico:
Hombre
Mujer0
10
20
30
40
50
60
70
80
90
100
DerechoEconoma
IngenieraLetras
Medicina
SEXO
Frecuencias
CARRERA
Hombre
Mujer
0
20
40
60
80
100
120
140
160
180
Derecho Economa Ingeniera Letras Medicina
Frecuencias
CARRERA
Mujer
Hombre
Grficos Estadsticos Angel F. Arvelo L
19
Tambin es posible construir el histograma doble, colocando en el eje horizontal a una de las variables y luego, en lugar de representar su frecuencia marginal, construir tantos rectngulos como categoras tenga la otra variable, colocndolos uno al lado del otro sin suponerlos, dando lugar a los siguientes grficos:
0
50
100
150
200
250
300
350
Hombre Mujer
frecuencia
SEXO
Medicina
Letras
Ingeniera
Economa
Derecho
0102030405060708090
100
Derecho Economa Ingeniera Letras Medicina
frecuencia
CARRERAS
Hombre
Mujer
0
10
20
30
40
50
60
70
80
90
100
Hombres Mujeres
frecuencia
SEXO
Derecho
Economa
Ingeniera
Letras
Medicina
Grficos Estadsticos Angel F. Arvelo L
20
c) Grficos Circulares. Estos consisten en utilizar un grfico circular, para representar la forma como se distribuye cada categora de una de las variables segn la otra. As por ejemplo, para representar la distribucin de la poblacin masculina y femenina, segn las diferentes carreras, tendramos:
Otra posibilidad es sealar la distribucin por sexo en cada carrera, dando lugar a los siguientes grficos circulares:
y as sucesivamente, con las dems carreras. Tambin es posible construir grficos con las frecuencias marginales de cada variable, en donde no se tome en consideracin a la otra.
25%
22%29%
6%
18%
Poblacin Masculina
Derecho
Economa
Ingeniera
Letras
Medicina
30%
17%18%
10%
25%
Poblacin Femenina
Derecho
Economa
Ingeniera
Letras
Medicina
43%
57%
Derecho
Hombres
Mujeres 55%
45%
Economa
Hombres
Mujeres
Grficos Estadsticos Angel F. Arvelo L
21
Obviamente, la decisin acerca de cul es el grfico ms conveniente, depende del mensaje que se quiera trasmitir con l, y de los aspectos que ms se quieran resaltar. No hay que olvidar el objetivo de la Estadstica Descriptiva, cual es el de proporcionar tcnicas que permitan de una manera fcil y precisa, resumir el comportamiento de los datos.
Ejemplos Resueltos
Ejemplo 7: Los siguientes datos representan el grado de instruccin de una
muestra de personas adultas:
Grado de Instruccin Frecuencia
Secundaria 237
Post-grado 31
Ninguna 2
Primaria 43
Universitaria 187
Total 500
Construir un Histograma de Frecuencias Absolutas, y otro de Frecuencias
Relativas porcentuales para estos datos.
Solucin: En este caso, estamos en presencia de una variable cualitativa, pero
ordinal, y por tanto hay que ordenar las diferentes clases en orden creciente en
lugar de orden alfabtico.
El Histograma de Frecuencias absolutas es como sigue:
28%
19%23%
8%
22%
Distribucin de estudiantes por carreras
Derecho
Economa
Ingeniera
Letras
Medicina
48%
52%
Distribucin de estudiantes por sexo
Hombres
Mujeres
Grficos Estadsticos Angel F. Arvelo L
22
En lo que se refiere al histograma de frecuencias relativas porcentuales, es
necesario calcular el porcentaje de cada clase con relacin al total de adultos
observados, en este caso 500,y se encuentra :
Ejemplo 8 : En una encuesta, se le pregunt a un grupo de familias acerca de su nivel de ingresos. Una vez procesada la encuesta, se encontr que el 5 % de las familias eran de muy altos ingresos, el 25 % eran de altos ingresos, el 40 % eran de ingresos medios y el 30% restante eran de bajos ingresos.
0
50
100
150
200
250
Ninguna Primaria Secundaria Universit. Post-grado
Grado de Instruccin
Frecuencia
Variable Ordinal
Grficos Estadsticos Angel F. Arvelo L
23
Graficar estos resultados en: a) Un histograma de frecuencias relativas porcentuales . b) Un grfico circular . c) En un grfico de cuadrado proporcionales. d) En un grfico de crculos proporcionales. Solucin: a) Para construir el histograma es necesario tomar de nuevo en consideracin que se trata de una variable ordinal , y que por lo tanto las diferentes clases deben ser representadas en orden creciente , y no en orden alfabtico.
b) Para construir el grfico circular se le aplica la frecuencia relativa porcentual
correspondiente de cada categora a 360 , obteniendo sus respectivos ngulos
centrales , que resultan ser 108 , 144 , 90 y 18 respectivamente .
Grficos Estadsticos Angel F. Arvelo L
24
c) Para construir tanto el grfico de cuadrados como el de crculos proporcionales,
se toma como base la clase de menor frecuencia en este caso muy altos
ingresos .
A esta categora se le da un lado , o un radio arbitrario de por ejemplo 20 mm , y
las dems se calculan en proporcin obteniendo:
Altos Ingresos : Lado Radio = 2025
5 = 44.72
Bajos ingresos : Lado Radio = 2030
5 = 48.99 mm .
Ingresos medios : Lado Radio = 2040
5 = 56.57 mm.
Las respectivas grficas resultan :
Ejemplo 9 : En un estudio de calidad se hizo un seguimiento acerca de los
defectos presentados por los automviles ensamblados en una cierta fbrica. Los
resultados fueron
Tipo de defecto Frecuencia
Pintura defectuosa 8
Ruidos 86
No cierran bien las puertas 11
Cables defectuosos 6
No funciona el radio 36
Batera defectuosa 15
Falla de bujas 19
Grficos Estadsticos Angel F. Arvelo L
25
Amortiguadores defectuosos 6
Aire acondicionado defectuoso 45
No encienden las luces 10
Frenos defectuosos 4
Otros 12
Construir un diagrama de Pareto, para identificar aquellos defectos que mas
afectan la calidad de los automviles ensamblados en esta fbrica .
Solucin : Segn lo ya explicado , se ordenan los defectos de mayor a menor
frecuencia , se calculan las frecuencias relativas porcentuales , y las porcentuales
acumuladas, tal como en la tabla a continuacin :
Tipo de defecto Frecuencia Porcentaje Acumulado
Ruidos 86 33.33 % 33.33 %
Aire Acondicionado defectuoso 45 17.44 % 50.78%
No funciona el radio 36 13.95 % 64.73 %
Falla de Bujas 19 7.36 % 72.09 %
Batera defectuosa 15 5.81 % 77.91 %
Otros 12 4.65 % 82.56 %
No cierran bien las puertas 11 4.26 % 86.82 %
No encienden las luces 10 3.88 % 90.70 %
Pintura defectuosa 8 3.10 % 93.80 %
Amortiguadores defectuosos 6 2.33 % 96.12 %
Cables defectuosos 6 2.33 % 98.45%
Frenos defectuosos 4 1.55 % 100.00 %
TOTAL 258 100.00 %
En la tabla puede apreciarse que las cuatro primeras causas ocasionan el 72.09%
de los defectos, y el diagrama de Pareto es el siguiente
Grficos Estadsticos Angel F. Arvelo L
26
Ejemplo 10 : Los siguientes datos representan las ventas de una empresa
distribuidas en los cuatro trimestres del ao:
Trimestre Primero Segundo Tercero Cuarto
Ventas 600.000 750.000 800.000 1.000.000
Representar el crecimiento de las ventas en esta empresa, mediante :
a) Un grfico de crculos proporcionales.
b) Un grfico polar.
Solucin : a) Para construir el grfico de crculos proporcionales , tomamos como
base el primer trimestre, le damos un radio arbitrario de 30 mm, y los dems
resultan ser de:
r2 = 30750
600 = 33.54 ; r3 = 30
800
600 = 34.64 ; r4 = 30
1000
600 = 38.73
El grfico polar estar formado por cuatro radios polares separados a 90 , y de
longitud igual a las ventas de cada trimestre .
Grficos Estadsticos Angel F. Arvelo L
27
Ejemplo 11 : Complete la siguiente tabla de frecuencias:
Categora Frecuencia Frecuencia relativa porcentual
A ? 19.0%
B 57 ?
C ? 32.0%
D ? ?
Total 200 ?
Solucin : La suma de las frecuencia relativas porcentuales debe ser 100% .
hB% = 57
200100% = 28.50 % hD % = 100% - 19.0% -28.5%- 32.0% = 20.50%
Para cada categora debe verificarse : hf
ni
i% 100% f
hni
i%
100%
En nuestro caso: n = 200 fA19%
100%200 = 38 ; fC
32%
100%200 = 64 ;
fD20 5%
100%200
. = 41 , lo que completa la tabla.
Ejemplo 12 : Complete la siguiente tabla de frecuencia:
Categora Frecuencia Frecuencia relativa porcentual
A x ?
B 2 x 16%
C 3 x ?
D 100 ?
E 30 ?
Grficos Estadsticos Angel F. Arvelo L
28
Total ? ?
Solucin : El total de datos n= x + 2 x + 3 x + 100 + 30 = 6 x + 130
Para la categora B se tiene : hf
n
x
xB
B% 100%
2
6 130100% 16%
Despejando x se obtiene: 2 x = 0.16 (6 x + 130) = 0.96 x + 20.80
De donde : 1,04 x = 20.80 x = 20
Por lo tanto los valores que faltan en la tabla son:
fA = 20 ; fB = 40 ; fC = 60 ; n = 250 ; hA % = 8% ; hc % = 24% ; hD % = 40%
hE % = 12% . Total = 100% .
Ejemplo 13 En una encuesta electoral , se le pregunt a personas de ambos
sexos , su preferencia entre tres candidatos A, B y C encontrndose:
Suponiendo que en esta poblacin existen 45% de hombres y 55% de mujeres ,
calcule el porcentaje de votos a favor de cada candidato .
Solucin : No se dice cuantos habitantes hay en esta poblacin , pero en realidad
no hace falta , pues basta con tomar un nmero cualquiera N , de por ejemplo
100.000 .
Sobre esta base , tenemos que 55.000 son mujeres y 45.000 hombres .
La preferencia de las 55.000 mujeres entre los tres candidatos es como sigue:
Para A : 39% de 55.000 = 21.450 ; para B : 28% de 55.000 = 15.400 , mientras
que para el candidato C : 33% de 55.000 = 18.150 .
Para los 45.000 hombres se tiene : Para A : 52% de 45.000 = 23.400 , para el
candidato B: 29% de 45.000 = 13.050 ; y para C : 19% de 45.000 = 8550 .
Grficos Estadsticos Angel F. Arvelo L
29
En consecuencia , por cada 100.000 habitantes , el nmero total de simpatizantes
para cada candidato es :
Para A : 23.400 hombres + 21.450 mujeres = 44.850 simpatizantes .
Para B : 13.050 hombres + 15.400 mujeres = 28.450 simpatizantes .
Para C: 8.550 hombres + 18.150 mujeres = 26.700 simpatizantes .
En consecuencia , sobre la poblacin total, el porcentaje de simpatizantes para
cada candidato es : 48.85 % para A , 28.45 % para B y 26.70 % para C .
Ejemplo 14 En un estudio electoral, se clasific a un grupo de personas seleccionadas al azar , segn su condicin econmica, y segn el candidato de su preferencia. Los resultados fueron :
Condicin
Econmica
Candidato A
Candidato B
Candidato C
Candidato D
Baja 95 32 235 58
Media 143 12 94 21
Alta 72 15 9 14
a) Construya un diagrama circular que seale las preferencias hacia a cada candidato , en base a toda la muestra . b) Construya un grfico circular , que seale las preferencias hacia cada candidato, entre las personas de condicin econmica baja. c) Construya un histograma de frecuencias relativas que seale la composicin por niveles socio econmicos, para los simpatizantes del candidato D. Solucin: a) La distribucin marginal de frecuencias para cada candidato se obtiene sumando sobre las filas, y se obtiene:
Candidato A Candidato B Candidato C Candidato D Total
Frecuencia 310 59 338 93 800
Con las frecuencias marginales correspondientes a cada candidato, se procede a construir el grfico circular.
A38,75%
B7,38%
C42,25%
D11,63%
Grficos Estadsticos Angel F. Arvelo L
30
b) La preferencia de las personas de condicin socio econmica baja, aparecen sealadas en la primera fila de la tabla bidimensional de frecuencias, y con ella se elabora el correspondiente grfico circular, tomando en consideracin que la frecuencia marginal es 420, lo que arroja para el candidato A por ejemplo, una frecuencia relativa
de: 95
420 100% = 22,62 % .
c) La distribucin de los simpatizantes del candidato D por niveles socio econmicos viene dada en la ltima columna de la tabla, con una frecuencia marginal de 93, lo que da para el nivel Bajo, por ejemplo, una frecuencia
relativa de : 58
93 100% = 62,37 %
Preguntas de Revisin
1) Por qu es importante que en un histograma de frecuencias, la escala
vertical sea lineal , y su origen sea el cero ? . De ejemplos .
2) Si se construye un histograma de frecuencias dndole diferente ancho a las
categoras, se cumple el principio de proporcionalidad de reas ? .
3) Cual es la diferencia entre un grfico circular , y uno de crculos
proporcionales ? .
4) Cual es el objetivo de un Diagrama de Pareto ? .
5) Porqu es recomendable colocar en orden alfabtico a las diferentes
categoras de una variable nominal ? .
A22,62%
B7,62%C
55,95%
D13,81%
62,37
22,5815,05
0
10
20
30
40
50
60
70
Baja Media Alta
Porc
enta
je
Condicin Economica
Simpatizantes Candidato "D"
Grficos Estadsticos Angel F. Arvelo L
31
6) En grfico polar , como se representan las frecuencias correspondientes a
cada categora ? .
7) Si un grfico polar resulta ser un polgono regular que puede ser inscrito en
una circunferencia , como lo interpreta Ud. ? .
8) Cuando conviene utilizar un cartograma ? .
9) Si se decide utilizar tringulos issceles de igual base , para representar a las
diferentes categoras de una variable cualitativa en un grfico de figuras
proporcionales, que relacin deben guardar sus alturas ? .
10) Al clasificar a los elementos de una poblacin en una tabla de frecuencias
segn categoras de una variable cualitativa , qu debe hacerse y por qu , si
existe la posibilidad de que un mismo elemento pertenezca simultneamente a dos
mas categoras a la vez ? . De ejemplos.
PROBLEMAS PROPUESTOS
I - Nivel Elemental 1 Una empresa de artculos del hogar vendi durante el ao pasado, los siguientes montos, en cada una de sus lneas: Neveras............. 1.200.000 Cocinas...................................... 500.000 Lavadoras................................. 200.000 Secadoras................................. 350.000 Televisores............................. 800.000 a) Construya un grfico circular, que exprese la forma como se distribuyen las ventas de esta empresa entre los diferentes artculos que vende. b) Construya un grfico de cuadrados proporcionales, para expresar como son, en proporcin, las ventas de los diferentes artculos. 2 Suponga que al leer un grfico circular, en donde intervienen cuatro categoras, Ud. encuentra que por error no aparecen sealados sobre l, las frecuencias relativas porcentuales correspondientes a cada categora ,y que Ud. para averiguarlas, toma un transportador y mide los ngulos centrales, encontrando 130 ,75 , 60 y 95 respectivamente. Cules son las frecuencias relativas porcentuales correspondientes ?. Respuesta : 36.11 % , 20.83 % , 16.67 % y 26.39%
Grficos Estadsticos Angel F. Arvelo L
32
3 En la sala de emergencias de un hospital, se hizo un seguimiento sobre las causas que motivaron el ingreso de los pacientes. Los resultados fueron :
Motivo del ingreso Frecuencia
Herida por arma de fuego 63 Herida por arma blanca 25
Accidente de transito 96 Coma diabtico 11
Problemas cardacos 83 Convulsiones 8 Intoxicacin 13 Fiebre alta 6
Otros 14
Haga un diagrama de Pareto para esta situacin , e interprete el resultado. 4 En un estudio econmico se analiz el precio de la canasta bsica durante los ltimos ocho aos, encontrndose :
Ao 1 2 3 4 5 6 7 8 Precio 520 610 650 700 830 850 1000 1240
Represente la evolucin en el precio de la canasta bsica en: a) Un grfico de crculos proporcionales. b) Un grfico polar. I I- Nivel Intermedio 5 Demuestre que en un grfico circular, las reas de los sectores que corresponden a cada categora, estn en la misma proporcin que sus respectivas frecuencias. 6 En una encuesta electoral donde intervienen tres candidatos, se encontr que los electores a favor de ellos, estn en proporcin 2:3:5 .Represente este resultado en: a) Un histograma de frecuencias relativas porcentuales b) Un diagrama circular. c) Un grfico de crculos proporcionales. 7 Complete la siguiente tabla de frecuencias :
Categora Frecuencia absoluta Frecuencia relativa porcentual
A ? 8.00 % B 48 32.00 % C 36 ? D ? ? E 39 ?
Total ? ?
Grficos Estadsticos Angel F. Arvelo L
33
Respuesta: fA = 12 , hC%= 24.00% , fD= 15 ,hD%= 10.00% , hE%= 26.00% , n=150 I I I- Nivel Avanzado 8 Suponga que al interpretar un grfico de cuadrados proporcionales en donde intervienen tres categoras, Ud. encuentra que el cuadrado correspondiente a la primera categora tiene 4 cms. de lado, el correspondiente a la segunda categora 7 cms. de lado, y el correspondiente a la tercera categora 10 cms. de lado. Que porcentaje de la poblacin corresponde a cada categora? . Respuesta: 9.70 % , 29.69 % y 60.61 % 9 Complete la siguiente tabla de frecuencias:
Categora Frecuencia Absoluta Frecuencia relativa porcentual (%)
A x ?
B 2x ?
C 40 ?
D ? 15%
Total 5x ?
Respuesta: x= 32 , fD= 24 10 En un estudio de mercado , se consideraron cuatro marcas de jabn detergente A, B , C y D . Las amas de casa entrevistadas fueron clasificadas en tres categoras segn su condicin econmica, en : Baja, Media y Alta . El resultado de la encuesta se muestra en la siguiente grfica:
Suponiendo que las clases baja , media y alta estn en razn de 4:5:1 respectivamente, calcule el porcentaje de mercado que le corresponde a cada una de estas cuatro marcas de jabn detergente, y utilcelas para construir: a) Un grfico circular. b) Un grfico de cuadrados proporcionales. Respuesta: A :17.50% , B: 31.10% , C: 33.10 % , D: 18.30% .
Grficos Estadsticos Angel F. Arvelo L
34
11 Complete la siguiente tabla de frecuencias: Categora Frecuencia Absoluta Frecuencia Relativa Porcentual
A x 25%
B y ?
C 3y 18%
D 5 ?
E 2x ?
Total ? ?
Respuesta: x = 125 ; y = 30
3 . Tablas de Frecuencias para datos cuantitativos Un dato cuantitativo es el resultado de medir una variable cuantitativa , como por
ejemplo , una estatura , un peso , etc., y ser siempre un valor numrico , dentro
de una escala de intervalos , o dentro de una escala de razn.
Hay que recordar sin embargo, que la distincin entre datos provenientes de una
variable discreta y datos provenientes de una variable continua, tiene ms un
valor terico que prctico, ya que en la prctica todos los datos son discretos,
debido que al medir una variable continua, los instrumentos de medida no
permiten pasar ms all de un cierto lmite de precisin, y por lo tanto el resultado
de nuestra observacin no podr tener ms cifras decimales que las que el
instrumento de medicin nos permita apreciar. Cuando se tiene una coleccin de datos cuantitativos, existen tres posibilidades para realizar el tratamiento: a) Tratamiento puntual o sin agrupar : Esta forma de tratamiento consiste en conservar todas las mediciones , sin efectuar ningn tipo de clasificacin ni agrupamiento . El tratamiento puntual , o sin agrupar tiene la ventaja de que es ms preciso pues conserva cada dato en su valor exacto ( con las limitaciones de medicin ya mencionadas anteriormente para el caso continuo) , pero tiene la gran desventaja de que resulta incmodo el tratamiento . Solo es recomendable en el caso de muestras muy pequeas, en donde cualquier otro tipo de tratamiento provocara una prdida casi total de la informacin . b) Tabla puntual o discreta de frecuencias : Esta segunda alternativa consiste en elaborar una tabla de frecuencias del mismo estilo ya explicado anteriormente para el caso de Variables Cualitativas . Este tipo de tabla de frecuencias expresa el nmero de veces que se repite cada valor de la variable cuantitativa, y slo es recomendable para variables discretas que toman un nmero muy reducido de valores diferentes, y que al tener un rango de variacin pequeo no permite efectuar un agrupamiento.
Grficos Estadsticos Angel F. Arvelo L
35
En una tabla puntual de frecuencias , el dato conserva su valor exacto, y la frecuencia le corresponde exclusivamente a l. Al igual que en el caso cualitativo, la frecuencia relativa expresa la fraccin de observaciones que le corresponden a un determinado valor , y la frecuencia
relativa porcentual su porcentaje: hf
nii ; h
f
nii
% 100%
Donde : fi = Frecuencia absoluta del valor i
n = f1+f2+..+fk = fi
i
i k
1
= Nmero total de observaciones .
k = Nmero de valores diferentes que puede tomar la variable. hi = Frecuencia relativa del valor i hi % = Frecuencia relativa porcentual del valor i Ejemplo 1: Supongamos que se administra una encuesta en 50 hogares , y se pregunta el nmero de automviles que posee, y que las respuestas obtenidas fueron: 1 2 1 0 1 3 1 0 0 0 1 2 1 0 0 1 2 0 1 3 0 1 2 0 0 0 0 1 3 1 2 1 0 1 0 2 2 3 0 1 0 0 0 2 1 1 1 1 0 1 Construir la tabla de frecuencias correspondiente. Solucin : La variable nmero de automviles que posee la vivienda es discreta, y presenta un rango de variacin muy reducido : 0 , 1 , 2 y 3 , por lo que conviene construir una tabla puntual de frecuencias . Para construir la tabla basta con contar el nmero de veces que se ha encontrado cada valor, y proceder de la misma manera como ya se explic en el caso de tablas de frecuencias para Variables Cualitativas :
N de automviles
Frecuencia
Frecuencia Relativa
Frecuencia Relativa
Porcentual
0 19 0.38 38.00 %
1 19 0.38 38.00 %
2 8 0.16 16.00 %
3 4 0.08 8.00 %
Total 50 1.00 100.00 %
c) Tratamiento agrupado : Esta tercera forma de tratamiento consiste en clasificar los datos en intervalos , lo que trae como consecuencia que se pierde la informacin acerca de su verdadero valor, pero se hace ms cmodo el tratamiento . El tratamiento agrupado permite obtener una mejor visin de conjunto acerca del comportamiento de los datos, y conviene cuando se tiene una coleccin grande de datos ( 30 mas ) ; especialmente en el caso de variables continuas que tengan un rango amplio de variacin, y no sea necesario distinguir entre valores parecidos de la variable. Para agrupar los datos hay que responder las siguientes preguntas:
Cuantos intervalos tomar ? .
Grficos Estadsticos Angel F. Arvelo L
36
Qu amplitud deben tener estos intervalos ? .
Cuales deben ser los lmites de los intervalos ? . La respuesta a cada una de estas preguntas es la siguiente: c.1 Nmero de intervalos : No existe una frmula matemtica que permita calcular de manera exacta y precisa el nmero de intervalos que deben ser definidos al hacer un agrupamiento de datos cuantitativos, pero es posible definir algunos criterios que de una manera aproximada permitan establecer el nmero de intervalos a considerar. De una manera general , puede decirse que el nmero de intervalos no debe ser tan excesivamente grande que se pierdan las ventajas del agrupamiento , ni tan pequeo que se pierda la informacin, y para definirlo se dan las siguientes alternativas: c.1.1 Frmula emprica de Sturges . Segn el autor Herbert A. Sturges (1926) , si se designa por : n= Nmero total de datos. k= Nmero de intervalos a considerar.
Entonces : k 1 + 3.32 log n
Esta frmula es completamente arbitraria, se recomienda para n 500, y proporciona una buena orientacin inicial acerca del nmero de intervalos a considerar . As por ejemplo , segn ella , para una muestra de 1000 datos , es necesario
definir : k 1 + 3.32 log 1000 = 10.96 11 intervalos. c.1.2 Frmula de la raz. Otro criterio que proporciona una buena aproximacin inicial acerca del nmero de intervalos a tomar , especialmente en el caso de muestras pequeas , es el que establece que el nmero de intervalos necesarios para hacer el agrupamiento debe ser aproximadamente igual a la raz cuadrada
del nmero de datos : k n . Segn este criterio , una muestra de por ejemplo 100 datos debe agruparse en 10 intervalos . c.1.3 Agrupamiento a criterio. En el agrupamiento a criterio , el nmero de intervalos se define a juicio de la persona que lo esta haciendo . Se recomienda tomar entre 5 y 15 intervalos , siendo lo ms frecuente ocho ; y en ningn caso es recomendable tomar ms de 20 intervalos . c.2 Amplitud de los intervalos . Una vez definido el nmero de intervalos a tomar, su amplitud puede ser calculada de manera aproximada , de la siguiente manera:
Se calcula el rango de los datos , haciendo la diferencia entre el mayor y el menor valor . R = Xmax. - Xmin .
Grficos Estadsticos Angel F. Arvelo L
37
El rango se divide entre el nmero de intervalos a tomar. cX X
k
R
kmax min
c = Amplitud de los intervalos .
El resultado obtenido se aproxima al nmero cmodo ms cercano; entendiendo por nmero cmodo a un nmero entero mltiplo de 5 de 10, o de una potencia de 10 , segn el orden de magnitud de los datos , y que sea fcil de recordar.
En caso de que se aproxime a un nmero menor, es posible que resulten ms intervalos de lo previsto, y en caso de que se aproxime a uno mayor , menos de lo previsto. Se acostumbra que la amplitud de cada uno de los intervalos sea la misma, aunque es posible construir tablas de frecuencias con intervalos de amplitud diferente. Este caso ser considerado ms adelante. c.3 Lmites de clase. Se entiende por lmites de clase a los extremos de los intervalos donde quedan clasificados los datos. Como no es necesario que el lmite inferior del primer intervalo coincida exactamente con menor valor de los datos , ni que el lmite superior del ltimo intervalo con el mayor , es usual arrancar el primer intervalo desde un nmero exacto mltiplo de 5 , de 10 o de una de sus potencias , que sea ligeramente inferior al menor valor de los datos, , y a partir de all definir los siguientes lmites de clase , segn sea la amplitud . Para definir los lmites de clase , existen dos criterios: c.3.1 Definir los intervalos como cerrados en su extremo inferior y abiertos en el superior , sin interrumpir la continuidad entre un intervalo y el siguiente. Bajo este criterio una variable como por ejemplo la estatura de un grupo de personas, quedara clasificada en intervalos que van desde 1.40 m a 1.50 m el primero, desde 1.50 m a 1.60 m el segundo , desde 1.60 m a 1.70 m , el tercero y as sucesivamente ; y de darse una medicin igual a la frontera por decir 1.60 m, sta quedara clasificada en el intervalo que la tenga como lmite inferior, es decir el intervalo 1.60 a 1.70 , por ser cerrado en el lmite inferior. Este criterio tiene la ventaja de que no interrumpe la continuidad de los datos, y equivale a definir los datos dentro de un intervalo como mayor o igual que el lmite inferior y estrictamente menor que el lmite superior . c.3.2 Definir los intervalos como cerrados en sus dos extremos . Bajo este criterio, en un caso como el anterior , los lmites de clase quedaran definidos como desde 1.40 hasta 1.49 el primero , desde 1.50 hasta 1.59 el segundo, etc. . Este segundo criterio es ms claro desde el punto de vista que no presenta la ambigedad que pudiera presentar el anterior , cuando una observacin es igual a la frontera y no se seale claramente sobre la tabla que el intervalo es cerrado en el extremo inferior y abierto en el superior.
Grficos Estadsticos Angel F. Arvelo L
38
La desventaja de este criterio es que interrumpe la continuidad de los datos , al dejar un vaco entre el extremo superior de un intervalo y el inferior del siguiente, lo que distorsiona los grficos , como el histograma. Quienes utilicen este criterio para definir los lmites de clase debern distinguir entre lmites reales y lmites aparentes de un intervalo, para no interrumpir la continuidad de los datos. En las grficas, las fronteras entre un intervalo y el siguiente vendrn dadas por los lmites reales. Por esta razn , un intervalo definido por sus extremos aparentes como podran ser desde 1.40 hasta 1.49 , cubre en realidad mediciones reales en el intervalo [1.395 ; 1.495) que son sus lmites reales , mientras que el intervalo aparente de 1.50 a 1.59 cubre valores reales en [1.495 ; 1.595) . De lo anterior se deduce entonces que para hallar los lmites reales de un intervalo:
Lmite Real Inferior = L.r.i = Lmite Aparente Inferior - 1
2 Sensibilidad
Lmite Real Superior = L.r.s= Lmite Aparente Superior + 1
2 Sensibilidad
Es importante destacar que cuando se utiliza este criterio , la amplitud del intervalo viene dada por la diferencia entre sus lmites reales , y no por la de sus lmites aparentes , en consecuencia : c = L.r.s - L.r.i . Lo anterior significa que si un intervalo est definido por los lmites 1.50 a 1.59 , su amplitud aparente es 1.59 - 1.50 = 0.09 ; pero su amplitud real es 1.595 - 1.495 = 0.10 .. Para distinguir si los datos estn agrupados por el primer o segundo criterio, basta con observar la tabla de frecuencias. Si los lmites de clase estn definidos sin interrupcin de continuidad , estn agrupados segn el primer criterio, y si los lmites de clase presentan una interrupcin en la continuidad , estn agrupados segn el segundo criterio. Ejemplo 2 : Los siguientes 60 datos , representan la estatura de los estudiantes en un curso de Estadstica , medidas con una sensibilidad de 0.01 metro , es decir 1 centmetro . 1.66 1.69 1.76 1.82 1.54 1.63 1.80 1.60 1.71 1.63 1.75 1.74 1.70 1.66 1.68 1.80 1.57 1.53 1.61 1.93 1.72 1.61 1.69 1.68 1.73 1.60 1.66 1.59 1.47 1.50 1.67 1.48 1.61 1.73 1.80 1.66 1.60 1.63 1.78 1.79 1.46 1.89 1.73 1.78 1.65 1.90 1.57 1.74 1.61 1.62 1.61 1.81 1.53 1.59 1.66 1.77 1.70 1.65 1.68 1.53 Agrupar estos datos en una tabla de frecuencias . Solucin : El primer paso es definir cuantos intervalos se van a tomar . Para una muestra de 60 datos , segn la frmula de la raz , habra que tomar:
k 60 8 intervalos . El paso siguiente es definir su amplitud . El mayor valor es 1.93 , el menor valor 1.46 , y por tanto el rango : R = 1.93 - 1.46 = 0.47 .
Grficos Estadsticos Angel F. Arvelo L
39
Para 8 intervalos , la amplitud debera ser entonces : c0 47
8
. = 0.0588
La amplitud 0.0588 se aproxima a un valor que resulte ms cmodo para trabajar, como por ejemplo 0.05 , con lo que posiblemente resulten ms intervalos de lo previsto. El tercer paso es definir los lmites de clase. Supongamos que decidimos seguir el primer criterio . A continuacin hay que decidir donde arrancar el primer intervalo. Como el menor valor es 1.46 , podramos arrancar el primer intervalo desde 1.45 que resulta ms cmodo, y de esta manera quedaran los siguientes lmites de clase: desde 1.45 hasta 1.50 el primero , desde 1.50 hasta 1.55 el segundo , y as sucesivamente . El paso siguiente es contar cuantas observaciones caen en cada uno de estos intervalos, teniendo en cuenta que es cerrado en el extremo inferior y abierto en el superior. La tabla de frecuencias resulta:
Estatura Frecuencia Frecuencia Relativa Porcentual
1.45 a 1.50 3 5.00 %
1.50 a 1.55 5 8.33 %
1.55 a 1.60 4 6.67 %
1.60 a 1.65 12 20.00 %
1.65 a 1.70 13 21.67 %
1.70 a 1.75 9 15.00 %
1.75 a 1.80 6 10.00%
1.80 a 1.85 5 8.33 %
1.85 a 1.90 1 1.67 %
1.90 a 1.95 2 3.33 %
TOTAL 60 100.00
De haber definido los lmites de clase por el segundo criterio, la tabla hubiese quedado:
Estatura
Lmites Reales
Frecuencia
Frecuencia Relativa
Porcentual
1.45 a 1.49 1.445 a 1.495 3 5.00 %
1.50 a 1.54 1.495 a 1.545 5 8.33 %
1.55 a 1.59 1.545 a 1.595 4 6.67 %
1.60 a 1.64 1.595 a 1.645 12 20.00 %
1.65 a 1.69 1.645 a 1.695 13 21.67 %
1.70 a 1.74 1.695 a 1.745 9 15.00 %
1.75 a 1.79 1.745 a 1.795 6 10.00%
1.80 a 1.84 1.795 a 1.845 5 8.33 %
1.85 a 1.89 1.845 a 1.895 1 1.67 %
1.90 a 1.94 1.895 a 1.945 2 3.33 %
TOTAL 60 100.00 %
Tabla de frecuencias acumuladas: Una vez que se ha construido la tabla de frecuencias, bien sea puntual o agrupada por cualquiera de los dos criterios , es
Grficos Estadsticos Angel F. Arvelo L
40
posible complementar la informacin contenida en ella , mediante las frecuencias acumuladas . La frecuencia absoluta acumulada de un intervalo expresa el nmero total de observaciones que son iguales o menores que su lmite superior. Para obtenerla basta con sumar todas las frecuencias absolutas correspondientes a los intervalos anteriores , con la frecuencia propia :
F f f f fj j ii
i j
1 21
.
Donde : Fj = Frecuencia absoluta acumulada hasta el intervalo j . fi= Frecuencia absoluta del intervalo i . De manera anloga , la frecuencia relativa acumulada de un intervalo expresa la fraccin de observaciones que son iguales o menores que el lmite superior del intervalo ; y la frecuencia relativa porcentual acumulada , el porcentaje de observaciones que son iguales o menores que el lmite superior del intervalo .
H h h h hj j ii
i j
1 21
; H h h h hj j ii
i j
% % % % %1 21
Hj = Frecuencia relativa acumulada hasta el intervalo j = F
n
j
Hj %= Frecuencia relativa porcentual acumulada hasta el intervalo j = F
n
j 100%
Ejemplo 3 : Completar la tabla del Ejemplo 2 , incluyendo la frecuencias absolutas acumulada , y la frecuencia relativas porcentuales acumuladas . Solucin: La frecuencia acumulada del primer intervalo es: F1 = f1 = 3 , y significa que 3 personas miden 1.49 menos , que es el lmite superior del primer intervalo . La frecuencia acumulada del segundo intervalo es : F2 = f1 + f2 = 3 + 5 = 8 ; y su interpretacin es que 8 personas en la muestra , tienen una estatura igual o menor que el lmite superior del intervalo 1.54 . La frecuencia relativa porcentual acumulada del primer intervalo es : H1 % = h1 % = 5 % , y significa que el 5% de las observaciones son iguales o menores que el lmite superior del primer intervalo, que es 1.49 ; es decir , que el 5% de las personas en la muestra miden 1.49 menos . La frecuencia relativa porcentual acumulada del segundo intervalo es : H2 % = h1 % + h2 % = 5 % + 8.33 % = 13.33 %, y significa que el 13.33 % de las personas en la muestra , miden 1.54 menos . Procediendo de manera anloga con los dems intervalos , se completa la tabla obteniendo:
Estatura
Lmites Reales
Frecuencia
Frecuencia
acumulada
Frecuencia
Relativa
Porcentual
Frecuencia
Relativa
Porcentual
Acumulada 1.45 a 1.49 1.445 a 1.495 3 3 5.00 % 5.00 %
1.50 a 1.54 1.495 a 1.545 5 8 8.33 % 13.33 %
1.55 a 1.59 1.545 a 1.595 4 12 6.67 % 20.00 %
1.60 a 1.64 1.595 a 1.645 12 24 20.00 % 40.00 %
Grficos Estadsticos Angel F. Arvelo L
41
1.65 a 1.69 1.645 a 1.695 13 37 21.67 % 61.67%
1.70 a 1.74 1.695 a 1.745 9 46 15.00 % 76.67 %
1.75 a 1.79 1.745 a 1.795 6 52 10.00% 86.67 %
1.80 a 1.84 1.795 a 1.845 5 57 8.33 % 95.00 %
1.85 a 1.89 1.845 a 1.895 1 58 1.67 % 96.67 %
1.90 a 1.94 1.895 a 1.945 2 60 3.33 % 100.00 %
TOTAL 60 100.00 %
Tabla 4.4
Ejercicios Propuestos: 4) Los siguientes datos representan el nmero de hijos que tienen cada uno de los 100 empleados de una organizacin industrial: 2 1 2 2 2 0 1 1 1 1 1 0 3 0 2 3 1 2 4 1 1 1 1 1 2 3 1 2 0 2 2 4 2 1 0 1 2 2 3 2 1 0 0 0 3 1 2 2 1 0 1 0 3 2 1 0 3 1 2 1 2 0 2 2 2 1 1 3 0 2 2 2 1 0 0 1 1 2 1 3 2 1 1 4 1 0 1 1 0 1 1 2 2 1 2 2 2 2 1 2 a) Construya la tabla de frecuencias , indicando frecuencias absolutas , relativas
porcentuales , absolutas acumuladas y relativas porcentuales acumuladas . b) Construya un grfico circular . 5) Los siguientes datos representan el peso de un grupo de personas, expresados en Kilogramos, y redondeados al entero ms cercano: 53 76 85 59 82 75 66 61 59 63 79 68 63 71 87 67 71 79 60 53 57 62 69 52 59 70 61 66 63 75 65 60 72 88 70 53 77 86 51 67 78 89 50 76 64 71 78 57 53 69 94 68 75 70 81 67 55 57 60 52 68 64 80 77 67 93 77 55 72 64 63 70 72 46 51 53 87 71 69 60 55 73 59 52 55 62 91 60 50 86 74 73 83 55 67 70 59 62 90 65 78 77 66 57 50 61 67 70 63 72 88 78 54 77 58 48 56 58 63 90 66 68 57 55 68 70 61 84 76 59 75 50 56 73 79 98 60 57 69 73 78 51 68 70 80 65 59 48 67 72 Agrupar estos datos en una tabla de frecuencias, indicando frecuencias absolutas , relativas y acumuladas .
4 Representacin Grfica de Datos Cuantitativos: Existen varias alternativas para representar grficamente datos cuantitativos, entre las cuales pueden ser citadas: 1) El Histograma : Esta es la representacin grfica de la tabla de frecuencias absolutas o de las relativas segn se quiera , sus normas de construccin son las mismas que fueron analizadas en el captulo anterior para datos cualitativos ; y que el caso de datos cuantitativos presenta dos casos: 1.a ) Tabla puntual o discreta de frecuencias . Este es el caso en donde toda la frecuencia le corresponde exclusivamente a un valor puntual y no a un intervalo.
Grficos Estadsticos Angel F. Arvelo L
42
Aunque toda la frecuencia debera concentrarse en el valor puntual, generalmente se dibuja una barra de espesor grueso , a fin de resaltar la frecuencia , y por ello este histograma tambin se suele llamar Grfico de barras. Ejemplo 6. Representar las frecuencias relativas del Ejemplo 1 , en un Histograma. Solucin :
1.b ) Tabla agrupada de frecuencias . En este caso, a diferencia del anterior, la frecuencia le corresponde a todo el intervalo , y no al valor puntual. Por este motivo , la frecuencia debe ser representada como un rectngulo cuya base debe ser todo el intervalo , y cuya altura igual a la frecuencia . Las normas de construccin son las ya conocidas , y el nico detalle que hay que cuidar es el que se refiere al caso en que los lmites de clase hayan sido definidos por el segundo criterio, en donde los lmites que representan a cada intervalo son los lmites reales , a fin de mantener la continuidad en el grfico. Representar los intervalos por sus lmites aparentes, no sera correcto, pues quedara un vaco entre un intervalo y el siguiente , que alterara la continuidad . Ejemplo 7 : Representar los datos del Ejemplo 2 en un Histograma de Frecuencias Relativas Porcentuales .
Grficos Estadsticos Angel F. Arvelo L
43
2) Polgonos de frecuencia , y grficos de rea : El polgono de frecuencias es una grfica obtenida a partir del histograma , cuando se unen los puntos medios de los lados superiores consecutivos , tal como se muestra en la figura :
El polgono de frecuencias se utiliza principalmente para destacar las fluctuaciones de frecuencias que existen entre los intervalos consecutivos, y tambin puede ser construido aisladamente sin el histograma , en cuyo caso se suele llamar grfico de rea , tal como el siguiente:
Grficos Estadsticos Angel F. Arvelo L
44
El grfico de reas tiene la propiedad de que su rea es igual al rea total del histograma, es decir igual a la suma de las reas de todos los rectngulos que lo integran. Es importante destacar que las tcnicas de Estadstica Matemtica , han desarrollado una serie de curvas conocidas bajo el nombre de Distribuciones tericas de Probabilidad , que vienen a constituir una especie de modelo terico para el Polgono de Frecuencia , pues a medida que la amplitud de los intervalos se reduce , el polgono tiene cada vez mas lados , y la curva de probabilidad viene a ser una aproximacin terica para la posicin lmite del polgono cuando la amplitud del intervalo tienda a cero. 3) Grficos de tallo y hoja : Cuando se agrupa un conjunto de datos en una tabla de frecuencias , se pierde la informacin de su verdadero valor , y lo que queda registrado es una observacin dentro del intervalo de clase donde cae. El diagrama de tallo y hoja , es una tcnica de representacin , cuyo nombre original en idioma ingls es stem and leaf , y que fu propuesta por el estadstico John Tukey en 1977 en su clsico trabajo titulado Exploratory Data Analysis, en donde se analizan una serie de novedosas maneras para el anlisis de datos . En el diagrama de tallo y hoja , cada dato tiene dos partes : el tallo y la hoja. La hoja esta definida por su ltimo dgito , y existen dos hojas , la inferior que corresponde a los dgitos 0 , 1 , 2 , 3 y 4 y que se representa en el diagrama por
l smbolo , y la superior que corresponde a los dgitos 5 , 6 , 7 ,8 y 9 , y se representa por el smbolo . El tallo representa todos los dems dgitos , y se colocan en el grfico en forma de filas ordenadas , desde el valor ms bajo hasta el ms alto . Ejemplo 8 : Representar los datos del Ejemplo 2, en un diagrama tallo y hoja. Solucin : Para cada dato , se define su tallo y su hoja . as por ejemplo , el dato
1.54 pertenece al tallo 1.5 y a la hoja inferior , mientras que el dato 1.79 al
Grficos Estadsticos Angel F. Arvelo L
45
tallo 1.7 y a la hoja superior o . En cada hoja se conserva el valor exacto del ltimo dgito ; y se anota a la izquierda , la frecuencia absoluta de cada tallo y hoja , tal como se muestra en la tabla a continuacin : Frecuencia Tallo Hoja
3.00 1.4 678 5.00 1.5 * 03334
4.00 1.5 7799 12.00 1.6 * 000111112333
13.00 1.6 55666666788899 9.00 1.7 * 001233344
6.00 1.7 567889 5.00 1.8 * 00012
1.00 1.8 9 2.00 1.9 * 33
Ntese que la informacin contenida en este diagrama es ms detallada que la dada en la tabla de frecuencias, pues informa cual es el valor exacto de las observaciones que caen en cada intervalo ; y as por ejemplo, se sabe que las cinco observaciones que caen en la hoja inferior del tallo 1.50 , que cubre el intervalo aparente 1.50 a 1.54 son : 1.50 , 1.53 , 1.53 , 1.53 y 1.54 . Tambin es posible construir el diagrama con una sola hoja para cada tallo, o con cinco hojas para cada tallo. La construccin con una sola hoja para cada tallo , no discrimina entre hoja inferior y hoja superior , y en un caso como el del ejemplo anterior quedara de la siguiente forma : Frecuencia Tallo Hoja 3.00 1.4 678 9.00 1.5 033347799 25.00 1.6 0001111123335566666788899 15.00 1.7 001233344567889 6.00 1.8 000129 2.00 1.9 03
La construccin con cinco hojas para cada tallo , distingue las siguientes hojas:
La hoja donde caen las observaciones cuyo ltimo dgito es 0 1 . La hoja T ,del ingls Two y Three correspondiente al 2 y al 3 . La hoja F, del ingls Four y Five , correspondiente al 4 y 5 . La hoja S, del ingls Six y Seven correspondiente al 6 y 7 . La hoja que corresponde a las observaciones terminadas en 8 y 9. Este estilo de diagrama con cinco hojas para cada tallo , conviene slo en caso de disponer de un nmero grande de datos , pues puede dar lugar a un excesivo nmero de filas . 4) La Ojiva : Esta grfica es la representacin de la tabla de frecuencias acumuladas , y expresa el nmero de observaciones que son iguales o menores
Grficos Estadsticos Angel F. Arvelo L
46
que un cierto lmite en caso de representar las frecuencias absolutas acumuladas, o el porcentaje de observaciones que son iguales o menores que un lmite en caso de representar las frecuencias relativas porcentuales acumuladas. En la construccin de la ojiva, deben distinguirse dos casos: 4.1 Tabla discreta de frecuencias : En este caso , la frecuencia corresponde exclusivamente a un valor puntual , y la ojiva adopta un aspecto de escalera . Ejemplo 9 : Construir la Ojiva para los datos del Ejemplo 1 Solucin: La tabla de frecuencias acumuladas para estos datos es la siguiente:
N de
automviles
Frecuencia
Frecuencia
Relativa
Porcentual
Frecuencia
acumulada
Frecuencia
Relativa
Porcentual
Acumulada
0 19 38.00 % 19 38.00 %
1 19 38.00 % 38 76.00 %
2 8 16.00 % 46 92.00 %
3 4 8.00 % 50 100.00 %
Total 50 100.00 %
De la tabla se desprende , que por ejemplo , de las 50 viviendas observadas 46 de ellas tienen 2 vehculos o menos , lo que equivale al 92.00 % . Como entre 0 y 1 , entre 1 y 2 , etc., no existen observaciones , la frecuencia acumulada permanece constante entre los valores consecutivos , pues por ejemplo , el porcentaje de viviendas que poseen 1,5 vehculos o menos , es el mismo que posee 1 vehculo o menos, es decir 76.00 % ; y por ello, la ojiva queda de la siguiente forma :
Para 3 vehculos o ms , la ojiva permanece constante en 100% , pues evidentemente, el porcentaje de viviendas que poseen por ejemplo, 5 vehculos o menos es el 100% . 4.2 Tabla agrupada de frecuencias : En este caso , la frecuencia corresponde a todo un intervalo , y por lo tanto se produce un crecimiento de la frecuencia
Grficos Estadsticos Angel F. Arvelo L
47
acumulada dentro de l . Como al agrupar , se perdi la informacin acerca del valor exacto de los datos , se supone que este crecimiento es lineal. Es importante destacar que en caso de haber utilizado el segundo criterio de definicin de los lmites de clase , la Ojiva debe ser construida con los lmites reales, pues si se construyera con los lmites aparentes , entre el lmite superior de un intervalo y el inferior del siguiente , quedara un zona de crecimiento nulo en la frecuencia acumulada.
Ejemplo 10 : Construir la Ojiva , para los datos del Ejemplo 2 Solucin : La tabla de frecuencias relativas acumuladas , al representarla grficamente da lugar a la siguiente Ojiva:
Ojivas como la anterior , se suelen llamar menor o igual que , para distinguirlas de otras llamadas mayor o igual que , en donde lo que se representa es el porcentaje de observaciones que son mayores o iguales que un lmite de clase. Para construir una Ojiva mayor o igual que , el procedimiento es idntico, slo que hay que restar del 100% la frecuencia acumulada de cada intervalo, y representarla para el lmite real superior del intervalo. Ejemplo 11 Construir una Ojiva del tipo mayor o igual que , para los datos del ejercicio anterior. Solucin: Siguiendo el procedimiento anterior, se obtiene:
Grficos Estadsticos Angel F. Arvelo L
48
En lo sucesivo , cuando se haga referencia a la Ojiva , salvo indicacin en contrario , se sobreentender que es del tipo menor o igual que .
4. Tablas de Frecuencia con intervalos de diferente amplitud Aunque lo comn es construir las tablas de frecuencias con intervalos de igual amplitud , a veces se dan circunstancias en donde se hace necesario construir la tabla con intervalos de diferente amplitud, lo que ocasionas ciertas modificaciones en las tcnicas de representacin grfica, y muy especialmente en el histograma. Cuando los intervalos tienen diferente amplitud, hay que mantener el principio de proporcionalidad de reas , ya enunciado en el captulo anterior, y segn el cual , las reas de los rectngulos que representan a cada una de las clases deben estar en la misma proporcin que sus frecuencias. Segn este principio, si el intervalo i tiene una frecuencia fi con una amplitud ci , y otro intervalo j una frecuencia fj con una amplitud cj , no sera correcto construir el histograma con rectngulos de altura igual a su frecuencia, pues no se cumplira la proporcionalidad de reas. Para resolver el problema, y poder construir correctamente el histograma, es necesario introducir el concepto de densidad de frecuencia di para un intervalo, y el cual se define como el cociente entre la frecuencia del intervalo y su amplitud.
df
cii
i
Calculada la densidad de frecuencias para cada intervalo , el histograma se construye dibujando para cada clase un rectngulo de altura igual a su densidad de frecuencias. Al construir el histograma de esta manera se respeta la proporcionalidad de reas, pues el rea de cada rectngulo ser: Area = Base x Altura = Amplitud x Densidad de frecuencias = ci x di
Grficos Estadsticos Angel F. Arvelo L
49
y por lo tanto : ( )
( )
Area
Area
c d
c d
cf
c
cf
c
f
fi
j
i i
j j
i
i
i
j
j
j
i
j
Ejemplo 12 : La siguiente tabla de frecuencias muestra la distribucin de sueldos mensuales en una empresa:
Sueldo
Mensual
300 a 500
500 a 1.000
1000 a
2000
2000 a
3000
3.000 a
5.000
5.000 a
10.000
10.000 a
20.000
Frecuencia 400 900 700 300 180 75 45
Construir el Histograma correspondiente . Solucin : Se comienza calculando la densidad de frecuencia correspondiente a cada intervalo:
Sueldo Mensual Frecuencia Amplitud Densidad de frecuencia
300 a 500 400 200 2.00
500 a 1.000 900 500 1.80
1.000 a 2.000 700 1.000 0.70
2.000 a 3.000 300 1.000 0.30
3.000 a 5.000 180 2.000 0.09
5.000 a 10.000 20 5.000 0.004
TOTAL 2500
El histograma se construye dibujando rectngulos de ancho igual a la amplitud de cada intervalo, y de altura igual a su densidad de frecuencias , como en el grfico a continuacin:
Resulta obvio que en el caso de intervalos con igual amplitud, las densidades de frecuencia de los diferentes intervalos resultan directamente proporcionales a sus respectivas frecuencias, y por ello no se altera la razn entre las alturas , si
Grficos Estadsticos Angel F. Arvelo L
50
en lugar de representar la densidad de frecuencias como altura del rectngulo, se representa directamente la frecuencia. Otra alternativa que se presenta cuando el rango de variacin de los datos es muy amplia como en el ejemplo anterior, en donde tomar intervalos de igual amplitud , dara lugar a un excesivo nmero de intervalos , o a una prdida considerable de la informacin porque la gran mayora de las observaciones caen dentro de un mismo intervalo, es definir alguno de los intervalos extremos como abierto, es decir menor que el izquierdo , o mayor que el derecho. As por ejemplo, el ltimo intervalo del ejemplo anterior , se hubiese podido definir como 5.000 ms . Esta alternativa sin embargo, no es recomendable pues no permite la representacin grfica, al tener este ltimo intervalo una amplitud infinita y una densidad de frecuencias igual a cero; y adems tampoco permite calcular ciertos indicadores muestrales , tales como promedios, etc., que sern analizados en el captulo siguiente.
IV.5 Transformaciones y cambios de escala: Cuando un dato cuantitativo va ser representado sobre un eje de nmeros reales , existen varias alternativas en lo que a la escala se refiere. Se llama escala, a la razn entre la longitud del segmento que representa al dato y su verdadero valor. Existen varios tipos , tales como : a) La escala aritmtica : Se dice que una escala es aritmtica cuando la relacin entre la longitud del segmento que representa al dato y su verdadero valor es constante. As por ejemplo, una escala aritmtica de 1:200 significa que cada unidad de longitud para el segmento representa 200 unidades del dato. Este tipo de escala conserva la proporcionalidad entre los valores que representa; y as por ejemplo, si la magnitud de un valor es el doble de la magnitud de otro , entonces la longitud del segmento que lo representa es el
doble de la longitud del otro. Longitud d
Longitud d
e "a"
e "b" =
a
b
El Histograma por ejemplo, utiliza este tipo de escala para representar la densidad de frecuencias, pues si un intervalo tiene doble densidad de frecuencias que otro, entonces la altura del rectngulo que lo representa es doble de la del otro . El uso de la escala aritmtica es la ms frecuente y comn , pero puede resultar inconveniente en algunos casos , especialmente cuando la magnitud de los datos presenta un alto grado de variacin. La situacin anterior puede presentarse tanto en datos cualitativos , como cuantitativos, como se muestra en el ejemplo siguiente:
Grficos Estadsticos Angel F. Arvelo L
51
Ejemplo 13 : Los siguientes datos representan las ventas anuales de un grupo de empresas , expresadas en millones de unidades monetarias:
Empresa A B