Upload
others
View
9
Download
0
Embed Size (px)
Citation preview
1
ANÁLISIS EXPLORATORIO DE DATOS Y
PROBABILIDAD E INFERENCIA ESTADISTICA
Dr. José Nerys funes Torres
Lic. René Armando Peña Aguilar
Facultad de Ciencias Naturales y Matemática
Escuela de Matemática
Departamento de Estadística
Universidad de El Salvador
Septiembre de 2010.
2
Índice general.
Introducción. ............................................................................................................................ 5
Capítulo 1. Conceptos Básicos de Estadística. ................................................... 6
1.1. La Estadística y sus aplicaciones ............................................................................................. 6 1.1.1. ¿Qué es la Estadística? ...................................................................................................... 6
1.1.2. Aplicaciones de la Estadística. .......................................................................................... 6 1.2. Población, Muestra y técnicas de muestreo. .......................................................................... 10 1.3. Unidad de estudio y unidad de muestreo ............................................................................... 13 1.4. Variables y datos .................................................................................................................... 14 1.5. Escalas de medición .............................................................................................................. 15
1.5.1. Escalas nominales ........................................................................................................... 15 1.5.2. Escalas ordinales ............................................................................................................. 16
1.5.3. Escalas de intervalos ....................................................................................................... 16 1.5.4. Escalas de razones o cocientes ........................................................................................ 17
1.6. Diseño de Experimentos estadísticos. .................................................................................... 18 1.7. Guía de ejercicios N° 1........................................................................................................... 18
Capítulo 2. Distribuciones de frecuencias y sus representaciones
gráficas ..................................................................................................................................... 20
2.1. Estadística Descriptiva con una variable ............................................................................... 20
2.1.1. Distribución de frecuencias ............................................................................................. 20
2.1.2. Descripción de Variables Cualitativas ............................................................................ 21
2.1.3. Variables cuantitativas discretas. .................................................................................... 29 2.2. Distribución de frecuencias agrupadas. .................................................................................. 30
2.2.1 Representación gráfica de variables continuas ................................................................ 32 2.3. Guía de ejercicios N° 2........................................................................................................... 33
Capítulo 3. Medidas Características de una Distribución Cuantitativa
Empírica. ................................................................................................................................... 35
3.1 Medidas de posición ........................................................................................................... 35 3.2 Medidas de Dispersión ....................................................................................................... 42 3.3 Medidas de forma ............................................................................................................... 43
3.4. Guía de Ejercicios N° 3. ......................................................................................................... 44
Capítulo 4. Distribuciones Bivariadas ...................................................................... 73
4.1. Distribuciones bidimensionales ............................................................................................. 73 4.2. Distribuciones marginales y condicionales. ........................................................................... 74 4.3. Coeficiente de correlación lineal ............................................................................................ 77 4.4. Introducción al modelos de regresión lineal .......................................................................... 77
4.5. Modelo de regresión simple. ................................................................................................. 82 4.5.1. Estimación de los parámetros por mínimos cuadrados ................................................... 82 4.5.2. Propiedades de los estimadores por mínimos cuadrados y el modelo ajustado de
regresión. ................................................................................................................................... 84
4.5.3. Intervalos de confianza ................................................................................................... 86
3
4.5.4. Prueba de hipótesis de la pendiente y de la ordenada al origen. ..................................... 88 4.6. Predicción de nuevas observaciones ...................................................................................... 89
4.7. Ejercicios. ............................................................................................................................... 98
Capítulo 5. Los Valores Relativos ............................................................................ 101
5.1. Razones, Proporciones, Porcentajes y Tasas. ....................................................................... 101 5.2. Diferencia Relativa ............................................................................................................... 103
5.3. Los números índices ............................................................................................................. 104 5.3.1. Relación entre índices de base fija y variable. .............................................................. 106 5.3.2. Índices agregativos simples ........................................................................................... 107 5.3.3. Índices de precios .......................................................................................................... 108
5.3.4. Índices de cantidad. ....................................................................................................... 109 5.3.5. Cálculo del salario e ingreso real. ................................................................................. 111
5.4. Guía de ejercicios Nº 5. ........................................................................................................ 112
Capítulo 6. Métodos de Conteo. ............................................................................... 114
6.1 Introducción .......................................................................................................................... 114 6.2 Muestras ordenadas. .............................................................................................................. 114
6.3 Variaciones, combinaciones y permutaciones. ..................................................................... 116 6.3.1. Variaciones de N elementos tomados de n en n. ........................................................... 116
6.3.2. Variaciones con repetición de N elementos tomados de n en n. ................................... 116 6.3.3. Permutaciones. ............................................................................................................. 116 6.3.4. Combinaciones. ............................................................................................................. 118
6.4. Teorema del Binomio. .......................................................................................................... 122
6.5. Guía de Ejercicios N° 1. ...................................................................................................... 125 6.6. Soluciónes. ........................................................................................................................... 126
Capítulo 7. Conceptos Básicos de Probabilidad ............................................. 132
7.1 Introducción. ......................................................................................................................... 132
7.2. Experimento aleatorio. ......................................................................................................... 132 7.3. Espacio Muestral. ................................................................................................................ 133
7.4. Sucesos o Eventos ................................................................................................................ 133 7.4.1. Estructuras con subconjunto .......................................................................................... 134
7.5. Axiomas de Probabilidad ..................................................................................................... 136
7.5.1. Probabilidad (Axiomática). ........................................................................................... 136 7.6. Resultado Igualmente Probables o Modelo Uniforme de Probabilidad ............................... 138 7.7. Probabilidad condicional. .................................................................................................... 138
7.8. Independencia de sucesos. ................................................................................................... 142 7.9. Ejercicios de cálculo de probabilidad ................................................................................... 142
7.9.1. Problemas variados de probabilidad ............................................................................. 147 7.9.2. Hoja 4. Ejercicios de probabilidad (Repaso, Capítulo 6 y 7) ........................................ 153
Capítulo 8. Variables aleatorias y distribuciones de probabilidad ......... 155
8.1. Nociones básicas .................................................................................................................. 155 8.2. Distribución de probabilidad binomial ................................................................................. 159 8.3. Distribución de Poisson ........................................................................................................ 161
4
8.4. Distribución geométrica ....................................................................................................... 165 8.5. Distribución hipergeométrica ............................................................................................... 166
8.6. Densidad uniforme ............................................................................................................... 169 8.7. Densidad normal o de Gauss ................................................................................................ 172 8.8. Aproximación de la binomial por medio de la normal ......................................................... 175 8.9. Ejercicios. ............................................................................................................................. 175
Capítulo 9. Estimación de Parámetros. ................................................................. 178
9.1. Distribución de la medida de la muestra. ............................................................................. 178 9.2. Distribución de la diferencia entre las medias de dos muestras. .......................................... 180 9.3. Distribución de la proporción de la muestra. ....................................................................... 184
9.4. Distribución de la diferencia entre las proporciones de dos muestras. ................................ 186 9.5. Intervalos de confianza ......................................................................................................... 188
9.5.1. Selección del tamaño de la muestra .............................................................................. 192
Capítulo 10. Contraste de hipótesis. ...................................................................... 198
10.1.- Introducción ...................................................................................................................... 198 10.2. Nociones básicas ................................................................................................................ 198
10.3. Procedimiento sistemático para una prueba de hipótesis de una muestra. ......................... 199 10.4. Procedimiento sistemático para una prueba de hipótesis de dos muestras independientes.202
10.5. Prueba de hipótesis para una y dos proporción independientes ........................................ 202
Bibliografía ............................................................................................................................ 206
5
Introducción.
La estadística como herramienta para el análisis de los datos es esencial en los profesionales que
con frecuencia tienen la necesidad de realizar análisis de datos para la toma de decisiones.
Este libro, recoge en 10 capítulos conocimientos estadísticos básicos que van desde el análisis
descriptivo de datos, probabilidad e inferencia estadística.
Debemos aclarar que los métodos descriptivos aquí propuestos son elementales univariantes y en
el enfoque de la probabilidad sólo hemos considerado espacios probabilísticos discretos
incluyendo dos continuas la uniforme y la normal.
Este libro, es recomendables para principiantes en el área de estadística. Los conocimientos aquí
planteados son base para ir enfrentando otros de estadística de mayor dificultad.
6
Capítulo 1. Conceptos Básicos de Estadística.
1.1. La Estadística y sus aplicaciones
1.1.1. ¿Qué es la Estadística?
La Estadística es una ciencia que estudia las características de un conjunto de casos para hallar en
ellos regularidades en el comportamiento, que sirven para describir el conjunto y para efectuar
predicciones.
La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos
a un conjunto de objetos, personas, procesos, etc. A través de la cuantificación y el ordenamiento
de los datos intenta explicar los fenómenos observados, por lo que resulta una herramienta de
suma utilidad para la toma de decisiones.
Bajo este contexto, la Estadística se divide en dos áreas: Estadística Descriptiva y Estadística
Inferencial.
ESTADÍSTICA DESCRIPTIVA: permite organizar y presentar un conjunto de datos de
manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e
interpretación. Obviamente, la materia prima de la Estadística Descriptiva la constituyen los
datos, que son el resultado de las observaciones y/o experimentos.
Ejemplos:
1. Durante los últimos dos días se ha informado de un total de trece homicidios diarios. 2. La encuesta Gallup informa una ventaja de 25% para el candidato de izquierda.
ESTADÍSTICA INFERENCIAL: Generaliza los resultados de una muestra a los de una población total, es cuando de los datos estadísticos obtenidos de una muestra se infiere o se
deduce una observación la cual se generaliza sobre la población en total. Para determinar la
confiabilidad de la inferencia de los datos estadísticos de una muestra, se hace necesario
comprobar la misma para poder asegurar que lo que se observa en una muestra se observará
también en la población. Generalmente el análisis estadístico inferencial se lleva a cabo para
mostrar relaciones de causa y efecto, así como para probar hipótesis y teorías científicas.
1.1.2. Aplicaciones de la Estadística.
Mucha gente piensa que la Estadística no tiene nada que ver con otras disciplinas que no sean las
ingenierías y economía. Otros nunca le encuentran aplicaciones útiles, y por eso tampoco les
gusta. Pero, en realidad tiene infinitas aplicaciones en todo el conocimiento adquirido por la
humanidad, partiendo ante todo, lo relacionado con las ingenierías, economía, las ciencias
biológicas, ciencias sociales e incluso en algunas ramas del área Jurídica. Y, en definitiva, casi
todos los campos de las ciencias emplean instrumentos estadísticos de importancia fundamental
para el desarrollo de sus modelos de trabajo.
7
En nuestros días, la estadística se ha convertido en un método efectivo para describir con
exactitud los valores de los datos económicos, políticos, sociales, psicológicos, biológicos y
físicos, entre otros, y sirven como herramienta para relacionar y analizar dichos datos. El trabajo
del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino el proceso de
interpretación de esa información a través de modelos estadísticos-matemáticos, aumentando el
alcance de las aplicaciones de la estadística, esto se ha logrado, gracias al desarrollo de la teoría
de probabilidad.
Dentro de las Aplicaciones de la Estadística se destacan las siguientes:
1. La Estadística en el Periodismo
En general, los periodistas además de dedicarse al ámbito de la noticia, realizan crónicas y
estudios de investigación, que nos entregan preguntas y respuestas frente a determinados sucesos
o situaciones de interés público. Algunos de los estudios más frecuentes realizados por los
periodistas son sobre alcoholismo, enfermedades, sexualidad, delincuencia, política, etc. Para
ello, hacen uso de las encuestas u otros instrumentos técnicos de medición propios de la
estadística, a través de dichos estudios es posible conocer la opinión de la gente y con ello
informar a la opinión pública, a través de los medios de comunicación, desde donde las
autoridades pertinentes e interesadas en estos estudios pueden adoptar las medidas correctivas, si
es el caso. Tal es así, que la estadística forma parte importante del periodismo investigativo.
1. La Estadística en la Política
Conocidas son las famosas encuestas de tipo político, que entregan una orientación de la
intención de voto, de la aceptación de un candidato, del impacto de un programa o proyecto de
estado, etc. de una muestra estadística representativa, sobre la opinión de las personas en un
tiempo determinado, teniendo esta herramienta una gran confiabilidad. Así es que el uso de la
estadística es imprescindible para determinar caminos a seguir para los candidatos de elección
popular.
2. La Estadística en la Publicidad
Cuando las grandes marcas trasnacionales y/o nacionales como Coca-cola, Pepsi, Nice, Adidas,
Laboratorios López, etc. nos llenan de slogans, música y colores en sus comerciales, lo único que
buscan es que la gente adquiera los productos y/o servicios que ofrecen.
Se dedican, entonces, a realizar las llamadas “campañas publicitarias”, y, antes de lanzar una
campaña, hacen un estudio de mercado para encontrar las mejores alternativas posibles a fin de
lograr el éxito de ventas deseado. Estos estudios son de carácter estadístico, es decir, hacen un
diseño muestral y seleccionan una muestra para inferir las características de la población.
3. La Estadística en la economía y las finanzas.
En la administración es una herramienta del control, como parte del proceso administrativo (o lo
que es lo mismo: planeación, organización, dirección y control) ya que la estadística ayuda a
8
recolectar, estudiar y al final interpretar los datos que obtienen al terminar el proceso
administrativo, retroalimenta con esta información y al final se observa en que pueden mejorar y
que se está haciendo bien.
En la mercadotecnia es una herramienta muy importante cuando tienes la necesidad de trabajar
con datos de muestreo para conocer los gustos y preferencias de las personas. Igualmente en la
auditoria administrativa cuando recabas datos para conocer en que puede mejorar una
organización. En pocas palabras te puede servir en cualquier área de una organización debido a
que muestra los resultados de las actividades que bienes realizando.
En la economía se utiliza como una herramienta de predicción para pronosticar el
comportamiento futuro, por ejemplo, de los precios de los metales (oro, plata, cobre) tomando
como base el comportamiento pasado de los precios de los mismos. También puede servir para
estudiar el comportamiento de la bolsa de valores, de ciertos productos básicos, los economistas
por lo regular se sienten magos que creen predecir cosas. En general, la Estadística suministra los
valores que ayudan a descubrir interrelaciones entre múltiples parámetros macro y
microeconómicos, a través de la evaluación de modelos econométricos para el establecimiento de
políticas económicas; análisis del costo de la canasta básica, el poder adquisitivo de la población,
etc.
5. La estadística en la Banca y Seguros
El profesional del seguro de vida ha de ser capaz de asignar primas suficientes para cubrir las
cantidades que habrá de pagar la compañía en el caso de muerte del asegurado. En consecuencia,
la predicción adecuada de las probabilidades de muerte constituye uno de los ejes centrales de la
reducción del riesgo que se asume. Por ello, el objetivo de la Estadística de Seguros es una
presentación exhaustiva de los métodos disponibles para ajustar tablas de mortalidad y tablas de
seguros no vida, ejemplo, aseguramiento de vehículos, viviendas, etc.
Por otra parte, algunas de las aplicaciones concretas de la Estadística en el sistema bancario son
las siguientes:
Sistemas de concesión de tarjetas de crédito y fijación de su límite.
Sistemas de estimación del potencial económico de los clientes.
Definición de tipologías comerciales de clientes.
Determinación del público objetivo en campañas comerciales.
Modelización del riesgo según las características de los clientes.
Aplicación de la teoría de colas para brindar un servicio de calidad.
Finalmente, es de mucha utilidad la técnica de minería de datos para el análisis de bases de datos del sistema bancario.
6. La estadística en ciencias humanas y sociales
La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias, en
buena medida se basa en el manejo de recursos estadísticos como elementos indispensables para
9
llegar a conclusiones aceptables por el resto de la comunidad científica. Dada la peculiaridad de
su objeto de estudio, inabordable en la mayoría de los casos sino es a través de perspectivas
complejas de relación entre variables, la atención de los investigadores en las ciencias humanas y
sociales se concentra cada vez más en la llamada Estadística Multivariante (Análisis Cluster,
Factorial, Discriminante, etc.).
Las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos en
informática y aplicaciones estadísticas, por ejemplo, en El Salvador, se ha elaborado el Mapa de
Pobreza, donde se ha interrelacionado una gran variedad de variables de diferentes áreas:
Educativas, Económicas, Salud, entre otras. También, se ha hecho investigación sobre los
factores que están asociados al rendimiento académico de los estudiantes, finalmente, se han
utilizado diferentes técnicas para el análisis de los resultados académicos de los estudiantes.
Las ciencias sociales: es un pilar básico del desarrollo de la demografía y la sociología aplicada,
lo que conlleva a:
Definición de indicadores de fenómenos sociales.
Medición de constructos o variables no directamente observables (la satisfacción, la inteligencia, ...)
Medición de los efectos entre constructos no observables para establecer políticas sociales.
Estudio de la evolución de la demografía.
Estudios sociales sobre la integración de la población inmigrada.
Fenómenos sociales como las pandillas, criminalidad, delincuencia, contaminación, entre otros.
7. La estadística en las ciencias químicas.
En Química, la estadística se aplica en varias áreas: En el diseño de experimentos se usan
métodos estadísticos, en el control de procesos y control de calidad (o gerenciamiento de calidad)
de procesos y productos. En EEUU está muy de moda el sistema seis sigma, creado por general
electric, que utiliza algunos conceptos estadísticos para lograr el aseguramiento de la calidad.
Por otra parte la producción química tiene su costo económico y financiero que también requiere
mucho uso de estadística, por ejemplo, si no se elabora un buen diseño experimental, se
necesitarán muchas réplicas para validar una formulación química.
Algunas de las aplicaciones concretas que podemos mencionar:
Utilización de diseños experimentales para optimizar la composición de productos alimenticios.
Evaluación de la superficie de respuesta de una reacción química según determinados factores.
Predicción del comportamiento de un componente no sintetizado a partir de las propiedades moleculares de sus descriptores.
Control de procesos de producción para detectar problemas evitando a su vez falsas alarmas.
10
8. La estadística en Ciencias biológicas.
En el área de las ciencias biológicas, interesa estudiar el comportamiento de ciertas plantas y sus
cruces a fin de determinar cómo se relacionan genéticamente los padres con los hijos, hablando
de Genotipo y Fenotipo. En esta categoría es también donde se realizan los mayores avances de la
humanidad, en descubrimientos. Cada año se descubren miles de fórmulas científicas que
relacionan fenómenos de la naturaleza con modelos matemáticos.
Los científicos se dedican a realizar estudios estadísticos, recogiendo datos y muestras,
investigando el tiempo de reproducción de un virus, el comportamiento migratorio de algunas
aves o insectos, además de factores de tamaño y volumen del crecimiento de ciertas especies de
animales o vegetales. Todo esto funciona con la idea de recopilar información, muestrear ciertas
áreas para ver cómo se han comportado algunas aves, por ejemplo, se pueden dibujar o simular
curvas que se supone que son relativamente parecidas al comportamiento migratorio de aves. Con
esta herramienta se podrían determinar también las épocas de mayor probabilidad de contagio,
diseminación de algún virus o bien enfermedades transmitidas por insectos.
Algunas aplicaciones concretas en esta área son: Determinación del tamaño de poblaciones
naturales en una región; efectividad de la utilización de barreras naturales (filas de árboles
plantados en los límites del terreno) como medio de prevenir las plagas de insectos o aves sobre
las plantaciones y así disminuir la utilización de pesticidas: y, determinación de los niveles
óptimos de utilización de los fertilizantes. Obviamente, en esta área es donde más se hace usos de
la teoría de Diseños de Experimentos.
9. La estadística en las ciencias médicas.
Permite establecer pautas sobre la evolución de las enfermedades y los enfermos, los índices de
mortalidad asociados a procesos morbosos, el grado de eficacia de un medicamento, etcétera.
Bajo este conjunto de ideas, se ha presentado un panorama de la utilidad de la estadística,
haciendo un recorrido por diversas áreas del conocimiento humano, con el fin, de conocer cómo
se relacionan con las diversas ciencias, formando una sola verdad. Evidentemente, existen,
muchas disciplinas donde se aplica la estadística, que no han sido consideradas en este apartado,
por ejemplo, las ingenierías, la pintura, la música, etc. Finalmente, es de resaltar que en todos los
temas donde se analice información está presente la estadística.
1.2. Población, Muestra y técnicas de muestreo.
Las estadísticas de por sí no tienen sentido si no se considera o se relaciona dentro del contexto
con que se trabajan. Por lo tanto es necesario entender los conceptos de población y de muestra
para lograr comprender mejor su significado en la investigación educativa o social que se lleva a
cabo.
POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas
características comunes observables en un lugar y en un momento determinado. Cuando se vaya a
llevar a cabo alguna investigación debe de tenerse en cuenta algunas características esenciales al
seleccionarse la población bajo estudio. Entre éstas tenemos:
11
Homogeneidad - que todos los miembros de la población tengan las mismas características
según las variables que se vayan a considerar en el estudio o investigación. Por ejemplo, si se
fuera a investigar la incidencia de la drogadicción entre jóvenes mujeres adolescentes, entonces
hay que definir claramente las edades que comprenden la adolescencia y cuando se seleccione la
población asegurarse de que todas las personas entrevistadas sean de la edad determinada y del
sexo femenino. (La adolescencia se define operacionalmente como el periodo comprendido de
edad que fluctúa entre 12 y 21 años.)
Tiempo - se refiere al período de tiempo donde se ubicaría la población de interés. Determinar si
el estudio es del momento presente o si se va a estudiar a una población de cinco años atrás o si
se van a entrevistar personas de diferentes generaciones.
Espacio - se refiere al lugar donde se ubica la población de interés. Un estudio no puede ser muy abarcador y por falta de tiempo y recursos hay que limitarlo a un área o comunidad en específico.
Cantidad - se refiere al tamaño de la población. El tamaño de la población es sumamente importante porque ello determina o afecta al tamaño de la muestra que se vaya a seleccionar,
además que la falta de recursos y tiempo también nos limita la extensión de la población que se
vaya a investigar.
MUESTRA - la muestra es un subconjunto fielmente representativo de la población.
Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y
cuán representativo se quiera que sea el estudio de la población, en este sentido, la muestra puede
ser:
ALEATORIA - cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser
incluido.
Un procedimiento de extraer una muestra aleatoria de una población finita es: enumerar todos
los elementos que conforman la población, escribir esos números en papelitos y echarlos en una
urna o bolsa mezclarlos bien removiéndolos y sacar uno a uno tantos como lo indique el tamaño
de la muestra. En este caso los elementos de la muestra lo constituirán los elementos de la
población cuyos números coincidan con los extraídos de la bolsa o urna.
El tamaño de la muestra (MAS):
Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número mínimo de
unidades de análisis (personas, organizaciones, capítulo de telenovelas, etc), que se necesitan
para conformar una muestra n que me asegure un error estándar menor que 0.01 ( fijado por el
muestrista o investigador), dado que la población es aproximadamente de N elementos.
En el tamaño de una muestra de una población se debe tener presente la varianza poblacional,
error máximo permisible prefijado (diferencia del parámetro y estimador), con un nivel de
confianza de 1 . Simbólicamente se refiere a lo siguiente: 1P X d
, bajo este
contexto podemos utilizar la fórmula:
12
Ejemplo. Se desea estimar la estatura promedio de los estudiantes de la asignatura de
Tratamiento de la Información Estadística. Se sabe que la estatura de un estudiante es una
variable aleatoria con distribución normal. Determine el tamaño de muestra aleatoria necesaria
para garantizar una probabilidad igual a 0.95 de que el estimador y el parámetro se diferencien en
menos de 10cm.
Solución.
Datos conocidos.
d= 10cm
Calcular: , 1
2
Z
=1.96
: Para calcular la desviación estándar hay que solicitar la estatura de cada estudiante y luego
calcular la varianza utilizando la siguiente fórmula: 2
2
1
1 n
X i
i
S x xn
, posteriormente se
obtiene la raíz cuadrada y ese es el valor que se debe utilizar en esta ecuación. Supongamos que =12cm, entonces:
Determinar:
2
21
2 12(1.96) 5.53 610
Z
n n nd
, se requiere una muestra de 6
estudiantes para cumplir las hipótesis del problema.
ESTRATIFICADA - cuando se subdivide en estratos o subgrupos según las variables o
características que se pretenden investigar. Cada estrato debe corresponder proporcionalmente a
la población.
El número determinado de elementos muestrales es: 1
k
i
i
n n
, donde ni es el número de
elementos en el estrato i=1, 2, …, k . No se entrará en detalle del cálculo del tamaño muestral, ya
que supera el alcance de esta asignatura.
13
SISTEMÁTICA - cuando se establece un patrón o criterio al seleccionar la muestra. Ejemplo: se
entrevistará una familia por cada diez que se detecten.
El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos los
miembros de una población debido a problemas de tiempo, recursos y esfuerzo. Al seleccionar
una muestra lo que se hace es estudiar una parte o un subconjunto de la población, pero que la
misma sea lo suficientemente representativa de ésta para que luego pueda generalizarse con
seguridad de ellas a la población.
El tamaño de la muestra depende de la precisión con que el investigador desea llevar a cabo su
estudio, pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo
a los recursos que haya disponibles. Es de especificar que para cada método de muestreo existen
fórmulas para determinar el tamaño de muestra.
1.3. Unidad de estudio y unidad de muestreo
La unidad de análisis o estudio corresponde a la entidad mayor, primaria o representativa de lo
que va a ser objeto específico de estudio en una medición y se refiere al qué o quién es objeto de
interés en una investigación. Por ejemplo: Condiciones de hacinamiento de las familias del
Municipio de Soyapango, San Salvador. Unidad de Análisis: Familias del Municipio de
Soyapango.
Debe estar claramente definida en un protocolo de investigación y el investigador debe obtener la
información a partir de la unidad que haya sido definida como tal, aun cuando, para acceder a
ella, haya debido recorrer pasos intermedios. Las unidades de análisis pueden corresponder a las
siguientes categorías o entidades:
Personas
Grupos humanos
Poblaciones completas
Unidades geográficas determinadas
Eventos o interacciones sociales (enfermedades, accidentes, casos de infecciones
intrahospitalarias, etc)
Entidades intangibles, susceptibles de medir (exámenes, días, camas)
El tipo de análisis al que se someterá la información es determinante para elegir la unidad de
análisis. Por ejemplo, si el objetivo es dar cuenta de la satisfacción del usuario de un servicio
médico, la unidad de análisis natural es el paciente atendido, o la persona que se atiende en ese
servicio médico. Si el objetivo es dar cuenta de la satisfacción del alumno sobre el desempeño
docente, la unidad de análisis es el alumno que recibe clases con el docente evaluado.
14
La unidad de muestreo corresponde a la entidad básica mediante la cual se accederá a la unidad
de análisis. En algunos casos, ambas se corresponden. Por ejemplo, si se desea estimar la
prevalencia de daño auditivo en relación con niveles de ruido ambiental en una muestra de
trabajadores de una fábrica, la unidad de muestreo puede corresponder a la entidad "sujeto", si se
dispone de un registro detallado de cada sujeto. La unidad de análisis es por cierto el trabajador
de la fábrica.
1.4. Variables y datos
VARIABLES Las variables son las características observables de un objeto, problema o evento que se puede
describir según un esquema de medición bien definido. Cada rasgo o aspecto de una población
constituye una variable. La edad de unas personas, su sexo, color de su piel, nacionalidad, su
nivel de motivación, niveles de ansiedad, el número de nacimientos, número de matrimonios,
frecuencia de suicidios, estatura, peso, niveles de inteligencia, actitudes, entre muchas otras.
Las variables pueden adquirir diferentes valores o clasificarse en diferentes categorías según la
naturaleza o tipo de estudio que se lleve a cabo. Entre éstas tenemos las siguientes
clasificaciones:
VARIABLES CUALITATIVAS - son aquellas que se expresan en forma verbal como
categorías o atributos. Por ejemplo, el sexo, color, afiliación política, nacionalidad, motivación,
área académica o profesión de una persona.
VARIABLES CUANTITATIVAS - son las que varían en términos de cantidad y se registran o
expresan en forma numérica. Por ejemplo, edad, promedio académico, puntuaciones de
exámenes, frecuencia de delitos, temperatura, ingresos anuales o salarios por hora. Hay algunas
características que pueden clasificarse o expresarse como variable cuantitativa y transformarla a
cualitativa o viceversa. Por ejemplo, nivel de aprovechamiento académico estudiantes de 4:00
puntos, o estudiantes de 3:00 puntos y así sucesivamente. El investigador puede expresar
mediante una escala numérica el aprovechamiento académico al clasificar a los estudiantes, como
también puede clasificarlos como variable cualitativa en las categorías de excelentes, buenos,
regulares y deficientes.
VARIABLES DISCRETAS - son aquellas que sólo adquieren un valor absoluto o específico
que nunca cambian. Pueden ser cualitativas. Ejemplo: el sexo, nacionalidad, grupo étnico, entre
otras.
VARIABLES CONTINUAS - que siempre son cuantitativas, son las que pueden asumir
cualquier valor. Por ejemplo, la edad, altura, peso, índice académico.
En el campo de la investigación, que se suele examinar las relaciones entre dos o más variables al
investigar un asunto o problema, se clasifican las variables como:
VARIABLES INDEPENDIENTES - son las características controladas por el investigador y
que se supone tendrán efectos sobre otras variables.
15
VARIABLES DEPENDIENTES - son las características o aspectos que se alteran por
consecuencia del control que ejerce el investigador sobre otras variables.
Estos dos últimos tipos de variables suelen darse más en estudios o investigaciones
experimentales, pero también podemos considerarlas en estudios descriptivos. Por ejemplo, en un
estudio experimental se investiga si un nuevo medicamento mejora las condiciones del sida. A
tales efectos se seleccionaron 30 pacientes, de los cuáles 15 recibían el nuevo medicamento
(grupo experimental) y otros 15 continuaban con su tratamiento tradicional (grupo control). El
nuevo medicamento viene a ser la variable independiente porque es la que los investigadores
controlan y que luego examinarán sus efectos en la condición del sida, la cual viene a ser la
variable dependiente, porque es la condición que se va alterar o quedar afectada por el nuevo
medicamento.
En un estudio descriptivo donde interesa saber si la clase social es factor determinante en el
aprovechamiento académico en las escuelas, entonces la clase social es la variable independiente
y el aprovechamiento académico la dependiente.
Una variable puede ser independiente en una investigación y dependiente en otra, todo dependerá
de la finalidad de la investigación. Por ejemplo, si se lleva a cabo un estudio para determinar
cómo las condiciones socio-económicas influyen a la drogadicción, en este caso, status socio-
económico es una variable independiente. Por el contrario, si se lleva a cabo una investigación
para saber cómo la drogadicción afecta las condiciones sociales y económicas, entonces, el status
socio-económico resultaría ser la variable independiente.
DATOS: son los hechos que describen sucesos y entidades.
1.5. Escalas de medición
Una escala es un esquema específico para asignar números o símbolos con el objeto de designar
características de una variable. Las escalas de medición comúnmente conocidas son: nominales,
ordinales, de intervalos y de razón. A continuación veamos los cuatro tipos de escalas de
medición.
1.5.1. Escalas nominales
Las escalas nominales son aquellas donde se clasifican los objetos, personas o variables en
categorías cualitativamente distintas. Consiste simplemente en agrupar objetos en clases o asignar
las personas de acuerdo a alguna cualidad una vez que los objetos o personas posean
características comunes que lo hagan pertenecer a una categoría. Por ejemplo, todos los
estudiantes que obtuvieron sobre 9 puntos fueron clasificados como excelentes, los que
obtuvieron menos de 8.9 pero más de 8.0 como muy buenos y de 7.0 a 7.9 como buenos. En una
redada de drogas se arrestaron 22 mareros, cuatro acusados de homicidios, ocho acusados de
violación y diez por extorciones.
Se pueden utilizar números en las escalas nominales, pero éstos no representan magnitudes
absolutas. Los números sólo se utilizan con el propósito de clasificarlos a determinada categoría.
16
Por ejemplo, si vas a comprar pintura azul en la ferretería te presentan una escala con diferentes
tonalidades del color azul y cada tonalidad posee un número, pero este número sólo es para
facilitar al vendedor identificar el color solicitado entre cientos de colores. De igual modo en
muchas solicitudes se le asigna el número 1 al sexo masculino y número dos al femenino y esta
clasificación sólo es para facilitar los cómputos y manejos de información estadística, pero no
quiere decir que los masculinos tengan más o menor valor que las del sexo femenino. Los
números que se utilizan para efectos de identificación en una escala nominal nunca se utilizarán
para llevar a cabo los procedimientos matemáticos de suma, resta, multiplicación y división.
1.5.2. Escalas ordinales
Las escalas ordinales son las que clasifican a las personas, eventos u objetos en una posición con
relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se
asignan números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Por
ejemplo, en un determinado grupo escolar se decidió seleccionar los cinco estudiantes con el
promedio más alto para premiarlos con un viaje al Lago de Coatepeque y resultó que Esteban
quedó tercero con un promedio de 8.90, seguido de Jorge con 8.88 y, luego Leticia con 8.75.
Esteban como tercero se le asigna el número tres, pero ésta designación numérica sólo indica su
posición con relación a los otros cuatro alumnos. Sabemos que Esteban tiene un mejor promedio
que Jorge y que su promedio es superior que el de Leticia. Sin embargo, no podremos saber hasta
qué punto es mejor su promedio comparado con los otros.
Con las escalas ordinales tampoco se pueden llevar a cabo las operaciones aritméticas de suma,
resta, multiplicación y división. La diferencia que puede haber entre unas personas u objetos en
este tipo de escala no necesariamente constituye unidades iguales o absolutas que puedan
utilizarse para determinar si el que tiene un segundo lugar posee el doble valor que el que queda
en cuarta posición. Por ejemplo, en un evento atlético de una carrera que no haya sido
cronometrada, podemos saber quién llegó primero, segundo y tercer lugar, pero no podemos
saber con precisión la velocidad entre un corredor y otro. La diferencia que hay entre el primero y
el segundo no necesariamente es igual a la que hubo entre el segundo y el tercero.
1.5.3. Escalas de intervalos
Las escalas de intervalos son aquellas que ordenan los objetos o eventos según la magnitud del
atributo que representan y proveen intervalos iguales entre las unidades de medida. Además, no
poseen un punto cero absoluto o verdadero ya que el mismo es establecido por convención de
forma arbitraria por los expertos en el área o materia de estudio y no implica la ausencia del
atributo o la propiedad en cuestión. Por ejemplo, la escala de inteligencia posee un punto cero,
pero administrando cualquier tipo de prueba que intente medir la inteligencia, nunca va a
encontrar un ser humano con cero inteligencia. De igual modo si el agua está en 0 grado °C, esto
no quiere decir que carezca de temperatura, ya que en una escala de intervalos, como se ha
indicado, es una designación arbitraria y convencional.
Una diferencia de cierta magnitud en una escala de intervalos significa lo mismo en todos los
puntos de la escala. Así por ejemplo, en los termómetros de grados Fahrenheit y centígrados que
17
utilizan este tipo de escalas, están divididos en unidades iguales, la diferencia en la temperatura
entre 100 grados y 101 grados es equivalente a la diferencia entre 110 grados y 111 grados.
La numeración de los años en nuestro calendario utiliza también una escala de intervalos. Las
autoridades eclesiásticas y gubernamentales de la época decidieron arbitrariamente fijar como el
año 1 el del nacimiento de Cristo y como unidad de medida un lapso de 365 días. Por lo tanto, el
lapso de tiempo que estuvo Bill Clinton como presidente de los Estados Unidos desde 1993 –
2001 es igual al que transcurrió George Bush desde 2001 – 2009.
1.5.4. Escalas de razones o cocientes
Las escalas de razones o cocientes se diferencian de las de intervalos solamente en que la de
razones el punto cero no es arbitrario y corresponde a una total ausencia del asunto o propiedad
estudiada. La escala de una simple regla de 12 pulgadas posee una escala de razones la cual está
dividida en 12 unidades cada una de igual magnitud y parte de un punto cero absoluto y
verdadero.
La mayoría de las variables con las cuales se utiliza este tipo de escalas se refieren más a la
ejecución de tareas motoras, a las medidas de objetos y de aspectos fisiológicos.
Dos ejemplos de las escalas de razones y cocientes son: las medidas de la estatura y el peso. Si
una columna mide seis metros es el doble de alto de otra columna que mide tres metros. Si
Enrique pesa 180 libras, entonces pesa el doble que María quién pesa 90 libras. Las razones de
los números en estas escalas tienen un determinado sentido, lo que hace posible que se
interpreten los valores numéricos entre las cantidades obtenidas de los objetos.
Además pueden llevarse a cabo las diferentes operaciones matemáticas.
RESUMEN: CARACTERÍSTICAS, EJEMPLOS Y LIMITACIONES
DE LAS ESCALAS DE MEDICIÓN ESCALA CARACTERÍSTICAS USOS/EJEMPLOS LIMITACIONES
Nominal Se clasifican las personas, eventos u
objetos en categorías.
Denominaciones religiosas, afiliación
político partidista, codificaciones en
la clasificación de objetos, pinturas,
movimientos literarios.
No se pueden precisar diferencias
cuantitativas entre las categorías.
Ordinal Se clasifican u ordenan las
personas, objetos y eventos en
determinada posición.
Orden de llegada de atletas en una
carrera, puntuaciones de una prueba,
rangos militares, nivel de popularidad
de estudiantes en una escuela.
Restringida para Identificar
diferencias relativas, pero no
precisa diferencias en cantidad
absoluta entre personas u objetos.
Intervalo Escala que posee unidades de igual
magnitud. El punto cero de la escala
es arbitrario y no refleja la ausencia
del atributo.
Temperaturas (Celsius y Fahrenheit),
fechas del calendario, escala de
inteligencia.
Razones no tienen sentido ya que el
punto cero es establecido
convencionalmente.
Razones Escala que posee un punto
cero absoluto e intervalos de igual
magnitud.
Distancia, peso, estatura, tiempo
requerido para realizar una tarea
escolar.
Ninguna, excepto que su uso se
supedita mayormente a medir
cualidades físicas más que para la
medición de aspectos psicológicos.
18
1.6. Diseño de Experimentos estadísticos.
El diseño de un experimento es la secuencia completa de los pasos que se deben tomar de
antemano, para planear y asegurar la obtención de toda la información relevante y adecuada al
problema bajo investigación, la cual será analizada estadísticamente para obtener conclusiones
válidas y objetivas con respecto a los objetivos planteados.
Un Diseño Experimental es una prueba o serie de pruebas en las cuales existen cambios
deliberados en las variables de entrada de un proceso o sistema, de tal manera que sea posible
observar e identificar las causas de los cambios que se producen en la respuesta de salida.
El propósito de cualquier Diseño Experimental, es proporcionar una cantidad máxima de
información pertinente al problema que se está investigando. Y ajustar el diseño que sea lo más
simple y efectivo; para ahorrar dinero, tiempo, personal y material experimental que se va a
utilizar. Es de acotar, que la mayoría de los diseños estadísticos simples, no sólo son fáciles de
analizar, sino también son eficientes en el sentido económico y en el estadístico.
De lo anterior, se deduce que el diseño de un experimento es un proceso que explica tanto la
metodología estadística como el análisis económico.
DISEÑO: Consiste en planificar la forma de hacer el experimento, materiales y métodos a usar,
etc.
EXPERIMENTO: Conjunto de pruebas o ensayos cuyo objetivo es obtener
información, que permita mejorar el producto o el proceso en estudio.
1.7. Guía de ejercicios N° 1. 1. Contestar verdadero o falso y comentar su respuestas según sea el caso:
a) La Estadística es una ciencia que estudia y describe las características de un conjunto de
casos.
b) La estadística inferencial generaliza los resultados de una muestra a los de la población
total.
c) Durante los últimos dos días se ha informado de un total de cinco homicidios diarios en
San Salvador, este es un ejemplo de estadística inferencial.
d) A las medidas que se obtienen de una muestra se les da el nombre de parámetro.
e) En una muestra aleatoria ciertos elementos tienen mayor probabilidad que otros de ser
seleccionados.
2. Mediante ejemplos, explicar la diferencia entre la estadística descriptiva y estadística
inferencial.
19
3. POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas
características comunes observables en un lugar y en un momento determinado. A partir
de esta definición enumere las características de una población.
4. Describir dos ejemplos de población.
5. Describir dos ejemplos de muestra de una población.
6. Definir al menos dos tipos de muestreo y dar ejemplos de aplicación de cada uno.
7. Se desea estimar la edad promedio de los estudiantes de la asignatura de Tratamiento de
la Información Estadística. Se sabe que la edad de un estudiante es una variable aleatoria
con distribución normal con desviación estándar de 6años. Determine el tamaño de
muestra aleatoria necesaria para garantizar una probabilidad igual a 0.95 de que el
estimador y el parámetro se diferencien en menos de 5años.
8. Establecer las diferencias entre la unidad de análisis y la unidad muestral.
9. Establecer las diferencias entre variables cualitativas y cuantitativas.
10. Definir al menos dos ejemplos de variables cualitativas y de variables cuantitativas.
11. Establecer las diferencias entre variables discretas y continuas.
12. Definir al menos dos ejemplos de variables discretas y de variables continuas.
13. Definir las siguientes escalas de Medición y presentar dos ejemplos de cada una de ellas:
Escala nominal
Escala ordinal
Escala de intervalo.
Escala de razón
20
Capítulo 2. Distribuciones de frecuencias y sus
representaciones gráficas.
2.1. Estadística Descriptiva con una variable
La estadística descriptiva permite organizar y presentar un conjunto de datos de manera que
describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación.
Obviamente, la materia prima de la Estadística Descriptiva la constituyen los datos, que son el
resultado de las observaciones y/o experimentos. Se denomina variable al carácter o fenómeno de
la realidad objeto de estudio. Las variables pueden ser de diferentes tipos, dependiendo de los
datos que la forman.
:
Cualitativas o atributosVariables
Cuantitativas Discretas o Continuas
Las variables cualitativas o atributos son aquellas que no toman valores numéricos. Describen
diferentes cualidades denominadas modalidades. Ejemplo: Sexo, estado civil, color de los ojos,
etc. Las variables cualitativas están formadas por datos que toman valores numéricos y pueden
ser discretas, si sólo toman un número entero de valores, y continuas, si pueden tomar cualquier
valor real dentro de un intervalo.
Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de
frecuencias y b) la representación gráfica.
2.1.1. Distribución de frecuencias
Supongamos que hemos recogido un conjunto de n datos englobados en una variable X. La tabla
que recoge de modo sistemático estos datos se denomina distribución de frecuencias. La
Distribución de Frecuencias (Simples o agrupadas en intervalos). Comúnmente llamada tabla de
frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones
realizadas en el estudio, estableciendo un orden mediante la división en clases y registro de la
cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un
mejor análisis e interpretación de las características que describen y que no son evidentes en el
conjunto de datos brutos o sin procesar.
21
La siguiente tabla recoge las principales características de una distribución de frecuencias simple
o no agrupada.
Datos Frecuencias Absolutas Frecuencias Relativas
Simples Acumuladas Simples Acumuladas
1
2
.
.
.
k
x
x
x
1
2
.
.
.
k
n
n
n
1 1
2 1 2
1
.
.
.
k
k i
i
N n
N n n
N n
1 1
2 2
/
/
.
.
.
/k k
f n n
f n n
f n n
1 1
2 2
/
/
.
.
.
/k k
F N n
F N n
F N n
Total
1
k
i
i
n n
1
1k
i
i
f
La primera columna representa los distintos valores de esos datos y la segunda la frecuencia
simple, es decir, el número de veces que se ha observado el correspondiente valor; la tercera
columna recoge la frecuencia acumulada (número de veces que se han observado valores
menores o iguales que el que corresponde a dicha fila). Las frecuencias relativas se obtienen a
partir de las frecuencias absolutas, dividiendo por el tamaño de la muestra.
2.1.2. Descripción de Variables Cualitativas
DISTRIBUCIÓN DE FRECUENCIAS
● Supongamos que tenemos N observaciones de una variable cualitativa.
● Supongamos que la variable puede tomar valores pertenecientes a k clases o categorías:
4
Verde
AzulColor de ojos k
Marron
Negro
● Representamos mediante n1, n2, …, nk el número de datos que aparecen en cada una de las k
categorías.
● Frecuencia absoluta de la clase i-ésima (ni): número de observaciones en la clase i.
22
● Frecuencia relativa de la clase i-ésima (fi): es la proporción de datos en la clase i-ésima, es
decir, fn
Ni
i .
- La suma de las k frecuencias relativas es igual a la unidad: f1 + f2 +…+ fk=1
- Nos permiten comparar las frecuencias de las categorías en conjuntos de datos con distinto número de observaciones
● Distribución de frecuencias: es la tabla que presenta las categorías de una variable y sus
respectivas frecuencias.
- Nos indica cómo se distribuye la frecuencia total entre las categorías - Es el resumen más importante de la información contenida en una variable cualitativa Ejemplo 1: nivel educativo
Se ha clasificado a 20 individuos según su nivel de estudios que puede tomar valores:
1 sin
2
3
4 sup
estudios
primariosNivel educativo
medios
eriores
y se han obtenido los siguientes datos:
1 1 4 3 3 3 2 2 4 2 2 1 4 2 3 2 3 4 2 3;
N=20; k=4
Frecuencias absolutas:
n1=3; n2=7; n3=6; n4=4 N n n n n 1 2 3 4 3 7 6 4 20
Frecuencias relativas:
f f f f1 2 3 43
200 15
7
200 35
6
200 3
4
200 2 , ; , ; , ; ,
f f f f1 2 3 4 015 0 35 0 3 0 2 1 , , , ,
23
Distribución de frecuencias:
Categorías ni fi
1. Sin estudios 3 0,15
2. Primaria 7 0,35
3. Media 6 0,3
4. Superior 4 0,2
N=20 1
La categoría más frecuente es la de estudios primarios y la menos frecuente la de sin estudios
REPRESENTACIÓN GRÁFICA DE LA DISTRIBUCIÓN DE FRECUENCIAS
A) Diagrama de barras: Permite visualizar de forma sencilla la distribución de una variable cualitativa. Se dibuja sobre cada categoría una barra (o rectángulo) cuya altura coincida
con la frecuencia absoluta o relativa de dicha clase.
Ejemplo: Nivel de estudios (Continuación ejemplo 1)
Frecuencias relativas fi
0.10
0.15
0.20
0.25
0.30
0.35
0.40
1 2 3 4
B) Diagrama de Pareto: Es como un diagrama de barras en el que se ordenan las clases de mayor a menor frecuencia (absoluta o relativa). En la parte superior de la figura suele
trazarse una línea que representa la suma de la frecuencia de cada clase y las que la
preceden, esto se usa para identificar la minoría de las características que representan la
mayoría de casos.
24
A principios del Siglo XX, Vilfredo Pareto (1848-1943), un economista italiano, realizó
un estudio sobre la riqueza y la pobreza. Descubrió que el 20% de las personas
controlaba el 80% de la riqueza en Italia.
La gráfica de Pareto es una herramienta sencilla pero poderosa al permitir identificar
visualmente en una sola revisión las minorías de características vitales a las que es importante
prestar atención.
Algunos ejemplos de tales minorías vitales son:
La minoría de clientes que representan la mayoría de las ventas.
La minoría de productos, procesos, o características de la calidad causantes del grueso de desperdicio de los costos de retrabajos.
Ejemplo: Nivel educativo (Continuación ejemplo 1)
Frecuencias relativas fi (Gráfico de Pareto)
0.10
0.15
0.20
0.25
0.30
0.35
0.40
2 3 4 1
f2=0,35
f2+ f3=0,35+0,3=0,65
f2+ f3+ f4=0,35+0,3+0,2=0,85
f2+ f3+ f4+f1=0,35+0,3+0,2+0,15=1
Un 35 por ciento de la población llega hasta la educación primaria y el 65 por ciento de la
población tiene un nivel educativo primario o media.
25
Diagrama de Pareto
0.0
0.2
0.4
0.6
0.8
1.0
2 3 4 1
En el diagrama anterior se observa que el 65 por ciento de la población, tiene un nivel
educativo primaria o media.
C) Pictograma: Es una forma de representar las cantidades estadísticas por medio de
dibujos, utilizando para ello objetos y figuras. Las figuras empleadas deben explicarse por
sí mismas.
Ejemplo: Nivel de educativo (Continuación).
a) Distribución de frecuencias:
Categorías ni fi
1. Sin estudios 3 0,15
2. Primario 7 0,35
3. Medio 6 0,3
4. Superior 4 0,2
N=20 1
b) Elaboración del Pictograma (Ejercicio para el estudiante)
26
Ejemplo: Variable socioeconómica (SOC): La variable SOC describe la categoría
socioeconómica:
1
2
3
4
5
6
7
trabajadores agrarios
empresarios agrarios
obreros
SOC autonomos
clase media
clase alta
retirados
Los datos de 75 hogares (o unidades de gasto) son:
3 7 3 5 3 5 1 5 7 5 5 3 3 5 1 1 3 2 2 3 1 3 7 5 3 3 3 5 5 5 7 7 5 1 4 2 1 7 3 4 3 3 3 5 3 3 6
6 7 2 7 1 3 3 2 5 3 7 2 2 7 5 2 2 7 6 1 5 3 5 3 3 3 4 3
(a) Obtener las frecuencias absolutas de cada una de las categorías.
n1=8 n2=9 n3=25 n4=3 n5=16
n6=3 n7=11
(b) Calcular las frecuencias relativas y mostrar la distribución de frecuencias
fn
N1
1 8
750 11 , f
n
N2
2 9
750 12 ,
fn
N3
3 25
750 33 , f
n
N4
4 3
750 04 ,
fn
N5
516
750 21 , f
n
N6
6 3
750 04 ,
fn
N7
7 11
750 15 ,
Nótese que:
f f f f f f f fii
1 2 3 4 5 6 7
1
7
1
27
Distribución de frecuencias:
Categoría ni fi
1. Trabajadores agrarios 8 0,11
2. Empresarios agrarios 9 0,12
3. Obreros 25 0,33
4. Autónomos 3 0,04
5. Clase media 16 0,21
6. Clase alta 3 0,04
7. Retirados 11 0,15
N=75 1
(c) Construir el diagrama de Pareto
0.0
0.2
0.4
0.6
0.8
1.0
3 5 7 2 1 4 6
f3=0,33; f3+f5=0,33+0,21=0,54
f3+f5+f7=0,33+0,21+0,15=0,69
f3+f5+f7+f2=0,33+0,21+0,15+0,12=0,81
f3+f5+f7+f2+f1=0,33+0,21+0,15+0,12+0,11=0,92
f3+f5+f7+f2+f1+f4=0,33+0,21+…+0,11+0,04=0,9
F3+F5+F7+F2+F1+F4+F6=0,33+0,21+…+0,04+0,04=1
El 33 por ciento de la población son obreros y el 54 por ciento de la población son obreros o clase
media, y así sucesivamente.
28
Gráfico de sectores:
En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste
en representar sobre un círculo los diferentes atributos, mediante un sector circular de ángulo
proporcional a la correspondiente frecuencia. El ángulo de cada sector circular se calcula
multiplicando por 360º la frecuencia relativa.
Los gráficos de sectores, también conocidos como diagramas de "tartas o pastel", se divide un
círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le
corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Si el número de
categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo
suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de cuatro
categorías. En este caso se pueden apreciar con claridad dichos subgrupos.
Ejemplo.
La población según nivel de estudio del Municipio de Ayutuxtepeque se presenta en el siguiente
cuadro:
Parvularia Primaria o básica
Educación media
Superior no universitaria
Técnico universitario
Superior universitaria Maestría Doctorado Total
1168 15895 6842 499 363 4556 70 7 29400 Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.
Elaborar un gráfico de sectores.
Se tienen 8 categorías, por lo tanto debe aparecer el círculo dividido en 8 porciones. La tabla
anterior presenta las frecuencias absolutas, habrá que dividir cada dato por el total (29,400) a fin
de obtener la frecuencia relativa y luego multiplicar esta última por 100. Por ejemplo, para la
categoría de educción básica: (15,895/ 29,400)*100 = 54,06%. Observe que no se ha
multiplicado por 360°, ya que es más ilustrativo el porcentaje (Así trabaja Excel).
Figura 2. Nivel educativo de la población de Ayutuxtepeque, por ciento.
Es evidente que la mayoría de la población tiene un nivel educativo básico o media con el
54.06% y 23.27% respectivamente. En general la población de Ayutuxtepeque tiene un nivel
educativo relativamente bajo, son muy pocos los que llegan a hacer estudios universitarios.
29
2.1.3. Variables cuantitativas discretas.
Diagrama de Barras:
Para el caso de distribuciones de frecuencias no agrupadas en intervalos, el diagrama de barras es
el gráfico más empleado. Que se usa cuando se pretende resaltar la representación de porcentajes
o frecuencias de datos que componen un total. Una gráfica de barras contiene barras verticales
que representan valores numéricos. Las frecuencias están asociadas con categorías. Una gráfica
de barras se presenta de dos maneras: horizontal o vertical. El objetivo es poner una barra de
largo (alto si es horizontal) igual a la frecuencia. La gráfica de barras sirve para comparar y tener
una representación gráfica de la diferencia de frecuencias o de intensidad de la característica
numérica de interés. Si en vez de frecuencias simples utilizamos frecuencias acumuladas,
tenemos el llamado diagrama de escalera.
Ejemplo. Con la información del VI Censo de Población y V de Vivienda, El Salvador, 2007, se
han clasificado las mujeres de El Salvador de 12 años y más, según el número de hijos varones,
resultando los siguientes datos.
Construir un gráfico de barras para el número de hijos varones de las
mujeres salvadoreñas.
Ejemplo.
La población según condición de ocupación del Municipio de Ayutuxtepeque se presenta en el
siguiente cuadro:
OCUPADOS DESOCUPADOS INACTIVOS Total
ÁREA URBANA 10966 2832 8531 22329
EL ZAPOTE 329 42 477 848
LOS LLANITOS 2410 227 2550 5187
Total 13705 3101 11558 28364 Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.
Elaborar un gráfico de barras para la población total de Ayutuxtepeque según su condición de
ocupación.
N° Hijos Varones Madres
0 278290
1 509469
2 339180
3 177050
4 92233
5 50916
6 27791
7 15004
8 7328
9+ 7366
30
2.2. Distribución de frecuencias agrupadas.
Cuando en la muestra existen muchos valores diferentes y mucha variabilidad se recomienda, aún
a costa de perder información, agrupar los datos en clases, en lo que se denomina distribución de
frecuencias agrupada en intervalos.
Clase Marca Frecuencias Absolutas Frecuencias Relativas
Clase Simples Acumuladas Simples Acumuladas
0 1
1 2
1
.
.
.
k k
L L
L L
L L
1
2
.
.
.
k
x
x
x
1
2
.
.
.
k
n
n
n
1 1
2 1 2
1
.
.
.
k
k i
i
N n
N n n
N n
1 1
2 2
/
/
.
.
.
/k k
f n n
f n n
f n n
1 1
2 2
/
/
.
.
.
/k k
F N n
F N n
F N n
Total
1
k
i
i
n n
1
1k
i
i
f
A cada uno de los intervalos se les denomina clase y al punto medio marca de clase. A efectos de
cálculo la marca de clase se elige como representante del intervalo. El número de clases en que se
dividen los datos no debe ser excesivo. A modo orientativo, el número de clases se puede obtener
mediante la siguiente fórmula empírica, llamada de Sturges:
log( )1
log(2)
nnúmero de clases (Tomar la parte entera)
31
Ejemplo. Población de El Salvador, por sexo y edad, año 2007..
Edad Hombre Mujer Total Edad Hombre Mujer Total Edad Hombre Mujer Total
< 1 51787 50097 101884 36 31398 40111 71509 72 8591 10717 19308
1 53230 51477 104707 37 31414 38801 70215 73 7461 9522 16983
2 55845 54261 110106 38 29639 37419 67058 74 8011 10030 18041
3 59752 57127 116879 39 29435 37454 66889 75 8067 9886 17953
4 62658 59659 122317 40 31769 39411 71180 76 7535 9745 17280
5 62274 59738 122012 41 24732 32964 57696 77 6897 8872 15769
6 69088 66249 135337 42 26840 34653 61493 78 5825 7123 12948
7 75310 72672 147982 43 24578 32639 57217 79 5334 6700 12034
8 71525 68511 140036 44 24299 31746 56045 80 5717 7089 12806
9 70953 68407 139360 45 24451 31422 55873 81 4124 5274 9398
10 74244 70664 144908 46 21989 29308 51297 82 3841 5220 9061
11 71744 69499 141243 47 22251 28713 50964 83 3438 4508 7946
12 74093 72835 146928 48 20682 26481 47163 84 3281 4378 7659
13 68251 66194 134445 49 20584 26241 46825 85 3263 4413 7676
14 71191 67632 138823 50 22897 28057 50954 86 3096 4286 7382
15 64523 63752 128275 51 17664 22874 40538 87 2750 3758 6508
16 61880 61630 123510 52 19081 24360 43441 88 1767 2358 4125
17 61255 61624 122879 53 17671 22344 40015 89 1595 2219 3814
18 57590 58584 116174 54 17962 22824 40786 90 1405 2091 3496
19 53136 56591 109727 55 17848 22561 40409 91 786 1143 1929
20 50243 55085 105328 56 17114 21361 38475 92 826 1206 2032
21 45994 51623 97617 57 16816 20974 37790 93 673 990 1663
22 46006 51429 97435 58 14462 17853 32315 94 559 869 1428
23 42864 49278 92142 59 15478 18608 34086 95 482 816 1298
24 42894 51126 94020 60 17461 19979 37440 96 416 674 1090
25 42616 50552 93168 61 12470 15424 27894 97 356 588 944
26 41993 50707 92700 62 13590 17093 30683 98 + 526 948 1474
27 43473 52214 95687 63 12274 15528 27802
28 39209 48076 87285 64 12412 15633 28045
29 39672 49378 89050 65 12802 15513 28315
30 41911 50744 92655 66 11774 14915 26689
31 33494 42933 76427 67 11864 14597 26461
32 35940 45312 81252 68 9694 12291 21985
33 33124 41990 75114 69 9647 12060 21707
34 33931 42870 76801 70 10861 13101 23962
35 34628 42848 77476 71 8525 10638 19163 Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.
Elabore una tabla de frecuencias agrupadas por edad.
32
2.2.1 Representación gráfica de variables continuas
Histogramas y polígono de frecuencias.
El histograma y el polígono de frecuencias son las representaciones gráficas usadas para
distribuciones de frecuencias agrupadas en intervalos. El histograma se construye dibujando en
cada clase un rectángulo de base la amplitud del intervalo y de altura se representan las
frecuencias. Si desde el extremo superior de cada una de las barras que representan los intervalos
de clase se hace una marca en el punto medio y luego se unen los puntos por línea recta se
obtiene el polígono de frecuencias.
El polígono de frecuencias se lleva hasta el eje horizontal en los extremos hasta los puntos que
serían los puntos medios si hubiera una clase adicional en cada extremo del histograma
correspondiente. Esto permite que el área total quede incluida. Es decir, el área total bajo el
polígono de frecuencias equivale al área bajo el histograma.
Ejemplo: Estatura de los estudiantes de clase (ejercicio práctico)
Ejemplo:
El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y
2008, para los municipios de Soyapango, Ilopango y San Martín.
Grupos de
edades
SOYAPANGO ILOPANGO SAN MARTÍN
Femenino Masculino Total Femenino Masculino Total Femenino Masculino Total
AÑO 2004
Total 15 167 182 12 78 90 11 42 53
AÑO 2005
Total 14 228 242 5 74 79 11 75 86
AÑO 2006
Total 16 246 262 15 69 84 6 48 54
AÑO 2007
Total 20 179 199 10 67 77 8 71 79
AÑO 2008
Total 10 128 138 9 66 75 7 54 61
Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar el sexo, no aparecen registrados en el cuadro anterior.
Utilizar la mejor representación gráfica para la información anterior (Diagrama de barras e
histogramas)
33
2.3. Guía de ejercicios N° 2.
Distribución de frecuencias y sus representaciones gráficas.
1. Las calificaciones de 50 alumnos en Matemáticas han sido las siguientes: 5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7,
6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.
Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras.
2. Los pesos de los 65 empleados de una fábrica vienen dados por la siguiente tabla:
Peso [50,
60)
[60,
70) [70, 80) [80,90)
[90,
100)
[100,
110)
[110,
120)
fi 8 10 16 14 10 5 2
a) Construir la tabla de frecuencias.
b) Representar el histograma y el polígono de frecuencias.
3. Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de Física.
3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13,
22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.
a) Construir la tabla de frecuencias agrupadas en intervalos de amplitud 5 unidades.
b) Dibujar el histograma y el polígono de frecuencias.
4. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el nº de individuos
que conviven en el domicilio habitualmente. Las respuestas obtenidas han sido las
siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.
a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas.
b) ¿Qué proporción de hogares está compuesto por tres o menos personas? ¿Qué proporción de individuos vive en hogares con tres o menos miembros?
c) Dibuje el diagrama de barras de frecuencias y el diagrama en escalera.
5. Una entidad bancaria dispone de 50 sucursales en el territorio nacional y ha observado el número de empleados que hay en cada una de ellas para un estudio posterior. Las
observaciones obtenidas han sido: 12, 10, 9, 11, 15, 16, 9, 10, 10, 11, 12, 13,14,15, 11, 11,
12, 16, 17, 17,16,16, 15, 14, 12, 11, 11, 11, 12, 12, 12, 15, 13, 14, 16, 15, 18, 19, 18, 10,
11, 12, 12, 11, 13, 13, 15, 13, 11, 12.
a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas.
b) ¿Qué proporción de sucursales tiene más de 15 empleados?
34
c) Dibuje el diagrama de barras y el diagrama en escalera correspondientes. d) Agrupe en intervalos de amplitud 3 los valores de la variable, calcule su distribución
de frecuencias y represente su histograma y su polígono de frecuencias.
6. Los siguientes valores son los niveles de glucosa en sangre extraída a 100 niños en ayunas:
56 61 57 77 62 75 63 55 64 60
60 57 61 57 67 62 69 67 68 59
65 72 65 61 68 73 65 62 75 80
66 61 69 76 72 57 75 68 81 64
69 64 66 65 65 76 65 58 65 64
68 71 72 58 73 55 73 79 81 56
65 60 65 80 66 80 68 55 66 71
72 73 73 75 75 74 66 68 73 65
73 74 68 59 69 55 67 65 67 63
67 56 67 62 65 75 62 63 63 59
a. Elabore una distribución de frecuencias b. Un histograma y un polígono de frecuencias.
7. Los siguientes datos representan las ventas de tabaco en España durante el año 1992, en millones de cajetillas, según marcas:
Marcas Ventas
Ducados
Fortuna
Marlboro
Winston (1)
Lucky Strike (1)
Chesterfiel
Otros marcas
1,107
1,041
535
333
164
110
725
a. Calcular el porcentaje de ventas de cada marca sobre el total. b. Representar los datos anteriores mediante un diagrama circular
8. Las edades de los empleados de una determinada empresa son las que aparecen en la siguiente tabla:
Edad N° de empleados
Menos de 25 22
Menos de 35 70
Menos de 45 121
Menos de 55 157
Menos de 65 184
Sabiendo que el empleado más joven tiene 18 años, escríbase la distribución de frecuencias para
datos agrupados (amplitud del intervalo definida según su conveniencia).
35
Capítulo 3. Medidas Características de una
Distribución Cuantitativa Empírica.
3.1 Medidas de posición
Los promedios o medidas de posición proporcionan valores típicos o representativos de la
variable en estudio. Podemos hablar de medidas de posición centrales, como la media (aritmética,
geométrica y armónica), la mediana y la moda y medidas de posiciones no centrales, como los
cuartiles, quintiles, deciles y percentiles.
La media aritmética es la medida de posición más utilizada (esta muy influenciada por los valores
extremos de la variable). Viene definida como la suma de los datos divido por el número de ellos.
Dependiendo de la naturaleza de los datos que pretendemos promediar, será conveniente el uso
de otro tipo de medidas, como son la media geométrica (Todos los datos son positivos y hay
mucha dispersión; ejemplo: porcentajes, tasas de crecimiento, razones, números índices, interés
anual, inflación, etc.) y la media armónica (resulta poco influida por la existencia de
determinados valores muy grandes que el conjunto de los otros, siendo en cambio sensible a
valores muy pequeños), cuyas fórmulas se presentan en la siguiente tabla. Si a cada observación
se le asigna un valor diferente, dado en forma de peso, y a continuación se calcula la media, nos
encontramos con una media ponderada. La moda de un conjunto de valores es aquel valor que
ocurre con más frecuencia. Si todos los valores son distintos, no hay moda, por otra parte, un
conjunto de datos puede tener más de una moda.
Medidas de tendencia central
Media aritmética 1 1 2 2
1. . . k kx x n x n x n
n
Media geométrica 1 2
1/
1 2 . . .k
nnn n
kG x x x
Media armónica
1 2
1 2
. . . k
k
nH
nn n
x x x
3.1.1. Media aritmética.
Es la medida más conocida, la más fácil de calcular y con la que siempre estamos más
familiarizados, ya que siempre hemos calculado el promedio de calificaciones obtenidas en cada
periodo escolar (Ciclo, año, etc.) A veces se le denomina simplemente media o promedio, y es
utilizada con tanta frecuencia, que en algunas ocasiones nos conduce a resultados que no revelan
36
lo que se pretende presentar, ya que la distribución de los datos puede requerir de la aplicación de
un promedio diferente a la media, ya sea, media geométrica o media armónica.
Le media es altamente sensible a cualquier cambio en los valores de la distribución. No es
recomendable su uso cuando la variable está dada en forma de tasas o porcentajes. La media es
representativa del conjunto de datos si se quiere promediar cantidades semejantes, que presentan
variaciones dentro de un margen razonable.
Media Aritmética simple. Se define como el cociente que se obtiene al dividir la suma de los
valores de la variable por el número total de observaciones. Su fórmula está dada por:
1
n
i
i
x
xn
Ejemplo. Supongamos que en un almacén tienen empleados a 12 vendedores, y sus ingresos
mensuales son: $ 585, $ 521, $ 656, $ 465, $ 536, $ 487, $ 564, $ 490, $ 563, $ 1234, $ 469 y $
547. Se pide determinar la media de los ingresos de los 12 vendedores.
Solución.
Ejemplo. Consideremos las utilidades y pérdidas de un almacén por departamentos, como se
muestra en la siguiente tabla.
OBSERVACIÓN. El promedio por departamento se
mantiene de un año a otro, pero nos oculta los cambios que
se han producido por departamentos donde ha habido un
desplazamiento de los beneficios. Para superar estas
deficiencias se requiere trabajar con la media ponderada.
Media aritmética ponderada
Cuando el número de observaciones es grande, las operaciones para calcular la media se
simplifican si agrupamos los datos en una tabla de frecuencias. La fórmula matemática está dada
por:
1
k
i i
i
x f
xn
Si los datos están agrupados en clase, no se conoce el valor de x, por lo tanto se toma el punto
medio de cada clase en vez de x (marca de clase).
Propiedades de la media.
Dada la importancia de la media y su uso frecuente, conviene considerar algunas de sus
propiedades:
1. La suma de las desviaciones respecto a la media es cero, esto es:
Departamentos 2008 2009
Calzado -10 20
Electrodomésticos 153 58
Juguetería -40 -20
Ropa 130 152
Misceláneos -13 10
Promedio 44 44
37
Para datos no agrupados:1
( ) 0n
i
i
x x
Para datos agrupados: 1
( ) 0n
i i
i
x x n
. La verificación de esta propiedad es inmediata.
2. La media aritmética de una constante es igual a la constante. 3. La media del producto de una constante por una variable, es igual a multiplicar a la
constante por la media de la variable.
4. La media de una variable más (o menos) una constante será igual a la media de la
variable, más (o menos) la constante, es decir, 1( )
k
i i
i
x c n
x cn
5. La media aritmética de una muestra dividida en submuestras, es igual, a la media ponderada de las submuestras, tomando como ponderación los tamaños de las
submuestras. Esto es, 1
1 2 ...
m
i i
im
x n
x donde n n n nn
Ejemplo: Un inversionista tiene 1,200 acciones de un precio inferior a $3,490 dólares
siendo su valor promedio de $ 2,905; además, 800 acciones cuyo valor unitario es
superior a $ 3,490 y su valor promedio de $ 4,275. Calcular el valor promedio de las
2,000 acciones.
Solución.
1 21 2
1 2
2905(1200) 4275(800)3,453
1200 800
x n x nx
n n
En promedio el inversionista gasta $ 3,453 dólares en las 2000 acciones.
3.1.2. La media geométrica (Mg)
La media geométrica se define como la raíz n-ésima de la multiplicación de los n valores de la
variable. Se utiliza cuando se quiere dar importancia a valores pequeños de la variable o cuando
se desea obtener el promedio de valores que están dados en progresión geométrica.
En el campo industrial y comercial se utiliza para obtener promedios sobre el crecimiento o
decrecimiento de una variable. Por ejemplo, un capital ahorrado a una tasa de interés compuesto,
durante un periodo de tiempo.
La media geométrica se calcula utilizando la siguiente fórmula: 1 2
1 2 . . .knn nn
kMg x x x donde los ni es el número de veces que se repite cada dato, en caso que los datos no se repitan los
ni=1.La fórmula de la media geométrica tal como se ha presentado tiene el inconveniente de que
38
tanto el producto de los xi como su raíz n-ésima, pueden ser un valor demasiado alto que dificulte
las operaciones. Para obvi