206
1 ANÁLISIS EXPLORATORIO DE DATOS Y PROBABILIDAD E INFERENCIA ESTADISTICA Dr. José Nerys funes Torres Lic. René Armando Peña Aguilar Facultad de Ciencias Naturales y Matemática Escuela de Matemática Departamento de Estadística Universidad de El Salvador Septiembre de 2010.

ANÁLISIS DESCRIPTIVO DE DATOS Y PROBABILIDAD E … · 2020. 3. 3. · Conceptos Básicos de Probabilidad..... 132 7.1 Introducción ... 7.5. Axiomas de Probabilidad ... campaña,

  • Upload
    others

  • View
    9

  • Download
    0

Embed Size (px)

Citation preview

  • 1

    ANÁLISIS EXPLORATORIO DE DATOS Y

    PROBABILIDAD E INFERENCIA ESTADISTICA

    Dr. José Nerys funes Torres

    Lic. René Armando Peña Aguilar

    Facultad de Ciencias Naturales y Matemática

    Escuela de Matemática

    Departamento de Estadística

    Universidad de El Salvador

    Septiembre de 2010.

  • 2

    Índice general.

    Introducción. ............................................................................................................................ 5

    Capítulo 1. Conceptos Básicos de Estadística. ................................................... 6

    1.1. La Estadística y sus aplicaciones ............................................................................................. 6 1.1.1. ¿Qué es la Estadística? ...................................................................................................... 6

    1.1.2. Aplicaciones de la Estadística. .......................................................................................... 6 1.2. Población, Muestra y técnicas de muestreo. .......................................................................... 10 1.3. Unidad de estudio y unidad de muestreo ............................................................................... 13 1.4. Variables y datos .................................................................................................................... 14 1.5. Escalas de medición .............................................................................................................. 15

    1.5.1. Escalas nominales ........................................................................................................... 15 1.5.2. Escalas ordinales ............................................................................................................. 16

    1.5.3. Escalas de intervalos ....................................................................................................... 16 1.5.4. Escalas de razones o cocientes ........................................................................................ 17

    1.6. Diseño de Experimentos estadísticos. .................................................................................... 18 1.7. Guía de ejercicios N° 1........................................................................................................... 18

    Capítulo 2. Distribuciones de frecuencias y sus representaciones

    gráficas ..................................................................................................................................... 20

    2.1. Estadística Descriptiva con una variable ............................................................................... 20

    2.1.1. Distribución de frecuencias ............................................................................................. 20

    2.1.2. Descripción de Variables Cualitativas ............................................................................ 21

    2.1.3. Variables cuantitativas discretas. .................................................................................... 29 2.2. Distribución de frecuencias agrupadas. .................................................................................. 30

    2.2.1 Representación gráfica de variables continuas ................................................................ 32 2.3. Guía de ejercicios N° 2........................................................................................................... 33

    Capítulo 3. Medidas Características de una Distribución Cuantitativa

    Empírica. ................................................................................................................................... 35

    3.1 Medidas de posición ........................................................................................................... 35 3.2 Medidas de Dispersión ....................................................................................................... 42 3.3 Medidas de forma ............................................................................................................... 43

    3.4. Guía de Ejercicios N° 3. ......................................................................................................... 44

    Capítulo 4. Distribuciones Bivariadas ...................................................................... 73

    4.1. Distribuciones bidimensionales ............................................................................................. 73 4.2. Distribuciones marginales y condicionales. ........................................................................... 74 4.3. Coeficiente de correlación lineal ............................................................................................ 77 4.4. Introducción al modelos de regresión lineal .......................................................................... 77

    4.5. Modelo de regresión simple. ................................................................................................. 82 4.5.1. Estimación de los parámetros por mínimos cuadrados ................................................... 82 4.5.2. Propiedades de los estimadores por mínimos cuadrados y el modelo ajustado de

    regresión. ................................................................................................................................... 84

    4.5.3. Intervalos de confianza ................................................................................................... 86

  • 3

    4.5.4. Prueba de hipótesis de la pendiente y de la ordenada al origen. ..................................... 88 4.6. Predicción de nuevas observaciones ...................................................................................... 89

    4.7. Ejercicios. ............................................................................................................................... 98

    Capítulo 5. Los Valores Relativos ............................................................................ 101

    5.1. Razones, Proporciones, Porcentajes y Tasas. ....................................................................... 101 5.2. Diferencia Relativa ............................................................................................................... 103

    5.3. Los números índices ............................................................................................................. 104 5.3.1. Relación entre índices de base fija y variable. .............................................................. 106 5.3.2. Índices agregativos simples ........................................................................................... 107 5.3.3. Índices de precios .......................................................................................................... 108

    5.3.4. Índices de cantidad. ....................................................................................................... 109 5.3.5. Cálculo del salario e ingreso real. ................................................................................. 111

    5.4. Guía de ejercicios Nº 5. ........................................................................................................ 112

    Capítulo 6. Métodos de Conteo. ............................................................................... 114

    6.1 Introducción .......................................................................................................................... 114 6.2 Muestras ordenadas. .............................................................................................................. 114

    6.3 Variaciones, combinaciones y permutaciones. ..................................................................... 116 6.3.1. Variaciones de N elementos tomados de n en n. ........................................................... 116

    6.3.2. Variaciones con repetición de N elementos tomados de n en n. ................................... 116 6.3.3. Permutaciones. ............................................................................................................. 116 6.3.4. Combinaciones. ............................................................................................................. 118

    6.4. Teorema del Binomio. .......................................................................................................... 122

    6.5. Guía de Ejercicios N° 1. ...................................................................................................... 125 6.6. Soluciónes. ........................................................................................................................... 126

    Capítulo 7. Conceptos Básicos de Probabilidad ............................................. 132

    7.1 Introducción. ......................................................................................................................... 132

    7.2. Experimento aleatorio. ......................................................................................................... 132 7.3. Espacio Muestral. ................................................................................................................ 133

    7.4. Sucesos o Eventos ................................................................................................................ 133 7.4.1. Estructuras con subconjunto .......................................................................................... 134

    7.5. Axiomas de Probabilidad ..................................................................................................... 136

    7.5.1. Probabilidad (Axiomática). ........................................................................................... 136 7.6. Resultado Igualmente Probables o Modelo Uniforme de Probabilidad ............................... 138 7.7. Probabilidad condicional. .................................................................................................... 138

    7.8. Independencia de sucesos. ................................................................................................... 142 7.9. Ejercicios de cálculo de probabilidad ................................................................................... 142

    7.9.1. Problemas variados de probabilidad ............................................................................. 147 7.9.2. Hoja 4. Ejercicios de probabilidad (Repaso, Capítulo 6 y 7) ........................................ 153

    Capítulo 8. Variables aleatorias y distribuciones de probabilidad ......... 155

    8.1. Nociones básicas .................................................................................................................. 155 8.2. Distribución de probabilidad binomial ................................................................................. 159 8.3. Distribución de Poisson ........................................................................................................ 161

  • 4

    8.4. Distribución geométrica ....................................................................................................... 165 8.5. Distribución hipergeométrica ............................................................................................... 166

    8.6. Densidad uniforme ............................................................................................................... 169 8.7. Densidad normal o de Gauss ................................................................................................ 172 8.8. Aproximación de la binomial por medio de la normal ......................................................... 175 8.9. Ejercicios. ............................................................................................................................. 175

    Capítulo 9. Estimación de Parámetros. ................................................................. 178

    9.1. Distribución de la medida de la muestra. ............................................................................. 178 9.2. Distribución de la diferencia entre las medias de dos muestras. .......................................... 180 9.3. Distribución de la proporción de la muestra. ....................................................................... 184

    9.4. Distribución de la diferencia entre las proporciones de dos muestras. ................................ 186 9.5. Intervalos de confianza ......................................................................................................... 188

    9.5.1. Selección del tamaño de la muestra .............................................................................. 192

    Capítulo 10. Contraste de hipótesis. ...................................................................... 198

    10.1.- Introducción ...................................................................................................................... 198 10.2. Nociones básicas ................................................................................................................ 198

    10.3. Procedimiento sistemático para una prueba de hipótesis de una muestra. ......................... 199 10.4. Procedimiento sistemático para una prueba de hipótesis de dos muestras independientes.202

    10.5. Prueba de hipótesis para una y dos proporción independientes ........................................ 202

    Bibliografía ............................................................................................................................ 206

  • 5

    Introducción.

    La estadística como herramienta para el análisis de los datos es esencial en los profesionales que

    con frecuencia tienen la necesidad de realizar análisis de datos para la toma de decisiones.

    Este libro, recoge en 10 capítulos conocimientos estadísticos básicos que van desde el análisis

    descriptivo de datos, probabilidad e inferencia estadística.

    Debemos aclarar que los métodos descriptivos aquí propuestos son elementales univariantes y en

    el enfoque de la probabilidad sólo hemos considerado espacios probabilísticos discretos

    incluyendo dos continuas la uniforme y la normal.

    Este libro, es recomendables para principiantes en el área de estadística. Los conocimientos aquí

    planteados son base para ir enfrentando otros de estadística de mayor dificultad.

  • 6

    Capítulo 1. Conceptos Básicos de Estadística.

    1.1. La Estadística y sus aplicaciones

    1.1.1. ¿Qué es la Estadística?

    La Estadística es una ciencia que estudia las características de un conjunto de casos para hallar en

    ellos regularidades en el comportamiento, que sirven para describir el conjunto y para efectuar

    predicciones.

    La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos

    a un conjunto de objetos, personas, procesos, etc. A través de la cuantificación y el ordenamiento

    de los datos intenta explicar los fenómenos observados, por lo que resulta una herramienta de

    suma utilidad para la toma de decisiones.

    Bajo este contexto, la Estadística se divide en dos áreas: Estadística Descriptiva y Estadística

    Inferencial.

    ESTADÍSTICA DESCRIPTIVA: permite organizar y presentar un conjunto de datos de

    manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e

    interpretación. Obviamente, la materia prima de la Estadística Descriptiva la constituyen los

    datos, que son el resultado de las observaciones y/o experimentos.

    Ejemplos:

    1. Durante los últimos dos días se ha informado de un total de trece homicidios diarios. 2. La encuesta Gallup informa una ventaja de 25% para el candidato de izquierda.

    ESTADÍSTICA INFERENCIAL: Generaliza los resultados de una muestra a los de una población total, es cuando de los datos estadísticos obtenidos de una muestra se infiere o se

    deduce una observación la cual se generaliza sobre la población en total. Para determinar la

    confiabilidad de la inferencia de los datos estadísticos de una muestra, se hace necesario

    comprobar la misma para poder asegurar que lo que se observa en una muestra se observará

    también en la población. Generalmente el análisis estadístico inferencial se lleva a cabo para

    mostrar relaciones de causa y efecto, así como para probar hipótesis y teorías científicas.

    1.1.2. Aplicaciones de la Estadística.

    Mucha gente piensa que la Estadística no tiene nada que ver con otras disciplinas que no sean las

    ingenierías y economía. Otros nunca le encuentran aplicaciones útiles, y por eso tampoco les

    gusta. Pero, en realidad tiene infinitas aplicaciones en todo el conocimiento adquirido por la

    humanidad, partiendo ante todo, lo relacionado con las ingenierías, economía, las ciencias

    biológicas, ciencias sociales e incluso en algunas ramas del área Jurídica. Y, en definitiva, casi

    todos los campos de las ciencias emplean instrumentos estadísticos de importancia fundamental

    para el desarrollo de sus modelos de trabajo.

  • 7

    En nuestros días, la estadística se ha convertido en un método efectivo para describir con

    exactitud los valores de los datos económicos, políticos, sociales, psicológicos, biológicos y

    físicos, entre otros, y sirven como herramienta para relacionar y analizar dichos datos. El trabajo

    del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino el proceso de

    interpretación de esa información a través de modelos estadísticos-matemáticos, aumentando el

    alcance de las aplicaciones de la estadística, esto se ha logrado, gracias al desarrollo de la teoría

    de probabilidad.

    Dentro de las Aplicaciones de la Estadística se destacan las siguientes:

    1. La Estadística en el Periodismo

    En general, los periodistas además de dedicarse al ámbito de la noticia, realizan crónicas y

    estudios de investigación, que nos entregan preguntas y respuestas frente a determinados sucesos

    o situaciones de interés público. Algunos de los estudios más frecuentes realizados por los

    periodistas son sobre alcoholismo, enfermedades, sexualidad, delincuencia, política, etc. Para

    ello, hacen uso de las encuestas u otros instrumentos técnicos de medición propios de la

    estadística, a través de dichos estudios es posible conocer la opinión de la gente y con ello

    informar a la opinión pública, a través de los medios de comunicación, desde donde las

    autoridades pertinentes e interesadas en estos estudios pueden adoptar las medidas correctivas, si

    es el caso. Tal es así, que la estadística forma parte importante del periodismo investigativo.

    1. La Estadística en la Política

    Conocidas son las famosas encuestas de tipo político, que entregan una orientación de la

    intención de voto, de la aceptación de un candidato, del impacto de un programa o proyecto de

    estado, etc. de una muestra estadística representativa, sobre la opinión de las personas en un

    tiempo determinado, teniendo esta herramienta una gran confiabilidad. Así es que el uso de la

    estadística es imprescindible para determinar caminos a seguir para los candidatos de elección

    popular.

    2. La Estadística en la Publicidad

    Cuando las grandes marcas trasnacionales y/o nacionales como Coca-cola, Pepsi, Nice, Adidas,

    Laboratorios López, etc. nos llenan de slogans, música y colores en sus comerciales, lo único que

    buscan es que la gente adquiera los productos y/o servicios que ofrecen.

    Se dedican, entonces, a realizar las llamadas “campañas publicitarias”, y, antes de lanzar una

    campaña, hacen un estudio de mercado para encontrar las mejores alternativas posibles a fin de

    lograr el éxito de ventas deseado. Estos estudios son de carácter estadístico, es decir, hacen un

    diseño muestral y seleccionan una muestra para inferir las características de la población.

    3. La Estadística en la economía y las finanzas.

    En la administración es una herramienta del control, como parte del proceso administrativo (o lo

    que es lo mismo: planeación, organización, dirección y control) ya que la estadística ayuda a

  • 8

    recolectar, estudiar y al final interpretar los datos que obtienen al terminar el proceso

    administrativo, retroalimenta con esta información y al final se observa en que pueden mejorar y

    que se está haciendo bien.

    En la mercadotecnia es una herramienta muy importante cuando tienes la necesidad de trabajar

    con datos de muestreo para conocer los gustos y preferencias de las personas. Igualmente en la

    auditoria administrativa cuando recabas datos para conocer en que puede mejorar una

    organización. En pocas palabras te puede servir en cualquier área de una organización debido a

    que muestra los resultados de las actividades que bienes realizando.

    En la economía se utiliza como una herramienta de predicción para pronosticar el

    comportamiento futuro, por ejemplo, de los precios de los metales (oro, plata, cobre) tomando

    como base el comportamiento pasado de los precios de los mismos. También puede servir para

    estudiar el comportamiento de la bolsa de valores, de ciertos productos básicos, los economistas

    por lo regular se sienten magos que creen predecir cosas. En general, la Estadística suministra los

    valores que ayudan a descubrir interrelaciones entre múltiples parámetros macro y

    microeconómicos, a través de la evaluación de modelos econométricos para el establecimiento de

    políticas económicas; análisis del costo de la canasta básica, el poder adquisitivo de la población,

    etc.

    5. La estadística en la Banca y Seguros

    El profesional del seguro de vida ha de ser capaz de asignar primas suficientes para cubrir las

    cantidades que habrá de pagar la compañía en el caso de muerte del asegurado. En consecuencia,

    la predicción adecuada de las probabilidades de muerte constituye uno de los ejes centrales de la

    reducción del riesgo que se asume. Por ello, el objetivo de la Estadística de Seguros es una

    presentación exhaustiva de los métodos disponibles para ajustar tablas de mortalidad y tablas de

    seguros no vida, ejemplo, aseguramiento de vehículos, viviendas, etc.

    Por otra parte, algunas de las aplicaciones concretas de la Estadística en el sistema bancario son

    las siguientes:

    Sistemas de concesión de tarjetas de crédito y fijación de su límite.

    Sistemas de estimación del potencial económico de los clientes.

    Definición de tipologías comerciales de clientes.

    Determinación del público objetivo en campañas comerciales.

    Modelización del riesgo según las características de los clientes.

    Aplicación de la teoría de colas para brindar un servicio de calidad.

    Finalmente, es de mucha utilidad la técnica de minería de datos para el análisis de bases de datos del sistema bancario.

    6. La estadística en ciencias humanas y sociales

    La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias, en

    buena medida se basa en el manejo de recursos estadísticos como elementos indispensables para

  • 9

    llegar a conclusiones aceptables por el resto de la comunidad científica. Dada la peculiaridad de

    su objeto de estudio, inabordable en la mayoría de los casos sino es a través de perspectivas

    complejas de relación entre variables, la atención de los investigadores en las ciencias humanas y

    sociales se concentra cada vez más en la llamada Estadística Multivariante (Análisis Cluster,

    Factorial, Discriminante, etc.).

    Las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos en

    informática y aplicaciones estadísticas, por ejemplo, en El Salvador, se ha elaborado el Mapa de

    Pobreza, donde se ha interrelacionado una gran variedad de variables de diferentes áreas:

    Educativas, Económicas, Salud, entre otras. También, se ha hecho investigación sobre los

    factores que están asociados al rendimiento académico de los estudiantes, finalmente, se han

    utilizado diferentes técnicas para el análisis de los resultados académicos de los estudiantes.

    Las ciencias sociales: es un pilar básico del desarrollo de la demografía y la sociología aplicada,

    lo que conlleva a:

    Definición de indicadores de fenómenos sociales.

    Medición de constructos o variables no directamente observables (la satisfacción, la inteligencia, ...)

    Medición de los efectos entre constructos no observables para establecer políticas sociales.

    Estudio de la evolución de la demografía.

    Estudios sociales sobre la integración de la población inmigrada.

    Fenómenos sociales como las pandillas, criminalidad, delincuencia, contaminación, entre otros.

    7. La estadística en las ciencias químicas.

    En Química, la estadística se aplica en varias áreas: En el diseño de experimentos se usan

    métodos estadísticos, en el control de procesos y control de calidad (o gerenciamiento de calidad)

    de procesos y productos. En EEUU está muy de moda el sistema seis sigma, creado por general

    electric, que utiliza algunos conceptos estadísticos para lograr el aseguramiento de la calidad.

    Por otra parte la producción química tiene su costo económico y financiero que también requiere

    mucho uso de estadística, por ejemplo, si no se elabora un buen diseño experimental, se

    necesitarán muchas réplicas para validar una formulación química.

    Algunas de las aplicaciones concretas que podemos mencionar:

    Utilización de diseños experimentales para optimizar la composición de productos alimenticios.

    Evaluación de la superficie de respuesta de una reacción química según determinados factores.

    Predicción del comportamiento de un componente no sintetizado a partir de las propiedades moleculares de sus descriptores.

    Control de procesos de producción para detectar problemas evitando a su vez falsas alarmas.

  • 10

    8. La estadística en Ciencias biológicas.

    En el área de las ciencias biológicas, interesa estudiar el comportamiento de ciertas plantas y sus

    cruces a fin de determinar cómo se relacionan genéticamente los padres con los hijos, hablando

    de Genotipo y Fenotipo. En esta categoría es también donde se realizan los mayores avances de la

    humanidad, en descubrimientos. Cada año se descubren miles de fórmulas científicas que

    relacionan fenómenos de la naturaleza con modelos matemáticos.

    Los científicos se dedican a realizar estudios estadísticos, recogiendo datos y muestras,

    investigando el tiempo de reproducción de un virus, el comportamiento migratorio de algunas

    aves o insectos, además de factores de tamaño y volumen del crecimiento de ciertas especies de

    animales o vegetales. Todo esto funciona con la idea de recopilar información, muestrear ciertas

    áreas para ver cómo se han comportado algunas aves, por ejemplo, se pueden dibujar o simular

    curvas que se supone que son relativamente parecidas al comportamiento migratorio de aves. Con

    esta herramienta se podrían determinar también las épocas de mayor probabilidad de contagio,

    diseminación de algún virus o bien enfermedades transmitidas por insectos.

    Algunas aplicaciones concretas en esta área son: Determinación del tamaño de poblaciones

    naturales en una región; efectividad de la utilización de barreras naturales (filas de árboles

    plantados en los límites del terreno) como medio de prevenir las plagas de insectos o aves sobre

    las plantaciones y así disminuir la utilización de pesticidas: y, determinación de los niveles

    óptimos de utilización de los fertilizantes. Obviamente, en esta área es donde más se hace usos de

    la teoría de Diseños de Experimentos.

    9. La estadística en las ciencias médicas.

    Permite establecer pautas sobre la evolución de las enfermedades y los enfermos, los índices de

    mortalidad asociados a procesos morbosos, el grado de eficacia de un medicamento, etcétera.

    Bajo este conjunto de ideas, se ha presentado un panorama de la utilidad de la estadística,

    haciendo un recorrido por diversas áreas del conocimiento humano, con el fin, de conocer cómo

    se relacionan con las diversas ciencias, formando una sola verdad. Evidentemente, existen,

    muchas disciplinas donde se aplica la estadística, que no han sido consideradas en este apartado,

    por ejemplo, las ingenierías, la pintura, la música, etc. Finalmente, es de resaltar que en todos los

    temas donde se analice información está presente la estadística.

    1.2. Población, Muestra y técnicas de muestreo.

    Las estadísticas de por sí no tienen sentido si no se considera o se relaciona dentro del contexto

    con que se trabajan. Por lo tanto es necesario entender los conceptos de población y de muestra

    para lograr comprender mejor su significado en la investigación educativa o social que se lleva a

    cabo.

    POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas

    características comunes observables en un lugar y en un momento determinado. Cuando se vaya a

    llevar a cabo alguna investigación debe de tenerse en cuenta algunas características esenciales al

    seleccionarse la población bajo estudio. Entre éstas tenemos:

  • 11

    Homogeneidad - que todos los miembros de la población tengan las mismas características

    según las variables que se vayan a considerar en el estudio o investigación. Por ejemplo, si se

    fuera a investigar la incidencia de la drogadicción entre jóvenes mujeres adolescentes, entonces

    hay que definir claramente las edades que comprenden la adolescencia y cuando se seleccione la

    población asegurarse de que todas las personas entrevistadas sean de la edad determinada y del

    sexo femenino. (La adolescencia se define operacionalmente como el periodo comprendido de

    edad que fluctúa entre 12 y 21 años.)

    Tiempo - se refiere al período de tiempo donde se ubicaría la población de interés. Determinar si

    el estudio es del momento presente o si se va a estudiar a una población de cinco años atrás o si

    se van a entrevistar personas de diferentes generaciones.

    Espacio - se refiere al lugar donde se ubica la población de interés. Un estudio no puede ser muy abarcador y por falta de tiempo y recursos hay que limitarlo a un área o comunidad en específico.

    Cantidad - se refiere al tamaño de la población. El tamaño de la población es sumamente importante porque ello determina o afecta al tamaño de la muestra que se vaya a seleccionar,

    además que la falta de recursos y tiempo también nos limita la extensión de la población que se

    vaya a investigar.

    MUESTRA - la muestra es un subconjunto fielmente representativo de la población.

    Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y

    cuán representativo se quiera que sea el estudio de la población, en este sentido, la muestra puede

    ser:

    ALEATORIA - cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser

    incluido.

    Un procedimiento de extraer una muestra aleatoria de una población finita es: enumerar todos

    los elementos que conforman la población, escribir esos números en papelitos y echarlos en una

    urna o bolsa mezclarlos bien removiéndolos y sacar uno a uno tantos como lo indique el tamaño

    de la muestra. En este caso los elementos de la muestra lo constituirán los elementos de la

    población cuyos números coincidan con los extraídos de la bolsa o urna.

    El tamaño de la muestra (MAS):

    Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número mínimo de

    unidades de análisis (personas, organizaciones, capítulo de telenovelas, etc), que se necesitan

    para conformar una muestra n que me asegure un error estándar menor que 0.01 ( fijado por el

    muestrista o investigador), dado que la población es aproximadamente de N elementos.

    En el tamaño de una muestra de una población se debe tener presente la varianza poblacional,

    error máximo permisible prefijado (diferencia del parámetro y estimador), con un nivel de

    confianza de 1 . Simbólicamente se refiere a lo siguiente: 1P X d

    , bajo este

    contexto podemos utilizar la fórmula:

  • 12

    Ejemplo. Se desea estimar la estatura promedio de los estudiantes de la asignatura de

    Tratamiento de la Información Estadística. Se sabe que la estatura de un estudiante es una

    variable aleatoria con distribución normal. Determine el tamaño de muestra aleatoria necesaria

    para garantizar una probabilidad igual a 0.95 de que el estimador y el parámetro se diferencien en

    menos de 10cm.

    Solución.

    Datos conocidos.

    d= 10cm

    Calcular: , 1

    2

    Z

    =1.96

    : Para calcular la desviación estándar hay que solicitar la estatura de cada estudiante y luego

    calcular la varianza utilizando la siguiente fórmula: 2

    2

    1

    1 n

    X i

    i

    S x xn

    , posteriormente se

    obtiene la raíz cuadrada y ese es el valor que se debe utilizar en esta ecuación. Supongamos que =12cm, entonces:

    Determinar:

    2

    21

    2 12(1.96) 5.53 610

    Z

    n n nd

    , se requiere una muestra de 6

    estudiantes para cumplir las hipótesis del problema.

    ESTRATIFICADA - cuando se subdivide en estratos o subgrupos según las variables o

    características que se pretenden investigar. Cada estrato debe corresponder proporcionalmente a

    la población.

    El número determinado de elementos muestrales es: 1

    k

    i

    i

    n n

    , donde ni es el número de

    elementos en el estrato i=1, 2, …, k . No se entrará en detalle del cálculo del tamaño muestral, ya

    que supera el alcance de esta asignatura.

  • 13

    SISTEMÁTICA - cuando se establece un patrón o criterio al seleccionar la muestra. Ejemplo: se

    entrevistará una familia por cada diez que se detecten.

    El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos los

    miembros de una población debido a problemas de tiempo, recursos y esfuerzo. Al seleccionar

    una muestra lo que se hace es estudiar una parte o un subconjunto de la población, pero que la

    misma sea lo suficientemente representativa de ésta para que luego pueda generalizarse con

    seguridad de ellas a la población.

    El tamaño de la muestra depende de la precisión con que el investigador desea llevar a cabo su

    estudio, pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo

    a los recursos que haya disponibles. Es de especificar que para cada método de muestreo existen

    fórmulas para determinar el tamaño de muestra.

    1.3. Unidad de estudio y unidad de muestreo

    La unidad de análisis o estudio corresponde a la entidad mayor, primaria o representativa de lo

    que va a ser objeto específico de estudio en una medición y se refiere al qué o quién es objeto de

    interés en una investigación. Por ejemplo: Condiciones de hacinamiento de las familias del

    Municipio de Soyapango, San Salvador. Unidad de Análisis: Familias del Municipio de

    Soyapango.

    Debe estar claramente definida en un protocolo de investigación y el investigador debe obtener la

    información a partir de la unidad que haya sido definida como tal, aun cuando, para acceder a

    ella, haya debido recorrer pasos intermedios. Las unidades de análisis pueden corresponder a las

    siguientes categorías o entidades:

    Personas

    Grupos humanos

    Poblaciones completas

    Unidades geográficas determinadas

    Eventos o interacciones sociales (enfermedades, accidentes, casos de infecciones

    intrahospitalarias, etc)

    Entidades intangibles, susceptibles de medir (exámenes, días, camas)

    El tipo de análisis al que se someterá la información es determinante para elegir la unidad de

    análisis. Por ejemplo, si el objetivo es dar cuenta de la satisfacción del usuario de un servicio

    médico, la unidad de análisis natural es el paciente atendido, o la persona que se atiende en ese

    servicio médico. Si el objetivo es dar cuenta de la satisfacción del alumno sobre el desempeño

    docente, la unidad de análisis es el alumno que recibe clases con el docente evaluado.

  • 14

    La unidad de muestreo corresponde a la entidad básica mediante la cual se accederá a la unidad

    de análisis. En algunos casos, ambas se corresponden. Por ejemplo, si se desea estimar la

    prevalencia de daño auditivo en relación con niveles de ruido ambiental en una muestra de

    trabajadores de una fábrica, la unidad de muestreo puede corresponder a la entidad "sujeto", si se

    dispone de un registro detallado de cada sujeto. La unidad de análisis es por cierto el trabajador

    de la fábrica.

    1.4. Variables y datos

    VARIABLES Las variables son las características observables de un objeto, problema o evento que se puede

    describir según un esquema de medición bien definido. Cada rasgo o aspecto de una población

    constituye una variable. La edad de unas personas, su sexo, color de su piel, nacionalidad, su

    nivel de motivación, niveles de ansiedad, el número de nacimientos, número de matrimonios,

    frecuencia de suicidios, estatura, peso, niveles de inteligencia, actitudes, entre muchas otras.

    Las variables pueden adquirir diferentes valores o clasificarse en diferentes categorías según la

    naturaleza o tipo de estudio que se lleve a cabo. Entre éstas tenemos las siguientes

    clasificaciones:

    VARIABLES CUALITATIVAS - son aquellas que se expresan en forma verbal como

    categorías o atributos. Por ejemplo, el sexo, color, afiliación política, nacionalidad, motivación,

    área académica o profesión de una persona.

    VARIABLES CUANTITATIVAS - son las que varían en términos de cantidad y se registran o

    expresan en forma numérica. Por ejemplo, edad, promedio académico, puntuaciones de

    exámenes, frecuencia de delitos, temperatura, ingresos anuales o salarios por hora. Hay algunas

    características que pueden clasificarse o expresarse como variable cuantitativa y transformarla a

    cualitativa o viceversa. Por ejemplo, nivel de aprovechamiento académico estudiantes de 4:00

    puntos, o estudiantes de 3:00 puntos y así sucesivamente. El investigador puede expresar

    mediante una escala numérica el aprovechamiento académico al clasificar a los estudiantes, como

    también puede clasificarlos como variable cualitativa en las categorías de excelentes, buenos,

    regulares y deficientes.

    VARIABLES DISCRETAS - son aquellas que sólo adquieren un valor absoluto o específico

    que nunca cambian. Pueden ser cualitativas. Ejemplo: el sexo, nacionalidad, grupo étnico, entre

    otras.

    VARIABLES CONTINUAS - que siempre son cuantitativas, son las que pueden asumir

    cualquier valor. Por ejemplo, la edad, altura, peso, índice académico.

    En el campo de la investigación, que se suele examinar las relaciones entre dos o más variables al

    investigar un asunto o problema, se clasifican las variables como:

    VARIABLES INDEPENDIENTES - son las características controladas por el investigador y

    que se supone tendrán efectos sobre otras variables.

  • 15

    VARIABLES DEPENDIENTES - son las características o aspectos que se alteran por

    consecuencia del control que ejerce el investigador sobre otras variables.

    Estos dos últimos tipos de variables suelen darse más en estudios o investigaciones

    experimentales, pero también podemos considerarlas en estudios descriptivos. Por ejemplo, en un

    estudio experimental se investiga si un nuevo medicamento mejora las condiciones del sida. A

    tales efectos se seleccionaron 30 pacientes, de los cuáles 15 recibían el nuevo medicamento

    (grupo experimental) y otros 15 continuaban con su tratamiento tradicional (grupo control). El

    nuevo medicamento viene a ser la variable independiente porque es la que los investigadores

    controlan y que luego examinarán sus efectos en la condición del sida, la cual viene a ser la

    variable dependiente, porque es la condición que se va alterar o quedar afectada por el nuevo

    medicamento.

    En un estudio descriptivo donde interesa saber si la clase social es factor determinante en el

    aprovechamiento académico en las escuelas, entonces la clase social es la variable independiente

    y el aprovechamiento académico la dependiente.

    Una variable puede ser independiente en una investigación y dependiente en otra, todo dependerá

    de la finalidad de la investigación. Por ejemplo, si se lleva a cabo un estudio para determinar

    cómo las condiciones socio-económicas influyen a la drogadicción, en este caso, status socio-

    económico es una variable independiente. Por el contrario, si se lleva a cabo una investigación

    para saber cómo la drogadicción afecta las condiciones sociales y económicas, entonces, el status

    socio-económico resultaría ser la variable independiente.

    DATOS: son los hechos que describen sucesos y entidades.

    1.5. Escalas de medición

    Una escala es un esquema específico para asignar números o símbolos con el objeto de designar

    características de una variable. Las escalas de medición comúnmente conocidas son: nominales,

    ordinales, de intervalos y de razón. A continuación veamos los cuatro tipos de escalas de

    medición.

    1.5.1. Escalas nominales

    Las escalas nominales son aquellas donde se clasifican los objetos, personas o variables en

    categorías cualitativamente distintas. Consiste simplemente en agrupar objetos en clases o asignar

    las personas de acuerdo a alguna cualidad una vez que los objetos o personas posean

    características comunes que lo hagan pertenecer a una categoría. Por ejemplo, todos los

    estudiantes que obtuvieron sobre 9 puntos fueron clasificados como excelentes, los que

    obtuvieron menos de 8.9 pero más de 8.0 como muy buenos y de 7.0 a 7.9 como buenos. En una

    redada de drogas se arrestaron 22 mareros, cuatro acusados de homicidios, ocho acusados de

    violación y diez por extorciones.

    Se pueden utilizar números en las escalas nominales, pero éstos no representan magnitudes

    absolutas. Los números sólo se utilizan con el propósito de clasificarlos a determinada categoría.

  • 16

    Por ejemplo, si vas a comprar pintura azul en la ferretería te presentan una escala con diferentes

    tonalidades del color azul y cada tonalidad posee un número, pero este número sólo es para

    facilitar al vendedor identificar el color solicitado entre cientos de colores. De igual modo en

    muchas solicitudes se le asigna el número 1 al sexo masculino y número dos al femenino y esta

    clasificación sólo es para facilitar los cómputos y manejos de información estadística, pero no

    quiere decir que los masculinos tengan más o menor valor que las del sexo femenino. Los

    números que se utilizan para efectos de identificación en una escala nominal nunca se utilizarán

    para llevar a cabo los procedimientos matemáticos de suma, resta, multiplicación y división.

    1.5.2. Escalas ordinales

    Las escalas ordinales son las que clasifican a las personas, eventos u objetos en una posición con

    relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se

    asignan números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Por

    ejemplo, en un determinado grupo escolar se decidió seleccionar los cinco estudiantes con el

    promedio más alto para premiarlos con un viaje al Lago de Coatepeque y resultó que Esteban

    quedó tercero con un promedio de 8.90, seguido de Jorge con 8.88 y, luego Leticia con 8.75.

    Esteban como tercero se le asigna el número tres, pero ésta designación numérica sólo indica su

    posición con relación a los otros cuatro alumnos. Sabemos que Esteban tiene un mejor promedio

    que Jorge y que su promedio es superior que el de Leticia. Sin embargo, no podremos saber hasta

    qué punto es mejor su promedio comparado con los otros.

    Con las escalas ordinales tampoco se pueden llevar a cabo las operaciones aritméticas de suma,

    resta, multiplicación y división. La diferencia que puede haber entre unas personas u objetos en

    este tipo de escala no necesariamente constituye unidades iguales o absolutas que puedan

    utilizarse para determinar si el que tiene un segundo lugar posee el doble valor que el que queda

    en cuarta posición. Por ejemplo, en un evento atlético de una carrera que no haya sido

    cronometrada, podemos saber quién llegó primero, segundo y tercer lugar, pero no podemos

    saber con precisión la velocidad entre un corredor y otro. La diferencia que hay entre el primero y

    el segundo no necesariamente es igual a la que hubo entre el segundo y el tercero.

    1.5.3. Escalas de intervalos

    Las escalas de intervalos son aquellas que ordenan los objetos o eventos según la magnitud del

    atributo que representan y proveen intervalos iguales entre las unidades de medida. Además, no

    poseen un punto cero absoluto o verdadero ya que el mismo es establecido por convención de

    forma arbitraria por los expertos en el área o materia de estudio y no implica la ausencia del

    atributo o la propiedad en cuestión. Por ejemplo, la escala de inteligencia posee un punto cero,

    pero administrando cualquier tipo de prueba que intente medir la inteligencia, nunca va a

    encontrar un ser humano con cero inteligencia. De igual modo si el agua está en 0 grado °C, esto

    no quiere decir que carezca de temperatura, ya que en una escala de intervalos, como se ha

    indicado, es una designación arbitraria y convencional.

    Una diferencia de cierta magnitud en una escala de intervalos significa lo mismo en todos los

    puntos de la escala. Así por ejemplo, en los termómetros de grados Fahrenheit y centígrados que

  • 17

    utilizan este tipo de escalas, están divididos en unidades iguales, la diferencia en la temperatura

    entre 100 grados y 101 grados es equivalente a la diferencia entre 110 grados y 111 grados.

    La numeración de los años en nuestro calendario utiliza también una escala de intervalos. Las

    autoridades eclesiásticas y gubernamentales de la época decidieron arbitrariamente fijar como el

    año 1 el del nacimiento de Cristo y como unidad de medida un lapso de 365 días. Por lo tanto, el

    lapso de tiempo que estuvo Bill Clinton como presidente de los Estados Unidos desde 1993 –

    2001 es igual al que transcurrió George Bush desde 2001 – 2009.

    1.5.4. Escalas de razones o cocientes

    Las escalas de razones o cocientes se diferencian de las de intervalos solamente en que la de

    razones el punto cero no es arbitrario y corresponde a una total ausencia del asunto o propiedad

    estudiada. La escala de una simple regla de 12 pulgadas posee una escala de razones la cual está

    dividida en 12 unidades cada una de igual magnitud y parte de un punto cero absoluto y

    verdadero.

    La mayoría de las variables con las cuales se utiliza este tipo de escalas se refieren más a la

    ejecución de tareas motoras, a las medidas de objetos y de aspectos fisiológicos.

    Dos ejemplos de las escalas de razones y cocientes son: las medidas de la estatura y el peso. Si

    una columna mide seis metros es el doble de alto de otra columna que mide tres metros. Si

    Enrique pesa 180 libras, entonces pesa el doble que María quién pesa 90 libras. Las razones de

    los números en estas escalas tienen un determinado sentido, lo que hace posible que se

    interpreten los valores numéricos entre las cantidades obtenidas de los objetos.

    Además pueden llevarse a cabo las diferentes operaciones matemáticas.

    RESUMEN: CARACTERÍSTICAS, EJEMPLOS Y LIMITACIONES

    DE LAS ESCALAS DE MEDICIÓN ESCALA CARACTERÍSTICAS USOS/EJEMPLOS LIMITACIONES

    Nominal Se clasifican las personas, eventos u

    objetos en categorías.

    Denominaciones religiosas, afiliación

    político partidista, codificaciones en

    la clasificación de objetos, pinturas,

    movimientos literarios.

    No se pueden precisar diferencias

    cuantitativas entre las categorías.

    Ordinal Se clasifican u ordenan las

    personas, objetos y eventos en

    determinada posición.

    Orden de llegada de atletas en una

    carrera, puntuaciones de una prueba,

    rangos militares, nivel de popularidad

    de estudiantes en una escuela.

    Restringida para Identificar

    diferencias relativas, pero no

    precisa diferencias en cantidad

    absoluta entre personas u objetos.

    Intervalo Escala que posee unidades de igual

    magnitud. El punto cero de la escala

    es arbitrario y no refleja la ausencia

    del atributo.

    Temperaturas (Celsius y Fahrenheit),

    fechas del calendario, escala de

    inteligencia.

    Razones no tienen sentido ya que el

    punto cero es establecido

    convencionalmente.

    Razones Escala que posee un punto

    cero absoluto e intervalos de igual

    magnitud.

    Distancia, peso, estatura, tiempo

    requerido para realizar una tarea

    escolar.

    Ninguna, excepto que su uso se

    supedita mayormente a medir

    cualidades físicas más que para la

    medición de aspectos psicológicos.

  • 18

    1.6. Diseño de Experimentos estadísticos.

    El diseño de un experimento es la secuencia completa de los pasos que se deben tomar de

    antemano, para planear y asegurar la obtención de toda la información relevante y adecuada al

    problema bajo investigación, la cual será analizada estadísticamente para obtener conclusiones

    válidas y objetivas con respecto a los objetivos planteados.

    Un Diseño Experimental es una prueba o serie de pruebas en las cuales existen cambios

    deliberados en las variables de entrada de un proceso o sistema, de tal manera que sea posible

    observar e identificar las causas de los cambios que se producen en la respuesta de salida.

    El propósito de cualquier Diseño Experimental, es proporcionar una cantidad máxima de

    información pertinente al problema que se está investigando. Y ajustar el diseño que sea lo más

    simple y efectivo; para ahorrar dinero, tiempo, personal y material experimental que se va a

    utilizar. Es de acotar, que la mayoría de los diseños estadísticos simples, no sólo son fáciles de

    analizar, sino también son eficientes en el sentido económico y en el estadístico.

    De lo anterior, se deduce que el diseño de un experimento es un proceso que explica tanto la

    metodología estadística como el análisis económico.

    DISEÑO: Consiste en planificar la forma de hacer el experimento, materiales y métodos a usar,

    etc.

    EXPERIMENTO: Conjunto de pruebas o ensayos cuyo objetivo es obtener

    información, que permita mejorar el producto o el proceso en estudio.

    1.7. Guía de ejercicios N° 1. 1. Contestar verdadero o falso y comentar su respuestas según sea el caso:

    a) La Estadística es una ciencia que estudia y describe las características de un conjunto de

    casos.

    b) La estadística inferencial generaliza los resultados de una muestra a los de la población

    total.

    c) Durante los últimos dos días se ha informado de un total de cinco homicidios diarios en

    San Salvador, este es un ejemplo de estadística inferencial.

    d) A las medidas que se obtienen de una muestra se les da el nombre de parámetro.

    e) En una muestra aleatoria ciertos elementos tienen mayor probabilidad que otros de ser

    seleccionados.

    2. Mediante ejemplos, explicar la diferencia entre la estadística descriptiva y estadística

    inferencial.

  • 19

    3. POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas

    características comunes observables en un lugar y en un momento determinado. A partir

    de esta definición enumere las características de una población.

    4. Describir dos ejemplos de población.

    5. Describir dos ejemplos de muestra de una población.

    6. Definir al menos dos tipos de muestreo y dar ejemplos de aplicación de cada uno.

    7. Se desea estimar la edad promedio de los estudiantes de la asignatura de Tratamiento de

    la Información Estadística. Se sabe que la edad de un estudiante es una variable aleatoria

    con distribución normal con desviación estándar de 6años. Determine el tamaño de

    muestra aleatoria necesaria para garantizar una probabilidad igual a 0.95 de que el

    estimador y el parámetro se diferencien en menos de 5años.

    8. Establecer las diferencias entre la unidad de análisis y la unidad muestral.

    9. Establecer las diferencias entre variables cualitativas y cuantitativas.

    10. Definir al menos dos ejemplos de variables cualitativas y de variables cuantitativas.

    11. Establecer las diferencias entre variables discretas y continuas.

    12. Definir al menos dos ejemplos de variables discretas y de variables continuas.

    13. Definir las siguientes escalas de Medición y presentar dos ejemplos de cada una de ellas:

    Escala nominal

    Escala ordinal

    Escala de intervalo.

    Escala de razón

  • 20

    Capítulo 2. Distribuciones de frecuencias y sus

    representaciones gráficas.

    2.1. Estadística Descriptiva con una variable

    La estadística descriptiva permite organizar y presentar un conjunto de datos de manera que

    describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación.

    Obviamente, la materia prima de la Estadística Descriptiva la constituyen los datos, que son el

    resultado de las observaciones y/o experimentos. Se denomina variable al carácter o fenómeno de

    la realidad objeto de estudio. Las variables pueden ser de diferentes tipos, dependiendo de los

    datos que la forman.

    :

    Cualitativas o atributosVariables

    Cuantitativas Discretas o Continuas

    Las variables cualitativas o atributos son aquellas que no toman valores numéricos. Describen

    diferentes cualidades denominadas modalidades. Ejemplo: Sexo, estado civil, color de los ojos,

    etc. Las variables cualitativas están formadas por datos que toman valores numéricos y pueden

    ser discretas, si sólo toman un número entero de valores, y continuas, si pueden tomar cualquier

    valor real dentro de un intervalo.

    Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de

    frecuencias y b) la representación gráfica.

    2.1.1. Distribución de frecuencias

    Supongamos que hemos recogido un conjunto de n datos englobados en una variable X. La tabla

    que recoge de modo sistemático estos datos se denomina distribución de frecuencias. La

    Distribución de Frecuencias (Simples o agrupadas en intervalos). Comúnmente llamada tabla de

    frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones

    realizadas en el estudio, estableciendo un orden mediante la división en clases y registro de la

    cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un

    mejor análisis e interpretación de las características que describen y que no son evidentes en el

    conjunto de datos brutos o sin procesar.

  • 21

    La siguiente tabla recoge las principales características de una distribución de frecuencias simple

    o no agrupada.

    Datos Frecuencias Absolutas Frecuencias Relativas

    Simples Acumuladas Simples Acumuladas

    1

    2

    .

    .

    .

    k

    x

    x

    x

    1

    2

    .

    .

    .

    k

    n

    n

    n

    1 1

    2 1 2

    1

    .

    .

    .

    k

    k i

    i

    N n

    N n n

    N n

    1 1

    2 2

    /

    /

    .

    .

    .

    /k k

    f n n

    f n n

    f n n

    1 1

    2 2

    /

    /

    .

    .

    .

    /k k

    F N n

    F N n

    F N n

    Total

    1

    k

    i

    i

    n n

    1

    1k

    i

    i

    f

    La primera columna representa los distintos valores de esos datos y la segunda la frecuencia

    simple, es decir, el número de veces que se ha observado el correspondiente valor; la tercera

    columna recoge la frecuencia acumulada (número de veces que se han observado valores

    menores o iguales que el que corresponde a dicha fila). Las frecuencias relativas se obtienen a

    partir de las frecuencias absolutas, dividiendo por el tamaño de la muestra.

    2.1.2. Descripción de Variables Cualitativas

    DISTRIBUCIÓN DE FRECUENCIAS

    ● Supongamos que tenemos N observaciones de una variable cualitativa.

    ● Supongamos que la variable puede tomar valores pertenecientes a k clases o categorías:

    4

    Verde

    AzulColor de ojos k

    Marron

    Negro

    ● Representamos mediante n1, n2, …, nk el número de datos que aparecen en cada una de las k

    categorías.

    ● Frecuencia absoluta de la clase i-ésima (ni): número de observaciones en la clase i.

  • 22

    ● Frecuencia relativa de la clase i-ésima (fi): es la proporción de datos en la clase i-ésima, es

    decir, fn

    Ni

    i .

    - La suma de las k frecuencias relativas es igual a la unidad: f1 + f2 +…+ fk=1

    - Nos permiten comparar las frecuencias de las categorías en conjuntos de datos con distinto número de observaciones

    ● Distribución de frecuencias: es la tabla que presenta las categorías de una variable y sus

    respectivas frecuencias.

    - Nos indica cómo se distribuye la frecuencia total entre las categorías - Es el resumen más importante de la información contenida en una variable cualitativa Ejemplo 1: nivel educativo

    Se ha clasificado a 20 individuos según su nivel de estudios que puede tomar valores:

    1 sin

    2

    3

    4 sup

    estudios

    primariosNivel educativo

    medios

    eriores

    y se han obtenido los siguientes datos:

    1 1 4 3 3 3 2 2 4 2 2 1 4 2 3 2 3 4 2 3;

    N=20; k=4

    Frecuencias absolutas:

    n1=3; n2=7; n3=6; n4=4 N n n n n 1 2 3 4 3 7 6 4 20

    Frecuencias relativas:

    f f f f1 2 3 43

    200 15

    7

    200 35

    6

    200 3

    4

    200 2 , ; , ; , ; ,

    f f f f1 2 3 4 015 0 35 0 3 0 2 1 , , , ,

  • 23

    Distribución de frecuencias:

    Categorías ni fi

    1. Sin estudios 3 0,15

    2. Primaria 7 0,35

    3. Media 6 0,3

    4. Superior 4 0,2

    N=20 1

    La categoría más frecuente es la de estudios primarios y la menos frecuente la de sin estudios

    REPRESENTACIÓN GRÁFICA DE LA DISTRIBUCIÓN DE FRECUENCIAS

    A) Diagrama de barras: Permite visualizar de forma sencilla la distribución de una variable cualitativa. Se dibuja sobre cada categoría una barra (o rectángulo) cuya altura coincida

    con la frecuencia absoluta o relativa de dicha clase.

    Ejemplo: Nivel de estudios (Continuación ejemplo 1)

    Frecuencias relativas fi

    0.10

    0.15

    0.20

    0.25

    0.30

    0.35

    0.40

    1 2 3 4

    B) Diagrama de Pareto: Es como un diagrama de barras en el que se ordenan las clases de mayor a menor frecuencia (absoluta o relativa). En la parte superior de la figura suele

    trazarse una línea que representa la suma de la frecuencia de cada clase y las que la

    preceden, esto se usa para identificar la minoría de las características que representan la

    mayoría de casos.

  • 24

    A principios del Siglo XX, Vilfredo Pareto (1848-1943), un economista italiano, realizó

    un estudio sobre la riqueza y la pobreza. Descubrió que el 20% de las personas

    controlaba el 80% de la riqueza en Italia.

    La gráfica de Pareto es una herramienta sencilla pero poderosa al permitir identificar

    visualmente en una sola revisión las minorías de características vitales a las que es importante

    prestar atención.

    Algunos ejemplos de tales minorías vitales son:

    La minoría de clientes que representan la mayoría de las ventas.

    La minoría de productos, procesos, o características de la calidad causantes del grueso de desperdicio de los costos de retrabajos.

    Ejemplo: Nivel educativo (Continuación ejemplo 1)

    Frecuencias relativas fi (Gráfico de Pareto)

    0.10

    0.15

    0.20

    0.25

    0.30

    0.35

    0.40

    2 3 4 1

    f2=0,35

    f2+ f3=0,35+0,3=0,65

    f2+ f3+ f4=0,35+0,3+0,2=0,85

    f2+ f3+ f4+f1=0,35+0,3+0,2+0,15=1

    Un 35 por ciento de la población llega hasta la educación primaria y el 65 por ciento de la

    población tiene un nivel educativo primario o media.

  • 25

    Diagrama de Pareto

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    2 3 4 1

    En el diagrama anterior se observa que el 65 por ciento de la población, tiene un nivel

    educativo primaria o media.

    C) Pictograma: Es una forma de representar las cantidades estadísticas por medio de

    dibujos, utilizando para ello objetos y figuras. Las figuras empleadas deben explicarse por

    sí mismas.

    Ejemplo: Nivel de educativo (Continuación).

    a) Distribución de frecuencias:

    Categorías ni fi

    1. Sin estudios 3 0,15

    2. Primario 7 0,35

    3. Medio 6 0,3

    4. Superior 4 0,2

    N=20 1

    b) Elaboración del Pictograma (Ejercicio para el estudiante)

  • 26

    Ejemplo: Variable socioeconómica (SOC): La variable SOC describe la categoría

    socioeconómica:

    1

    2

    3

    4

    5

    6

    7

    trabajadores agrarios

    empresarios agrarios

    obreros

    SOC autonomos

    clase media

    clase alta

    retirados

    Los datos de 75 hogares (o unidades de gasto) son:

    3 7 3 5 3 5 1 5 7 5 5 3 3 5 1 1 3 2 2 3 1 3 7 5 3 3 3 5 5 5 7 7 5 1 4 2 1 7 3 4 3 3 3 5 3 3 6

    6 7 2 7 1 3 3 2 5 3 7 2 2 7 5 2 2 7 6 1 5 3 5 3 3 3 4 3

    (a) Obtener las frecuencias absolutas de cada una de las categorías.

    n1=8 n2=9 n3=25 n4=3 n5=16

    n6=3 n7=11

    (b) Calcular las frecuencias relativas y mostrar la distribución de frecuencias

    fn

    N1

    1 8

    750 11 , f

    n

    N2

    2 9

    750 12 ,

    fn

    N3

    3 25

    750 33 , f

    n

    N4

    4 3

    750 04 ,

    fn

    N5

    516

    750 21 , f

    n

    N6

    6 3

    750 04 ,

    fn

    N7

    7 11

    750 15 ,

    Nótese que:

    f f f f f f f fii

    1 2 3 4 5 6 7

    1

    7

    1

  • 27

    Distribución de frecuencias:

    Categoría ni fi

    1. Trabajadores agrarios 8 0,11

    2. Empresarios agrarios 9 0,12

    3. Obreros 25 0,33

    4. Autónomos 3 0,04

    5. Clase media 16 0,21

    6. Clase alta 3 0,04

    7. Retirados 11 0,15

    N=75 1

    (c) Construir el diagrama de Pareto

    0.0

    0.2

    0.4

    0.6

    0.8

    1.0

    3 5 7 2 1 4 6

    f3=0,33; f3+f5=0,33+0,21=0,54

    f3+f5+f7=0,33+0,21+0,15=0,69

    f3+f5+f7+f2=0,33+0,21+0,15+0,12=0,81

    f3+f5+f7+f2+f1=0,33+0,21+0,15+0,12+0,11=0,92

    f3+f5+f7+f2+f1+f4=0,33+0,21+…+0,11+0,04=0,9

    F3+F5+F7+F2+F1+F4+F6=0,33+0,21+…+0,04+0,04=1

    El 33 por ciento de la población son obreros y el 54 por ciento de la población son obreros o clase

    media, y así sucesivamente.

  • 28

    Gráfico de sectores:

    En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste

    en representar sobre un círculo los diferentes atributos, mediante un sector circular de ángulo

    proporcional a la correspondiente frecuencia. El ángulo de cada sector circular se calcula

    multiplicando por 360º la frecuencia relativa.

    Los gráficos de sectores, también conocidos como diagramas de "tartas o pastel", se divide un

    círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le

    corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Si el número de

    categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo

    suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de cuatro

    categorías. En este caso se pueden apreciar con claridad dichos subgrupos.

    Ejemplo.

    La población según nivel de estudio del Municipio de Ayutuxtepeque se presenta en el siguiente

    cuadro:

    Parvularia Primaria o básica

    Educación media

    Superior no universitaria

    Técnico universitario

    Superior universitaria Maestría Doctorado Total

    1168 15895 6842 499 363 4556 70 7 29400 Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

    Elaborar un gráfico de sectores.

    Se tienen 8 categorías, por lo tanto debe aparecer el círculo dividido en 8 porciones. La tabla

    anterior presenta las frecuencias absolutas, habrá que dividir cada dato por el total (29,400) a fin

    de obtener la frecuencia relativa y luego multiplicar esta última por 100. Por ejemplo, para la

    categoría de educción básica: (15,895/ 29,400)*100 = 54,06%. Observe que no se ha

    multiplicado por 360°, ya que es más ilustrativo el porcentaje (Así trabaja Excel).

    Figura 2. Nivel educativo de la población de Ayutuxtepeque, por ciento.

    Es evidente que la mayoría de la población tiene un nivel educativo básico o media con el

    54.06% y 23.27% respectivamente. En general la población de Ayutuxtepeque tiene un nivel

    educativo relativamente bajo, son muy pocos los que llegan a hacer estudios universitarios.

  • 29

    2.1.3. Variables cuantitativas discretas.

    Diagrama de Barras:

    Para el caso de distribuciones de frecuencias no agrupadas en intervalos, el diagrama de barras es

    el gráfico más empleado. Que se usa cuando se pretende resaltar la representación de porcentajes

    o frecuencias de datos que componen un total. Una gráfica de barras contiene barras verticales

    que representan valores numéricos. Las frecuencias están asociadas con categorías. Una gráfica

    de barras se presenta de dos maneras: horizontal o vertical. El objetivo es poner una barra de

    largo (alto si es horizontal) igual a la frecuencia. La gráfica de barras sirve para comparar y tener

    una representación gráfica de la diferencia de frecuencias o de intensidad de la característica

    numérica de interés. Si en vez de frecuencias simples utilizamos frecuencias acumuladas,

    tenemos el llamado diagrama de escalera.

    Ejemplo. Con la información del VI Censo de Población y V de Vivienda, El Salvador, 2007, se

    han clasificado las mujeres de El Salvador de 12 años y más, según el número de hijos varones,

    resultando los siguientes datos.

    Construir un gráfico de barras para el número de hijos varones de las

    mujeres salvadoreñas.

    Ejemplo.

    La población según condición de ocupación del Municipio de Ayutuxtepeque se presenta en el

    siguiente cuadro:

    OCUPADOS DESOCUPADOS INACTIVOS Total

    ÁREA URBANA 10966 2832 8531 22329

    EL ZAPOTE 329 42 477 848

    LOS LLANITOS 2410 227 2550 5187

    Total 13705 3101 11558 28364 Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

    Elaborar un gráfico de barras para la población total de Ayutuxtepeque según su condición de

    ocupación.

    N° Hijos Varones Madres

    0 278290

    1 509469

    2 339180

    3 177050

    4 92233

    5 50916

    6 27791

    7 15004

    8 7328

    9+ 7366

  • 30

    2.2. Distribución de frecuencias agrupadas.

    Cuando en la muestra existen muchos valores diferentes y mucha variabilidad se recomienda, aún

    a costa de perder información, agrupar los datos en clases, en lo que se denomina distribución de

    frecuencias agrupada en intervalos.

    Clase Marca Frecuencias Absolutas Frecuencias Relativas

    Clase Simples Acumuladas Simples Acumuladas

    0 1

    1 2

    1

    .

    .

    .

    k k

    L L

    L L

    L L

    1

    2

    .

    .

    .

    k

    x

    x

    x

    1

    2

    .

    .

    .

    k

    n

    n

    n

    1 1

    2 1 2

    1

    .

    .

    .

    k

    k i

    i

    N n

    N n n

    N n

    1 1

    2 2

    /

    /

    .

    .

    .

    /k k

    f n n

    f n n

    f n n

    1 1

    2 2

    /

    /

    .

    .

    .

    /k k

    F N n

    F N n

    F N n

    Total

    1

    k

    i

    i

    n n

    1

    1k

    i

    i

    f

    A cada uno de los intervalos se les denomina clase y al punto medio marca de clase. A efectos de

    cálculo la marca de clase se elige como representante del intervalo. El número de clases en que se

    dividen los datos no debe ser excesivo. A modo orientativo, el número de clases se puede obtener

    mediante la siguiente fórmula empírica, llamada de Sturges:

    log( )1

    log(2)

    nnúmero de clases (Tomar la parte entera)

  • 31

    Ejemplo. Población de El Salvador, por sexo y edad, año 2007..

    Edad Hombre Mujer Total Edad Hombre Mujer Total Edad Hombre Mujer Total

    < 1 51787 50097 101884 36 31398 40111 71509 72 8591 10717 19308

    1 53230 51477 104707 37 31414 38801 70215 73 7461 9522 16983

    2 55845 54261 110106 38 29639 37419 67058 74 8011 10030 18041

    3 59752 57127 116879 39 29435 37454 66889 75 8067 9886 17953

    4 62658 59659 122317 40 31769 39411 71180 76 7535 9745 17280

    5 62274 59738 122012 41 24732 32964 57696 77 6897 8872 15769

    6 69088 66249 135337 42 26840 34653 61493 78 5825 7123 12948

    7 75310 72672 147982 43 24578 32639 57217 79 5334 6700 12034

    8 71525 68511 140036 44 24299 31746 56045 80 5717 7089 12806

    9 70953 68407 139360 45 24451 31422 55873 81 4124 5274 9398

    10 74244 70664 144908 46 21989 29308 51297 82 3841 5220 9061

    11 71744 69499 141243 47 22251 28713 50964 83 3438 4508 7946

    12 74093 72835 146928 48 20682 26481 47163 84 3281 4378 7659

    13 68251 66194 134445 49 20584 26241 46825 85 3263 4413 7676

    14 71191 67632 138823 50 22897 28057 50954 86 3096 4286 7382

    15 64523 63752 128275 51 17664 22874 40538 87 2750 3758 6508

    16 61880 61630 123510 52 19081 24360 43441 88 1767 2358 4125

    17 61255 61624 122879 53 17671 22344 40015 89 1595 2219 3814

    18 57590 58584 116174 54 17962 22824 40786 90 1405 2091 3496

    19 53136 56591 109727 55 17848 22561 40409 91 786 1143 1929

    20 50243 55085 105328 56 17114 21361 38475 92 826 1206 2032

    21 45994 51623 97617 57 16816 20974 37790 93 673 990 1663

    22 46006 51429 97435 58 14462 17853 32315 94 559 869 1428

    23 42864 49278 92142 59 15478 18608 34086 95 482 816 1298

    24 42894 51126 94020 60 17461 19979 37440 96 416 674 1090

    25 42616 50552 93168 61 12470 15424 27894 97 356 588 944

    26 41993 50707 92700 62 13590 17093 30683 98 + 526 948 1474

    27 43473 52214 95687 63 12274 15528 27802

    28 39209 48076 87285 64 12412 15633 28045

    29 39672 49378 89050 65 12802 15513 28315

    30 41911 50744 92655 66 11774 14915 26689

    31 33494 42933 76427 67 11864 14597 26461

    32 35940 45312 81252 68 9694 12291 21985

    33 33124 41990 75114 69 9647 12060 21707

    34 33931 42870 76801 70 10861 13101 23962

    35 34628 42848 77476 71 8525 10638 19163 Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

    Elabore una tabla de frecuencias agrupadas por edad.

  • 32

    2.2.1 Representación gráfica de variables continuas

    Histogramas y polígono de frecuencias.

    El histograma y el polígono de frecuencias son las representaciones gráficas usadas para

    distribuciones de frecuencias agrupadas en intervalos. El histograma se construye dibujando en

    cada clase un rectángulo de base la amplitud del intervalo y de altura se representan las

    frecuencias. Si desde el extremo superior de cada una de las barras que representan los intervalos

    de clase se hace una marca en el punto medio y luego se unen los puntos por línea recta se

    obtiene el polígono de frecuencias.

    El polígono de frecuencias se lleva hasta el eje horizontal en los extremos hasta los puntos que

    serían los puntos medios si hubiera una clase adicional en cada extremo del histograma

    correspondiente. Esto permite que el área total quede incluida. Es decir, el área total bajo el

    polígono de frecuencias equivale al área bajo el histograma.

    Ejemplo: Estatura de los estudiantes de clase (ejercicio práctico)

    Ejemplo:

    El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y

    2008, para los municipios de Soyapango, Ilopango y San Martín.

    Grupos de

    edades

    SOYAPANGO ILOPANGO SAN MARTÍN

    Femenino Masculino Total Femenino Masculino Total Femenino Masculino Total

    AÑO 2004

    Total 15 167 182 12 78 90 11 42 53

    AÑO 2005

    Total 14 228 242 5 74 79 11 75 86

    AÑO 2006

    Total 16 246 262 15 69 84 6 48 54

    AÑO 2007

    Total 20 179 199 10 67 77 8 71 79

    AÑO 2008

    Total 10 128 138 9 66 75 7 54 61

    Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar el sexo, no aparecen registrados en el cuadro anterior.

    Utilizar la mejor representación gráfica para la información anterior (Diagrama de barras e

    histogramas)

  • 33

    2.3. Guía de ejercicios N° 2.

    Distribución de frecuencias y sus representaciones gráficas.

    1. Las calificaciones de 50 alumnos en Matemáticas han sido las siguientes: 5, 2, 4, 9, 7, 4, 5, 6, 5, 7, 7, 5, 5, 2, 10, 5, 6, 5, 4, 5, 8, 8, 4, 0, 8, 4, 8, 6, 6, 3, 6, 7, 6, 6, 7,

    6, 7, 3, 5, 6, 9, 6, 1, 4, 6, 3, 5, 5, 6, 7.

    Construir la tabla de distribución de frecuencias y dibuja el diagrama de barras.

    2. Los pesos de los 65 empleados de una fábrica vienen dados por la siguiente tabla:

    Peso [50,

    60)

    [60,

    70) [70, 80) [80,90)

    [90,

    100)

    [100,

    110)

    [110,

    120)

    fi 8 10 16 14 10 5 2

    a) Construir la tabla de frecuencias.

    b) Representar el histograma y el polígono de frecuencias.

    3. Los 40 alumnos de una clase han obtenido las siguientes puntuaciones, sobre 50, en un examen de Física.

    3, 15, 24, 28, 33, 35, 38, 42, 23, 38, 36, 34, 29, 25, 17, 7, 34, 36, 39, 44, 31, 26, 20, 11, 13,

    22, 27, 47, 39, 37, 34, 32, 35, 28, 38, 41, 48, 15, 32, 13.

    a) Construir la tabla de frecuencias agrupadas en intervalos de amplitud 5 unidades.

    b) Dibujar el histograma y el polígono de frecuencias.

    4. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el nº de individuos

    que conviven en el domicilio habitualmente. Las respuestas obtenidas han sido las

    siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.

    a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas.

    b) ¿Qué proporción de hogares está compuesto por tres o menos personas? ¿Qué proporción de individuos vive en hogares con tres o menos miembros?

    c) Dibuje el diagrama de barras de frecuencias y el diagrama en escalera.

    5. Una entidad bancaria dispone de 50 sucursales en el territorio nacional y ha observado el número de empleados que hay en cada una de ellas para un estudio posterior. Las

    observaciones obtenidas han sido: 12, 10, 9, 11, 15, 16, 9, 10, 10, 11, 12, 13,14,15, 11, 11,

    12, 16, 17, 17,16,16, 15, 14, 12, 11, 11, 11, 12, 12, 12, 15, 13, 14, 16, 15, 18, 19, 18, 10,

    11, 12, 12, 11, 13, 13, 15, 13, 11, 12.

    a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas.

    b) ¿Qué proporción de sucursales tiene más de 15 empleados?

  • 34

    c) Dibuje el diagrama de barras y el diagrama en escalera correspondientes. d) Agrupe en intervalos de amplitud 3 los valores de la variable, calcule su distribución

    de frecuencias y represente su histograma y su polígono de frecuencias.

    6. Los siguientes valores son los niveles de glucosa en sangre extraída a 100 niños en ayunas:

    56 61 57 77 62 75 63 55 64 60

    60 57 61 57 67 62 69 67 68 59

    65 72 65 61 68 73 65 62 75 80

    66 61 69 76 72 57 75 68 81 64

    69 64 66 65 65 76 65 58 65 64

    68 71 72 58 73 55 73 79 81 56

    65 60 65 80 66 80 68 55 66 71

    72 73 73 75 75 74 66 68 73 65

    73 74 68 59 69 55 67 65 67 63

    67 56 67 62 65 75 62 63 63 59

    a. Elabore una distribución de frecuencias b. Un histograma y un polígono de frecuencias.

    7. Los siguientes datos representan las ventas de tabaco en España durante el año 1992, en millones de cajetillas, según marcas:

    Marcas Ventas

    Ducados

    Fortuna

    Marlboro

    Winston (1)

    Lucky Strike (1)

    Chesterfiel

    Otros marcas

    1,107

    1,041

    535

    333

    164

    110

    725

    a. Calcular el porcentaje de ventas de cada marca sobre el total. b. Representar los datos anteriores mediante un diagrama circular

    8. Las edades de los empleados de una determinada empresa son las que aparecen en la siguiente tabla:

    Edad N° de empleados

    Menos de 25 22

    Menos de 35 70

    Menos de 45 121

    Menos de 55 157

    Menos de 65 184

    Sabiendo que el empleado más joven tiene 18 años, escríbase la distribución de frecuencias para

    datos agrupados (amplitud del intervalo definida según su conveniencia).

  • 35

    Capítulo 3. Medidas Características de una

    Distribución Cuantitativa Empírica.

    3.1 Medidas de posición

    Los promedios o medidas de posición proporcionan valores típicos o representativos de la

    variable en estudio. Podemos hablar de medidas de posición centrales, como la media (aritmética,

    geométrica y armónica), la mediana y la moda y medidas de posiciones no centrales, como los

    cuartiles, quintiles, deciles y percentiles.

    La media aritmética es la medida de posición más utilizada (esta muy influenciada por los valores

    extremos de la variable). Viene definida como la suma de los datos divido por el número de ellos.

    Dependiendo de la naturaleza de los datos que pretendemos promediar, será conveniente el uso

    de otro tipo de medidas, como son la media geométrica (Todos los datos son positivos y hay

    mucha dispersión; ejemplo: porcentajes, tasas de crecimiento, razones, números índices, interés

    anual, inflación, etc.) y la media armónica (resulta poco influida por la existencia de

    determinados valores muy grandes que el conjunto de los otros, siendo en cambio sensible a

    valores muy pequeños), cuyas fórmulas se presentan en la siguiente tabla. Si a cada observación

    se le asigna un valor diferente, dado en forma de peso, y a continuación se calcula la media, nos

    encontramos con una media ponderada. La moda de un conjunto de valores es aquel valor que

    ocurre con más frecuencia. Si todos los valores son distintos, no hay moda, por otra parte, un

    conjunto de datos puede tener más de una moda.

    Medidas de tendencia central

    Media aritmética 1 1 2 2

    1. . . k kx x n x n x n

    n

    Media geométrica 1 2

    1/

    1 2 . . .k

    nnn n

    kG x x x

    Media armónica

    1 2

    1 2

    . . . k

    k

    nH

    nn n

    x x x

    3.1.1. Media aritmética.

    Es la medida más conocida, la más fácil de calcular y con la que siempre estamos más

    familiarizados, ya que siempre hemos calculado el promedio de calificaciones obtenidas en cada

    periodo escolar (Ciclo, año, etc.) A veces se le denomina simplemente media o promedio, y es

    utilizada con tanta frecuencia, que en algunas ocasiones nos conduce a resultados que no revelan

  • 36

    lo que se pretende presentar, ya que la distribución de los datos puede requerir de la aplicación de

    un promedio diferente a la media, ya sea, media geométrica o media armónica.

    Le media es altamente sensible a cualquier cambio en los valores de la distribución. No es

    recomendable su uso cuando la variable está dada en forma de tasas o porcentajes. La media es

    representativa del conjunto de datos si se quiere promediar cantidades semejantes, que presentan

    variaciones dentro de un margen razonable.

    Media Aritmética simple. Se define como el cociente que se obtiene al dividir la suma de los

    valores de la variable por el número total de observaciones. Su fórmula está dada por:

    1

    n

    i

    i

    x

    xn

    Ejemplo. Supongamos que en un almacén tienen empleados a 12 vendedores, y sus ingresos

    mensuales son: $ 585, $ 521, $ 656, $ 465, $ 536, $ 487, $ 564, $ 490, $ 563, $ 1234, $ 469 y $

    547. Se pide determinar la media de los ingresos de los 12 vendedores.

    Solución.

    Ejemplo. Consideremos las utilidades y pérdidas de un almacén por departamentos, como se

    muestra en la siguiente tabla.

    OBSERVACIÓN. El promedio por departamento se

    mantiene de un año a otro, pero nos oculta los cambios que

    se han producido por departamentos donde ha habido un

    desplazamiento de los beneficios. Para superar estas

    deficiencias se requiere trabajar con la media ponderada.

    Media aritmética ponderada

    Cuando el número de observaciones es grande, las operaciones para calcular la media se

    simplifican si agrupamos los datos en una tabla de frecuencias. La fórmula matemática está dada

    por:

    1

    k

    i i

    i

    x f

    xn

    Si los datos están agrupados en clase, no se conoce el valor de x, por lo tanto se toma el punto

    medio de cada clase en vez de x (marca de clase).

    Propiedades de la media.

    Dada la importancia de la media y su uso frecuente, conviene considerar algunas de sus

    propiedades:

    1. La suma de las desviaciones respecto a la media es cero, esto es:

    Departamentos 2008 2009

    Calzado -10 20

    Electrodomésticos 153 58

    Juguetería -40 -20

    Ropa 130 152

    Misceláneos -13 10

    Promedio 44 44

  • 37

    Para datos no agrupados:1

    ( ) 0n

    i

    i

    x x

    Para datos agrupados: 1

    ( ) 0n

    i i

    i

    x x n

    . La verificación de esta propiedad es inmediata.

    2. La media aritmética de una constante es igual a la constante. 3. La media del producto de una constante por una variable, es igual a multiplicar a la

    constante por la media de la variable.

    4. La media de una variable más (o menos) una constante será igual a la media de la

    variable, más (o menos) la constante, es decir, 1( )

    k

    i i

    i

    x c n

    x cn

    5. La media aritmética de una muestra dividida en submuestras, es igual, a la media ponderada de las submuestras, tomando como ponderación los tamaños de las

    submuestras. Esto es, 1

    1 2 ...

    m

    i i

    im

    x n

    x donde n n n nn

    Ejemplo: Un inversionista tiene 1,200 acciones de un precio inferior a $3,490 dólares

    siendo su valor promedio de $ 2,905; además, 800 acciones cuyo valor unitario es

    superior a $ 3,490 y su valor promedio de $ 4,275. Calcular el valor promedio de las

    2,000 acciones.

    Solución.

    1 21 2

    1 2

    2905(1200) 4275(800)3,453

    1200 800

    x n x nx

    n n

    En promedio el inversionista gasta $ 3,453 dólares en las 2000 acciones.

    3.1.2. La media geométrica (Mg)

    La media geométrica se define como la raíz n-ésima de la multiplicación de los n valores de la

    variable. Se utiliza cuando se quiere dar importancia a valores pequeños de la variable o cuando

    se desea obtener el promedio de valores que están dados en progresión geométrica.

    En el campo industrial y comercial se utiliza para obtener promedios sobre el crecimiento o

    decrecimiento de una variable. Por ejemplo, un capital ahorrado a una tasa de interés compuesto,

    durante un periodo de tiempo.

    La media geométrica se calcula utilizando la siguiente fórmula: 1 2

    1 2 . . .knn nn

    kMg x x x donde los ni es el número de veces que se repite cada dato, en caso que los datos no se repitan los

    ni=1.La fórmula de la media geométrica tal como se ha presentado tiene el inconveniente de que

  • 38

    tanto el producto de los xi como su raíz n-ésima, pueden ser un valor demasiado alto que dificulte

    las operaciones. Para obvi