100
Universidad de El Salvador Facultad de Ciencias Naturales y Matemática Escuela de Matemática Departamento de Estadística. Profesor: Dr. José Nerys Funes Torres Ciclo I-2010. Asignatura: Tratamiento de la Información Estadística. 1

reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Embed Size (px)

Citation preview

Page 1: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Universidad de El SalvadorFacultad de Ciencias Naturales y MatemáticaEscuela de MatemáticaDepartamento de Estadística.

Profesor: Dr. José Nerys Funes TorresCiclo I-2010.

Asignatura: Tratamiento de la Información Estadística.

1

Page 2: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Unidad 1. Conceptos Básicos de Estadística.

1.1. La Estadística y sus aplicaciones

1.1.1. ¿Qué es la Estadística?

La Estadística es una ciencia que estudia las características de un conjunto de casos para hallar en ellos regularidades en el comportamiento, que sirven para describir el conjunto y para efectuar predicciones.

La Estadística tiene por objeto recolectar, organizar, resumir, presentar y analizar datos relativos a un conjunto de objetos, personas, procesos, etc. A través de la cuantificación y el ordenamiento de los datos intenta explicar los fenómenos observados, por lo que resulta una herramienta de suma utilidad para la toma de decisiones.

Bajo este contexto, la Estadística se divide en dos áreas: Estadística Descriptiva y Estadística Inferencial.

ESTADÍSTICA DESCRIPTIVA: permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación. Obviamente, la materia prima de la Estadística Descriptiva la constituyen los datos, que son el resultado de las observaciones y/o experimentos.Ejemplos:

1. Durante los últimos dos días se ha informado de un total de trece homicidios diarios.2. La encuesta Gallup informa una ventaja de 25% para el candidato de izquierda.

ESTADÍSTICA INFERENCIAL: Generaliza los resultados de una muestra a los de una población total, es cuando de los datos estadísticos obtenidos de una muestra se infiere o se deduce una observación la cual se generaliza sobre la población en total. Para determinar la confiabilidad de la inferencia de los datos estadísticos de una muestra, se hace necesario comprobar la misma para poder asegurar que lo que se observa en una muestra se observará también en la población. Generalmente el análisis estadístico inferencial se lleva a cabo para mostrar relaciones de causa y efecto, así como para probar hipótesis y teorías científicas.

1.1.2. Aplicaciones de la Estadística.

Mucha gente piensa que la Estadística no tiene nada que ver con otras disciplinas que no sean las ingenierías y economía. Otros nunca le encuentran aplicaciones útiles, y por eso tampoco les gusta. Pero, en realidad tiene infinitas aplicaciones en todo el conocimiento adquirido por la humanidad, partiendo ante todo, lo relacionado con las ingenierías, economía, las ciencias biológicas, ciencias sociales e incluso en algunas ramas del área Jurídica. Y, en definitiva, casi todos los campos de las

2

Page 3: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

ciencias emplean instrumentos estadísticos de importancia fundamental para el desarrollo de sus modelos de trabajo.

En nuestros días, la estadística se ha convertido en un método efectivo para describir con exactitud los valores de los datos económicos, políticos, sociales, psicológicos, biológicos y físicos, entre otros, y sirven como herramienta para relacionar y analizar dichos datos. El trabajo del experto estadístico no consiste ya sólo en reunir y tabular los datos, sino el proceso de interpretación de esa información a través de modelos estadísticos-matemáticos, aumentando el alcance de las aplicaciones de la estadística, esto se ha logrado, gracias al desarrollo de la teoría de probabilidad.

Dentro de las Aplicaciones de la Estadística se destacan las siguientes:

1. La Estadística en el Periodismo

En general, los periodistas además de dedicarse al ámbito de la noticia, realizan crónicas y estudios de investigación, que nos entregan preguntas y respuestas frente a determinados sucesos o situaciones de interés público. Algunos de los estudios más frecuentes realizados por los periodistas son sobre alcoholismo, enfermedades, sexualidad, delincuencia, política, etc. Para ello, hacen uso de las encuestas u otros instrumentos técnicos de medición propios de la estadística, a través de dichos estudios es posible conocer la opinión de la gente y con ello informar a la opinión pública, a través de los medios de comunicación, desde donde las autoridades pertinentes e interesadas en estos estudios pueden adoptar las medidas correctivas, si es el caso. Tal es así, que la estadística forma parte importante del periodismo investigativo.

2. La Estadística en la Política

Conocidas son las famosas encuestas de tipo político, que entregan una orientación de la intención de voto, de la aceptación de un candidato, del impacto de un programa o proyecto de estado, etc. de una muestra estadística representativa, sobre la opinión de las personas en un tiempo determinado, teniendo esta herramienta una gran confiabilidad. Así es que el uso de la estadística es imprescindible para determinar caminos a seguir para los candidatos de elección popular.

3. La Estadística en la Publicidad

Cuando las grandes marcas trasnacionales y/o nacionales como Coca-cola, Pepsi, Nice, Adidas, Laboratorios López, etc. nos llenan de slogans, música y colores en sus comerciales, lo único que buscan es que la gente adquiera los productos y/o servicios que ofrecen.

Se dedican, entonces, a realizar las llamadas “campañas publicitarias”, y, antes de lanzar una campaña, hacen un estudio de mercado para encontrar las mejores alternativas posibles a fin de lograr el éxito de ventas deseado. Estos estudios son de carácter estadístico, es decir, hacen un diseño muestral y seleccionan una muestra para inferir las características de la población.

3

Page 4: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

4. La Estadística en la economía y las finanzas.

En la administración es una herramienta del control, como parte del proceso administrativo (o lo que es lo mismo: planeación, organización, dirección y control) ya que la estadística ayuda a recolectar, estudiar y al final interpretar los datos que obtienen al terminar el proceso administrativo, retroalimenta con esta información y al final se observa en que pueden mejorar y que se está haciendo bien.

En la mercadotecnia es una herramienta muy importante cuando tienes la necesidad de trabajar con datos de muestreo para conocer los gustos y preferencias de las personas. Igualmente en la auditoria administrativa cuando recabas datos para conocer en que puede mejorar una organización. En pocas palabras te puede servir en cualquier área de una organización debido a que muestra los resultados de las actividades que bienes realizando.

En la economía se utiliza como una herramienta de predicción para pronosticar el comportamiento futuro, por ejemplo, de los precios de los metales (oro, plata, cobre) tomando como base el comportamiento pasado de los precios de los mismos. También puede servir para estudiar el comportamiento de la bolsa de valores, de ciertos productos básicos, los economistas por lo regular se sienten magos que creen predecir cosas. En general, la Estadística suministra los valores que ayudan a descubrir interrelaciones entre múltiples parámetros macro y microeconómicos, a través de la evaluación de modelos econométricos para el establecimiento de políticas económicas; análisis del costo de la canasta básica, el poder adquisitivo de la población, etc.

5. La estadística en la Banca y Seguros

El profesional del seguro de vida ha de ser capaz de asignar primas suficientes para cubrir las cantidades que habrá de pagar la compañía en el caso de muerte del asegurado. En consecuencia, la predicción adecuada de las probabilidades de muerte constituye uno de los ejes centrales de la reducción del riesgo que se asume. Por ello, el objetivo de la Estadística de Seguros es una presentación exhaustiva de los métodos disponibles para ajustar tablas de mortalidad y tablas de seguros no vida, ejemplo, aseguramiento de vehículos, viviendas, etc.

Por otra parte, algunas de las aplicaciones concretas de la Estadística en el sistema bancario son las siguientes: Sistemas de concesión de tarjetas de crédito y fijación de su límite. Sistemas de estimación del potencial económico de los clientes. Definición de tipologías comerciales de clientes. Determinación del público objetivo en campañas comerciales. Modelización del riesgo según las características de los clientes. Aplicación de la teoría de colas para brindar un servicio de calidad. Finalmente, es de mucha utilidad la técnica de minería de datos para el análisis de bases de datos del

sistema bancario.

6. La estadística en ciencias humanas y sociales

4

Page 5: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

La investigación en Psicología, Sociología y Educación, al igual que ocurre en otras ciencias, en buena medida se basa en el manejo de recursos estadísticos como elementos indispensables para llegar a conclusiones aceptables por el resto de la comunidad científica. Dada la peculiaridad de su objeto de estudio, inabordable en la mayoría de los casos sino es a través de perspectivas complejas de relación entre variables, la atención de los investigadores en las ciencias humanas y sociales se concentra cada vez más en la llamada Estadística Multivariante (Análisis Cluster, Factorial, Discriminante, etc.).

Las ciencias sociales se han visto apabulladas en los últimos años por avances vertiginosos en informática y aplicaciones estadísticas, por ejemplo, en El Salvador, se ha elaborado el Mapa de Pobreza, donde se ha interrelacionado una gran variedad de variables de diferentes áreas: Educativas, Económicas, Salud, entre otras. También, se ha hecho investigación sobre los factores que están asociados al rendimiento académico de los estudiantes, finalmente, se han utilizado diferentes técnicas para el análisis de los resultados académicos de los estudiantes. Las ciencias sociales: es un pilar básico del desarrollo de la demografía y la sociología aplicada, lo que conlleva a:

Definición de indicadores de fenómenos sociales. Medición de constructos o variables no directamente observables (la satisfacción, la inteligencia,

...) Medición de los efectos entre constructos no observables para establecer políticas sociales. Estudio de la evolución de la demografía. Estudios sociales sobre la integración de la población inmigrada. Fenómenos sociales como las pandillas, criminalidad, delincuencia, contaminación, entre otros.

7. La estadística en las ciencias químicas.

En Química, la estadística se aplica en varias áreas: En el diseño de experimentos se usan métodos estadísticos, en el control de procesos y control de calidad (o gerenciamiento de calidad) de procesos y productos. En EEUU está muy de moda el sistema seis sigma, creado por general electric, que utiliza algunos conceptos estadísticos para lograr el aseguramiento de la calidad.

Por otra parte la producción química tiene su costo económico y financiero que también requiere mucho uso de estadística, por ejemplo, si no se elabora un buen diseño experimental, se necesitarán muchas réplicas para validar una formulación química.

Algunas de las aplicaciones concretas que podemos mencionar: Utilización de diseños experimentales para optimizar la composición de productos alimenticios. Evaluación de la superficie de respuesta de una reacción química según determinados factores. Predicción del comportamiento de un componente no sintetizado a partir de las propiedades

moleculares de sus descriptores. Control de procesos de producción para detectar problemas evitando a su vez falsas alarmas.

8. La estadística en Ciencias biológicas.

5

Page 6: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

En el área de las ciencias biológicas, interesa estudiar el comportamiento de ciertas plantas y sus cruces a fin de determinar cómo se relacionan genéticamente los padres con los hijos, hablando de Genotipo y Fenotipo. En esta categoría es también donde se realizan los mayores avances de la humanidad, en descubrimientos. Cada año se descubren miles de fórmulas científicas que relacionan fenómenos de la naturaleza con modelos matemáticos.

Los científicos se dedican a realizar estudios estadísticos, recogiendo datos y muestras, investigando el tiempo de reproducción de un virus, el comportamiento migratorio de algunas aves o insectos, además de factores de tamaño y volumen del crecimiento de ciertas especies de animales o vegetales. Todo esto funciona con la idea de recopilar información, muestrear ciertas áreas para ver cómo se han comportado algunas aves, por ejemplo, se pueden dibujar o simular curvas que se supone que son relativamente parecidas al comportamiento migratorio de aves. Con esta herramienta se podrían determinar también las épocas de mayor probabilidad de contagio, diseminación de algún virus o bien enfermedades transmitidas por insectos.

Algunas aplicaciones concretas en esta área son: Determinación del tamaño de poblaciones naturales en una región; efectividad de la utilización de barreras naturales (filas de árboles plantados en los límites del terreno) como medio de prevenir las plagas de insectos o aves sobre las plantaciones y así disminuir la utilización de pesticidas: y, determinación de los niveles óptimos de utilización de los fertilizantes. Obviamente, en esta área es donde más se hace usos de la teoría de Diseños de Experimentos.

9. La estadística en las ciencias médicas.

Permite establecer pautas sobre la evolución de las enfermedades y los enfermos, los índices de mortalidad asociados a procesos morbosos, el grado de eficacia de un medicamento, etcétera.Bajo este conjunto de ideas, se ha presentado un panorama de la utilidad de la estadística, haciendo un recorrido por diversas áreas del conocimiento humano, con el fin, de conocer como se relacionan con las diversas ciencias, formando una sola verdad. Evidentemente, existen, muchas disciplinas donde se aplica la estadística, que no han sido consideradas en este apartado, por ejemplo, las ingenierías, la pintura, la música, etc. Finalmente, es de resaltar que en todos los temas donde se analice información está presente la estadística.

1.2. Población, Muestra y técnicas de muestreo.Las estadísticas de por sí no tienen sentido si no se considera o se relaciona dentro del contexto con que se trabajan. Por lo tanto es necesario entender los conceptos de población y de muestra para lograr comprender mejor su significado en la investigación educativa o social que se lleva a cabo.

POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas características comunes observables en un lugar y en un momento determinado. Cuando se vaya a llevar a cabo alguna investigación debe de tenerse en cuenta algunas características esenciales al seleccionarse la población bajo estudio. Entre éstas tenemos:

Homogeneidad - que todos los miembros de la población tengan las mismas características según las variables que se vayan a considerar en el estudio o investigación. Por ejemplo, si se fuera a investigar la incidencia de la drogadicción entre jóvenes mujeres adolescentes, entonces hay que definir claramente

6

Page 7: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

las edades que comprenden la adolescencia y cuando se seleccione la población asegurarse de que todas las personas entrevistadas sean de la edad determinada y del sexo femenino. (La adolescencia se define operacionalmente como el periodo comprendido de edad que fluctúa entre 12 y 21 años.)Tiempo - se refiere al período de tiempo donde se ubicaría la población de interés. Determinar si el estudio es del momento presente o si se va a estudiar a una población de cinco años atrás o si se van a entrevistar personas de diferentes generaciones. Espacio - se refiere al lugar donde se ubica la población de interés. Un estudio no puede ser muy abarcador y por falta de tiempo y recursos hay que limitarlo a un área o comunidad en específico.

Cantidad - se refiere al tamaño de la población. El tamaño de la población es sumamente importante porque ello determina o afecta al tamaño de la muestra que se vaya a seleccionar, además que la falta de recursos y tiempo también nos limita la extensión de la población que se vaya a investigar.MUESTRA - la muestra es un subconjunto fielmente representativo de la población.

Hay diferentes tipos de muestreo. El tipo de muestra que se seleccione dependerá de la calidad y cuán representativo se quiera que sea el estudio de la población, en este sentido, la muestra puede ser:

Aleatoria - cuando se selecciona al azar y cada miembro tiene igual oportunidad de ser incluido.

Un procedimiento de extraer una muestra aleatoria de una población finita es: enumerar todos los elementos que conforman la población, escribir esos números en papelitos y echarlos en una urna o bolsa mezclarlos bien removiéndolos y sacar uno a uno tantos como lo indique el tamaño de la muestra. En este caso los elementos de la muestra lo constituirán los elementos de la población cuyos números coincidan con los extraídos de la bolsa o urna.

El tamaño de la muestra (MAS):

Al realizar un muestreo probabilística nos debemos preguntar ¿Cuál es el número mínimo de unidades de análisis (personas, organizaciones, capitulo de telenovelas, etc), que se necesitan para conformar una muestra n que me asegure un error estándar menor que 0.01 ( fijado por el muestrista o investigador), dado que la población es aproximadamente de N elementos.

En el tamaño de una muestra de una población se debe tener presente la varianza poblacional, error máximo permisible prefijado (diferencia del parámetro y estimador), con un nivel de confianza de .

Simbólicamente se refiere a lo siguiente: , bajo este contexto podemos utilizar la

fórmula:

Ejemplo. Se desea estimar la estatura promedio de los estudiantes de la asignatura de Tratamiento de la Información Estadística. Se sabe que la estatura de un estudiante es una variable aleatoria con

7

Page 8: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

distribución normal. Determine el tamaño de muestra aleatoria necesaria para garantizar una probabilidad igual a 0.95 de que el estimador y el parámetro se diferencien en menos de 10cm.

Solución.

Datos conocidos.

d= 10cm

Calcular: , =1.96

Determinar:

MUESTREO ESTRATIFICADO - cuando se subdivide en estratos o subgrupos según las variables o características que se pretenden investigar. Cada estrato debe corresponder proporcionalmente a la población.

El número determinado de elementos muestrales es: , donde ni es el número de elementos en el

estrato i=1, 2, …, k . No se entrará en detalle del cálculo del tamaño muestral, ya que supera el alcance de esta asignatura.

MUESTREO SISTEMÁTICO - cuando se establece un patrón o criterio al seleccionar la muestra. Ejemplo: se entrevistará una familia por cada diez que se detecten.

El muestreo es indispensable para el investigador ya que es imposible entrevistar a todos los miembros de una población debido a problemas de tiempo, recursos y esfuerzo. Al seleccionar una muestra lo que se hace es estudiar una parte o un subconjunto de la población, pero que la misma sea lo suficientemente representativa de ésta para que luego pueda generalizarse con seguridad de ellas a la población.

El tamaño de la muestra depende de la precisión con que el investigador desea llevar a cabo su estudio, pero por regla general se debe usar una muestra tan grande como sea posible de acuerdo a los recursos que haya disponibles. Es de especificar que para cada método de muestreo existen fórmulas para determinar el tamaño de muestra.

8

Page 9: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

1.3 Unidad de estudio y unidad de muestreo

La unidad de análisis o estudio corresponde a la entidad mayor, primaria o representativa de lo que va a ser objeto específico de estudio en una medición y se refiere al qué o quién es objeto de interés en una investigación. Por ejemplo: Condiciones de hacinamiento de las familias del Municipio de Soyapango, San Salvador. Unidad de Análisis: Familias del Municipio de Soyapango.

Debe estar claramente definida en un protocolo de investigación y el investigador debe obtener la información a partir de la unidad que haya sido definida como tal, aun cuando, para acceder a ella, haya debido recorrer pasos intermedios. Las unidades de análisis pueden corresponder a las siguientes categorías o entidades:

Personas Grupos humanos Poblaciones completas Unidades geográficas determinadas Eventos o interacciones sociales (enfermedades, accidentes, casos de infecciones

intrahospitalarias, etc) Entidades intangibles, susceptibles de medir (exámenes, días, camas)

El tipo de análisis al que se someterá la información es determinante para elegir la unidad de análisis. Por ejemplo, si el objetivo es dar cuenta de la satisfacción del usuario de un servicio médico, la unidad de análisis natural es el paciente atendido, o la persona que se atiende en ese servicio médico. Si el objetivo es dar cuenta de la satisfacción del alumno sobre el desempeño docente, la unidad de análisis es el alumno que recibe clases con el docente evaluado.

La unidad de muestreo corresponde a la entidad básica mediante la cual se accederá a la unidad de análisis. En algunos casos, ambas se corresponden. Por ejemplo, si se desea estimar la prevalencia de daño auditivo en relación con niveles de ruido ambiental en una muestra de trabajadores de una fábrica, la unidad de muestreo puede corresponder a la entidad "sujeto", si se dispone de un registro detallado de cada sujeto. La unidad de análisis es por cierto el trabajador de la fábrica.

1.4 Variables y datos

VARIABLESLas variables son las características observables de un objeto, problema o evento que se puede describir según un esquema de medición bien definido. Cada rasgo o aspecto de una población constituye una variable. La edad de unas personas, su sexo, color de su piel, nacionalidad, su nivel de motivación, niveles de ansiedad, el número de nacimientos, número de matrimonios, frecuencia de suicidios, estatura, peso, niveles de inteligencia, actitudes, entre muchas otras.

Las variables pueden adquirir diferentes valores o clasificarse en diferentes categorías según la naturaleza o tipo de estudio que se lleve a cabo. Entre éstas tenemos las siguientes clasificaciones:

9

Page 10: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

VARIABLES CUALITATIVAS - son aquellas que se expresan en forma verbal como categorías o atributos. Por ejemplo, el sexo, color, afiliación política, nacionalidad, motivación, área académica o profesión de una persona.

VARIABLES CUANTITATIVAS - son las que varían en términos de cantidad y se registran o expresan en forma numérica. Por ejemplo, edad, promedio académico, puntuaciones de exámenes, frecuencia de delitos, temperatura, ingresos anuales o salarios por hora. Hay algunas características que pueden clasificarse o expresarse como variable cuantitativa y transformarla a cualitativa o viceversa. Por ejemplo, nivel de aprovechamiento académico estudiantes de 4:00 puntos, o estudiantes de 3:00 puntos y así sucesivamente. El investigador puede expresar mediante una escala numérica el aprovechamiento académico al clasificar a los estudiantes, como también puede clasificarlos como variable cualitativa en las categorías de excelentes, buenos, regulares y deficientes.

VARIABLES DISCRETAS - son aquellas que sólo adquieren un valor absoluto o específico que nunca cambian. Pueden ser cualitativas. Ejemplo: el sexo, nacionalidad, grupo étnico, entre otras.VARIABLES CONTINUAS - que siempre son cuantitativas, son las que pueden asumir cualquier valor. Por ejemplo, la edad, altura, peso, índice académico.

En el campo de la investigación, que se suele examinar las relaciones entre dos o más variables al investigar un asunto o problema, se clasifican las variables como:

VARIABLES INDEPENDIENTES - son las características controladas por el investigador y que se supone tendrán efectos sobre otras variables.

VARIABLES DEPENDIENTES - son las características o aspectos que se alteran por consecuencia del control que ejerce el investigador sobre otras variables.Estos dos últimos tipos de variables suelen darse más en estudios o investigaciones experimentales, pero también podemos considerarlas en estudios descriptivos. Por ejemplo, en un estudio experimental se investiga si un nuevo medicamento mejora las condiciones del sida. A tales efectos se seleccionaron 30 pacientes, de los cuáles 15 recibían el nuevo medicamento (grupo experimental) y otros 15 continuaban con su tratamiento tradicional (grupo control). El nuevo medicamento viene a ser la variable independiente porque es la que los investigadores controlan y que luego examinarán sus efectos en la condición del sida, la cual viene a ser la variable dependiente, porque es la condición que se va alterar o quedar afectada por el nuevo medicamento.En un estudio descriptivo donde interesa saber si la clase social es factor determinante en el aprovechamiento académico en las escuelas, entonces la clase social es la variable independiente y el aprovechamiento académico la dependiente.

Una variable puede ser independiente en una investigación y dependiente en otra, todo dependerá de la finalidad de la investigación. Por ejemplo, si se lleva a cabo un estudio para determinar cómo las condiciones socio-económicas influyen a la drogadicción, en este caso, status socio- económico es una variable independiente. Por el contrario, si se lleva a cabo una investigación para saber cómo la drogadicción afecta las condiciones sociales y económicas, entonces, el status socio-económico resultaría ser la variable independiente.

DATOS: son los hechos que describen sucesos y entidades.

10

Page 11: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

1.5. ESCALAS DE MEDICIÓN

Una escala es un esquema específico para asignar números o símbolos con el objeto de designar características de una variable. Las escalas de medición comúnmente conocidas son: nominales, ordinales, de intervalos y de razón. A continuación veamos los cuatro tipos de escalas de medición.

1.5.1. ESCALAS NOMINALES

Las escalas nominales son aquellas donde se clasifican los objetos, personas o variables en categorías cualitativamente distintas. Consiste simplemente en agrupar objetos en clases o asignar las personas de acuerdo a alguna cualidad una vez que los objetos o personas posean características comunes que lo hagan pertenecer a una categoría. Por ejemplo, todos los estudiantes que obtuvieron sobre 9 puntos fueron clasificados como excelentes, los que obtuvieron menos de 8.9 pero más de 8.0 como muy buenos y de 7.0 a 7.9 como buenos. En una redada de drogas se arrestaron 22 mareros, cuatro acusados de homicidios, ocho acusados de violación y diez por extorciones.

Se pueden utilizar números en las escalas nominales, pero éstos no representan magnitudes absolutas. Los números sólo se utilizan con el propósito de clasificarlos a determinada categoría. Por ejemplo, si vas a comprar pintura azul en la ferretería te presentan una escala con diferentes tonalidades del color azul y cada tonalidad posee un número, pero este número sólo es para facilitar al vendedor identificar el color solicitado entre cientos de colores. De igual modo en muchas solicitudes se le asigna el número 1 al sexo masculino y número dos al femenino y esta clasificación sólo es para facilitar los cómputos y manejos de información estadística, pero no quiere decir que los masculinos tengan más o menor valor que las del sexo femenino. Los números que se utilizan para efectos de identificación en una escala nominal nunca se utilizarán para llevar a cabo los procedimientos matemáticos de suma, resta, multiplicación y división.

1.5.2. ESCALAS ORDINALES

Las escalas ordinales son las que clasifican a las personas, eventos u objetos en una posición con relación a cierto atributo, pero sin indicar la distancia que hay entre las posiciones. Cuando se asignan números es sólo para indicar el orden de las posiciones de lo que se está clasificando. Por ejemplo, en un determinado grupo escolar se decidió seleccionar los cinco estudiantes con el promedio más alto para premiarlos con un viaje al Lago de Coatepeque y resultó que Esteban quedó tercero con un promedio de 8.90, seguido de Jorge con 8.88 y, luego Leticia con 8.75. Esteban como tercero se le asigna el número tres, pero ésta designación numérica sólo indica su posición con relación a los otros cuatro alumnos. Sabemos que Esteban tiene un mejor promedio que Jorge y que su promedio es superior que el de Leticia. Sin embargo, no podremos saber hasta qué punto es mejor su promedio comparado con los otros.

Con las escalas ordinales tampoco se pueden llevar a cabo las operaciones aritméticas de suma, resta, multiplicación y división. La diferencia que puede haber entre unas personas u objetos en este tipo de

11

Page 12: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

escala no necesariamente constituye unidades iguales o absolutas que puedan utilizarse para determinar si el que tiene un segundo lugar posee el doble valor que el que queda en cuarta posición. Por ejemplo, en un evento atlético de una carrera que no haya sido cronometrada, podemos saber quién llegó primero, segundo y tercer lugar, pero no podemos saber con precisión la velocidad entre un corredor y otro. La diferencia que hay entre el primero y el segundo no necesariamente es igual a la que hubo entre el segundo y el tercero.

1.5.3. ESCALAS DE INTERVALOSLas escalas de intervalos son aquellas que ordenan los objetos o eventos según la magnitud del atributo que representan y proveen intervalos iguales entre las unidades de medida. Además, no poseen un punto cero absoluto o verdadero ya que el mismo es establecido por convención de forma arbitraria por los expertos en el área o materia de estudio y no implica la ausencia del atributo o la propiedad en cuestión. Por ejemplo, la escala de inteligencia posee un punto cero, pero administrando cualquier tipo de prueba que intente medir la inteligencia, nunca va a encontrar un ser humano con cero inteligencia. De igual modo si el agua está en 0 grado °C, esto no quiere decir que carezca de temperatura, ya que en una escala de intervalos, como se ha indicado, es una designación arbitraria y convencional.

Una diferencia de cierta magnitud en una escala de intervalos significa lo mismo en todos los puntos de la escala. Así por ejemplo, en los termómetros de grados Fahrenheit y centígrados que utilizan este tipo de escalas, están divididos en unidades iguales, la diferencia en la temperatura entre 100 grados y 101 grados es equivalente a la diferencia entre 110 grados y 111 grados.

La numeración de los años en nuestro calendario utiliza también una escala de intervalos. Las autoridades eclesiásticas y gubernamentales de la época decidieron arbitrariamente fijar como el año 1 el del nacimiento de Cristo y como unidad de medida un lapso de 365 días. Por lo tanto, el lapso de tiempo que estuvo Bill Clinton como presidente de los Estados Unidos desde 1993 – 2001 es igual al que transcurrió George Bush desde 2001 – 2009.

1.5.4. ESCALAS DE RAZONES O COCIENTESLas escalas de razones o cocientes se diferencian de las de intervalos solamente en que la de razones el punto cero no es arbitrario y corresponde a una total ausencia del asunto o propiedad estudiada. La escala de una simple regla de 12 pulgadas posee una escala de razones la cual está dividida en 12 unidades cada una de igual magnitud y parte de un punto cero absoluto y verdadero.

La mayoría de las variables con las cuales se utiliza este tipo de escalas se refieren más a la ejecución de tareas motoras, a las medidas de objetos y de aspectos fisiológicos.

Dos ejemplos de las escalas de razones y cocientes son: las medidas de la estatura y el peso. Si una columna mide seis metros es el doble de alto de otra columna que mide tres metros. Si Enrique pesa 180 libras, entonces pesa el doble que María quién pesa 90 libras. Las razones de los números en estas escalas tienen un determinado sentido, lo que hace posible que se interpreten los valores numéricos entre las cantidades obtenidas de los objetos.Además pueden llevarse a cabo las diferentes operaciones matemáticas.

12

Page 13: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

RESUMEN: CARACTERÍSTICAS, EJEMPLOS Y LIMITACIONESDE LAS ESCALAS DE MEDICIÓN

ESCALA CARACTERÍSTICAS USOS/EJEMPLOS

LIMITACIONES

NominalSe clasifican las personas, eventos u objetos en categorías.

Denominaciones religiosas, afiliación político partidista, codificaciones en la clasificación de objetos, pinturas, movimientos literarios.

No se pueden precisar diferencias cuantitativas entre las categorías.

OrdinalSe clasifican u ordenan las personas, objetos y eventos en determinada posición.

Orden de llegada de atletas en una carrera, puntuaciones de una prueba, rangos militares, nivel de popularidad de estudiantes en una escuela.

Restringida para Identificar diferencias relativas, pero no precisa diferencias en cantidad absoluta entre personas u objetos.

IntervaloEscala que posee unidades de igual magnitud. El punto cero de la escala es arbitrario y no refleja la ausencia del atributo.

Temperaturas (Celsius y Fahrenheit), fechas del calendario, escala de inteligencia.

Razones no tienen sentido ya que el punto cero es establecido convencionalmente.

RazonesEscala que posee un puntocero absoluto e intervalos de igual magnitud.

Distancia, peso, estatura, tiempo requerido para realizar una tarea escolar.

Ninguna, excepto que su uso se supedita mayormente a medir cualidades físicas más que para la medición de aspectos psicológicos.

1.6. Diseño de Experimentos estadísticos.

El diseño de un experimento es la secuencia completa de los pasos que se deben tomar de antemano, para planear y asegurar la obtención de toda la información relevante y adecuada al problema bajo investigación, la cual será analizada estadísticamente para obtener conclusiones válidas y objetivas con respecto a los objetivos planteados.Un Diseño Experimental es una prueba o serie de pruebas en las cuales existen cambios deliberados en las variables de entrada de un proceso o sistema, de tal manera que sea posible observar e identificar las causas de los cambios que se producen en la respuesta de salida.

El propósito de cualquier Diseño Experimental, es proporcionar una cantidad máxima de información pertinente al problema que se está investigando. Y ajustar el diseño que sea lo más simple y efectivo; para ahorrar dinero, tiempo, personal y material experimental que se va a utilizar. Es de acotar, que la mayoría de los diseños estadísticos simples, no sólo son fáciles de analizar, sino también son eficientes en el sentido económico y en el estadístico.De lo anterior, se deduce que el diseño de un experimento es un proceso que explica tanto la metodología estadística como el análisis económico.

DISEÑO: Consiste en planificar la forma de hacer el experimento, materiales y métodos a usar, etc.

EXPERIMENTO: Conjunto de pruebas o ensayos cuyo objetivo es obtener información, que permita mejorar el producto o el proceso en estudio.

13

Page 14: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Guía de ejercicios N° 1. Conceptos básicos de estadística.1. Contestar verdadero o falso y comentar su respuestas según sea el caso:

a) La Estadística es una ciencia que estudia y describe las características de un conjunto de casos.

b) La estadística inferencial generaliza los resultados de una muestra a los de la población total.

c) Durante los últimos dos días se ha informado de un total de cinco homicidios diarios en San

Salvador, este es un ejemplo de estadística inferencial.

d) A las medidas que se obtienen de una muestra se les da el nombre de parámetro.

e) En una muestra aleatoria ciertos elementos tienen mayor probabilidad que otros de ser

seleccionados.

2. Mediante ejemplos, explicar la diferencia entre la estadística descriptiva y estadística inferencial.

3. POBLACIÓN - es el conjunto total de individuos, objetos o medidas que poseen algunas

características comunes observables en un lugar y en un momento determinado. A partir de esta

definición enumere las características de una población.

4. Describir dos ejemplos de población.

5. Describir dos ejemplos de muestra de una población.

6. Definir al menos dos tipos de muestreo y dar ejemplos de aplicación de cada uno.

7. Se desea estimar la edad promedio de los estudiantes de la asignatura de Tratamiento de la

Información Estadística. Se sabe que la edad de un estudiante es una variable aleatoria con

distribución normal con desviación estándar de 6cm. Determine el tamaño de muestra aleatoria

necesaria para garantizar una probabilidad igual a 0.95 de que el estimador y el parámetro se

diferencien en menos de 5cm.

8. Establecer las diferencias entre la unidad de análisis y la unidad muestral.

9. Establecer las diferencias entre variables cualitativas y cuantitativas.

10. Definir al menos dos ejemplos de variables cualitativas y de variables cuantitativas.

11. Establecer las diferencias entre variables discretas y continuas.

12. Definir al menos dos ejemplos de variables discretas y de variables continuas.

13. Definir las siguientes escalas de Medición y presentar dos ejemplos de cada una de ellas:

Escala nominal

Escala ordinal

Escala de intervalo.

Escala de razón

14

Page 15: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Unidad 2. Distribuciones de frecuencias y sus representaciones gráficas.

2.1 Estadística Descriptiva con una variable

La estadística descriptiva permite organizar y presentar un conjunto de datos de manera que describan en forma precisa las variables analizadas haciendo rápida su lectura e interpretación. Obviamente, la materia prima de la Estadística Descriptiva la constituyen los datos, que son el resultado de las observaciones y/o experimentos. Se denomina variable al carácter o fenómeno de la realidad objeto de estudio. Las variables pueden ser de diferentes tipos, dependiendo de los datos que la forman.

Las variables cualitativas o atributos son aquellas que no toman valores numéricos. Describen diferentes cualidades denominadas modalidades. Ejemplo: Sexo, estado civil, color de los ojos, etc. Las variables cualitativas están formadas por datos que toman valores numéricos y pueden ser discretas, si sólo toman un número entero de valores, y continuas, si pueden tomar cualquier valor real dentro de un intervalo.

Entre los sistemas para ordenar los datos se encuentran principalmente dos: a) la distribución de frecuencias y b) la representación gráfica.

1.1.1 Distribución de frecuencias

Supongamos que hemos recogido un conjunto de n datos englobados en una variable X. La tabla que recoge de modo sistemático estos datos se denomina distribución de frecuencias. La Distribución de Frecuencias (Simples o agrupadas en intervalos). Comúnmente llamada tabla de frecuencias, se utiliza para hacer la presentación de datos provenientes de las observaciones realizadas en el estudio, estableciendo un orden mediante la división en clases y registro de la cantidad de observaciones correspondientes a cada clase. Lo anterior facilita la realización de un mejor análisis e interpretación de las características que describen y que no son evidentes en el conjunto de datos brutos o sin procesar.

La siguiente tabla recoge las principales características de una distribución de frecuencias simple o no agrupada.

15

Page 16: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Datos Frecuencias Absolutas Frecuencias RelativasSimples Acumuladas Simples Acumuladas

Total

La primera columna representa los distintos valores de esos datos y la segunda la frecuencia simple, es decir, el número de veces que se ha observado el correspondiente valor; la tercera columna recoge la frecuencia acumulada (número de veces que se han observado valores menores o iguales que el que corresponde a dicha fila). Las frecuencias relativas se obtienen a partir de las frecuencias absolutas, dividiendo por el tamaño de la muestra.

Cuando en la muestra existen muchos valores diferentes y mucha variabilidad se recomienda, aún a costa de perder información, agrupar los datos en clases, en lo que se denomina distribución de frecuencias agrupada en intervalos.

Clase Marca Frecuencias Absolutas Frecuencias RelativasClase Simples Acumuladas Simples Acumuladas

Total

A cada uno de los intervalos se les denomina clase y al punto medio marca de clase. A efectos de cálculo la marca de clase se elige como representante del intervalo. El número de clases en que se dividen los datos no debe ser excesivo. A modo orientativo, el número de clases se puede obtener mediante la siguiente fórmula empírica, llamada de Sturges:

(Tomar la parte entera)

16

Page 17: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Ejemplo. Población de El Salvador, por sexo y edad.Edad Hombre Mujer Total Edad Hombre Mujer Total Edad Hombre Mujer Total< 1 51787 50097 101884 36 31398 40111 71509 72 8591 10717 193081 53230 51477 104707 37 31414 38801 70215 73 7461 9522 169832 55845 54261 110106 38 29639 37419 67058 74 8011 10030 180413 59752 57127 116879 39 29435 37454 66889 75 8067 9886 179534 62658 59659 122317 40 31769 39411 71180 76 7535 9745 172805 62274 59738 122012 41 24732 32964 57696 77 6897 8872 157696 69088 66249 135337 42 26840 34653 61493 78 5825 7123 129487 75310 72672 147982 43 24578 32639 57217 79 5334 6700 120348 71525 68511 140036 44 24299 31746 56045 80 5717 7089 128069 70953 68407 139360 45 24451 31422 55873 81 4124 5274 9398

10 74244 70664 144908 46 21989 29308 51297 82 3841 5220 906111 71744 69499 141243 47 22251 28713 50964 83 3438 4508 794612 74093 72835 146928 48 20682 26481 47163 84 3281 4378 765913 68251 66194 134445 49 20584 26241 46825 85 3263 4413 767614 71191 67632 138823 50 22897 28057 50954 86 3096 4286 738215 64523 63752 128275 51 17664 22874 40538 87 2750 3758 650816 61880 61630 123510 52 19081 24360 43441 88 1767 2358 412517 61255 61624 122879 53 17671 22344 40015 89 1595 2219 381418 57590 58584 116174 54 17962 22824 40786 90 1405 2091 349619 53136 56591 109727 55 17848 22561 40409 91 786 1143 192920 50243 55085 105328 56 17114 21361 38475 92 826 1206 203221 45994 51623 97617 57 16816 20974 37790 93 673 990 166322 46006 51429 97435 58 14462 17853 32315 94 559 869 142823 42864 49278 92142 59 15478 18608 34086 95 482 816 129824 42894 51126 94020 60 17461 19979 37440 96 416 674 109025 42616 50552 93168 61 12470 15424 27894 97 356 588 94426 41993 50707 92700 62 13590 17093 30683 98 + 526 948 147427 43473 52214 95687 63 12274 15528 2780228 39209 48076 87285 64 12412 15633 2804529 39672 49378 89050 65 12802 15513 2831530 41911 50744 92655 66 11774 14915 2668931 33494 42933 76427 67 11864 14597 2646132 35940 45312 81252 68 9694 12291 2198533 33124 41990 75114 69 9647 12060 2170734 33931 42870 76801 70 10861 13101 2396235 34628 42848 77476 71 8525 10638 19163

Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.Elabore una tabla de frecuencias agrupadas por edad.

17

Page 18: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

1.1.2 Representación gráfica

Diagrama de Barras:Para el caso de distribuciones de frecuencias no agrupadas en intervalos, el diagrama de barras es el gráfico más empleado. Que se usa cuando se pretende resaltar la representación de porcentajes o frecuencias de datos que componen un total. Una gráfica de barras contiene barras verticales que representan valores numéricos. Las frecuencias están asociadas con categorías. Una gráfica de barras se presenta de dos maneras: horizontal o vertical. El objetivo es poner una barra de largo (alto si es horizontal) igual a la frecuencia. La gráfica de barras sirve para comparar y tener una representación gráfica de la diferencia de frecuencias o de intensidad de la característica numérica de interés. Si en vez de frecuencias simples utilizamos frecuencias acumuladas, tenemos el llamado diagrama de escalera.

Ejemplo. La población según condición de ocupación del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro: OCUPADOS DESOCUPADOS INACTIVOS TotalÁREA URBANA 10966 2832 8531 22329EL ZAPOTE 329 42 477 848LOS LLANITOS 2410 227 2550 5187 Total 13705 3101 11558 28364

Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

Elaborar un gráfico de barras para la población total de Ayutuxtepeque según su condición de ocupación.

Ejemplo. Con la información del VI Censo de Población y V de Vivienda, El Salvador, 2007, se han clasificado las mujeres de El Salvador de 12 años y más, según el número de hijos varones, resultando los siguientes datos.

18

Page 19: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Construir un gráfico de barras para el número de hijos varones de las mujeres salvadoreñas.

Gráfico de sectores:En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste en representar sobre un círculo los diferentes atributos, mediante un sector circular de ángulo proporcional a la correspondiente frecuencia. El ángulo de cada sector circular se calcula multiplicando por 360º la frecuencia relativa.

Los gráficos de sectores, también conocidos como diagramas de "tartas o pastel", se divide un círculo en tantas porciones como clases tenga la variable, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Si el número de categorías es excesivamente grande, la imagen proporcionada por el gráfico de sectores no es lo suficientemente clara y por lo tanto la situación ideal es cuando hay alrededor de cuatro categorías. En este caso se pueden apreciar con claridad dichos subgrupos.

En el caso de variables cualitativas el diagrama circular se utiliza con mucha frecuencia. Consiste en representar sobre un círculo los diferentes atributos, mediante un sector circular de ángulo proporcional a la correspondiente frecuencia. El ángulo de cada sector circular se calcula multiplicando por 360º la frecuencia relativa.

Ejemplo. La población según nivel de estudio del Municipio de Ayutuxtepeque se presenta en el siguiente cuadro:

ParvulariaPrimaria o básica

Educación media

Superior no universitaria

Técnico universitario

Superior universitaria Maestría Doctorado Total

1168 15895 6842 499 363 4556 70 7 29400Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.

Elaborar un gráfico de sectores.

Figura 2. Nivel educativo de la población de Ayutuxtepeque, por ciento.

19

N° Hijos Varones Madres

0 2782901 5094692 3391803 1770504 922335 509166 277917 150048 7328

9+ 7366

Page 20: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Histogramas y polígono de frecuencias.El histograma y el polígono de frecuencias son las representaciones gráficas usadas para distribuciones de frecuencias agrupadas en intervalos. El histograma se construye dibujando en cada clase un rectángulo de base la amplitud del intervalo y de altura se representan las frecuencias. Si desde el extremo superior de cada una de las barras que representan los intervalos de clase se hace una marca en el punto medio y luego se unen los puntos por línea recta se obtiene el polígono de frecuencias.

El polígono de frecuencias se lleva hasta el eje horizontal en los extremos hasta los puntos que serían los puntos medios si hubiera una clase adicional en cada extremo del histograma correspondiente. Esto permite que el área total quede incluida. Es decir, el área total bajo el polígono de frecuencias equivale al área bajo el histograma.Ejemplo: Estatura de los estudiantes de clase (ejercicio práctico)

Ejemplo:El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y 2008, para los municipios de Soyapango, Ilopango y San Martín.

Grupos de

edades

SOYAPANGO ILOPANGO SAN MARTÍN

Femenino Masculino Total Femenino Masculino Total Femenino Masculino TotalAÑO 2004

Total 15 167 182 12 78 90 11 42 53AÑO 2005

Total 14 228 242 5 74 79 11 75 86AÑO 2006

Total 16 246 262 15 69 84 6 48 54AÑO 2007

Total 20 179 199 10 67 77 8 71 79AÑO 2008

Total 10 128 138 9 66 75 7 54 61Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar el sexo, no aparecen registrados en el cuadro anterior.Utilizar la mejor representación gráfica para la información anterior (Diagrama de barras e histogramas)

20

Page 21: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Unidad 3. Medidas Características de una Distribución Cuantitativa Empírica.

1.1.3 Medidas de posición

Los promedios o medidas de posición proporcionan valores típicos o representativos de la variable en estudio. Podemos hablar de medidas de posición centrales, como la media (aritmética, geométrica y armónica), la mediana y la moda y medidas de posiciones no centrales, como los cuartiles, quintiles, deciles y percentiles.

La media aritmética es la medida de posición más utilizada (esta muy influenciada por los valores extremos de la variable). Viene definida como la suma de los datos divido por el número de ellos. Dependiendo de la naturaleza de los datos que pretendemos promediar, será conveniente el uso de otro tipo de medidas, como son la media geométrica (Todos los datos son positivos y hay mucha dispersión; ejemplo: porcentajes, tasas de crecimiento, razones, números índices, interés anual, inflación, etc.) y la media armónica (resulta poco influida por la existencia de determinados valores muy grandes que el conjunto de los otros, siendo en cambio sensible a valores muy pequeños), cuyas fórmulas se presentan en la siguiente tabla. Si a cada observación se le asigna un valor diferente, dado en forma de peso, y a continuación se calcula la media, nos encontramos con una media ponderada. La moda de un conjunto de valores es aquel valor que ocurre con más frecuencia. Si todos los valores son distintos, no hay moda, por otra parte, un conjunto de datos puede tener más de una moda.

Medidas de tendencia centralMedia aritmética

Media geométrica

Media armónica

Ejemplo (Media geométrica) Las tasas de interés de tres bonos son 5%, 7% y 4%.

La media geométrica es:

La G da una cifra de ganancia más conservadora porque no tiene una ponderación alta para la tasa de 7%.

21

Page 22: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

La mediana.

La mediana de una distribución de frecuencia corresponde al valor, supuesto los datos ordenados de menor a mayor, que deja a ambos lados el mismo número de observaciones. Para el caso de distribuciones agrupadas en intervalos se utiliza una fórmula aproximada. Se comienza calculando el intervalo donde se encuentra la mediana, para lo cual se calculan las frecuencias acumuladas, y se escoge el primer intervalo cuya frecuencia acumulada sea igual o superior a n/2. A continuación se aplica la fórmula:

Cuartiles, Deciles y Percentiles

Dados una serie de valores X1,X2,X3...Xn ordenados en forma creciente, los cuartiles son los tres valores que dividen al conjunto de datos ordenados en cuatro partes porcentualmente iguales.

Hay tres cuartiles denotados usualmente Q1, Q2, Q3. El segundo cuartil es precisamente la mediana. El primer cuartil, es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada); el tercer cuartil, es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos.

Para Datos No Agrupados

Si se tiene una serie de valores X1, X2, X3 ... Xn, se localiza mediante las siguientes fórmulas:

El primer cuartil:

Cuando n es par: 1*n/4 Cuando n es impar: 1*(n+1)/4

Para el tercer cuartil

Cuando n es par: 3*n/4 Cuando n es impar: 3*(n+1)/4

Quintiles Se representan con la letra K. Su fórmula aproximada es i*n/5.

El primer quintil. Separa a la muestra dejando al 20 % de los datos a su izquierda. El segundo quintil. Es el valor que indica que el 40 % de los datos son menores. El tercer quintil. Indica que el 60 % de los datos son menores que él. El cuarto quintil. Separa al 80 % de los datos inferiores del otro 20 %.

Deciles

22

Page 23: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Se representan con la letra D. Son 9 valores que distribuyen la serie de datos, ordenada de forma creciente o decreciente, en diez tramos iguales, en los que cada uno de ellos concentra el 10% de los resultados. Su fórmula aproximada es i*n/10.

Es el decil i-ésimo, donde la i toma valores del 1 al 9. El (i*10) % de la muestra son valores menores que él y el 100-(i*10) % restante son mayores.

Percentiles Se representan con la letra C. Su fórmula aproximada es i*n/100. Es el percentil i-ésimo, donde la i toma valores del 1 al 99. El i % de la muestra son valores

menores que él y el 100-i % restante son mayores.

Para Datos Agrupados

Cuando los datos no están agrupados en intervalos los cuartiles, así como el resto de las medidas de posición, tienen un valor claro, tal como se ha descrito anteriormente. Sin embargo, cuando tenemos una agrupación de los datos ya no es tan sencillo realizar el cálculo. Sí que resulta claro ver en cuál de los intervalos está el cuartil (quintil, decil o percentil) buscado, pero para calcular su valor aproximado necesitaremos usar una fórmula. El cálculo es similar al de la mediana, hay que empezar calculando el intervalo cuya frecuencia acumulada sea igual o mayor que el valor jn/k, para a continuación aplicar la fórmula:

donde k = 4 (j = 1, 2, 3) para los cuartiles, k = 10 (j = 1, 2, . . . , 9) para los deciles, k=100 (j= 1, 2, . . . , 99) para los percentiles.

1.1.4 Medidas de DispersiónLas medidas de dispersión estudian la separación existente entre los diversos valores que toma la variable. Se dividen en medidas de dispersión absoluta y relativa. Las absolutas suelen hacer referencia a un promedio, y permiten estudiar su representatividad. Este tipo de medidas depende de las unidades, lo que es un inconveniente para realizar comparaciones entre poblaciones. En este sentido, las medidas de dispersión relativas no dependen de las unidades y permiten comparar variabilidad entre poblaciones.

El rango estadístico, también llamado amplitud o recorrido, es la diferencia entre el valor máximo y el valor mínimo en un grupo de números. Para averiguar el rango de un grupo de números:

Ordenamos los números según su tamaño. Restamos el valor mínimo del valor máximo.

Con el objeto de que no exista dependencia de los valores extremos, se introduce el recorrido intercuartílico, que es la semidiferencia entre el tercer y el primer cuartil:

23

Page 24: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Se define también la desviación absoluta media como la media de los valores absolutos de las diferencias de los datos a la media, es decir:

Varianza, desviación típica y coeficiente de variación

La varianza es una medida de dispersión que sirve para estudiar la representatividad de la media. Viene definida como la media de las diferencias cuadráticas de las puntuaciones respecto a su media aritmética:

Una varianza “grande” es indicativa de que la media no es representativa, mientras que una varianza “pequeña” indica que la media es un buen representante de los datos. Con el objeto de tener una medida de dispersión similar a la varianza, pero que venga medida en las mismas unidades de la variable, se define la desviación típica como la raíz cuadrada positiva de la varianza:

La relación entre la varianza de una variable X y la de una nueva variable definida como a+bX es:

Por lo tanto, si a los datos de la distribución les sumamos una cantidad constante la varianza no se modifica y si multiplicamos por una constante, la varianza queda multiplicada por el cuadrado de esa constante.

En ocasiones puede interesar comparar la dispersión de dos muestras y la desviación típica no ser válida, si las dos muestras tienen unidades diferentes. Para obviar este inconveniente se define el coeficiente de variación:

Que no depende de cambios de escala en la variable.

1.1.5 Medidas de forma

Este tipo de medidas permite conocer la forma de la distribución sin necesidad de recurrir a su representación gráfica. Existen dos tipos de medidas de forma: Asimetría y curtosis. Para clasificar la distribución según estas medidas, se establece en ambos casos una tipología de distribuciones. Una variable se dice que es simétrica si al “doblar” la distribución respecto a un eje (centro de simetría), las frecuencias coinciden. Caso contrario se dice que la distribución es asimétrica positiva o negativa,

24

Page 25: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

dependiendo que la rama larga de la distribución se encuentra en el sentido positivo o negativo del eje de las x. La medida más popular de asimetría es el coeficiente de asimetría de Fisher, que viene dado por:

Este coeficiente es invariante frente a cambios de origen y de escala.

Cuya interpretación es: Si g1 = 0, la distribución es simétrica. Si g1 > 0, la distribución es asimétrica positiva Si g1 < 0, la distribución es asimétrica negativa.

El coeficiente de curtosis trata de estudiar la concentración de frecuencias en la zona central de la variable, de modo que variables con curtosis alta (leptocúrticas) tienen forma alargada y variables con curtosis baja tienen forma aplanada (platicúrticas). La comparación se realiza respecto a una distribución “moderada” como es la distribución normal (mesocúrtica). El coeficiente de curtosis viene dado por:

Que se interpreta del siguiente modo:Si g2 = 0, la distribución es mesocúrtica o normal.Si g2 > 0, la distribución es leptocúrtica o por encima de lo normal.Si g2 < 0, la distribución es platicúrtica o por debajo de la normal.

Al igual que el coeficiente de asimetría de Fisher, el coeficiente de curtosis es invariante frente a cambios de origen y de escala.

1.1.6 Ejercicios.

1. Se ha realizado una encuesta en 30 hogares en la que se les pregunta el nº de individuos que conviven en el domicilio habitualmente. Las respuestas obtenidas han sido las siguientes: 4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias

absolutas, relativas y sus correspondientes acumuladas.b) ¿Qué proporción de hogares está compuesto por tres o menos personas? ¿Qué

proporción de individuos vive en hogares con tres o menos miembros?c) Dibuje el diagrama de barras de frecuencias y el diagrama en escalera.

25

Page 26: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

2. Una entidad bancaria dispone de 50 sucursales en el territorio nacional y ha observado el número de empleados que hay en cada una de ellas para un estudio posterior. Las observaciones obtenidas han sido: 12, 10, 9, 11, 15, 16, 9, 10, 10, 11, 12, 13,14,15, 11, 11, 12, 16, 17, 17,16,16, 15, 14, 12, 11, 11, 11, 12, 12, 12, 15, 13, 14, 16, 15, 18, 19, 18, 10, 11, 12, 12, 11, 13, 13, 15, 13, 11, 12.

a) Calcule la distribución de frecuencias de la variable obteniendo las frecuencias absolutas, relativas y sus correspondientes acumuladas.

b) ¿Qué proporción de sucursales tiene más de 15 empleados?c) Dibuje el diagrama de barras y el diagrama en escalera correspondientes.d) Agrupe en intervalos de amplitud 3 los valores de la variable, calcule su distribución de

frecuencias y represente su histograma y su polígono de frecuencias.

3. Los siguientes valores son los niveles de glucosa en sangre extraída a 100 niños en ayunas:

56

61

57

77

62

75

63

55

64

60

60

57

61

57

67

62

69

67

68

59

65

72

65

61

68

73

65

62

75

80

66

61

69

76

72

57

75

68

81

64

69

64

66

65

65

76

65

58

65

64

68

71

72

58

73

55

73

79

81

56

65

60

65

80

66

80

68

55

66

71

72

73

73

75

75

74

66

68

73

65

73

74

68

59

69

55

67

65

67

63

67

56

67

62

65

75

62

63

63

59

a) Elabore una distribución de frecuenciasb) Un histograma y un polígono de frecuencias.4. Los siguientes datos representan las ventas de tabaco en España durante el año 1992,

en millones de cajetillas, según marcas:

Marcas VentasDucadosFortunaMarlboroWinston (1)Lucky Strike (1)ChesterfielOtros marcas

1,1071,041535333164110725

26

Page 27: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

a) Calcular el porcentaje de ventas de cada marca sobre el total.b) Representar los datos anteriores mediante un diagrama circular

5. Se ha realizado un estudio entre 100 mujeres mayores de 15 años y el número de hijos de las mismas. El resultado ha sido:

Xi: Nº hijos ni: Nº mujeres0123456

132025201174

Se pide:a) Calcular el número medio de hijos, la mediana y la moda.b) Calcular los cuartiles y el decil 7.c) Analizar la dispersión de la distribución, interpretando los resultados.d) Analizar la forma de la distribución calculando los coeficientes correspondientes. Comente los resultados.

6. La siguiente distribución expresa el número de vehículos vendidos durante un mes por cada uno de las 50 sucursales que una determinada firma tiene en El Salvador:

xi: número devehículos vendidos

ni: númeroSucursales

1346

10

5122085

Se pide:a) Media aritmética, mediana y moda. ¿Qué puede decir de la asimetría de la distribución con estos datos?b) Desviación típica, Coeficientes de asimetría de Fisher y curtosis. Comente los resultados.

7. La siguiente tabla recoge la cifra de ventas (en miles de millones) y el número de empleados (en miles) de las diez mayores empresas del sector de automóvil durante el año 1989:

Empresa Ventas PlantillaSEATFasa RenaultGeneral MotorsFordCitroen

457.3449.7372.7356.1224.6

23.819.29.49.57.6

27

Page 28: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

PeugeotNissanMercedes BenzENASA

198.0161.1110.797.3

6.76.63.45.5

a) Calcular las ventas medias y el número medio de empleados.b) ¿Dónde existe mayor homogeneidad, en las ventas o en la plantilla?c) Calcular las ventas medias por empleado.

8. Una empresa dedicada al cultivo y explotación de naranjos posee 5 fincas. La producción de naranjas y el rendimiento medio por hectárea para cada una de las fincas están dados en la siguiente tabla. Calcular el rendimiento medio por hectárea para el total de las 5 fincas.

Producción (Tm) Rendimiento (Tm/Ha)Finca 1Finca 2Finca 3Finca 4Finca 5

15520830

9210420

Solución.

El rendimiento medio por hectárea en el total de la fincas vendrá dado por el cociente entre el total de la producción y el total de hectáreas. Esta última cantidad la podemos calcular como cociente producción/rendimiento en cada finca:

= 8.07 Tm/hectárea.

Observe que la fórmula aplicada coincide con la media armónica de los rendimientos ponderados por la producción de cada fila.

8. La primera etapa de un rally consta de 4 tramos cronometrados. En cada uno de los 4 tramos, un determinado piloto ha alcanzado las siguientes velocidades medias:

Distancia (km) Velocidad media (km/h)Tramo 1Tramo 2Tramo 3Tramo 4

20101530

120708090

Calcular la velocidad media total alcanzada por el piloto en la primera etapa del rally. Solución.La velocidad media total vendrá dada por el cociente entre el total de la distancia y el tota del tiempo:

28

Page 29: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

= 90.32 Km/hora.

Observe que la fórmula aplicada vuelve a ser la media armónica, de las velocidades ponderadas por la distancia de cada tramo.

29

Page 30: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Unidad 4. Distribuciones Bivariadas4.1 Distribuciones bidimensionalesSupongamos que en una población, y para un conjunto de n individuos, se miden dos caracteres X e Y:

En este caso tenemos una variable estadística bidimensional o distribución bidimensional de frecuencias, la cual representaremos por (X, Y). Cuando se cuenta con una gran cantidad de datos, un modo de presentar la distribución bidimensional es a través de una tabla de doble entrada de la forma:

Tabla de doble entradaX / Y Total

.

.

.

.

.

.

. . . .

. . . .

. . . .

. . . .

. . . .

. . . .

.

.

.

.

.

.

Total n

Donde los valores de X e Y pueden venir dados en intervalos, al igual que en el caso de una dimensión. En el caso de que las dos variables sean atributos, la tabla anterior recibe el nombre de tabla de contingencia.

La representación gráfica más utilizada en el caso bidimensional es la nube de puntos o diagrama de dispersión. Consiste en representar cada pareja de datos como un punto sobre unos ejes cartesianos.

4.1.1. Distribuciones marginales y condicionales.Dada una variable estadística bidimensional, las distribuciones marginales permiten estudiar de un modo aislado cada una de las componentes. A partir de una tabla de doble entrada, las distribuciones de frecuencias marginales se obtienen sumando las frecuencias de la tabla por filas y por columnas.

Distribuciones marginales de X e Y. X Y

.

.

.

.

.

.

.

.

.

.

. .

30

Page 31: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Las distribuciones condicionadas permiten estudiar el comportamiento de una de las variables cuando la otra permanece constante. Vienen dadas por:

Distribuciones condicionadas de X e Y. X/Y= Y/X=

.

.

.

.

.

.

.

.

.

.

. .

Ejemplo:Se desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un estudio de 100 explotaciones ganaderas, seleccionadas aleatoriamente del censo agropecuario. Se proporcionan las frecuencias conjuntas del número de cabezas (en miles) de cabras (X) y ovejas (Y) que poseen las explotaciones.

X\Y 0 1 2 3 40 4 6 9 4 1

1 5 10 7 4 22 7 8 5 3 13 5 5 3 2 14 2 3 2 1 0

a) Hallar las medias, varianzas y desviaciones típicas marginales.b) Hallar el número medio de cabras condicionado a que en la explotación hay 2,000 ovejas.c) Hallar el número medio de ovejas que tienen aquellas explotaciones que sabemos que no tienen

cabras.d) Hallar la covarianza y el coeficiente de correlación entre ambas variables.

Solución:

Primero completar la tabla anterior con las distribuciones de frecuencias de X e Y.

X\Y 0 1 2 3 40 4 6 9 4 1 24

1 5 10 7 4 2 282 7 8 5 3 1 243 5 5 3 2 1 164 2 3 2 1 0 8

23 32 26 14 5 100

31

Page 32: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

a) La media de X es:

= 156/100= 1.56

La varianza de X es:

= 1.5264

La desviación típica (Estándar) es la raíz cuadrada positiva de la varianza, es decir:

=1.2355

Observe que la media muestral es un buen representante de los datos, ya que la desviación estándar no es demasiado alta.

Para completar el literal a) debe obtenerse la media, varianza y desviación estándar para la variable Y.

b) El número medio de ovejas condicionado a que en la explotación hay 2,000 cabras, se obtiene manteniendo fija la columna donde la variable Y es igual a 2. Esto es:

= 1.3077

c) De forma análoga al literal b) (la media de Y es 1.46)

d) La covarianza entre X e Y está dada por:

= -

0.1876

4.1.2. Coeficiente de correlación lineal

Consideremos una variable estadística bidimensional (X, Y) donde X e Y son de tipo continuo y suponemos que existe entre ellas algún tipo de relación, constatable mediante la correspondiente representación gráfica. Pregunta: ¿Cómo de grande es la relación entre X e Y y cómo cuantificarla? El coeficiente de correlación lineal es un valor que permite estudiar el grado de dependencia lineal existente entre X e Y. Viene definido por:

32

Page 33: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

El término se denomina covarianza. Una propiedad importante del coeficiente de correlación es que no depende de cambios de origen y escala, y su valor siempre está comprendido entre -1 y 1:

De modo que valores de r cercanos a 1 indican una dependencia lineal y positiva entre las dos variables, y valores de r cercanos a -1 indican dependencia lineal negativa. Cuando el valor de r está cercano a cero, no existe dependencia lineal entre X e Y. Esto último puede ser, bien porque X e Y son variables independientes, o bien porque la dependencia existente entre ambas variables es de otro tipo diferente al lineal.

4.2. Distribuciones Bivariadas de dos variables cuantitativas

4.2.1. INTRODUCCIÓN AL MODELOS DE REGRESIÓN LINEAL

Los modelos de regresión lineal constituyen una poderosa herramienta para analizar la relación existente entre la pauta de

variabilidad de una variable aleatoria y los valores de una o más variables (aleatorias o no) de las que la primera depende o

puede depender. El modelo fundamental se esquematiza en la siguiente tabla.

Tabla 1 Datos del problema

33

Variables a explicar

(aleatoria)

Variables o factores explicativos

(aleatorios o no)

Y1 X11 …Xi1….XIn

----

Yj X1i …Xii….Xin

----

Yn X1n …Xin….Xnn

Observaciones

Page 34: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Se trata en general de estudiar las posibles relaciones existentes entre la distribución de y los valores de las . A la se

le denomina generalmente la variable dependiente, mientras que frecuentemente a se les llama variables independientes o

exógenos del modelo, aunque se prefiere denominarlas variables explicativas.

Los gráficos de dispersión son útiles debido a que proporcionan información sobre la relación existente entre las variables,

permiten sugerir modelos posibles, pueden señalar la existencia de observaciones atípicas, etc.

EJEMPLO 1. Analicemos la relación que existe entre el peso y la estatura según el sexo en el siguiente diagrama de

dispersión. 1: Hombres, 2: Mujeres. ESTAPESO.xls

Figura1 Diagrama de dispersión ESTATURA-PESO.

El diagrama presenta claramente, una relación positiva entre las dos variables estudiadas, que se refleja en una nube de

puntos cuyo eje principal tiene un sentido creciente, como consecuencia del hecho de que, en términos generales, los

individuos más altos pesan más que los más bajos. El diagrama también pone de manifiesto que las mujeres tienen en general

34

Page 35: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

valores menores de ambas variables que los hombres, pero que la relación entre PESO Y ESTATURA es bastante similar en

ambos sexos.

Covarianza. Coeficiente de Correlación

Con el objetivo de dar una idea intuitiva del concepto de covarianza, razonemos el siguiente diagrama de dispersión,

correspondiente a las variables: TEMPERATURA-COSTO, en la que las rectas horizontal y vertical sobre el conjunto de

puntos corresponden a los valores medios (42.83, 79.25).

En este caso, existe claramente una fuerte relación negativa, la mayor parte de los puntos caen en los cuadrantes II Y IV.

Cuando la relación existente sea positiva la mayoría de los puntos caerán en los cuadrantes I y III

Si consideramos para cada punto del diagrama el signo que tiene el producto vemos que éste resulta

positivo en los cuadrantes I y III y negativo en los cuadrantes II Y IV. Por lo tanto el producto anterior será en promedio

positivo si existe una relación creciente entre las dos variables (es decir, si la Y tiende a crecer cuando lo hace la X) y

negativo si la relación existente es decreciente.

Por definición la covarianza entre dos variables no es más que el promedio de los productos de las desviaciones de ambas

variables respecto a sus medias respectivas. De forma similar a como se procedió a definir la varianza, el promedio se calcula

dividiendo por n-1 en vez de n.

.

35

Page 36: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

La covarianza presenta el inconveniente de que depende de las dimensiones en que se expresan las variables. Así la

covarianza entre TEMPERATURA y COSTO será mayor si se mide la temperatura en grados kelvin que si se mide en

Fahrenheit. Para obviar este problema se utiliza universalmente en Estadística, como grado de relación lineal entre dos

variables, el coeficiente de correlación lineal que no es más que la covarianza dividida por el producto de las desviaciones

típicas de las dos variables. . Se puede demostrar que el coeficiente de correlación lineal está siempre

comprendido entre -1 y 1. Los valores extremos sólo los toma en el caso de que los puntos del diagrama de dispersión estén

alineados exactamente en línea recta. Cuanto más estrecho es el grado de relación lineal existente entre dos variables más

cercano a 1 es el valor de r (o a -1 si la relación es decreciente). Por el contrario un valor de r nulo o cercano a cero indicará

una relación lineal inexistente o nula.

OBSERVACIONES

En general cuanto más estrechamente se agrupen los puntos del diagrama de dispersión alrededor de una recta más

fuerte es el grado de relación lineal existente entre las dos variables consideradas.

Es importante resaltar que tanto la covarianza como el coeficiente de correlación miden sólo el grado de relación

lineal existente entre dos variables. Dos variables pueden tener una relación estrecha y sin embargo resultar r

cercano a cero por ser dicha relación no lineal.

Es importante del conocimiento no estadístico del problema al momento de hacer predicciones.

EJERCICIO 1.

Dada una alta inflación, el señor Chávez ha cuidado mucho de su presupuesto. Como su casa tiene calefacción eléctrica, llevó

un registro de la cuenta del consumo mensual de energía eléctrica durante el año pasado y del promedio mensual de la

temperatura exterior. Los datos aparecen en la siguiente tabla. La temperatura está dada en grados Celsius y el costo de la

energía está en dólares. TEMPERACOSTO.xls.

Tabla2. Registro mensual: TEMPERATURA-COSTO.

Mes Temperatura Promedio costo de energía

Enero 10 120

Febrero 18 90

Marzo 35 118

Abril 39 60

Mayo 50 81

Junio 65 64

Julio 75 26

Agosto 84 38

Septiembre 52 50

Octubre 40 80

Noviembre 25 100

36

Page 37: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Diciembre 21 124

Identificar las variables, dependiente y explicativa. Hacer sus conjeturas de la relación entre las variables a partir del

siguiente gráfico y calcular la y .

37

Page 38: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Figura 2. Diagrama de dispersión TEMPERATURA- COSTO.

Correlations

TEMPERATURA COSTO

TEMPERATURA Pearson Correlation 1 -.863**

Sig. (2-tailed) .000

Sum of Squares and Cross-products 5929.667 -7188.500

Covariance 539.061 -653.500

N 12 12

COSTO Pearson Correlation -.863** 1

Sig. (2-tailed) .000

Sum of Squares and Cross-products -7188.500 11710.250

Covariance -653.500 1064.568

N 12 12

**. Correlation is significant at the 0.01 level (2-tailed).

RUTA:Analyze>Correlate>Bivariate (En variables trasladar TEMPERATURA, COSTO)>Opciones (Seleccionar los

estadísticos, Exclude cases pairwise)>Continue>Ok

38

Descriptive Statistics

Mean Std. Deviation N

TEMPERATURA 42.83 23.218 12

COSTO 79.25 32.628 12

Page 39: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

4.2.2. MODELO DE REGRESIÓN SIMPLE.En este tipo de regresión se desea caracterizar el efecto lineal de una única variable explicativa sobre la variable respuesta.

Los pasos para efectuar un análisis son los siguientes (JURAN y GRYNA, 1997, cap. 23):

1. Representación gráfica de datos

2. Planteamiento del modelo

3. Estimación de la ecuación de predicción

4. Examen de la adecuación del modelo lineal

5. Intervalos de confianza para la estimación

En este apartado se explica el modelo de regresión lineal simple, un modelo con un solo regresor x que tiene una relación con

una respuesta y, donde la relación es una línea recta. Este modelo de regresión lineal simple es:

(Modelo poblacional de regresión)

Donde la ordenada al origen y la pendiente son constantes desconocidas, y es una componente aleatorio del error.

Se supone que los errores tienen promedio cero y varianza desconocida. Además se suele suponer que los errores no están

correlacionados. Esto quiere decir que el valor de un error no depende del valor de cualquier otro error.

4.2.2.14.2.2.1 Estimación de los parámetros por mínimos cuadradosEstimación de los parámetros por mínimos cuadrados

Los parámetros y son desconocidos, y se debe estimar con los datos de la muestra. Supongamos que hay n pares de

datos: . Estos datos pueden obtenerse en un experimento controlado, diseñado en forma

especifica para recolectarlos, o en un estudio observacional, o a partir de registros históricos existentes (lo que se llama un

estudio retrospectivo).

Estimación de y

Para estimar y se utiliza el método de mínimos cuadrados. Esto es, se estima y tales que la suma de los

cuadrados de las diferencias entre las observaciones y la línea recta sea mínima. La ecuación se puede escribir

(Modelo muestral de regresión), escritos en términos de los n pares de datos ,

. Así el criterio de mínimos cuadrados es:

. Los estimadores por mínimos cuadrados de y , que se designarán por y

, deben satisfacer

y Simplificando estas

dos ecuaciones se obtiene:

39

Page 40: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

;

Que son las llamadas ecuaciones normales de mínimos cuadrados. Su solución es la siguiente: ;

, en donde son los promedios de

respectivamente. Por consiguiente, , son los estimadores por mínimos cuadrados. El modelo ajustado de

regresión lineal simple es entonces: .Esta ecuación produce un estimado puntual, de la media de y para

una determinada x.

Otra forma más compacta de escribir , donde:

La diferencia entre el valor observado y el valor ajustado correspondiente se llama residual, matemáticamente el

i-ésimo residual es: .

Tiene un papel importante para investigar la adecuación del modelo de regresión ajustado.

LOS SIGUIENTES APARTADOS SON OPCIONALES, NO SERÁN CONSIDERADOS EN LA EVALUACIÓN

4.2.2.2. Propiedades de los estimadores por mínimos cuadrados y el 4.2.2.2. Propiedades de los estimadores por mínimos cuadrados y el modelo ajustado de regresión.modelo ajustado de regresión.

Tenemos que:

40

Page 41: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Son combinaciones lineales de , entonces se puede escribir,

;

Se supone: , se demuestra:

41

Page 42: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Propiedades útiles.

1. 2.

3. La línea de regresión de mínimos cuadrados siempre pasa por el centroide de los datos que es el punto

4.

5.

42

Page 43: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Estimación de

Además de estimar , se requiere estimar . Se obtiene de la suma de cuadrados

residuales, o suma de cuadrados del error.

Pero

La suma de cuadrados residuales tiene n-2 grados de libertad, porque 2 grados de libertas se asocial con

los estimados y que se usan para obtener . El estimador insesgado de es:

(Cuadrado Medio Residual)

43

Page 44: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Error estándar de regresión.

Es un estimado de dependiente del modelo.

4.2.3. Prueba de hipótesis

4.2.2.3. Prueba de hipótesis de la pendiente y de la ordenada al 4.2.2.3. Prueba de hipótesis de la pendiente y de la ordenada al origen.origen.

Uso de la prueba t

Supongamos que deseamos probar que la pendiente es igual a una constante.

Es una combinación lineal de las observaciones, y está distribuida normalmente.

(Promedio de ); (Varianza de )

Estadístico:

Como se desconoce, es un estimador insesgado de .

Tiene una distribución

Son independientes.

Estadístico t (Definición)

Si

Son independientes, entonces:

44

Page 45: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Denótese a : Como el error estándar estimado o error estándar de la pendiente,

entonces . Se rechaza la hipótesis nula si .

También se puede usar el método del valor P para la toma de decisiones.

Hipótesis para la ordenada al origen.

;

Error estándar de la ordenada al origen.

Se rechaza la hipótesis nula sí .

Nota: El que una variable no sea significativa no quiere decir que en realidad no lo es, es necesario el

conocimiento no estadístico del problema para determinar por ejemplo si los intervalos de los datos fue el

adecuado.

Prueba de significancia de la regresión.

El no rechazar implica que no hay relación lineal entre x e y.

“X tiene muy poco valor para explicar la variación de Y, por lo tanto el mejor estimador para cualquier x

es

“La verdadera relación entre x e y no es lineal”

Si se rechaza , explica que x tiene valor para explicar la variabilidad de y. Rechazar

podría equivaler a que:

“El modelo de línea recta es adecuado”

“Aunque hay un efecto lineal en x se podrían obtener mejores resultados agregando términos

polinomiales en x”.

El procedimiento de prueba para se puede establecer con dos métodos.

Método I. Estadístico t.

La hipótesis de la significancia de la regresión. Se rechazara si

Método II. Análisis de varianza.

45

Page 46: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

También se puede usar un método de análisis de varianza para probar el significado de la regresión. Este

análisis se basa en una partición de la variabilidad total de la variable respuesta.

Luego,

: Suma de cuadrados totales con n-1 grados de libertad.

: Suma de cuadrados de regresión con 1 grado de liberad

: Suma de cuadrados de residuos con n-2 grados de libertad.

Como Y , entonces

La cantidad de grados de libertad se determina como sigue: la suma total de cuadrados ,

tiene n-1 grados de libertad porque perdió un grado de libertad como resultado de la restricción

para las desviaciones .

La suma de cuadrados del modelo, o de la regresión queda completamente determinada

por un parámetro, que es , por ello tiene un grado de libertad.

tiene n-2 grados de libertad porque se imponen dos restricciones a las desviaciones

como resultado de estimar y .

Se puede aplicar la prueba F normal del análisis de varianza para probar la hipótesis

1)

2) Si es cierta,

3) y son independientes.

46

Page 47: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

. Se rechaza si .

El análisis de varianza para probar el significado de la regresión se resume de la siguiente manera:

Fuente de variación Suma de cuadrados Grados de libertad Media de cuadrados Fo

Regresión 1

Residual n – 2

Total n -1

Viene de la prueba t;

4.2.2.4.4.2.2.4. Intervalos de confianzaIntervalos de confianzaIntervalos de confianza de

Si los errores se distribuyen en forma normal e independiente, entonces la distribución de muestreo tanto

de y es t con n-2 grados de libertad.

Un intervalo de confianza de para es:

Un intervalo de confianza de para es:

47

Page 48: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Estimación de intervalos de la respuesta media.

Una aplicación importante de un modelo de regresión es estimar la respuesta media, , para

determinado valor de la variable regresora x.

Sea el valor o nivel de la variable regresora para el que se desea estimar la respuesta media, es decir,

. Se supone que es cualquier valor de la variable regresora dentro del intervalo de los datos

originales de x que se usaron para ajustar el modelo. Un estimador insesgado de se determina a

partir del modelo ajustado como sigue:

Para obtener un intervalo de confianza de para , se debe notar primero que

es una variable aleatoria normalmente distribuida, porque es una combinación lineal de las

observaciones . La varianza de es:

La distribución de muestreo de:

es una distribución t, con

n-2 grados de libertad.

Un intervalo de confianza de para la respuesta media en el punto es:

48

Page 49: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Nótese que el ancho del intervalo de confianza para es una función de . El ancho del intervalo

es mínimo para , y crece a medida que aumenta .

Las mejores estimaciones de y se hacen con valores de x cerca del centro de los datos.

4.2.2.5.4.2.2.5. Predicción de nuevas observacionesPredicción de nuevas observaciones

Una aplicación importante del modelo de regresión es predecir nuevas observaciones y que correspondan

a un nivel especificado de la variable regresora x. Si es el valor de interés de la variable regresora,

entonces: es un estimador puntual del nuevo valor de la respuesta .

A continuación se obtendrá un estimado del intervalo para esta observación futura .

Sea , con distribución normal con media cero y varianza.

El resultado de predicción de de confianza para una observación futura en es:

Lo anteriormente expuesto se puede observar en el siguiente gráfico que muestra las bandas de confianza

y de predicción para un conjunto de datos.

49

Page 50: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

El intervalo de predicción en siempre es más ancho que el intervalo de confianza en , porque el

intervalo de predicción depende tanto del error del modelo ajustado como el error asociado con

observaciones futuras.

Coeficiente de determinación.

La cantidad . Se llama coeficiente de determinación.

Y su valor esperado:

: es una medida de variabilidad de y sin considerar el efecto de la variable regresora

x.

: es una medida de variabilidad de y que queda después de haber tenido en

consideración a x.

: Proporción de la variación explicada por el regresor x.

Ya que .

Regresión por el origen

EL modelo sin ordenada al origen es: . Dadas las n observaciones , la

función de mínimos cuadrados es:

Siguiendo el proceso por mínimos cuadrados:

EL modelo de regresión ajustado es: .

El estimador de es:

Los intervalos de confianza son:

50

Page 51: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Para una observación futura:

Modelo con ordenada al origen

Modelo sin ordenada al origen:

A veces, el diagrama de dispersión proporciona una guía para decidir si se ajusta o no el modelo sin

ordenada al origen. También, se pueden ajustar ambos modelos y escoger entre ellos de acuerdo con la

calidad del ajuste obtenido. Si no se puede rechazar la hipótesis en el modelo sin ordenada al

origen, quiere decir que se puede mejorar el ajuste si se usa es modelo.

El cuadrado medio de residuales es una forma útil de comparar la calidad del ajuste. El modelo que tenga

el cuadrado medio residual menor, es el mejor ajuste.

En general, no es un buen estadístico para comparar los dos modelos.

4.3. TRANSFORMACIONES PARA LINEALIZAR UN MODELO.

A partir de un diagrama de dispersión o de la teoría sobre ciertas funciones, podemos conocer que la

relación entre las dos variables puede representarse adecuadamente solo por cierta función matemática

curvilínea (no lineal), por ejemplo la tendencia general del crecimiento poblacional sigue un modelo

exponencial positivo, el decaimiento radioactivo sigue un modelo exponencial negativo, etc. En algunos

casos una función no lineal se puede lineal izar con una transformación adecuada.

Función linealizable Transformación Forma lineal

51

Page 52: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

EJEMPLO. Los datos siguientes se obtuvieron de observaciones periódicas hechas durante el crecimiento

de una población de células de levadura. Se efectuaron recuentos cada dos horas.

El gráfico de dispersión muestra que los datos provienen de una función exponencial Con el

fin de transformar la curva en recta conviene hacer la transformación, tomamos los logaritmos

de las células.: RUTA: Transform>Compute Variable (LOGNATURAL)>

Seguidamente se verifica por medio de un gráfico de dispersión si la transformación es adecuada

RUTA:Graphs>Legacy Dialogs>Simple Scatter>Define (Y: LOGNATURAL;X: Horas>

n Horas (X)

Número de células(Y)

1 2 192 4 373 6 724 8 1425 10 2956 12 5847 14 995

n Horas (X)

Número de células (Y)

Ln (Y)

1 2 19 2.9444392 4 37 3.6109183 6 72 4.2766664 8 142 4.9558275 10 295 5.6869756 12 584 6.3699017 14 995 6.902743

52

Page 53: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Como se esperaba, hoy los datos se ajustan a una línea recta. El proceso manual para obtener la ecuación

de predicción es el mismo que el de regresión simple. En SPSS se obtiene siguiendo la RUTA:

Analyze>Regression> Linear (Dependent: LOGNATURAL, Independent: Horas>Ok

ANOVAb

Model Sum of Squares Df Mean Square F Sig.

1 Regression 12.627 1 12.627 4936.297 .000a

Residual .013 5 .003

Total 12.640 6

a. Predictors: (Constant), Horas

b. Dependent Variable: LOGNATURAL

Coefficientsa

Model

Unstandardized Coefficients

Standardized

Coefficients

t Sig.

95% Confidence Interval for

B

B Std. Error Beta Lower Bound Upper Bound

1 (Constant) 2.278 .043 53.287 .000 2.168 2.388

Horas .336 .005 .999 70.259 .000 .323 .348

a. Dependent Variable: LOGNATURAL

El modelo lineal encontrado es entonces: . Para determinar el modelo

ajustado a los datos originales, se debe considerar la transformación y su modelo lineal:

. Resolviendo: , entonces .

53

Page 54: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Finalmente, el modelo ajustado es: .

Las pruebas de idoneidad para el modelo se discutirán posteriormente.

En el análisis, éste caso se conoce el orden en que fueron recolectados los datos, y debe hacerse para

determinar si hay dependencia de los residuos con la secuencia del tiempo de recolección

Para realizar una regresión no lineal mediante SPSS tenemos que elegir los menús

Analize>Regression>Curve Estimation.

Este menú nos da la opción de calcular los siguientes modelos de regresión.

Lineal,

Logarítmica,

Inversa

Cuadrático

Cubico.

Potencia. o

Compuesto o

Curva S o

54

Page 55: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Crecimiento o

Exponencial o

Para el caso anterior, elegimos exponencial, y los resultados son los siguientes:

Model Summary

R R SquareAdjusted R

SquareStd. Error of the

Estimate

.999 .999 .999 .051

The independent variable is Horas.ANOVA

Sum of Squares df Mean Square F Sig.

Regression 12.627 1 12.627 4936.297 .000Residual .013 5 .003Total 12.640 6

The independent variable is Horas.

Coefficients

Unstandardized CoefficientsStandardized Coefficients

t Sig.B Std. Error Beta

Horas .336 .005 .999 70.259 .000(Constant) 9.755 .417 23.394 .000

The dependent variable is ln(células).

55

Page 56: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Ejercicios.

1. Determine una ecuación que describa la relación entre la frecuencia de accidentes y el nivel de educación preventiva

X Y XY X2

150 8.00 1200 22500200 7.00 1400 40000300 6.50 1950 90000450 5.20 2340 202500500 6.40 3200 250000600 4.40 2640 360000800 4.00 3200 640000900 3.10 2790 810000

3900 44.60 18720 2415000

2. Una compañía que tiene 15 tiendas ha recopilado datos en relación con los metros cuadrados de área de ventas respecto a los ingresos mensuales. Trace una gráfica de los datos, y si parece apropiado un modelo lineal determine la ecuación de regresión.

3. Determine una ecuación predictiva para calcular el monto del seguro, en función del ingreso anual para los siguientes datos:

Tienda Metros 2 Ingreso  X Y XY X2

a 55 45 2475 3025o 80 60 4800 6400j 85 75 6375 7225e 90 75 6750 8100k 90 80 7200 8100d 110 95 10450 12100n 130 95 12350 16900g 140 110 15400 19600c 180 120 21600 32400l 180 105 18900 32400b 200 115 23000 40000i 200 130 26000 40000h 215 140 30100 46225f 260 170 44200 67600

m 300 200 60000 9000015 2315 1615 289600 430075

56

Page 57: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Ingreso Prima

X Y XY X2

13 5 65 16916 15 240 25617 20 340 28918 10 180 32420 10 200 40025 12 300 62526 15 390 67632 30 960 102438 40 1520 144440 50 2000 160042 40 1680 1764287 247 7875 8571

57

Page 58: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Unidad 5. Los Valores Relativos

5.1. Razones, Proporciones, Porcentajes y Tasas.

Razón: El valor considerado como numerador no debe estar considerado en el denominador, en consecuencia la razón puede ser un número superior o inferior a la unidad.

Ejemplo: Supongamos que el número de personas que visitan un centro comercial, en un día cualquiera es 7,000, de las cuales 4,200 son mujeres y 2,800 son hombres. Obtener la razón de mujeres respecto a los hombres.

Solución:La razón o relación = 4200/2800 = 1.5, indica que las mujeres frecuentan ese centro comercial en un 50% más que los hombres.

Proporciones:Las proporciones se hacen para dar cuenta de la fracción que representa cada uno de los subconjuntos que componen el conjunto total. Por ejemplo, los subconjuntos formados por niños, jóvenes, adultos, y ancianos si, respectivamente, los comparamos con la totalidad del conjunto daremos cuenta de la proporción respectiva de cada uno de los subconjuntos. Si en una localidad viven 2,000 niños, 3,000 jóvenes, 1,000 adultos y 300 ancianos, la totalidad de la población sumarían 6,300 habitantes, y las proporciones de niños sería 0.31, de jóvenes 0.47, de adultos 0.15 y de ancianos 0.04.

Ejemplo: La población del municipio de Soyapango distribuida por rango de edades se presenta en el siguiente cuadro.

Rango de edadesSexo

TotalHombre Mujer

Edad de 0 a 10 años 25,097 23,858 48,955Edad de 11 a 15 años 12,849 12,490 25,339Edad de 16 a 20 años 11,384 11,810 23,194Edad de 21 a 30 años 19,587 23,372 42,959Edad de 31 a 45 años 21,264 28,725 49,989Edad de 46 a 65 años 16,219 21,645 37,864Edad de 66 años ó más 4,834 8,269 13,103Total 111,234 130,169 241,403

Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007.Obtener la proporción que representa cada grupo de edades.

NOTA: Cuando el valor del numerador está incluido en el denominador se, se establece una proporción.

58

Page 59: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Porcentajes:

Los porcentajes se hacen para expresar las proporciones en base 100. En el ejemplo anterior, los niños representan el 31%, los jóvenes el 47%, los adultos el 15% y los ancianos 4%.

Ejemplo: En el censo de población de El Salvador, 2007, se encuentra que en el Municipio de Mejicanos, tiene los siguientes sobre la condición laboral, para la población mayor de 10 años. NOMBRE DEL LUGAR

CONDICION LABORAL TotalPoblación ocupada Población que busca trabajo Inactivos

Zona Urbana 54295 5894 46288 106477CANTÓN CHANCALA 286 52 335 673CANTÓN SAN MIGUEL 467 32 478 977CANTÓN SAN ROQUE 3739 494 3991 8224 Total 58787 6472 51092 116351Obtener la proporción de la población según condición laboral por cantón y municipio.

Tasas:Las tasas se hacen cuando el conjunto se fracciona en dos subconjuntos y se quiere dar cuenta de la parte que representa uno de los subconjuntos sobre el total del conjunto. Esta representación se suele expresar en base 100, pero se pude hacer en base 10, 1000, etc. Por ejemplo, si el conjunto de la población activa se divide en dos subconjuntos denominados desempleados y ocupados, la tasa de desempleo sería el resultado de multiplicar por cien el número resultante de dividir el número de desempleados por el total de activos (ocupados y desocupados). Si de las 4,000 personas activas que hay en una localidad, 3,600 están ocupadas y 400 están desempleadas, la tasa de desempleo sería (400/ 4,000) X 100= 10%.

Ejemplo: En el censo de población de El Salvador, 2007, se encuentra que en el Municipio de Mejicanos, tiene los siguientes datos de analfabetismo, para la población mayor de 5 años.

LUGARES

Sabe leer y escribir

TotalSi NoZona Urbana 109205 8872 118077

CANTÓN CHANCALA 672 123 795CANTÓN SAN MIGUEL 916 221 1137CANTÓN SAN ROQUE 8027 1343 9370 Total 118820 10559 129379Obtener la tasa de analfabetismo por cantón y municipio.

Ejercicio.

59

Page 60: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

La población de 15 años o más según su condición de analfabetismo se presenta en el siguiente cuadro.

SexoSabe leer y escribir

TotalSi No

Soyapango 161,155 10,801 171,956Ilopango 66,240 5,420 71,660San Martín 43,033 5,376 48,409Fuente: VI Censo de Población y V de Vivienda, El Salvador, 2007

Obtener las tasas de analfabetismo de cada municipio y hacer un análisis comparativo de los resultados.

5.2. Diferencia Relativa

La diferencia relativa se calcula como el cociente entre la diferencia de dos cantidades, precio absoluto y la cantidad, precio o valor del periodo de referencia. Supongamos que

es una magnitud simple, representamos por el valor de la magnitud en el periodo base y por el valor de la magnitud en el periodo que queremos estudiar entonces:

La diferencia relativa está dada por:

Ejemplo:El siguiente cuadro presenta el número de homicidios para los años 2004, 2005, 2006, 2007 y 2008, para los municipios de Soyapango, Ilopango y San Martín.

Grupos de

edades

SOYAPANGO ILOPANGO SAN MARTÍN

Femenino Masculino Total Femenino Masculino Total Femenino Masculino TotalAÑO 2004

Total 15 167 182 12 78 90 11 42 53AÑO 2005

Total 14 228 242 5 74 79 11 75 86AÑO 2006

Total 16 246 262 15 69 84 6 48 54AÑO 2007

Total 20 179 199 10 67 77 8 71 79AÑO 2008

Total 10 128 138 9 66 75 7 54 61Fuente: Fuente estadísticas de homicidios de Instituto de Medicina Legal. Los cadáveres que no se pudo identificar el sexo, no aparecen registrados en el cuadro anterior.

Obtener la diferencia relativa del número de homicidios por año, sexo y municipio.

El área de medicina tiene gran aplicación de las diferencias relativas, también llamada fracción atribuible, se calcula como el cociente entre la diferencia absoluta de riesgo y el riesgo en el grupo control.

Supongamos que se tiene la siguiente tabla de datos:

60

Page 61: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

  Placebo TratamientoCasos a0 a1 No casos b0 b1 Total n0 n1

A partir de la tabla anterior se puede calcular el riesgo relativo:

El RR tiene las siguientes características:

No tiene dimensiones. Si RR=1 no hay asociación entre la presencia del factor (Tratamiento) y el

evento (Caso o No Caso).

Si RR >1 la asociación es positiva, es decir la presencia del factor se asocia a mayor ocurrencia del evento.

Si RR<1 si la asociación es negativa, es decir la presencia del factor se asocia a menor ocurrencia del evento.

Ejemplo:

Se realiza un ensayo clínico para investigar los efectos secundarios de un medicamento. Al finalizar el estudio, se obtiene la siguiente información.

  Placebo Tratamiento Casos 420 307 No casos 2634 2744 Total 3054 3051

Obtener el riesgo relativo del tratamiento.

Indica que en los pacientes que se aplica el tratamiento experimental tienen una tasa de incidencia del 73% respecto a los pacientes tratados con placebo.

Reducción relativa de riesgo

De modo similar se define, y se suele usar cuando el riesgo en el grupo expuesto (con el factor) es menor que el riego del grupo control, la reducción relativa del riesgo como el cociente entre la reducción absoluta de riesgo y el riesgo en el grupo control.

61

Page 62: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Ejemplo:

Para los datos del anterior calcular la reducción del riesgo relativo

  Placebo Tratamiento

Casos 420 307

No casos 2634 2744

Total 3054 3051

La RRR es:

El RRR indica que el riesgo del grupo tratado se reduce en un 26,8% del riesgo del grupo control.

5.3. LOS NUMEROS INDICESEl número índice es una cifra relativa, expresada en términos porcentuales o al tanto por uno, que sirve para indicar las variaciones que sufre una variable con respecto a un valor de la misma, la cual es tomada como punto de referencia, denominada base.

Los números índices no miden, tan solo sirven para indicar las variaciones en los precios, cantidades y valores de un periodo con respecto a otro. Por lo tanto, debe tenerse mucho cuidado con su uso. Los números índices son muy usados en el análisis de las ventas, producción, precios, costos, beneficios, aumento de capital y en especial cuando se quiere comparar dos series de datos.

Definición: Un índice es una medida estadística que tiene la propiedad de informar de los cambios de valor que experimenta una variable o magnitud en dos situaciones, una de las cuales se toma como referencia. La comparación suele hacerse por cociente.

62

Page 63: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

A la situación inicial se le llama periodo base y a la situación que queremos comparar periodo actual o corriente.

5.3.1 Índices simples

Índices simples: Se denomina así a los referidos a una única magnitud y se obtienen dividiendo cada precio, cantidad o valor de un periodo (anual, mensual, semanal, etc.), por el precio, cantidad o valor de un periodo fijo, considerado base, multiplicado luego por 100.

Si es una magnitud simple, representamos por el valor de la magnitud en el periodo

base y por el valor de la magnitud en el periodo que queremos estudiar entonces:

El número índice simple es:

Mide la variación en tanto por uno o tanto por cien que ha sufrido la magnitud X entre los dos periodos considerados y pueden ser:

a) Valor:

b) Precio:

c) Cantidad:

Se puede calcular manteniendo fijo o constante el periodo base, permaneciendo inalterado durante el periodo que es objeto de análisis. También se puede calcular con base variable, en este caso, la base es el periodo inmediatamente anterior, partiendo de un índice igual a 100, bajo el supuesto del desconocimiento de información anterior a ese periodo.

Ejemplo 1. Con los datos de la serie 2001-2006 (referidos a los precios de un cierto producto), calcular los índices de base fija 2001 y 2004; luego el índice de base variable para esa misma serie.

Base fija 2001, 2004. Base Variableaños Yi Índice

2001=100% de Variación

Índice 2004=100

% de Variación

Índice Variable

% de Variación

2001 20 100 0 50 -50 100 02002 28 140 40 70 -30 140 402003 24 120 20 60 -40 85.71 -14.292004 40 200 100 100 0 166.66 66.662005 48 240 140 120 20 120 202006 70 350 250 175 75 145.83 45.83

63

Page 64: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Observe que tomando de base el año 2001, en el 2004 se tuvo un aumento del 100% y en el 2006 se tuvo un aumento de precios del 250% con respecto al año 2001; si tomamos de base el año 2004, en el 2006 se tuvo un aumento del 75%. Finalmente, si tomamos Base Variable en el año 2006 hubo un aumento del 45.83% con respecto al año 2005.

EJERCICIO DE APLICACIÓN. En enero de 2006 una fábrica pagó un total de $ 99,200,000.00 a 120 empleados en nómina. En julio del mismo año, la fábrica tuvo 30 empleados más en nómina y pagó $ 30,000,000 más que en enero. Tomando el mes de enero como base, hallar e interpretar:

a) El índice de empleo (NIE)b) El índice del costo de mano de obra (ICMD)c) Precio relativo

Solución.a) NIE= Nº de empleados en julio / Nº de empleados en enero

. Durante los 6 meses hubo un incremento de empleados

del 25%

b) ICMD = Salarios pagados en Julio / Salarios pagados en enero

. Durante los 6 meses considerados en

este estudio hubo un aumento de costo de mano de obra en la empresa de 30.24%, observe que no se ha considerado en aumento de empleados.

c) El precio relativo (PR) es equivalente al riesgo relativo utilizado en medicina (RR), es decir,

. El

índice de costo medio por empleado aumentó en un 4.10% para el mes de julio en relación con el mes de enero.

Relación entre índices de base fija y variable.

El índice de base variable puede transformarse en índice de base fija, utilizando la siguiente relación:

donde es el índice relativo, es decir,

Ejemplo: Se tiene la información del precio de un producto. Se desea indicar la variación del precio en

el 2006 respecto al precio de 2003.Solución:

Ahora, imaginemos que se tiene el índice de precios con base fija para 2003 y 2006 y se requiere la variación del precio en el 2006 respecto al precio de 2003.

Base fija 2002 años Yi Índice

2002 2,000 1002003 2,800 1402004 2,400 1202005 4,000 2002006 4,800 2402007 6,000 300

64

Page 65: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Solución:

. Observe que se tiene el mismo resultado si

se dispone de los precios o de los índices de base fija. Ahora, suponer que se tienen únicamente los índices de base variable y se

requiere la variación del precio en el 2006 respecto al precio de 2003.Solución:

.Ejercicio. Un índice para 2006 revela un aumento del 20% respecto al año anterior. En el 2007 alcanzó a 174, es decir, presenta un incremento anual del 18%. Calcular los índices de base fija de los años 2005 y 2006.Solución:Se requiere encontrar: Información disponible: .La base o periodo de inicio no se conoce, por lo tanto puede ser cualquier año, así:

además sabemos que , reemplazando 174 en la última expresión se obtiene:

.

Para obtener , se realiza un procedimiento análogo al anterior., reemplazando 147.45 se tiene:

.

Ejercicio. Se tienen tres índices de base variable, cuyas cifras son: Para 2005=107, para 2006=108, para 2007=104, es decir, que entre 2004 y 2007, hubo un aumento del 19%. Decir si la afirmación anterior es cierta o falsa.Solución:Recordemos que , por lo tanto la afirmación es falsa.

5.3.2 Índices agregativos simplesCuando se dispone de una serie de precios de un grupo de artículos, dados en unidades diferentes, los índices simples ya no son utilizables, en esta situación se requiere utilizar los índices agregativos simples.

Estos índices se calculan teniendo en cuenta la suma de los precios, cantidades o valores de un grupo de artículos para un periodo, divida por la suma de los precios cantidades o valores para ese grupo de artículos en otro periodo, considerado como base. Matemáticamente se expresan como:

65

Page 66: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Las expresiones anteriores son muy útiles cuando no existen variaciones significativas entre productos, ya estos índices no se ven afectados por las variaciones en algún producto. Para recoger las variaciones entre productos se recomienda calcular primeramente los índices simples y luego sumarlos y finalmente dividirlos por el número de productos. Esto es,

Ejemplo: Con los datos de la siguiente tabla, calcular el índice agregativo de las cantidades que resultaron en mal estado de conservación, en un grupo de artículos, comparados en el mes de junio de 2009, respecto a las cantidades comparadas, en mal estado de conservación, en el mes de mayo del mismo año.

Solución: Primer método.

. Este método es poco usual, ya que no es

afectado por las variaciones grandes que puede presenta uno varios artículos. Segundo método.

Este resultado es un poco mayor al obtenido por el primer método. Este aumento se debe, a la variación que presenta el artículo B, durante ese periodo.

5.3.3 Índices de preciosExisten gran cantidad de fórmulas para calcular índices de precios, cuyo empleo dependerá de la naturaleza misma del problema. Generalmente, las ponderaciones en los índices de precios son las cantidades y en el cálculo de los índices de cantidad las ponderaciones son los precios.

5.3.3.1 Índice de Laspeyres de precios.5.3.3.1 Índice de Laspeyres de precios.

Artículos medida Defectuosasmayo Junio

A Kg 12 18B Lt 8 15C Docena 20 8D Libras 14 20E Unidad 50 70Total 104 131

66

Page 67: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Este índice puede interpretarse, como la relación existente, al comparar los precios actuales de un grupo de artículos, con los precios de esos mismos artículos considerados en el periodo base, manteniéndose constante como ponderación las cantidades del periodo base. La expresión es la siguiente:

5.3.3.2 Índice de Paasche de precios.5.3.3.2 Índice de Paasche de precios.

Se interpreta como la relación existente entre los precios actuales de un grupo de artículos, con los precios de esos mismos artículos en el periodo base, manteniéndose constante las ponderaciones correspondientes a las cantidades de dichos artículos, dadas por el periodo que se investiga, esto es:

La diferencia entre las dos fórmulas anteriores, radica únicamente en la base tomada para las ponderaciones, en la primera se refiere a las cantidades del periodo base y en la segunda, las cantidades corresponden al periodo que se investiga.

5.3.3.3 Índice de Fisher de precios.5.3.3.3 Índice de Fisher de precios.

Este índice es un promedio geométrico, que se define como la raíz cuadrada del producto del índice de Laspeyres por el de Paasche, así:

5.3.3 Índices de cantidad.Los índices de cantidad de Laspeyres, Paasche y Fisher son muy parecidos a los índices de precios, con la diferencia de que las ponderaciones son los precios. Las fórmulas son las siguientes:

67

Page 68: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Ejemplo: Con los siguientes datos referentes a los precios y cantidades para un grupo de artículos dados para dos periodos.Artículos Unidad 2006 2007

Precio Cantidad Precio CantidadA Kg 26 10 38 8B Lt 6 5 10 7C Lbs 1 2 4 5D Docena 6 1 15 2E Unidad 3.6 2 2 1Calcular los índices de precios y de cantidad de las Laspeyres, Paasche y Fisher.

Solución:Ordenando los datos de la tabla anterior:Articulos P06 q06 P07 q07 P06 q06 P07q07 P07q06 P06q07

A 26 10 38 8 260 304 380 208B 6 5 10 7 30 70 50 42C 1 2 4 5 2 20 8 5D 6 1 15 2 6 30 15 12E 3.6 2 2 1 7.2 2 4 3.6

305.2 426 457 270.6

Cálculo de los índices de precios

Laspeyres: =(457/305.2)*100 = 149.34

Paasche: = (426/270.6)*100= 157.43

Fisher:

Los índices de cantidad se calculan de forma análoga.

Laspeyres: (270.6/305.2)*100=88.66Paasche: (426/457)*100= 93.22Fisher: 90.91

Ejercicio. El índice de cantidad de un grupo de artículos es igual a 200, sí se usa la fórmula de Fisher, y a 160 si se emplea la de Laspeyres. ¿Cuál es el índice de cantidad usando la fórmula de Paasche? Solución.

68

Page 69: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Ejercicio. Una empresa espera aumentar sus ventas en el año próximo en un 50%. ¿En qué porcentaje debería incrementar los precios para que el ingreso total se convierta en un 250%?

Solución.Se sabe que el índice de ingreso total es igual al índice de cantidad vendida por el índice de precios.250=150*ind. Precios, entonces Ind. Precios = (250/150)=166.66

Se debe aumentar los precios en un 66.67%.

Ejercicio. El índice de precios de Laspeyres es de 2/3 del de Paasche y éste asciende a 130. ¿Cuál es el índice de Fisher?

Solución.

5.3.4 Cálculo del salario e ingreso real.

Los números índices tienen numerosas aplicaciones, especialmente en el área económica, por ejemplo, para estimar el salario real o ingreso real, los cuales se obtienen a través de las siguientes fórmulas:

Salario real: (salario nominal/ índice de precios al consumidor)*100Ingreso real: (Ingreso nominal/índice de precios al consumidor)*100

Este proceso de convertir el salario o el ingreso nominal en real se conoce como deflación o sea la transformación de valores expresados a precios corrientes en valores o precios constantes, con respecto a un periodo.

Ejemplo: Un profesor Universitario III de la Universidad de El Salvador en junio de 2009 ganaba $ 1,400.00 dólares US y en el mes de enero de 2010, su salario fue reajustado con un aumento de $ 200.00 dólares. Se sabe además que el precio de la canasta básica para esos mismos meses y años fue de $550 y $675 respectivamente. Se quiere saber si con el reajuste en el salario mejoró la situación económica de los profesores universitarios.

Solución.

El índice de precios de la canasta básica es:

Los artículos de primera necesidad aumentaron de junio de 2009 a enero de 2010 en un 22.73%, por lo tanto, tuvo que haber un incremento igual a este porcentaje o mayor, para que las condiciones económicas sean iguales o mejores en el año 2010.

69

Page 70: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

Salario real= , esto indica que el aumento fue demasiado bajo,

es decir, que a pesar de estar recibiendo más dinero que antes, este salario a penas equivale a 1,303.67, el aumento esperado debió ser de $ 318.22 = 1400*0.2273, o sea que su nuevo salario debería de ser de $1,718.22 en vez de $ 1,600.

Guía de ejercicios Nº 5.

1. Las cifras de ventas en millones de $ (dólares) de unos granos básicos almacenados desde 2002 hasta 2010 son los siguientes:

a) Hallar los índices de ventas, tomando como base primero 2002 y luego 2005.

b) Hallar los índices de ventas con base variable

2. Un empleado ganaba $ 772 dólares mensuales en 2009 en el 2010 gana $ 912 mensuales, con lo cual mejora su ingreso real en 16%. Si el actual índice de precios es de $ 560 ¿Cuál era el índice de precios del 2009?

3. La producción de tomates (en toneladas) en la provincia de Valparaíso fue durante los últimos 10 años:

Se Pide:

a) Establezca una serie de números índice, que permita estudiar la evolución de dichas producciones, considerando como base el año 1997.

b) Determine el porcentaje de variación de la producción entre los años 1997 y 2006.

c) Determine la tasa de crecimiento promedio (tcp) entre los años 1997 y 2007.

4. La entrada de turistas Alemanes a nuestro País durante los últimos 7 años según SERNATUR viene dada por la tabla siguiente:

Se Pide:

a) Establezca una serie de números índice, que permita estudiar todos los datos, considerando como base el año 2000.

Años Ventas2002 182003 182004 192005 152006 122007 162008 202009 242010 35

AÑO PRODUCCION (ton) 1997 1300 1998 1280 1999 1189 2000 1234 2001 1100 2002 1250 2003 1310 2004 1270 2005 1140 2006 1240

AÑO Número de Turistas 2000 12565 2001 13124 2002 11897 2003 14578 2004 16243 2005 14890 2006 15321

70

Page 71: reneues.files.wordpress.com · Web viewSe desea investigar el ganado caprino y el ganado ovino de un país. En la tabla de doble entrada adjunta se presentan los resultados de un

b) Con respecto al año 2003. Qué porcentaje de aumento o disminución se dio en los años 2004 y 2005.

5. La Municipalidad de San Antonio, ubicada en la V Región ha estudiado el consumo de anual de agua por habitante durante los últimos 5 años, obteniendo:

Se Pide:

a) Establezca una serie de números índice, que permita estudiar todos los consumos, considerando como base el

año 2002.

b) Determine el porcentaje de variación del consumo entre los años 2002 y 2006.

c) Determine la tasa de crecimiento promedio (tcp) entre los años 2002 y 2006.

6. Una fábrica de automóviles chinos produce cuatro modelos distintos, todos en versión económica, cuyos precios expresados en millones de pesos y número de unidades producidas en 1998 y 2000 son respectivamente:

Año 1998 Año 2000Modelo Precio (M$) Nº de unidades Precio (M$) Nº de unidades1 0.9 3200 1.2 56002 1.3 3200 1.5 43003 1.9 3200 2.1 20004 3.8 3200 4.3 1200

Se Pide: a) Hallar el índice de precios y de cantidad de LASPEYRE, con base el año 1998. b) Hallar el índice de precios y de cantidad de PAASCHE, con base el año 1998. c) Hallar el índice de FISHER para precio y cantidad, considerando el mismo año

base.

7. Si, por ejemplo, el consumo final de un país, expresado en miles de dólares corrientes de cada año, y el I.P.C. de los mismos años son los siguientes, expresar en dólares. Constantes el consumo final de ese país:

Años Consumo final IPC2000 17 1002001 20 1052002 22 1102003 25 1152004 30 118

AÑO Consumo agua por habitante (lt)2002 345 2003 367 2004 354 2005 389 2006 325

71