29
PROBABILIDAD Y ESTADISTICA APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 1 ESTADISTICA DESCRIPTIVA ORIGEN HISTÓRICO La estadística, tuvo sus inicios en los grandes imperios de la antigüedad, los primeros antecedentes que se conocen para llevar un registro de sus pertenencias son las tablillas de arcilla utilizadas por los babilonios 5000 a.c. Más tarde las culturas posteriores a los babilonios realizaban registros de bienes, soldados, esclavos, etc. Y más tarde la implementación de censos de población. A mediados del siglo XVII la estadística tuvo un gran desarrollo cuantitativo, ya que en esa época, los imperios del viejo continente tenían la necesidad de llevar un buen control administrativo de sus actividades comerciales y bélicas, entre otras, donde sus registros y operaciones consistían en números. Posteriormente se inicia el estudio de la probabilidad, que junto con la estadística permite estudiar problemas donde intervienen fenómenos aleatorios que no se pueden predecir. En la actualidad la estadística junto con el cálculo de probabilidades tienen una gran aplicación en todas las actividades que realiza el hombre, tales como: predicciones, censos, control de calidad, etc. No es posible ubicar exactamente en la historia la aparición de la estadística, sin embargo, se supone que su desarrollo estuvo ligado con el surgimiento de los diferentes sistemas de numeración y escritura creados por las civilizaciones antiguas en diferentes épocas y lugares, todo esto permitía el registro y comunicación de los datos relacionados con diferentes actividades y se hicieron más complejos en el transcurso del tiempo. Actividad 1 Desarrolla la siguiente actividad y repórtala a tu profesora, en hojas tamaño carta, engrapada, con nombre completo y grupo. ¿Qué más puedes contar de la historia de la estadística? (investiga). Ahora vamos a conocer más sobre estadística y como se emplea en el ámbito académico, social y global. CONCEPTO DE ESTADÍSTICA Estadística es un conjunto de técnicas para la colección, manejo, descripción y análisis de información, de manera que las conclusiones obtenidas de ella tengan un grado de confiabilidad especificado. CLASIFICACIÓN DE LA ESTADÍSTICA La estadística para su estudio se divide en dos grandes ramas: Estadística descriptiva: Es la parte encargada de la recolección, clasificación, ordenamiento, presentación y descripción de un conjunto de datos (como la edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc.) con el fin de describir apropiadamente las diversas características de ese conjunto. Estadística inferencial: También se le conoce como Estadística Inductiva, y es la parte que se encarga de estudiar y analizar las medidas descriptivas y en base a esto, sacar conclusiones y tomar de decisiones con el mayor grado de confiabilidad. Los resultados que se obtienen de la estadística descriptiva, se presentan por lo general en cualquiera de las tres formas siguientes:

Cuadernillo 1 2015 1

Embed Size (px)

DESCRIPTION

Cuadernullo de probabilidad y estadistica

Citation preview

Page 1: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 1

ESTADISTICA DESCRIPTIVA ORIGEN HISTÓRICO

La estadística, tuvo sus inicios en los grandes imperios de la antigüedad, los primeros antecedentes que se conocen para llevar un registro de sus pertenencias son las tablillas de arcilla utilizadas por los babilonios 5000 a.c. Más tarde las culturas posteriores a los babilonios realizaban registros de bienes, soldados, esclavos, etc. Y más tarde la implementación de censos de población. A mediados del siglo XVII la estadística tuvo un gran desarrollo cuantitativo, ya que en esa época, los imperios del viejo continente tenían la necesidad de llevar un buen control administrativo de sus actividades comerciales y bélicas, entre otras, donde sus registros y operaciones consistían en números. Posteriormente se inicia el estudio de la probabilidad, que junto con la estadística permite estudiar problemas donde intervienen fenómenos aleatorios que no se pueden predecir. En la actualidad la estadística junto con el cálculo de probabilidades tienen una gran aplicación en todas las actividades que realiza el hombre, tales como: predicciones, censos, control de calidad, etc. No es posible ubicar exactamente en la historia la aparición de la estadística, sin embargo, se supone que su desarrollo estuvo ligado con el surgimiento de los diferentes sistemas de numeración y escritura creados por las civilizaciones antiguas en diferentes épocas y lugares, todo esto permitía el registro y comunicación de los datos relacionados con diferentes actividades y se hicieron más complejos en el transcurso del tiempo. Actividad 1 Desarrolla la siguiente actividad y repórtala a tu profesora, en hojas tamaño carta, engrapada, con

nombre completo y grupo.

¿Qué más puedes contar de la historia de la estadística? (investiga).

Ahora vamos a conocer más sobre estadística y como se emplea en el ámbito académico, social y global.

CONCEPTO DE ESTADÍSTICA

Estadística es un conjunto de técnicas para la colección, manejo, descripción y análisis de información, de manera que las conclusiones obtenidas de ella tengan un grado de confiabilidad especificado.

CLASIFICACIÓN DE LA ESTADÍSTICA La estadística para su estudio se divide en dos grandes ramas:

Estadística descriptiva: Es la parte encargada de la recolección, clasificación, ordenamiento, presentación y

descripción de un conjunto de datos (como la edad de una población, altura de los estudiantes de una escuela, temperatura en los meses de verano, etc.) con el fin de describir apropiadamente las diversas características de ese conjunto.

Estadística inferencial: También se le conoce como Estadística Inductiva, y es la parte que se encarga de

estudiar y analizar las medidas descriptivas y en base a esto, sacar conclusiones y tomar de decisiones con el mayor grado de confiabilidad.

Los resultados que se obtienen de la estadística descriptiva, se presentan por lo general en cualquiera de las tres formas siguientes:

Page 2: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 2

TABULAR. Mediante una tabla, en la cual se encuentran los datos organizados y clasificados del objeto que se estudia.

MEDIDAS ESTADÍSTICAS. Mediante números, de los cuales se obtienen al aplicar un método o procedimiento a un conjunto de datos.

GRAFICAS. Mediante un diagrama, en el cual se presentan de una manera objetiva los datos organizados en una figura ilustrativa.

LOS FENÓMENOS QUE ESTUDIA LA ESTADÍSTICA

Se pueden clasificar en dos grandes grupos: 1.- Fenómenos deterministas: También se les llama fenómenos determinísticos y son aquellos que

obedecen leyes o principios plenamente demostrados, por lo que en este tipo de fenómenos resulta sencillo elaborar predicciones sobre su concurrencia, desarrollo y efecto final, por ejemplo: los eclipses, una reacción química, la caída libre de los cuerpos, un tiro parabólico, la germinación de una semilla, etc. Mediante las observaciones repetidas y las medidas descriptivas de los datos que se obtienen, la estadística permite obtener y comunicar de una manera más exacta los resultados y conclusiones sobre los fenómenos deterministas.

2.- Fenómenos aleatorios: Son aquellos que no obedecen a ninguna ley y generalmente pueden tener 2 ó

más resultados diferentes, mediante su observación repetida y el estudio de sus datos se pueden llegar a obtener predicciones y tomar decisiones con el más alto grado de confiabilidad, por ejemplo, los juegos de azar, los terremotos, huracanes, la economía, etc.

POBLACIÓN Y MUESTRA Para la recolección de datos se ha ideado y desarrollado diferentes métodos que tienen como principal objetivo hacer que la muestra sea representativa de la población, ya que de esta manera, las conclusiones que se obtengan del estudio de la muestra se podrán hacer extensivas a toda la población. Población: Se define como un grupo, colección u ordenamiento de objetos, individuos o medidas

perfectamente definidos. Para la estadística es importante que una población se encuentre bien definida ya que de esta manera se puede decidir si un objeto pertenece o no a ella. Una población puede ser finita o infinita.

La población finita: está formada por un número determinado de elementos. La población infinita: no se tiene determinado el número de elementos en estudio. Muestra: Es una parte de una población, es fundamental que una muestra sea representativa de la

población de la cual procede, ya que de esta manera los resultados y las conclusiones que se obtengan al estudiar la muestra se podrán hacer extensivas a toda la población.

Page 3: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 3

CLASIFICACIÓN DE LAS VARIABLES Para el estudio de un proceso estadístico, las variables se clasifican en: Cualitativas

Variables Discretas Cuantitativas Continuas

Las variables cuantitativas. Son aquellas que se representan a través de un valor numérico, que en una recopilación de datos se obtiene mediante conteo o medición de las características en estudio. Se clasifican en discretas y continuas.

Las variables discretas. Son las que están asociadas a un proceso de conteo, es decir que solo

pueden tomar algún valor de una escala de medición, por ejemplo en un salón de clases puede haber 32 ó 33 alumnos, pero nunca 32.4 alumnos.

Las variables continuas. Están asociadas a un proceso de medición y pueden adquirir cualquier valor en una escala de medición, estos es, que si tienen dos valores dados, siempre puede existir otro valor intermedio, por ejemplo un hombre puede medir 1.71m, otro 1.72m y un tercero un valor comprendido entre estos, tal como 1.714m.

MÉTODOS DE MUESTREO O SELECCIÓN DE UNA MUESTRA Los métodos empleados deberán poseer características que nos faciliten alcanzar resultados óptimos. Entre las propiedades que podemos anotar:

a) Que proporcionen la máxima información contenida en los datos en forma rápida y fácil de visualizar. b) Que posean sencillez operativa. c) Que permitan presentar los datos de una manera estética.

Los métodos tabulares y gráficos nos permiten organizar y presentar datos de tal forma que los aspectos sobresalientes de los mismos son rápida y fácilmente aprehensibles. En ocasiones estos métodos nos ayudan a establecer hipótesis tentativas sobre la naturaleza del fenómeno que se estudia.

Con la finalidad de que una muestra sea representativa de la población de la cual procede, se han

desarrollado numerosos métodos de muestreo, entre los más relevantes se tienen:

Muestreo tipo Lotería: Consiste en identificar a cada objeto de la población mediante una etiqueta, posteriormente las etiquetas se colocan en una urna para mezclarlas y de ahí extraer las etiquetas correspondientes a los objetos que forman la muestra al azar.

Muestreo tipo sistemático: Consiste en ordenar a todos los objetos de la población en forma creciente o decreciente de acuerdo con algunas de sus características y finalmente, del ordenamiento resultante se extrae a cada enésimo objeto para formar la muestra.

Muestreo Estratificado: En algunos casos los objetos de una población pueden estar divididos en estratos naturales o artificiales, generalmente los estratos tienen diferentes números de objetos, por lo tanto la muestra representativa requerirá que cada estrato contribuya a la muestra con una cantidad de objetos proporcional a su tamaño, por ejemplo: Si se trata de muestrear seres humanos.

a) Estratos naturales: Podrían ser las zonas geográficas o los grupos étnicos. b) Estratos artificiales: Podrían ser el nivel cultural o socioeconómico. Las ventajas de trabajar con muestras son evidentes, en cualquier caso resultará más sencillo y menos

laborioso el estudiar una muestra en lugar de toda una población.

Page 4: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 4

FUENTES DE INFORMACIÓN. La estadística puede obtener información a través de los siguientes medios:

1.- La entrevista: Consiste en un encuentro concertado entre dos o más personas para obtener o intercambiar datos sobre temas concretos.

2.- La encuesta: Consiste en un cuestionario elaborado previamente para la obtención de datos sobre temas

específicos.

3.- El censo: Consiste en un padrón de personas, bienes y actividades que la mayoría de los gobiernos realizan en forma periódica.

4.- Publicaciones especializadas: Es posible obtener información a través de las memorias o almanaques

que se publican periódicamente por parte de algunas empresas sobre las actividades que se realizaron.

5.- Datos experimentales: Proceden de los laboratorios de investigación de empresas o instituciones educativas, generalmente se tratan de áreas especificas de tiempo.

6.- Medios de comunicación masiva: Es poco frecuente pero se podría en algunos casos obtener

información de interés de la tv, radio, periódicos y revistas. 7.- Observación. Consiste en recopilar información mediante la simple observación. 8.- Investigación. Consiste en recopilar información que ya se tiene concentrada o escrita, la cual se puede

obtener en bibliotecas, hemerotecas, mapotecas, videotecas, internet, etc. Actividad 2 Desarrolla la siguiente actividad y repórtala a tu profesora, en hojas tamaño carta, engrapada, con

nombre completo y grupo.

Recorta de periódico o revista, tres situaciones de algunos artículos de tu

mayor interés que describan cualquiera de los siguientes medios de información:

Entrevista, censo, test, padrón y encuesta. Después responde el cuestionario que

estará en el sitio de google (dibujandolineas), este para cada situación.

La estadística descriptiva tiene como objetivo resumir o describir las características importantes de un conjunto de datos. Para ello es necesario conocer que la estadística tiene dos ramas de datos; datos no agrupados y datos agrupados. Y empezaremos con los más sencillos de trabajar, los datos no agrupados.

DATOS NO AGRUPADOS

No existen reglas de carácter general para decidir cuándo se debe agrupar a un conjunto de datos o cuándo es preferible mantenerlos en su forma individual, la mayoría de los autores y de los investigadores sugieren que hasta aproximadamente 25 ó 30 se deben obtener en forma individual, de esta manera se conservará el mayor detalle de un grupo poco numeroso de datos.

Actividad 3 Desarrolla la siguiente actividad y repórtala a tu profesor(a), en hojas tamaño carta, engrapada, con

nombre completo y grupo.

¿Qué es un dato y su clasificación? (investiga)

Page 5: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 5

Ejemplo1:

Los siguientes datos representan el conteo del número de cromosomas encontrados en el núcleo celular de 18 tomas de tejido de la herbácea Claytonica Virgínica sometida a radioactividad para un estudio de ingeniería genética, de los cuales necesitamos describir características importantes por medio de la estadística descriptiva.

24,29,28,29,28,31,38,32,28,28,30,28,30,32,30,30,32,31.

Ordenamiento: Es la primera manipulación a la que deberá ser sometido un conjunto de datos, como su nombre lo indica, consiste en ordenarlos preferentemente de manera creciente.

Ordenándolos: __________________________________________________________________________ Para poder describir estos datos necesitamos medirlos, para ello hacemos uso de ciertas medidas que a continuación veremos.

MEDIDAS ESTADÍSTICAS

Existen tres mediciones que se estudian en la estadística descriptiva:

Medidas de tendencia central

Medidas de posición

Medidas de dispersión

Estas medidas se utilizaran tanto para datos no agrupados como datos agrupados

MEDIDAS DE TENDENCIA CENTRAL

Las medidas de tendencia central, también llamadas medidas de posición o medidas de centralización, indican mediante un valor o atributo la localización central de la distribución de frecuencia.

Debido a que se pueden dar varias interpretaciones a lo que significa valor central de una distribución, se estudian cinco medidas de tendencia central que son la media, la mediana, la moda, media geométrica, la media armónica. Cabe aclarar que estas medidas de posición, no son las únicas que existen.

Se denomina de esta manera porque tienden a localizarse en la parte central del ordenamiento, las más

utilizadas son:

1.- Media ( x ): También se le conoce como media aritmética o promedio. Es la más usada de las medidas descriptivas. Tiene la ventaja de ser muy fácil de calcular, además de poseer propiedades teóricas excelentes desde el punto de vista de la estadística inductiva. Su principal desventaja es que, por ser el punto de equilibrio de los datos, es muy sensible a la presencia de observaciones extremas. La mediana resuelve, en gran parte, esa desventaja.

n

x

x

n

i

i 1 Población

Muestra

Page 6: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 6

Del ejemplo 1: Calcular la media aritmética

REGLA DE REDONDEO Una regla sencilla para redondear respuestas es la siguiente: Aumente una posición decimal más a las que están presentes en el conjunto original de datos. De tal manera que el resultado por la regla de redondeo será:

2.- Mediana ( X~

) Md: Se define como el valor del dato que divide a la información en dos partes iguales, para los datos no agrupados se tienen dos criterios:

a) Si se tiene un número impar de datos, entonces existirá un dato que quede en la parte central de

todo el ordenamiento y el valor de la mediana será igual con el valor del dato central. b) Cuando se tiene un número par de datos, en la parte central del ordenamiento quedará una pareja

de datos y en ese caso el valor de la mediana será igual al promedio de valores de los datos centrales:

24,28,28,28,28,28,29,29,30,30,30,30,31,31,32,32,32,38

3.- Moda ( X ) Mo: Se define como el valor del dato que se repite el mayor número de veces, en algunos casos puede no existir, entonces se dice que la muestra o población no hay moda, en otros casos puede haber varias modas, entonces se dice que la distribución de datos es bimodal, trimodal, multimodal.

Nota: Algunos autores dicen que cuando existen 4 ó más modas esta medida se declara inexistente.

4.- Media geométrica (G): En algunos casos esta medida tiene ventajas sobre la media aritmética ya que no es tan sensible con datos con variables extremos, sin embargo, esto sólo ocurre cuando se obtiene un gran número de datos, se utiliza básicamente para promediar razones, tasas de cambio y valores que muestran una progresión geométrica., se obtiene:

Población n

n

iixG

1

Muestra 1

1

nn

iixG

Page 7: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 7

Del ejemplo 1:

5.- Media armónica (H): Esta medida se utiliza preferentemente cuando se trabaja con cantidades que

varían en el tiempo, por ejemplo: velocidades, frecuencias, aceleraciones, etc. Se calcula usando todos los elementos en un conjunto de valores, se utiliza básicamente para ciertas tasas que pueden ser expresadas recíprocamente. Sin embargo, es útil en casos especiales para promediar razones. Se obtiene mediante:

Población

n

i ix

nH

1

1 Muestra

n

i ix

nH

1

1

1

Del ejemplo 1:

MEDIDAS DE POSICIÓN (CUANTILES) Así como la mediana marca la mitad de valores mayores que ella y la mitad de valores menores que

ella, los cuantiles permiten identificar valores ubicados en diferentes posiciones de un grupo de datos.

1.- Los cuartiles (1°, 2° y 3°): Señalan el valor que está al 25, 50 y 75 % de la totalidad de datos, el segundo cuartil equivale a la mediana.

2.- Los deciles (del 1° al 9°): Marcan el valor ubicado al 10, 20, …, 80 y 90 % de los datos, el quinto decil

equivale a la mediana.

3.- Los percentiles (del 1° al 99°): Indican el valor que está al 1, 2, …, 98 y 99 % de los datos, el valor del cincuenta percentil deberá coincidir con el de la mediana. Los deciles 1°, 2°, etc., equivalen a los percentiles 10°, 20°, etc., y los cuartiles equivalen a los percentiles 25, 50 y 75.

En las fórmulas para obtener los cuantiles se señala entre paréntesis la posición del elemento deseado,

siendo n el número de datos.

CUARTILES 4

1

nQ medianaQ 2

4

33

nQ

DECILES 10

1

nD

10

22

nD medianaD 5 .9 etcD

PERCENTILES 100

1

nP

100

3434

nP medianaP 50 .93 etcP

La cantidad que se obtenga se manejará con los siguientes criterios:

a) Cuando resulten fracciones de mitad por ejemplo 3.5, significa que la medida de ubicación se encuentra entre la tercera y cuarta, por lo tanto el valor será igual al promedio de la tercera y cuarta.

b) Si resultan fracciones diferentes a mitades, el número se redondea al entero más cercano.

Page 8: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 8

Ejercicio. Obtener los cuartiles para los datos del ejemplo 1. n = 18,

Para Q1: 4

1

nQ 5.4

4

18 por lo que la posición 4 y 5 es 28, por tanto el primer cuartil es 28

Para Q2: 302 medianaQ por lo que la posición 9 es 30, por tanto el segundo cuartil es 30

Para Q3 : 4

33

nQ 5.13

4

)18)(3( por lo que la posición 13 y 14 es 31, por tanto el tercer cuartil es

31

MEDIDAS DE DISPERSIÓN

Las medidas de dispersión, así como las de tendencia central, pueden calcularse tanto para un conjunto de datos individuales como para una tabla de distribución de frecuencias. Las medidas de dispersión permiten cuantificar con diferentes criterios el grado de disgregación que tienen los datos de una población o muestra.

Las más utilizadas son el rango, la desviación cuartil, la desviación media, la varianza y la desviación

estándar.

1.- El rango (R): Es la diferencia entre los valores extremos, el mayor y el menor, en él están distribuidos todos los demás valores, por eso también se le llama recorrido o longitud. Se usa poco debido a que es muy influenciable por la presencia de valores extremos de poca frecuencia; se piensa que cuanto mayor es el rango mayor es la dispersión de los datos, lo cual conduce a apreciaciones falsas.

1XXR n

R = __________________

2.- Rango intercuartil (RI): También se le conoce como desviación cuartílica, es el resultado de la diferencia

entre el tercer cuartil Q3 y el primero Q1, geométricamente también representa la longitud de un intervalo de números reales en donde en la mayoría de los casos están distribuidos los datos más significativos o de mayor peso. Cuando se quiere eliminar los datos más extremos se utiliza el rango intercuartil, es aquí donde se deben encontrar los datos más significativos por la poda que se hace.

Rango Intercuartil = RI = Q3 - Q1

RI = __________________

3.-El rango semintercuartil (QD) o desviación cuartil, es la mitad del rango intercuartil y mide la dispersión

con mayor precisión que el rango, sin embargo, presenta las limitaciones siguientes: a) No toma en consideración todos los valores de la distribución de frecuencias y puede suceder que los

valores menores a Q1 o superiores a Q3 estén muy compactos o muy dispersos, y el valor de Q sería el mismo.

b) No es posible, conociendo únicamente Q, hacer la ubicación precisa de una observación dentro de la distribución de frecuencias.

c) Igual que la mediana, no tiene propiedades que permitan su uso en las relaciones matemáticas que usa la estadística.

213 QQ

QD

4.- Varianza (s

2): Es la media aritmética de los cuadrados de desviaciones respecto a la media aritmética. La

varianza sirve de base para calcular la desviación estándar, desviación típica o desviación cuadrática

Page 9: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 9

media que es la más importante de todas las medidas de dispersión, en muchos casos las unidades de la varianza carecen por completo de sentido físico.

Población n

xx

S

n

ii

1

2

2

)(

ó 21

2

2 Xn

X

S

n

i

i

Muestra 1

)(1

2

2

n

xx

S

n

ii

5.- Desviación estándar (s): Se calcula como la raíz cuadrada de la varianza, e indica qué tan diferentes

son entre sí los datos que se analizan.

2SS

Con esta última medición termínanos de medir nuestros datos no agrupados, recordando que la primera medición y la última son las más importantes de en procesos estadístico.

GRAFICAS Ahora el último paso graficar, para este tipo de datos solo será necesario realizar la clásica grafica de

pastel. Para esto necesitamos una pequeña tabla donde estarán nuestros datos, sus frecuencias y su

porcentaje de acuerdo al total de datos. La pregunta clave ¿Qué es la frecuencia? Bueno, La frecuencia es la cantidad de presencias que tienen

el dato; o sea, el datos 28 se presenta cinco veces.

Dato f %

24 1 5.6%

28 5 27.8%

29 2 11.1%

30 4 22.2%

31 2 11.1%

32 3 16.7%

38 1 5.6%

total 18 100%

Page 10: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 10

Dibuja la gráfica de pastel del ejemplo 1

Ahora conoceremos la otra rama DATOS AGRUPADOS, para ello necesitamos agruparlos antes de medirlos, por lo cual usaremos algunos métodos tabulares.

MÉTODOS TABULARES Y GRÁFICOS PARA LA ORGANIZACIÓN Y PRESENTACIÓN DE DATOS AGRUPADOS

Los métodos tabulares y gráficos nos permiten organizar y presentar datos de tal forma que los aspectos sobresalientes de los mismos son rápidos y fácilmente aprensibles. En ocasiones estos métodos nos ayudan a establecer hipótesis tentativas sobre la naturaleza del fenómeno que se estudia.

Consideramos grande un grupo que contiene más de 30 datos. Las definiciones básicas de grupos grandes son exactamente iguales a las de grupos pequeños; no obstante, debido al mayor número de datos, será preciso modificar nuestros métodos, si queremos conservar cierta comodidad en el trabajo.

EJEMPLO

Se utilizará una muestra de tamaño 73, tomada del siguiente estudio de rendimientos obtenidos en

laboratorio relativo a las plantas de maíz atacadas por el barrenado europeo.

Page 11: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 11

Rendimiento (en kilogramos) de plantas de maíz atacadas por el barrenado europeo 3.81 6.81 7.49 4.56 7.16 8.61 3.86 6.78 9.02 8.65 5.26 6.90 8.64 5.47 6.07 6.48 8.72 9.16 5.85 8.51 7.44 8.82 5.88 7.62 5.67 9.00 5.60 7.64 8.82 10.08 8.26 7.90 10.27 6.65 7.25 6.26 6.43 7.71 7.52 6.68 7.64 7.17 8.06 6.66 8.26 6.67 6.25 7.63 6.73 7.60 10.34 6.91 7.82 6.76 7.75 7.36 8.52 7.23 7.63 6.95 6.65 6.86 7.74 6.67 7.12 4.00 7.10 6.72 8.96 5.64 7.98 8.14 7.78 DATOS: Cortesía del doctor Jorge Vera Graziano

Lo primero que se debe hacer es poner los datos en orden, del menor al mayor, por lo que se tiene:

3.81 5.85 6.66 6.86 7.25 7.64 8.06 8.72 10.34 3.86 5.88 6.67 6.90 7.36 7.64 8.14 8.82 4.00 6.07 6.67 6.91 7.44 7.71 8.26 8.82 4.56 6.25 6.68 6.95 7.49 7.74 8.26 8.96 5.26 6.26 6.72 7.10 7.52 7.75 8.51 9.00 5.47 6.43 6.73 7.12 7.60 7.78 8.52 9.02 5.60 6.48 6.76 7.16 7.62 7.82 8.61 9.16 5.64 6.65 6.78 7.17 7.63 7.90 8.64 10.08 5.67 6.65 6.81 7.23 7.63 7.98 8.65 10.27

Clasificación de los datos: Cuando se trata de grandes cantidades de datos, hay que clasificar la

información en categorías o clases que nos permitan representar gráficamente la situación, así como ayudarnos a calcular los demás datos estadísticos descriptivos.

Formación de una tabla de frecuencias. Una forma de presentación que será muy útil para nuestros

propósitos es el que resulta de organizar los datos en Tablas de Frecuencias o Tablas de Distribución de Frecuencias. En este tipo de tablas se divide la amplitud de los valores numéricos de los datos en un cierto número de intervalos o clases, y se cuenta cuantas observaciones pertenecen a cada una de ellas.

El número de observaciones que pertenecen a una clase o intervalo se denomina frecuencia o frecuencia absoluta (f). El agrupamiento se hace por clases o intervalos de clase que son intervalos de valores reales dentro de los cuales se encuentran comprendidos los valores de algunos de los datos.

A la anchura o tamaño de clase se le denomina Intervalo de Clase. Este último requerimiento no es inflexible y algunas veces se emplean diferentes anchuras o

intervalos de clase. Los tres criterios básicos a seguir para la subdivisión en clases son:

1. Lo mejor es tener de 5 a 12 clases. 2. Cada clase debe tener la misma anchura. 3. Las clases deben establecerse de modo que cada pieza de datos pertenezca exactamente a una

clase.

Hay dos criterios más, útiles pero no necesarios:

4. A menudo ofrece ventajas el empleo de una anchura impar de clase. 5. Conviene usar un sistema que aproveche una pauta numérica, a fin de asegurar la exactitud.

Page 12: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 12

PROCEDIMIENTO PARA EL CÁLCULO DE LA ANCHURA DEL INTERVALO DE CLASE:

ervaloNo

bajomasvaloraltomasvalorcóIT

int..

Redondear el resultado para obtener un número más adecuado. Generalmente se redondea hacia arriba.

LÍMITES DE CLASE (L.I. - L.S.) Los puntos que limitan a cada una de las clases reciben el nombre de límites de clase. Límite inferior: es el dato menor de un intervalo Límite superior: es el dato mayor de un intervalo

Límites de clase c f

LI - LS

1

2

3

4

5

6

7

total

Nota: 1. De un solo vistazo, se puede verificar, gracias a las pautas numéricas, que las clases son correctas. 2. La anchura de clase es la distancia del límite inferior de una clase al límite inferior de la clase

siguiente (no del inferior al superior de la misma clase)

LÍMITES REALES DE CLASE (L.R.C.) Son valores que evitan huecos entre un intervalo y el siguiente. Sus valores se obtienen como el punto medio del límite superior y el límite inferior del siguiente intervalo, resultando que el límite real superior de un intervalo es igual al límite real inferior del intervalo siguiente.

Page 13: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 13

Límites de clase c f L.R.C.

LI - LS L.R.I. – L.R.S.

1 3.81 - 4.74 0.94 4

2 4.75 – 5.68 0.94 5

3 5.69 – 6.62 0.94 7

4 6.63 – 7.56 0.94 25

5 7.57 – 8.50 0.94 17

6 8.51 – 9.44 0.94 12

7 9.45 – 10.38 0.94 3

total 73

MARCA DE CLASE (X) El número que representa a cada una de las clases, y que se obtiene dividiendo la suma de los límites de cada clase entre dos, se denomina marca de clase o punto medio de clase.

2

.... SLILX

275.42

74.481.3

X

Límites de clase c f L.R.C. X

LI - LS L.R.I. – L.R.S.

1 3.81 - 4.74 0.94 4 3.805 - 4.745

2 4.75 – 5.68 0.94 5 4.745 - 5.685

3 5.69 – 6.62 0.94 7 5.685 - 6.625

4 6.63 – 7.56 0.94 25 6.625 - 7.565

5 7.57 – 8.50 0.94 17 7.565 - 8.505

6 8.51 – 9.44 0.94 12 8.505 - 9.445

7 9.45 – 10.38 0.94 3 9.445 - 10.385

total 73

FRECUENCIA RELATIVA ( fr ) El número que resulta de dividir la frecuencia absoluta de cada clase entre el número total de las observaciones se denomina frecuencia relativa de clase. Esta indica que proporción de observaciones del total pertenecen a cada clase. Se obtiene dividiendo la frecuencia absoluta del intervalo entre el número total de datos. La suma de todas las frecuencias relativas de un conjunto de datos es igual a uno.

ostotaldedat.No

ffr

0548.073

4fr1

Page 14: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 14

Limites de clase c f L.R.C. X fr

LI - LS L.R.I. – L.R.S.

1 3.81 - 4.74 0.94 4 3.805 - 4.745 4.275

2 4.75 – 5.68 0.94 5 4.745 - 5.685 5.215

3 5.69 – 6.62 0.94 7 5.685 - 6.625 6.155

4 6.63 – 7.56 0.94 25 6.625 - 7.565 7.095

5 7.57 – 8.50 0.94 17 7.565 - 8.505 8.035

6 8.51 – 9.44 0.94 12 8.505 - 9.445 8.975

7 9.45 – 10.38 0.94 3 9.445 - 10.385 9.915

total 73

FRECUENCIA ACUMULADA (fa) La frecuencia acumulada de un intervalo, se obtiene sumando la frecuencia de ese intervalo con la frecuencia de los intervalos anteriores. La frecuencia acumulada del último intervalo, corresponde al número total de datos. Esta indica la cantidad de datos que se llevan cuantificados, según la clase utilizada.

n21 f...fffa

1fa440fa

2fa954fa

FRECUENCIA ACUMULADA RELATIVA (far) La frecuencia acumulada relativa se obtiene sumando sucesivamente las frecuencias relativas.

Limites de clase c f L.R.C. X fr fa far

LI - LS L.R.I. – L.R.S.

1 3.81 - 4.74 0.94 4 3.805 - 4.745 4.275 0.0548

2 4.75 – 5.68 0.94 5 4.745 - 5.685 5.215 0.0685

3 5.69 – 6.62 0.94 7 5.685 - 6.625 6.155 0.0959

4 6.63 – 7.56 0.94 25 6.625 - 7.565 7.095 0.3425

5 7.57 – 8.50 0.94 17 7.565 - 8.505 8.035 0.2329

6 8.51 – 9.44 0.94 12 8.505 - 9.445 8.975 0.1644

7 9.45 – 10.38 0.94 3 9.445 - 10.385 9.915 0.0411

total 73 1.0001

MEDIDAS DESCRIPTIVAS PARA DATOS AGRUPADOS

1.- La media: n

fx

x

n

iii

1 donde: xi = la marca de clase

f =frecuencia n = número de datos

Page 15: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 15

37.73654.7

73

3*915.9...7*155.65*215.54*275.4x

2.- La media geométrica: fr

ixG

23.72317.7915.9*...*215.5*275.4 0411.00685.00548.0 G

3.- La media armónica:

i

i

x

f

nH

08.7

915.9

3...

215.5

5

275.4

4

73

H

4.- La mediana: cf

fan

IRLMda

*2...

El intervalo que contiene la mediana será aquel que contenga la mitad de los datos (fa).

L.R.I.= limite real inferior que contienen a la mediana faa = frecuencia acumulada anterior a la que contiene a la mediana fi = frecuencia del intervalo que contiene a la mediana c = tamaño del intervalo

5.362/73 , para este caso el intervalo que contiene a la media es el número 4.

40.73958.794.0*25

162

73

625.6

Md

5.- Moda: cLRIMo

21

1

Dónde: LRI es de la clase modal (es la de mayor frecuencia)

1 = la diferencia entre la frecuencia del intervalo que contiene a la moda y la frecuencia del intervalo

anterior

2 = la diferencia entre la frecuencia del intervalo que contiene a la moda y la frecuencia del intervalo

siguiente c = tamaño del intervalo

El intervalo que contienen a la moda es el que tiene la mayor frecuencia. Para este caso es el mismo intervalo que contenía a la mediana (4)

Page 16: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 16

28.72757.794.0*

1725725

725625.6

X

MEDIDAS DE UBICACIÓN

cf

aLRIQk

Donde LRI: Es el límite real inferior de la clase en donde se localiza la medida de ubicación.

a: la diferencia del cuartil calculado y la frecuencia acumulada del intervalo anterior de la clase calculada

f: Es la frecuencia de los datos donde se localiza la medida de ubicación. c: Es el ancho de clase.

Para Q1: 25.184

)1(73

4

nm1Q

71.67096.694.025

25.2625.61

Q

Para Q2 = 7.40

Para Q3:

75.544

373

43

nmQ

(

) ( )

Para D3:

90.2110

373

103

nmD

85.68468.694.025

9.5625.63

D

MEDIDAS DE DISPERSIÓN

1.- Rango: R = marca de clase superior – marca de clase inferior

R = xs – xi

R = 9.915 – 4.275 = 5.64

2.- Rango intercuartilar: Se obtiene de la misma forma que para los datos no agrupados.

RI = Q3 - Q1

RI = 8.42 – 6.71 = 1.71

Page 17: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 17

3.- Varianza: 2

22 x

n

xfs

( ) ( ) ( )

4.- Desviación Estándar: 2SS

Al igual que los datos no agrupados, esta es la última medición que se realiza en este proceso de medición. Después de realizar las medidas correspondientes a nuestros datos, la forma más fácil de visualizar estas mediciones es por medio de gráficos. Se sugiere solo representar a los datos agrupados.

REPRESENTACIÓN GRÁFICA DE LOS DATOS AGRUPADOS

En el estudio de la Estadística Descriptiva es fundamental el uso de representaciones gráficas de datos

para una mejor visualización y comprensión de la información. Existen varios tipos de representaciones gráficas de las cuales son: 1.- Gráfica circular 2.- Diagrama de barras 3.- Histograma 4.- Polígono de frecuencias 5.- Ojiva 6.- Gráficos de líneas 7.- Pictogramas Sólo estudiaremos el histograma, polígono de frecuencias y la ojiva

Page 18: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 18

1.- HISTOGRAMA: Es la representación gráfica más usada para fines estadísticos. Para su construcción se parte del diagrama de barras verticales donde la base de cada barra representa los limites reales de clase y la altura, la frecuencia absoluta o relativa.

Para que haya continuidad en el histograma se usan los límites reales de los intervalos con objeto

que cuando se estén trazando las barras entre un intervalo y otro no exista separación alguna.

2.- POLÍGONO DE FRECUENCIAS: Se toma la altura de cada intervalo (ordenada de cada marca de clase)

y luego se une con segmentos de recta cada punto medio para obtener el polígono de frecuencias.

2

4

6

8

10

12

f

L.R.C.

2

4

6

8

10

12

f

X

Page 19: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 19

3.- LA OJIVA.- Para dibujar el polígono de frecuencias acumuladas u ojiva, se toma la columna de fra o fa para indicar la altura de cada intervalo y marcar un punto sobre el eje vertical para al final unir los puntos, en el horizontal se identifica con los límites reales superiores de cada intervalo. Toda ojiva inicia con una frecuencia relativa igual a cero asociada al límite real inferior del primer intervalo; y siempre es abierta.

5

10

15

20

25

30

fa

L.R.C.

35

40

45

50

Page 20: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 20

RELACIÓN EMPÍRICA ENTRE MEDIA, MEDIANA Y MODA Las gráficas 1 y 2 muestran las posiciones relativas de la media, la mediana y la moda para curvas de frecuencias asimétricas a derecha e izquierda, respectivamente. Para curvas simétricas, los tres valores coinciden. Gráfica 1 Gráfica 2

TIPOS DE CURVAS DE FRECUENCIAS Las curvas que aparecen, en la práctica adoptan ciertas formas características, como ilustran las siguientes gráficas. Simétrica o en forma de Asimétrica (sesgada) a la Asimétrica (sesgada) a la Campana derecha (sesgo positivo) izquierda (sesgo negativo) En forma de J En forma de J inversa En forma de U

Bimodal Multimodal

1. Las curvas de frecuencias simétricas o en forma de campana, se caracterizan porque las observaciones equidistantes del máximo central tienen la misma frecuencia. Ejemplo importante es la curva normal.

2. En las curvas de frecuencia poco asimétricas o sesgadas, la cola de la curva a un lado del máximo central es más larga que al otro lado. Si la cola mayor está a la derecha, la curva se dice asimétrica a la derecha o de asimetría positiva. En caso contrario, se dice asimétrica a la izquierda o de asimetría negativa

3. En una curva en forma de J o J invertida, hay un máximo en un extremo. 4. Una curva de frecuencia en forma de U tiene máximos en ambos extremos. 5. Una curva de frecuencia bimodal tiene dos máximos. 6. Una curva de frecuencia multimodal tiene más de dos máximos.

La asimetría puede ser positiva o derecha (la media es mayor que la mediana); negativa o izquierda (la

media es menor que la mediana), o nula (la media es igual a la mediana, es decir la figura es simétrica).

Mo

da

Med

iana

Med

ia

Mo

da

Med

iana

Med

ia

Page 21: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 21

La asimetría puede cuantificarse mediante el coeficiente de Pearson (Karl Pearson, matemático inglés,

1857-1936). Pearson 1 cuando no hay moda

( )

Pearson 2 cuando hay moda

Cuando el resultado es negativo indica que la media es menor que la mediana, es decir, está a la

izquierda de la mediana.

MOMENTOS Y CURTOSIS La deformación respecto al eje horizontal de una distribución de frecuencias se conoce como curtosis o

aplastamiento. Una medida cualitativa de la forma de las distribuciones de frecuencias las clasifica en: Leptocúrticas: Sus datos se concentran en un reducido intervalo de valores.

Mesocúrticas: Estas presentan una concentración de valores alrededor de la media, y una reducción de éstos hacia los extremos. A éstas se le conoce también como distribuciones normales o campanas de Gauss.

Platicúrticas: En ellas los datos se distribuyen de manera relativamente uniforme en todo el rango de valores.

Leptocúrtica Mesocúrtica Platicúrtica El coeficiente de curtosis puede calcularse por medio de los momentos de la distribución de frecuencias.

El primer momento es igual a cero (siempre), y que el segundo momento es siempre igual a la varianza de la distribución.

Los momentos se calculan utilizando la siguiente fórmula:

N

xx

n

n

i

ni

1

El coeficiente de cúrtosis se obtiene:

22

4

k

Dónde: C.P. Coeficiente de Pearson es la media

�� es la mediana 𝑥 es la moda

S es la desviación estándar

Dónde: es el momento n es el número de momento N es el número total de valores Xi es cada valor

Donde: k es el coeficiente de curtosis

4 es el momento 4

2 es el momento 2

Page 22: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 22

INTERPRETACIÓN Y COMPRENSIÓN DE LA MEDIA Y DESVIACIÓN ESTÁNDAR La desviación estándar mide la variación entre los valores. Los valores cercanos producirán una desviación estándar pequeña, mientras que los valores muy dispersados producirán una desviación estándar más grande. Se considerarán tres formas diferentes para lograr una apreciación de los valores de las desviaciones estándar.

1.- REGLA PRÁCTICA DEL INTERVALO: Se basa en el principio de que para muchos conjuntos de

datos, la vasta mayoría (tanto como el 95 %) de los valores muestrales se ubican dentro de dos desviaciones estándar de la media.

Para obtener un estimado burdo de la desviación estándar: 4

rangos

Para interpretar un valor conocido de la desviación estándar: si se conoce la desviación estándar, utilizarla para calcular estimados burdos de los valores muestrales mínimos y máximos comunes por medio de

Valor mínimo “común” = media – 2 X desviación estándar

Valor máximo “común” = media + 2 X desviación estándar

Ejemplo. Resultados anteriores del National Health Survey sugieren que las circunferencias de las cabezas de niñas de dos meses de edad tienen una media de 40.05 cm y una desviación estándar de 1.64 cm. Utilizar la regla práctica del intervalo para calcular el mínimo y el máximo “comunes” de las circunferencias de las cabezas. (Estos resultados serían prácticos para un médico al que le interese identificar circunferencias “infrecuentes”, que serían el resultado de un trastorno como la hidrocefalia). Después, determinar si una circunferencia de 42.6 cm sería considerada “infrecuente”.

mínimo = media – 2 (desviaciones estándar) máximo = media + 2 (desviaciones estándar) = 40.05 – 2 (1.64) = 40.05 + 2 (1.64) = 36.77 cm = 43.33 cm con base en estos resultados, esperamos que, generalmente, las niñas de dos meses de edad

tengan una cabeza cuya circunferencia mida entre 36.77 cm y 43.33 cm. Como 42.6 cm está dentro de estos límites, se consideraría una niña normal.

2.- REGLA EMPÍRICA PARA DATOS CON DISTRIBUCIÓN NORMAL (68-95-97.7): Esta regla

establece que las siguientes propiedades se aplican a conjuntos de datos que tienen una distribución aproximadamente normal.

Aproximadamente el 68 % de todos los valores están dentro de una desviación estándar de la media.

Aproximadamente el 95 % de todos los valores están dentro de dos desviaciones estándar de la media.

Aproximadamente el 99.7 % de todos los valores están dentro de tres desviaciones estándar de la media.

34 % 34 %

13.5 % 13.5 %

2.4 % 2.4 %

+ s + 2s + 3s

0.1 % 0.1 %

- s - 2s - 3s

El 68 % dentro de s

El 95 % dentro de 2 s El 99.7 % dentro de 3 s

Page 23: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 23

Frase Significado

Dentro de una desviación estándar de la media Entre ( x - s) y ( x + s)

Dentro de dos desviaciones estándar de la media Entre ( x - 2s) y ( x + 2s)

Dentro de tres desviaciones estándar de la media Entre ( x - 3s) y ( x + 3s)

3.- Teorema de Chebyshev (1821-1894): Para cualquier conjunto de datos y cualquier constande k mayor que 1, el porcentaje de los datos que debe caer dentro de k desviaciones estándar de cualquier lado de la media es de por lo menos

2

11

k

Ejemplo: Si todas las latas de una libra de café llenadas por un procesador de alimentos tienen un peso

medio de 16.00 onzas con una desviación estándar de 0.02 onzas, ¿qué porcentaje de las latas, como mínimo, debe contener entre 15.80 y 16.20 onzas de café?

Ya que k desviaciones estándar o k (0.02) equivale a: 16.20 – 15.80 = 0.20 Tenemos que k (0.02) = 0.02 y k = 0.20/0.02 = 10. De acuerdo con el teorema de Chebyshev, se deriva que por lo menos 1 – 1/10

2 = 0.99 o 99% de las latas debe contener entre 15.8 y

16.20 onzas de café. El teorema de Chebyshev se aplica a cualquier tipo de datos, pero sólo nos indica “por lo menos qué porcentaje” debe caer entre ciertos límites.

Otra forma de calcular k es por medio de:

1090

13

2

PP

QQ

K

Page 24: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 24

NOCIONES SOBRE TEORIA DE CONJUNTOS

PRINCIPIOS NECESARIOS PARA PROBABILIDAD

TEORÍA DE CONJUNTOS

Un conjunto es cualquier colección de objetos bien definidos, de tal manera que se pueda decir siempre si un objeto pertenece o no al conjunto al cual nos referimos. Los objetos que componen un conjunto se denominan elementos.

Los conjuntos se denotan con letras mayúsculas y se emplean letras minúsculas para denominar sus elementos y es posible determinar o establecer un conjunto con cualquiera de las formas siguientes:

1.- ENUMERACIÓN (NOTACIÓN TABULAR O POR EXTENSIÓN): En este método los elementos que lo

integran se colocan dentro de llaves separados por comas, por ejemplo: A = {a,e,i,o,u}

2.- DESCRIPCIÓN (NOTACIÓN CONSTRUCTIVA, DE REGLA O POR COMPRENSIÓN): En esta forma se enuncia una propiedad o atributo que caracterice a todos los elementos del conjunto, por ejemplo:

B = {los números enteros menores que – 2}

Otra forma de definir conjuntos, es aquella que consiste en el uso de una variable genérica, por ejemplo x, es decir, un indicador de elementos y una frase o relación matemática que especifique con toda precisión los elementos que se están generando, todo ello encerrado en una llave, además se usa el símbolo “|” que se lee “tal que”, por ejemplo:

C = {x | x es una vocal} de donde A = {a,e,i,o,u} D = { x | x + 7 = 10} de donde D = {3}

J = { x | x es un río de Europa} de donde J = {Río Rin}

CLASIFICACIÓN DE CONJUNTOS DE ACUERDO CON SU CARDINALIDAD

De acuerdo con el número de elementos que forman parte de un conjunto se tiene la siguiente clasificación.

1) CONJUNTO VACÍO: Es aquel conjunto que carece completamente de elementos, se representa por o con las llaves vacías, por ejemplo:

Sea H el conjunto de funcionarios mexicanos honrados, H = , ó H ={ }

2) CONJUNTO UNITARIO: Se puede representar con cualquier letra y es todo aquel que únicamente tiene un elemento por ejemplo:

El conjunto de satélites naturales de la Tierra. 3) CONJUNTO FINITO: Se puede representar con cualquier letra y es todo aquel en donde puede

efectuarse el conteo exacto de sus elementos. 4) CONJUNTO INFINITO: Se pueden distinguir dos situaciones:

Page 25: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 25

a) CONJUNTO INFINITO NO CONTABLE: Es un conjunto con una cardinalidad elevada pero por dificultades generalmente de carácter físico o tecnológico no se puede efectuar el conteo exacto de sus elementos, por ejemplo:

El conjunto de moléculas en un vaso de agua El conjunto de estrellas de la Vía Láctea.

b) CONJUNTO INFINITO CONTABLE: Es todo aquel donde efectivamente existe un número infinito

de elementos, por ejemplo: Conjunto de números naturales.

5) CONJUNTO UNIVERSAL: Es el conjunto que se compone de todos los elementos que se están

analizando, su símbolo es U, por ejemplo:

Sea el conjunto U = {los estados de la República Mexicana}, serían subconjuntos entre otros, los siguientes:

A = {Tlaxcala, Aguascalientes} B = {Durango}

RELACIÓN DE PERTENENCIA

Dado el conjunto A = {1, 2, 3} para expresar que 2 es un elemento del conjunto A se emplea el símbolo

el cual se lee “es un elemento de” o “pertenece a” por lo tanto se indica:

2 A.

Cuando un elemento no pertenece a un conjunto se usa el símbolo que se lee “no es un elemento

de” o “no pertenece a” por lo tanto 5 A.

CLASIFICACIÓN DE CONJUNTOS DE ACUERDO CON SUS RELACIONES

De acuerdo con la relación que puede haber entre una pareja de conjuntos se clasifican en:

1) Conjuntos comparables.- Se dice que dos conjuntos son comparables si todos los elementos de un conjunto pertenecen también al otro conjunto, también se dice que el primero es un subconjunto del segundo o bien que el segundo es un superconjunto del primero.

2) Conjuntos no comparables.- Cuando no se cumple la condición anteriormente establecida se dice que

los conjuntos no son comparables, existen dos situaciones diferentes: a) Conjuntos traslapados.- Son aquellos que comparten a uno o varios elementos comunes pero

ninguno de ellos tiene totalmente a los elementos del otro. b) Conjuntos disjuntos o ajenos.- Son aquellos que no tienen ningún elemento en común. Para utilizar correctamente al símbolo que relaciona conjuntos la parte abierta deberá estar dirigida

hacia el superconjunto de mayor cardinalidad y la parte cerrada hacia el subconjunto o el conjunto de menor cardinalidad.

Dados los conjuntos:

A = {a, b, c, d, e} A B ó B A B = {b, d, e}

Page 26: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 26

OPERACIONES ENTRE CONJUNTOS

Las operaciones entre conjuntos cumplen con la propiedad de cerradura, es decir, dan como resultado a otro conjunto formado por los elementos que dependerán de los elementos de conjuntos originales, así como del tipo de operación u operaciones combinadas que se realicen. Las operaciones entre conjuntos que son de utilidad para el cálculo de probabilidades son:

1) Unión.- Se representa mediante una letra U simple y se tiene como resultado otro conjunto

formado por todos los elementos de los dos conjuntos originales, evitando la repetición de elementos en aquellos casos en los que comparten uno o más elementos, en la forma constructiva esta operación se define como:

A B = {x | x A o x B}

A = {a, b, c, d, g} B = {b, c, d, e, f}

A B = {a, b, c, d, e, f, g}

A esta operación también se le llama reunión de conjuntos ya que lo que se hace es reunir en otro conjunto a los elementos de los conjuntos originales.

2) Intersección.- Se representa mediante una U invertida () y se obtiene como resultado a otro conjunto formado por los elementos comunes de los dos conjuntos originales, en la forma constructiva esta operación se define como.

A B = {x | x A y x B}

A B = {b, c, d}

3) Complemento.- Se puede representar en las formas Ac, A*, A´. Que debe leerse "a

complementado" ó "complemento de a", se obtiene como resultado otro conjunto formado por elementos del conjunto universal que no se encuentren en el conjunto original:

A´= {x | x A}

sean: A = {a, b, d, g}, U = {a, b, c, … , j}, A´= {c, e, f, h, i, j } 3) Diferencia.- También se le conoce como resta o sustracción entre conjuntos, la diferencia de A –

B, en este orden, es el conjunto de todos los elementos que pertenecen a A pero no a B. Algunos autores expresan la diferencia como A \ B, por ejemplo:

A – B = {x | x A y x B} A = {1, 2, 3, 4, 5} B = {1, 2}

A – B = {3, 4, 5,}

B – A = { }

4) Operación producto.- El producto de A X B es el producto de todos los posibles pares ordenadas,

tales que la primera componente del par ordenado es un elemento de A y la segunda componente es un elemento de B. La expresión A X B se lee “A cruz B” y se expresa:

A X B = {(x,y) |X A y Y B}

Se lee “la pareja (x, y) tal que x pertenece al conjunto A y al conjunto B”

A = {a, e} B = {1, 2, 3}

A X B = {(a, 1), (a, 2), (a, 3), (e, 1), (e, 2), (e, 3)}

Page 27: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 27

6) Diagrama de árbol.- Si en un problema en que sea necesario obtener el producto de tres o más

conjuntos y el desarrollo resulta complicado, para actuar con cierta seguridad se utiliza lo que se conoce como diagrama de árbol.

Si uno de los conjuntos A, B o C es un conjunto vacío, el resultado de A X B X C es un conjunto vacío.

Sean los conjuntos: A = {a, b, c} B = {2, 4} C = {3, 4, 5} Obtener el conjunto producto A X B X C, con el diagrama de árbol

3 (a, 2, 3) 2 4 (a, 2, 4)

5 (a, 2, 5) a

3 (a, 4, 3) 4 4 (a, 4, 4)

5 (a, 4, 5) 3 (b, 2, 3) 2 4 (b, 2, 4)

5 (b, 2, 5) b

3 (b, 4, 3) 4 4 (b, 4, 4) 5 (b, 4, 5) 3 (c, 2, 3) 2 4 (c, 2, 4)

5 (c, 2, 5) c

3 (c, 4, 3) 4 4 (c, 4, 4) 5 (c, 4, 5)

Page 28: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 28

LEYES DEL ÁLGEBRA DE CONJUNTOS

1.- Leyes de idempotencia

1a. A A = A 1b. A A = A 2.- Leyes asociativas

2a. (A B) C = A (B C) 2b. (A B) C = A (B C) 3.- Leyes conmutativas

3a. A B = B A 3b. A B = B A

4.- Leyes distributivas

4a. A (B C) = (A B) (A C) 4b. A (B C) = (A B) (A C) 5.- Leyes de identidad

5a. A = A 5b. A U = A

6a. A U = U 6b. A = 6.- Leyes de complemento

7a. A AC = U 7b. A

A

C =

8a. (AC)C

= A

8b. UC = ,

c = U

7.- Leyes de De Morgan

9a. (A B)C = A

C B

C 9b. (AB)

C = A

C B

C

Page 29: Cuadernillo 1 2015 1

PROBABILIDAD Y ESTADISTICA

APUNTES REALIZADOS POR: Ing. Citlali Sofía Rincón Ruíz 29

DIAGRAMA DE VENN – EULER

Los diagramas de Venn son representaciones gráficas de los conjuntos que nos permiten visualizarlos. Ejemplo: En las operaciones siguientes el área sombreada es el resultado de cada una, excepto en el

último, porque el resultado es el conjunto vacío

1. 2. 3.

A B A B A – B 4. 5. 6.

A´ B´ (A B)´ 7. 8. 9.

(A B)´ A B´ A B

A B

U

A B

U

A B

U

A B

U

A B

U

A B

U

A B

U

A

B

U

A

B

U