Trabajo Colaborativo Numero 2 estadística descriptiva

TRABAJO COLABORATIVO NUMERO 2

JHON SEBASTIAN CALLE CORTES

CC 1088285332

JORDAN ANDRES CALLE CORTES

CC 1088310524

NATHALIA MARIA RENDON

CC 1089745976

TUTOR: ROBERTO MARIO DE LEON

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

ESTADÍSTICA DESCRIPTIVA

22/05/2013

Introducción

En este segundo trabajo colaborativo se desarrolló un taller con base en el manejo del contenido visto en el módulo de estadística descriptiva unidad 2, con la finalidad de profundizar sobre los temas y teorías planteados y observar la total comprensión de los temas propuestos en la unidad 2 por los estudiantes del curso estadística descriptiva.

1. Realizar un mentefacto conceptual sobre las medidas de dispersión.

2. Las estaturas en centímetros de los socios de un club juvenil de Bogotá, son las siguientes:

153 123 129 132 147 138 137 134 131 147138 128 134 148 125 139 146 145 148 135152 128 146 143 138 138 122 146 137 151145 124 132 138 144 141 137 146 138 146152 156 160 159 157 168 178 142 113 130

Realizar una tabla de distribución de frecuencias para datos agrupados dado que la variable es estatura (cuantitativa continua), Calcular varianza, desviación estándar y coeficiente de variación. Interprete los resultados.

Rango = xm´ax−xm´ınRango: 178 – 113 = 65

K = 1 + 322.3 log nNúmero de intervalos de clase: 1 + 3.322Log50 = 6,6 = 7

Amplitud de los intervalos= A = R kA = 65= 9,28 = 10 7

R* = (A) (K)R* = 10 x 7 = 70

Exceso = R – R*Exceso =70 – 65 = 5

Limites de clase: LCI – Limite de Clase Inferior: 113 LCS – Limite de Clase Superior: 178LCI = 113 + 3 = 116LCS = 178 - 2 = 176

Intervalos de ClaseSe agrega (A-1) = 10 – 1 = 9116 + 9 = 125125 + 9 = 134134 + 9 = 143143 + 9 = 152152 + 9 = 161161 + 9 = 170170 + 9 = 179

FRECUENCIASEstatura en

cmsFrecuencia

Frecuencia relativa (%)

Frecuencia absoluta acumulada

Frecuencia relativa acumulada

116 – 125 5 10% 5 10%125 – 134 9 18% 14 28%134 - 143 14 28% 28 56%143 – 152 15 30% 43 86%152 – 161 5 10% 48 96%161 – 170 1 2% 49 98%170 - 179 1 2% 50 100%

Total 50 100%

MEDIAn = cantidad de elementos Xi = valor de cada elemento X = media aritmética, o simplemente media x

X= Xi n

X = 7.064 = 141,3 50

VARIANZA

Varianza: 7206,10 = 144.12 50

Xi X (Xi – X) (Xi – X)2

113 141,3 -28,3 800,89122 141,3 -19,3 372,49123 141,3 -18,3 334,89124 141,3 -17,3 299,29125 141,3 -16,3 265,69128 141,3 -13,3 176,89128 141,3 -13,3 176,89129 141,3 -12,3 151,29130 141,3 -11,3 127,69131 141,3 -10,3 106,09132 141,3 -9,3 86,49132 141,3 -9,3 86,49134 141,3 -7,3 53,29134 141,3 -7,3 53,29135 141,3 -6,3 39,69137 141,3 -4,3 18,49137 141,3 -4,3 18,49137 141,3 -4,3 18,49138 141,3 -3,3 10,89138 141,3 -3,3 10,89138 141,3 -3,3 10,89138 141,3 -3,3 10,89138 141,3 -3,3 10,89138 141,3 -3,3 10,89139 141,3 -2,3 5,29141 141,3 -0,3 0,09142 141,3 0,7 0,49143 141,3 1,7 2,89144 141,3 2,7 7,29145 141,3 3,7 13,69145 141,3 3,7 13,69146 141,3 4,7 22,09146 141,3 4,7 22,09146 141,3 4,7 22,09146 141,3 4,7 22,09146 141,3 4,7 22,09147 141,3 5,7 32,49147 141,3 5,7 32,49148 141,3 6,7 44,89148 141,3 6,7 44,89151 141,3 9,7 94,09152 141,3 10,7 114,49152 141,3 10,7 114,49153 141,3 11,7 136,89156 141,3 14,7 216,09157 141,3 15,7 246,49159 141,3 17,7 313,29

160 141,3 18,7 349,69168 141,3 26,7 712,89178 141,3 36,7 1346,89

7064 7206,10

Desviación estándar o típica

Varianza: 7206,1 = 144.12 Raíz cuadrada: 12 50

Desviación estándar o típica = 12

Coeficiente de Variación

CV = Desviación estándar * 100% Media

CV = 12 * 100% = 8.5% 141.3 Coeficiente de variación = 8,5 %

3. Un empleado de la empresa de Acueducto de la ciudad de Cartagena, realiza un estudio sobre los reclamos realizados en los 2 últimos años, para ello elige una muestra de 60 personas, con los siguientes resultados:

Nº Reclamaciones

0 1 2 3 4 5 6 7

Nº De usuarios 26 10 8 6 4 3 2 1

Calcular: a. El promedio de reclamos.

X = 94 = 1,6 60

b. La varianza y su desviación típica

Varianza: 356 -- (157)2= 3,5 60

Desviación estándar o típica

Raíz cuadrada de 3,5 = 1,9

c. El coeficiente de variación.

CV = 1,9 *100 = 118,7 % 1,6

4. En un examen final de Estadística la puntuación media de un grupo de 150 estudiantes fue de 78 y la varianza 64. En álgebra, sin embargo, la media final del grupo fue de 73 y la desviación tipica7, 6. En que asignatura hubo mayor:

a. Dispersión absoluta

Para determinar la dispersión absoluta, basta con hacer una comparación entre sus desviaciones estándar. EXAMEN DE ESTADISTICAPuntuación media: 78Varianza: 64Desviación típica: Raíz cuadrada de 64 = 8Coeficiente de variación:

CV = 8 *100 = 10,25 % 78

EXAMEN EN ALGEBRAMedia final: 73Desviación típica 7,6Varianza: 57.76Coeficiente de variación: CV = 7,6 *100 = 10,41 % 73

Estadística = Desviación Estándar = s = 8Algebra = Desviación Estándar = s = 7.6Se tiene entonces que en Estadística hubo una mayor dispersión absoluta, pues la desviación estándar de estadística es de 8 > 7,6, desviación estándar de Algebra. b. Dispersión relativa

Para saber en cuál hubo mayor dispersión relativa, se recurre al coeficiente de variación:

Estadística = CV = 8 * 100 = 10.25 78

Algebra = CV = 7.6 * 100 = 10.41 73

La dispersión Relativa muestra que el Coeficiente de Variación de los exámenes deAlgebra es mayor que el de Estadística 10.41 > 10.25.

Entonces de manera absoluta hay mayor dispersión entre los resultados de los exámenes de estadística pero de manera relativa hay mayor dispersión en los resultados de

Exámenes de algebra.

c. Si el estudiante consiguió 75 en estadística y 71 en álgebra. ¿En qué asignatura fue su puntuación relativa superior?

Estandarizamos con Z= (valor - media) desviación

Estadística Z = (75-78) = -0.375 8

Algebra Z = (71-73) = -0.2632 7,6

La puntuación relativa mayor fue en Álgebra (-0.2632)

Estos valores de puntuación Z negativos indican que ambas calificaciones se encuentran por debajo de la media.Dado que -0.2632 se encuentra más cerca a 0 (la media de la variable estandarizada), se dice que la puntuación relativa del estudiante fue superior Algebra.

5. Ingresar al blog de Estadística Descriptiva que se encuentra en la página principal del curso en el TOPICO DE CONTENIDOS, posteriormente buscar el LABORATORIO (RERESIÓN Y CORRELACIÓN LINEAL –EXCELL) y realizar el ejercicio número 1 que se encuentra al final del laboratorio.

Se quiere estudiar la asociación entre consumo de sal y tensión arterial. A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después.

X (SAL) Y (PRESION)1,8 1002,2 983,5 1054 110

4,3 1125 120

a. Realice el diagrama de dispersión y determine el tipo de asociación entre las variables b. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la otra. Es confiable? c. Determine el porcentaje de explicación del modelo y el grado de relación de las dos variables. d. Si a un paciente se le administra una dosis de sal de 6,5. ¿Cuál es la tensión arterial esperada?

6. A continuación Se presentan las ventas nacionales de móviles nuevos de 1992 a 2004 en

la siguiente tabla. Obtenga un índice simple para las ventas nacionales utilizando una base

variable:

Año Ventas (millones $)

1992 8.8

1993 9.7

1994 7.3

1995 6.7

1996 8.5

1997 9.2

1998 9.2

1999 8.4

2000 6.4

2001 6.2

2002 5.0

2003 6.7

2004 7.6

Si 8.8 es el 100%

9.7 ____ X X= (9.7*100)/8.8= 110.2272

Si 9.7 es el 100%

7.3 ____X X=(7.3*100)/9.7= 72.2577

Si 7.3 es el 100%

6.7 ____X X=(6.7*100)/7.3= 91,7808

Si 6.7 es el 100%

8.5 ____X X=(8.5*100)/6.7= 126,8656

Si 8.5 es el 100%

9.2 ____X X=(9.2*100)/8.5= 108,2352

Si 9.2 es el 100%

8.4 ____X X=(8.4*100)/9.2= 91,30437

Si 8.4 es el 100%

6.4 ____X X=(6.4*100)/8.4= 76,1904

Si 6.4 es el 100%

6.2 ____X X=(6.2*100)/6.4= 96,875

Si 6.2 es el 100%

5.0 ____X X=(5.0*100)/6.2= 80,6451

Si 5.0 es el 100%

6.7 ____X X=(6.7*100)/5.0= 134

Si 6.7 es el 100%

7.6 ____X X=(7.6*100)/6.7= 113.4328

Medidas de dispersión Total Hombres Mujeres

Media 28,69 28,00 29,37

Varianza 415,91 407,42 423,16

Desviación estándar 20,39 20,18 20,57

Coeficiente de variación 71% 72% 70%

MEDIDAS ESTADÍSTICAS UNIVARIANTES

MEDIDAS DE TENDENCIA CENTRAL

Al ver la forma de representar los conjuntos de datos en histogramas y polígonos de

frecuencia se puso de relieve un comportamiento peculiar de estos, y es el de mostrar una

tendencia a agruparse alrededor de los datos más frecuentes, haciendo de esta forma que

estas representaciones adquieran una forma de campana.

Media aritmética

Es la medida más conocida y la más fácil de calcular. Se define como la suma de los

valores de una cantidad dada de números dividido entre la cantidad de números.

Donde: n = cantidad de elementos

Xi = valor de cada elemento

x = media aritmética, o simplemente media

Media aritmética para datos no agrupados

Podemos diferenciar la fórmula del promedio simple para datos poblaciones y muéstrales:

Observe que la variación de ambas fórmulas radica en el tamaño de los datos (N identifica

el tamaño de la población, mientras que n el de la muestra).

Ejemplo: la media aritmética para datos no agrupados

El profesor de la materia de estadística desea conocer el promedio de las notas finales de

los 10 alumnos de la clase. Las notas de los alumnos son:

3,2 3,1 2,4 4,0 3,5

3,0 3,5 3,8 4,2 4,0

¿Cuál es el promedio de notas de los alumnos de la clase?

SOLUCIÓN

Aplicando la fórmula para datos no agrupados tenemos:

Cabe anotar que en el ejemplo estamos hablando de una población correspondiente a todos

los alumnos de la clase (10 alumnos en total). El promedio de las notas es de 3,47.

Modifiquemos la primera nota por 0,0 y calculemos nuevamente la media aritmética.

En este caso la media pasa de 3,47 a 3,15. Esta variación notoria se debió a que la media

aritmética es sensible a los valores extremos cuando tratamos con pocos datos. El 0,0 es

una nota atípica comparada con las demás, que están ubicadas entre 3,0 y 4,2.

Media aritmética para datos agrupados

En el capitulo 2 explicábamos dos tipos de tablas de frecuencias (A y B). Cuando los datos

se agrupan en tablas tipo A, la media aritmética es igual a la división de la sumatoria del

producto de las clases por la frecuencia sobre el número de datos.

La sumatoria parte desde el primer intervalo de clase (i = 1) hasta el último (Nc), siendo X i

la clase del intervalo i.

Cuando los datos se agrupan en tablas de frecuencias tipo B, el cálculo de la media varía un

poco, ya que existe una pérdida de información en el momento en que se trabaja con

intervalos de frecuencia y no con los datos directamente (los datos se agrupan por intervalo,

desconociendo el valor exacto de cada uno de ellos).

Las marcas de clases (Mc) cumple la función de representar los intervalos de clase.

Ejemplo: media aritmética para datos agrupados en tablas tipo A

La siguiente tabla de frecuencia muestra el número de preguntas de 81 encuestados sobre

un Test que consta de solo seis preguntas.

Preguntas Buenas Personas

SOLUCIÓN

PASO 1: Realizar la sumatoria del producto resultante de las clases por su frecuencia

absoluta. Para efectos del cálculo de la media, deberíamos sumar 15 veces el valor 1, 13

veces el valor 2, 8 veces el valor 3, hasta llegar a la última clase:

PASO 2: Dividir la sumatoria sobre el número total de datos.

En promedio los encuestados contestaron aproximadamente 3 (el valor exacto es 3,41)

preguntas buenas.

Ejemplo: media aritmética para datos agrupados en tablas tipo B

Calcular la media para los datos distribuidos en la siguiente tabla de frecuencia:

Ni Lm Ls f Mc

1 40,0 48,1 3 44,1

2 48,1 56,1 8 52,1

3 56,1 64,1 11 60,1

4 64,1 72,1 32 68,1

5 72,1 80,1 21 76,1

6 80,1 88,1 18 84,1

7 88,1 96,1 14 92,1

8 96,1 104,0 1 100,1

SOLUCIÓN

Las marcas de clase representan a los intervalos de clase, por ejemplo, suponemos que la

marca de clase para el primer intervalo (44,1) se repite 3 veces, al desconocer los 3 valores

exactos que están dentro de dicho intervalo.

PASO 1: Realizar la sumatoria del producto resultante entre las marcas de clase por su

frecuencia absoluta.

Ejemplo: comparativa entre el cálculo de la media aritmética para datos no agrupados y

datos agrupados en tablas tipo B

Calcular la media aritmética a los siguientes datos sin agrupar y agrupándolos en una tabla

de frecuencia tipo B (suponga que los datos son poblacionales):

47,8 23,1 12,4 35,4 44,0 26,2

18,6 11,0 32,0 12,4 49,4 41,4

18,6 21,0 26,3 11,1 21,4 30,6

12,8 43,1 18,1 38,1 16,8 12,4

33,6 40,9 15,2 33,2 48,2 37,0

SOLUCIÓN

Calculemos la media para los datos sin agrupar:

Luego construyamos la tabla tipo B y calculemos su media aritmética con el fin de

comparar ambos resultados:

Ni Lm Ls f Mc

1 11,00 17,41 8 14,21

2 17,41 23,81 6 20,61

3 23,81 30,21 2 27,01

4 30,21 36,61 5 33,41

5 36,61 43,01 4 39,81

6 43,01 49,40 5 46,21

Total 30

PASO 1: Realizar la sumatoria del producto resultante entre las marcas de clase por su

frecuencia absoluta.

Podemos ver claramente una diferencia entre ambas medias: 27,74 para los datos no

agrupados y 28,29 para los datos agrupados. Esta diferencia radica que en la tabla tipo B

existe una perdida de información, al agrupar los datos en los intervalos de clase. El valor

de la media exacta es el calculado para los datos no agrupados, pero dada la proximidad de

la media para los datos agrupados, se tomar esta última como cierta.

Media aritmética (µ o): Es el valor resultante que se obtiene al dividir la sumatoria de un

conjunto de datos sobre el número total de datos. Solo es aplicable para el tratamiento de

datos cuantitativos.

Mediana

Se define como el valor que divide una distribución de datos ordenados en dos mitades, es

decir, se encuentra en el centro de la distribución. La mediana se simboliza como Me. Es

menos usada que la media aritmética. Para su cálculo es necesario que los datos estén

ordenados. Cuando la cantidad de datos es impar, fácilmente se identifica la mediana; pero

cuando el número de datos es par, la mediana se calcula hallando el valor medio entre los

dos valores centrales y no coincidirá con ninguno de los valores del conjunto de datos.

Cálculo de la mediana para datos agrupados

La mediana se encuentra en el intervalo donde la f recuencia acumulada llega hasta

la mitad de la suma de las f recuencias absolutas .

Es decir tenemos que buscar el intervalo en el que se encuentre .

L i es el límite inferior de la clase donde se encuentra la mediana.

Es la semisuma de las frecuencias absolutas.

F i - 1 es la f recuencia acumulada anterior a la clase mediana.

a i es la amplitud de la clase.

La mediana es independiente de las ampli tudes de los intervalos .

Ejemplo: Calcular la mediana de una dis tr ibución estadís t ica que viene

dada por la s iguiente tabla:

f i F i

[60, 63) 5 5

[63, 66) 18 23

[66, 69) 42 65

[69, 72) 27 92

[72, 75) 8 100

100/2 = 50

Clase de la mediana: [66, 69)

Se ha solicitado a un grupo de 50 individuos información sobre el número de horas que

dedican diariamente a dormir y ver la televisión. La clasificación de las respuestas ha

permitido elaborar la siente tabla:

Nº de horas dormidas (X) 6 7 8 9 10

Nº de horas de televisión (Y) 4 3 3 2 1

Frecuencias absolutas (fi) 3 16 20 10 1

a. Calcular el coeficiente de correlación.

b. Determinar la ecuación de la recta de regresión de Y sobre X.

c. Si una persona duerme ocho horas y media, ¿cuánto cabe esperar que vea la televisión?

X Y F XY X2 Y2

6 4 3 24 36 16

7 3 16 21 49 9

8 3 20 24 64 9

9 2 10 18 81 4

10 1 1 10 100 1

40 13 50 97 330 39

Hallamos las medias:

X=40/50= 0.8

Y=13/50=0.26

Calculamos la covarianza

Covarianza= 97/50 – (0.8*0.26) =

Covarianza= 1.94 – 0.208 = 1.732

Ahora calculamos las desviaciones estándar

Desviación estándar X=√330/50 – 0.82

Desviación estándar= √6.6 – 0.64

Desviación estándar= √5.96 = 2.44

Desviación estándar X=2.44

Desviación estándar Y= √39/50 – 0.262

Desviación estándar Y=√0.78- 0.0676

Desviación estándar Y=√0.7124= 0.8440

Desviación estándar Y=0.8440

Coeficiente de correlación= 1.732/2.44*0.8440=

Coeficiente de correlación= 1.732/2.059=0.8411

Coeficiente de correlación= 0.8411

Recta de regresión de Y sobre X

Calculamos las varianzas

X= 330/5-0.82=

X=66-0.64=65.36

Varianza de X= 65.36

Y=39/5-0262

Y=7.8-0.0676=7.7324

Varianza de Y= 7.7324

Y-0.26 = 1.732/0.8 (x-0.8)

Y-0.26 = 2.165 (x-0.8)

Y-0.26=2.168X-1.732

Y=2.168X-1.732+0.26

Y=2.168X-1.47200

7. II-ACTIVIDAD DE INVESTIGACIÓN Realizar un recorrido a través de los resultados del Censo General 2005, ingresando a la página Web del DANE:

ACTIVIDAD A REALIZAR:

En este segundo trabajo colaborativo, deberán escoger previo acuerdo entre los integrantes del grupo, de los temas que presenta la página del censo, un grupo de datos para los cuales se pide -

Calcular:

1. Medidas de dispersión, Medidas de regresión y correlación

2. Interpretar los resultados obtenidos

3. El grupo entregara una conclusión acerca del tema escogido con base en los resultados Obtenidos.

Marca de clase Frecuencia Fx Fx2

4108861

4295913

4339046

3933754

3641839

3280767

2917290

2919161

2732504

2291308

1835340

1450658

1104733

278875

504438

702518

921054

210325

41468384

8217722

30071391

52068552

66873818

80120458

88580709

93353280

108008957

114765168

107691476

95437680

82687506

68493446

61710618

50581296

22867750

1188669828

18298275

38841726

16435444

210499737

624822624

1136854906

1762650076

2391679143

2987304960

3996331409

4820137056

5061499372

4962759360

4713187842

4246593652

4134611406

2990812902

3641853312

1875155500

1591949925

51165138626

1. Medias de dispersión

Varianza

Desviación estándar

Coeficiente de variación

Desviación media

2. Medidas de regresión y correlación.

X Y XY X2

4108861

4295913

4339046

3933754

3641839

3280767

2917290

2919161

2291308

2732504

1835340

1450658

921054

1104733

504438

702518

210325

278875

8217722

30071391

52068552

80120458

66873818

88580709

93353280

108008957

107691476

114765168

95437680

82687506

61710618

68493446

38841726

50581296

18298275

22867750

Coeficiente de correlación

2. Analizando de los resultados obtenidos

El promedio de edad en Colombia es de un 28.66 años, esto es debido a que la mayoría de las personas de Colombia son menores de 44 años, con un estándar del 20.31 que por lo tanto es caracterizada como una suma elevada.

Con un coeficiente de variación de un 70.83%, esto significa que hay una gran variación de edades en los colombianos por lo tanto (la media no representa la variación).

3. Conclusiones

De acuerdo a los resultados de la varianza podemos ver que hay menor dispersión en el año 2010 con respecto al 2011, es decir que hay menor diferencia de edad entre los grupos de personas que recibieron asistencia escolar.

Según la desviación típica en el año 2010 hay menor estabilidad en los grupos de edades con respecto a la media.

También estos resultados nos permiten ver que hay una gran variación en el grupo de datos, o sea que hay datos muy distantes o mucha diferencia entre las edades de los estudiantes.

Objetivos.

- Que los estudiantes comprendan y interioricen todos los temas que la unidad 2 presenta.

Conclusión.

Se evidencia la satisfactoria comprensión y entendimiento de la unidad 2 del módulo de estadística descriptiva al concluir este trabajo colaborativo satisfactoria mente, todos los integrantes del grupo hemos puesto en práctica lo que se ha aprendido al leer y estudiar el modulo y la unidad 2 de el mismo, también hemos realizado un trabajo en grupo el cual ha dado buenos resultados siendo este documento la prueba de ello.

Bibliografía

http://estadisticadescriptivaunad100105.blogspot.com/ http://66.165.175.244/campus05_20131/file.php/23/2013-1-_2C/Nuevo_TC2-2013-

1.pdf http://www.dane.gov.co/#twoj_fragment1-4 MODULOS - CONTENIDO DIDÁCTICO DEL CURSO: 100105 – Estadística

Descriptiva

Trabajo Colaborativo Numero 2 estadística descriptiva

Documents

Estadística descriptiva Descriptiva o Análisis

Estadística descriptiva

ESTADÍSTICA DESCRIPTIVA

Colaborativo 1 de Estadística descriptiva

Estadística Estadística Descriptiva

Estadística descriptiva Trabajo Colaborativo 1, Momento 1

Capítulo 2 Estadística descriptiva 23 Estadística descriptiva

ESTADÍSTICA DESCRIPTIVA