Transcript

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

UNIDAD II: ESTADISTICA DESCRIPTIVAIntroduccin: La estadstica descriptiva es un conjunto de procedimientos que tienen por objeto presentar conjuntos de datos por medio de tablas, grficos y/o medidas de resumen. De acuerdo a lo anterior, la estadstica descriptiva es la primera etapa a desarrollar en un anlisis de informacin. Qu es la Estadstica? La estadstica es una disciplina que disea los procedimientos para la obtencin de los datos, como asimismo proporciona las herramientas que permiten extraer la informacin. Propsito de la Estadstica. El anlisis estadstico se usa para manipular, resumir e investigar datos con el fin de obtener informacin til en la toma de decisiones. Observacin: No olvide que el propsito de todos los procedimientos estadsticos, independientemente de su complejidad, es extraer informacin til de los datos disponibles. Algunas aplicaciones de conceptos estadsticos pueden ser: a) b) c) d) e) En contabilidad: Recoleccin de datos. En prevencin de riesgos: La prevalencia de accidentarte el trabajador. En sistemas de informacin administrativas: Recoleccin de datos, Regresin. En administracin de operaciones: Nmeros ndices. En control de calidad: Presentacin de datos, Estadstica descriptiva.

1. Definiciones 1.1. Poblacin y muestra Poblacin: es el conjunto completo de individuos o elementos de inters. Existen momentos en los que se puede medir o examinar cada elemento de la poblacin, por ejemplo, todos los estudiantes de una clase contestarn un cuestionario. Si hay 35 estudiantes en la clase y slo se desea la informacin sobre esta clase, los estudiantes constituyen la poblacin, y se puede medir a cada uno por sus respuestas al cuestionario. Cuando se intenta medir a todos los miembros de una poblacin de inters, el resultado es un censo.Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

1

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

Censo: es medir todos los elementos de una poblacin de inters. En la mayora de las investigaciones estadsticas es imposible estudiar a toda la poblacin, debido que los censos son difciles y muy costosos. De esta manera es necesario seleccionar un pedazo de esta poblacin o mejor llamado muestra. Muestra: es un subconjunto representativo seleccionado de la poblacin. El concepto de representativo es muy importante ya que una buena muestra es aquella que refleje las caractersticas esenciales de la poblacin de la cual se obtuvo. Nota: Un parmetro es cualquier caracterstica medible de la poblacin, y un estadstico o estadgrafo es cualquier caracterstica medible de una muestra. 1.2. Variables y atributos: Tipo de datos Unidad: es el objeto que observamos. Cuando el objeto es una persona, lo referimos como sujeto. Observacin: es la informacin o caracterstica que registramos de cada unidad. Una caracterstica que puede variar de unidad en unidad es llamada variable. Una coleccin de observaciones con una o ms variables se llama base de datos. Los datos estadsticos generalmente se obtienen contando o midiendo objetos. Algunos ejemplos de medidas son el promedio de notas, la tasa de desempleo, las ventas mensuales de un supermercado, la tasa de accidentes vehiculares, etc. Estas medidas se llaman variables, porque pueden tomar muchos valores diferentes. Una variable es un elemento de inters que pude tomar muchos valores numricos diferentes. Una constante tiene un valor fijo. Las variables se pueden clasificar en dos tipos: cuantitativas o cualitativas. Una variable cuantitativa es aquella que posee valores numricos que representan medidas (largo, peso, etc.) o frecuencias (nmero de accidentes). Tiene sentido realizar operaciones numricas con estas variables. Adems estas variables se subdividen en discretas y continuas. Una variable cuantitativa discreta se dice de la cual se puede contar el nmero posible de valores (por ejemplo: nmero de accidentes en el metro, cantidad de ilesos, etc). Una variable cuantitativa continua puede tomar cualquier valor en un intervalo dado y est sujeto a la precisin de los instrumentos de medicin (por ejemplo: el tiempo en que un trabajador realiza una tarea, el cual depende de la precisin del cronmetro usado).

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

2

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

Una variable cualitativa es aquella que clasifica las unidades en categoras. Las categoras pueden tener un orden natural (ordinales) o no (nominales), de esta manera las variables cualitativas se dividen en ordinales y nominales. Las variables cualitativas tambin se llaman variables categricas. Con estas variables podemos contar nmero de casos, comparar entre categoras, pero no podemos realizar operaciones numricas. Un ejemplo de variable categrica ordinal podra ser el nivel de accidentacin del trabajador (nunca sucede, la mitad de las veces sucede o siempre sucede) y para una variable categrica nominal podra ser el sexo del individuo (femenino o masculino). Lo anterior se mostrar como la siguiente tabla:

Ejemplo 1: Determine qu tipo son las siguientes variables. Si son variables cualitativas (nominal u ordinal) o cuantitativas (discretas o continuas). a) Marca de automvil variable cualitativa nominal b) Duracin de un compacto (segundos) variable cuantitativa continua c) Nmero de temas de un compacto variable cuantitativa discreta d) Nivel educacional (bsica, media, universitaria) variable cualitativa ordinal e) Temperatura al medioda en Talca (grados Celcius) variable cuantitativa continua f) Estado civil (soltero, casado, divorciado, viudo) variable cualitativa nominal g) Cantidad de lluvia en un ao en Talca (mm3) variable cuantitativa continua

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

3

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

2. Recoleccin y presentacin de datos: Distribucin de frecuencias Una vez que se hayan reunido los datos, deben procesarse de tal manera que pueda observarse cualquier patrn significativo. En esta etapa se debe estudiar algunas tcnicas que permitan convertir los datos brutos en informacin relevante en la toma de decisiones. En este tem se darn las tcnicas bsicas ms usadas para presentar el conjunto de datos en forma resumida. Estas tcnicas son importantes tanto para datos cuantitativos como para los cualitativos. Una forma comn y muy til para resumir el conjunto de datos es la distribucin de frecuencias o tabla de frecuencias. Este mtodo de presentacin de datos muestra la frecuencia (nmero de ocurrencias) para cada una de las categoras. Ejemplo 2 (Variable cualitativa o atributo): Los resultados obtenidos al observar el estado de 80 artculos que componen un lote, dio origen a los siguientes datos: A A D R A ARRAAADAAARAAAARRAADAAAARAAARAAAARARAA A A A A A A R A A A D A A A A A A A A A R R A A A A A A A A A A A R A R D. Solucin: La tabla de distribucin de frecuencias est dada por: Categoras Piezas aceptadas (A) Piezas rechazadas (R) Piezas dudosas (D) Total Frecuencia absoluta ( n i ) 60 15 5 n = 80 Frecuencia relativa ( f i ) 0.75 (60/80) 0.19 (15/80) 0.06 (5/80) 1.00 (80/80)

Ejemplo 3 (Variable cuantitativa discreta): Para estimar el nmero de alumnos ausentes en las clases de Estadstica, un profesor decide seleccionar 25 clases al azar (muestra) y contar el nmero de alumnos que faltan por clase (variable). Los datos son los siguientes: 7,10,8,6,8,9,9,9,8,6,3,9,8,7,9,10,4,5,10,2,7,8,7,8 y 6.

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

4

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

Solucin: La tabla de distribucin de frecuencias est dada por: i 1 2 3 4 5 6 7 8 9 Categoras(xi ) 2 3 4 5 6 7 8 9 10 Total ni 1 1 1 1 3 4 6 5 3 n = 25 fi 0.04 0.04 0.04 0.04 0.12 0.16 0.24 0.20 0.12 1.00 Ni

Fi1/25 = 0.04 2/25 = 0.08 3/25 = 0.12 4/25 = 0.16 7/25 = 0.28 11/25 = 0.44 17/25 = 0.68 22/25 = 0.88 25/25 = 1

1 2 3 4 7 11 17 22 25

Donde: n i : Es la frecuencia absoluta (nmero de coincidencias en la categora). Por ejemplo en la categora 5 hay 3 coincidencias o sea n 5 = 3 . fi =

ni se llama frecuencia relativa de la i-sima categora (se acostumbra expresarla n en porcentaje). Por ejemplo para la categora 5 f 5 = 0 . 1 2 indica que el 12% de las veces faltaron 6 alumnos a clases. N Adems de las frecuencias relativas es conveniente indicar las frecuencias absolutas acumuladas ( N i ) y las frecuencias relativas acumuladas ( F i ), donde por ejemplo:5

= n1 + n2 + n3 + n4 + n5 = 7 N 7 F5 = 5 = = 0 .2 8 o l o n 2 5

y s q lu o e m e F 5i =s fm1 + fo 2 + f 3 + f 4 + f 5 = 0 . 2 8

N 5 = 7 indica que con siete clases se tiene a lo ms 6 alumnos ausentes. F 5 = 0 . 2 8indica que el 28% de las veces faltaron 6 alumnos o menos, mientras que el 72% restante faltaron ms de 6 alumnos. Cuando el nmero de valores posibles de una variable cuantitativa discreta o continua sea grande, conviene agrupar en intervalos de clase.

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

5

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

Los intervalos pueden ser de amplitud variable o constante. La seleccin del nmero de intervalos o clases (k), depende de cada caso. Es aconsejable que haya menos de 15 clases (para un fcil manejo y con el fin de asegurar una compactacin suficiente de informacin) y por lo menos 5 (para evitar la prdida de informacin que se producira al reunir en un grupo datos muy diferentes). Por lo general, las clases se eligen de modo que la amplitud de cada una de ellas sea igual para todas las categoras o intervalos de clase. Pasos para la construccin de una distribucin de frecuencias: 1er Paso Determinar k, nmero de clases. Se utiliza la regla de Sturge que dice: k 1 + 3 . 3 l o n g) ( 2do Paso Determinar A, el tamao o amplitud de cada clase. Para ello se determina la diferencia entre el valor ms grande del conjunto de datos y el ms pequeo, y luego se divide por el nmero de clases (k). O sea: A = 3er Paso 4to Paso 5to Paso Xm ia m x

o X k

m

i i mn

o

Determinar el punto inicial de la primera clase. Contar el nmero de valores que ocurren en cada clase. Preparar la tabla de frecuencia utilizando las frecuencias absolutas y/o relativas.

Observaciones: Si existe un nmero grande de elementos u observaciones, digamos ms de 1000, por lo general se usa un nmero relativamente grande de clases (11 o ms). Si el conjunto de datos es pequeo, por ejemplo, menos de 60 observaciones, se usa un nmero pequeo de clases (5 6).

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

6

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

Ejemplo 4: (Variable cuantitativa continua) Los siguientes datos representan las duraciones, en aos, de 40 bateras de autos similares. Las bateras estaban garantizadas para durar tres aos. Construyamos una tabla de frecuencias para lo siguientes datos:2. 2 3. 2 3. 4 3. 8 2. 5 2. 9 3. 3 3. 2 4. 7 3. 9 4. 1 3. 7 1. 6 3. 1 4. 3 3. 3 3. 1 4. 1 3. 8 3. 0 3. 5 3. 0 3. 1 4. 7 3. 4 3. 9 3. 7 1. 9 3. 2 4. 2 4. 5 2. 6 3. 3 3. 7 3. 6 3. 1 4. 4 3. 4 2.6 3.5

Solucin: 9 Como k 1 + 3 . 3 l o 4 g ) 0 (= 6 . 2 , podramos considerar entre 6 7 intervalos. En este caso vamos a tomar 7 intervalos, lo que nos dara una amplitud de intervalo de: A = 4 .7 1 .6 = 0 .4 7 4 30 . 5

Para tomar el punto inicial de la primera clase consideraremos el valor mnimo del conjunto de datos o sea 1.6, de esta forma la tabla de frecuencias estara definida por:Intervalos de clase [1.6 2.0] [2.1 2.5] [2.6 3.0] [3.1 3.5] [3.6 4.0] [4.1 4.5] [4.6 5.0]

Lmites Exactos[1.55 2.05] [2.05 2.55] [2.55 3.05] [3.05 3.55] [3.55 4.05] [4.05 4.55] [4.55 5.05]

Marca de Clase1 ( m i )1.8 2.3 2.8 3.3 3.8 4.3 4.8

ni2 2 5 15 8 6 2 n = 40

fi0.05 0.05 0.125 0.375 0.2 0.15 0.05 1.0

N

i

Fi0.05 0.1 0.225 0.6 0.8 0.95 1

2 4 9 24 32 38 40

1

Marca de Clase ( m i ): es el promedio de cada intervalo de clase o Lmite Exacto.

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

7

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

3. Representacin Grfica Es muy til clasificar los datos en categoras (o intervalos de clase) y determinar sus frecuencias pero muchos analistas prefieren una representacin grfica. El grfico ms comn es aquel donde las clases o categoras se representan en el eje horizontal y las frecuencias en el eje vertical. Los grficos ms utilizados son: Grfico circular o diagrama de torta Diagrama de barras Histograma Polgono de frecuencias Ojiva o polgono de frecuencias acumuladas 3.1. Grfico circular o diagrama de torta Este grfico consiste en desplegar las frecuencias absolutas ( n i ) o relativas ( f i ) en un crculo completo. Se aplica a datos cualitativos. El tamao de las porciones del crculo (ngulo) es proporcional a la frecuencia en cada categora. Ejemplo 5: Graficaremos los datos de la tabla del ejemplo 2 donde usaremos las frecuencias relativas, quedando el grfico como:Estado de los artculos

6% 19% Piezas aceptadas Piezas rechazadas Piezas dudosas 75%

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

8

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

3.2. Diagrama de barras Un diagrama de barras es un mtodo habitual de presentar en forma grfica datos cualitativos. Cada barra representa la frecuencia (o conteo) de una categora. La altura de la barra es proporcional al nmero de elementos en esa categora. En general las barras se ponen en posicin vertical con la base en el eje horizontal de la grfica. Las barras pueden ir separadas, donde la separacin deja de manifiesto que se estn dibujando frecuencias de categoras distintas. Ejemplo 6.1: Usaremos el ejemplo 2, donde las categoras sern el estado de los artculos. El grfico de barras queda dado por:Estado de los artculos 70 60 50 40 30 20 10 0 Piezas aceptadas Piezas rechazadas Piezas dudosas 15 5 Estado de los artculos 60

Ejemplo 6.2: La ciudad de procedencia de 36 alumnos de la Universidad de Talca se puede graficar como:

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

9

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

3.3. Histograma El histograma es la representacin grfica ms utilizada para datos agrupados en intervalos (se aplica solamente para datos cuantitativos). Un histograma es un conjunto de rectngulos, cada uno de los cuales representa un intervalo de agrupacin o clase. Sus bases son iguales a la amplitud del intervalo y las alturas se determinan de manera que su rea sea proporcional a la frecuencia de cada clase. Ejemplo 7: Utilizaremos al ejemplo 4, de modo que la grfica es:Duracin de las bateras de los autos frecuencia relativa 0,4 0,3 0,2 0,1 0 [1.55 2.05] [2.05 2.55] [2.55 3.05] [3.05 3.55] [3.55 4.05] [4.05 4.55] [4.55 5.05] Duracin (aos ) 0,05 0,05 0,125 0,375 0,2

0,15 0,05

(En el eje x van los lmites exactos o reales) 3.4. Polgono de frecuencias El polgono de frecuencias es otro mtodo usual de presentar grficamente datos agrupados en intervalos (se aplica solamente para datos cuantitativos). Para construir el polgono de frecuencias se marcan las frecuencias sobre el eje vertical y los valores de la variable en el eje horizontal. Despus se representa la frecuencia de cada clase dibujando un punto sobre el punto medio m i de la clase y se conectan los puntos sucesivos con lneas rectas para formar un polgono. En los extremos de la escala horizontal se agregan dos nuevas clases con frecuencia cero. Esto permite que el polgono llegue al eje horizontal en los extremos de la distribucin.

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

10

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

Ejemplo 8: Vamos a emplear el ejemplo 4, donde el grfico de polgonos de frecuencias sera:Duracin de las bateras de los autos 16 14 12 10 8 6 4 2 0 15

Frecuencia

8 5 2 0 y=0 1,8 2 2,3 2,8 3,3 3,8 4,3 6 2 4,8 0 y=0

POLIGONO DE FRECUENCIAS

Duracin de bateras (aos)

3.5. Ojiva o polgono de frecuencias acumuladas El polgono de frecuencias acumuladas se usa para determinar cuntas observaciones o datos hay menores que un valor determinado en una distribucin. Se aplica solamente para datos cuantitativos. Ejemplo 9: De nuevo emplearemos el ejemplo 4, donde el grfico ojiva sera:Duracin de las bateras de los autos Frecuencia Acumulada 50 40 30 20 10 0 0 2 4 9 24 32 OJIVA 38 40

1,55

2,05

2,55

3,05

3,55

4,05

4,55

5,05

Duracin de bateras(aos)

La Ojiva nos dice, por ejemplo, que hay alrededor de 38 autos donde sus bateras duran menos o igual a 4,55 aos.

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

11

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

4. Medidas de Tendencia Central Hasta aqu nos hemos preocupado de la descripcin de un conjunto de observaciones, ya sea grficamente o por medio de una distribucin de frecuencias. Sin embargo, en muchos casos, en vez de trabajar con todas las observaciones es preferible disponer de una o ms medidas descriptivas que resuman los datos en forma cuantitativa. Tales medidas reciben el nombre de Estadstica o estadgrafos. Al calcular valores descriptivos que resuman un conjunto de datos, la primera consideracin es encontrar un valor central o representativo de los datos. El trmino valor central puede referirse a la moda, a la mediana o a la media aritmtica, entre otras. Cada una de estas medidas es apropiada para ciertos propsitos descriptivos, pero puede resultar completamente inadecuada para otros.

Moda (Mo)La moda de un conjunto de datos es el valor que ocurre con ms frecuencia. Caractersticas de la moda: Algunos conjuntos de datos no tienen moda Algunos conjuntos de datos tienen ms de una moda La moda no tiene propiedades matemticas valiosas para usarlas en otros clculos

Ejemplo 10.1: Si un conjunto de datos consiste en los valores de las notas de ciertos alumnos y son 4, 5, 6, 2, 2, 3, 4, 4, 6 y 7, la moda aqu sera 4. Ejemplo 10.2: Si un conjunto de datos posee los siguientes valores: 12, 14, 15, 16, 15, 18, 19, 20 y 14, los valores 14 y 15 ocurren con una frecuencia de dos. Por tanto, se puede decir que es un conjunto bimodal, con modas 14 y 15. Si ningn valor hubiera aparecido ms de una vez, los datos no tendran moda.

Mediana (Me)En los casos que se requiere de un valor central que no sufra los efectos de distorsin de los valores extremos, se usa la mediana. La mediana de un conjunto de datos, ordenados de menor a mayor, es un valor tal que la mitad de las observaciones son menores que tal valor y la otra mitad de las observaciones son mayores que ese valor.

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

12

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

Pasos para encontrar la mediana: 1. Ordenar los datos de menor a mayor 2. Calcular la posicin de la mediana: ( n + 1 ) 2 , donde n es el nmero de observaciones 3. a) Si el nmero de observaciones es impar, la mediana es un nico trmino central. b) Si el nmero de observaciones es par, la mediana es el promedio de los dos trminos centrales. Caractersticas de la mediana: Todo conjunto de datos cuantitativo o cualitativo a nivel ordinal tiene una mediana La mediana no es sensible a los valores extremos La mediana no tiene propiedades matemticas valiosas para usarlas en otros clculos

Ejemplo 11.1: El nmero de personas atendidas por da en una sala de emergencia de un hospital en una semana son: 25, 35, 26, 52, 78, 30 y 45; la mediana es 35. Ejemplo 11.2: Si las edades de 20 sujetos son: 32, 37, 39, 40, 41, 41, 41, 42, 42, 43, 44, 45, 45, 45, 46, 47, 47, 49, 50 y 51. Como n = 20 es par calculamos (n+1)/2 y obtenemos (20+1)/2 = 10,5, es decir, la mediana se encuentra entre la dcima y undcima observacin (43 y 44). Por lo tanto la mediana es el promedio de stos dos trminos, o sea es igual a (43+44)/2 = 43,5 aos.

Media aritmtica ( x )La media aritmtica o tambin llamada promedio (o simplemente media) es la medida de tendencia central ms utilizada y ms prctica. La media aritmtica se calcula sumando todos los valores numricos y dividiendo por el nmero de valores. El smbolo que se usa para la media de una poblacin es la letra griega , y el smbolo para la media de la muestra es x (x barra). Con frecuencia las medidas de un conjunto de datos referidos a una muestra se representan por: x 1 , x 2 , x 3 , . . . , x n donde x 1 es la primera medida en el conjunto de datos, x 2 es la segunda medida y as sucesivamente hasta x n la ltima.

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

13

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

La ecuacin siguiente se usa para calcular la media de una muestra

x = donde

n

i=1

xi

n

n

i=1

x i representa la suma de todos los valores de la muestra y n el tamao de la

muestra. Caractersticas de la media: Todo conjunto de datos derivado de una variable cuantitativa tiene una media. La media tiene propiedades matemticas valiosas que hacen que sea conveniente usarla en otros clculos La media es sensible a valores extremos

Observacin importante: A veces a los valores x 1 , x 2 , x 3 , . . . , x n de una variable se les asocia ciertos factores o pesos w 1 , w 2 , w 3 , . . . , w n que dependen de la importancia de cada uno de los valores. En este caso la media aritmtica se llama media aritmtica ponderada y se determina de la siguiente manera:

x =

n

i=1

xiwn

i

=

w

x1 w 1 + x2 w w1 + w

2 2

+ x 3 w 3 + . . .+ x n w + w 3 + . . .+ w ni

n

i=1

i

donde x i son los valores de los datos a promediar, y w aplicados a los valores x i .

son los pesos o ponderaciones

Ejemplo 12.1: Un grupo de 20 dueas de casa gasta en promedio $200.000 mensuales en supermercado. Otro grupo de 50 dueas de casa gasta un promedio de $60.000 mensuales en supermercado. Cul es el gasto promedio mensual en supermercado de las 70 dueas de casa?. Solucin: Aqu n = 20 + 50 = 70 x 1 : es el gasto mensual en supermercado de un grupo de 20 dueas de casa x 1 = $200.000 : es el gasto promedio mensual en supermercado del grupo de 20 dueas de casa x 2 : es el gasto mensual en supermercado de un grupo de 50 dueas de casaAsignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

14

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

x 2 = $60.000 : es el gasto promedio mensual en supermercado del grupo de 50 dueas de casa Por lo tanto el gasto promedio mensual en supermercado de las 70 dueas de casa est dado por:

x =

2

i=1

xiw2

i

=

w

x1 w 1 + x2 w w1 + w 2

2

=

2

0

0 20 +0 6 0 0 0 2 + 5 0 0

0 5 0 0 0 = 1

0

0

0

0

0

i=1

i

De esta manera el gasto promedio mensual en supermercado de las 70 dueas de casa es de $100.000 . Propiedades de la media aritmtica: Si cada valor x 1 , x 2 , x 3 , . . . , x n de un conjunto de nmeros se aumentan en b unidades, entonces la media aritmtica de la nueva variable es igual a: x + b Si cada valor x 1 , x 2 , x 3 , . . . , x n de un conjunto de nmeros se multiplica por a, entonces la media aritmtica de la nueva variable es igual a: a x

Ejemplo 12.2: a) Los sueldos de cuatro personas son: $350.000, $250.000, $300.000 y $300.000, lo que da un sueldo promedio de $300.000 . Si a cada una de estas personas se les aumenta el sueldo en $15.000, entonces el sueldo promedio es ahora: $300.000 + $15.000 = $315.000 . b) Si las notas de los test de un estudiante son: 5, 5, 4 y 6, y se decide aumentar en un 20% cada una de ellas, cul va ser la nota promedio del estudiante despus del aumento del 20%?.

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

15

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

5. Medidas de Dispersin Se llama dispersin o variacin de los datos, al grado en que los datos tienden a extenderse alrededor de un valor medio. Las medidas de tendencia central no proporcionan suficiente informacin para una adecuada descripcin de los datos, porque no toman en cuenta la variabilidad o dispersin de stos. Para evitar falsas interpretaciones de las medidas de tendencia central, por ejemplo de la media aritmtica, es necesario acompaar este valor con un coeficiente que mida el grado de dispersin de la distribucin de la variable. Las medidas de dispersin ms usadas son el Rango o Recorrido, la Varianza, la Desviacin Estndar y el Coeficiente de Variacin.

RangoEl Rango o Recorrido se define como el valor absoluto de la diferencia entre los valores mximo y mnimo de un conjunto de observaciones. Rango = Mximo Mnimo Las ventajas del rango son su independencia respecto a las medidas de tendencia central y su facilidad de clculo. Su desventaja es que para su clculo se atizan slo dos valores del conjunto de datos. Ejemplo 13: El nmero de personas atendidas por da en una sala de emergencia de un hospital en una semana son: 25, 35, 26, 52, 78, 30 y 45; el rango o recorrido va ser igual a la diferencia entre 78 y 25, es decir, 78 25 = 63 .

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

16

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

Varianza y Desviacin EstndarEstas dos medidas de dispersin son las ms importantes y las de mayor utilidad prctica y terica. Se define la varianza muestral de un conjunto de valores x 1 , x 2 , x 3 , . . . , x de los cuadrados de las desviaciones2, y se denota por S . Es decir:n

como el promedio

S

2

=

(xi=1

n

i

x

)

2

n 1

Para describir la variabilidad de los datos, en vez de usar la varianza muestral se usa la raz cuadrada de esta, denotada por S y se llama desviacin estndar muestral. La desviacin estndar muestral es, por lo general, ms conveniente que la varianza muestral para interpretar la variabilidad de un conjunto de datos, ya que S est expresada en unidades al cuadrado, en tanto que S tiene las mismas unidades que los datos originales. La desviacin estndar muestral se define como:

S =

(xi=1

n

i

x

)

2

n 1

Importante: Cuando estamos interesados en obtener la varianza y la desviacin estndar de una poblacin ocupamos las siguientes frmulas:

V (X ) =

2

=

N

i=1

(x i xN

)

2

y

=

(xi=1

N

i

x

)

2

N

Ejemplo 14: Para ilustrar el clculo de la varianza y la desviacin estndar muestrales, supondremos que los valores de X en la tabla siguiente representan el nmero de grabadoras ensambladas por 10 trabajadores diferentes en una fbrica el pasado mes. Esto es, el primer trabajador ensambl x 1 = 1 1 grabadoras, el segundo x 5 x =2 0

= 1 xi 0 = 1

2 , etc. 2 2 1 0 0 0 = 1 2 0

El promedio de grabadoras ensambladas por trabajador es: (grabadoras)2

1

i=1

1

Desviaciones: son las diferencias entre la observacin y su promedio.

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

17

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

xi x1 = 1 x x2

d i = (x i x 1 2 2 1 1 2 3 2 1 1 2 5 2 9 3 9 4 2 0 0 6 0 d1 = x1 x = 1 d d d d d d d d d1 2 3 4 5 6 7 8 9 1 0

)d d d d d d 2 d d 0 d d2 1 2 2 2 3 2 4 2 5 2 6 2 7 2 8 2 9 2 1 0 1 0

d

2 i

1 15 2 = 0 5 2 12 2 = 02 2 19 2 = 09 1 13 2 = 0 7 1 19 2 = 0 1 2 14 2 = 04 3 12 2 = 01 2 10 2 = 0 1 10 2 = 0 1 1 16 2 = 0 4 di = 00

= (x i x 5 1 9 6 42

)

2

= (5)2 = 2 = (2 ) = 4 = (9 )2 = 8 = (7 ) = 42

= 1 = 1

= x2 x = 1 = x3 x = 1 = x4 x = 1 = x5 x = 1 = x6 x = 1 = x7 x = 1 = x8 x = 1 = x9 x = 10

x3 = 14

x5 = 1 x6 = 1 x x7

= ( 1) = 12

= (4 )2 = 1 = ( 1 )2 = 12

= 1 = 1

4 0 6 0

x8 = 19

= (0) = 02

= ( 1 ) 02 = 1 = (4) = 12 i

x 1 0= 1 SUMA

= x 1 0 x = 1i

1

0

i=1

xi = 1

0

i=1

(x

x)=

1

i=1

(xi=1

x

)

2

=

1

0

d

2 i

= 4

3

6

i=1

En la segunda columna estn las desviaciones respecto a la media. Observar que la suma de estas desviaciones es igual a cero. En la tercera columna estn los cuadrados de las desviaciones respecto a la media, cuya suma es 436. Entonces, la varianza muestral es:

1 0 1 y la desviacin estndar muestral es: S =

S

2

=

(xi=1

1

0

i

x

)

2

=

4 9

3

6 = 4 . 48 ( g

r a

b

a) 2 d

o

r a

s

4 . 48 = 6 . 9

(6 g

r a

b

a)

d

o

r a

s

Interpretacin de la desviacin estndar muestral: La variacin de grabadoras ensambladas por 10 trabajadores es de aproximadamente 7 grabadoras con respecto a su media.

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

18

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

Observaciones: En muchos casos se hace difcil realizar una interpretacin precisa de los valores de S y S, en razn que la variabilidad depende en gran medida de la unidad que se esta midiendo. Por ejemplo, la variabilidad de los ingresos en Chile es ciertamente mayor cuando se mide en pesos que cuando se mide en miles de pesos. En todo estos casos, cuando crece la dispersin de una poblacin, tambin crecen los valores de S y S. Por otra, si S = S = 0, significa que no existe ninguna variabilidad entre los datos (todos los valores de X son iguales entre s, es decir, X es una constante).

Propiedades de la varianza: La varianza de una constante es cero, es decir, la varianza de X es cero si x 1 = x 2 = x 3 = . . . = x n = c , y se escribe V(c) = 0 Si cada valor x 1 , x 2 , x 3 , . . . , x n de un conjunto de nmeros se aumentan en a unidades, entonces la varianza de la nueva variable es igual a: V ( X + a ) = V ( X ) Si cada valor x 1 , x 2 , x 3 , . . . , x n de un conjunto de nmeros se multiplica por a, entonces la varianza de la nueva variable es igual a: V ( a X ) = a 2 V ( X )

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

19

FACULTAD DE CIENCIAS DE LA SALUD CARRERA DE TECNOLOGA MDICA

Coeficiente de VariacinPara comparar el grado de dispersin entre dos o ms distribuciones expresadas en distintas unidades de medida, no podemos comparar simplemente las varianzas o a las desviaciones estndar respectivas. En este caso se define el llamado Coeficiente de Variacin o Coeficiente de Dispersin Relativa que est dado por: C V = S x

El coeficiente de variacin (CV) es independiente de las unidades de medida utilizadas y est generalmente expresado en porcentaje. Un inconveniente de este coeficiente es que deja de ser til cuando la media aritmtica es prxima a cero. Ejemplo 15: Para el ejemplo anterior, el coeficiente de variacin sera: C V = 6 .9 6 = 0 .0 1 2 0 5 ( 5 8. 8 % )

El coeficiente de variacin se interpretara como: existe una variacin de un 5.8% en las grabadoras ensambladas por los 10 trabajadores, respecto a su promedio.

Nota: Una Estadstica es una medida descriptiva numrica calculada a partir de datos de una muestra. Un Parmetro es una medida descriptiva numrica que usa la totalidad de las unidades de una poblacin.

Asignatura: Bioestadstica y Metodologa de la Investigacin (TMED0011) Profesor: Jorge Gmez M.

20


Recommended