17
Clase 4 / El objetivo de la Estadística Descriptiva como se estableciera en la primera clase es presentar de manera resumida la información contenida en un conjunto de datos. Esta finalidad se logra presentando los datos en tablas, gráficos como se describiera en la clase dos. Otra manera de resumir los datos es mediante medidas que proporcionan alguna información sobre diferentes aspectos y características de la serie de datos. Estas medidas descriptivas se denominan en general medidas de resumen y se pueden calcular a partir de los datos de una muestra o de los datos de una población. Para distinguirlas entre sí se tienen las siguientes definiciones: 1. Una medida descriptiva calculada a partir de los datos de una muestra se llama estadística. 2. Una medida descriptiva calculada a partir de los datos de una población se llama parámetro. Además se pueden considerar diferentes tipos de medidas de resumen. Entre ellas se tienen: 1. De posición: si la información que proveen se refiere a la ubicación (en el eje de las x) del conjunto de datos y en particular si indican el lugar donde se encuentra el centro de la serie, reciben el nombre de medidas de tendencia central. 2. De variabilidad o dispersión: es el caso en el que se trata de proporcionar una idea acerca de la distribución de los datos. 3. De asimetría. 4. De kurtosis: se refiere al grado de concentración de los valores centrales.

clase 4 de bandis

Embed Size (px)

DESCRIPTION

Material

Citation preview

Clase 4 /

El objetivo de la Estadística Descriptiva como se estableciera en la primera clase es presentar de

manera resumida la información contenida en un conjunto de datos. Esta finalidad se logra

presentando los datos en tablas, gráficos como se describiera en la clase dos. Otra manera de

resumir los datos es mediante medidas que proporcionan alguna información sobre diferentes

aspectos y características de la serie de datos. Estas medidas descriptivas se denominan en

general medidas de resumen y se pueden calcular a partir de los datos de una muestra o de los

datos de una población. Para distinguirlas entre sí se tienen las siguientes definiciones:

1. Una medida descriptiva calculada a partir de los datos de una muestra se llama estadística.

2. Una medida descriptiva calculada a partir de los datos de una población se llama parámetro.

Además se pueden considerar diferentes tipos de medidas de resumen. Entre ellas se tienen:

1. De posición: si la información que proveen se refiere a la ubicación (en el eje de las x) del

conjunto de datos y en particular si indican el lugar donde se encuentra el centro de la serie,

reciben el nombre de medidas de tendencia central.

2. De variabilidad o dispersión: es el caso en el que se trata de proporcionar una idea acerca

de la distribución de los datos.

3. De asimetría.

4. De kurtosis: se refiere al grado de concentración de los valores centrales.

MEDIDAS DE POSICIÓN:

Dentro de ellas se encuentran las medidas de tendencia central que se denominan así porque

indican la ubicación del centro del conjunto de datos. De acuerdo al criterio usado para determinar

el centro, las tres medidas de tendencia central de uso más frecuente son: la media aritmética, la

mediana y el modo.

A continuación se desarrollarán el concepto, características y forma de cálculo de cada una de

ellas.

Media aritmética:

Es la medida de tendencia central más conocida. La mayoría de la gente tiene en mente esta

medida cuando se habla de promedio. Se obtiene sumando todos los valores en una población o

muestra y se divide entre el número de valores sumados.

Para una población se la define como:

 

donde el símbolo significa que todos los valores para la variable se suman desde el primero

hasta el último. Este símbolo se conoce como signo de sumatoria. Los valores de la variable se

representan como:

donde el subíndice “ i “ varía de 1 a N, cantidad de datos de la población.

Para el caso de una muestra se expresa de la siguiente forma:

 

En este caso se tiene:

donde el subíndice “ i “ varía de 1 a n, cantidad de datos de la muestra.

Ejemplo:

Se tiene disponible una muestra que se compone de 10 (n =10) edades de pacientes que ingresan

a una sala de emergencia.

 

Entonces:

 

La media aritmética tiene las siguientes propiedades:

Es única. Para un conjunto de datos hay una y sólo una media aritmética.

Simplicidad. El cálculo y comprensión de la media aritmética son sencillos.

La suma de los desvíos es cero. Si se designa con la letra d a los diferencias entre cada

valor y la media se define el desvío como:

Se puede demostrar que:

 

Es sensible a los valores extremos. Como todos los valores del conjunto de datos se consideran en

el cálculo de la media, ésta resulta muy afectada por los valores extremos que influyen sobre la

misma y que en algunos casos pueden distorsionarla y por lo tanto no resulta una medida

apropiada de tendencia central.

Cálculo para una serie de frecuencias

Su fórmula de cálculo en series de frecuencias es:

donde:

En este caso el subíndice “ i “ varía de 1 a k, donde “k” indica la cantidad de clases de la serie de

frecuencias.

Ejemplo:

El siguiente ejemplo será desarrollado para el cálculo de todas las medidas (posición y dispersión)

a lo largo de esta clase.

Considere la siguiente tabla de frecuencias que muestra estaturas en metros de 100 pacientes que

ingresaron a una sala de emergencia en un período determinado.

La primera columna indica las clases, la segunda, los intervalos de clase, la tercera, el punto medio

o marca de clase, la cuarta columna indica la frecuencia, la quinta es una columna adicional

necesaria para el cálculo de la media y la sexta columna es la columna de las frecuencias

acumuladas que se utilizarán para el cálculo de la mediana.

En este caso el valor de la media se calcula entonces como:

 

Mediana:

Es aquel valor que divide al conjunto de datos ordenado en dos partes iguales, de forma tal que el

número de valores mayor o igual a la mediana es igual al número de valores menores o iguales a

ésta. Si el número de valores es impar, la mediana es el valor medio. Cuando el número de valores

en el conjunto de datos es par, entonces la mediana corresponde a la media aritmética de los dos

valores centrales. A continuación se ejemplifican estas dos situaciones que se pueden dar para

series simples de datos.

Ejemplo (n impar):

Calcular la mediana en la siguiente serie de datos que corresponde a edades de 7 pacientes:

: 23 , 12 , 14 , 21 , 7, 32 , 24

En primer término se ordenan los datos de la serie

7, 12, 14, 21, 23, 24, 32

Entonces la mediana que se denota (  o Mna o Md) va a ser igual en este caso a 21 años.

Md = 21años

 

Ejemplo (n par):

Calcular la mediana en la siguiente serie de datos que corresponde a edades de 6 pacientes

: 23 , 12 , 14 , 22 , 7,  26

En primer término se ordenan los datos de la serie

7, 12, 14, 22, 23, 26

Entonces la mediana en este caso va a ser la media aritmética entre los dos valores centrales (14 y

22).

 

Cálculo para una serie de frecuencias

Para obtener la mediana en una serie de frecuencia primero se debe ubicar la clase que contiene la

mediana. Para ello se procede de la siguiente manera: se establece el valor de y aquella clase

cuya frecuencia acumulada supera este valor constituye la clase de la mediana. Teniendo esto en

cuenta se aplica la siguiente fórmula de cálculo para series de frecuencias (no se realizará la

deducción de esta fórmula).

donde:

 

Ejemplo:

Utilizando el mismo ejemplo que se usó para el cálculo de la media para series de frecuencias, 

primero se ubica la clase de la Mediana, esto es:

, entonces se observa la columna de las frecuencias acumuladas y se busca aquella clase que

supere el valor 50. Esto corresponde a la cuarta clase. Y ahora teniendo presente que esa es la

clase que contiene la Mediana, se aplica la fórmula y se procede de la siguiente manera.

 

Modo:

Es aquel valor que ocurre con mayor frecuencia. Si todos los valores son diferentes, se dice que la

serie no tiene modo. Por otro lado, puede ocurrir que haya más de un modo.

El modo se puede utilizar para describir datos cualitativos. Por ejemplo, supongamos una serie de

pacientes de una clínica de salud mental que reciben los siguientes diagnósticos: retardo mental,

síndrome cerebral orgánico, psicosis, neurosis y trastornos de personalidad. Aquel diagnóstico que

ocurriera con mayor frecuencia en el grupo de pacientes se denominaría diagnóstico modal.

Ejemplo :

Calcular el modo en la siguiente serie de datos que corresponde a edades de 9 pacientes

: 23 , 12 , 14 , 21 , 7, 32 , 24, 21, 21

En este caso el Modo (que se denota como Mo o ) sería 21 años.

Mo = 21 años

 

Cálculo para una serie de frecuencias

Para su cálculo en series de frecuencia primero se debe ubicar la clase modal. La clase modal se

define como aquella clase con mayor frecuencia. Una vez obtenida la clase modal o la clase que

contiene el modo se aplica la siguiente fórmula de cálculo en series de frecuencias (su deducción

no se realizará).

donde:

Ejemplo:

Utilizando el mismo ejemplo ya tratado, se ubica primero la clase modal o aquella clase que

contiene el modo. Para ello se observa la columna de las frecuencias y aquella con la mayor

frecuencia es la clase modal. En este caso se trata de la cuarta clase. Se aplica entonces la fórmula

y se obtiene lo siguiente:

Otras medidas de posición pero no necesariamente de tendencia central lo constituyen los cuartiles,

deciles y percentiles. Estas medidas se explican en la Unidad 4 del Módulo de manera más

detallada.

 

MEDIDAS DE DISPERSIÓN:

La dispersión de un conjunto de observaciones se refiere a la variabilidad que muestran estos

valores. La magnitud de la dispersión es pequeña cuando los valores, aunque diferentes, son

cercanos entre sí. Si los valores están ampliamente esparcidos, la dispersión es mayor. Como

medidas de dispersión se tienen: la amplitud o rango, la varianza y la desviación estándar. Estas se

conocen como medidas de variabilidad absoluta. Como medida de variabilidad relativa se tiene el

coeficiente de variación. A continuación se explican estas medidas.

Rango o amplitud:

Esta medida de variación se define como la diferencia entre el valor mas grande y el valor más

pequeño de una serie de datos. Se la denota con la letra R.

 

Su utilidad es limitada ya que solamente depende de los valores extremos y se pueden tener dos

series de datos con el mismo rango pero diferente variabilidad ya que en el centro de la serie los

datos se comportan de diferente manera. Esta situación no es evidenciada por el rango. Su ventaja

reside en la simplicidad de su cálculo.

 

Ejemplo:

Se tiene disponible una muestra que se compone de 10 (n =10) edades de pacientes que ingresan

a una sala de emergencia.

12 , 28 , 74 , 15 , 3 , 16 , 7 , 58 , 8 , 45

Los datos ordenados son: 3 , 7 , 8 , 12 , 15 , 16 , 28 , 45 , 58 , 74

Por lo tanto el rango está dado por:

 

Cálculo para una serie de frecuencias

 

Ejemplo:

Utilizando el ejemplo ya considerado de las estaturas de pacientes se tiene:

 

Varianza:

Cuando los valores de un grupo de datos se encuentran ubicados cerca de la media, la dispersión

es menor que cuando están más dispersos. Esta idea permite considerar una medida de dispersión

que tenga en cuenta la variabilidad alrededor de la media. Esta medida se conoce como varianza o

variancia. Para calcularla se resta la media de cada uno de los valores individuales y a estas

diferencias se elevan al cuadrado y se suman. Luego a esta suma se divide por la cantidad de

datos.

Se hace la distinción según se calcule la variancia en la población o en la muestra (de manera

similar a como se procedió con la media aritmética)

En la población se tiene:

En la muestra este cálculo se realiza de la siguiente manera:

El denominador en este caso es (n-1) y no n como se podría pensar. La razón de este denominador

no está al alcance de este módulo, solamente se dice que de esta manera S2 calculado en la

muestra estima mejor al verdadero valor de la población.

Ejemplo: Se considera el mismo ejemplo donde se calculó la media Se recuerda que en el mismo

se obtuvo . Se construye la siguiente tabla con las columnas auxiliares necesarias

para el cálculo de la varianza.

Entonces:

 

Cálculo para una serie de frecuencias

donde:

 

Ejemplo:

Para poder calcular la varianza (y posteriormente) la desviación estándar se agregarán columnas a

la tabla del ejemplo de series de frecuencias utilizado para el cálculo de las medidas de tendencia

central anteriormente presentada.

 

Se recuerda que el valor de la media aritmética ya obtenido fue de 1.477. Al aplicar entonces la

fórmula utilizando los cálculos intermedios que se observan en la tabla se tiene:

 

Para la primera fila de esta tabla se tendrían los siguientes cálculos que se repiten para las

restantes filas:

 

Desviación estándar:

Es solamente la raíz cuadrada de la variancia con lo cual las unidades vuelven a ser las originales.

Para una serie simple de cálculos se tiene:

 

Ejemplo:

Para la serie simple ya trabajada para el cálculo de la variancia se tiene:

 

Se observa que las unidades en las que se expresa la desviación estándar son las unidades

originales de la variable (años, en este caso en particular)

Cálculo para una serie de frecuencias

 

Ejemplo:

Para la serie de frecuencias considerada la desviación estándar estará dada por:

 

Coeficiente de variación:

Se denota como C.V. La desviación estándar es útil como medida de dispersión pero cuando se

quiere comparar la dispersión de dos conjuntos de datos, la comparación de las dos desviaciones

estándar puede dar resultados equivocados. Esto ocurre si las dos variables involucradas tienen

medidas en diferentes unidades (por ejemplo si se comparan estatura y peso) o si utilizando las

mismas unidades de medición, las dos medias pueden ser diferentes (por ejemplo si se comparan

pesos de niños y de adultos). En estos casos se necesita de una medida que expresa la desviación

estándar como porcentaje de la media. La fórmula es como sigue:

 

Se observa que la desviación estándar y la media se expresan en las mismas unidades y por lo

tanto se obtiene una medida adimensional que al multiplicarla por cien nos da la medida en

porcentaje.

Veamos el siguiente ejemplo:

Si se comparan las desviaciones estándar de las dos muestras referida a los pesos, parecería

indicar que presentan ambas muestras la misma variabilidad. Pero si se calculan los C.V. para

ambas muestras se obtiene

Si se observan los valores obtenidos entonces la conclusión es diferente. La muestra I presenta

menor variabilidad que la muestra II.

 Ejemplo:

Si se calcula el valor del C.V. para el ejemplo de serie de frecuencias considerado en esta clase se

tiene el siguiente valor: