23
SEPARATA CARRERA PROFESIONAL: INGENIERIA CIVIL Asignatura : Estadística General Tema : Medidas de Dispersión y Forma 2013 Docente: Jose Rafael Ocupa Ruiz 1

estadística

Embed Size (px)

DESCRIPTION

estadística para la ingeniería civil

Citation preview

SEPARATA

CARRERA PROFESIONAL: INGENIERIA CIVILAsignatura: Estadstica GeneralTema: Medidas de Dispersin y Forma

2013

Docente: Jose Rafael Ocupa Ruiz

Contenido

MEDIDAS DE DISPERSIN31.1 Rango o recorrido41.2 Rango intercuartil51.3 Varianza61.4 La desviacin estndar o tpica91.5 Coeficiente de variacin10Cuestionario y ejercicios propuestos12

MEDIDAS DE FORMA132.1 Estadgrafos de Deformacin132.1.1 El coeficiente de Asimetra de Pearson142.1.2 El coeficiente de Asimetra de Arthur Boeley142.2 Estadgrafos de Apuntamiento o Kurtosis152.2.1 Coeficiente de Kurtosis162.2.2 Coeficiente Percentil de Kurtosis16

1. Medidas de Dispersin

En el anlisis estadstico no basta el clculo e interpretacin de las medidas de tendencia central o de posicin, ya que, por ejemplo, cuando pretendemos representar toda una informacin con la media aritmtica, no estamos siendo absolutamente fieles a la realidad, pues suelen existir datos extremos inferiores y superiores a la media aritmtica, los cuales, en honor a la verdad, no estn siendo bien representados por este parmetro.

En dos informaciones con igual media aritmtica, no significa este hecho, que las distribuciones sean exactamente iguales, por lo tanto, debemos analizar el grado de homogeneidad entre sus datos. Por ejemplo:

A = 5, 50, 95 = 50;Me: 50B = 49, 50, 51 = 50;Me: 50

Los dos conjuntos de valores tienen igual media y mediana; estos resultados pueden conducir a conclusiones equivocadas cuando se est comparando distribuciones o poblaciones. Para superar esta limitacin se propone construir otros estadgrafos que permitan analizar otras caractersticas, como la dispersin o desviacin de los datos respecto a un valor central.

En trminos generales las medidas de dispersin son aquellas que cuantifican el grado de concertacin o de dispersin de los valores de la variable en torno de un valor central, generalmente la media aritmtica.

Los Estadgrafos de Dispersin de mayor uso o que se utilizan con mayor frecuencia son:

1.1 Rango o recorrido (R)1.2 Rango intercuartil (RI)1.3 Varianza (1.4 Desviacin Estndar (S)1.5 Coeficiente de Variacin (CV)

1.1 RANGO O RECORRIDO: (R)Es la medida de dispersin ms sencilla ya que solo considera los dos valores extremos de una coleccin de datos El rango se denota por R y se define as:

R = -

El rango es un estadgrafo de clculo fcil, pero de uso limitado, ya que no considera a todas las observaciones, sino a los datos mnimos y mximos; por lo tanto, est fuertemente influenciado por los datos extremos.

Para datos agrupados en tablas de frecuencias con intervalos el R se define as:

R = Lm - Lo

Donde:

Lm = Limite superior del ltimo intervaloLo = Limite inferior del primer intervalos

Ejemplo 1.1: Considerando las calificaciones de los alumnos de la clase de Economa del ejemplo N 10, calcular e interpretar el Rango.

R = - = 18 09 = 09

La diferencia entre la calificacin ms alta y la calificacin ms baja de los estudiantes de Economa es de 9.

Considerando el gasto semanal de los 30 turistas que arribaron a la ciudad del Cuzco de la tabla N 08 R = Lm - Lo = 1000 400 = 600 dlares

La diferencia entre el gasto semanal mayor y el gasto semanal menor de los 30 turistas que arribaron al Cuzco es de 600 dlares.

Nota2

El Rango como estadgrafo de dispersin es muy limitado, pues solo considera los valores extremos de la distribucin, y no dice nada cmo se dispersan o comportan los valores intermedios, es decir no explica la dispersin de los n-2 valores de la variable.

1.2 RANGO INTERCUARTIL: (RI)El Rango Intercuartil de una distribucin de datos es la diferencia entre Q3 y el Q1.Se denota por RI y se define as:

RI = Q3 Q1

El rango intercuartil entre Q1 y Q3 excluye la cuarta parte inferior (25%) y la cuarta parte superior (25%) del total de datos y considera la dispersin en la mitad central de los datos (50% central).

Grficamente:

25% Inf. 50%25% sup.

Q1 Mitad CentralQ2

Ejemplo 1.2:Calcular el rango intercuartlico de los registros de facturacin mensual dados en el ejemplo 7.1. Tenemos que:Q1 = S/.1000Q3 = S/.1900

Por lo tanto: RI = Q3 Q1RI = 1900 1000 = S/. 900

Ejemplo1.3:Calcular el rango intercuartil de los datos de la tabla N08

Tenemos que:Q1 = $ 640Q3 = $ 820

Por lo tanto:RI = Q3 Q1RI = 820 640 = $ 180

1.3 VARIANZA: (S2)Es una medida que cuantifica el grado de dispersin o de variacin de los valores de una variable cuantitativa con respecto a su media aritmtica. Si los valores tienden a concentrarse alrededor de su media, el valor de la varianza ser pequeo; si los valores tienden a distribuirse lejos de la media, el valor de la media ser grande.La varianza calculada a partir de una muestra se denota por S2 y referida a la poblacin se denota por 2 o V[X]Numricamente definimos la varianza como la media aritmtica o promedio del cuadrado de las desviaciones de los datos de la variable respecto a su media aritmtica.La varianza es una medida de dispersin con unidades de medicin al cuadrado.

Nota3

La varianza es el estadgrafo de dispersin ms importante, que asociado a la media aritmtica se constituye en los pilares fundamentales de la Estadstica.

1.3.1 LA VARIANZA PARA DATOS NO AGRUPADOSSe obtiene con las expresiones siguientes:

Si el conjunto de datos proviene de una muestra, entonces se utiliza la siguiente frmula:

S2 =

Si el conjunto de datos proviene de una poblacin, entonces se utiliza la siguiente frmula:2 =

Ejemplo1.4:Calcular la varianza de las edades de 10 estudiantes.

X = 16, 17, 16, 17, 15, 14, 18, 17, 14, 16

Entonces: = 16n = 10

S2 = = = = 1.78

S2 = 1.78 aos al cuadrado

1.3.2 LA VARIANZA PARA DATOS AGRUPADOSSe utiliza la formula siguiente:Si los datos provienen de una muestra:S2 =

Si los datos provienen de una poblacin:2 =

Ejemplo 8.5:Calcular e interpretar la varianza de los datos de la tabla N 08

Gasto semanal $ (Li Ls]yifi = ni(yi - )(yi - )2(yi - )2ni

400 5204602-25866564133128

520 6405803-1381904457132

640 7607008-183242592

760 88082041021040441616

880 - 1000940322249284147852

Total-20382320

Reemplazando en la formula:

Se sabe que la = 718

S2 = = = 20122.11

S2 = 20122.11 dlares al cuadrado

La variabilidad de los gastos semanales de los turistas que arribaron a la ciudad del Cuzco es de 20122.11 dlares 2

1.3.3 PROPIEDADES DE LA VARIANZA

a) Para cualquier distribucin la Varianza es siempre una cantidad no negativa.

S2 0 = V (X) 0

b) Si el valor de las observaciones son todas iguales, entonces la Varianza es cero.En este caso, las observaciones se confunden en un punto, la media es el mismo punto y la desviacin es cero.

S2 = = 0

b) La Varianza de una constante es cero.

V (K) = 0

c) La Varianza del producto de una constante por una variable, es igual al cuadrado de la constante por la Varianza de la variable.

V (K.X) = K2V(X)

d) La varianza de la suma de una variable ms una constante, es igual a la Varianza de la variable.

V (X+K) = V(X)

Ejemplo 1.6:Supongamos que se duplica el gasto semanal de los 20 turistas que arribaron a la ciudad del Cuzco. Cul es ahora la nueva Varianza y el nuevo gasto semanal promedio?

Calculando la nueva varianza

Sabemos que:M (Y) = 718;V (Y) = 20122.11Al duplicarse el gasto semanal K = 2

Entonces:V (2Y) = 22V (Y) = 4 (20122.11) = 80488.44 dolares2

Por lo tanto:80488.44 dlares2 es la nueva varianza del gasto semanal.

Calculando el nuevo gasto semanal promedio

Sabemos que:M (2Y) = 2 M (Y) = 2 (718)

Por lo tanto:1428 dlares es el nuevo gasto semanal promedio

1.4 LA DESVIACIN ESTANDAR O TPICA: (S)La Desviacin Estndar o Tpica matemticamente se define como la raz cuadrada de la varianza.

S =

Es uno de los estadgrafos de dispersin de mayor uso, la cual se expresa en unidades reales de la variable, es decir ya no estn elevadas al cuadrado.La desviacin estndar al igual que la varianza, es no negativa (S 0), puesto que es la raz cuadrada positiva de la varianza. A mayor dispersin de los valores en una distribucin le corresponder una mayor desviacin estndar.

Nota4

En general, los estadgrafos de dispersin se usan para comparar dos o ms distribuciones o poblaciones con variables de la misma naturaleza. A mayor dispersin o heterogeneidad entre los valores de una muestra o poblacin, le corresponde un valor mayor para el estadgrafo de dispersin.

Ejemplo 1.7:Calcular la desviacin estndar de los datos de la tabla N 08

Se sabe que:S = = $ 141.86

Los gastos semanales en dlares de los 20 turistas se dispersan en promedio de su valor central en $ 141.86

Ejemplo 1.8:Se tiene los sueldos en soles de los trabajadores de una empresa constructora:

Categora OcupacionalMedia

VarianzaS2Desviacin estndarS

Directivos10000640000800

Empleados4000250000500

Obreros2500810000900

Por lo tanto:S (empleados) < S (directivos) < S (obreros)

Los sueldos de los obreros presentan mayor dispersin que los sueldos de los directivos, y stos mayor dispersin que los sueldos de los empleados.

1.5 COEFICIENTE DE VARIACIN: (C.V.)Es una medida de dispersin relativa exenta de unidades y expresada en porcentaje, se utiliza para comparar la variacin de dos o ms distribuciones cuando las unidades de medida de la variable estn expresadas en iguales o en diferentes unidades o escalas.Poe ejemplo, comparar sueldos expresados en euros, dlares o soles o tambin comparar distancias en metros, kilmetros o millas.

El coeficiente de variacin de un conjunto de datos se denota por C.V. y se expresa como:

Coeficiente de Variacin = x 100

C.V. = x 100

Ejemplo 1.9:Analizar la distribucin de los sueldos de los trabajadores de una empresa constructora

Categora OcupacionalMedia

Desviacin estndarSCoeficiente de VariacinC.V (%)

Directivos100008008

Empleados400050012.5

Obreros250090036

Segn los valores del coeficiente de variacin, los directivos de la empresa constructora presentan sueldos ms homogneos, en tanto que los obreros tienen sueldos ms heterogneos.

Nota5

Al comparar dos o ms distribuciones, es ms homognea o presenta menos dispersin de sus valores o datos, aquella distribucin que tiene el menor coeficiente de variacin; en otras palabras, los datos son ms heterogneos o presenta mayor dispersin de sus valores o datos cuando tienen mayor coeficiente de variacin.

CUESTIONARIO Y EJERCICIOS PROPUESTOS

1. Cul es la utilidad de las medidas de dispersin?

2. Cules son las principales medidas de dispersin?

3. Cul es la medida adecuada para comparar la dispersin entre varias variables que posean diferente magnitud o diferente unidad de medida?

4. Los siguientes datos muestran los calificativos de 20 personas sometidos a una prueba de actitud. Los 20 estudiantes fueron divididos en dos grupos:Al grupo N 01 se calific de 0 a 100Al grupo N 02 se calific de 0 a 20

Grupo N 186818073958694898688

Grupo N 216191420141619181816

Calcule la media y la desviacin estndar de cada grupoCul de los dos grupos es ms homogneo?

2. Medidas de Forma

Son estadgrafos que dan informacin acerca de la direccin de las variaciones de la distribucin. Estas son las medidas de Asimetra y las medidas de Apuntamiento o Kurtosis.

2.1 ESTADIGRAFOS DE DEFORMACINLa deformacin consiste en analizar la simetra o asimetra (no asimetra) de las distribuciones.Los estadgrafos de deformacin son medidas que miden el grado de deformacin horizontal de una distribucin de frecuencias. Se dice que una distribucin de frecuencias es simtrica, si los intervalos equidistantes del intervalo central tienen iguales frecuencias. Tambin se dice que una distribucin es simtrica si su curva de frecuencias es simtrica con respecto al centro de los datos.Dos distribuciones pueden tener la misma media y la misma desviacin estndar, pero pueden diferir en el grado de asimetra.Si la distribucin es simtrica, entonces la media, la mediana y la moda coinciden. En contraposicin, si estos 3 promedios no coinciden la distribucin es asimtrica.

Por ejemplo; el grafico B representa una distribucin simtrica, en tanto que el grafico A presenta una deformacin hacia la izquierda, que corresponde a la cola o rama ms larga de la distribucin, es decir tiene asimetra por la izquierda o asimetra negativa, en tanto que el grafico C corresponde a una distribucin con asimetra por la derecha o de asimetra positiva.

GRFICO AGRFICO BGRFICO CEntre las medidas de asimetra ms usuales tenemos:

2.1.1 El coeficiente de Asimetra de PearsonSe expresa como:

As = =

Otra forma de expresar el coeficiente de Pearson es cuando la distribucin es unimodal.

As = =

2.1.2 El coeficiente de Asimetra de Arthur BoeleySe expresa como:

As = Que se le denomina el Coeficiente cuartil de deformacin

El primer coeficiente de Pearson es el ms usual. El segundo coeficiente de Pearson se usa cuando la distribucin es unimodal. El tercer coeficiente que corresponde a Arthur Boeley se usa cuando existen intervalos con extremos abiertos ilimitados y no sea posible calcular la media y consecuentemente la varianza.

De acuerdo al valor de As, se tiene:

Si As = 0 La distribucin es simtrica. (Grafico N B)

Si As > 0 La distribucin es asimtrica positiva. La distribucin extiende la cola hacia los valores grandes de la variable. (Sesgada hacia la derecha). (Grafico N C)

Si As < 0 La distribucin es asimtrica negativa. La distribucin extiende la cola hacia los valores pequeos de la variable. (Sesgada hacia la izquierda). (Grafico N A)

Por otro lado, tambin se deduce que hay asimetra cuando:

Mo < Me < Asimetra Positiva < Me < Mo Asimetra Negativa

Nota6

Si As 0, entonces se dice que la distribucin es aproximadamente simtrica o ligeramente sesgada por lo tanto ser tanto ms sesgada cuando mas As se aleje de cero.

Ejemplo 2.1:En la distribucin de los gastos semanales de 20 turistas que arribaron a la ciudad del Cuzco, se conoce que:

= S/. 718Me = S/. 715Mo = S/. 708.6Q1= S/. 640Q3 = S/. 820S = S/. 141.86

Con fines ilustrativos, calcularemos todas las formulas de asimetra.

As = = = 0.063

As = = = 0.066

As = = = 0.167

Con cualquiera de las frmulas As es positivo; por tanto tiene Asimetra Positiva; es decir hay un ligero predominio de gastos semanales menores.

2.2 ESTADIGRAFOS DE APUNTAMIENTO O KURTOSISLa Kurtosis es el grado de apuntamiento de una distribucin. La Kurtosis se analiza comparando la distribucin con la forma de una curva normal o simetrica, con igual media aritmtica y desviacin estndar de la distribucin que se estudia.

Si una distribucin tiene relativamente un elevado pico o apuntamiento, se llama leptokrtica, mientras si es achatada se denomina platikrtica. La distribucin normal constituye una distribucin mesokrtica, tal como se puede apreciar en las siguientes figuras.

Los estadgrafos para analizar el apuntamiento son:

2.2.1 Coeficiente de KurtosisSe expresa como:

K =

Donde: S4 = (S2)2 S2 = VarianzaM4 = Se denomina cuarto momento respecto a la mediaSi: K = 3, la distribucin es mesokrtica (normal) K < 3, la distribucin es platikrtica (achatada) K > 3, la distribucin es leptokrtica (apuntada)

2.2.2 Coeficiente Percentil de KurtosisSe expresa como:

K =

Para la curva normal resulta K = 0.263Una distribucin ser mesokrtica si K tiende a 0.263 por ambos lados; si el valor de K se aleja hacia la derecha tendiendo a , la distribucin ser leptokrtica; si se aleja hacia la izquierda tendiendo a cero, la distribucin ser platikrtica.Puede ser til apreciar el siguiente esquema para determinar la krtosis.

1/83/81/2PLATIKRTICAMESOKRTICALEPTOKRTICA

00.1250.2630.3750.5

Nota7

Para las distribuciones notablemente discrepantes de la normal estas medidas pueden resultar contradictorias.

Ejemplo 1.2:Para los datos de la tabla de los gastos semanales de los turistas se tiene:

K4 = = = 2.18 < 3 La distribucin es platikrtica

17