Tema 4,DESCRIPCION DE CONJUNTOS DE DATOS

Preview:

DESCRIPTION

 

Citation preview

MAESTRÍA EN BANCA VALORES Y SEGUROS( 2DA EDICIÓN – 2DA VERSIÓN )Msc Jorge Mario Jimenez Aviles

10 de 2011Santa Cruz - Bolivia

PROBABILIDAD E INFERENCIA ESTADISTICA

DESCRIPCION DE CONJUNTOS DE

DATOS

TEMA 4

Variables cualitativas y cuantitativas

Ejemplos de variables cualitativas son ocupación, sexo, estado civil, etc.

Variables que producen observaciones que pueden medirse, se considera que son variables cuantitativas. Ejemplos de variables cuantitativas son peso, estatura, edad. Variables cuantitativas pueden clasificarse en discretas o continuas

Estadística descriptiva

Rama de la estadística que trata sobre la descripción y análisis estadístico de una población, que resume y presenta datos obtenidos de la población o de una muestra, mediante métodos adecuados.

Tiene como objetivo caracterizar los datos, de manera gráfica o analítica, para resaltar las propiedades de los elementos bajo estudio.

METODOS GRAFICOS

1. Organización de los datos

2. Distribución de frecuencias

3. Tabla de distribuciones de frecuencia

4. Presentación gráfica de una

distribución de frecuencias

Distribuciones de Frecuencia y Presentación Gráfica

Distribuciones de Frecuencia y Presentación Gráfica

Numero de galones de agua utilizados por una familia en un año (miles de galones)

15 23 22 15 18 24

14 21 13 20 17 19

14 20 14 21 18 30

17 19 8 26 16 14

18 34 23 13 27 16

Primero ordenamos los datos:8 13 13 14 14 14

14 15 15 16 16 17

17 18 18 18 19 19

20 20 21 21 22 23

23 24 26 27 30 34

Pasos para construir una tabla distribución de frecuencias

1 Determinar el numero de clases o intervalos de clase

Agrupamiento de datos en categorías que muestran el

número de observaciones en cada categoría

mutuamente excluyente

DISTRIBUCIÓN DE FRECUENCIAS

• Determinar el Rango (Recorrido) Rango = Xmáx – Xmín R= 34-8 = 26

• Detereminar el número de intervalos de clase.k = 1 + (3.322)(log n) K = 1+(3.322)(log 30) = 5.91 Tomaremos 6 como número de intervalos.

• Calcular el ancho del intervalo

C = 26/6 = 4.33 ≈ 5 kR

c

TABLA DE DISTRIBUCIÓN DE FRECUENCIA

Intervalos de clases

8-12

13-17

18-22

23-27

28-32

33-37

Totales

Límites Reales

7.5-12.5

12.5-17.5

17.5-22.5

22.5-27.5

27.5-32.5

32.5-37.5

fr%

3.3

40

33.3

16.7

3.3

3.3

99.9

Xi

10

15

20

25

30

35

fi

1

12

10

5

1

1

30

GRÁFICOS

Histograma

Pareto

Diagrama Circular (Pastel)

Histograma de frecuencia

Histograma

0

2

4

6

8

10

12

14

1Consumo de agua (miles galones)

de

fam

ilia

s

7.5-12.5

12.5-17.5

17.5-22.5

22.5-27.5

27.5-32.5

32.5-37.5

0

2

4

6

8

10

12

14

40% 33% 17% 3% 3% 3%

PARETONUMERO

FAM

40%

34%

17%

3% 3% 3%

% CONSUMO

12

10

5

1

1

1

Diagrama Circular (Pastel)

EJERCICIO 1

EJERCICIO 2

DESCRIPCION DE CONJUNTOS DE DATOS

TEMA 4 (PARTE II)

MEDIDAS DE POSICIÓN Y DE DISPERSIÓN

LAS MEDIDAS DECRIPTIVAS NUMERICAS CALCULADAS A PARTIR DE MEDICIONES POBLACIONALES SE LLAMAN PARAMETROS; LAS MEDIDAS CALCULADAS A PARTIR DE MDICIONES MUESTRALES RECIBEN EL NOMBRE DE ESTADISTICAS

MEDIDAS DE TENDENCIA CENTRAL

MEDIA ARITMETICA

MEDIANA

MODA

MEDIA ARITMÉTICA(CONOCIDA COMUNMENTE COMO PROMEDIO)

Se obtiene sumando todos los valores y dividiéndolos entre el total de valores observadosAl evaluar la media se incluyen todos los

valoresUn conjunto de datos sólo tiene una media

MEDIANA

Es el dato que se encuentra en el centro del conjunto de valores ordenadosNo está influenciada por valores extremos50% de las observaciones se encuentran por debajo de la

medianaEs única para un conjunto de valores

COMO SE CALCULA?

MODA

Es el valor de la observación que aparece con más frecuenciaNo está influenciada por valores

extremosMuy utilizada para datos nominalesPuede haber mas de una moda o no

existir moda

MEDIDAS DE VARIABILIDAD

AMPLITUD (RANGO)

VARIANZA

DESVIACION ESTANDAR

23

Medidas de dispersión

Rango

Una manera de medir la dispersión es calcular el recorrido de la distribución empírica, es decir, la diferencia entre las observaciones máxima y mínima.

Su mayor ventaja es que se puede calcular facilmente, sin embargo, no brinda información sobre la dispersión existente entre ambos valores extremos.

AMPLITUD

Diferencia entre el dato máximo y dato mínimo

minmax xxAmplitud

VARIANZA

La media aritmética de las desviaciones de la media al cuadrado

N

xi

2

2

POBLACIONAL MUESTRAL

1

)( 22

n

xxis

DESVIACIÓN ESTÁNDAR

Raíz cuadrada de la Varianza

POBLACIONAL MUESTRAL

N

x

2

1

2

n

)x(xs

27

Propiedades del desviación estándar

s mide la dispersión respecto a la media.

s = 0 solo ocurre cuando no hay dispersión: todas las observaciones toman el mismo valor. De lo contrario s > 0.

Cuanto más dispersión hay entre las observaciones, mayor es s.

s, al igual que la media, se encuentra fuertemente influenciado por las observaciones extremas.

La distribución normal

La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). 

Posteriormente, Carl Friedrich Gauss (1777-1855)realizó estudios más a fondo donde formula la ecuación de la curva conocida comúnmente, como la “Campana de Gauss". 

Utilidad

Se utiliza muy a menudo porque hay muchas variables asociadas a fenómenos naturales que siguen el modelo de la norma.

Caracteres morfológicos de individuos (personas, animales, plantas,...) de una especie, por ejemplo: tallas, pesos, diámetros, distancias, perímetros,...

Caracteres fisiológicos, por ejemplo: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono

Utilidad

Caracteres sociológicos, por ejemplo: consumo de cierto producto por un mismo grupo de individuos, puntuaciones de examen

Caracteres psicológicos, por ejemplo: cociente intelectual, grado de adaptación a un medio,...

Errores cometidos al medir ciertas magnitudes

Valores estadísticos muéstrales como la media, varianza y moda

31

Si una distribución es simétrica, la media, mediana y modo coinciden

• Si una distribución no es simétrica, las tres medidas difieren.

Asimetría hacia la derecha(asimetría positiva)

MediaMediana

ModaMedia

MedianaModa

Asimetría hacia la izquierda(asimetría negativa)

Media, Mediana y Moda

32

Distribuciones normalesLa curva con mayor desviación estándar es la curva que

presenta mayor dispersión.

La desviación típica es la medida natural de la dispersión de una distribución normal. La forma de una curva normal no solo queda completamente determinada por y , sino que además es posible situar a simple vista en la curva.

Cuando nos alejamos de , en cualquier dirección, la curva pasa de descender rápidamente a descender suavemente.

Estos puntos de inflexión están situados a una distancia de .

Suponga que el tiempo de reacción de una droga en particular tiene una distribución Normal con una media de 10 minutos y una desviación estándar de 2 minutos

Aproximadamente,a) 68% de los sujetos tomando el medicamento

tendrán la reacción entreo 8 y 12 minutos

b) 95% de los sujetos tomando la droga tendrán la reacción entre 6 y 14 minutos

c) 99.7% de los sujetos tomando la droga tendrán la reacción entre 4 y 16 minutos.

34

Distribuciones normales

Todas las distribuciones normales tienen la misma forma general.La curva de densidad de una distribución normal se describe por su media y su desviación estándar . La media se sitúa en el centro de la curva simétrica, en el mismo lugar que la mediana. Si se cambia sin cambiar se provoca un desplazamiento de la curva de densidad a lo largo del eje de las abscisas sin que cambie su dispersión. La desviación típica controla la dispersión de la curva normal.

Propiedades de la distribución normal:

El área bajo la curva aproximado del promedio μ a más o menos una desviación estándar (1σ) es de 0.68, a más o menos 2σ es de .0 95 y a más o menos 3σ es de 0.99.

(Las propiedades continuan en la próxima lámina)

36

Regla Empírica

En una distribución normal: · El 68 % de las observaciones se encuentra entre

.· El 95 % de las observaciones se encuentra entre

2 .· El 99.7 % de las observaciones se encuentra entre

3 . 68% de los datos

95% de los datos

99.7% de los datos

La desviación estándar (σ )

En resumen

Podemos concluir que hay una familia de distribuciones con una forma común, diferenciadas por los valores de su media y su varianza. 

La desviación estándar (σ ) determina el grado de apuntamiento de la curva.  Cuanto mayor sea el valor de σ, más se dispersarán los datos en torno a la media y la curva será más plana. 

La media indica la posición de la campana, de modo que para diferentes valores de μ la gráfica es desplazada a lo largo del eje horizontal.

Recommended