69
Tecnólogo en Negociación Internacional

Conceptos Básicos de Estadística Descriptiva e Inferencial

  • Upload
    sara

  • View
    74

  • Download
    2

Embed Size (px)

DESCRIPTION

As.

Citation preview

Page 1: Conceptos Básicos de Estadística Descriptiva e Inferencial

Tecnólogo en Negociación

Internacional

Page 2: Conceptos Básicos de Estadística Descriptiva e Inferencial

Bienvenido (a):

El siguiente material, es una herramienta que

guía al aprendiz en su proceso formativo y

explica de manera detallada los conceptos

básicos de la estadística descriptiva e inferencial.

Page 3: Conceptos Básicos de Estadística Descriptiva e Inferencial

Contenido

• Términos iniciales.

• Medidas de tendencia central y dispersión

con datos no agrupados.

• Medidas de tendencia central y dispersión

con datos agrupados.

• Probabilidad.

• Distribución normal.

• Regresión lineal.

Page 4: Conceptos Básicos de Estadística Descriptiva e Inferencial

Términos iniciales

Page 5: Conceptos Básicos de Estadística Descriptiva e Inferencial

Población: conjunto en el cual sus elementos

poseen características comunes que serán objeto de

estudio.

Ejemplos:

Alemanes consumidores

de café.

Países con tratados

comerciales con Colombia.

En este Material de formación, se introducirán

conceptos básicos de la estadística que permitirán

analizar los datos recolectados hasta ahora.

Page 6: Conceptos Básicos de Estadística Descriptiva e Inferencial

Muestra: subconjunto de la población que al ser estudiado, permite inferir características de la población. Ejemplo:

Si de la población de consumidores de café

en Alemania se toma el subconjunto de las

mujeres, es probable que las conclusiones

no se puedan aplicar a toda la población,

quizá porque los hombres consuman mayor

cantidad de café.

En la segunda población, si el número de

países no es muy grande, no habrá

necesidad de muestra. Aunque, si por

alguna razón, como los costos se quisiera

escoger una muestra, se podrían tomar

países representantes de continentes.

Muchas veces se habla de una muestra aleatoria, aunque se

debe tener cuidado en que esta, quede bien distribuida.

Page 7: Conceptos Básicos de Estadística Descriptiva e Inferencial

Las características que se le pueden estudiar a una población

se denominan variables y estas las podemos clasificar en dos

grupos:

1. Variable cualitativa: hace referencia a

un atributo o característica de la

población diferente de la cantidad.

- En el ejemplo de los alemanes, sería

el género, el estilo de vida, profesión,

entre otros.

- En el ejemplo de los países, sería los

productos que importan o los

productos que no producen.

Page 8: Conceptos Básicos de Estadística Descriptiva e Inferencial

2. Variables cuantitativas: se expresan en cantidades.

- En el ejemplo de los alemanes, sería la cantidad de

café que consumen. (continua).

- En el ejemplo de los países, sería el tamaño de la

población (discreta).

En esta variable, se denomina discreta, si se pueden

colocar la correspondencia con los números enteros (…-

2,-1,0,1,2…) y se llama continúa, si la variable puede

tomar cualquier valor de los números reales

(“decimales”).

Page 9: Conceptos Básicos de Estadística Descriptiva e Inferencial

Medidas de tendencia central y

dispersión con datos no agrupados

Page 10: Conceptos Básicos de Estadística Descriptiva e Inferencial

Medidas para el análisis de datos

Calcularemos las medidas con los siguientes datos

recolectados a una muestra de 10 alemanes sobre su

consumo de café en kg durante el año 2011.

5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8

1. Media: se entiende como el promedio de

los datos.

Lo interpretamos que en promedio los alemanes toman

2.8 kg de café al año.

Si llamamos n a la cantidad de datos recolectados y xi

a cada valor, entonces la fórmula está dada por:

Page 11: Conceptos Básicos de Estadística Descriptiva e Inferencial

2. Mediana: se entiende como el valor intermedio de la

población.

Primero, organizar los datos en orden.

0.5, 1, 1.6, 2, 2.6, 3, 3.5 , 3.8, 5, 5

Segundo, se calcula la posición media.

De esto se deduce que si n es impar el valor no dará un

entero. Además que la fórmula es:

Por último se calcula la mediana, en este caso como el

valor intermedio dio 5.5 la mediana es un promedio entre

el 5º y 6º dato.

Se puede observar que este promedio no es necesario

si no es impar.

Page 12: Conceptos Básicos de Estadística Descriptiva e Inferencial

3. Moda: es el dato con mayor frecuencia, es decir el que

se repite mayor número de veces.

5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8

En este caso, la moda es 5, debido a que se repite dos

veces, mientras el resto aparece una vez. Cuando se

tenga dos valores que pueden ser modas, el conjunto de

valores es bimodal.

Observaciones:

1. Las herramientas anteriores son denominadas

medidas de tendencia central debido a que buscan

donde se concentran los datos.

Page 13: Conceptos Básicos de Estadística Descriptiva e Inferencial

2. Como la mediana señala el centro de la distribución y la

media su promedio, es interesante notar que:

- Si estas son iguales la distribución, es simétrica.

- Si la media es menor que la mediana, es asimétrica

negativa

- Si la media es mayor que la mediana, es asimétrica

positiva.

Page 14: Conceptos Básicos de Estadística Descriptiva e Inferencial

4. Desviación estándar: se interpreta como la dispersión

de los datos con respecto a la media. Se denota con la letra

griega sigma.

Primero se calcula la desviaciones de cada dato con

respecto a la media y se eleva al cuadrado para que los

negativos no anulen los demás.

5, 0.5, 3, 1.6, 3.5, 5, 1, 2, 2.6, 3.8

Page 15: Conceptos Básicos de Estadística Descriptiva e Inferencial

Segundo, se realizará la sumatoria de todas las diferencias.

Por último, se divide la sumatoria por el número de datos y

se calcula su raíz cuadrada.

Con lo anterior, se deduce que la fórmula para la

desviación estándar es:

Se interpreta que los datos están alejados en promedio

1.47 kg, de la media de consumo de café.

Page 16: Conceptos Básicos de Estadística Descriptiva e Inferencial

5. Coeficiente de variación: al igual que la desviación

estándar, se conocerá el grado de dispersión de los datos

con respecto a la media, pero en este caso, se aíslan las

unidades del análisis. Es especialmente útil para

comparar la variación de diferentes muestras.

Para calcular el coeficiente de variación, se necesitan los

datos de la media y la desviación estándar.

Se interpreta que la muestra tiene una dispersión del

53%.

La fórmula general está dada por:

Page 17: Conceptos Básicos de Estadística Descriptiva e Inferencial

Medidas de tendencia central y

dispersión con datos agrupados

Page 18: Conceptos Básicos de Estadística Descriptiva e Inferencial

Datos ordenados

En los ejemplos anteriores, se realiza fácilmente el

análisis debido a que la cantidad de datos era pequeña,

pero cuando la cuantía de los datos es más grande, se

debe organizar en una tabla que facilite su tratamiento.

La elaboración de la tabla varía

dependiendo del tipo de variable

(cualitativa, cuantitativa discreta y

cuantitativa continua).

Además, se mostrarán dos tipos

de gráficos que brindan una

herramienta visual para la

interpretación.

Page 19: Conceptos Básicos de Estadística Descriptiva e Inferencial

Tabla de frecuencias variable cualitativa

Los siguientes datos fueron recolectados a una muestra

de 50 alemanes consumidores de café sobre la

procedencia del café que toman.

Brasil Indonesia Vietnam Brasil Brasil

Vietnam Indonesia Perú Vietnam Colombia

Colombia Colombia Colombia Colombia Indonesia

Indonesia Colombia Indonesia Indonesia Brasil

Perú Colombia Colombia Brasil Vietnam

Vietnam Perú Indonesia Vietnam Colombia

Colombia Brasil Brasil Indonesia Indonesia

Brasil Brasil Vietnam Brasil Brasil

Brasil Brasil Colombia Vietnam Vietnam

Brasil Vietnam Indonesia Indonesia Colombia

Page 20: Conceptos Básicos de Estadística Descriptiva e Inferencial

• Lo primero que se debe hacer, es realizar un listado de

los datos sin repeticiones.

Brasil Colombia Indonesia Perú Vietnam

• Luego, se crea una tabla donde la primera columna se

llame datos y se rellena con el listado anterior.

• Crear una columna llamada frecuencia absoluta y se

colocan las repeticiones de cada dato.

• Crear una columna llamada frecuencia relativa, en

donde se inserta el peso porcentual de la frecuencia de

cada dato con respecto al total de la muestra.

Page 21: Conceptos Básicos de Estadística Descriptiva e Inferencial

Datos Frecuencia

Absoluta (fi) Frecuencia Relativa(hi)

Brasil 14 28%

Vietnam 10 20%

Colombia 12 24%

Indonesia 11 22%

Perú 3 6%

50 100%

Por ejemplo, Brasil aparece 14 veces (frecuencia

absoluta) y su peso porcentual (frecuencia relativa) es:

Page 22: Conceptos Básicos de Estadística Descriptiva e Inferencial

Gráficos tabla de frecuencias

La primera gráfica que se puede deducir, se llama

histograma de frecuencias en la que en el eje x, se

colocan los datos y en el eje y, la frecuencia absoluta de

cada dato.

0

2

4

6

8

10

12

14

16

Brasil Vietnam Colombia Indonesia Perú

Histograma de frecuencias sobre la procedencia del café de Alemania

Nota: en cualquiera de los paquetes básicos de

office, se puede encontrar en insertar -gráfico -

columna.

Page 23: Conceptos Básicos de Estadística Descriptiva e Inferencial

Brasil 28%

Vietnam 20% Colombi

a 24%

Indonesia

22%

Perú 6%

Nota: en cualquiera de los paquetes básicos de

office lo podemos encontrar en insertar -gráfico -

circular.

Otro gráfico útil, es el diagrama circular en el cual se

grafica la frecuencia relativa, este coloca en proporción los

ángulos del círculo con los pesos porcentuales de los

datos. La fórmula para esto es multiplicar la frecuencia

relativa por 360.

Page 24: Conceptos Básicos de Estadística Descriptiva e Inferencial

Tabla de frecuencias variable cuantitativa discreta

Los siguientes datos fueron recolectados a una muestra

de 50 alemanes consumidores de café sobre la edad (en

años) en que iniciaron el consumo de café.

18 21 18 22 15

21 19 24 18 30

15 18 20 19 21

24 20 21 20 22

19 15 18 21 24

19 30 21 20 19

22 21 15 20 18

18 22 24 19 24

19 24 19 18 20

20 19 19 20 21

Page 25: Conceptos Básicos de Estadística Descriptiva e Inferencial

• Lo primero que se debe hacer, es realizar un listado

ordenado de los datos sin repeticiones.

• Al igual que con la variable cualitativa, se crean las

columnas datos, frecuencia absoluta y frecuencia

relativa.

• Luego, se crea una columna llamada frecuencia

absoluta acumulada, en donde se escribe la suma de la

frecuencia absoluta de ese dato y los menores.

• Por último, añadir una columna que se denomina

frecuencia relativa acumulada y en ella se consigna la

suma de la frecuencia relativa de ese dato y los

menores.

15 18 19 20 21 22 24 30

Page 26: Conceptos Básicos de Estadística Descriptiva e Inferencial

Por ejemplo, la frecuencia absoluta acumulada de

19 años es 22=4+8+10 y la frecuencia relativa

acumulada es 44%=8%+16%+20%.

Datos(xi) Frecuencia

Absoluta (fi) Frecuencia Relativa(hi)

Frecuencia Absoluta

Acumulada (Fi)

Frecuencia Relativa

Acumulada (Hi)

15 4 8% 4 8% 18 8 16% 12 24% 19 10 20% 22 44% 20 8 16% 30 60% 21 8 16% 38 76% 22 4 8% 42 84% 24 6 12% 48 96% 30 2 4% 50 100%

50 100%

Page 27: Conceptos Básicos de Estadística Descriptiva e Inferencial

Gráficos tabla de frecuencias

La primera gráfica que se puede deducir, se llama

histograma de frecuencias en la que en el eje x, se

colocan los datos y en el eje y, la frecuencia

absoluta de cada dato.

Nota: en cualquiera de los paquetes básicos de

office, se puede encontrar en insertar -gráfico -

columna.

0

2

4

6

8

10

12

15 18 19 20 21 22 24 30

Histograma de frecuencias sobre la edad inicial para el consumo de café

Page 28: Conceptos Básicos de Estadística Descriptiva e Inferencial

Otro gráfico útil es el diagrama circular en el cual se

grafica la frecuencia relativa, este coloca en proporción

los ángulos del círculo con los pesos porcentuales de los

datos. La fórmula para esto es multiplicar la frecuencia

relativa por 360.

Nota: en cualquiera de los paquetes básicos de office, se

puede encontrar en insertar -gráfico -circular.

15 8%

18 16%

19 20%

20 16%

21 16%

22 8%

24 12%

30 4%

Page 29: Conceptos Básicos de Estadística Descriptiva e Inferencial

Tabla de frecuencias variable cuantitativa

continua

Los siguientes datos fueron recolectados a una

muestra de 50 alemanes consumidores de café sobre

la cantidad de café (en kg) que toman durante un año.

3,6 4,11 2,8 1,3 3,4

2,5 4,8 0,4 2,2 2,2

4 1,7 4,1 3,6 2,6

0,2 2,6 2,9 1,7 3,4

3 3,4 3,4 2,6 2,8

2,2 3,8 2,86 0 3,5

5 2,1 3,1 3,4 4,2

1,6 4,3 4,4 5 2,9

1,9 2,7 1,7 2,6 3,02

2,8 3,5 2,4 1,9 1,4

Page 30: Conceptos Básicos de Estadística Descriptiva e Inferencial

• En este caso, se puede observar que realizar un

listado de datos independiente no es eficiente, porque

pueden salir un listado con una cantidad muy similar a

la de n.

• En este caso, parece conveniente utilizar 5

intervalos. Esta decisión depende del criterio del

analista y lo resumido que se necesite los datos.

• Por lo anterior, lo más aconsejable es colocar los

datos en intervalos (cajones) para que el listado que

se coloque en la tabla, sea tan resumido como se

pretende.

• Para calcular la amplitud (tamaño) de los intervalos,

calcular el rango de la muestra y dividir por la

cantidad de intervalos definidos.

Page 31: Conceptos Básicos de Estadística Descriptiva e Inferencial

En esta tabla, se adiciona una columna denominada,

marca de clase, que es el valor medio del intervalo.

En el intervalo del [1.01-2], se encuentran los valores

de 1.3, 1.4, 1.6, 1.7, 1.7, 1.7, 1.9, 1.9.

Intervalos Frecuencia Absoluta

(fi)

Frecuencia Relativa

(hi)

Frecuencia Absoluta Acumulad

a (Fi)

Frecuencia Relativa Acumulad

a (Hi)

Marca de clase (yi)

0 - 1 3 6% 3 6% 0.5

1.01 - 2 8 16% 11 22% 1.5

2.01 - 3 18 36% 29 58% 2.5

3.01 - 4 13 26% 42 84% 3.5

4.01 - 5 8 16% 50 100% 4.5

50 100%

Page 32: Conceptos Básicos de Estadística Descriptiva e Inferencial

Gráficos tabla de frecuencias

La primera gráfica que se puede deducir, se llama

histograma de frecuencias en la que en el eje x, se

colocan los datos y en el eje y, la frecuencia absoluta

de cada dato.

Nota: en cualquiera de los paquetes básicos de

office, se puede encontrar en insertar -gráfico -

columna.

0

5

10

15

20

0 - 1 1.01 - 2 2.01 - 3 3.01 - 4 4.01 - 5

Histograma de frecuencias sobre la cantidad de café que se consume al año.

Page 33: Conceptos Básicos de Estadística Descriptiva e Inferencial

Otro gráfico útil es el diagrama circular en el cual se

grafica la frecuencia relativa, este se coloca en

proporción los ángulo del círculo con los pesos

porcentuales de los datos. La fórmula para esto es

multiplicar la frecuencia relativa por 360.

Nota: en cualquiera de los paquetes básicos de

office, se puede encontrar en insertar -gráfico -

circular.

0 - 1 6%

1.01 - 2 16%

2.01 - 3 36%

3.01 - 4 26%

4.01 - 5 16%

Page 34: Conceptos Básicos de Estadística Descriptiva e Inferencial

Medidas de tendencia central datos agrupados

Para calcular las medidas de tendencia central para los

datos agrupados, se tomará el ejemplo de la variable

cuantitativa continua, debido a que es el más completo.

Media:

Recordar que es la suma de todos los datos dividido por

n.

Para calcular la suma de todos los datos en la tabla, se

debe naturalmente sumar las multiplicaciones de cada

dato por su frecuencia.

Como en la tabla de frecuencias de la variable continua,

no existen los datos de manera individual sino intervalos.

Se toma un representante de cada uno, el cual se

estableció en la marca de clase.

Page 35: Conceptos Básicos de Estadística Descriptiva e Inferencial

Con lo anterior, se puede plantea

la fórmula como sigue:

Es importante notar que si la variable fuera

cuantitativa discreta, se reemplaza el yi con xi.

También debemos ver que esta medida no es

aplicable a variables cualitativas.

Se interpreta que en promedio los alemanes

consumen 2.8 kg de café al año.

Page 36: Conceptos Básicos de Estadística Descriptiva e Inferencial

Mediana

Recordar que es el dato que se encuentra en el centro

de la distribución.

Para esto, se debe identificar el

intervalo en el que está dicho

dato, dividiendo la cantidad de

datos (n) por 2.

En el ejemplo, el dato debe estar en la posición 25 y esta

posición, se encuentra en el tercer intervalo [2.01 - 3].

Luego para escoger la mediana dentro de los datos del

intervalo, se podría escoger el representante llamado

marca de clase, aunque con esta elección se estaría

suponiendo que la mediana se encuentra exactamente

en la mitad del intervalo.

Page 37: Conceptos Básicos de Estadística Descriptiva e Inferencial

Cuando el intervalo tiene abundantes datos, se debe

tener cuidado con hacer la suposición anterior y se

debe refinar la búsqueda de la mediana, identificando

hacia qué parte del intervalo se encuentra. Para esto,

se utiliza el siguiente factor:

La diferencia entre la posición media y la frecuencia

absoluta acumulada del intervalo anterior, indica la

cantidad de datos que hay desde que empieza el

intervalo hasta la mediana. Y la división con la

frecuencia del intervalo, da una proporción en donde

se encuentra.

Este factor se puede escribir

en general como:

Page 38: Conceptos Básicos de Estadística Descriptiva e Inferencial

Luego de tener la posición de la mediana dentro del

intervalo en forma de factor necesitamos conocerla en

kg y para esto resta multiplicarla por la amplitud del

intervalo.

0.77 kg es lo que recorre la mediana desde que

comienza el intervalo, por lo cual, para establecer el

valor de la mediana se debe sumar el límite inferior del

intervalo que se nota: Li (inf).

Page 39: Conceptos Básicos de Estadística Descriptiva e Inferencial

Con lo anterior se puede escribir una expresión general

para la mediana como sigue:

Moda:

La moda es el dato que más se repite, debido a que

para su cálculo, se observa el intervalo con mayor

frecuencia y se toma el representante llamado marca

de clase.

En el ejemplo la mayor frecuencia, está en el tercer

intervalo [2.01 - 3] y su marca de clase es 2.5, por lo

cual:

Page 40: Conceptos Básicos de Estadística Descriptiva e Inferencial

Medidas de dispersión

Desviación estándar:

Recordar que esta medida representa la dispersión de

los datos con respecto a la media.

La fórmula para calcularla es idéntica a la de los datos

no agrupados, recordar:

Aunque como en este caso, las Di, no se realizan por

elemento, se debe escoger el representante y

multiplicarlo por la frecuencia.

Cuando la tabla de frecuencias pertenezca a una

variable cuantitativa continua, el representante es la

marca de clase.

Page 41: Conceptos Básicos de Estadística Descriptiva e Inferencial

Se interpreta como la dispersión promedio del

consumo de café anual con respecto a 2.8kg es de

1.1 kg.

Calcular:

Page 42: Conceptos Básicos de Estadística Descriptiva e Inferencial

Probabilidad

Page 43: Conceptos Básicos de Estadística Descriptiva e Inferencial

Se va a introducir la probabilidad con un ejemplo para

luego definirla formalmente.

Ejemplo. Se supone que se quiere conocer las

preferencias de las empresas de cierto país y para esto se

aplica una encuesta vía e-mail a 60 compañías.

Suponiendo que de las 60 sólo 25 respondieron. Entonces

¿Cuál es la probabilidad de que una empresa responda

una encuesta?, sí se necesita tener 60 encuestas para

realizar el análisis ¿Cuántas encuestas debería enviar?

Respuesta pregunta 1:

Si llamamos R al evento que una empresa responda una

encuesta vía e-mail, entonces:

Se interpreta como la probabilidad de que una empresa

responda una encuesta vía e-mail es de 41.66%.

Page 44: Conceptos Básicos de Estadística Descriptiva e Inferencial

La probabilidad de un experimento o suceso donde se

conocen todos los posibles resultados es un valor entre

0 y 1. Este número mide la frecuencia de obtener un

resultado, luego de realizar el experimento cierto número

de veces. Su fórmula es:

Respuesta pregunta 2:

Si la probabilidad de R es de 41.66% y si se nota como

E, el número de encuestas enviadas, se tiene que:

Por lo cual, para que se reciban 60 encuestas se

deben enviar 144. Luego del ejemplo, conceptualizar.

Nótese que si P(A)=0 implica que ese evento nunca

ocurre, y si P(A)=1 indica que ese evento siempre

sucede.

Page 45: Conceptos Básicos de Estadística Descriptiva e Inferencial

Lógica y probabilidad

La relación entre la lógica y la probabilidad se ve

claramente expresada en las siguientes tres reglas para

calcular probabilidad.

Regla de la adición:

Esta regla se utiliza cuando dados 2 eventos se quiera

conocer la probabilidad que ocurra alguno de los dos.

Su fórmula es la siguiente:

Ejemplo. Se supone que se quieren conocer las

preferencias de las empresas de cierto país y para esto

se aplica una encuesta vía e-mail y otra vía telefónica a

60 compañías. Suponiendo que de las 60 sólo 25

respondieron vía e-mail, 36 vía telefónica y 20

contestaron por ambos medios.

Encontrar la probabilidad de que una empresa responda

una encuesta por cualquier vía.

Page 46: Conceptos Básicos de Estadística Descriptiva e Inferencial

Utilizar la siguiente notación:

R: evento de que una empresa responda una encuesta

vía e-mail.

K: evento de que una empresa responda una encuesta

vía telefónica.

La probabilidad de que una empresa responda una

encuesta por cualquier vía e-mail o telefónica es de

68,32%.

Nótese que si los eventos son mutuamente

excluyentes, la probabilidad de la intersección es

igual a 0.

Page 47: Conceptos Básicos de Estadística Descriptiva e Inferencial

Regla de la probabilidad condicional

Esta regla se utiliza cuando se quiere conocer la

probabilidad de un evento A dado un evento B. Se nota

como P(A/B). La fórmula está dada por:

Véase el ejemplo con los datos anteriores. Se quiere

conocer la probabilidad de que una empresa responda

una encuesta vía telefónica, luego de haber respondido

una encuesta vía e-mail. Es decir P(K/R).

Comprobar que:

Page 48: Conceptos Básicos de Estadística Descriptiva e Inferencial

Regla de la probabilidad conjunta

Se utiliza cuando se quiere que ocurran dos eventos a la

vez.

Cuando los eventos están relacionados y se conoce la

probabilidad condicional, la fórmula está dada por:

Nótese que si A y B son independientes P(A/B)=P(A), por

lo cual, la fórmula se reduce a:

Véase esta regla en el ejemplo, como K y R están

relacionados, se debe utilizar la primera:

La probabilidad de que una empresa responda una

encuesta vía telefónica y e-mail es de 33,33%.

Page 49: Conceptos Básicos de Estadística Descriptiva e Inferencial

Distribución Normal

Page 50: Conceptos Básicos de Estadística Descriptiva e Inferencial

Al realizar un análisis estadístico de los datos obtenidos

por una variable cuantitativa continua, es útil asociar un

tipo de distribución.

En lo sucesivo, se presentará la distribución normal y se

verá su utilidad en el análisis de datos.

Se dice que una cantidad de datos sigue una

distribución normal si cumple las siguientes

características: 1. Tiene una única moda, que coincide con su media y su mediana.

2. La curva normal es asintótica al eje x, es decir, la curva no toca el eje x pero se acerca mucho a este. Por ello, cualquier valor del eje x es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1.

3. Es simétrica con respecto a su media. Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.

Page 51: Conceptos Básicos de Estadística Descriptiva e Inferencial

4. El área bajo la curva comprendido entre los

valores situados aproximadamente a dos

desviaciones estándar de la media, es igual a

0.95. En concreto, existe un 95% de

posibilidades de observar un valor comprendido

en el intervalo.

Se dice que una cantidad de datos sigue una

distribución normal si cumple las siguientes

características.

El gráfico de la distribución normal teórica, es la

llamada campana de Gauss.

Page 52: Conceptos Básicos de Estadística Descriptiva e Inferencial

Para identificar si nuestros datos corresponden a

una distribución normal, se puede analizar

visualmente el histograma de frecuencias. Por

ejemplo:

Poseen distribución normal:

No poseen distribución normal:

Page 53: Conceptos Básicos de Estadística Descriptiva e Inferencial

Para el ejemplo de variable continua que hay, se observa

que la distribución se puede asociar a una normal.

Cuando se tiene asociada la distribución normal a

unos datos, se pueden resolver preguntas de

probabilidad acerca del comportamiento de variables.

Por ejemplo, la probabilidad de encontrar alemanes

que consuman menos de 3kg de café al año.

Page 54: Conceptos Básicos de Estadística Descriptiva e Inferencial

Para obtener información como la del ejemplo anterior,

se debe asociar nuestros datos a una distribución

normal con media cero y varianza 1, debido a que para

este tipo de distribución existen tablas con la

probabilidad ya calculada.

Dicha asociación se debe hacer con la siguiente

transformación:

Realizar el ejemplo propuesto sobre la probabilidad de

encontrar alemanes que consuman menos de 3kg de

café al año.

Buscar la probabilidad en la tabla para un valor menor

o igual que 0.18, es decir:

Page 55: Conceptos Básicos de Estadística Descriptiva e Inferencial

Obsérvese que la

gráfica toma una

probabilidad

acumulada desde el

infinito negativo, por

esto, la probabilidad de

Z=0 es de 50%.

Page 56: Conceptos Básicos de Estadística Descriptiva e Inferencial

Según la tabla la probabilidad de encontrar un alemán

que consuma menos de 3kg de café al año es de

57.14%.

Ejemplo 2. ¿Cuál es la probabilidad de encontrar un

alemán que consuma entre 3.5kg y 4kg de café

anualmente?

Como se busca en la tabla el área (probabilidad) entre

dos valores y la tabla, da el área acumulada, se debe

realizar la resta entre las dos áreas, es decir:

Primero, hay que realizar la respectiva transformación:

Page 57: Conceptos Básicos de Estadística Descriptiva e Inferencial

Se interpreta como la probabilidad de que un

alemán consuma entre 3.5kg y 4kg al año es de

12.64%.

Page 58: Conceptos Básicos de Estadística Descriptiva e Inferencial

Ejemplo 3. ¿Cuál es la probabilidad de encontrar un

alemán que consuma menos de 1kg al año?

Para revisar un resultado negativo, se debe recordar

que la media de la distribución Z es cero y como esta es

simétrica el cero, está en la mitad de la distribución.

Recordado lo anterior, es fácil ver en la gráfica que el

área entre -1.63 y cero es igual al área entre 0 y 1.63, es

decir:

Como en la tabla no aparecen los negativos para

calcular el área menor que -1.63 debo al área menor

que cero restarle el área entre 0 y -1.63 que es lo

mismo por la igualdad anterior que el área entre 0 y

1.63 , es decir:

Page 59: Conceptos Básicos de Estadística Descriptiva e Inferencial

Además:

Lo que se interpreta como la probabilidad de

encontrar un alemán que consuma menos de 1kg

de café es de 5.16% .

Page 60: Conceptos Básicos de Estadística Descriptiva e Inferencial

Consideraciones

Hasta ahora se ha realizado el trabajo de análisis con

la distribución normal, acerca de la población de

consumidores de café alemanes sobre una muestra

de 50 de estos, deducción a partir de las

características de la población de muestra.

Aplicar al ejemplo, la característica de la distribución

normal del intervalo de confianza que se presentó

anteriormente. Recordar que en esta decía que había

una probabilidad del 95% que los datos estuvieran en

el siguiente intervalo:

Entonces existe una probabilidad de un 95% de que

se encuentre un alemán que consuma entre 0.644kg

y 4.956kg de café al año.

Page 61: Conceptos Básicos de Estadística Descriptiva e Inferencial

Si esto no ocurre, se escogió en la muestra

aleatoriamente, un teorema de la estadística, que indica

que la desviación estándar de la muestra dividida por la

raíz cuadrada de n, es igual a la de la población y que

las medias son iguales. Por lo cual, la función de

transformación Z. queda expresada como sigue:

Para que en los ejemplos anteriores sea válido realizar

la inferencia, se debe suponer que la media y

desviación estándar de la muestra es igual a la de la

población.

Realizar este tipo de análisis es lo que se denomina

inferencia y hace parte de la estadística inferencial.

Page 62: Conceptos Básicos de Estadística Descriptiva e Inferencial

Otras distribuciones de probabilidad

De las gráficas se puede observar que tienen diferencias

con la distribución normal. Por ejemplo, la simetría y

donde se concentran los datos.

La distribución normal que se acabó de estudiar, es

ampliamente utilizada, pero no por ello se puede pensar

que es la única, existen otras que se describen, otros

tipo de distribuciones, véanse los siguientes ejemplos:

Profundizar sobre estos tipos de distribuciones esta

fuera del alcance de los objetivos de esta guía, aunque

su manejo es similar al que se realiza con la distribución

normal.

Page 63: Conceptos Básicos de Estadística Descriptiva e Inferencial

Regresión lineal

Page 64: Conceptos Básicos de Estadística Descriptiva e Inferencial

En ocasiones, cuando se está analizando datos, el

interés de conocer cómo se relacionan con otra

variable y así predecir cambios en los datos a partir de

modificaciones de la variable. Por ejemplo, si se tiene

el valor de las importaciones de cierto país en una

cantidad de años y se quiere conocer qué va a pasar

en los años venideros.

Esto se realiza, aproximando los datos a una función

conocida. Por ejemplo, la función lineal gráficamente

sería:

Aquí los puntos representa los datos, la línea y la

función conocida.

Page 65: Conceptos Básicos de Estadística Descriptiva e Inferencial

En el cálculo de la regresión, se calculan dos valores

notados; a y b. El valor a, representa la tasa de variación

de la variable y con respecto a la variable x, en el

ejemplo de las importaciones, si este valor diera positivo,

implica que las importaciones están creciendo y si fuera

negativo muestra un decrecimiento. La fórmula para este

cálculo es:

El valor b, se interpreta como el valor de la variable y

cuando la variable tenga un valor nulo, su fórmula es:

Véase con un ejemplo la aplicación.

Page 66: Conceptos Básicos de Estadística Descriptiva e Inferencial

Ejemplo

Los siguientes son los datos de importaciones

hechas por Alemania de especias y café durante los

correspondientes años. El valor está dado en

millones de dólares.

Nótese que para aplicar las fórmulas, se deben

añadir las siguientes columnas.

x 2006 2007 2008 2009 2010 2011

y

4.336

4.749

7.831

6.627

8.149

8.360

xy

8.698.016

9.531.243

15.724.648

13.313.643

16.379.490

16.811.960

x.x

4.024.036

4.028.049

4.032.064

4.036.081

4.040.100

4.044.121

Ahora, se mostrarán los cálculos que se necesitan

para las fórmulas.

Page 67: Conceptos Básicos de Estadística Descriptiva e Inferencial
Page 68: Conceptos Básicos de Estadística Descriptiva e Inferencial

y = 831,89x - 1.664.167,12

4.000

4.500

5.000

5.500

6.000

6.500

7.000

7.500

8.000

8.500

9.000

2005 2006 2007 2008 2009 2010 2011 2012

Con esta fórmula, ahora calcular un valor futuro. Por

ejemplo, las importaciones alemanas de café y

especias para el año 2012 y 2015.

y = 831,89x - 1.664.167,12 Si x=2012 entonces

y = 831,89(2012) - 1.664.167,12 = 9.586,93 Es decir, que en el 2012 las importaciones alemanas

de café y especias serán por valor de 9.586,93

millones de dólares.

Page 69: Conceptos Básicos de Estadística Descriptiva e Inferencial

Si x=2015 entonces

y = 831,89(2015) - 1.664.167,12 = 12.082,59

Es decir que en el 2015 las importaciones alemanas de

café y especias serán por valor de 12.082,59 millones de

dólares.

Nótese que los valores de los años se podrían tomar del

1 al 6 para facilitar los cálculos, y para las dos

proyecciones se utilizarán los valores de 7 y 10.

Analizar ahora los a y b

El valor a=831,89 significa que las importaciones están

creciendo a una tasa de 831,89 millones de dólares al

año.

El valor b=-1.664.167,12 es negativo, significa que no se

realizaron importaciones, aunque se muestra que un

análisis al año 0 no tiene sentido, por lo cual sería mejor

para el análisis de la b tomar los años del 1 al 6.