7
Distribuci´ on Normal est´ andar y cuadrados m´ ınimos Universidad de Puerto Rico ESTA 3041 Prof. H´ ector D. Torres Aponte 1. Distribuci´ on Normal est´ andar En efecto, todas las distribuciones Normales son lo mismo si usamos las unidades de me- dida σ alrededor de su media μ que es el centro. El proceso para cambiar nuestra distribuci´on a estas variables se le conoce como estandarizaci´ on. Definici´ on 1.1. Si x es una observaci´on de una distribuci´ on con media μ ydesviaci´on est´ andar σ, el valor estandar de x lo es z = x - μ σ Este valor est´andar tambi´ en se le conoce como valor-z. El valor-z nos indica cuantas desviaciones est´andares est´ a la observaci´ on original de si media y en que direcci´on. Las observaciones mayores que su media toman valores pos´ ıtivos cuando se estandarizan mientras los valores que son menores a su media toman valores negativos. Ejemplo 1.1. El peso de una bolsa de “papitascuya etiqueta indica que es de 9oz es aproximadamente Normal con μ =9.12oz y σ =0.15oz. El peso est´ andar es z = weight - 9.12 0.15 Por ejemplo una bolsa que pese 9.3oz, su peso estandarizado lo es z = 9.3 - 9.12 0.15 =1.2 o simplemente 1.2 desviaciones est´ andar por encima de la media. Similarmente una bolsa que pese 8.7oz tiene un peso estandarizado de z = 8.7 - 9.12 0.15 = -2.8 o 2.8 desviaciones por debajo de la media. Si las variables originales (antes de aplicar el proceso de estandarizaci´ on) ten´ ıan una distribuci´ on normal, el proceso de estandarizaci´ on no brinda una nueva escala (com´ un) y esta distribuci´on sigue siendo una Normal conocida como distribuci´ on Normal est´ andar. 1

1. Distribuci on Normal est andarepsilon.uprrp.edu/htorres/courses/e3041/esta3041-lec4.pdf · Distribuci on Normal est andar y cuadrados m nimos Universidad de Puerto Rico ESTA 3041

  • Upload
    vuanh

  • View
    217

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 1. Distribuci on Normal est andarepsilon.uprrp.edu/htorres/courses/e3041/esta3041-lec4.pdf · Distribuci on Normal est andar y cuadrados m nimos Universidad de Puerto Rico ESTA 3041

Distribucion Normal estandar y cuadrados mınimosUniversidad de Puerto Rico

ESTA 3041

Prof. Hector D. Torres Aponte

1. Distribucion Normal estandar

En efecto, todas las distribuciones Normales son lo mismo si usamos las unidades de me-dida σ alrededor de su media µ que es el centro. El proceso para cambiar nuestra distribuciona estas variables se le conoce como estandarizacion.

Definicion 1.1. Si x es una observacion de una distribucion con media µ y desviacionestandar σ, el valor estandar de x lo es

z =x− µ

σ

Este valor estandar tambien se le conoce como valor-z.

El valor-z nos indica cuantas desviaciones estandares esta la observacion original de simedia y en que direccion. Las observaciones mayores que su media toman valores posıtivoscuando se estandarizan mientras los valores que son menores a su media toman valoresnegativos.

Ejemplo 1.1. El peso de una bolsa de “papitas” cuya etiqueta indica que es de 9oz esaproximadamente Normal con µ = 9.12oz y σ = 0.15oz. El peso estandar es

z =weight− 9.12

0.15

Por ejemplo una bolsa que pese 9.3oz, su peso estandarizado lo es

z =9.3 − 9.12

0.15= 1.2

o simplemente 1.2 desviaciones estandar por encima de la media. Similarmente una bolsaque pese 8.7oz tiene un peso estandarizado de

z =8.7 − 9.12

0.15= −2.8

o 2.8 desviaciones por debajo de la media.

Si las variables originales (antes de aplicar el proceso de estandarizacion) tenıan unadistribucion normal, el proceso de estandarizacion no brinda una nueva escala (comun) yesta distribucion sigue siendo una Normal conocida como distribucion Normal estandar.

1

Page 2: 1. Distribuci on Normal est andarepsilon.uprrp.edu/htorres/courses/e3041/esta3041-lec4.pdf · Distribuci on Normal est andar y cuadrados m nimos Universidad de Puerto Rico ESTA 3041

Definicion 1.2. La distribucion Normal estandar es la distribucion Normal N (0, 1) quetiene media 0 y desviacion estandar 1. Si una variable x tiene una distribucion NormalN (µ, σ) entonces la variable estandar lo es

z =x− µ

σ

y tiene una distribucion Normal.

Ejemplo 1.2. ¿Cual es la proporcion de todas las bolsas de “papitas” (cuya etiqueta indicaque su peso es de 9oz) que pesan menos de 9.3oz? Utilizando los datos del Ejemplo 1, podemosdecir que esta proporcion es el area bajo curva N (9.12, 0.15) a la izquierda del punto 9.3.Como el peso estandar correspondiente a 9.3 onzas lo es

z =x− µ

σ=

9.3 − 9.12

0.15= 1.2

el area es la misma que el area bajo la curva de la distribucion Normal estandar a la izquierdadel punto z = 1.2.

z = 1.2

Table entry = 0.8849

Figura 1: El area bajo la curva Normal estandar a la izquierda del punto z = 1.2.

Para encontrar este resultado de forma matematica necesitamos calculo diferencial. Pero,como no tenemos esa herramienta podemos utilizar unas tablas de valores llamada probabil-idades normales estandares.

Definicion 1.3 (Proceso para utilizar la tabla Normal estandar). 1. Escriba el problemaen terminos de la variable observada x.

2. Estandarizamos a x para re-escribir el problemas en terminos de variables Normalesestandares z. Dibujamos un diagrama para mostrar el area bajo la curva que queremosencontrar.

3. En contramos el area bajo la curva requerida utilizando la tabla Normal estandar quese encuentra en la contraportada del libro. Note que el area total de esta curva siemprees 1.

2

Page 3: 1. Distribuci on Normal est andarepsilon.uprrp.edu/htorres/courses/e3041/esta3041-lec4.pdf · Distribuci on Normal est andar y cuadrados m nimos Universidad de Puerto Rico ESTA 3041

Ejemplo 1.3. La tasa de rendimiento anual de ciertas acciones se distribuye aproximada-mente Normal. Desde el 1945, la bolsa de valores Standard & Poor’s 500 tiene un rendimientoanual promedio de 12 % con una desviacion estandar de 16.5 %. Se toma esta distribucionNormal para el rendimiento anual por largos periodos. ¿En que proporcion de anos el mercadobaja?

1. Establecer el problema: Sea x la tasa de rendimiento anual de Standard & Poor’s 500.La variable x tiene una distribucion Normal N (12, 16.5). Queremos saber la proporcioncuando x < 0.

2. Estandarizamos: Restando la media de x y dividiendo por la desviacion estandar, obten-emos:

x < 0x− 12

16.5< 0

z < −0.73

3. Usamos la tabla: Utilizando la tabla para la distribucion Normal estandar podemos verque el area es 0.2327. El mercado va bajar anualmente un 23.27 % del tiempo. Noteque el area a la derecha de −0.73 es 1 − 0.2327 = 0.7673. Lo que nos indica que labolsa va a estar por encima un 76.73 % del tiempo (Ver Figura 2).

z = – 0.73

Table entry = 0.2327

Area = 0.7673

Figura 2: Area bajo la curva en una curva Normal estandar

Ejemplo 1.4. ¿Que porciento de anos tendrıa un rendimiento anual entre un 12 % y 50 %?

1. Queremos la proporcion de los anos entre 12 ≤ x ≤ 50.

2. Estandarizamos

12 ≤ x ≤ 5012 − 12

16.5≤ x−12

16.5≤ 50 − 12

16.50 ≤ z ≤ 2.30

3

Page 4: 1. Distribuci on Normal est andarepsilon.uprrp.edu/htorres/courses/e3041/esta3041-lec4.pdf · Distribuci on Normal est andar y cuadrados m nimos Universidad de Puerto Rico ESTA 3041

3. Usando la tabla, el area entre 0 y 2.30 es el area por dejabo de 2.30 menos el area pordebajo de 0 Ver Figura 3. De la tabla de distribucion obtenemos:

area entre 0 y 2.30 = area debajo de 2.30 − area debajo de 0.00

= 0.9893 − 0.5000 = 0.4893

Alrededor de 40 % de los anos tienen un rendimiento anual entre 12 % y 50 %.

z = 0 z = 2.3

Area = 0.5

Area = 0.9893

Area = 0.4893

Figura 3: Area bajo la curva Normal estandar para el ejemplo 1.4

4

Page 5: 1. Distribuci on Normal est andarepsilon.uprrp.edu/htorres/courses/e3041/esta3041-lec4.pdf · Distribuci on Normal est andar y cuadrados m nimos Universidad de Puerto Rico ESTA 3041

2. Regresion lineal y cuadrados mınimos

Definicion 2.1. Una linea de regresion es una linea recta que describe como la variablerespuesta y cambia respecto a la variable explicativa x. Usamos la linea de regresion parapredecir los valores de y dado un valor x.

0 5 10 15 20 25 30 35 40 45 50 55

1211109876543210

Average number of heating degree-days per day

Ave

rage

am

ount

of g

as c

onsu

med

per

day

in h

undr

eds

of c

ubic

feet

Figura 4: Regresion lineal para el consumo de gas natural de cierta familia.

La fıgura 4 es un diagrama de dispercion para el consumo de gas natural. Vemos quelos datos tienen una relacion lineal muy fuerte entre la temperatura y la cantidad promediode gas consumido. La correlacion es r = 0.9953, vemos que esta es muy cercano a r = 1.La linea de regresion dibujada en la Figura 4 representa muy bien los datos obtenidos en eldiagrama de dispersion.

Si queremos prenosticar cuanto gas podemos consumir cuando la temperatora esta en 20grados por dıa entonces tenemos que localizar cuando x = 20, luego nos movemos hacıa lalinea y vemos el valor de y el cual es aproximadamente 4.9 miles de pies cubicos de gas enese mes.

Obviamente como es una prediccion, probablemente tenemos un error. Supongamos queen el mes que se hizo la prediccion realmente consumieron 5.1 miles de pies cubicos de gasnatural, entonces nuestro error de prediccion fue:

error = observacion y − prediccion y

= 5.1 − 4.9 = 0.2

Es por eso que queremos saber cual es la distancia mınima entre los puntos observados y lalinea. La Figura 5 ilustra esta idea.

Definicion 2.2. La linea de regresion lineal de cuadrados mınimos de y respecto a x es lalinea que representa la suma de los cuadrados de las distancias verticales de los puntos de ladata hasta la linea haciendolos lo mas pequeno posible.

5

Page 6: 1. Distribuci on Normal est andarepsilon.uprrp.edu/htorres/courses/e3041/esta3041-lec4.pdf · Distribuci on Normal est andar y cuadrados m nimos Universidad de Puerto Rico ESTA 3041

20 22 24 26 28 30 32

4.5

7.0

5.0

5.5

6.0

6.5

Average number of heating degree-days per day

Ave

rage

am

ount

of g

as c

onsu

med

per d

ay in

hun

dred

s of

cub

ic fe

et

predicted y

ˆdistance y – y

observed y

Definicion 2.3. Suponga que tenemos data sobre una variable explicativa x y una variablerespuesta y para n individuos. De esta data calculamos la media x y y y las desviacionesestandares sx y sy de las dos variables y su correlacion r. La regresion lineal (cuadradosmınimos) es la linea definida por:

y = b0 + b1x

con pendiente

b1 = rsysx

e interceptob0 = y − b1x

Ejemplo 2.1. La linea de la Figura 4 es en efecto una regresion linear de cuadrados mınimos.Esta linea tiene una ecuacion definida como:

y = 1.0892 + 0.1890x

La pendiente de la regresion lineal es siempre importante para interpretar la data. Lapendiente es la tasa de cambio de la cantidad de cambio en y cuando x incrementa por 1.En este ejemplo b1 = 0.1890 lo que implica a que grado de temperatura adicional aumenta elconsumo por 0.19 miles de pies cubicos de gas natural.

El intercepto de la regresion lineal es el valor y cuando x = 0. Para la prediccion esbastante sencillo. Si queremos predecir para 20 grados en el dıa, sustituimos x = 20:

y = 1.0892 + (0.1890) (20)

= 1.0892 + 3.78 = 4.869

6

Page 7: 1. Distribuci on Normal est andarepsilon.uprrp.edu/htorres/courses/e3041/esta3041-lec4.pdf · Distribuci on Normal est andar y cuadrados m nimos Universidad de Puerto Rico ESTA 3041

Datos sobre la regresion lineal

1. La identificacion de la variable explicativa y la variable respuesta es algo escencial almomento de establecer nuestra regresion.

2. Existe una relacion entre la correlacion y la pendiente de la regresion. La pendiente es

b1 = rsysx

. Esta ecuacion nos indica el cambio a travez de la linea de regresion, hay un cambiode una desviacion in x respecto a r desviaciones estandares en y.

3. La linea de regresion siempre pasa por el punto (x, y).

7