Download pdf - Clase 4-4 2013.pdf

Transcript
Page 1: Clase 4-4 2013.pdf

• La clase anterior

• Presentamos los fundamentos de probabilidades continuas.

• Densidad, distribución, etc.

• Presentamos la Distribución Normal.

IND3100 - Prof. Jorge Vera A. ©2013

• Hoy.

• Veremos por qué todo es “normal”

• Estudiaremos principios de muestreo e inferencia estadística.

¿Por qué la distribución normal parece tan normal?

• Se mide la estatura de un grupo de personas (por ejemplo, en esta sala).

• Si se hace el histograma según rangos de altura, va a parecer normal…

• La altura es resultado de muchos factores, cada uno de los cuales está sujeto a variaciones…

IND3100 - Prof. Jorge Vera A. ©2013

• Es sorprendente que los efectos acumulados de esas variaciones termina teniendo un comportamiento “normal”…

• Uno de los resultados más importantes en probabilidades es el que veremos a continuación…

Page 2: Clase 4-4 2013.pdf

Teorema Central del Límite (TCL)

• Supongamos que tengo n variables aleatorias:

• X1, X2, …, Xn

• Supongamos que todas son independientes e idénticamente distribuidas con media µµµµ, y desviación estándar σ.σ.σ.σ.

• Sea: Sn=X1 + X2 + … + Xn

IND3100 - Prof. Jorge Vera A. ©2013

• Sea: Sn=X1 + X2 + … + Xn

• Entonces, a medida que n se hace grande, Sn

distribuye aproximadamente normal con media µµµµSn = nµµµµ desviación estándar

nS nσ σ=

i

Este resultado es válido independiente de la distribución de probabilidades de los Xi.

Teorema Central del Límite (TCL)

• También podemos concluir que si tomamos el promedio de las variables aleatorias:

• =(Sn/n)=(X1 + X2 + … + Xn)/n

• Entonces, a medida que n se hace grande, el promedio distribuye aproximadamente normal con media y desviación estándar S n

σσ =

S

Sµ µ=

IND3100 - Prof. Jorge Vera A. ©2013

con media y desviación estándar

• Nota: n no necesita ser “muy” grande. Típicamente n ≥ 30 basta.

• Importancia del resultado…

S nσ =

Sµ µ=

Page 3: Clase 4-4 2013.pdf

Ejemplo TCL: Lanzar un dado varias veces

• Supongamos lanzamos un dado n veces y registramos la suma de los números…

• X1 , X2 , … , Xn son las v.a. que representanlos números en cada tirada.

• La suma es X1 + X2 + … + Xn

• Recordemos la tabla con n = 2:

IND3100 - Prof. Jorge Vera A. ©2013

• Recordemos la tabla con n = 2:

1 2 3 4 5 6

1 2 3 4 5 6 7

2 3 4 5 6 7 8

3 4 5 6 7 8 9

4 5 6 7 8 9 10

5 6 7 8 9 10 11

6 7 8 9 10 11 12

0.000

0.050

0.100

0.150

0.200

0.250

1 3 5 7 9

11 13 15 17

n = 1n = 1

Ejemplo TCL: Lanzar un dado varias veces

0.000

0.050

0.100

0.150

0.200

0.250

1 3 5 7 9

11 13 15 17

n = 2n = 2

IND3100 - Prof. Jorge Vera A. ©2013

0.000

0.050

0.100

0.150

0.200

0.250

1 3 5 7 9

11 13 15 17

n = 3n = 3

Page 4: Clase 4-4 2013.pdf

Ejemplos:

• Veamos algunas animaciones…

• http://www.ms.uky.edu/~mai/java/stat/GaltonMachine.html

IND3100 - Prof. Jorge Vera A. ©2013

Comentarios sobre el TCL• n no tiene que ser TAN grande (≈30 es suficiente),

especialmente si la distribución de los Xi es “decente”

� Más o menos simétrica y con colas no muy pesadas.

• El TCL es otra forma de las llamadas “leyes de grandes números”

• La distribución de probabilidades de los Xi no importa, más aún, incluso hay formas avanzadas del TCL en donde las

IND3100 - Prof. Jorge Vera A. ©2013

aún, incluso hay formas avanzadas del TCL en donde las v.a. no necesitan ser i.i.d. (con n más grande, eso sí).

• Entonces, la distribución Normal puede aparecer de al menos tres formas:� Como un modelo natural para muchos procesos físicos

� Como la suma de muchas variables aleatorias

� Como una aproximación de la suma o promedio de muchas v.a. iid

Page 5: Clase 4-4 2013.pdf

Supongamos que X es Binomial(n, p)

E(X) = np

VAR(X) = np(1-p)

Sea Y una v.a. normal con media np y varianza np(1-p)

Aproximación de Binomial con Normal

IND3100 - Prof. Jorge Vera A. ©2013

5 p)-n(1y 5 np ≥≥

Entonces, Y es una buena aproximación de X si n es “grande”.

Una buena regla es usar esta aproximación sólo si:

Sea Y una v.a. normal con media np y varianza np(1-p)

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0 5

10 15 20 25

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0 5

10 15 20 25

n = 15n = 15n = 10n = 10

Aplicación del TCL: Binomial(n,0.8)

IND3100 - Prof. Jorge Vera A. ©2013

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0 5

10 15 20 25

0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0 5

10 15 20 25

n = 25n = 25n = 20n = 20

Page 6: Clase 4-4 2013.pdf

Ejemplo 3.13 de Bertsimas y Freund

• Sea X el número de defectuosos en el lote de 6000.

• X distribuye Binomial(n,p) con n=6000, p=0,001.

• Un proceso de manufactura de semiconductores tiene unatasa de defectos de 1 en 1.000. ¿Qué tan probable es quehayan al menos 10 piezas defectuosas en un lote de 6.000 unidades?

IND3100 - Prof. Jorge Vera A. ©2013

• Estamos en los rangos válidos de la aproximación y X puede aproximarse por una v.a. normal, Y, con esosparámetros.

6,0; (1 ) 2,448X Xnp np pµ σ= = = − =

( 10)P X ≥ ≈ ( 10)normalP Y ≥ = 6 10 6

2,448 2,448

YP

− − ≥ =

( 1,63) 0,0516P Z ≥ ≈

Muestreo y elementos de Inferencia

Magíster en Ingeniería Industrial

Departamento de Ingeniería Industrial y de Sistemas

Pontificia Universidad Católica de Chile

IND 3100Modelos Cuant. Para la Toma de Dec.

IND3100 - Prof. Jorge Vera A. ©2013

Muestreo y elementos de Inferencia

Estadística

Page 7: Clase 4-4 2013.pdf

NEXNet quiere estimar la cuenta telefónica mensual promedio en las comunidades de Weston, Wayland, y Sudbury, mediante unaencuesta telefónica. Para motivar a la gente a participar, NEXNet

NEXNet es una empresa pequeña pero agresiva en el mercadode telecomunicaciones de la costa Este de EEUU, y estáconsiderando moverse hacia el Norte, al área de Boston.

Un Ejemplo

IND3100 - Prof. Jorge Vera A. ©2013

encuesta telefónica. Para motivar a la gente a participar, NEXNetofrecerá cupones de descuentos en ciertos productos al encuestara los participantes.

• ¿A cuántas personas debería encuestar NEXNet(exitosamente) para estimar en forma “exitosa” la cuentatelefónica promedio en estas tres comunidades?

• ¿Cómo debería analizar NEXNet los resultados de la encuenta?

Qué estudiaremos

• Muestras aleatorias.

• Indicadores de la muestra: media y desviación estándar muestral.

• Distribución de la media muestral.

• Intervalos de confianza para estimar.

• Diseño del tamaño muestral.

IND3100 - Prof. Jorge Vera A. ©2013

• Diseño del tamaño muestral.

• Comparaciones de poblaciones sobre la base de muestras.

Page 8: Clase 4-4 2013.pdf

Población: conjunto de todos los elementos de interés

Muestra: subconjunto de una población

Muestra Aleatoria

IND3100 - Prof. Jorge Vera A. ©2013

Muestra aleatoria: una muestra recolectada de tal forma que cada miembro de la población pueda ser seleccionado con igual probabilidad

Objetivo: Hacer inferencia sobre unapoblación sobre la base de la informaciónde una muestra.

Objetivo: Hacer inferencia sobre unapoblación sobre la base de la informaciónde una muestra.

Usos del Muestreo Estadístico

• ¿Dónde se usa muestreo y estadísticas?

IND3100 - Prof. Jorge Vera A. ©2013

Page 9: Clase 4-4 2013.pdf

Ejemplo: Elección presidencial de EEUU en 1936, Alf Landon vs Franklin D. Roosevelt.

• Octubre 1936, Literary Digest llevó a cabo la encuesta más grande de la historia (10 millones de votantes).

• Su predicción fue que Landon ganaría por 4:3

Una Encuesta que Falló

IND3100 - Prof. Jorge Vera A. ©2013

• Su predicción fue que Landon ganaría por 4:3 en votos populares.

• Un mes después, Roosevelt fue reelecto con la más grande mayoría en la historia de EE.UU.

¿Qué pasó?

• La revista quebró al poco tiempo…

Una Encuesta que Falló

• Problemas:

• Nombres obtenidos principalmente de las guías telefónicas, listas de correo y subscripciones

• Sólo 1 de cada 4 americanos tenía teléfono

IND3100 - Prof. Jorge Vera A. ©2013

• Los pobres tendían a favorecer a Roosevelt

• Literary Digest recibió de regreso sólo el 20% de las encuestas

� Se sabe que los que no responden tienden a diferir de varias formas de los que sí responden

Page 10: Clase 4-4 2013.pdf

Sobre la base de las respuestas a la encuesta, podemospreguntar, por ejemplo:

• ¿Cuál sería un estimador de la probabilidad quela cuenta sea menor a $45? Es decir, Pr(X<=45)

Sigamos con NEXNet…

Volvamos al Ejemplo

IND3100 - Prof. Jorge Vera A. ©2013

la cuenta sea menor a $45? Es decir, Pr(X<=45)

• ¿Cuál sería un estimador de la probabilidadque la cuenta sea menor a $90 y mayor a $75? Es decir, Pr(75<=X<=90)

Sample Data of October Phone Bills (sample size n = 70)

Respondent October Respondent October Respondent October Number Phone Bill Number Phone Bill Number Phone Bill

1 $95.67 25 $79.32 49 $90.022 $82.69 26 $89.12 50 $61.063 $75.27 27 $63.12 51 $51.004 $145.20 28 $145.62 52 $97.715 $155.20 29 $37.53 53 $95.446 $80.53 30 $97.06 54 $31.897 $80.81 31 $86.33 55 $82.358 $60.93 32 $69.83 56 $60.209 $86.67 33 $77.26 57 $92.28

10 $56.31 34 $64.99 58 $120.89

IND3100 - Prof. Jorge Vera A. ©2013

10 $56.31 34 $64.99 58 $120.8911 $151.27 35 $57.78 59 $35.0912 $96.93 36 $61.82 60 $69.5313 $65.60 37 $74.07 61 $49.8514 $53.43 38 $141.17 62 $42.3315 $63.03 39 $48.57 63 $50.0916 $139.45 40 $76.77 64 $62.6917 $58.51 41 $78.78 65 $58.6918 $81.22 42 $62.20 66 $127.8219 $98.14 43 $80.78 67 $62.4720 $79.75 44 $84.51 68 $79.2521 $72.74 45 $93.38 69 $76.5322 $75.99 46 $139.23 70 $74.1323 $80.35 47 $48.0624 $49.42 48 $44.51

Page 11: Clase 4-4 2013.pdf

HistogramaHistogramaF

recu

enci

a(%

)F

recu

enci

a(%

)

10.010.0

8.08.0

Histograma

¿Es esto la distribución de probabilidad del valor de la cuenta telefónica?

IND3100 - Prof. Jorge Vera A. ©2013

00

4.04.0

4040 6060 8080 100100 120120 140140 MásMás

Cuenta Telef. Mensual ($)Cuenta Telef. Mensual ($)

Fre

cuen

cia(

%)

Fre

cuen

cia(

%)

Discutiremos más adelante cómo determinar n, el tamaño de la muestra.

Nuestro problema actual es:

El Problema (formal)

IND3100 - Prof. Jorge Vera A. ©2013

Basado en sólo n valores muestrales X1, X2, . . . , Xn , queremos hacer inferencias acerca de la población entera.

Page 12: Clase 4-4 2013.pdf

Media muestral: suma de todos los elementos de la muestra aleatoria, dividida por el tamaño de la muestra, es decir, el promedio empírico.

Estimador de la Media Poblacional

1 2 ... nX X XX

n

+ + +=

IND3100 - Prof. Jorge Vera A. ©2013

Mediana muestral: el valor para el cual la mitad de los elementos están por debajo, esdecir, el percentil 50.

Xn

=

HistogramaHistograma

00

4.04.0

Fre

cuen

cia(

%)

Fre

cuen

cia(

%)

10.010.0

8.08.0

IND3100 - Prof. Jorge Vera A. ©2013

004040 6060 8080 100100 120120 140140 MásMás

Cuenta Telef. Mensual ($)Cuenta Telef. Mensual ($)

Mediana muestral = $76,65 Media muestral = $79,40

La media muestral toma en cuenta los valores numéricos de cadaobservación, pero puede verse distorsionada por valores extremos.

La mediana muestral no se ve afectada por la magnitud de los valores extremos. Sólo entrega información de posición.

Page 13: Clase 4-4 2013.pdf

La desviación estándar muestral S es:

Usaremos S para estimar la desviación estándar poblacional σ

Estimador para Desv. Est. Poblacional

2

1

( )

1

n

ii

X XS

n=

−=

IND3100 - Prof. Jorge Vera A. ©2013

• Cuando n es grande, la diferencia es despreciable.

• La varianza muestral S2 es un “estimador insesgado’’ de la varianza poblacional, es decir, E [S2] = σ2.

Pregunta: ¿Por qué n - 1, y no n?Respuesta: Porque es un mejor estimador

Usaremos S para estimar la desviación estándar poblacional σ

NEXNet se organiza para tener 70 hogares bien encuestadosy seleccionados aleatoriamente. Encuentran que la media muestral observada de la cuenta telefónica mensual es$79,40, y que la desviación estándar muestral observada es$28,79.

¿Cuál es su estimador de la media poblacional µ?

Volvamos al Ejemplo

IND3100 - Prof. Jorge Vera A. ©2013

¿Cuál es su estimador de la desviación estándar poblacional σ?

= $= $79,4079,40x

s = $= $28,7928,79

Page 14: Clase 4-4 2013.pdf

Cada “toma” de la muestra es una v.a.

X1, X2, . . . , Xn son v.a. independientes e idénticamentedistribuidas

Cada Xi tiene la misma distribución que la población entera: E[Xi] = µ, Var[Xi] = σσσσ 2.

¿Cómo entender el procedimiento de muestreo?

IND3100 - Prof. Jorge Vera A. ©2013

es la media muestral (una v.a.)1 2 ... nX X XX

n

+ + +=

2

1

( )

1

n

ii

X XS

n=

−=

∑ es la desviación estándar muestral

(una v.a.)

Después de tomar la muestra:

x1, x2, . . . , xn (con minúscula) son valores observados

de la muestra (números)

es nuestro estimador para µ

¿Cómo entender el procedimiento de muestreo?

1 2 ... nx x xx

n

+ + +=

2( )n

x x−∑

IND3100 - Prof. Jorge Vera A. ©2013

es nuestro estimador para σ

Típicamente, obtendremos resultados diferentes de muestras diferentes, es decir, de cada “repetición” de la toma.

2

1

( )

1

ii

x xs

n=

−=

Page 15: Clase 4-4 2013.pdf

¿Qué tan buena es la media muestral?• El valor esperado de la media muestral:

• ¡En promedio, estamos estimando lo que queremos!

1 2 ...( ) nX X X

E X En

+ + + =

( )1 2

1... nE X X X

n= + + +

( )1

1( ) ... ( )n

nE X E X

n n

µ µ= + + = =

IND3100 - Prof. Jorge Vera A. ©2013

• ¡En promedio, estamos estimando lo que queremos!

• También:

y:

1 2 ...( ) nX X X

Var X Varn

+ + + =

( )1

1( ) ... ( )nVar X Var X

n= + +

22

2

1( )n

n n

σσ= = ( )SD Xn

σ=

¿Qué tan buena es la media muestral?

• La media muestral es un estimador insesgadode la media poblacional

• A medida que aumenta el tamaño de la muestra, el estimador de la media presentamenos variabilidad…

IND3100 - Prof. Jorge Vera A. ©2013

• Y esto coincide con la intución sobreestimación de promedios…

• Observación: nótese que hemos calculado

no la varianza de X.

( )Var X

Page 16: Clase 4-4 2013.pdf

¿Cuál es la distribución de la media muestral?

• Volvamos al ejemplo:

• ¿Cuál es la probabilidad de que la media estimada estéa lo más a una distancia L de µ?

• Supongamos que la distribución de probabilidad de una cuenta telefónica mensual típica es normal....

IND3100 - Prof. Jorge Vera A. ©2013

cuenta telefónica mensual típica es normal....

( )P L X Lµ− ≤ − ≤/ / /

L X LP

n n n

µσ σ σ − −= ≤ ≤

¿Qué distribución tiene esto?

¿Cuál es la distribución de la media muestral?

• Notar que tendrá distribuciónNormal(0,1) siempre y cuando se conozca el verdaderovalor de σ.

• Pero sólo conocemos un estimador: s.

• Se puede mostrar que la desv. estándar muestral sigue

una distribución “Chi-cuadrado” (denotado χ2 ) con “n-1 grados de libertad”…

( ) / ( / )X nµ σ−

IND3100 - Prof. Jorge Vera A. ©2013

• El cuociente entre una distribución normal y una chi-cuadrado se conoce como una distribución “t-Student”.

• Entonces en:

/ / /

L X LP

s n s n s n

µ − −= ≤ ≤

Tiene distribución “t”

Page 17: Clase 4-4 2013.pdf

La distribución t-student

IND3100 - Prof. Jorge Vera A. ©2013

2−=

k

¿Cuál es la distribución de la media muestral?

• La “t” tiene colas más pesadas que la normal...

• Pero se parecen mucho cuando n es grande.

• Como consecuencia del Teorema Central del Límitetenemos que si n es grande, entonces

/

X

s n

µ−

IND3100 - Prof. Jorge Vera A. ©2013

• Distribuye aproximadamente Normal(0,1)

• Esto nos permite usar la distribución normal al calcularprobabilidades de la “media muestral normalizada”, perosólo cuando la muestra es “grande”.

/s n

Page 18: Clase 4-4 2013.pdf

NEXNet determina que la media muestral observada de la cuenta telefónica mensual es $79,40, y que la desviaciónestándar muestral observada es $28,79.

¿Qué tan confiados podemos estar de que la media poblacional sea µ=79,40?

Volvamos al Ejemplo

IND3100 - Prof. Jorge Vera A. ©2013

¿Qué tan confiados podemos estar de que $79,40 esté dentrode +/- 1 de la verdadera media poblacional µ?

Pr( 1 1) ?X µ− < − < =

Para un tamaño muestral grande n,

¿Cuánto confiamos en la media muestral?2

( , )snX N µ≈

¿Cuál es la probabilidad de que esté a lo más a unadistancia L de µ?

X

( )P L X Lµ− ≤ − ≤/ / /

L X LP

n n n

µσ σ σ − −= ≤ ≤

IND3100 - Prof. Jorge Vera A. ©2013

/ / /

L X LP

s n s n s n

µ − −= ≤ ≤

/ /

L LP Z

s n s n

− ≈ ≤ ≤

Donde Z es Normal(0,1)

Page 19: Clase 4-4 2013.pdf

¿Qué tan tan confiados podemos estar de que $79,40 estédentro de +/- 1 de la verdadera media poblacional µ?

Volvamos al Ejemplo

10,2906

/ 28,79 / 70

L

s n= =

( 1 1) ( 0,2906 0,2906) 0,229.P X P Zµ− ≤ − ≤ ≈ − ≤ ≤ =

Luego:

IND3100 - Prof. Jorge Vera A. ©2013

Suponga que quiero estar 95% seguro que $79,40 está a L dólares de la verdadera media poblacional. ¿Cuántodebe valer L?

( 1 1) ( 0,2906 0,2906) 0,229.P X P Zµ− ≤ − ≤ ≈ − ≤ ≤ =

Ejemplo (cont.)

0,95 ( )P L X Lµ= − ≤ − ≤

Hay que calcular L tal que:

/ /

L LP Z

s n s n

− = ≤ ≤

El percentil 0,95 de la normal en este caso es 1,96 y:

1,96 L 1,96 28,79/ 70 6,74./

L

s n

− = ⇒ = × =

IND3100 - Prof. Jorge Vera A. ©2013

Por lo tanto, tenemos un 95% de confianza que la media muestral $79,40 se encuentra a lo más a L = $6,74 dólaresde la media poblacional µ

Al intervalo [79,40 – 6,74, 79,40 + 6,74] se le llama “intervalo de confianza al 95%” para la media poblacional.

1,96 L 1,96 28,79/ 70 6,74./s n

= ⇒ = × =

Page 20: Clase 4-4 2013.pdf

¿Que tal si queremos estar 99% seguros?

¿El intervalo es más ancho o más angosto?

Haciendo el cálculo nuevamente tenemos:

Ejemplo (cont.)

2,58 L 2,58 28,79/ 70 8,86.L− = ⇒ = × =

IND3100 - Prof. Jorge Vera A. ©2013

2,58 L 2,58 28,79/ 70 8,86./s n

= ⇒ = × =

Un IC al 99% para µ sería [79,40 – 8,86, 79,40 + 8,86].

Resumen: Intervalos de Confianza• El intervalo de confianza nos permite estimar qué tan

cerca está nuestro estimador del valor verdadero µ.

• Es correcto siempre entregar un intervalo de confianza de la forma

IND3100 - Prof. Jorge Vera A. ©2013

• El nivel de confianza representa la probabilidad de que los intervalos que calculamos incluyan µ.

• L es determinado por el tamaño muestral n, el nivel de confianza, y la desviación estándar σ (o su estimador s)

Page 21: Clase 4-4 2013.pdf

Resumen: Construyendo un IC al β% para µ

Suponga que es la media muestral observada y que s es la desviación estándar muestral observada, ambas calculadas de los datos de una muestra. Si n es suficientemente grande, entonces un IC al β% para la media poblacional sería:

x

,s s

x c x cn n

− +

IND3100 - Prof. Jorge Vera A. ©2013

Para ββββ = 90, c = 1,65Para ββββ = 95, c = 1,96Para ββββ = 99, c = 2,58

Para ββββ = 90, c = 1,65Para ββββ = 95, c = 1,96Para ββββ = 99, c = 2,58

donde c es un número tal que

( ) % , (0,1)P c Z c Z Nβ− ≤ ≤ = ∼

Comentarios• Idealmente, queremos un intervalo angosto (L pequeño)

con un alto nivel de confianza (alto β). Objetivos contrapuestos.

• Para un tamaño muestral fijo (n es fijo), si queremos afirmar algo con un nivel de confianza β más alto, necesitamos un intervalo más ancho (L más grande).

IND3100 - Prof. Jorge Vera A. ©2013

� “trade-off entre ancho del intervalo y el nivel de confianza”

• Para un nivel de confianza fijo (β y c son fijos), si aumentamos el tamaño muestral n, entonces obtendremos un L más pequeño.

� “A mayor tamaño de muestra, más precisos los estimadores”

Page 22: Clase 4-4 2013.pdf

Comentarios• Para un tamaño muestral fijo y un nivel de confianza

fijo, podemos obtener un intervalo más angosto, cuando la población es menos variable (σ y s pequeños).

� “Es más fácil inferir sobre una población con baja dispersión”

IND3100 - Prof. Jorge Vera A. ©2013

• Si tomamos muestras repetidamente, y calculamos los intervalos de confianza, cada vez obtendremos un intervalo diferente.

� Si hacemos esto una y otra vez, el tanto % de los intervalos resultantes incluirán la media poblacional.

Una empresa de investigación de mercado quiere llevar a cabo una encuesta para estimar el monto promedio gastado por cada persona que visita un resort popular. A esta empresa le gustaría estimar el monto promedio en un rango de +/- $120, con un nivel de confianza de un 95%. Asumamos que la SD poblacional del gasto en el resort es de $500.

¿Cuál es el tamaño muestral n que se requerirá para esto?

Diseño Experimental

IND3100 - Prof. Jorge Vera A. ©2013

Pero si no conocemos σ, primero debemos estimarlo con s.

500120 1,96L c

n n

σ= = = ×2

1,96 50067

120n

× ⇒ = ≈

Page 23: Clase 4-4 2013.pdf

Para construir in IC al β% que esté dentro de +/- L de µ, el tamaño muestral requerido esta dado por:

donde c es el número para el cual:

Determinando el tamaño muestral

2c s

nL

× =

( ) % , (0,1)P c Z c Z Nβ− ≤ ≤ = ∼

IND3100 - Prof. Jorge Vera A. ©2013

Para Para ββ = 90, c = 1.65= 90, c = 1.65Para Para ββ = 95, c = 1.96= 95, c = 1.96Para Para ββ = 99, c = 2.58= 99, c = 2.58

Como regla general, n debe ser siempre redondeado hacia arriba, y también debería ser siempre suficientemente grande (mayor a 30) para usar la aproximación normal.

( ) % , (0,1)P c Z c Z Nβ− ≤ ≤ = ∼

Comparando “tratamientos”

• Ejemplo:• Empresa de retail quiere estimar la efectividad de una

campaña de marketing con envío de anuncios por correo. Para esto selecciona dos grupos de 600 personas: al primer grupo se le envía la campaña y al segundo (el “control”) no se le envía. Luego, se investiga la demanda en cada grupo.

IND3100 - Prof. Jorge Vera A. ©2013

• El problema: ¿Hay diferencia significativa entre los que se les envió la publicidad y a los que no?

• Lo que habría que hacer: muestrear en cada grupo, estimar las medias de demanda y ver si son “diferentes”.

Page 24: Clase 4-4 2013.pdf

Comparando “tratamientos”• El primer grupo tiene una media µ1 y desv. est. σ1,

mientras que el segundo grupo tiene media µ2 y desv.est. σ2

• Supongamos se muestrean n1 personas en el primer grupo y n2 en el segundo.

• Sean x1,x2,…,xn1 las observaciones de demanda para el primer grupo.

• Sean y ,y ,…,y las observaciones de demanda para el

IND3100 - Prof. Jorge Vera A. ©2013

• Sean y1,y2,…,yn2 las observaciones de demanda para el segundo grupo.

• Las dos medias muestrales son:

1 21 11 1

1 2

... ...,n nx x y y

x yn n

+ + + += =

Comparando “tratamientos”• Tenemos que (por independencia):

• Ahora:

• Luego,

1 2( ) , ( ) ( ) ( )E X Y Var X Y Var X Var Yµ µ− = − − = +

2 21 2

1 2

( ) , ( )Var X Var Yn n

σ σ= =

( )DS X Y− =2 21 2σ σ+

IND3100 - Prof. Jorge Vera A. ©2013

• Y la variable aleatoria:

• Es aproximadamente normal (0,1), si n1 y n2 son grandes.

( )DS X Y− = 1 2

1 2n n+

1 2

2 21 2

1 2

( ) ( )X YZ

n n

µ µσ σ

− − −=+

Page 25: Clase 4-4 2013.pdf

Comparando “tratamientos”• Lo anterior permite construir un intervalo de confianza

para la diferencia de medias:

• Donde c, como siempre, es el percentil de la distribución N(0,1) para un nivel de confianza dado.

2 2 2 21 2 1 2

1 2 1 2

( ) , ( )x y c x y cn n n n

σ σ σ σ − − + − + +

IND3100 - Prof. Jorge Vera A. ©2013

distribución N(0,1) para un nivel de confianza dado.

Para Para ββ = 90, c = = 90, c = 1,651,65Para Para ββ = 95, c = = 95, c = 1,961,96Para Para ββ = 99, c = = 99, c = 2,582,58

Comparando “tratamientos”• Volviendo al ejemplo:

• Supongamos n1=500, n2=400.

• La media muestral en el grupo 1 es $387 y en el grupo 2 es de $365. Las desv.est. son $223 y $274 respectivamente en grupo 1 y grupo 2.

• La estimación de la diferencia es 387-365=22.

• La desv.est de la diferencia es:

IND3100 - Prof. Jorge Vera A. ©2013

• La desv.est de la diferencia es:

• Y el intervalo de confianza al 98% es:

• ¿Hay diferencias entre los tratamientos?

2 2 2 21 2

1 2

223 27416,95

500 400n n

σ σ+ = + =

[ ]17.43 , 61.43−