Estadística Inferencial

  • Upload
    suemy55

  • View
    217

  • Download
    0

Embed Size (px)

DESCRIPTION

curso

Citation preview

  • Estadstica Inferencial

  • Estadstica Inferencial

    2

  • Estadstica Inferencial

    El presente documento es una gua para el curso de inferencia estadstica impartido en el Instituto Nacional de Estadstica Geografa e Informtica (INEGI), en el edificio de capacitacin; y no tiene ms que esa finalidad. La seccin de ejercicios ser presentada por el instructor de acuerdo a su preferencia, adems de agregar los temas que l considere pertinentes. La parte inicial es una ubicacin terica que presenta algunos de los conceptos ms importantes y resultados que sern utilizados en la parte formal. En ningn momento deber seguirse al pie de la letra la secuencia de exposicin, el instructor tomar la secuencia que considere trascendental en su imparticin. La segunda parte es todo el curso que se debe impartir, y se tocan los temas pero desde un punto de vista ms informal, y el tema de estimacin ya nada ms se revisa en su formalidad detallada en la primera parte. La razn de la estructura de este documento es que normalmente la persona que lo elabor1, imparte la parte terica para generalizar el objetivo y la ubicacin de la inferencia estadstica y resultados importantes que sern formalmente utilizados por aquellos interesados en la formulacin estadstica- matemtica.

    Ernesto Cervantes Lpez, INEGI 3

  • Estadstica Inferencial

    PARTE UNO

    El objetivo de la estadstica es hacer inferencia con respecto a la poblacin basndose en la informacin contenida en una muestra. Las poblaciones se describen mediante medidas numricas denominadas parmetros y el objetivo de la mayora de las investigaciones estadsticas es hacer inferencia con respecto a uno o ms parmetros de la poblacin. El proceso de obtener un resultado observado de un fenmeno fsico es denominado un experimento. Suponga que el resultado de un experimento es una variable aleatoria x, y ) ,( xf representa la funcin de densidad la cual refleja la distribucin de las medidas de los individuos en la poblacin. Aunque el experimento no permite especificar completamente a

    ),( xf , y esto es posible si se puede asumir que ) ,( xf es un miembro de alguna familia conocida de distribucin y que es un parmetro no conocido tal como la media o la varianza de la poblacin. El objetivo de la estimacin puntual es asignar un valor apropiado a basado sobre las observaciones de la poblacin, es decir, se asume que un conjunto de n variables independientes n

    xxx ,..., ,( xf observada de , 21 cada una con )xxx ,...,un conjunto de datos n , 21 el cual puede representarse como

    ),()...,(),():,...,,( xfxfxfxxxf =

    2121 nn

    Se asume que la distribucin de la poblacin de inters puede ser representada por un miembro de alguna familia especifica conocida ) ,( xf , indexada por el parmetro . En algunos casos el parmetro puede ser un vector y se denota por T . Se denotara por como el espacio paramtrico que denota el conjunto de todos los posibles valores que el parmetro puede asumir. Si T es un vector entonces ser un subconjunto del espacio euclidiano de la misma dimensin y la 4

  • Estadstica Inferencial

    dimensin de va a corresponder al nmero de par metros reales no conocidos. Se asume que n

    xxx ,..., ,( xf y , 21 es una muestra aleatoria de )que ) ( t es una funcin de . Definicin Un estadstico ) ..., xxxT = que es usada para estimar el ( 21 nvalor de ) ( t es denominado un estimador de ) ( t y un valor observado de el estadstico ) ,...,, xxxt = es denominado ( 21 nuna estimacin de ) ( t .

    Equivalentemente se puede abusar y decir que un estimadores una regla que establece cmo calcular una estimacin basada en las mediciones contenidas en una muestra. Es posible obtener varios estimadores (reglas para la estimacin) diferentes para un mismo parmetro poblacional.Esto nos lleva a tratar de definir cuales son buenos o malosen la aproximacin. Para ello debemos recordar algunos conceptos tericos que seutilizaran.

    Definicin. Sea ) ,...,, YYYg una funcin de las variables aleatorias ( 21 n

    YYY ,...,, 21 que tienen una funcin de probabilidad n),...,, yyyp . Entonces el valor esperado de ) ,...,, YYYg es ( 2 ( 21 n 1 n

    ),...,,(),...,,(...)),...,,(( yyypyyygYYYgE =

    212121 nnny y y y

    1 21 nn -

    Si n YYY ,...,, 21 son variables aleatorias continuas con la funcin de densidad conjunta ) ,...,, yyyf entonces ( 21 n

    dydydydyyyyfyyygYYYgE ...),...,,(),...,,(...)),...,,(( = nnnnn 121212121 -y y yy

    n n 121- 5

  • Estadstica Inferencial

    Teorema Sea c una constante entonces c cE =)( Teorema Sean ) ,Y Y , y ( 2g una funcin de las variables aleatorias 2 1 ,Y1 Ysea c una constante. Entonces )),(()),(( YgcEYYcgE = 1 Y 212 Teorema

    Y dos variables aleatorias con la funcin de densidad Sea 2 1 , Yconjunta ) ,yf y sea ),()...,(),,( YYgYYgYYg( 2 k funciones 1 y 21212211

    Y . Entonces de 2 1 , Y )),(...),(),(( YYgYYgYYgE +++ =

    21212211 k

    )),((...)),(()),(( YYgEYYgEYYgE +++ 21212211 k

    Propiedades de los estimadores Estimador Insesgado Definicin Un estimador T es un estimador insesgado de ) ( t s

    t )()( =TE para todo , de otra manera se dice que T es un estimador sesgado de ) ( t . Ejemplo Considere una muestra aleatoria de una distribucin ) ,( Txf ,

    scon ) ,= s son la media y la varianza de la ( 2T , donde y 2poblacin. Ahora bien la media muestral es un estadstico con la funcin

    nxxxxxxt /)...(),...,,( +++= y este estadstico nn 2121

    xusualmente se denota con - = nx que se usa como una in

    =i 1

    estimacin de la media poblacional ) (xE= XXX ,..., , para n , 21 variables aleatorias, y la funcin

    --- 1/))(...)()((),...,,( --++-+-= nxxxxxxxxxt

    2121 nn6

  • Estadstica Inferencial

    n - )( - xx 1

    2 - i como estimador de 2Permite obtener 1 =S s , y 1=n

    s .

    ambos y 2

    Ejercicio: Verificar que son insesgados. - )

    1. =( xE 2 )( s =SE 2. 2

    Despus de verificar la afirmacin se tiene que los parmetros son insesgados , el espacio paramtrico asociado es un subconjunto de dos dimensiones del espacio euclidiano. En particular es el producto cartesiano ) ,0(),( 8 8-8= x , para

    s . y 2 En pocas palabras nos gustara que la media del valor esperado de la distribucin de las estimaciones fuera igual al punto estimado, es decir, =)(E

    Definicin

    El sesgo B de un estimador puntual est dado por -= ) (EB .

    (a) (b) La adecuada sera (b) ya que una menor varianza garantiza que en el muestreo repetitivo una mayor fraccin de valores de quede cerca de , es decir que la varianza ) ( V sea mnima. 7

  • Estadstica Inferencial

    Dados dos estimadores insesgados de un parmetro seleccionamos el estimador con la menor varianza, permaneciendo constante en todas las condiciones restantes. Algo que se utiliza en lugar del sesgo y la varianza para describir la bondad de un estimador puntual es el valor esperado de 2

    )( - . Definicin

    XXX ,...,Sea n , 21 una muestra aleatoria de tamao n de );( x T de ) ( t es denominado un estimador f . Un estimador *

    insesgado uniforme de mnima varianza de ) ( t s T es insesgado para ) ( t 1. *

    2. Para cualquier otro estimador insesgado T de ) ( t , )() VarTVar = para todo ( * T

    En algunos casos la cota inferior puede ser derivada de la varianza de un estimador insesgado. Si T es un estimador insesgado de ) ( t , entonces la cota inferior Cramer- Rao

    basada sobre una muestra aleatoria es t ' ))(()TVar = asumiendo la condicin de ( 2 ));(ln( xfnE

    diferenciabilidad, se puede obtener dicha expresin. Definicin

    La media del cuadrado del error de un estimador puntual y se define como el valor esperado de 2 )( )( -E . - , es decir, 2

    La media del cuadrado del error de un estimador , ) ( MCE es una funcin al mismo tiempo de su varianza y sesgo

    )()( B VMCE + = 2 Enseguida se muestran algunos estimadores de parmetros poblacionales. 8

  • Estadstica Inferencial

    Parmetro objetivo

    Tamao de La(s) muestra(s)

    Estimador puntual

    )( s E 2

    n Y s 2

    np n Y pq p p =

    n n

    n - ss + - 1 n y 2 22Y - 21 1 1 Y2 1 n 2 2n

    21

    qpqp +n p p - p - 1 n y 2 p - 2 1 n1 p 1 1 p 22 12 2n

    21

    s son las varianzas de las poblaciones 1 y 2 2s y 21 2respectivamente. La manera de evaluar la bondad de cualquier procedimiento de estimacin puntual estriba en trminos de la distancia entre las estimaciones generadoras y el parmetro objetivo.

    Definicin El error de estimacin e es la distancia entre un estimador y su parmetro objetivo, es decir, | | e -= .

    9

  • Estadstica Inferencial

    Eficiencia relativa Definicin

    , de un parmetro Dados dos estimadores insesgados 1 y 2 ), respectivamente, entonces la , con varianzas V( 1 ) y V( 2

    se define como la eficiencia relativa de 1 con respecto de 2 )(V . razn eficiencia = ) (V 12

    Consistencia Definicin

    es un estimador consistente de si para El estimador n e cualquier nmero positivo e se tiene que 1)|(|lim = =- P o n

    8 n

    e en forma equivalente 0)|(|lim = =- P n8 n

    Suele utilizar el siguiente resultado para probar la consistencia de un estimador

    Teorema

    para es un estimador consistente El estimador insesgado nde s 0 )(lim = V

    8 nn

    Suficiencia En seguida se presentan algunos mtodos para encontrar estadsticos que en cierto sentido resumen toda la informacin en una muestra con respecto a un parmetr o objetivo, y tales estadsticos tienen la propiedad de la suficiencia.

    Definicin yyy ,...,Sean n , 21 observaciones muestrales para las variables

    YYY ,..., YYY ,...,aleatorias correspondientes n , 2 , 21 . Entonces si n 1 son variables aleatorias discretas, la verosimilitud (factibilidad) de la muestra, ) ,...,, yyyLL = se define como la probabilidad ( 21 nyyy ,..., YYY ,...,conjunta de n , 2 , 21 son variables aleatorias 1 . Si n10

  • Estadstica Inferencial

    continuas, la verosimilitud ) ,...,, yyyL se define como la ( 21 nyyy ,...,densidad conjunta evaluada en n , 21 .

    El siguiente teorema relaciona la propiedad de suficienciacon la verosimilitud. Teorema Sea U un estadstico basado en una muestra aleatoria

    YYY ,...,, 21 . Entonces U es un estadstico suficiente para la nestimacin de un parmetro si y slo si la verosimilitud L se puede factorizar en dos funciones no negativas

    ),...,,(),(),...,,( yyyhugyyyL = en donde ) ,( ug es una 2121 nn

    funcin solamente de u y , y ) ,...,, yyyh no es una funcin ( 21 nde . En general se desea encontrar un estadstico suficiente que reduzca los datos en la muestra hasta donde sea posible. Los estadsticos que cumplen con se objetivo se denominan estadsticos de mnima suficiencia.

    Suficien cia mnima y estimacin in sesgada de mnima varianza

    Tales estadsticos fueron desarrollados por Lehmann y Scheff. Suponga que n YYY ,...,, 21 representa una muestra aleatoria de

    una funcin de probabilidad ) ( yp , o una funcin de densidad f(y) con un parmetro desconocido . El conjunto de variables

    YYY ,...,, 21 puede tomar varios valores, supongamos que nyyy ,..., xxx ,...,, 2 , 21 son dos conjuntos de valores posibles, 1 y n n

    el mtodo utiliza la razn de verosimilitudes evaluadas en esto xxxL ),...,,(1 . Varias veces es posible encontrar dos puntos n 2yyyL ),...,,(

    nn 21

    una funcin ) ,...,, xxxg tal que la razn mencionada no ( 21 npresente el parmetro desconocido s y slo s

    ),...,,(),...,,( yygxxxg = . Si se puede encontrar tal funcin n y 2121 ng, entonces ) ,...,, YYYg es un estadstico de mnima ( 21 nsuficiencia para .

    11

  • Estadstica Inferencial

    Mtodo de los momentos Ya que el mtodo de anterior no siempre es aplicable, el siguiente mtodo es uno de los ms antiguos, aunque el ms sofisticado el de mxima verosimilitud. Para ello recuerde que el k-simo momento de una variable aleatoria, tomando con respecto al origen, es )

    (E= , el ' kk Ycorrespondiente k-simo momento de la muestra es el

    promedio ' 1 . m k= nk Y n i=i 1Mtodo de los momentos: Elija estimaciones aquellos valores de los parmetros que son soluciones de las ecuaciones

    = , con k=1,2,...,t en donde t es igual al nmero de '' k m kparmetros.

    Mtodo de la mxima verosimilitud.

    El mtodo implica determinar alguna funcin de un estadstico de mnima suficiencia que sea un estimador insesgado del parmetro objetivo. El mtodo de los momentos generalmente no lleva a mejores estimadores, contrario al de mxima verosimilitud.

    Mtodo de la mxima verosimilitud: Escoja como estimaciones aquellos valores de los parmetros que maximizan la verosimilitud.

    12

  • Estadstica Inferencial

    PARTE DOS 1. Introduccin

    Todas las herramientas estadsticas con las que se cuenta hasta ahora, tales como tablas, grficos y clculo de medidas descriptivas se podran englobar en el trmino Estadstica Descriptiva, puesto que ellas esencialmente permiten describir, presentar y resumir informacin que ha sido recolectada de alguna forma. Sin embargo las tcnicas de la Estadstica Descriptiva no permiten responder interrogantes que pueden surgir cuando no se dispone de la informacin sobre todos los individuos de la poblacin de inters sino slo de una parte de ella, es decir, que los datos provienen de una muestra de individuos de la poblacin bajo estudio. Ejemplos de esta situacin son:

    Si se conoce que la ganancia promedio de ventas de una muestra de 50 automviles nuevos es de $935, qu se puede decir sobre la ganancia media de

    todas las ventas de automviles nuevos?

    Si se encontr que una curso de capacitacin ayuda a encontrar trabajo a 16 de 20 jvenes de una ciudad, qu porcentaje de todos los jvenes que buscan trabajo se puede esperar que encuentren trabajo despus de tomar el curso?

    Para responder este tipo de preguntas la Estadstica dispone de una gran cantidad de mtodos que se engloban dentro de la llamada Estadstica Inferencial, los cuales se usan esencialmente para determinar la probabilidad de que una conclusin sacada a partir de los datos de una muestra sea cierta en la poblacin muestreada. Las poblaciones pueden ser ventas, personal de una empresa, consumidores de un producto, etc. El proceso conocido como inferencia estadstica, requiere consideraciones de cmo fue seleccionada la muestra y cunto varan las observaciones de una muestra a otra. De esta manera, los mtodos de seleccin de los individuos que se usarn en la investigacin son de considerable importancia para la obtencin de resultados y conclusiones vlidas. El requisito fundamental de una buena muestra es que sea representativa de la poblacin que se trata de describir 13

  • Estadstica Inferencial

    (Poblacin Objetivo Figura 1). Hay, por supuesto muchas formas de obtener una muestra no representativa. Una obvia falta de representatividad ocurre cuando la muestra se toma de la poblacin equivocada. Por ejemplo, se quiere conocer la proporcin de personas que consumen un determinado producto y la muestra se obtiene de los clientes de un solo supermercado. An cuando se est seguro que la muestra se obtiene de la apropiada poblacin, otra fuente potencial de error en el muestreo, especialmente en las encuestas de opinin son las

    respuestas sesgadas. Cuestionarios mal redactados o tcnicas de entrevistas inadecuadas pueden dar lugar a respuestas que no reflejan la realidad que se quiere evaluar. Por otra parte, en muchas ocasiones no es posible obtener la muestra a partir de todos los individuos que definen la poblacin objetivo, sino slo a partir de una subpoblacin que es accesible al investigador en el momento de hacer la seleccin de los individuos de la muestra y ella recibe el nombre de

    poblacin muestreada (Figura 1).

    Poblacin objetivo

    Se requiere sentido comn parahacer inferencias del muestreo ala poblacin objetivo

    Poblacin muestreada

    Para hacer inferencias estadsticasde la muestra a la poblacinmuestreada se requiere que lamuestra sea aleatoria

    Muestra

    Figura 1: Alcances de las inferencias realizadas de una muestra.

    Consideremos, por ejemplo, un sondeo telefnico que realiz la cadena de televisin ABC inmediatamente antes de las 14

  • Estadstica Inferencial

    elecciones de 1980 entre Carter y Reagan. La ABC invit a sus televidentes a llamar (por larga distancia) para dar a conocer sus preferencias presidenciales. En vez de lograr una muestra del sentir real de los electores, la ABC obtuvo una muestra de las preferencias de los votantes que estaban suficientemente interesados en desviar el resultado del sondeo como para invertir en las llamadas telefnicas de larga distancia. Es claro que la ABC no realiz un muestreo aleatorio de la poblacin de posibles votantes. Ms demcratas hicieron las llamadas de larga distancia, y la ABC pronostic as una victoria electoral de Carter. Antes de extender cualquier conclusin, es necesario evaluar qu factores selectivos y sesgos distinguen a la poblacin realmente muestreada (todos los votantes que hicieron las llamadas de larga distancia) de la poblacin objetivo (todos los posibles votantes). Los mtodos de la Inferencia Estadstica permiten generalizar los resultados de la muestra slo a los individuos que componen la poblacin muestreada y la generalizacin hacia la poblacin objetivo est fuera del alcance de la Estadstica. Sin embargo, si es posible suponer que la poblacin muestreada es similar a la poblacin objetivo no se cometera un error grande en generalizar los resultados hacia la poblacin objetivo. An cuando se est seguro que la muestra se obtiene de la poblacin apropiada, es igualmente importante que la muestra se saque de una manera objetiva e insesgada. Muestras casuales o muestras seleccionadas sobre la base de que es fcil de recolectar, son raramente representativas de la poblacin. Hay varios mtodos adecuados para seleccionar una muestra que permiten evitar los sesgos, y la mayora tiene como base el concepto de muestra aleatoria o probabilstica, en la cual cada individuo en la poblacin de inters es seleccionado (o no) a travs del uso de mecanismos aleatorios descriptos claramente. Por ejemplo, el caso ms simple, es el denominado esquema de muestreo aleatorio simple en el cual cada posible muestra es igualmente probable, lo que implica que cada individuo tiene igual probabilidad de ser seleccionado para pertenecer a la muestra. Ms adelante se tratar con ms detalle los distinto tipos de muestreo. En cualquier estudio, los investigadores deben escribir de manera completamente explcita la manera en la cual las muestras han sido elegidas y cuando se escribe o se lee cualquier trabajo de investigacin uno debera hacerse las siguientes preguntas: 15

  • Estadstica Inferencial

    El autor define claramente la poblacin muestreada?

    El autor discute similitudes y posibles diferencias entre la poblacin muestreada y la poblacin objetivo?

    El autor describe claramente el mecanismo de muestreo que us?

    El mecanismo de muestreo es aleatorio? (Si no lo es, porque?).

    Los mtodos de anlisis de datos son adecuados para el esquema de seleccin usado?

    Qu ocurre si el investigador no ha usado un muestreo aleatorio para seleccionar los individuos de la muestra? Supongamos por ejemplo que l simplemente us los datos de los clientes de un supermercado para evaluar las preferencias de los consumidores respecto a distintas marcas de un producto. Muchos, sino la mayora, de los estudios son de este tipo. Los datos son analizados luego, como si ellos hubieran surgido a partir de una muestra aleatoria de consumidores. El problema aqu es que estamos perdiendo la vital vinculacin entre un esquema de muestreo aleatorio y el apropiado mtodo de inferencia estadstica, el cual supone siempre que hubo una seleccin aleatoria de la muestra. En estas circunstancia, se debera entonces abandonar la inferencia estadstica? Probablemente no, pero deberamos siempre estar muy preocupados de tomar estos resultados muy seriamente. Las bases de la inferencia, en este caso, han sido severamente debilitadas (destruida, diran algunos). En rigor de verdad, deberamos decir: si pretendemos que tenemos una muestra aleatoria, entonces . La palabra pretender ha sido usada deliberadamente ya que no es una suposicin, puesto que nosotros sabemos que la muestra no es aleatoria. Al final, nosotros deberamos aceptar que estamos usando la inferencia estadstica slo como una gua, como una manera de ayudar a que los datos tengan algn sentido, por todo esto, nuestra inferencia en estos casos debera estar basada ms en el sentido comn que en la teora estadstica. En las Unidades anteriores se estudi las reglas bsicas de probabilidad y distintas distribuciones de probabilidad como la binomial, Poisson, Normal y exponencial. En esta unidad se usarn estas reglas de probabilidad junto con el conocimiento de las distribuciones de probabilidad para analizar cmo ciertas 16

  • Estadstica Inferencial

    medidas (media, proporcin) pueden usarse para hacer inferencias respecto a los parmetros poblacionales. La inferencia estadstica involucra dos reas principales:

    Estimacin y Prueba de Hiptesis, pero antes de tratar estos importantes temas es necesario manejar el concepto de Distribucin en el Muestreo o Distribucin Muestral que es la base para comprender los mtodos y herramientas de la inferencia estadstica.

    1. Distribucin muestral Un objetivo que se presenta frecuentemente en las investigaciones de diferentes reas es conocer el promedio de alguna caracterstica cuantitativa o la proporcin de individuos que poseen determinada caracterstica cualitativa. Por ejemplo, la edad media de las mujeres de una dada regin que usan determinado servicio (Poblacin Objetivo); o la proporcin de egresados universitarios de un pas (Poblacin Objetivo) que hacen una carrera de postgrado. En general, las caractersticas de inters en un estudio se denominan parmetros poblacionales. En los ejemplos dados los parmetros poblacionales son la media y la proporcin y generalmente se denotan con a la media y con a la proporcin. Para determinar los parmetros poblacionales se requiere conocer los valores de la variable para todos los individuos de la poblacin, por ejemplo para determinar la edad media se requiere conocer la edad de todas las mujeres que usan el servicio. Sin embargo, no siempre es posible obtener la informacin de todos los individuos que componen la poblacin por razones de costo en tiempo y dinero, y cuando eso ocurre se hace necesario recurrir a una muestra de la poblacin. Luego, a partir de los datos de la muestra se busca una manera de combinar la informacin de la muestra para obtener la caracterstica de inters. En el ejemplo donde el parmetro de inters es la edad media, se toma una muestra de n (tamao de la muestra) mujeres de la poblacin y se calcula el promedio de las edades en la muestra. Surge entonces el interrogante a cerca de cual medida de promedio se usar (media aritmtica o mediana). Cualquiera sea la medida que se use, cada una de ellas recibe el nombre de estimador o estadstico. Si se conviene en usar la media 17

  • Estadstica Inferencial

    aritmtica, o sea, la media muestral x , ella es en este caso el estimador de la media poblacional

    Se debe observar que para obtener el valor de x se debe combinar los valores observados en la muestra (suma de los datos divida en el nmero de observaciones) y esto ocurre con cualquier estadstico o estimador de una parmetro, de manera que formalmente se puede dar la siguiente definicin:

    Definicin 1: Un estadstico o estimador es una funcin de los valores observados en los individuos que componen la muestra, es decir, es la expresin matemtica que indica la forma de combinar los datos. La Tabla 1 muestra los smbolos de los parmetros y sus respectivos estimadores de uso ms frecuentemente.

    Tabla 1: Smbolos usuales para parmetros y estadsticos

    Caractersticas Smbolo del parmetro Smbolo del Estadstico

    Media Desviacin estndar Varianza Correlacin Proporcin

    x s s

    s2 s 2r p

    p

    El valor que toma el estimador para una particular muestra se denomina una estimacin del parmetro poblacional. Por ejemplo, si en una muestra de 100 mujeres se calcula el valor de la media aritmtica de las edades y se obtiene x = 25.5 aos, entonces 25.5 representa un particular valor de x , es decir es una estimacin del estimador. Obviamente con cada posible muestra se tendra un valor diferente del estimador, es decir, se obtendra una estimacin diferente para el parmetro de inters. Por lo tanto, un estimador toma diferentes valores para cada muestra, es decir, vara de muestra en muestra. Teniendo en cuenta este aspecto de un estimador se puede dar una segunda definicin de estimador:

    Definicin 2: Un estadstico o estimador es una variable que toma diferentes valores para cada muestra seleccionada. 18

  • Estadstica Inferencial

    De esta manera, las estimaciones dependen de la particular muestra con que estemos trabajando. En resumen, Si se est interesado en conocer algn parmetro

    de una poblacin de inters (media, proporcin, coeficiente de correlacin, etc.), y no es posible observar o medir a todos los individuos de la poblacin para obtener el valor de dicho parmetro, entonces, una posibilidad es obtener una muestra de tamao n y conseguir una estimacin de parmetro usando un estimador del parmetro. Por otra parte, si se pudiera extraer todas las posibles muestras del mismo tamao (n) de la poblacin de inters y con cada una de ellas se calcula el valor del estimador o estadstico correspondiente, se obtendra todas las estimaciones posibles del parmetro. Luego a partir de ellos se podra construir la

    distribucin de probabilidad del estadstico, tal distribucin de probabilidad que recibe el nombre de distribucin muestral del estadstico de inters. Cabe preguntarse por qu es tan importante el concepto de distribucin muestral, la respuesta es simple, cuando se quiere estimar un parmetro poblacional (caracterstica de la poblacin) a partir de una muestra surgen otros interrogantes como:

    Qu tan buena es la estimacin obtenida?

    Se puede llegar a la conclusin de que el parmetro de la poblacin es idntico al estadstico de la muestra o es probable que exista algn error?.

    Si es as, qu tan grande es dicho error?

    Para responder a estas preguntas se debe comparar los resultados obtenidos a partir de las muestras con los resultados esperados. Los resultados esperados surgen justamente a partir de la distribucin muestral del estadstico y de all la importancia de ella. Surge ahora otro problema, es ms costoso (y a veces imposible) obtener todas las muestras aleatorias de tamao n para construir la distribucin muestral del estadstico o estimador, que observar a todos los individuos de la poblacin. De manera que se plantean ahora nuevos interrogantes: cmo obtener la distribucin muestral si se tiene slo una muestra de 19

  • Estadstica Inferencial

    la poblacin? Para responder esta pregunta se debe tener en cuenta que la distribucin muestral del estadstico depende de:

    La distribucin de la poblacin, es decir, de la distribucin de probabilidad de la variable de inters (por ejemplo edad de las mujeres que usan un servicio)

    Del parmetro de inters (media, variabilidad)

    Del estadstico que se elija para estimar el parmetro (media aritmtica o mediana, desviacin estndar muestral)

    De la forma de seleccin aleatoria de la muestra.

    Del tamao de la muestra.

    La relacin existente entre la distribucin de probabilidad de la poblacin y distribucin muestral del estimador) es la que nos permite hacer afirmaciones sobre el parmetro poblacional y cuantificar el error de dichas afirmaciones. En efecto, la teora estadstica inferencial provee de herramientas que permiten conocer, aunque sea aproximadamente, la distribucin muestral del estadstico, y luego, como ya se dijo, a partir de ella conocer el valor esperado del estadstico. De esta manera, es posible evaluar la precisin de la estimacin obtenida con la muestra y cuantificar el error de las afirmaciones que se hagan sobre el parmetro poblacional. Para clarificar estos conceptos, se considera el caso en que el parmetro poblacional es la media

    y el estadstico para estimarla es la media aritmtica x , obtenida a partir de una muestra de tamao n de la poblacin. Como ya se dijo, si se quiere obtener la distribucin muestral de

    x, extrayendo todas las muestras de tamao n, esto consumira ms tiempo que el requerido para tomar la informacin de toda la poblacin y, en consecuencia, sera poco prctico. En su lugar, es posible usar la teora estadstica para determinar la distribucin muestral de la media aritmtica en cualquier situacin particular, siempre que se cumplan algunas condiciones para la distribucin de probabilidad de la variable que se est estudiando (Ver Figura 2). Ejemplo 1: En una planta embotelladora de bebida se encuentra que la mquina embotelladora est presentando una 20

  • Estadstica Inferencial

    notable variabilidad en el llenado. Para analizar este problema se lleva a cabo un estudio donde se define que la variable de inters X ser la cantidad de bebida que contienen las botellas. Supongamos que la distribucin de probabilidad de X es tal que la media poblacional es

    = 1,2 litros de bebida, con un desviacin estndar ssss = 0,2 litros. Supongamos ahora, que se desconoce esta informacin y se quiere estimar la media

    poblacional

    tomando una muestra aleatoria de tamao n=100 de la poblacin de botellas. La media aritmtica calculada a partir de la muestra dio un valor x =1,22 litros.

    Para hacer afirmaciones sobre la precisin de la estimacin que d algn grado de confianza en el valor encontrado a travs de la muestra, se necesita conocer la distribucin muestral de x. Las propiedades de la distribucin muestral de x son la base para uno de los teoremas ms importantes de la teora estadstica, llamado Teorema del Lmite Central, que se enuncia a continuacin sin mucha formalidad. Dada una poblacin con media

    x x y desviacin estndar s(finita), la distribucin muestral de la media basada en muestras aleatorias repetidas de tamao n (grande) tiene las siguientes propiedades:

    1. La media de la distribucin muestral de x, es decir, = E( x) de la distribucin de el valor esperado x

    de la probabilidad de x, es igual a la media xdistribucin de probabilidad de la variable X.

    2. La desviacin estndar en la distribucin muestral de s . Esta cantidad es denominada error x es igual a

    nestndar de la media (SEM).

    3. Con muestras de tamao grande, la distribucin muestral de x sigue un modelo terico denominado modelo de distribucin normal, sin importar la forma de la distribucin de la poblacin original, siempre que se cumplan las condiciones mencionadas.

    Otra manera de expresar este resultado y que resulta til para expresar los resultados de los mtodos de inferencia es la siguiente: 21

  • Estadstica Inferencial

    Teorema del lmite central:

    Independiente de la distribucin que tenga la variable aleatoria X, siempre que tenga media y varianza s2 finitas, al hacerse lo bastante grande el tamao de muestra n, entonces la distribucin del estadstico

    - -Z X (1) =

    s n/ es Normal con media 0 y varianza 1, es decir, N(0, 1).

    D IS TR I BU CI N MUE ST RA L D E LA MEDI A A RI TMT IC A (X )

    D IS TRI BUC I N DE L A POB LA CI N DE XD IS TR IBU CI N DE L A POBL AC IN DE X CO Ns

    N OR MAL CO NM ED I A

    M ED IA DESVOE S TN D AR s D ESV O

    ES T N D AR n E R RO R ES T N D AR

    x1

    ss

    s

    M 1 x2

    - n/M2 x3sx4M 3

    +

    n/... M 4 .

    X

    xmMm

    POBL AC IN DE XPOB LAC IN DE X

    MU ES TRA S D E TAMA O n Figura 2: Distribucin muestral de la media aritmtica (estadstico).

    El resultado enunciado da la base para toda la inferencia estadstica sobre la media.

    Observacin:

    Aunque siempre hay excepciones, tamaos de muestras de n = 30, o ms, en la gran mayora de los casos aseguran la validez del teorema del lmite central, es decir, la distribucin muestral 22

  • Estadstica Inferencial

    para x tendr aproximadamente una distribucin normal para n = 30 si s es conocido.

    En el ejemplo, y de acuerdo a lo enunciado, la distribucin muestral de x ser aproximadamente normal con media x = 1,20 litros y con un error estndar dado por

    s = 100 2.0 = 0.2/10 = 0.02. SE( x) = SEM = n

    La importancia del SEM y del resultado enunciado radica en que a partir de l se puede hacer la siguiente afirmacin: si el tamao de muestra es grande aproximadamente el 95% de las muestras daran valores de x en un intervalo que va desde

    -2SEM a +2SEM, es decir, existe una probabilidad del 95% de que el valor calculado de x se encuentre dentro de ese intervalo.

    Obviamente, en la prctica siempre se desconoce el valor de y casi siempre el valor de s, de manera que esto es slo el respaldo terico de toda la inferencia estadstica, como se ver en las secciones subsiguientes.

    Ejemplo 2: En el ejemplo anterior si y s son conocidos, entonces se puede afirmar que aproximadamente el 95% de las muestran de tamao n = 100 daran valores de x entre 1,2 - 0.04 y 1,2 + 0.04, es decir entre 1,16 litros y 1,24 litros, o bien que existe una probabilidad del 95% que el valor encontrado para x se encuentre dentro de ese intervalo.

    Como ya se dijo, la distribucin muestral del estimador depende del estadstico elegido para estimar el parmetro poblacional, por ejemplo, si el estimador elegido para estimar la media poblacional no es x sino la mediana, entonces el clculo de su error estndar y su distribucin muestral no sigue exactamente lo enunciado para el caso de x. La teora que permite establecer la distribucin muestral de la mediana est fuera del alcance de este curso, de manera que no ser tratada aqu. Del mismo modo que la media poblacional , por lo general, es desconocida, es probable que la desviacin estndar de la poblacin s, tampoco sea conocido. 23

  • Estadstica Inferencial

    En el caso en que s

    sea desconocido, l debe ser estimado usando los datos de la muestra. Un estimador razonable para s, como ya se vio en las unidades previas, es la desviacin estndar de la muestra

    2 -

    n -x x

    i (2) S 1i= =

    1-n

    Reemplazar s por S en (1) resulta razonable ya que se puede demostrar que S2 es un estimador insesgado de s2, es decir, E[S2] = s2. Sin embargo, la distribucin muestral del estadstico que resulta de esa sustitucin, es decir,

    - -X (3) =t nS /

    ya no es N(0,1) debido a que se usa una estimacin para s y en consecuencia se introduce en la expresin (3) una variabilidad adicional. En efecto, el estadstico t definido en (3) posee una distribucin denominada t de Student, la cual tiene una apariencia similar a la distribucin normal, simtricas y en forma de campana, pero la distribucin t es ms dispersa. El nico parmetro de la distribucin t de Student es el denominado grados de libertad y que en este caso se encuentra relacionado al tamao de muestra n, y ello se expresa diciendo que el estadstico t dado en la expresin (3) tiene distribucin t de Student con (n 1) grados de libertad.

    2. Estimacin En esta Seccin se dar algunas propiedades que debera cumplir un estimador para conseguir estimaciones confiables del parmetro de inters. Se considerar diferentes formas de estimacin y se estudiar una manera de medir la precisin en la estimacin.

    3.1. Estimacin puntual El valor obtenido del estadstico o estimador a partir de una muestra, recibe tambin el nombre de Estimacin Puntual. 24

  • Estadstica Inferencial

    En el ejemplo de la embotelladora es claro que el inters noes conocer la cantidad de bebida promedio en el grupoparticular de botellas que pertenecen a la muestra, sino en toda la poblacin. Por otra parte, la media calculada a partir de los datos de la muestra es slo una estimacin de la cantidad de bebida media en la poblacin de botellas. Cabepreguntarse ahora cules son las propiedades de que debera tener un estimador (media, mediana) para que sea considerado como bueno y que nos facilite la eleccin entre un estadstico yotro. Es claro que al obtener una estimacin puntual su valor depender de la muestra que se haya seleccionado y que el valor encontrado puede cambiar de muestra en muestra. De esta manera, las propiedades deseables seran que cada estimacin no se encuentre muy alejada del verdadero valordel parmetro, y por otra parte, que no haya demasiadavariabilidad entre los valores del estadstico, obtenidos de muestra en muestra. Esto se puede formalizar definiendo algunas propiedades a tener en cuenta de los estadstico, a saber:

    1. Insesgado: Informalmente esto significa ausencia de error sistemtico. De una manera ms formal, un estadstico cualquiera q se dice insesgado si la media de su correspondiente distribucin muestral es igual al parmetro de inters Q, es decir, E[q] = Q.

    2. Eficiente: Significa que las estimaciones obtenidas para distintas muestras varan poco entre ellas. De una manera ms formal, el estimador ms eficiente dentro de un conjunto de estimadores insesgado ser aquel que tiene la menor varianza.

    3. Consistente: Informalmente, un estadstico Q se dice consistente si su variabilidad disminuye cuando aumenta el tamao de muestra.

    Se puede demostrar que la media aritmtica es un estimador insesgado y eficiente de la media poblacional. Si la variabilidad de las estimaciones se mide a travs de la desviacin estndar, sta desviacin estndar recibe elnombre de error estndar del estimador (SE). 25

  • Estadstica Inferencial

    Observaciones: 1. No debe confundirse desviacin estndar de la distribucin

    de la poblacin (variabilidad entre los individuos) con error estndar del estimador que es la desviacin estndar de la distribucin muestral (variabilidad entre las estimaciones de las muestras).

    2. Es muy probable que el estadstico insesgado ms eficiente no estime el parmetro poblacional con exactitud, esto se debe a que en realidad cuando realizamos la estimacin slo tomamos una muestra, y obtenemos uno de los posibles valores del estadstico que en general no tiene porque coincidir con el valor del parmetro que se quiere estimar.

    3.2. Estimacin por intervalos Si bien la precisin se incrementa con muestras grandes no hay razn para esperar que la estimacin puntual de una muestra dada deba ser exactamente igual al parmetro poblacional que se supone estima. Entonces, existen muchas situaciones en las cuales es preferible determinar un intervalo dentro del cual se esperara encontrar el valor del parmetro, tal metodologa se conoce como estimacin por intervalos y el intervalo se denomina Intervalo de Confianza Los Intervalos del Confianza son intervalos aleatorios obtenidos a partir de los datos y en los cuales hay un grado de confianza prefijado (medido en %) de que dicho intervalo contenga al verdadero valor del parmetro que se quiere estimar. El grado de confianza se denomina nivel de confianza y se lo denota como 100(1-a)%, donde a se considera a menudo como la probabilidad de cometer un error, ya que indica la proporcin de veces en que uno se equivoca o comete un error al suponer que el intervalo contiene al parmetro poblacional. De esta manera, 1-a ser la proporcin de veces que los distintos intervalos de confianza contienen al parmetro. Usualmente el valor 100 (1- a)% se lo fija en el 95%, lo que llevara a establecer que en promedio slo en el 5% de los casos se cometera error al suponer que el intervalo contiene al verdadero valor del parmetro. 26

  • Estadstica Inferencial

    Para encontrar estos intervalos debemos conocer la distribucin muestral de cada estimador, que como ya se vio esto depende del parmetro de inters y del estadstico que se elija para estimar dicho parmetro. Sin embargo es posible dar la forma general que adopta un intervalo de confianza en cualquier caso. En general, si que se quiere estimar un parmetro Q de la poblacin a travs del estadstico q, y si el error estndar de la distribucin de q, que se lo denotar con SE(q), entonces un

    intervalo de confianza para Q con una confianza del 95% (IC95%) viene dado por la expresin:

    IC95% = [q k1SE(q) , q + k2SE(q)] (4)

    donde k1 y k2 dependen de la forma de la distribucin muestral de q.

    Ejemplo 3: En el ejemplo de la embotelladora un intervalo de confianza para el parmetro poblacional Q = , con una confianza del 95%, correspondiente a una estimacin de

    q = x = 1.22 litros,

    calculada a partir de la muestra de tamao n = 100, y suponiendo que se conoce la desviacin estndar de la poblacin, es decir, s = 0.2 litros, est dado por: IC95% = [ x k1SE( x) , x + k2SE( x)]

    s = 0.02 y k1 = k2 = 1.96 se obtienen a donde SE( x) = SEM = n

    - -Xpartir de la distribucin muestral de n , que como se vio en s /

    la Seccin anterior ella N(0, 1). Por lo tanto, IC95% = [1.22 1.96x0.02 ; 1.22 + 1.96x0.02] = [1.1808 ; 1.2592]

    Otra manera alternativa de expresar los IC para la media poblacional cuando se usa a la media aritmtica como estimador es la siguiente: ss

    s

    a

    2zx s (5) n 27

  • Estadstica Inferencial

    ss

    a

    o bien

    a

    2

    zz aaa

    2 + xx ==- (6) nn

    adonde z = valor de z tal que el rea debajo de la 2curva de la funcin de densidad de una distribucin normal correspondiente al intervalo [ 2 az , 8) es igual a/2 si n es grande (este valor

    es 1.96).

    n = tamao de la muestra

    s = desviacin estndar de al poblacin muestreada

    Ejemplo 4: Una corporacin quiere emitir algunos pagars a corto plazo y espera que los intereses que tendr que pagar no sean mayores a 11,5%. Para obtener cierta informacin acerca de la tasa media de inters que habra que pagar, la corporacin pone a la venta 40 pagars, uno a travs de cada una de 40 firmas de corretaje. Los valores del inters se suponen que tienen una distribucin normal con media y varianza s2 conocida, tal que s = 0,31%. A partir de la muestra de tamao n = 40, se obtiene una estimacin de , dada por x = 10,3%. Luego, usando la expresin (2) el IC del 100(1-a)% para la media poblacional de una distribucin normal es:

    0.311.96 x31.10 , o bien, 40

    0.311.960.311.96 xx + ==- 31.1031.10 4040

    Haciendo los clculos se obtiene que:

    10.21 = = 10.41 De mismo modo que la media de la poblacin es desconocida, por lo general tambin se desconoce el valor real de la desviacin estndar y, por lo tanto, se necesita estimar dicho parmetro a partir de los datos de la muestra utilizando el 28

  • Estadstica Inferencial

    estadstico S. En este caso la primera expresin de (6) adopta la forma

    a

    a

    St /),1( a- (7)x n 2 n

    /2 que es el valor

    donde se reemplaza s por S y z(a aaa/2) por t(n-1), acrtico de la distribucin t con n-1 grado de libertad.

    Ejemplo 5: Si en el estudio de tasa principal de bancos s es desconocido y se tiene una muestra de tamao 50 y el valor obtenido de x = 9,1% y como estimador de s se usa

    250 -

    = - n x x

    i i , dando en este caso el valor S = 0,24, 1= =S1-n

    entonces, reemplazando este valor en la expresin (7), donde adems se reemplaza z(a aa

    a/2. Luego, el valor /2) por t(n-1), a

    estimado del error estndar ser,

    24.0 =S() 034 .0== nxSE 50

    y el valor de t(n-1),a/2 = 2.01. Luego, el intervalo de confianza para la media poblacional con una confianza del 95% est dado por: IC95% = [9.1 2.01x0.034; 9.1 + 2.01x0.034] = [8.96; 9.10]

    Observaciones:

    1. El valor de kiSE(q) del intervalo de confianza para el parmetro q se lo puede entender como cota para el error de estimacin. En el ltimo ejemplo se tiene entonces, que esta cota es 1.96x0.034=0,07. Esto se interpreta como que la probabilidad de que el error sea menor a 0,07 es 0,95. As, la cota para el error de estimacin, 7%, proporciona una medida de la exactitud para la estimacin efectuada por la empresa de investigaron de mercado.

    29

  • Estadstica Inferencial

    Actividad 2: 1. Se relaciona muchas veces un incremento en la proporcin

    de ahorros de los consumidores a una falta de la confianza en la economa, y se dice que ello es un indicador de una tendencia de recesin econmica. Una muestra aleatoria de n=200 cuentas de ahorro en una comunidad local, mostr un incremento medio en los valores de las cuentas de 7,2% en los ltimos 12 meses y una desviacin estndar de 5,6%.

    a) Estime el intervalo de confianza para el aumento porcentual promedio en las cuentas de ahorro en lo ltimos 12 meses, para ahorradores de la comunidad.

    b) Obtenga una cota para su error de estimacin.

    2. Escriba la expresin para el IC para el parmetro de la distribucin binomial cuando n es mayor de 30.

    3.3. Test de hiptesis estadstica En la seccin anterior tratamos la estimacin y precisin de los estimadores, que conforman una de las dos reas principales de la Inferencia estadstica. En esta seccin presentaremos una forma diferente de obtener inferencia acerca de parmetros poblacionales, probando hiptesis respecto a sus valores. Un test de hiptesis es una metodologa o procedimiento que permite cuantificar la probabilidad del error que se cometera cuando se hace una afirmacin sobre la poblacin bajo estudio, es decir, nos permite medir la fuerza de la evidencia que tienen los datos a favor o en contra de alguna hiptesis de inters sobre la poblacin. Se introducir la idea de tests de hiptesis a travs de un ejemplo hipottico.

    Ejemplo 6: Una industria usa como uno de los componentes de las mquinas de produccin una lmpara especial importada que debe satisfacer algunas exigencias. Una de esas exigencias est relacionada a su vida til en horas. Esas lmparas son fabricadas por dos pases y las especificaciones tcnicas varan de pas a pas. Por ejemplo el catlogo del producto americano afirma que la vida til media de sus lmparas es de 15500 horas, con un SD de 1200. Mientr as que 30

  • Estadstica Inferencial

    para el producto europeo la media es de 16500, y el SD es de 2000. Un lote de esas lmparas de origen desconocido es ofrecido a un precio muy conveniente. Para que la industria sepa si hace o no una oferta ella necesita saber cual es el pas que produjo tales lmparas. El comercio que ofrece tales lmparas afirma que ser divulgada la vida til media de una muestra de 25 lmparas del lote antes de la oferta. Que regla de decisin deben usar los responsables de la industria para decir que las lmparas son de procedencia americana o europea?. Una respuesta que surge inmediatamente es la de considerar como pas productor aquel en la cual la media de la muestra se aproxima ms a la media de la poblacin. As, la decisin sera si 16000 =x (el punto medio entre 15500 y 16500) diremos que es de pr ocedencia americana; en caso contrario diremos que es de procedencia europea. Suponga que en el da de la licitacin se inform que, de acuerdo con la regla de decisin diramos que las lmparas son de origen americano. Podemos estar herrados en esa conclusin?. O en otras palabras, es posible que una muestra de 25 lmparas de origen europeo presente una media de 15800? Si, es posible. Entonces, para un mejor entendimiento de la regla de decisin adoptada, es interesante estudiar los tipos de errores que podemos cometer y las respectivas probabilidades de cometer esos errores.

    Los tests de hiptesis consisten en confrontar dos hiptesis, una llamada hiptesis nula que denotamos con Ho y otra llamada hiptesis alternativa denotada con H1. En el ejemplo las hiptesis que se plantean son:

    En el ejemplo las hiptesis consideradas son

    Ho Las lmparas son de origen europeo, esto equivale a decir que la vida til X de cada lmpara sigue una distribucin con media =16500 horas y un SD=2000 horas. H1; Las lmparas son de origen americano, es decir la media poblacional = 15500 horas con un SD=1200 horas.

    31

  • Estadstica Inferencial

    Bajo este planteo un test de hiptesis estadstica no es otra cosa que un procedimiento para tomar una decisin, bajo incertidumbre, sobre la validez de la hiptesis nula usando la evidencia de los datos. Puesto que trabajamos bajo incertidumbre es claro que cualquiera sea la decisin que tomemos siempre existe una probabilidad de cometer error. A fin de clarificar esto podemos presentar el siguiente esquema:

    Tabla 2. Esquema del procedimiento

    Realidad sobre Ho Decisin Cierta Falsa Rechazar Ho Error Tipo I Decisin correcta

    No rechazar Ho Decisin correcta Error Tipo II

    Como se puede ver en el esquema, con cada tipo de decisin que se tome hay asociado una posibilidad de cometer un error. Un procedimiento de este tipo sera ptimo cuando las probabilidades de cometer un error, cualquiera sea la decisin que se adopte, sean pequeas. Lamentablemente, en la mayora de los tests de hiptesis slo es posible controlar una de ellas, con la circunstancia agravante de que estos errores son competitivos, es decir, cuando se disminuye mucho la probabilidad de uno aumenta la probabilidad del otro. Puesto que, el inters generalmente es rechazar Ho la probabilidad de error que se controla durante este procedimiento, es justamente el error asociado a esta decisin (Probabilidad del Error Tipo I), es decir, la probabilidad de rechazar Ho cuando es cierta. La mxima probabilidad de error tipo I se denota con a

    a

    a y recibe el nombre de nivel de significacin del test y l debe ser prefijado de antemano. La probabilidad de Error Tipo II se denota con

    y es til para encontrar la bondad del test que se mide en trminos de la cantidad 1-

    denominada Poder del Test. El nivel de significacin que se usa generalmente es a=0.05 lo

    que corresponde a un 5% en trmino de porcentaje. Retomando el ejemplo vamos a indicar por RC una regin determinada por los valores de X menores que 16000, es decir 32

  • Estadstica Inferencial

    RC={X = 16000}. El valor 16000 se denomina punto crtico y se denotar como xc.

    10000 12000 14000 16000 18000 20 Regin de Aceptacin de H0 Regin de Rechazo H0

    Figura 3: Valores posibles del estadstico del test

    Con las notaciones indicadas arriba, la probabilidad de cometer cada uno de los errores puede ser escrita del siguiente modo:

    P[Error Tipo I] = P[ X pertenezca a RC | H0 es a

    a.

    verdadera] = a

    P[Error Tipo II] = P[ X no pertenezca a RC | H0 es

    falsa ] =

    Ejemplo 7: En el ejemplo 6, cuando H0 es verdadera, es decir, las lmparas son de origen europea, sabemos del teorema central del lmite que x , o sea la media de las muestras de tamao 25, tendrn distribucin aproximadamente normal con

    2000 = , es decir X ~ N( 2media 16500 y s = 400 ,s ). 25

    Entonces,

    P[Error Tipo I] = P[ X RC | H0 es verdadera] =

    = P[ X = 16000 | X ~ N(16500, 16000)] = P[ Z = (16000 16500)/ 400] = P[ Z = -1.25] = 0.106 = 10.6%. Para cada regla de decisin adoptada, es decir, para cada valor crtico xc se obtiene un valor de probabilidad de error tipo 1. Por otra parte, si xc se elige menor que 15000 a disminuye pero aumenta. Sin embargo, se puede proceder de manera inversa, es decir, fijado a encontramos la regla de decisin que corresponder a una probabilidad de error 1 igual a a. 33

  • Estadstica Inferencial

    Ejemplo 8: Si se toma a = 5%, y se procede a encontrar la regla de decisin correspondiente:

    5%= P[Error Tipo I]= P[ X = xc | X ~ N(16500, 16000)] = P[Z < -1.645],

    pero se sabe que, para una distribucin normal estndar

    16500x 645.1 - =- c

    400

    de donde xc = 15842 horas. Entonces, la regla de decisin ser

    Si X fuera inferior a 15842 se dice que el lote es americano, en caso contrario se dice que es europeo. Con esta regla la probabilidad de error tipo II ser P[Error Tipo II] = P[ X > 15842 | X ~ N(15500, 15842)] =

    = P[Z > 1.425] = 7.93%

    34

  • Estadstica Inferencial

    AMERICANO EUROPEO

    5%

    7.93%

    15500 15842 16500

    Figura 4: Distribucin muestral de X para el caso de la procedencia de lote de lmparas

    Procedimiento general de un test de hiptesis basado en la regin de rechazo

    Se da ahora una secuencia de pasos que puede ser usada sistemticamente para cualquier test de hiptesis. 1) Iniciar el procedimiento estableciendo, de manera

    clara y explcita, cul es la hiptesis nula, es decir, H0.

    2) Usar la teora estadstica para construir un indicador de concor dancia entre los datos y la hiptesis nula. Este indicador denominado estadstico del test ser usado para juzgar la hiptesis H0.

    3) Fijar el nivel de significacin deseado a, que es el mximo error aceptable cuando se rechaza H0, y usar este valor para construir la regin crtica.

    4) Calcular el valor del estadstico a partir de la muestra. 5) Si el valor del estadstico pertenece a la regin crtica,

    entonces rechazar H0. En caso contrario, lo que se puede afirmar es que no hay suficiente evidencia para rechazar H0.

    6) Si se dispone de una hiptesis alternativa y de la distribucin del estadstico del test bajo la suposicin que vale la hiptesis alternativa, se puede calcular la probabilidad de error Tipo II.

    Procedimiento general de un test de hiptesis basado en el P-value Otro procedimiento general de un test de hiptesis ms usado en la actualidad debido a la disponibilidad de paquetes de programas estadsticos, consiste en tomar la decisin a partir 35

  • Estadstica Inferencial

    de la probabilidad del error Tipo I que brindan las salidas de tales paquetes de programas, denominado P-value o simplemente P. Este procedimiento lo podemos resumir en los siguientes pasos:

    1. Suponer que Ho es cierta. 2. Para confrontar esta suposicin con la informacin

    (parcial) que proveen los datos sobre la realidad de Ho, se forma una especie de indicador de concordancia, denominado estadstico del test, el cual es funcin del de los datos.

    3. Como el estadstico depende de la informacin de los datos, con cada muestra posible hay asociado un valor de este estadstico y en consecuencia se genera una nueva variable aleatoria. Asociada a esta variable hay una cierta distribucin de probabilidad, a partir de la cual se determina la probabilidad de que la informacin de los datos concuerde con la hiptesis nula, denominado P-value. De esta maner a, el P-value representara la probabilidad de cometer un error cuando se toma la decisin de rechazar Ho.

    4. Es claro que si de antemano se fija que la mxima probabilidad de error al rechazar Ho debe ser igual a

    a, otra manera de tomar la decisin es comparar el valor del P- value con a.

    Si P = a entonces la decisin es Rechazamos Ho

    Si P > a la decisin es No hay evidencia suficiente para rechazar Ho

    3.3.2. Pruebas de hiptesis unilaterales y bilaterales Las pruebas o test de hiptesis se relacionan con los

    parmetros poblacionales (medias o proporciones, etc.). Se puede utilizar los estimadores puntuales de los parmetros poblacionales como estadstico del test en cuestin. Supongamos, como ilustracin que se utiliza el smbolo para denotar el parmetro poblacional de inters, por ejemplo, puede ser , (1- 2), p (p1-p2), y el smbolo para denotar el estimador puntual insesgado correspondiente. 36

  • Estadstica Inferencial

    Desde el punto de vista prctico se puede tener inters en contrastar la hiptesis nula H0:

    = 0, contra la alternativa de

    >

    que el parmetro poblacional es mayor que 0, o sea H1:

    0. En esta situacin, se rechazar H0 cuando sea grande, o sea cuando el estadstico del test sea mayor que un cierto valor llamado valor crtico, que separa las regiones de rechazo y no rechazo del test (Ver Figura 3). La probabilidad de rechazar la hiptesis nula cuando es cierta ser igual al rea bajo la curva de la distribucin muestral del estadstico del test sobre la regin de rechazo. En el caso que estemos trabajando con una distribucin normal, y un a = 0,05, se rechaza la hiptesis nula cuando se encuentre a ms de 1,645

    s a la derecha de 0. De esta manera, se puede definir como

    Una prueba estadstica de una cola o unilateral es aquella en la que la regin de rechazo se localiza solamente en una cola o extremo de la distribucin muestral del estadstico del test.

    Para detectar > 0, se sita la regin de rechazo en la extremidad de valores superiores a . Para detectar < 0 se ubica la regin de rechazo en la extremidad izquierda de la distribucin de , o sea para valores inferiores a . Si hay que detectar diferencias mayores o menores de 0, la hiptesis alternativa ser

    H1: 0

    es decir

    > 0 o bien < 0

    En este caso la probabilidad de error Tipo I a

    se repartir entre las dos colas de la distribucin muestral del estadstico, y se rechazar H0 para valores de mayores que un valor crtico (

    0- C). Esta prueba 0 + C) o menor que ( se llama prueba estadstica bilateral o de dos colas

    37

  • Estadstica Inferencial

    3.3.3. Casos particulares de pruebas de hiptesis 1) Caso 1: Prueba de hiptesis para la media de una

    poblacin

    Sea una poblacin con media y desviacin estndar s, y se tiene inters de ver si la media poblacional es un dado valor 0. Se toma una muestra aleatoria de tamao n de esta poblacin. Por lo que el procedimiento a seguir ser:

    a) Hiptesis nula H0: = 0 b) Estimador puntual de la media poblacional x . Por el

    teorema del lmite central, el cual, en esencia, establece que bajo ciertas condiciones, cualquiera la distribucin de X, la variable aleatoria X tiene una distribucin aproximadamente normal con media y desviacin estndar n para el tamao de muestra grande.

    c) Hiptesis alternativa

    Prueba de una cola Prueba de dos colas

    H1: > 0 (o bien < H1: 00)

    d) Si la poblacin tiene una distribucin normal, o estamos trabajando con un tamao de muestra grande (mayor a 30), y la desviacin estndar es conocida, entonces el estadstico del test ser

    xx - 00 -z == , (11) s x s nEste estadstico tiene distribucin normal con media 0 y desviacin estndar 1, bajo la hiptesis nula.

    e) Si la poblacin es normal y no se conoce la desviacin estndar, se utiliza su estimacin puntual s, en cuyo caso el estadstico del test tiene la forma

    x -= t 0 (12) s n38

  • Estadstica Inferencial

    que tiene una distribucin ta,(n-1) con (n-1) grados de libertad, bajo la hiptesis nula.

    f) Regin de rechazo

    Prueba de una cola Prueba de dos colas

    En el caso del apartado d)

    En el caso del apartado d) z > za (o bien z ta,(n-1) (o bien t 1,96 o z < -1,96.

    39

  • Estadstica Inferencial

    Observacin:

    1. Si el estadstico del test es Z como el definido en (1) y donde = 0, entonces, si Z es menor que 1,96, entonces decimos que se rechaza la hiptesis nula al nivel del 5%.

    2. El intervalo de confianza de 100(1-a)% del parmetro (parmetro poblacional de inters), est relacionado con una prueba de hiptesis estadstica, de dos colas, del parmetro poblacional, con nivel a. En el ejemplo, el intervalo

    82,587196,1 nx s es de tal manera que en un

    muestreo repetitivo, el 100(1-a)% = 95% de los intervalos contendrn al verdadero valor de la media poblacional. Como el valor 880 no cae dentro de este intervalo, entonces nos inclinamos a rechazar la hiptesis de que = 880.

    Actividad 3: Un vendedor de coches nuevos calcula que su compaa tiene un 4,8% de ganancias promedio en la venta de los autos nuevos asignados. El gerente de venta aprob los precios para producir ese porcentaje de ganancias. El dueo de la compaa quiere estar razonablemente seguro de que la decisin es correcta, para ello se toma una muestra aleatoria de 30 coches en la cual se obtiene una media y una desviacin estndar del porcentaje de ganancia de 4,5% y 3,9% respectivamente. a) Examine los datos y utilizando solamente la intuicin

    Cree que ellos apoyan la hiptesis del gerente de venta?

    b) Para realizar un test de hiptesis estadstica en este caso usara el estadstico t o z. Explique su respuesta.

    c) Usando el procedimiento de un test de hiptesis para la ganancia media, aportan los datos evidencia suficiente que indique que la poltica del gerente de ventas al aprobar los precios genera una ganancia media de 4,8% por coche al nivel del 5%?. (Sugerencia: use uno de estos valores para el estadstico seleccionado Z(0.025) = 1.96 y

    .2t 1 () 0450 = - ) 30,025.d) El dueo de la compaa quiere estar razonablemente

    seguro de que la decisin es correcta y para lograrlo, l quiere contrastar la hiptesis nula con a = 0,01. 40

  • Estadstica Inferencial

    (Sugerencia: use uno de estos valores para el estadstico seleccionado Z(0.005) = 2.58 y () 7564 .2t 10 = - ) 30,005.

    e) Obtenga la regin de rechazo para la prueba del apartado c)

    2) Caso 2: Test de hiptesis para la diferencia de las medias de dos poblaciones.

    Supongamos tener dos poblaciones con medias 1 y 2 y con desviaciones estndares s1 y s2 respectivamente. Se quiere realizar un test de hiptesis para la diferencia (1 -

    2) basado en muestras independientes de tamao n1 y n2 observaciones. Por lo que el procedimiento a seguir sera

    a) Hiptesis nula

    H0: (1- 2) = D0,

    donde D0 es alguna diferencia especificada que se quiere probar. En muchos casos se desear probar la hiptesis de que no hay diferencias entre las medias de las poblaciones, en cuyo caso D0 ser 0 (cero).

    b) Estimador puntual de la diferencia de las medias poblacionales ) x - ( 21 x

    c) Hiptesis alternativa

    Test de una cola Test de dos colas

    H1: (1-2) > D0 (o H0: (1-2) < D0) - H1: ()0 1 D 2

    d) Si las poblaciones tienen distribucin normal, o

    estamos trabajando con tamaos de muestra grande (mayor a 30), y las desviaciones estndares de las dos poblaciones son:

    1. Conocidos y diferentes, entonces el estadstico del test ser 41

  • Estadstica Inferencial

    () () DxxDxx ----z == , 2121 00s + s (13) 22()x s1 n x - 21 2

    n21

    donde z tiene una distribucin normal con media 0 y desviacin estndar 1, bajo la hiptesis nula.

    2. Conocidas e iguales, entonces el estadstico del test ser

    () Dxx -- 1 1z = 021 (14) s +

    nn21

    donde z tiene una distribucin normal con media 0 y desviacin estndar 1, bajo la hiptesis nula.

    3. En el caso de que las desviaciones poblacionales sean desconocidos e iguales entonces se utiliza el estimador

    ()() 22

    11 -+- snsn 22 -= n (15) 211s p 2+n 21

    Entonces, el estadstico del test toma la forma () Dxx --t = 1 1 02

    1 (16) s p + nn21

    que tiene una distribucin t con (n1+n2-2) grados de libertad, bajo la hiptesis nula.

    Observacin: 1. En la situacin en que no se puede o no se desea hacer la

    suposicin de que las dos poblaciones con varianzas iguales tengan distribucin normal, la prueba t de varianzas iguales es robusta (es decir, no sensible) con respecto a las violaciones moderadas de la suposicin de normalidad, siempre y cuando el tamao de muestra sea grande. En tal situacin, el test t de varianza conjunta puede utilizarse sin que se vea seriamente afectado en su potencia. Por otro 42

  • Estadstica Inferencial

    lado, si el tamao de muestra es pequeo y no se puede o no se desea hacer la suposicin de normalidad de las poblaciones, se tiene dos alternativas: (a) llevar a cabo alguna transformacin normalizante de los datos, por ejemplo tomar el logaritmo de los datos, y luego aplicar el test t a los datos transformados; (b) o bien aplicar a los datos originales un test de distribucin libre o test no paramtrico como por ejemplo el test de rangos de Wilcoxon.

    4. En el caso en que no se pueda o no se desee hacer la suposicin de que las poblaciones, normalmente distribuidas, tienen varianzas iguales y si las desviaciones estndares son desconocidos, entonces el estadstico del test tiene la forma

    () Dxx --t =' , 21 022ss (17) +1

    nn12

    2

    donde t tiene una distribucin t con ( ) grados de libertad bajo la hiptesis nula, y est dado por

    () 2 + nsns 22 = ()() 2211 22

    (18) ns ns 2 22 + 2111 -- nn 1 21

    43

  • Estadstica Inferencial

    d) Regin de rechazo

    Prueba de una cola Prueba de dos colas

    Para los casos 1 y 2 Para los casos 1 y 2 z > za (o bien z ta (o bien t ta (o bien t

  • Estadstica Inferencial

    5. Un intervalo de confianza del 100(1-a)% para () - en el 1 2caso 4 est dado por

    s +

    () '-= txx (21) ns

    IC a 1

    21 n2%95 22

    1

    con los respectivos grados de libertad para t.

    6. De las ltimas observaciones se puede inferir, sin mayores dificultades, que un IC con una confianza del (1 - a)100% es equivalente a un test de hiptesis de nivel a. De tal manera que si el IC no contiene al valor del parmetro indicado en la hiptesis nula, entonces se puede rechazar dicha hiptesis.

    7. Si se quiere evaluar las diferencias entre los parmetros de ms de dos grupos, por ejemplo la durabilidad de distintos tipos de cubiertas, no es correcto realizar tales evaluaciones usando el test de diferencias de medias tomando los diferentes pares de medias por razones cuya explicacin formal est fuera del alcance del curso. Para solucionar este problema si las mediciones resultantes son continuas y se cumplen las siguientes suposiciones: i) los datos son obtenidos de manera aleatoria e independiente o que los individuos sean asignados a los grupos aleatoriamente, ii) los valores de cada grupo estn distribuidos normalmente, iii) la varianza dentro de cada poblacin debera ser igual para todas las poblaciones, existe una metodologa conocida como anlisis de varianza (ANOVA) para comparar la medias de los grupos y cuya hiptesis nula es H0 : 1 = 2 = = k. Por otra parte, si los supuestos ii) o iii) no se cumplen existen metodologas que permiten todava llevar cabo las comparaciones deseadas.

    Ejemplo 10: Una compaa desea comparar las expectativas salariales anuales de su personal de ventas femenino y masculino, segn un nuevo plan de compensaciones sobre ventas, mas comisin. Se seleccion al azar muestras de tamao 40, una del personal masculino y otra del personal de ventas femenino y se les pidi que dijeran sus ingresos anuales bajo el nuevo plan. Las medias muestrales y las desviaciones muestrales resultaron en 45

  • Estadstica Inferencial

    29745$31083$ == xx 21 2569$2312$ == ss

    21

    La pregunta que surge es, proporcionan los datos evidencia que indique una diferencia en el promedio de ingreso anual esperado tanto entre los vendedores como las vendedoras?. Ya que se espera una diferencia en el promedio del ingreso anual entre las vendedoras y los vendedores, es decir, 1 < 2 o bien 1 > 2, la hiptesis nula para el test ser H0: 1 = 2 es decir H0: 1 -2 = D0 = 0 contra la alternativa

    ()0 :: - H deciresH 211211

    Si se supone que las poblaciones de los ingresos son normales con diferentes desviaciones estndares y puesto que ellos son desconocidos, se los estima con s1 y s2. Luego, el estadstico del test est dado por (17), es decir,

    ()() 029745310830 -- -- xx ,2 ===t 21()() 45 25692312 22+ + n

    sns

    21

    404022

    12

    Al utilizar una prueba de dos colas con a = 0,05, se considerar a/2 = 0,025 en cada cola de la distribucin del estadstico y se rechaza H0 si el valor encontrado es mayor que

    99.1 = .1 -=ta o menor que - 99 ta . )2( -+ nn )2( -+ nn2 2 2 21 1

    Puesto que, el valor observado t = 2,45 es mayor que 1,99, el estadstico de la prueba cae en la zona de rechazo. Por lo tanto se rechaza H0 y se concluye que hay evidencia suficiente para asegurar que en las expectativas salariales anuales para los vendedores es mayor que para las vendedoras.

    Actividad 4: 1. Para comparar las aptitudes para seleccionar acciones por parte de dos AFJP, se comparan las ganancias anuales

    (menos los honorarios) para una inversin de $1000 (dlares) en cada una de las 30 acciones que se encuentran en las listas de las ms recomendadas de ambas empresas. Las medias y las desviaciones estndares (en dlares) para cada una de las muestras, se indican en la tabla siguiente 46

    Estadstica Inferencial

    Empresa Estadstica muestral 1 2

    Tamao 30 30 Media 264 199

    Desviacin estndar 157 111

    Hay evidencia con los datos que indique una diferencia entre las dos empresas de corretaje en las ganancias medias por accin recomendada? a) Establezca H0 b) Enuncie la hiptesis alternativa que ms conviene

    para contestar la pregunta expuesta antes.

    c) Obtenga la regin de rechazo para a = 0,05. d) Realice la prueba y saque sus conclusiones. e) Obtenga el correspondiente Intervalo de Confianza

    para la diferencia de las medias y compare las conclusiones que se pueden elaborar con l con aquellas obtenidas por el test de hiptesis.

    47