32
1. Muestreo y sus distribuciones tipo de información población infinita prontitud ensayos destructivos costos exactitud cuando hacer sin reposición con reposición casos simple estratificado sistemático de racimo aleatorio de conveniencia de juicio de cuota bola de nieve no aleatorio técnicas media proporción varianza una población diferencia de medias diferencia de proporciones relación de varianzas dos poblaciones distribuciones muestrales muestreo 1.1. Introducción La inferencia estadística comprende el establecer ciertos juicios con respecto a algo después de exami- nar solamente una parte o muestra de ello. Como ejemplos, se ofrece una muestra gratis de un nuevo alimento en un supermercado; se prueba un pedazo de pastel para opinar de su sabor; se prueba la sopa para ver si le falta sal. De la misma forma, al hojear un libro; ver un momento la televisión antes de decidir cambiar de canal o medirse alguna prenda de vestir, en realidad se está muestreando. El muestreo estadístico es semejante a cada uno de los ejemplos anteriores, aunque sus métodos son más formales y precisos, y generalmente incluyen una proposición de probabilidad. La probabilidad y el muestreo están estrechamente relacionados, y juntos, constituyen la base de la teoría de la Estadística 1 Departamento de Ciencias Básicas Ing. Nelson Mariaca

Muest Reo

Embed Size (px)

Citation preview

Page 1: Muest Reo

1. Muestreo y sus distribuciones

tipo de información

población infinita

prontitud

ensayos destructivos

costos

exactitud

cuando hacer

sin reposición

con reposicióncasos

simple

estratificado

sistemático

de racimo

aleatorio

de conveniencia

de juicio

de cuota

bola de nieve

no aleatorio

técnicas

media

proporción

varianza

una población

diferencia de medias

diferencia de proporciones

relación de varianzas

dos poblaciones

distribuciones muestrales

mue s tre o

1.1. Introducción

La inferencia estadística comprende el establecer ciertos juicios con respecto a algo después de exami-nar solamente una parte o muestra de ello. Como ejemplos, se ofrece una muestra gratis de un nuevoalimento en un supermercado; se prueba un pedazo de pastel para opinar de su sabor; se prueba lasopa para ver si le falta sal. De la misma forma, al hojear un libro; ver un momento la televisión antesde decidir cambiar de canal o medirse alguna prenda de vestir, en realidad se está muestreando.

El muestreo estadístico es semejante a cada uno de los ejemplos anteriores, aunque sus métodos sonmás formales y precisos, y generalmente incluyen una proposición de probabilidad. La probabilidady el muestreo están estrechamente relacionados, y juntos, constituyen la base de la teoría de la

Estadística 1 Departamento de Ciencias Básicas Ing. Nelson Mariaca

Page 2: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 2

inferencia.

Las observaciones de una sola muestra se denotan con x1,x2, . . . ,xn . Considere elegir dos muestrasdistintas de tamaño n de la misma distribución poblacional. Las x i de la segunda muestra casi siem-pre diferirán por lo menos un poco de las de la primera muestra. Antes de obtener los datos, hayincertidumbre acerca del valor de cada x i . Debido a esta incertidumbre, antes de que están disponibleslos datos se ve cada observación como una variable aleatoria y la muestra se representa medianteX1, X2, . . . , Xn (letras mayúsculas para variables aleatorias).

Esta variación de valores observados a su vez implica que el valor de cualquier función de las observa-ciones muestrales, por ejemplo la media o la desviación estándar, también varía de una muestra a otra.Es decir, antes de obtener x1, . . . ,xn , hay incertidumbre en cuanto al valor de x̄ , el valor de s , etc.

En resumen, los valores de cada una de las observaciones muestrales varían de una muestra a otra,así que, en general, el valor de cualquier cantidad calculada a partir de los datos de la muestra, yel valor de una característica muestral utilizado como estimación de la característica poblacionalcorrespondiente, casi nunca coincidirá con lo que está siendo estimado.

1.1.1. Glosario

Censo Examen de todos los elementos de un determinado grupo (población).

Muestra Pequeña parte de un grupo (subconjunto).

Población Grupo de elementos que tiene un tamaño establecido o limitado, es decir, existe un númeroentero (N) que indica cuántos elementos hay en la población.

infinita Es aquella en la que es teóricamente imposible observar todos los elementos o, deotra forma, una que no podría enumerarse en un periodo razonable de tiempo. (ejemplos:lanzamiento de una moneda, nacimientos, producciones fabriles)

finita Grupo de tamaño limitado (ejemplos: los automóviles del estado de Morelos, alumnos deuna clase, productos de un supermercado)

Estadística Característica de una muestra

Parámetro Característica de una población

Grados de libertad Número de observaciones independientes menos el número de parámetrosdesconocidos que se tratan de estimar sobre la base de dichas observaciones.

Distribución de frecuencias Listado de las frecuencias observadas de todos los resultados de unexperimento que se presentaron realmente cuando se efectuó éste.

Distribución de probabilidad Listado de las probabilidades de todos los posibles resultados quepodrían obtenerse si el experimento se llevara a cabo. También se conoce como distribución defrecuencias teórica, es decir, una distribución de probabilidades que describe la forma en que seespera varíen los resultados.

Distribución binomial Esta distribución corresponde a los ensayos con reposición, es decir, ensayoso pruebas repetidas e independientes, con sólo dos resultados posibles: éxito (con probabilidadp ) y fracaso (con probabilidad q = 1−p )

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 3: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 3

1.2. Tipos de muestreo

Existen dos métodos para seleccionar muestras de poblaciones: el muestreo no aleatorio o de juicioy el muestreo aleatorio o de probabilidad. En el muestreo de probabilidad, todos los elementos de lapoblación tienen la oportunidad de ser escogidos para la muestra. En el muestreo de juicio, se empleael conocimiento y la opinión personal para identificar a los elementos de la población que deben incluirse enla muestra.

En términos generales, el muestreo aleatorio requiere que cada elemento de una población tenga lamisma oportunidad de ser incluido en la muestra. Esto se puede interpretar de la siguiente manera:

En el caso de poblaciones discretas, una muestra aleatoria es aquella en la que cada elemento de lapoblación tiene la misma oportunidad de ser incluido en la muestra. En lo referente a poblacionescontinuas, un muestra aleatoria es aquella en que la probabilidad de incluir cualquier intervalo devalores en la muestra es igual al porcentaje de la poblacion que está comprendida en dicho intervalo.

1.2.1. Técnicas de muestreo aleatorio

Muestreo aleatorio simple Es la técnica más elemental de muestreo, en ella cada unidad listadase numera del 1 a N(donde N es el tamaño de la población) y se designa aleatoriamente losnúmeros de aquellos que serán incluidos en la muestra

Muestreo estratificado La población se divide en subpoblaciones que no se traslapan y se denominanestratos. Se extrae entonces una muestra aleatoria simple de cada una de las subpoblaciones.La razón principal para usar muestreo aleatorio estratificado es que sirve para reducir el errormuestral.

Muestreo sistemático A diferencia del muestreo aleatorio estratificado, el muestreo sistemático no serealiza para reducir el error muestral. Más bien, se emplea por su comodidad y relativa facilidadde administración. Con el muestreo sistemático, cada k-ésimo elemento se selecciona paraproducir una muestra de tamaño n de una población de tamaño N. El valor de k, a veces llamadociclo muestral se puede determinar con la siguiente fórmula k = N

n .

Muestreo de grupo El muestreo de grupo (o área) comprende la división de la población en áreas ogrupos que no se traslapan. A diferencia del muestreo estratificado donde los estratos son ho-mogéneos, el muestreo de grupo identifica grupos que tienden a ser internamente heterogéneos.En teoría, cada grupo contiene una amplia variedad de elementos, y el grupo es una miniatura, omicrocosmos, de la población.

1.2.2. Técnicas de muestreo no aleatorio

Muestreo de conveniencia En este muestreo, los elementos para la muestra se seleccionan paracomodidad del investigador. Por lo general el investigador selecciona elementos de los que sedispone con facilidad, cercanos o dispuestos a participar. La muestra tiende a ser menos variableque la población porque en muchos entornos los elementos extremos de la población no seencuentran fácilmente.

Muestreo de juicio Un muestreo de juicio se presenta cuando los elementos seleccionados para lamuestra son escogidos por el juicio del investigador. A veces los investigadores piensan quepueden obtener una muestra representativa al usar un juicio razonable, que resultará en ahorrode tiempo y dinero.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 4: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 4

Muestreo de cuota Tiene cierta semejanza con el muestreo aleatorio estratificado. Ciertas subclasespoblacionales, por ejemplo grupo de edad, sexo o región geográfica, se usan como estratos.No obstante, en lugar de muestrear en forma aleatoria a cada estrato, el investigador usa unmétodo de muestreo no aleatorio para reunir datos de un estrato hasta llenar la cuota deseadade muestras.

Muestreo de bola de nieve Los sujetos de entrevista son seleccionados con base en las referenciasde otros entrevistados de encuestas. El investigador identifica una persona que llena el perfil desujetos deseados para el estudio. El investigador pide entonces a esta persona los nombres ylugares de otros que también llenan el perfil de sujetos deseados para el estudio.

1.3. Teorema del límite central

El teorema de límite central establece que, en condiciones muy generales, las sumas y medias demuestras aleatorias de mediciones extraídas de una población tienden a poseer una distribuciónaproximadamente normal.

Teorema del límite central Si de una población no normal con media finita µ y desviación estándarσ se extraen muestras aleatorias de n observaciones, entonces, cuando n es grande, la distribuciónmuestral de las medias muestrales x̄ está aproximadamente distribuida de manera normal, con mediay desviación estándar

µx̄ =µ y σx̄ =σp

n

La aproximación se vuelve más precisa a medida que aumenta n .

En otras palabras:

1. Si la población muestreada está distribuida de manera normal, la distribución de los valores me-dios de la muestra estarán normalmente distribuidos respecto a todos los tamaños muestrales.

2. Si la población no es normal, la distribución de los valores medios de la muestra será aproxima-damente normal respecto a un tamaño muestral grande.

El teorema del límite central se aplica solamente a valores medios de la muestra. Sin embargo, sepuede destacar que, excepto para valores muy pequeños o muy grandes de p , la distribución normalproporciona una aproximación razonable a las probabilidades binomiales para grandes tamaños demuestra. Por tanto, la distribución normal se puede utilizar para medias y proporciones respecto agrandes tamaños de muestra.

1.3.1. Puntaje z

Un puntaje z es un dato transformado que indica a cuántas unidades de desviación estándar, porencima o por debajo de la media, se encuentra un dato en bruto.

El procedimiento por el cual un dato en bruto es modificado se llama transformación de datos. Encombinación con una curva normal, los puntajes z nos permiten determinar el número o el porcentajede los valores que están por encima o por debajo de cualquier dato en la distribución. Además, graciasa los puntajes z podemos hacer comparaciones entre datos de distribuciones distintas, aunque lasunidades de estas distribuciones sean diferentes.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 5: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 5

Características de los puntajes z

Los puntajes z tienen la misma forma que el conjunto de datos en bruto. La transformación de losdatos en bruto en sus puntajes z correspondientes no cambia la forma de la distribución. Tam-poco las posiciones relativas de los datos se modifican. Los valores de los datos son los únicosque varían.

La media de los puntajes z siempre es igual a cero (µz = 0). Esto es consecuencia de la observa-ción según la cual los datos localizados en la media de los datos en bruto será también la mediade los puntajes z . El valor z para los datos en bruto en la media es igual a cero.

La desviación estándar de los puntajes z siempre es igual a 1 (σz = 1). Esto se debe a que un da-to en bruto que se localiza 1 desviación estándar por arriba de la media tiene un puntaje z de+1:

z =(µ+1σ)−µ

σ= 1

El puntaje z para la distribución muestral de la media, para una población normalmente distribuidaes:

z =x̄ −µσx̄

donde:

z = la distancia de la media, medida en unidades de errorestándar

x̄ = el valor de la media de la muestra que nos interesa

µ= media de la población

σx̄ = el error estándar de la distribución muestral de la me-dia, o σ/

pn

1.4. Distribuciones muestrales

El objeto de efectuar un muestreo es obtener una idea del valor de uno o más de los parámetros deuna población, como la media, la desviación estándar o la proporción de elementos en la poblaciónque poseen cierta característica en común. Las estadísticas de la muestra que corresponden a estosparámetros de la población se emplean para aproximar los valores desconocidos de dichos parámetros.

Una de las realidades del muestreo aleatorio es que cuando de una misma población son tomadasmuestras repetidas, existe una tendencia a que las estadísticas muestrales varíen entre sí y con res-pecto al valor verdadero del parámetro de la población, simplemente debido a lo factores aleatoriosrelativos al muestreo.

Expresado en términos generales puede parecer difícil el tratar de manera racional la variabilidaddel muestreo. Sin embargo, en el caso del muestreo aleatorio, se ha demostrado que la variabilidadpuede ser descrita por distribuciones de probabilidad como las distribuciones normal y binomial.Cuando las distribuciones probabilísticas son usadas de esta forma, se les denomina distribucionesde muestreo. Como éstas sólo pueden usarse cuando las muestras son al azar, es esencial utilizarúnicamente muestras aleatorias para hacer inferencia estadísticas.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 6: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 6

La interrogante que se plantea en el caso de cada muestra es la siguiente: ¿cuán próximo está el valorestadístico de la muestra al valor real del parámetro de la población? La respuesta dependerá de tresfactores.

1. El valor estadístico que se está considerando. Se utilizan distribuciones probabilísticas diferentespara describir la variabilidad de muestreo asociada a distintos valores estadísticos de la muestra.

2. El tamaño de la misma. Existe menos variabilidad entre valores estadísticos de grandes muestrasque entre los valores estadísticos de muestras pequeñas.

3. La variabilidad que existe en la población de la que se extrae la muestra.

Definición La distribución muestral de un estadístico es la distribución de probabilidad para losvalores posibles del estadístico que resulta cuando se extraen repetidamente de la población lasmuestras aleatorias de tamaño n

1.4.1. Distribución de la media

Una distribución de muestreo de medias es de tipo probabilístico e indica cuán probables son diversasmedias de la muestra. La distribución es una función de la media, de la desviación estándar de lapoblación, y del tamaño de la muestra. Para cada combinación de la media de la población, de ladesviación estándar de la población y del tamaño de la muestra habrá una distribución de muestreoúnica de los valores medios de la muestra.

Con el uso del método empírico se revelan ciertas propiedades interesantes de las distribucionesmuestrales, una de ellas es que la media de la distribución muestral parece ser siempre igual a lamedia de la población. No es coincidencia el hecho de que la media de una distribución muestral seaexactamente igual a la media poblacional en cada caso. Esto resulta del hecho de que la distribuciónmuestral está compuesta de todas las muestras posibles, y, por tanto, incluye a todos los elementosde la población. En esencia, calcular la media de una distribución de muestreo es simplemente unmétodo indirecto de calcular la media de la población. Esto se ilustra con un ejemplo sencillo.

Supóngase que una población está formada por tres elementos: x1,x2,x3. La media de la población es(x1+x2+x3)/3. Si se tomaran todas las muestras de dos elementos, las combinaciones serían x1 y x2,x1 y x3, x2 y x3. Los valores medios de la muestra serían

x1+x2

2

x1+x3

2

x2+x3

2

La media de los tres valores medios de la muestra (y la media de la distribución de muestreo) sería

x1+x22

+�

x1+x32

+�

x2+x32

3=

12 (x1+x2+x1+x3+x2+x3)

3

=12 (2x1+2x2+2x3)

3

=x1+x2+x3

3

que es la media de la población. Otra característica es que la desviación estándar de la distribuciónmuestral parece disminuir a medida que aumenta el tamaño de las muestras. Esto significa que el

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 7: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 7

promedio o valor esperado de la media de la muestra será igual a la media de la población y que lasmuestras más grandes tienden a ser más confiables que las muestras menores.

¿Cómo calcular las probabilidades para la media de la muestra x̄ ? Si sabe que la distribuciónmuestral de x̄ es normal o aproximadamente normal, se puede describir el comportamiento de la mediamuestral x̄ al calcular la probabilidad de observar ciertos valores de x̄ en el muestreo repetido.

1. Encuentre µ y calcule SE=σx̄ =σ/p

n .

2. Describa el evento de interés en términos de x̄ , y localice el área apropiada en la curva normal.

3. Convierta los valores necesarios de x̄ a valores z por medio de

z =x̄ −µσx̄

4. Utilice la tabla de áreas bajo la distribución normal para calcular la probabilidad.

1.4.2. Distribuciones de proporciones muestrales

Una distribución de este tipo indica cuán probable es un conjunto particular de proporciones muestra-les, dados el tamaño de la muestra y la proporción de la población. Cuando el tamaño de la muestraes 20 ó menos, las probabilidades para los diferentes resultados posibles se pueden obtener direc-tamente de una tabla de probabilidades binomiales simplemente convirtiendo el número de éxitosa porcentajes. Para tamaños muestrales mayores la aproximación normal a la binomial producirávalores bastante aceptables. La media (proporcion promedio o porcentaje) de la distribución muestralsiempre es igual a la proporción de la población. Es decir

p̄ = p

en donde p proporción de la población y p̄ es la media de la distribución muestral de proporciones.

Cuando la población es muy grande o infinita, la desviación estándar de la distribución muestral secalcula utilizando la fórmula

σp =

r

p (1−p )n

¿Cómo calcular las probabilidades para la proporción muestral p̂ ?

1. Encuentre los valores necesarios de n y p .

2. Compruebe si la aproximación normal a la distribución binomial (np > 5) y (nq > 5) es apropiada.

3. Describa el evento de interés en función de p̂ y localice el área apropiada bajo la curva normal.

4. Convierta los valores necesarios de p̂ a valores de z mediante

z =p̂ −pÆ

pqn

5. Utilice la tabla de áreas bajo la distribución normal para calcular la probabilidad.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 8: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 8

1.4.3. Distribución muestral de la varianza

Las distribuciones muestrales de estadísticas importantes nos permiten conocer información sobrelos parámetros. Por lo general, los parámetros son la contraparte de la estadística en cuestión. Si uningeniero se interesa en la resistencia media de la población de cierto tipo de resistor, la distribuciónmuestral de X̄ se explotará una vez que se reúna la información de la muestra. Por otro lado si se estudiala variabilidad en el resistor, la distribución muestral de S2 se utilizará para conocer la contraparteparamétrica, la varianza de la población σ2.

Teorema 1.1. Si S2 es la varianza de una muestra aleatoria de tamaño n que se toma de una población normal quetiene la varianza σ2, entonces la estadística

χ2 =(n −1)S2

σ2 =n∑

i=1

(Xi − X̄)2

σ2

tiene una distribución ji-cuadrada con ν = n −1 grados de libertad

La probabilidad de que una muestra aleatoria produzca un valor χ2 mayor que algún valor específicoes igual al área bajo la curva a la derecha de este valor. Se acostumbra representar con χ2

α el valor χ2

por arriba del que encontramos un área α.

Ejercicios referentes a distribuciones muestrales de medias

1. Una población muy grande tiene una media de 20.0 y una desviación estándar de 1.4. Si se tomauna muestra de 49 observaciones, conteste las siguientes preguntas:

a) ¿Cuál es la media de la distribución de muestreo?

b) ¿Cuál es la desviación estándar de la distribución de muestreo?

c) ¿Qué porcentaje de posibles valores medios de la muestra diferirán de la media de lapoblación por más de 0.2?

2. Un fabricante de acumuladores asegura que su producto tiene una vida (promedio) esperada de50 meses. Mediante estudios realizados por esta compañía se sabe que la desviación estándar dela vida del acumulador es de cuatro meses, ¿qué porcentaje de muestras de 36 observaciones ten-drán una vida promedio que varíe en 1 mes, suponiendo que 50 es el promedio de vida verdaderade los acumuladores? ¿Cuál es la respuesta si se toma una muestra de 64 observaciones?

3. Con la información del ejercicio 2, ¿cuál sería la probabilidad de obtener un valor medio demuestra menor de 49.8 meses, de una muestra de 100 observaciones?

4. Si se obtiene una muestra de una distribución normal, ¿cuál es la probabilidad de que la mediade la muestra tenga una valor en cada uno de los siguientes intervalos?

a) µx ±1.96σx̄

b) µx ±2.00σx̄

c) µx ±2.33σx̄

5. La media de una distribución de muestreo de medias es 5, y su desviación estándar es 10.Suponga que la distribución de muestreo es normal.

a) ¿Qué porcentaje de las medias de la muestra estará entre 45 y 55?

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 9: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 9

b) ¿Qué porcentaje de los valores medios de la muestra estará entre 42.5 y 57.5?

c) ¿Qué porcentaje de los valores medios de la muestra será menor que la media de lapoblación?

d) ¿Qué porcentaje de los valores medios de la muestra será igual a la media de la población?

6. Determine la media de la distribución de los promedios de la muestra, dadas cada una de lasmedias de la población: a. 5.01, b. 18.41, c. 199.5, d. 0.008

7. Calcule la desviación estándar de la distribución muestral de medias para cada uno de lossiguientes casos: a. σx = 5, n = 16; b. σx = 1, n = 36; c. σx = 2, n = 40; d. σx = 6.2, n = 100; e.σx = 3.2, n = 44

8. Se toman muestras de 36 observaciones de una máquina de acuñar monedas conmemorativas.El espesor promedio de las monedas es de 0.20 cm, con una desviación estándar de 0.01 cm

a) ¿Es fundamental saber que la población es normal, a fin de establecer el porcentaje devalores medios de la muestra que quedarán dentro de ciertos intervalos? Explíquelo

b) ¿Qué porcentaje de medias de la muestra quedarán en el intervalo 0.20±0.004 cm?

c) ¿Cuál es la probabilidad de obtener la media de muestra que se desvía más de 0.005 cm dela media del proceso?

9. La esperanza de vida de quienes adquieren la enfermedad de Alzheimer desde el inicio de lossíntomas hasta su muerte varía de 3 a 20 años; el promedio es 8 años con una desviación estándarde 4 años. El administrador de un centro médico grande selecciona al azar los expedientesmédicos de 30 pacientes, que murieron de Alzheimer, de la base de datos del centro médico yanota el tiempo promedio que sobrevivieron. Encuentre las probabilidades aproximadas paraestos eventos:

a) La duración promedio de la enfermedad es menor de 7 años.

b) La duración promedio de la enfermedad es superior a 7 años.

c) La duración promedio de la enfermedad queda dentro de 1 año de la media de la poblaciónµ= 8.

10. Para evitar dificultades con la comisión de comercio federal o las oficinas de protección alconsumidor estatales y locales, un embotellador debe asegurarse de que las botellas de 12 onzasen realidad contengan esta cantidad de bebida. Para determinar si una máquina embotelladoraestá trabajando satisfactoriamente, el embotellador muestrea al azar diez botellas por hora ymide la cantidad de bebida que contiene cada una. Para decidir si se reajusta la cantidad debebida que la máquina de llenado vierte en cada botella se usa la media x̄ de las diez medicionesde llenado. Si en los registros se observa que la cantidad de llenado por botella está normalmentedistribuida, con una desviación estándar de 0.2 onzas, y si se ajusta la máquina embotelladorapara producir un llenado medio por botella de 12.1 onzas, ¿cuál es la probabilidad aproximadade que la media muestral x̄ de las diez botellas de prueba sea menor que 12 onzas?

11. Una expectativa importante respecto de una reducción del impuesto sobre la renta federal esque los contribuyentes se beneficiarán sustancialmente del ahorro en los impuestos. Supongaque las estimaciones de la proporción del impuesto total ahorrado, con base en una muestraaleatoria de 35 economistas, tiene una media de 26 % y una desviación estándar de 12 %.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 10: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 10

a) ¿Cuál es la probabilidad aproximada de que una media muestral, basada en una muestraaleatoria de n = 35 economistas, se ubique a 1 % de la media de la población de lasestimaciones de los economistas?

b) ¿Es necesariamente cierto que la media de la población de las estimaciones de todos loseconomistas es igual al porcentaje del ahorro en los impuestos que se lograrán en realidad?¿Por qué?

Ejercicios referentes a distribuciones muestrales de proporciones

1. Un detallista compra vasos de cristal en grandes cantidades directamente de la fábrica. Talesvasos son envueltos uno por uno. Algunas veces, el detallista inspecciona las remesas paradeterminar la proporción de vasos rotos o defectuosos. Si un gran cargamento contiene el 10 %de vasos rotos o defectuosos, ¿cuál es la probabilidad de que el detallista obtenga una muestraaleatoria de 100 vasos que presenta el 17 % o más de defectuosos?

2. Encuentre la media de la distribución de proporciones de muestreo cuando la proporción de lapoblación muestreada es: a. 30 %; b. 43 %; c. 50 %; d. 72.3 %

3. Obtenga la desviación estándar de la distribución de muestro de proporciones para n = 100 yuna proporción de la población de: a. 10 %; b. 20 %; c. 40 %; d. 50 %; e. 60 %; f. 80 %; g. 90 %

4. Explique por qué se utiliza la distribución normal para muestras de 20 o más observaciones,cuando la distribución binomial es teóricamente correcta al trabajar con proporciones. ¿Cuándoes preferible la binomial a la normal?

5. Si se supone que se tiene un tamaño de muestra muy grande, determine el porcentaje de lasproporciones de muestra que se espera que queden en estos intervalos: a. p±1σp ; b. p±1.96σp ;c. p ±2σp ; d. p ±2.33σp

6. Calcule z si el porcentaje de proporciones de muestreo que se espera que haya en el intervalop + zσp es: a. 90 %; b. 95 %; c. 99 %; d. 99.7 %

7. Si se toman muestras de n = 100 observaciones de una población muy grande, en la que laproporción de la población es el 20 %, ¿qué porcentaje de las proporciones de la muestraquedarán dentro de estos intervalos?

a) 16 % a 24 %

b) más del 24 %

c) 12 % a 28 %

d) menos del 12 % o más del 28 %

8. En una encuesta se preguntó a 500 madres y padres acerca de la importancia de los deportespara muchachos y muchachas. De los padres entrevistados, 60 % estaba de acuerdo en quelos géneros son iguales y deben tener las mismas oportunidades de participar en los deportes.Describa la distribución muestral de la proporción p̂ de padres que están de acuerdo en que losgéneros son iguales y deben tener las mismas oportunidades.

9. Regrese al ejercicio anterior. Suponga que la proporción p de padres en la población en realidades igual a 0.55. ¿Cuál es la probabilidad de observar una proporción muestral tan grande o mayorque el valor observado p̂ = 0.60?

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 11: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 11

10. Una de las formas en que la mayoría de los estadounidenses alivia el estrés es premiarse condulces. Según un estudio, 46 % admite ingerir comidas dulces en exceso cuando está estresado.Suponga que la cifra 46 % es correcta y que se selecciona una muestra aleatoria de n = 100personas.

a) ¿La distribución de p̂ , la proporción muestral de estadounidenses que alivian el estrésingiriendo comidas dulces en exceso tiene una distribución aproximadamente normal? Siéste es el caso, ¿cuáles son su media y desviación estándar?

b) ¿Cuál es la probabilidad de que la proporción muestral, p̂ , sea mayor que 0.5?

c) ¿Cuál es la probabilidad de que p̂ quede dentro de un intervalo entre 0.35 y 0.55?

d) ¿Qué podría concluir si la proporción muestral fuera tan pequeña como 30 %?

11. En 1996 hubo una batalla en los tribunales, así como en el mercado, entre Intel y DigitalEquipment Corp. por los avances técnicos que sustentaba el microprocesador Pentium deIntel. Digital acusó a Intel de violación intencionada de las patentes de Digital. Aunque elmicroprocesador Alfa de Digital era en ese entonces el más rápido del mercado, su velocidadsucumbió ante la influencia de la mercadotecnia de Intel. Ese mismo año, Intel abarcó 76 %del mercado de microprocesadores. Suponga que se revisa una muestra aleatoria de n = 1000ventas de computadoras personales y se anota el tipo de microprocesador instalado. Sea p̂ laproporción de computadoras personales con un microprocesador Pentium en la muestra.

a) ¿Cuál es la distribución de p̂?¿Cómo puede aproximar la distribución de p̂?

b) ¿Cuál es la probabilidad de que la proporción muestral de las PC con chips Pentium seamayor que 80 %?

c) ¿Cuál es la probabilidad de que la proporción muestral de computadoras personales conmicroprocesadores Pentium estuviese entre 75 % y 80 %?

d) ¿Una proporción muestral de computadoras con microprocesadores Pentium igual a 70 %parecería contradecir la cifra reportada de 76 %?

Ejercicios referentes a distribuciones muestrales de la varianza

1. Un ingeniero químico afirma que el rendimiento medio de la población de cierto proceso enlotes es 500 gramos por milímetro de materia prima. Para verificar esta afirmación muestrea 25lotes cada mes. Si el valor t calculado cae entre −t0.05 y t0.05, queda satisfecho con su afirmación.¿Qué conclusión extraería de una muestra que tiene una media x̄ = 518 gramos por milímetro yuna desviación estándar muestral s = 40 gramos? Suponga que la distribución de rendimientoses aproximadamente normal.

2. Una empresa manufacturera afirma que las baterías que utiliza en sus juegos electrónicos duranun promedio de 30 horas. Para mantener este promedio, se prueban 16 baterías cada mes. Siel valor t que se calcula cae entre −t0.025y t0.025, la empresa queda satisfecha con su afirmación.¿Qué conclusiones extraería la empresa de una muestra que tiene una media de x̄ = 27.5 horas yuna desviación estándar de s = 5 horas? Suponga que la distribución de las duraciones de lasbaterías es aproximadamente normal.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 12: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 12

.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 13: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 13

μ 1σ-1σ-2σ-3σ 2σ 3σ

68%

95.5%

99.7%

Figura 1: área bajo una curva normal dentro de 1, 2 y 3 desviaciones estándar de la media

1.5. Estimaciones puntuales y de intervalo

Los valores estadísticos muestrales se utilizan como estimadores de los parámetros de población. Lamedia de una muestra se utiliza como una estimación del valor medio de la población; una desviaciónestándar muestral se emplea como una estimación de la desviación estándar de la población y laproporción de elementos de una muestra con cierta característica en común se usa para estimar laproporción de una población que presenta la misma característica. Tales estimaciones reciben elnombre de estimaciones de punto o puntuales, ya que proporcionan la estimación de un solo valor deun parámetro. Sin embargo, se sabe que muestras aleatorias tienden a producir muestras en las que,por ejemplo, la media de la muestra no es igual a la de la población, aunque generalmente ambosvalores están muy cercanos entre sí. Debido a la variabilidad de muestreo, suele ser deseable incluiruna estimación de intervalo para acompañar la estimación puntual. Esta estimación proporciona unintervalo de los valores posibles para el parámetro de población.

Definición 1.1. Estimación puntual: Estimación de un valor único de un parámetro de la población

Definición 1.2. Estimación por intervalo: Estimación que incluye un intervalo de valores posibles enel que se considera que está comprendido un parámetro de la población.

La capacidad para estimar los parámetros de población mediante el empleo de datos muestrales, serelaciona directamente con el conocimiento que se tiene acerca de la distribución muestral del valorestadístico que se está utilizando como estimador. Es posible considerar el valor estadístico de lamuestra como una observación de la distribución muestral.

Supóngase que se toma una muestra aleatoria de una población de profesionales titulados, en la quese observa que la edad promedio es de 24.2 años. Se sabe que éste es uno de los valores de la distri-bución muestral, pero la pregunta es ¿cuál? Es decir, ¿cuán cercano está 24.2 a la media de la población?

Al tratar de responder esta pregunta, se deben tener en cuenta las características de la distribuciónmuestral. En muchos casos, la distribución de valores de la muestra es normal o aproximadamentenormal. Supóngase que este es el caso. En la figura 1 se muestran los porcentajes de los valoresestadísticos de la muestra comprendidos para varias desviaciones estándar.

Si se establece la proposición de que la media de una muestra está dentro de 1.96 desviacionesestándar de la media verdadera, es posible esperar estar en lo cierto un 95 % de las veces, y estarequivocado el 5 % restante. De esta manera, decir que 24.2 queda dentro de 1.96 desviaciones estándar

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 14: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 14

μ?

μ?

?

?

x_

24. 2

x_

μ? μ?

¿Proviene el valor estadístico de la muestradel extremo (o cola)superior de la distribuciónde muestreo, como seindica aquí ?

¿Proviene el valor estadístico de la muestradel extremo (o cola)inferior de la distribuciónde muestreo, como seindica aquí ?

Como no hay forma deestar seguros, se supone lopeor y se establece un intervalo de valoresverdaderos posibles

Figura 2: Concepto de la estimación de intervalo

de la media conlleva un riesgo de error del 5 %. Como es imposible saber con exactitud, nos debemosconformar con esta evaluación probabilística del intervalo en el que puede estar comprendido el valorverdadero. Este recibe el nombre de intervalo de confianza, y la confianza es 1−P(error). Por tanto,un intervalo de confianza de 95 % implicaría un 5 % de riesgo de error; el 5 % de los intervalos asídesignados no incluirían la media de la población. Para reducir el riesgo es necesario establecer unintervalo más amplio de valores posibles para la media de la población.

Ahora bien, independientemente del nivel de confianza que se escoja, no se puede decir que unamuestra determinada es menor o mayor que el valor no conocido de la media de la población. Porejemplo, la media muestral puede provenir del extremo (cola) superior de la distribución de muestreoes decir, el valor medio de la muestra puede provenir del extremo (cola) inferior de la distribución delmismo tipo. No hay forma de saber si un determinado valor estadístico de la muestra es demasiadoalto, demasiado bajo o casi igual al valor real. Por tanto, se establece una categoría o intervalo devalores posibles, en el que se cree que puede estar el valor verdadero del parámetro, teniendo enmente el máximo error que se está dispuesto a aceptar. Esto se ilustra en la figura 2.

El intervalo de confianza presenta la forma x̄ ± zσx̄ ; el valor de la media de la muestra tiene dossignificados. Uno de ellos es que sirve como punto medio del intervalo de confianza. Además, funcionacomo estimación puntual de la media real. Hay que recordar que el valor medio de la muestra tiene unvalor esperado que es igual a la media de la población. Por tanto, en promedio, el valor de la muestraserá igual al parámetro de la población.

La figura 3 muestra que un intervalo de confianza de 95 % incluirá la media de la población para todas,

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 15: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 15

μ

Distribución muestralpara x

_

μ - 1.96 σ X_ μ + 1.96 σ X

_

x1_

x1 + 1.96 σ_

x1 - 1.96 σ

x2_

x2 + 1.96 σ_

x2 - 1.96 σ

x3_

x3 + 1.96 σ_

x3 - 1.96 σ

x4_

x4 + 1.96 σ_

x4 - 1.96 σ

x5_

x5 + 1.96 σ_

x5 - 1.96 σ

Muestra

1

2

3

4

5_

_

_

_

_

Figura 3: Las estimaciones de intervalos basados en los valores medios de muestras repetidas nopresentarán todas el valor verdadero. Se ilustra esto con intervalos de confianza de 95 % (z = 1.96)

excepto el 5 % de los valores medios de la muestra.

Definición 1.3. Un intervalo de confianza proporciona un intervalo de valores, centrado en el valorestadístico de la muestra, en el cual supuestamente se ubica el parámetro de la población, con unriesgo de error conocido.

1.6. Estimaciones de una población

1.6.1. Estimación de la media

La pregunta de cuán cerca puede estar determinado valor medio muestral con respecto a la media dela distribución muestral, en unidades reales, depende de la variabilidad de la distribución muestral—esto es, la desviación estándar de la distribución muestral—. Debe recordarse que a medida queaumenta el tamaño de la muestra,la desviación estándar de la distribución muestral disminuye. Estohace que muestras grandes tenderán a producir valores medios muestrales más cercanos a la mediaque los de las muestras pequeñas. La variabilidad en la población también es un factor importante;cuanto mayor sea la variabilidad en la población, mayor será la variabilidad en la distribución muestral.

El método empleado para estimar la media de una población depende de si se conoce la desviaciónestándar de la misma o si ésta se debe estimar a partir de los datos muestrales.

Desviación estándar poblacional conocida Cuando se conoce la desviación estándar de la pobla-ción, las estimaciones de punto y de intervalo de la media de la población se calculan de la siguientemanera:

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 16: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 16

a)

Intervalo de confianza

x - z σ_

x_ x

_x + z σ_

x_

x - e_

x_

x + e _

Errorprobablemáximo

Errorprobablemáximo

Intervalo de confianza

b)

Figura 4: a) El intervalo de confianza está centrado respecto al valor medio de la muestra. b) El error esigual a la mitad de la amplitud del intervalo de confianza.

estimación de punto de µ: x̄

estimación de intervalo de µ: x̄ ± zσx̄

en donde σx̄ =σ/p

n .

En la figura 6a se presenta la forma como se establece el intervalo de confianza, tomando el valor mediode la muestra como punto medio. La estimación de intervalo de la media poblacional se basa en elsupuesto de que la distribución muestral de los valores medios de la muestra es normal. En el caso detamaños de muestra grandes, esto no constituye una gran dificultad, puesto que se aplica el teoremadel límite central. Sin embargo, para muestras menores de 30 observaciones, es importante saber quela población que se muestrea está distribuida normalmente, o por lo menos, casi normalmente. Deotra manera, no pueden utilizarse estas técnicas.

Error de estimación El error en una estimación de intervalos se refiere a la desviación (diferencia)entre el valor medio de la muestra y la media real de la población. Como el intervalo de confianza estácentrado con respecto al valor medio de la muestra, el error máximo probable equivale a la mitad de laamplitud del intervalo. Por tanto, el intervalo

x̄ ± zσp

nse puede representar como x̄ ±error

siendo el error e = zσp

n.

La fórmula para el error indica que realmente hay tres factores determinantes del tamaño o grado deerror:

1. la confianza deseada, que se representa por medio el valor de z

2. la dispersión en la población, σ

3. el tamaño de la muestra, n

Los factores que forman el numerador ejercen un efecto directo sobre el error, ya que un aumentoen esas variables hará que aumente e , es decir, cuanto mayor sea el coeficiente de confianza o la

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 17: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 17

(a) Efecto del coeficiente de confianza

(b) Efecto del tamaño de la muestra

(c) Efecto de la dispersión de la población

Confianza z Amplitud del intervalo

Tamaño de la muestra

σ Amplitud del intervalo

Amplitud del intervalo

68%

95%

99%

1.00

1.96

2.58

8

16

32

64

5

10

15

20

Figura 5: Factores que influyen en la amplitud de un intervalo de confianza; (a) coeficiente de confianza,(b) tamaño de la muestra, (c) dispersión de la población.

dispersión de la población, tanto mayor será el error potencial. El tamaño de la muestra, que seencuentra en el denominador, ejerce un efecto inverso sobre el error. El efecto neto dependerá delas tres variables.En la figura 7a se observa que al aumentar el grado de confianza resulta en unaampliación del intervalo. En la figura 7b se indica que un aumento en el tamaño de la muestraprovocará que se reduzca el intervalo. La figura 7c ilustra como la dispersión de la población puedealterar el intervalo: a mayor dispersión, mayor intervalo.

Determinación del tamaño muestral Algo que se pregunta frecuentemente en estadística es: ¿dequé tamaño debe ser la muestra? La fórmula para el error se puede utilizar de tal forma que sea posibledeterminar el valor de n .

n =�

e

�2

Por tanto, el tamaño muestral necesario dependerá de

1. el grado de confianza deseado

2. la cantidad de dispersión entre los valores individuales de la población

3. cierta cantidad especificada de error tolerable

Se debe observar que al obtener el valor de n siempre se redondea la respuesta al siguiente valorentero.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 18: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 18

Estimación de la media cuando no se conoce σ Cuando no se conoce el valor de la desviaciónestándar de la población —lo cual generalmente ocurre—, la desviación estándar de la muestra seutiliza como una estimación de s y sustituye a σ en ecuaciones de intervalo de confianza y errores. Estono presenta una dificultad importante, ya que la desviación estándar de la muestra proporciona unaaproximación al valor verdadero, muy razonable en la mayoría de los casos. Además por el teorema dellímite central se sabe que, cuando el tamaño de la muestra es mayor que 30, la distribución muestralde las medias será casi normal. Sin embargo, para tamaños de muestra de 30 o menos observaciones,la aproximación normal resulta inadecuada. En lugar de ello, los cálculos de los intervalos de confianzase deben basar en la distribución t, que es la distribución teóricamente correcta siempre que se utiliza s .

El aspecto interesante —y complicado— con respecto a la distribución t es que no es una de tipoestandarizado en el mismo sentido que lo es la distribución normal; en el caso de cada tamaño demuestra existe una distribución t ligeramente diferente. De este modo, en tanto que la distribuciónnormal es esencialmente independiente del tamaño de la muestra, la distribución t no lo es.

El intervalo de confianza para una media muestral cuando se usa s es muy semejante al intervalo conσ

x̄ ± tsp

n

Como último punto diremos que la distribución t es teóricamente apropiada sólo cuando se muestreaa partir de una distribución normal. Como aspecto práctico, a medida que n aumenta más allá de 300bservaciones, disminuye la necesidad de suponer normalidad.

1.6.2. Estimación de la proporción

¿Qué porcentaje de los productos de un gran embarque está defectuoso? ¿Qué proporción de lascanicas que hay en una urna son rojas? ¿Qué porcentaje de los votantes aprobarán un decreto? ¿Cuáles la probabilidad de que un alumno de este estado no reciba la vacuna requerida contra el sarampión?Estas preguntas y otras semejantes se pueden contestar utilizando datos muestrales para estimar elparámetro de la población. Como se vio en la sección anterior, las estimaciones suelen establecerse,en términos de estimaciones de punto y de intervalo.

La estimación de proporciones de la población es muy semejante a la de las medias de la población.Por ejemplo, un intervalo de confianza de una muestra grande se basa en una distribución muestralque es aproximadamente normal, y el valor estadístico de la muestra —en este caso, la proporciónde la muestra— se utiliza como la estimación de punto del parámetro verdadero —proporción de lapoblación—. Existe una excepción importante. La distribución t no se utiliza —en absoluto— y, portanto, se evita completamente la relación entre t y z .

Método de la fórmula El valor esperado de una proporción muestral —es decir, la media de unadistribución muestral de proporciones muestrales— siempre es igual a la proporción de la poblaciónverdadera. Por tanto, la proporción de la muestra se utiliza como la estimación de punto de laproporción verdadera:

estimación de punto dep : p̂ =x

nLa estimación de intervalo del parámetro de la población —para tamaños grandes de muestra— essimétrica respecto de la proporción de la muestra, del mismo modo que el intervalo para una media

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 19: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 19

de la población es simétrico respecto a la media muestral. La principal diferencia entre estimación demedias y la de proporciones radica en las desviaciones estándar de las distribuciones muestrales. Ladesviación estándar de una proporción se basa en la distribución binomial. La estimación de σp sepresenta a continuación.

σx/n =

r

(x/n )[1− (x/n )]n

es equivalente a σp =

r

(p )(q )n

donde x = número de elementos de la muestra; z = desviación estándar normal; n = tamaño de lamuestra; p = proporción de la muestra y q = 1−p . La estimación de intervalo de p es:

x

n± z

r

(x/n )[1− (x/n )]n

que equivale a p ± z

r

(p )(q )n

Error La cantidad de errores de una estimación equivale simplemente a la mitad de la amplitud delintervalo de confianza. Por tanto su ecuación es

e = z

Ç

pq

n

Los dos factores, z y n , producen exactamente el mismo efecto que en el caso de errores en laestimación de medias de población. Es decir, cuanto mayor sea z —la confianza—, mayor será el errorposible, y cuanto mayor sea el tamaño de muestra, tanto menor será el error.

Determinación del tamaño de la muestra Uno de los usos más frecuentes de la fórmula del errores en la determinación del tamaño muestral necesario para obtener un grado de precisión en laestimación de proporciones. Despejando n su fórmula es

n = z 2�pq

e 2

Nuevamente, el resultado se debe redondear al entero superior.

1.6.3. Estimación de la varianza

En los párrafos precedentes se explicó que por lo general se necesita una estimación de la varianzapoblacional σ2 antes de poder hacer inferencias respecto a las medias poblacionales. Sin embargo,en ocasiones el objetivo principal de una investigación experimental es determinar, precisamente,la varianza poblacional σ2. Para el investigador esta última puede ser más importante que la mediapoblacional. Considere los ejemplos que se dan a continuación:

Los instrumentos científicos de medición deben proporcionar lecturas insesgadas con un muypequeño error de medición. Un altímetro de un avión que mide la altitud correcta promedio no esmuy útil si las mediciones que proporciona contienen un error tan grande como 1000 pies arribao abajo de la altitud real.

Las partes hechas a máquina en un proceso de fabricación deben ser producidas con la mínimavariabilidad para reducir el número de partes que no dan las medidas correctas y, por tanto, laspiezas defectuosas.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 20: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 20

Los exámenes de aptitud se deben diseñar de modo que las puntuaciones muestren una cantidadrazonable de variabilidad. Por ejemplo, una prueba de 800 puntos no es muy selectiva si todoslos estudiantes obtienen puntuaciones entre 601 y 605 puntos.

Si se toma una muestra de tamaño n de una población normal con varianza σ2, y se calcula la varianzamuestral s 2, se obtiene un valor del estadístico S2. Esta varianza muestral calculada se utilizará comouna estimación puntual de σ2. Por lo que al estadístico S2 se le denomina estimador de σ2.

Puede establecerse una estimación de intervalo de σ2 utilizando el estadístico:

χ2 =(n −1)S2

σ2

El estadístico χ2 tiene una distribución ji-cuadrada con n −1 grados de libertad cuando las muestrasse seleccionan a partir de una población normal. Para la muestra aleatoria particular de tamaño n secalcula la varianza muestral s 2 y se obtiene el siguiente intervalo de confianza para σ2.

(n −1)s 2

χ2α/2

<σ2 <(n −1)s 2

χ21−α/2

donde χ2α/2 y χ2

1−α/2 son los valores de χ2 superior e inferior, que localizan una mitad de α en cada colade la distribución ji-cuadrada. Supuesto: la muestra se elige al azar de una población normal.

1.7. Estimaciones de dos poblaciones

1.7.1. Estimación de la diferencia de dos medias

Un problema que es tan importante como la estimación de una sola media poblacional µ para unapoblación cuantitativa es la comparación de dos medias poblacionales. Es posible que quiera hacercomparaciones como éstas:

Las calificaciones promedio en el examen de admisión de la escuela de medicina para estudiantescuya asignatura principal era bioquímica y para los que la asignatura principal era biología.

Los rendimientos promedio en una planta química que utiliza materia prima adquirida con dosproveedores.

Los diámetros promedio del tallo de plantas cultivadas con dos tipos diferentes de nutrientes.

Para cada uno de estos ejemplos hay dos poblaciones: la primera con media µ1 y varianza σ21 y la

segunda con µ2 y varianza σ22. Una muestra aleatoria de n 1 mediciones se extrae de la población 1, y

n 2 de la población 2, donde se supone que las muestras fueron extraídas de manera independienteuna de otra.

Por último, las estimaciones de los parámetros de la población se calculan de los datos de la muestrapor medio de los estimadores x̄1, s 2

1 , x̄2 y s 22 .

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 21: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 21

Propiedades de la distribución muestral de (—x1−—x2), la diferencia entre dos medias muestralesCuando de poblaciones con medias µ1 y µ2 y varianzas σ2

1 y σ22, respectivamente, se han seleccionado

muestras aleatorias independientes de n 1 y n 2 observaciones, la distribución muestral de la diferencia(x̄1− x̄2) tiene las propiedades siguientes:

1. La media y el error estándar de (x̄1− x̄2) son

µ(x̄1−x̄2) =µ1−µ2 e =σ(x̄1−x̄2) =

r

σ21

n 1+σ2

2

n 2

2. Si las poblaciones muestreadas están normalmente distribuidas, entonces la distribución mues-tral de (x̄1 − x̄2) se distribuye de manera exactamente normal, sin importar el tamaño de lamuestra.

3. Si las poblaciones muestreadas no se distribuyen normalmente, entonces la distribución mues-tral de (x̄1− x̄2) se distribuye de manera aproximadamente normal cuando n 1 y n 2 son grandes,de acuerdo al teorema de límite central.

Intervalo de confianza de (1−α)100 % para (µ1−µ2) para muestras grandes

(x̄1− x̄2)± z

r

σ21

n 1+σ2

2

n 2

Si no se conocen los valores de σ21 y σ2

2, se pueden aproximar mediante las varianzas muestrales s 21 y

s 22 , y el intervalo de confianza aproximado es

(x̄1− x̄2)± z

r

s 21

n 1+

s 22

n 2

Intervalo de confianza de (1−α)100 % para (µ1−µ2) para muestras pequeñas

Caso 1: Varianzas iguales pero desconocidas

(x̄1− x̄2)± tα/2

r

s 2p

1

n 1+

1

n 2

donde s 2p es la estimación agrupada de σ2 y se calcula con

s 2p =(n 1−1)s 2

1 +(n 2−1)s 22

n 1+n 2−2

El procedimiento con dos muestras en el que se usa una estimación agrupada de la varianza comúnσ2 se sustenta en cuatro supuestos importantes:

Las muestras se deben seleccionar al azar. Las muestras que no se escogen de esta mane-ra podrían introducir un sesgo en el experimento y, por consiguiente, alterar los niveles designificación que se están informando.

Las muestras deben ser independientes. Si no es así, éste no es el procedimiento estadísticoapropiado.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 22: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 22

Las poblaciones de donde obtenga sus muestras deben ser normales. Aunque desviacionesmoderadas de la normalidad no afectan seriamente a la distribución del estadístico de prueba,sobre todo si los tamaños de muestra son casi iguales.

Las varianzas poblacionales deben ser iguales o casi iguales para tener la certeza de que losprocedimientos son válidos.

Caso 2: Varianzas distintas y desconocidas Si las varianzas poblacionales están lejos de ser iguales, hayun procedimiento alternativo —denominado aproximación de Satterthwaite— para estimar y probarque se tiene una distribución T aproximada en el muestreo repetido. Como regla práctica, esteprocedimiento es el indicado si la razón de las dos varianzas muestrales

varianza mayor

varianza menor> 3

Como las varianzas poblacionales no son iguales, el estimador agrupado sp ya no es apropiado, y paracada varianza poblacional se debe estimar su correspondiente varianza muestral.El intervalo es:

(x̄1− x̄2)± tα/2

È

s 21

n 1+

s 22

n 2

Los grados de libertad para t se aproximan mediante la fórmula:

ν =

s 21

n 1+

s 22

n 2

�2

(s 21/n 1)2

(n 1−1)+(s 2

2/n 2)2

(n 2−1)

El resultado debe redondearse al entero más cercano.

1.7.2. Estimación de la diferencia entre dos proporciones

Del mismo modo que la estimación de una media poblacional condujo a la estimación de la diferenciaentre dos medias poblacionales, la estimación de una proporción poblacional binomial lleva a laestimación de la diferencia entre dos proporciones poblacionales binomiales. Tal vez desee hacercomparaciones como éstas:

La proporción de artículos defectuosos fabricados en dos líneas de producción.

La proporción de mujeres votantes y la de hombres votantes que están a favor de una enmiendade igualdad de derechos.

Las tasas de germinación de semillas tratadas y no tratadas con un fungicida.

En estos casos la pregunta por contestar tiene que ver con la diferencia (p1−p2) entre dos proporcionesbinomiales basadas en muestras aleatorias extraídas de cada una de las dos poblaciones binomiales.En este caso las poblaciones binomiales tienen los parámetros p1 y p2. Las muestras aleatoriasindependientes que consisten en n 1 y n 2 ensayos se extraen de las poblaciones 1 y 2, respectivamente,y se calculan las estimaciones muestrales p̂1 y p̂2. El estimador insesgado de la diferencia (p1−p2) esla diferencia muestral (p̂1− p̂2).

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 23: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 23

Propiedades de la distribución muestral de la diferencia (p̂1− p̂2) entre dos proporciones mues-trales Suponga que las muestras aleatorias independientes de n 1 y n 2 observaciones se seleccionaronde poblaciones binomiales con parámetros p1 y p2, respectivamente. La distribución muestral de ladiferencia entre las proporciones muestrales

(p̂1− p̂2) =�

x1

n 1−

x2

n 2

tiene estas propiedades:

1. La media y el error estándar de (p̂1− p̂2) son

µ(p̂1−p̂2) = p1−p2 y e =σ(p̂1−p̂2) =Ç

p1q1

n 1+

p2q2

n 2

2. La distribución muestral de (p̂1 − p̂2) se puede aproximar mediante una distribución normalcuando n 1 y n 2 son grandes, de acuerdo con el teorema del límite central.

Aunque el rango de una sola proporción es de 0 a 1, la diferencia entre dos proporciones varía entre−1 y 1. Para aproximar la distribución de (p̂1− p̂2) por medio de una distribución muestral, tanto p̂1

como p̂2 deben ser aproximadamente normales; es decir, n 1p1 > 5, n 1q1 > 5, n 2p2 > 5, n 2q2 > 5.

Intervalo de confianza de (1−α)100 % de (p1−p2) para una muestra grande

(p̂1− p̂2)± z

r

p̂1q̂1

n 1+

p̂2q̂2

n 2

Suposición: n 1 y n 2 deben ser suficientemente grandes para que la distribución muestral de (p̂1− p̂2)se pueda aproximar mediante una distribución norma; a saber, si n 1p1, n 1q1, n 2p2 y n 2q2 son mayoresque 5.

1.7.3. Estimación de la razón de dos varianzas poblacionales

Así como a veces una sola varianza poblacional es importante para un investigador, también se podríanecesitar comparar dos varianzas poblacionales. Quizá necesite comparar la precisión de un dispositivode medición con la de otro, la estabilidad de un proceso de manufactura con la de otro, o incluso lavariabilidad en el procedimiento que un profesor universitario utiliza para calificar con la de otro.

Una manera de comparar dos varianzas poblacionales, σ1 y σ2, es usar la razón de las varianzasmuestrales, s 2

1/s22 . Si s 2

1/s22 es casi igual a 1, se encontrará poca evidencia para concluir que σ2

1 y σ22 no

iguales. Por otro lado, un valor muy grande o muy pequeño para s 21/s

22 proporciona evidencia de que

las varianzas poblacionales son diferentes.

Intervalo de confianza para σ21/σ

22

s 21

s 22

1

Fν1,ν2

<σ2

1

σ22

<

s 21

s 22

Fν2,ν1

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 24: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 24

donde ν1 = (n 1−1) y ν2 = (n 2−1). Fν1,ν2 es el valor crítico tabulado de F que corresponde a los gradosde libertad ν1 y ν2 del numerador y denominador de F, respectivamente, con área α/2 a su derecha.Supuestos: las muestras se seleccionan al azar y de forma independiente de poblaciones normalmentedistribuidas.

1.8. Estimaciones de una población

1.8.1. Estimación de la media

La pregunta de cuán cerca puede estar determinado valor medio muestral con respecto a la media dela distribución muestral, en unidades reales, depende de la variabilidad de la distribución muestral—esto es, la desviación estándar de la distribución muestral—. Debe recordarse que a medida queaumenta el tamaño de la muestra,la desviación estándar de la distribución muestral disminuye. Estohace que muestras grandes tenderán a producir valores medios muestrales más cercanos a la mediaque los de las muestras pequeñas. La variabilidad en la población también es un factor importante;cuanto mayor sea la variabilidad en la población, mayor será la variabilidad en la distribución muestral.

El método empleado para estimar la media de una población depende de si se conoce la desviaciónestándar de la misma o si ésta se debe estimar a partir de los datos muestrales.

Desviación estándar poblacional conocida Cuando se conoce la desviación estándar de la pobla-ción, las estimaciones de punto y de intervalo de la media de la población se calculan de la siguientemanera:

estimación de punto de µ: x̄

estimación de intervalo de µ: x̄ ± zσx̄

en donde σx̄ =σ/p

n .

En la figura 6a se presenta la forma como se establece el intervalo de confianza, tomando el valor mediode la muestra como punto medio. La estimación de intervalo de la media poblacional se basa en elsupuesto de que la distribución muestral de los valores medios de la muestra es normal. En el caso detamaños de muestra grandes, esto no constituye una gran dificultad, puesto que se aplica el teoremadel límite central. Sin embargo, para muestras menores de 30 observaciones, es importante saber quela población que se muestrea está distribuida normalmente, o por lo menos, casi normalmente. Deotra manera, no pueden utilizarse estas técnicas.

Error de estimación El error en una estimación de intervalos se refiere a la desviación (diferencia)entre el valor medio de la muestra y la media real de la población. Como el intervalo de confianza estácentrado con respecto al valor medio de la muestra, el error máximo probable equivale a la mitad de laamplitud del intervalo. Por tanto, el intervalo

x̄ ± zσp

nse puede representar como x̄ ±error

siendo el error e = zσp

n.

La fórmula para el error indica que realmente hay tres factores determinantes del tamaño o grado deerror:

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 25: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 25

a)

Intervalo de confianza

x - z σ_

x_ x

_x + z σ_

x_

x - e_

x_

x + e _

Errorprobablemáximo

Errorprobablemáximo

Intervalo de confianza

b)

Figura 6: a) El intervalo de confianza está centrado respecto al valor medio de la muestra. b) El error esigual a la mitad de la amplitud del intervalo de confianza.

1. la confianza deseada, que se representa por medio el valor de z

2. la dispersión en la población, σ

3. el tamaño de la muestra, n

Los factores que forman el numerador ejercen un efecto directo sobre el error, ya que un aumentoen esas variables hará que aumente e , es decir, cuanto mayor sea el coeficiente de confianza o ladispersión de la población, tanto mayor será el error potencial. El tamaño de la muestra, que seencuentra en el denominador, ejerce un efecto inverso sobre el error. El efecto neto dependerá delas tres variables.En la figura 7a se observa que al aumentar el grado de confianza resulta en unaampliación del intervalo. En la figura 7b se indica que un aumento en el tamaño de la muestraprovocará que se reduzca el intervalo. La figura 7c ilustra como la dispersión de la población puedealterar el intervalo: a mayor dispersión, mayor intervalo.

Determinación del tamaño muestral Algo que se pregunta frecuentemente en estadística es: ¿dequé tamaño debe ser la muestra? La fórmula para el error se puede utilizar de tal forma que sea posibledeterminar el valor de n .

n =�

e

�2

Por tanto, el tamaño muestral necesario dependerá de

1. el grado de confianza deseado

2. la cantidad de dispersión entre los valores individuales de la población

3. cierta cantidad especificada de error tolerable

Se debe observar que al obtener el valor de n siempre se redondea la respuesta al siguiente valorentero.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 26: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 26

(a) Efecto del coeficiente de confianza

(b) Efecto del tamaño de la muestra

(c) Efecto de la dispersión de la población

Confianza z Amplitud del intervalo

Tamaño de la muestra

σ Amplitud del intervalo

Amplitud del intervalo

68%

95%

99%

1.00

1.96

2.58

8

16

32

64

5

10

15

20

Figura 7: Factores que influyen en la amplitud de un intervalo de confianza; (a) coeficiente de confianza,(b) tamaño de la muestra, (c) dispersión de la población.

Estimación de la media cuando no se conoce σ Cuando no se conoce el valor de la desviaciónestándar de la población —lo cual generalmente ocurre—, la desviación estándar de la muestra seutiliza como una estimación de s y sustituye a σ en ecuaciones de intervalo de confianza y errores. Estono presenta una dificultad importante, ya que la desviación estándar de la muestra proporciona unaaproximación al valor verdadero, muy razonable en la mayoría de los casos. Además por el teorema dellímite central se sabe que, cuando el tamaño de la muestra es mayor que 30, la distribución muestralde las medias será casi normal. Sin embargo, para tamaños de muestra de 30 o menos observaciones,la aproximación normal resulta inadecuada. En lugar de ello, los cálculos de los intervalos de confianzase deben basar en la distribución t, que es la distribución teóricamente correcta siempre que se utiliza s .

El aspecto interesante —y complicado— con respecto a la distribución t es que no es una de tipoestandarizado en el mismo sentido que lo es la distribución normal; en el caso de cada tamaño demuestra existe una distribución t ligeramente diferente. De este modo, en tanto que la distribuciónnormal es esencialmente independiente del tamaño de la muestra, la distribución t no lo es.

El intervalo de confianza para una media muestral cuando se usa s es muy semejante al intervalo conσ

x̄ ± tsp

n

Como último punto diremos que la distribución t es teóricamente apropiada sólo cuando se muestreaa partir de una distribución normal. Como aspecto práctico, a medida que n aumenta más allá de 30

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 27: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 27

0bservaciones, disminuye la necesidad de suponer normalidad.

1.8.2. Estimación de la proporción

¿Qué porcentaje de los productos de un gran embarque está defectuoso? ¿Qué proporción de lascanicas que hay en una urna son rojas? ¿Qué porcentaje de los votantes aprobarán un decreto? ¿Cuáles la probabilidad de que un alumno de este estado no reciba la vacuna requerida contra el sarampión?Estas preguntas y otras semejantes se pueden contestar utilizando datos muestrales para estimar elparámetro de la población. Como se vio en la sección anterior, las estimaciones suelen establecerse,en términos de estimaciones de punto y de intervalo.

La estimación de proporciones de la población es muy semejante a la de las medias de la población.Por ejemplo, un intervalo de confianza de una muestra grande se basa en una distribución muestralque es aproximadamente normal, y el valor estadístico de la muestra —en este caso, la proporciónde la muestra— se utiliza como la estimación de punto del parámetro verdadero —proporción de lapoblación—. Existe una excepción importante. La distribución t no se utiliza —en absoluto— y, portanto, se evita completamente la relación entre t y z .

Método de la fórmula El valor esperado de una proporción muestral —es decir, la media de unadistribución muestral de proporciones muestrales— siempre es igual a la proporción de la poblaciónverdadera. Por tanto, la proporción de la muestra se utiliza como la estimación de punto de laproporción verdadera:

estimación de punto dep : p̂ =x

n

La estimación de intervalo del parámetro de la población —para tamaños grandes de muestra— essimétrica respecto de la proporción de la muestra, del mismo modo que el intervalo para una mediade la población es simétrico respecto a la media muestral. La principal diferencia entre estimación demedias y la de proporciones radica en las desviaciones estándar de las distribuciones muestrales. Ladesviación estándar de una proporción se basa en la distribución binomial. La estimación de σp sepresenta a continuación.

σx/n =

r

(x/n )[1− (x/n )]n

es equivalente a σp =

r

(p )(q )n

donde x = número de elementos de la muestra; z = desviación estándar normal; n = tamaño de lamuestra; p = proporción de la muestra y q = 1−p . La estimación de intervalo de p es:

x

n± z

r

(x/n )[1− (x/n )]n

que equivale a p ± z

r

(p )(q )n

Error La cantidad de errores de una estimación equivale simplemente a la mitad de la amplitud delintervalo de confianza. Por tanto su ecuación es

e = z

Ç

pq

n

Los dos factores, z y n , producen exactamente el mismo efecto que en el caso de errores en laestimación de medias de población. Es decir, cuanto mayor sea z —la confianza—, mayor será el errorposible, y cuanto mayor sea el tamaño de muestra, tanto menor será el error.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 28: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 28

Determinación del tamaño de la muestra Uno de los usos más frecuentes de la fórmula del errores en la determinación del tamaño muestral necesario para obtener un grado de precisión en laestimación de proporciones. Despejando n su fórmula es

n = z 2�pq

e 2

Nuevamente, el resultado se debe redondear al entero superior.

1.8.3. Estimación de la varianza

En los párrafos precedentes se explicó que por lo general se necesita una estimación de la varianzapoblacional σ2 antes de poder hacer inferencias respecto a las medias poblacionales. Sin embargo,en ocasiones el objetivo principal de una investigación experimental es determinar, precisamente,la varianza poblacional σ2. Para el investigador esta última puede ser más importante que la mediapoblacional. Considere los ejemplos que se dan a continuación:

Los instrumentos científicos de medición deben proporcionar lecturas insesgadas con un muypequeño error de medición. Un altímetro de un avión que mide la altitud correcta promedio no esmuy útil si las mediciones que proporciona contienen un error tan grande como 1000 pies arribao abajo de la altitud real.

Las partes hechas a máquina en un proceso de fabricación deben ser producidas con la mínimavariabilidad para reducir el número de partes que no dan las medidas correctas y, por tanto, laspiezas defectuosas.

Los exámenes de aptitud se deben diseñar de modo que las puntuaciones muestren una cantidadrazonable de variabilidad. Por ejemplo, una prueba de 800 puntos no es muy selectiva si todoslos estudiantes obtienen puntuaciones entre 601 y 605 puntos.

Si se toma una muestra de tamaño n de una población normal con varianza σ2, y se calcula la varianzamuestral s 2, se obtiene un valor del estadístico S2. Esta varianza muestral calculada se utilizará comouna estimación puntual de σ2. Por lo que al estadístico S2 se le denomina estimador de σ2.

Puede establecerse una estimación de intervalo de σ2 utilizando el estadístico:

χ2 =(n −1)S2

σ2

El estadístico χ2 tiene una distribución ji-cuadrada con n −1 grados de libertad cuando las muestrasse seleccionan a partir de una población normal. Para la muestra aleatoria particular de tamaño n secalcula la varianza muestral s 2 y se obtiene el siguiente intervalo de confianza para σ2.

(n −1)s 2

χ2α/2

<σ2 <(n −1)s 2

χ21−α/2

donde χ2α/2 y χ2

1−α/2 son los valores de χ2 superior e inferior, que localizan una mitad de α en cada colade la distribución ji-cuadrada. Supuesto: la muestra se elige al azar de una población normal.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 29: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 29

1.9. Estimaciones de dos poblaciones

1.9.1. Estimación de la diferencia de dos medias

Un problema que es tan importante como la estimación de una sola media poblacional µ para unapoblación cuantitativa es la comparación de dos medias poblacionales. Es posible que quiera hacercomparaciones como éstas:

Las calificaciones promedio en el examen de admisión de la escuela de medicina para estudiantescuya asignatura principal era bioquímica y para los que la asignatura principal era biología.

Los rendimientos promedio en una planta química que utiliza materia prima adquirida con dosproveedores.

Los diámetros promedio del tallo de plantas cultivadas con dos tipos diferentes de nutrientes.

Para cada uno de estos ejemplos hay dos poblaciones: la primera con media µ1 y varianza σ21 y la

segunda con µ2 y varianza σ22. Una muestra aleatoria de n 1 mediciones se extrae de la población 1, y

n 2 de la población 2, donde se supone que las muestras fueron extraídas de manera independienteuna de otra.

Por último, las estimaciones de los parámetros de la población se calculan de los datos de la muestrapor medio de los estimadores x̄1, s 2

1 , x̄2 y s 22 .

Propiedades de la distribución muestral de (—x1−—x2), la diferencia entre dos medias muestralesCuando de poblaciones con medias µ1 y µ2 y varianzas σ2

1 y σ22, respectivamente, se han seleccionado

muestras aleatorias independientes de n 1 y n 2 observaciones, la distribución muestral de la diferencia(x̄1− x̄2) tiene las propiedades siguientes:

1. La media y el error estándar de (x̄1− x̄2) son

µ(x̄1−x̄2) =µ1−µ2 e =σ(x̄1−x̄2) =

r

σ21

n 1+σ2

2

n 2

2. Si las poblaciones muestreadas están normalmente distribuidas, entonces la distribución mues-tral de (x̄1 − x̄2) se distribuye de manera exactamente normal, sin importar el tamaño de lamuestra.

3. Si las poblaciones muestreadas no se distribuyen normalmente, entonces la distribución mues-tral de (x̄1− x̄2) se distribuye de manera aproximadamente normal cuando n 1 y n 2 son grandes,de acuerdo al teorema de límite central.

Intervalo de confianza de (1−α)100 % para (µ1−µ2) para muestras grandes

(x̄1− x̄2)± z

r

σ21

n 1+σ2

2

n 2

Si no se conocen los valores de σ21 y σ2

2, se pueden aproximar mediante las varianzas muestrales s 21 y

s 22 , y el intervalo de confianza aproximado es

(x̄1− x̄2)± z

r

s 21

n 1+

s 22

n 2

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 30: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 30

Intervalo de confianza de (1−α)100 % para (µ1−µ2) para muestras pequeñas

Caso 1: Varianzas iguales pero desconocidas

(x̄1− x̄2)± tα/2

r

s 2p

1

n 1+

1

n 2

donde s 2p es la estimación agrupada de σ2 y se calcula con

s 2p =(n 1−1)s 2

1 +(n 2−1)s 22

n 1+n 2−2

El procedimiento con dos muestras en el que se usa una estimación agrupada de la varianza comúnσ2 se sustenta en cuatro supuestos importantes:

Las muestras se deben seleccionar al azar. Las muestras que no se escogen de esta mane-ra podrían introducir un sesgo en el experimento y, por consiguiente, alterar los niveles designificación que se están informando.

Las muestras deben ser independientes. Si no es así, éste no es el procedimiento estadísticoapropiado.

Las poblaciones de donde obtenga sus muestras deben ser normales. Aunque desviacionesmoderadas de la normalidad no afectan seriamente a la distribución del estadístico de prueba,sobre todo si los tamaños de muestra son casi iguales.

Las varianzas poblacionales deben ser iguales o casi iguales para tener la certeza de que losprocedimientos son válidos.

Caso 2: Varianzas distintas y desconocidas Si las varianzas poblacionales están lejos de ser iguales, hayun procedimiento alternativo —denominado aproximación de Satterthwaite— para estimar y probarque se tiene una distribución T aproximada en el muestreo repetido. Como regla práctica, esteprocedimiento es el indicado si la razón de las dos varianzas muestrales

varianza mayor

varianza menor> 3

Como las varianzas poblacionales no son iguales, el estimador agrupado sp ya no es apropiado, y paracada varianza poblacional se debe estimar su correspondiente varianza muestral.El intervalo es:

(x̄1− x̄2)± tα/2

È

s 21

n 1+

s 22

n 2

Los grados de libertad para t se aproximan mediante la fórmula:

ν =

s 21

n 1+

s 22

n 2

�2

(s 21/n 1)2

(n 1−1)+(s 2

2/n 2)2

(n 2−1)

El resultado debe redondearse al entero más cercano.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 31: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 31

1.9.2. Estimación de la diferencia entre dos proporciones

Del mismo modo que la estimación de una media poblacional condujo a la estimación de la diferenciaentre dos medias poblacionales, la estimación de una proporción poblacional binomial lleva a laestimación de la diferencia entre dos proporciones poblacionales binomiales. Tal vez desee hacercomparaciones como éstas:

La proporción de artículos defectuosos fabricados en dos líneas de producción.

La proporción de mujeres votantes y la de hombres votantes que están a favor de una enmiendade igualdad de derechos.

Las tasas de germinación de semillas tratadas y no tratadas con un fungicida.

En estos casos la pregunta por contestar tiene que ver con la diferencia (p1−p2) entre dos proporcionesbinomiales basadas en muestras aleatorias extraídas de cada una de las dos poblaciones binomiales.En este caso las poblaciones binomiales tienen los parámetros p1 y p2. Las muestras aleatoriasindependientes que consisten en n 1 y n 2 ensayos se extraen de las poblaciones 1 y 2, respectivamente,y se calculan las estimaciones muestrales p̂1 y p̂2. El estimador insesgado de la diferencia (p1−p2) esla diferencia muestral (p̂1− p̂2).

Propiedades de la distribución muestral de la diferencia (p̂1− p̂2) entre dos proporciones mues-trales Suponga que las muestras aleatorias independientes de n 1 y n 2 observaciones se seleccionaronde poblaciones binomiales con parámetros p1 y p2, respectivamente. La distribución muestral de ladiferencia entre las proporciones muestrales

(p̂1− p̂2) =�

x1

n 1−

x2

n 2

tiene estas propiedades:

1. La media y el error estándar de (p̂1− p̂2) son

µ(p̂1−p̂2) = p1−p2 y e =σ(p̂1−p̂2) =Ç

p1q1

n 1+

p2q2

n 2

2. La distribución muestral de (p̂1 − p̂2) se puede aproximar mediante una distribución normalcuando n 1 y n 2 son grandes, de acuerdo con el teorema del límite central.

Aunque el rango de una sola proporción es de 0 a 1, la diferencia entre dos proporciones varía entre−1 y 1. Para aproximar la distribución de (p̂1− p̂2) por medio de una distribución muestral, tanto p̂1

como p̂2 deben ser aproximadamente normales; es decir, n 1p1 > 5, n 1q1 > 5, n 2p2 > 5, n 2q2 > 5.

Intervalo de confianza de (1−α)100 % de (p1−p2) para una muestra grande

(p̂1− p̂2)± z

r

p̂1q̂1

n 1+

p̂2q̂2

n 2

Suposición: n 1 y n 2 deben ser suficientemente grandes para que la distribución muestral de (p̂1− p̂2)se pueda aproximar mediante una distribución norma; a saber, si n 1p1, n 1q1, n 2p2 y n 2q2 son mayoresque 5.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca

Page 32: Muest Reo

Estadística 1 Departamento de Ciencias Básicas 32

1.9.3. Estimación de la razón de dos varianzas poblacionales

Así como a veces una sola varianza poblacional es importante para un investigador, también se podríanecesitar comparar dos varianzas poblacionales. Quizá necesite comparar la precisión de un dispositivode medición con la de otro, la estabilidad de un proceso de manufactura con la de otro, o incluso lavariabilidad en el procedimiento que un profesor universitario utiliza para calificar con la de otro.

Una manera de comparar dos varianzas poblacionales, σ1 y σ2, es usar la razón de las varianzasmuestrales, s 2

1/s22 . Si s 2

1/s22 es casi igual a 1, se encontrará poca evidencia para concluir que σ2

1 y σ22 no

iguales. Por otro lado, un valor muy grande o muy pequeño para s 21/s

22 proporciona evidencia de que

las varianzas poblacionales son diferentes.

Intervalo de confianza para σ21/σ

22

s 21

s 22

1

Fν1,ν2

<σ2

1

σ22

<

s 21

s 22

Fν2,ν1

donde ν1 = (n 1−1) y ν2 = (n 2−1). Fν1,ν2 es el valor crítico tabulado de F que corresponde a los gradosde libertad ν1 y ν2 del numerador y denominador de F, respectivamente, con área α/2 a su derecha.Supuestos: las muestras se seleccionan al azar y de forma independiente de poblaciones normalmentedistribuidas.

Instituto Tecnológico de Zacatepec Ing. Nelson Mariaca