31
5. DISTRIBUCIONES DE PROBABILIDAD CONTINUAS Y MUESTRALES 5.1. Distribuciones de Probabilidad de una variable aleatoria continua Toda distribución de probabilidad es generada por una variable aleatoria x, la que puede ser de dos tipos: Variable aleatoria discreta (x). Se le denomina variable porque puede tomar diferentes valores: Aleatoria, porque el valor tomado es totalmente al azar y Discreta porque solo puede tomar valores enteros y un número finito de ellos. Ejemplos: xVariable que nos define el número de burbujas por envase de vidrio que son generadas en un proceso dado. x0, 1, 2, 3, 4, 5, etc, etc. burbujas por envase xVariable que nos define el número de productos defectuosos en un lote de 25 productos. x0, 1, 2, 3,....,25 productos defectuosos en el lote xVariable que nos define el número de alumnos aprobados en la materia de probabilidad en un grupo de 40 alumnos. x0, 1, 2, 3, 4, 5,....,40 alumnos aprobados en probabilidad Con los ejemplos anteriores nos damos cuenta claramente que los valores de la variable x siempre serán enteros, nunca fraccionarios. Variable aleatoria continua (x). Se le denomina variable porque puede tomar diferentes valores, aleatoria, porque los valores que toma son totalmente al azar y continua porque puede tomar tanto valores enteros como fraccionarios y un número infinito de ellos. Ejemplos: xVariable que nos define el diámetro de un engrane en pulgadas x5.0”, 4.99, 4.98, 5.0, 5.01, 5.0, 4.96 xVariable que nos define la longitud de un cable o circuito utilizado en un arnés de auto x20.5 cm, 20.1, 20.0, 19.8, 20,6, 20.0, 20.0 xVariable que nos define la concentración en gramos de plata de algunas muestras de mineral x14.8gramos, 12.0, 10.0, 42.3, 15.0, 18.4, 19.0, 21.0, 20.8 Como se observa en los ejemplos anteriores, una variable continua puede tomar cualquier valor, entero o fraccionario, una forma de distinguir cuando se trata de una variable continua es que esta variable nos permite medirla o evaluarla, mientras que una variable discreta no es medible, es una variable de tipo atributo, cuando se inspecciona

5 Distribuciones de Probabilidad Continuas y Muestrales

Embed Size (px)

DESCRIPTION

descipciones

Citation preview

Page 1: 5 Distribuciones de Probabilidad Continuas y Muestrales

5. DISTRIBUCIONES DE PROBABILIDAD CONTINUAS Y MUESTRALES

5.1. Distribuciones de Probabilidad de una variable aleatoria continua

Toda distribución de probabilidad es generada por una variable aleatoria x, la que

puede ser de dos tipos:

Variable aleatoria discreta (x). Se le denomina variable porque puede tomar diferentes

valores:

Aleatoria, porque el valor tomado es totalmente al azar y

Discreta porque solo puede tomar valores enteros y un número finito de ellos.

Ejemplos:

x→ Variable que nos define el número de burbujas por envase de vidrio que son

generadas en un proceso dado.

x→0, 1, 2, 3, 4, 5, etc, etc. burbujas por envase

x→Variable que nos define el número de productos defectuosos en un lote de 25

productos.

x→0, 1, 2, 3,....,25 productos defectuosos en el lote

x→Variable que nos define el número de alumnos aprobados en la materia de

probabilidad en un grupo de 40 alumnos.

x→0, 1, 2, 3, 4, 5,....,40 alumnos aprobados en probabilidad

Con los ejemplos anteriores nos damos cuenta claramente que los valores de la

variable x siempre serán enteros, nunca fraccionarios.

Variable aleatoria continua (x). Se le denomina variable porque puede tomar diferentes

valores, aleatoria, porque los valores que toma son totalmente al azar y continua porque

puede tomar tanto valores enteros como fraccionarios y un número infinito de ellos.

Ejemplos:

x→Variable que nos define el diámetro de un engrane en pulgadas

x→5.0”, 4.99, 4.98, 5.0, 5.01, 5.0, 4.96

x→Variable que nos define la longitud de un cable o circuito utilizado en un arnés de

auto

x→20.5 cm, 20.1, 20.0, 19.8, 20,6, 20.0, 20.0

x→Variable que nos define la concentración en gramos de plata de algunas muestras de

mineral

x→14.8gramos, 12.0, 10.0, 42.3, 15.0, 18.4, 19.0, 21.0, 20.8

Como se observa en los ejemplos anteriores, una variable continua puede tomar

cualquier valor, entero o fraccionario, una forma de distinguir cuando se trata de una

variable continua es que esta variable nos permite medirla o evaluarla, mientras que una

variable discreta no es medible, es una variable de tipo atributo, cuando se inspecciona

Page 2: 5 Distribuciones de Probabilidad Continuas y Muestrales

un producto este puede ser defectuoso o no, blanco o negro, cumple con las

especificaciones o no cumple, etc, etc.

Las variables descritas anteriormente nos generan una distribución de probabilidad, las

que pueden ser.

1) 1) Distribución de probabilidad discreta. 2) 2) Distribución de probabilidad continua

5.2 MEDIA VARIAZA DE UA VARIABLE ALEATORIA COTIUA

La Distribución Normal

La distribución normal fue reconocida por primera vez por el francés Abraham de Moivre (1667-1754). Posteriormente, Carl Friedrich Gauss (1777-1855) elaboró desarrollos más profundos y formuló la ecuación de la curva; de ahí que también se la conozca, más comúnmente, como la "campana de Gauss". La distribución de una variable normal está completamente determinada por dos parámetros, su media y su desviación estándar, denotadas generalmente por y . Con esta notación, la densidad de la normal viene dada por la ecuación:

Ecuación 1:

que determina la curva en forma de campana que tan bien conocemos (Figura 2). Así, se dice que una característica sigue una distribución normal de media y varianza , y se denota como

, si su función de densidad viene dada por la Ecuación 1.

Al igual que ocurría con un histograma, en el que el área de cada rectángulo es proporcional al número de datos en el rango de valores correspondiente si, tal y como se muestra en la Figura 2, en el eje horizontal se levantan perpendiculares en dos puntos a y b, el área bajo la curva delimitada por esas líneas indica la probabilidad de que la variable de interés, X, tome un valor cualquiera en ese intervalo. Puesto que la curva alcanza su mayor altura en torno a la media, mientras que sus "ramas" se extienden asintóticamente hacia los ejes, cuando una variable siga una distribución normal, será mucho más probable observar un dato cercano al valor medio que uno que se encuentre muy alejado de éste.

Propiedades de la distribución normal:

Page 3: 5 Distribuciones de Probabilidad Continuas y Muestrales

La distribución normal posee ciertas propiedades importantes que conviene destacar:

i. Tiene una única moda, que coincide con su media y su mediana.

ii. La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre y es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1.

iii. Es simétrica con respecto a su media . Según esto, para este tipo de variables existe una probabilidad de un 50% de observar un dato mayor que la media, y un 50% de observar un dato menor.

iv. La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una desviación típica (). Cuanto mayor sea , más aplanada será la curva

de la densidad. v. El área bajo la curva comprendido entre los valores

situados aproximadamente a dos desviaciones estándar de la media es igual a 0.95. En concreto, existe un 95% de posibilidades de observar un valor comprendido en el

intervalo . vi. La forma de la campana de Gauss depende de los

parámetros y (Figura 3). La media indica la posición de la campana, de modo que para diferentes valores de la gráfica es desplazada a lo largo del eje horizontal.

Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva. Cuanto mayor sea el valor de , más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución.

Como se deduce de este último apartado, no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de su media y su varianza. De entre todas ellas, la más utilizada es la distribución normal estándar, que corresponde a una distribución de media 0 y varianza 1. Así, la expresión que define su densidad se puede obtener de la Ecuación 1, resultando:

Es importante conocer que, a partir de cualquier variable X que siga

una distribución , se puede obtener otra característica Z con

Page 4: 5 Distribuciones de Probabilidad Continuas y Muestrales

una distribución normal estándar, sin más que efectuar la transformación:

Ecuación 2:

Esta propiedad resulta especialmente interesante en la práctica, ya

que para una distribución existen tablas publicadas (Tabla 1) a partir de las que se puede obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto valor z, y que permitirán resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribución aproximadamente normal.

Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de los sujetos de una determinada población sigue una distribución aproximadamente normal, con una media de 80 Kg y una desviación estándar de 10 Kg. ¿Podremos saber cuál es la probabilidad de que una persona, elegida al azar, tenga un peso superior a 100 Kg?

Denotando por X a la variable que representa el peso de los

individuos en esa población, ésta sigue una distribución . Si su distribución fuese la de una normal estándar podríamos utilizar la Tabla 1 para calcular la probabilidad que nos interesa. Como éste no es el caso, resultará entonces útil transformar esta característica según la Ecuación 2, y obtener la variable:

para poder utilizar dicha tabla. Así, la probabilidad que se desea calcular será:

Como el área total bajo la curva es igual a 1, se puede deducir que:

Esta última probabilidad puede ser fácilmente obtenida a partir de la

Tabla 1, resultando ser . Por lo tanto, la probabilidad buscada de que una persona elegida aleatoriamente de esa población tenga un peso mayor de 100 Kg , es de 1–0.9772=0.0228, es decir, aproximadamente de un 2.3%.

Page 5: 5 Distribuciones de Probabilidad Continuas y Muestrales

De modo análogo, podemos obtener la probabilidad de que el peso de un sujeto esté entre 60 y 100 Kg:

De la Figura 2, tomando a=-2 y b=2, podemos deducir que:

Por el ejemplo previo, se sabe que . Para la segunda probabilidad, sin embargo, encontramos el problema de que las

tablas estándar no proporcionan el valor de para valores negativos de la variable. Sin embargo, haciendo uso de la simetría de la distribución normal, se tiene que:

Finalmente, la probabilidad buscada de que una persona elegida al azar tenga un peso entre 60 y 100 Kg., es de 0.9772-0.0228=0.9544, es decir, aproximadamente de un 95%. Resulta interesante comprobar que se obtendría la misma conclusión recurriendo a la propiedad (iii) de la distribución normal.

No obstante, es fácil observar que este tipo de situaciones no corresponde a lo que habitualmente nos encontramos en la práctica. Generalmente no se dispone de información acerca de la distribución teórica de la población, sino que más bien el problema se plantea a la inversa: a partir de una muestra extraída al azar de la población que se desea estudiar, se realizan una serie de mediciones y se desea extrapolar los resultados obtenidos a la población de origen. En un ejemplo similar al anterior, supongamos que se dispone del peso de n=100 individuos de esa misma población, obteniéndose una media

muestral de Kg, y una desviación estándar muestral Kg, querríamos extraer alguna conclusión acerca del valor medio real de ese peso en la población original. La solución a este tipo de cuestiones se basa en un resultado elemental de la teoría estadística, el llamado teorema central del límite. Dicho axioma viene a decirnos que las medias de muestras aleatorias de cualquier variable siguen ellas mismas una distribución normal con igual media que la de la

población y desviación estándar la de la población dividida por . En nuestro caso, podremos entonces considerar la media muestral

, con lo cual, a partir de la propiedad (iii) se conoce que aproximadamente un 95% de los posibles valores de caerían

Page 6: 5 Distribuciones de Probabilidad Continuas y Muestrales

dentro del intervalo . Puesto que los valores de y son desconocidos, podríamos pensar en aproximarlos por sus

análogos muestrales, resultando . Estaremos, por lo tanto, un 95% seguros de que el peso medio real en la población de origen oscila entre 75.6 Kg y 80.3 Kg. Aunque la teoría estadística subyacente es mucho más compleja, en líneas generales éste es el modo de construir un intervalo de confianza para la media de una población.

5.3. DISTRIBUCIÓ DE PROBABILIDAD T-STUDET

El resultado ofrecido en el teorema anterior nos proporciona la base del

desarrollo de procedimientos para hacer inferencias con respecto a la media µ de una población normal con una varianza σ2 . En este caso el teorema 7.1 nos dice que

σµ /

Yn tiene una distribución normal estándar. Cuando se desconoce σ se le

puede estimar mediante 2SS = y la expresión

−−

S

Yn

µ

nos dará como base para el desarrollo de métodos de inferencias con respecto a µ .

Demostraremos que la distribución de probabilidad de ( ) SYn /µ− esta dada

por una función de densidad de probabilidad conocida como distribución t de Student con n 1 grados de libertad . La definición general de una variable aleatoria que posee una distribución t de Student ( 0 simplemente distribución t), es la siguiente:

DEFINICION: Sea Z una variable aleatoria normal estándar y sea 2χ una variable

aleatoria ji - cuadrada con ν grados de libertad.

Entonces si Z y 2χ son independientes,

Page 7: 5 Distribuciones de Probabilidad Continuas y Muestrales

υχ /2

ZT =

se dice que tiene una distribución t con ν grados de libertad.

Si Y1, Y2, ..., Yn es una muestra aleatoria de una población normal con media µ y

varianza σ2, se puede aplicar el teorema 7.1 para demostrar que σµ /

−×=

YnZ

tiene una distribución normal estándar. El teorema 7.3 nos dice que

( ) 222 /1 σχ Sn −= tiene una distribución 2χ con 1−= nv grados de libertad y que Z y

2χ son independientes (ya que −

2χYy los son). Por lo tanto, por la definición 7.2

( ) ( )

−=

−−

==

−−

S

Yn

nSn

Yn

v

ZT

µ

σ

σµ

χ 1/1

/

/ 222

tiene una distribución t con (n-1) grados de libertad.

La ecuación para la función de densidad t no se presentara aquí, pero se dan algunas indicaciones para su obtención en los ejercicios del final del capitulo. Como la función de densidad normal estándar, la función de densidad t es simétrica con respecto a cero, además, para v> 1, E( T ) =0 y para v> 2, V ( T ) = v / (v - 2 ). Así vemos que una variable aleatoria con una distribución t tiene el mismo valor

esperado que una variable normal estándar. Sin embargo, una variable aleatoria normal estándar siempre tiene una varianza de 1, mientras que la varianza de una variable aleatoria con una distribución t siempre es mayor que 1.

En al figura 7.2 se muestran las gráficas de una función de densidad normal estándar y de una función de densidad t. Nótese que ambas funciones de densidad son simétricas con respecto al origen, pero que la densidad t tiene mas masa probabilística en las colas.

Normal

Page 8: 5 Distribuciones de Probabilidad Continuas y Muestrales

7.2 estándar

Una comparación entre las funciones

de densidad normal estándar y t t

0

valores de tales que P ( T > t α ) = α para α =0.100,0.050,0.025,0.010 y 0.005

se dan en la tabla 5 del apéndice III . Por ejemplo si una variable aleatoria tiene una distribución t con 21 grados de libertad (g.1.), t 0.100 se encuentra al buscar en el

renglón encabezado por 21g.1. y en la columna con t 0.100 . aplicando la tabla 5, vemos que t 0.100 = 1.323. Por lo tanto, para 21g.1. la probabilidad de que una variable

aleatoria con distribución t sea mayor que 1.323 es 0.100.

5.4. DISTRIBUCIÓ DE PROBABILIDAD TIPO GAMMA

Los tiempos que tardan en revisar un motor de un automóvil ó avión tienen una distribución de frecuencias sesgadas. Las poblaciones asociadas a estas variables aleatorias frecuentemente tienen distribuciones que se pueden modelar adecuadamente por la función de densidad tipo gamma.

Función de densidad de probabilidad para una variable aleatoria tipo gamma:

αβα ≤≤> y0;0,

0

)()(

/1

ατβ α

βα yeyyf

−−

=

En donde:

∫−−=

α αατ0

1)( dyeyy

La cantidad de la de la función alfa se conoce como la función gamma. La integración directa nos da que la función uno igual a uno. La integración por partes nos da que la función de alfa menos uno alfa menos uno por la función alfa menos uno

Page 9: 5 Distribuciones de Probabilidad Continuas y Muestrales

para cualquier intervalo de alfa mayor o igual a uno y que la función de n sea igual a n menos uno factorial, para un número entero n.

En el caso especial cuando alfa es un número entero, se puede expresar la función de distribución de una variable aleatoria tipo gamma como una suma de ciertas variables aleatorias de Poisson.

Si alfa no es un número entero, es imposible encontrar la antiderivada del integrando de la expresión:

α<<< dc0

donde

dyeyd

c

y

∫−−

)(

/1

ατβ α

βα

Y por lo tanto es importante obtener las áreas bajo la función de densidad tipo gamma mediante integración directa.

Hay dos casos especiales de las variables aleatorias tipo gamma que merece consideración particular:

Una variable aleatoria tipo gamma que tiene una función de densidad con parámetros alfa igual a v entre dos y beta igual a dos se denomina variable aleatoria ji - cuadrada.

Ji - cuadrada se presenta con frecuencia en la teoría de la estadística. El parámetro v se denomina número de grados de libertad asociado a la variable aleatoria ji - cuadrada.

La función de densidad gamma para el caso especial v = 1 se denomina función de densidad exponencial.

Page 10: 5 Distribuciones de Probabilidad Continuas y Muestrales

∞<≤> y0;0β

0

1)(

/ β

β

y

eyf−

=

En cualquier punto.

La función de densidad exponencial muchas veces es útil en los modelos de duración de componentes eléctricos.

Un fusible es un ejemplo de un componente para el cual este supuesto suele cumplirse.

5.5. DISTRIBUCIÓ DE PROBABILIDAD TIPO BETA

La distribución de probabilidad beta es una función de densidad con dos parámetros definida en el intervalo cerrado 0 <= y <= 1. Se utiliza frecuentemente como modelo para fracciones, tal como la proporción de impurezas en un producto químico o la fracción de tiempo que una maquina está en reparación.

Función de densidad probabilidad:

10;0, ≤≤> yβα

),(

)1({)(

11

βα

βα

B

yyyf

−− −=

En cualquier otro punto donde

∫ +=−= −−

)(

)()()1(),( 11

βατβτατ

βα βα dyyyB

Page 11: 5 Distribuciones de Probabilidad Continuas y Muestrales

Nótese que la definición de (y) sobre el intervalo 0<= y <= 1 restringe su aplicación. Si c<= y <= d, y = (y- c) / (d- c) definirá una nueva variable en el intervalo 0<= y <= 1. Así la función de densidad beta se puede aplicar a una variable aleatoria definida en el intervalo c<= y <= d mediante una traslación y una medición en la escala.

La función de distribución acumulativa para la variable aleatoria beta se llama comúnmente función beta y esta dada por

),(),(

)1()(

0

11

βαβα

βα

y

y

IdtB

ttyF =

−= ∫

−−

Para valores enteros de alfa y beta, Iy (alfa, beta) está relacionada con la función de probabilidad binomial. Cuando y = p, se puede demostrar que

∫ ∑=

−−−

−=−

=n

y

yny ppdyB

yypF

α

βα

βα)1(

),(

)1()(

11

En donde 0< p < 1 y n igual a alfa más beta menos uno.

5.6. DISTRIBUCIÓN DE PROBABILIDAD TIPO C2 Y F

Supóngase que deseamos comparar las varianzas de dos poblaciones normales basados en la información contenida en muestras aleatorias independiente de las dos poblaciones. Supóngase que una muestra aleatoria contiene n1 variables

aleatorias distribuidas normalmente con una varianza común 2

1σ y que la otra muestra

aleatoria contiene 2n variables aleatorias distribuidas normalmente con una varianza

común 2

1σ y que la otra muestra aleatoria contiene 2n variables aleatorias distribuidas

normalmente con una varianza común 2

1σ . Si calculamos 2

1S de las observaciones

en la muestra 1, entonces 2

1S es una estimación de 2

1σ . De manera similar, 2

2S

calculada a partir de las observaciones de la segunda muestra es una estimación para 2

2σ . Así intuitivamente podríamos pensar en utilizar 2

1S / 2

2S para hacer inferencias

con respecto a las magnitudes relativas de 2

1σ y 2

2σ . Si dividimos cada 2

iS por 2

iσ ,

entonces la razón siguiente

Page 12: 5 Distribuciones de Probabilidad Continuas y Muestrales

=

2

2

2

1

2

1

2

2

2

2

2

2

2

1

2

1

/

/

S

S

S

S

σσ

σσ

tiene una distribución F con ( )( )11 21 −− nn grados de libertad. La definición general de

una distribución F es como sigue:

DEFINICION Sean 2

1χ y 2

2χ variables aleatorias ji - cuadrada con 1v y 2v grados

de libertad. Respectivamente. Entonces si 2

1χ y 2

2χ son independientes,

2

2

2

1

2

1

/

/

v

vF

χχ

=

se dice que tiene una distribución F con 1v grados de libertad del numerador y 2v

grados de libertad del denominador.

La función de densidad para variables aleatorias con la distribución F es un miembro de la familia de las distribuciones beta . Omitimos la formula para la densidad de una variable aleatoria con la distribución F , pero el método para obtenerla se indica en los ejercicios al final del capitulo.

DISTRIBUCION DE PROBABILIDAD CUADRADAI −χ

Considerando nuevamente las muestras aleatorias independientes de distribuciones normales, sabemos que

Page 13: 5 Distribuciones de Probabilidad Continuas y Muestrales

( ) ( ) 2

2

2

22

2

2

2

1

2

11

2

1 /1/1 σχσχ SnySn −=−=

tienen distribuciones 2χ independientes con

( ) ( )11 2211 −=−= nyvnv

grados de libertad, respectivamente.

Así la definición 7.3 implica que

( ) ( )( ) ( ) 2

2

2

2

2

1

2

1

2

2

2

2

22

1

2

1

2

11

2

2

2

1

2

1

/

/

1/1

1/1

/

/

σσ

σσ

χχ

S

S

nSn

nSn

v

vF =

−−

−−==

tiene una distribución F con ( )11 −n grados de libertad del numerador y ( )12 −n

grados de libertad del denominador.

En al figura 7.3 se muestra la gráfica de una típica función de densidad F . Los

valoras de αF tales que ( ) αα => FFP se dan en la tabla 7 del apéndice III, para los

valores de ,100.0=α 0.050, 0.025, 0.010 y 0.005. En la tabla 7 del apéndice III, los

encabezados de las columnas corresponden a los grados de libertad del numerador, en tanto que los grados de libertad del denominador se encuentran como los encabezados principales de los renglones.

Frente a los grados de libertad del denominador (los encabezados de los renglones), se encuentran los valores de =α 0.100, 0.050, 0.025, 0.010 y 0.005. Por

ejemplo, si la variable F estudiada tiene 5 grados de libertad del numerador y 7 grados de libertad del denominador, F 0.100= 2.88, F 0.050= 3.97, F 0.025 = 5.29, F 0.010 = 7.46 y F 0.005 =9.52. luego la probabilidad de que una variable aleatoria con una distribución F con 5 grados de libertad del numerador y 7 grados de libertad del

Page 14: 5 Distribuciones de Probabilidad Continuas y Muestrales

denominador exceda de 7.46 es 0.01 . Lo correspondiente se afirma para los demás casos.

FIGURA 7.3 ( )uf

Una típica función de densidad

De probabilidad F α

u

αF

5.7. DISTRIBUCIÓN DE PROBABILIDAD WIEBULL

Devuelve la probabilidad de una variable aleatoria siguiendo una distribución de Weibull. Esta distribución se aplica en los análisis de fiabilidad, para establecer, por ejemplo, el periodo de vida de un componente hasta que presenta una falla.

La ecuación para la función de distribución acumulada de Weibull es:

( ) ( )αββα xexF −−= 1,,

La función de densidad de probabilidad es:

( ) ( )αβααβ

αβα xexxf −−= 1,, .

Page 15: 5 Distribuciones de Probabilidad Continuas y Muestrales

Cuando α = 1 la distribución de Weibull devuelve la distribución exponencial con:

β

λ1

= .

5.8. TEOREMA DE COMBINACIÓN LINEAL DE VARIABLES ALEATORIAS Y TEOREMA DEL LIMITE CENTRAL.

En ingeniería y ciencias se realizan muchos experimentos cuyo fin es

desarrollar un modelo matemático que explique la relación entre dos o más

variables. El objetivo es ser capaz de

predecir el valor de una de las variables, y, dados valores específicos de las

otras variables. Las estimaciones de los parámetros del modelo son funciones lineales de los valores y

de la muestra observada.

Teorema de combinaciones lineales de variables aleatorias independientes

Sean y1, y2, ..., yn un conjunto de variables aleatorias normalmente distribuidas con

medias y varianza para ( i = 1, 2, .

. , n). Si

en donde , son constantes. Entonces, la distribución de muestreo de

una combinación lineal de las variables aleatorias normales tiene una función de

densidad normal con media y varianza:

= E ( =

iiyE µ=)( 0),()( 2 == jiii yyCovyyV σ

nn yayayal +++= .....2211

1a naa ,......,2

µ )l nnaaa µµµ +++ ......2211

Page 16: 5 Distribuciones de Probabilidad Continuas y Muestrales

Para que esto sea válido las Yi son independientes

Suponga que selecciona muestras aleatorias independientes de dos poblaciones

normales, n1 observaciones de la población 1 y n2 observaciones de la población 2. Si

las medias y varianzas de las poblaciones 1 y 2 son ,

respectivamente, y si son las medias de muestra correspondientes, obtenga la

distribución de la diferencia

Solución:

1. 1. Paso

Puesto que son funciones lineales de variables aleatorias distribuidas

normalmente, por el teorema de combinaciones lineales tendrán una distribución

normal. Las medias y varianzas de las medias de muestra son:

(i = 1, 2 )

2. 2. Paso

La función lineal es

3. 3. Paso

( ) tendrá una distribución normal con

222

2

2

2

2

1

2

1

2 ......)( nnl aaalV σσσσ +++==

),(),( 222

211 σµσµ y

21 yyy

)( 21 yy −

21 yyy

i

iiii

nYVyYE

2

)()(σ

µ ==

21 yyl −=

l

),()1)(1(2)()1()()1()(

)()()(

2122

122

2121

yyCovyVyVlV

yEyElE

l

l

−+−+==

−=−==

σ

µµµ

Page 17: 5 Distribuciones de Probabilidad Continuas y Muestrales

4. 4. Paso

Como las muestras se seleccionaron de forma independiente, son

independientes y . Por tanto,

5. 5. Paso

Conclusión:

∼ N

El Teorema Central del Límite dice que si tenemos un grupo numeroso de variables independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se distribuye según una distribución normal. Ejemplo : la variable "tirar una moneda al aire" sigue la distribución de Bernouilli. Si lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se distribuye según una distribución normal. Este teorema se aplica tanto a suma de variables discretas como de variables continuas.

Los parámetros de la distribución normal son:

Media : n * µµµµ (media de la variable individual multiplicada por el número de variables independientes)

Varianza : n * σσσσ2222 (varianza de la variable individual multiplicada por el número de variables individuales)

Veamos ahora un ejemplo:

Se lanza una moneda al aire 100 veces, si sale cara le damos el valor 1 y si sale cruz el valor 0. Cada lanzamiento es una variable independiente que se distribuye según el modelo de Bernouilli, con media 0,5 y varianza 0,25. Calcular la probabilidad de que en estos 100 lanzamientos salgan más de 60 caras.

21 yyy

0),( 21 =yyCov

2

22

1

21)(

nnlV

σσ+=

21 yy −),(

2

22

1

21

21nn

σσµµ +−

Page 18: 5 Distribuciones de Probabilidad Continuas y Muestrales

La variable suma de estas 100 variables independientes se distribuye, por tanto, según una distribución normal.

Media = 100 * 0,5 = 50

Varianza = 100 * 0,25 = 25

Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal tipificada equivalente:

(*) 5 es la raiz cuadrada de 25, o sea la desviación típica de esta distribución

Por lo tanto:

P (X > 60) = P (Y > 2,0) = 1- P (Y < 2,0) = 1 - 0,9772 = 0,0228

Es decir, la probabilidad de que al tirar 100 veces la moneda salgan más de 60 caras es tan sólo del 2,28%.

5.9 Muestreo : Introducción al muestreo y tipos de muestreo

Introducción

En este documento ofrecemos un resumen sobre el concepto de muestreo, y los tipos de muestreo existentes. Además, se dispone de una hoja para el cálculo de tamaños muestrales en auditorías de Historias Clínicas en Excel. No pretendemos, ni mucho menos, ser exhaustivos. Simplemente ofrecemos una pequeña herramienta que pueda servir de apoyo en la evaluación de los distintos indicadores de calidad.

Concepto de muestreo El muestreo es una herramienta de la investigación científica. Su función básica es determinar que parte de una realidad en estudio (población o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha población. El error que se comete debido al hecho de que se obtienen conclusiones sobre cierta realidad a partir de la observación de sólo una parte de ella, se denomina error de muestreo. Obtener una muestra adecuada significa lograr una versión simplificada de la población, que reproduzca de algún modo sus rasgos básicos.

Terminología

Población objeto: conjunto de individuos de los que se quiere obtener una información.

Unidades de muestreo: número de elementos de la población, no solapados, que se van a estudiar. Todo miembro de la población pertenecerá a una y sólo una unidad de muestreo.

Unidades de análisis: objeto o individuo del que hay que obtener la información.

Marco muestral: lista de unidades o elementos de muestreo.

Page 19: 5 Distribuciones de Probabilidad Continuas y Muestrales

Muestra: conjunto de unidades o elementos de análisis sacados del marco.

Muestreo probabilístico

El método otorga una probabilidad conocida de integrar la muestra a cada elemento de la población, y dicha probabilidad no es nula para ningún elemento.

Los métodos de muestreo no probabilisticos no garantizan la representatividad de la muestra y por lo tanto no permiten realizar estimaciones inferenciales sobre la población.

(En algunas circunstancias los métodos estadísticos y epidemiológicos permiten resolver los problemas de representatividad aun en situaciones de muestreo no probabilistico, por ejemplo los estudios de caso-control, donde los casos no son seleccionados aleatoriamente de la población.)

Entre los métodos de muestreo probabilísticos más utilizados en investigación encontramos:

Muestreo aleatorio simple

Muestreo estratificado

Muestreo sistemático

Muestreo polietápico o por conglomerados

CARACTERISTICAS VENTAJAS INCONVENIENTES

Aleatorio simple

Se selecciona una muestra de tamaño n de una población de N unidades, cada elemento tiene una probabilidad de inclusión igual y conocida de n/N.

Sencillo y de fácil comprensión.

Cálculo rápido de medias y varianzas.

Se basa en la teoría estadística, y por tanto existen paquetes informáticos para analizar los datos

Requiere que se posea de antemano un listado completo de toda la población.

Cuando se trabaja con muestras pequeñas es posible que no represente a la población adecuadamente.

Sistemático Conseguir un listado de los N elementos de la población

Determinar tamaño muestral n.

Definir un intervalo k=N/n.

Elegir un número aleatorio, r, entre 1 y k (r=arranque aleatorio).

Seleccionar los elementos de la lista.

Fácil de aplicar.

No siempre es necesario tener un listado de toda la población.

Cuando la población está ordenada siguiendo una tendencia conocida, asegura una cobertura de unidades de todos los tipos.

Si la constante de muestreo está asociada con el fenómeno de interés, las estimaciones obtenidas a partir de la muestra pueden contener sesgo de selección

Page 20: 5 Distribuciones de Probabilidad Continuas y Muestrales

Ventajas e inconvenientes de los distintos tipos de muestreo probabilístico

Cálculo del tamaño muestral

Cada estudio tiene un tamaño muestral idóneo, que permite comprobar lo que se pretende con la seguridad y precisión fijadas por el investigador.

¿De que depende el tamaño muestral ?

Variabilidad del parámetro a estimar: Datos previos, estudios piloto o usar 50% como peor estimación

Precisión: Amplitud del intervalo de confianza. Si se estima prevalencia su formato será %

Nivel de confianza (1-α): habitualmente 95% o 99%. Probabilidad complementaria al error

admitido αααα

Si aumentamos el tamaño muestral n , podremos mejorar la calidad de la estimación bien aumentando la precisión (disminuye amplitud del intervalo) o bien aumentando la seguridad (disminuye el error admitido)

Cálculo del tamaño muestral en una auditoría de Historias Clínicas

Se trata de una situación especial, en la que se va a determinar la presencia o ausencia de un determinado documento, por ejemplo (variable dicotómica). En este caso, hay que determinar la proporción esperada de la variable de interés, la precisión deseada, y el nivel de confianza. Podemos aplicar las siguientes fórmulas para el cálculo del tamaño muestral (si el muestreo es aleatorio).

Si conocemos el tamaño de la población usaremos el método para poblaciones finitas. Si por el contrario el tamaño de la población es desconocido o infinito usaremos la otra alternativa. Hay que tener en cuenta que una población infinita puede corresponder a una finita (conocida) en la que se ha definido un muestreo con reemplazamiento (el mismo individuo puede salir muestreado varias veces)

Estratificado En ciertas ocasiones resultará conveniente estratificar la muestra según ciertas variables de interés. Para ello debemos conocer la composición estratificada de la población objetivo a muestrear. Una vez calculado el tamaño muestral apropiado, este se reparte de manera proporcional entre los distintos estratos definidos en la población usando una simple regla de tres.

Tiende a asegurar que la muestra represente adecuadamente a la población en función de unas variables seleccionadas.

Se obtienen estimaciones más precisa

Su objetivo es conseguir una muestra lo mas semejante posible a la población en lo que a la o las variables estratificadoras se refiere.

Se ha de conocer la distribución en la población de las variables utilizadas para la estratificación.

Conglomerados Se realizan varias fases de muestreo sucesivas (polietápico)

La necesidad de listados de las unidades de una etapa se limita a aquellas unidades de muestreo seleccionadas en la etapa anterior.

Es muy eficiente cuando la población es muy grande y dispersa.

No es preciso tener un listado de toda la población, sólo de las unidades primarias de muestreo.

El error estándar es mayor que en el muestreo aleatorio simple o estratificado.

El cálculo del error estándar es complejo.

Page 21: 5 Distribuciones de Probabilidad Continuas y Muestrales

Tamaño de la población infinito o desconocido

Tamaño de la población finito

n Tamaño muestral

N Tamaño de la población, número total de historias.

Z Valor correspondiente a la distribución de Gauss 1,96 para α =0,05 y 2,58 para α =0,01.

p Prevalencia esperada del parámetro a evaluar. En caso de desconocerse,

aplicar la opción más desfavorable (p=0,5), que hace mayor el tamaño muestral.

q 1-p (Si p=30%, q=70%)

i Error que se prevé cometer. Por ejemplo, para un error del 10%, introduciremos en la fórmula el valor 0,1. Así, con un error del 10%, si el parámetro estimado resulta del 80%, tendríamos

una seguridad del 95% (para α =0,05) de que el parámetro real se sitúa entre el 70% y el 90%. Vemos, por tanto, que la amplitud total del intervalo es el doble del error que introducimos en la fórmula.

5.10 Teorema de limite central

El Teorema Central del Límite dice que si tenemos un grupo numeroso de variables independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que éste sea), la suma de ellas se distribuye según una distribución normal. Ejemplo : la variable "tirar una moneda al aire" sigue la distribución de Bernouilli. Si lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una independiente entre si) se distribuye según una distribución normal. Este teorema se aplica tanto a suma de variables discretas como de variables continuas.

Los parámetros de la distribución normal son:

Media : n * µµµµ (media de la variable individual multiplicada por el número de variables independientes)

Page 22: 5 Distribuciones de Probabilidad Continuas y Muestrales

Varianza : n * σσσσ2222 (varianza de la variable individual multiplicada por el número de variables individuales

5.11. Distribución central de la media

TEOREMA CENTRAL DEL LIMITE (DISTRIBUCIÓN DE LA MEDIA )

Importancia: El teorema central del límite (TCL) nos permite usar la distribución normal como la distribución de las medias de muestras grandes, sin interesar cual sea la distribución original de las variables aleatorias.

Teorema. Sea X1, X2,...,Xn una muestra aleatoria de tamaño n de variables independientes e idénticamente distribuidas tomadas de una población infinita, con

media µ y varianza σ², entonces la distribución límite de

es la distribución normal estándar (0,1), cuando n →∞, (independiente de la distribución de X1, X2,...,Xn).

Otra forma de presentar el TCL es la siguiente:

Si X1, X2,...,Xn es una muestra aleatoria de tamaño n de variables independientes e idénticamente distribuidas tomadas de una población infinita, con media µ y varianza σ², y si es la media muestral, entonces su distribución muestral tiende

a una distribución normal con media µ y varianza σ²/n cuando n→∞.

Ejemplo gráfico

Con el fin de ilustrar gráficamente el TCL presentaremos la distribución de la media muestral obtenida al lanzar dos dados, en comparación con la distribución individual de cada dado. Si X representa el resultado obtenido al lanzar un dado, entonces su función de probabilidad está dada por:

Page 23: 5 Distribuciones de Probabilidad Continuas y Muestrales

con la anterior representación gráfica.

Consideremos ahora el lanzamiento de dos dados. Sean X1 y X2 los respectivos resultados. Sea la media respectiva. La tabla siguiente presenta su respectiva distribución de probabilidad (la cual había sido analizada previamente al estudiar el concepto de variable aleatoria, y considerar la suma de los dos dados).

Su representación gráfica se presenta en la figura siguiente.

Page 24: 5 Distribuciones de Probabilidad Continuas y Muestrales

Como se puede observar, el cambio en la forma de la distribución es bastante notable, al pasar de una distribución completamente plana (uniforme discreta) a una distribución que, aunque no es normal, si tiende a

parecerse más a una distribución normal que a su distribución original. Si continuamos promediando más variables, la distribución resultante se aproximará aún más a una distribución. La siguiente gráfica presenta los resultados al promediar cuatro lanzamientos de la moneda.

Observación importante:

Debe tenerse en cuenta que si n→∞ entonces la varianza de (= σ²/n) tiende a cero, lo cual implica a su vez que →µ. Lo que el TCL dice es que cuando el tamaño muestral es grande, la media de una muestra aleatoria tiende a seguir la distribución normal. Cuándo n es lo suficientemente grande?. En general depende de la distribución original de la variable aleatoria X; sin embargo, para variables continuas y n ≥ 30, la aproximación normal se aplica, no importa cual sea la distribución original. Para n< 30 la aproximación es válida según la forma de la distribución original.

Si la distribución original es continua y uniforme (por ejemplo el caso de los números aleatorios que van de cero a uno), para que el promedio tienda hacia una distribución normal, se requieren muestras de por lo menos 10 observaciones (esto se determinado mediante pruebas de bondad de ajuste).

Page 25: 5 Distribuciones de Probabilidad Continuas y Muestrales

5.12. Distribución muestral de diferencia de medias

Cada muestra de tamaño n que podemos extraer de una población proporciona una

media. Si consideramos cada una de estas medias como valores de una variable aleatoria

podemos estudiar su distribución que llamaremos distribución muestral de medias.

• Si tenemos una población normal (m,s) y extraemos de ella muestras de tamaño n, la distribución muestral de medias sigue también una distribución normal

• Si la población no sigue una distribución normal pero n>30, aplicando el

llamado Teorema central del límite la distribución muestral de medias se aproxima también a la normal anterior.

En muchos campos de la investigación científica a menudo deseamos comparar las

medias de dos variables aleatorias, tales como el efecto de dos condiciones, tratamientos

o métodos de producción.

Supóngase que ahora se tiene 2 poblaciones, la primera con media µ1 y varianza ,

segunda con media µ2 y varianza el estadístico representa la media de una muestra

aleatoria de tamaño seleccionada de la primera población, y que el estadístico

representa la media de una muestra aleatoria seleccionada de una segunda población,

independiente de la muestra de la primera población. ¿ Qué puede decirse acerca de la

distribución muestral de la diferencia - para muestras repetidas de tamaños

? De acuerdo al teorema del limite central, las variables son

aproximadamente distribuidos en forma normal con medias µ1 y µ2 y variancias

respectivamente. Esta aproximación mejora conforme se

incrementan.

Con lo anterior podemos concluir:

Si se sacan al azar muestras independientes de tamaño de dos poblaciones

continuas, con medias µ1 y µ2 y varianzas y , respectivamente, entonces la

distribución muestral de la diferencia de medias está distribuida

aproximadamente en forma normal con media y varianzas:

2

1x

1n 2x

1x 2x

21 nyn 21 xyx

2

2

2

1

2

1

ny

n

σσ

21 nyn

21 nyn

2

1σ 2

21 xx −

Page 26: 5 Distribuciones de Probabilidad Continuas y Muestrales

y

De aquí que,

es aproximadamente una variable normal estándar.

5.13. Distribución muestral de la proporción

En numerosas ocasiones se plantea estimar una proporción o porcentaje. En estos casos la variable aleatoria toma solamente dos valores diferentes (éxito o fracaso), es decir sigue una distribución binomial y cuando la extensión de la población es

grande la distribución binomial B(n,p) se aproxima a la normal .

• Para muestras de tamaño n>30, la distribución muestral de proporciones sigue una distribución normal

donde p es la proporción de uno de los valores que presenta la variable estadística en la población y q=1-p.

5.14.- Distribución normal de la diferencia de las proporciones

DISTRIBUCIÓN DE LA DIFERENCIA ENTRE PROPORCIONES.

Sea una muestra aleatoria (n1) tomada de un proceso de Bernoulli

con parámetro θ1. Sea una muestra aleatoria (n2) tomada de un proceso de Bernoulli con parámetro θ2. Estamos interesado en conocer la distribución de la diferencia de proporciones muestrales P1 - P2.

2121µµµ −=− xx 2

2

2

1

2

12

21 nnxx

σσσ +=−

2

2

2

1

2

1

2121 )()(

nn

XXZ

σσ

µµ

+

−−−=

Page 27: 5 Distribuciones de Probabilidad Continuas y Muestrales

Sabemos que

θ1 y una varianza cuando n

se distribuye normalmente con una valor esperado

varianza cuando n2

Tenemos que:

Como tanto P1 como P2 se distribuyen normalmetambién se distribuyen normalmente con los parámetros arriba mencionados. Es decir,

Ó también la variable aleatoria Z definida como

tiene una distribución normal cuando n

Si se desea verificar si las dos distribuciones son iguales, se tendría entonces que analizar si θ1 = θ2 , es decir,

5.15. Distribución muestral de la varianza

S2 P(S2=s2)

0 .42

.5 .48

2 .1

se distribuye normalmente con una valor esperado

cuando n1 es grande. De forma similar

se distribuye normalmente con una valor esperado θ

es grande.

se distribuyen normalmente, entonces su diferencia también se distribuyen normalmente con los parámetros arriba mencionados. Es

Ó también la variable aleatoria Z definida como

tiene una distribución normal cuando n1 y n2 son grandes.

dos distribuciones son iguales, se tendría entonces que , es decir, θ1 - θ2 = 0.

5.15. Distribución muestral de la varianza

)Var(S y varianza )(S mediacon

Varianza la de muestralón Distribuci

22Ε

se distribuye normalmente con una valor esperado

2 y una

nte, entonces su diferencia también se distribuyen normalmente con los parámetros arriba mencionados. Es

dos distribuciones son iguales, se tendría entonces que

Page 28: 5 Distribuciones de Probabilidad Continuas y Muestrales

Obtener la MEDIA de la Distribución Muestral de la Varianza

“La media de la distribución muestral de la varianza es igual a la varianza poblacional”

“La media de la distribución muestral de la varianza es igual a la varianza poblacional”

5.16. DISTRIBUCIÓN DE LA MUESTRAL DE LA RELACIÓN DE VARIANZAS

INTERVALOS DE CONFIANZA PARA LA RELACIÓN DE VARIANZAS DE DOS DISTRIBUCIONES NORMALES

Se tienen dos poblaciones normales e independientes con varianzas desconocidas σ²1 y σ²2, respectivamente. De este par de poblaciones se tienen disponibles dos muestras .aleatorias de tamaños n1 y n2, respectivamente; sean S1² y S2² las varianzas muestrales respectivas. Para hallar el intervalo de confianza del 100(1-α)% para el cociente de dos varianzas sabemos que la siguiente relación tiene una distribución muestral F con n1-1 y n2-1 grados de libertad:

10.05.0*1.01.0*5.0

)1,3( )3,1()2P(S

0.480.4*0.10.1*0.40.5*0.40.4*0.5

)2,3( )3,2( )1,2( )2,1()5.0(

42.01.0*1.04.0*4.05.0*5.0

)3,3( )2,2( )1,1()0(

)(

2

2

2

22

=+=

+==

=+++=

+++==

=++=

++==

⇒=

PP

PPPPSP

PPPSP

sSP

44.0)(

44.0)(

44.010.0*248.0*5.042.0*0

)(

2

2

2

2

2

==

==

=++

==Ε

s

x

s

SE

xVar

S

µ

σ

µ

2

2 2 2 2 2

2 44

( ) (0 0.44) *0.42 (0.5 0.44) *0.48 (2 0.44) *0.10 0.32

3( )

( 1)

SVar S

nVar S

n n n

σ

µσ

= = − + − + − =

−= +

Page 29: 5 Distribuciones de Probabilidad Continuas y Muestrales

Entonces, para construir el intervalo de confianza para la relación de dos varianzas, nos basamos en la siguiente probabilidad:

Si invertimos el término central de la desigualdad anterior, obtenemos lo siguiente:

Usando el hecho de que obtenemos el siguiente intervalo de confianza para la relación de dos varianzas.

Teorema. Si son las varianzas de muestras aleatorias independientes tomadas de poblaciones normales, entonces un intervalo de confianza 100(1-α)%

para el cociente de dos varianzas está dado por:

Page 30: 5 Distribuciones de Probabilidad Continuas y Muestrales

Bibliografía

• PROBABILIDAD Y ESTADÍSTICA SPIEGEL, MURRAY • http://bochica.udea.edu.co/~bcalderon/4_relvarianzasnormale

s.html

• Cannavos G. Probabilidad y Estadística Aplicación y métodos. Ed. en

español Mc

• GRAW- HILL/INTERAMERICANA DE MEXICO.1995.

• http://www.eumed.net/libros/2006a/rmss/a8.htm

• Devore, J.L. (2000). Probabilidad y Estadística para Ingeniería y Ciencias, Quinta

Edición, Thomson Learning.

• Mendenhall, W. (1998). Estadística para Administradores, Segunda Edición,

Grupo Editorial Iberoamérica.

• Montgomery, D.C. y Runger G.C. (1996). Probabilidad y Estadística Aplicadas a

la Ingeniería, Primera Edición, Mc Graw Hill.

• Sheaffer, R. L. y McClave, J.T. (1990). Probabilidad y Estadística para Ingeniería,

Primera Edición, Grupo Editorial Iberoamérica.

• Spiegel, M.R. (1970). Estadística, Primera Edición, Serie Schaum, Mc Graw Hill.

• Walpole, R. E., Myers, R.H., y Myers, S.L. (1998). Probabilidad y Estadística para

Ingenieros, Sexta Edición, Prentice Hall.

• Weimer, R.C. (1996). Estadística, Segunda Edición, CECSA.

Page 31: 5 Distribuciones de Probabilidad Continuas y Muestrales

ACTIVIDADES complementarios adicionales

1.- La renta media de los habitantes de un país se distribuye uniformemente entre 4,0 millones ptas. y 10,0 millones ptas. Calcular la probabilidad de que al seleccionar al azar a 100 personas la suma de sus rentas supere los 725 millones ptas.

Cada renta personal es una variable independiente que se ditribuye según una función uniforme. Por ello, a la suma de las rentas de 100 personas se le puede aplicar el Teorema Central del Límite.

2.- Una máquina vendedora de refrescos está programada para que la cantidad de refrescos que sirve sea una variable aleatoria con una media de 200 mililitros y una desviación estándar de 15 mililitros. Cuál es la probabilidad de que la cantidad media de refresco servido en una muestra aleatoria de 36 refrescos sea por lo menos 204 mililitros?. Realice los cálculos usando la desigualdad de Chebyshev y el TCL