55
SISTEMA NACIONAL DE EDUCACIÓN SUPERIOR TECNOLOGICA DIRECCIÓN GENERAL DE EDUCACIÓN SUPERIOR TECNOLÓGICA INSTITUTO TECNOLÓGICO DE LA ZONA MAYA INGENIERIA EN AGRONOMIA APUNTES DE ESTADÍSTICA Turno escolarizado (Clave AGM-0614) Presenta: MC. VICTOR FRANCISCO DÍAZ ECHEVERRÍA ENERO 2011 UNIDAD I: Fundamentos 1.1 Estadística

Apuntes de estadística escolarizado

Embed Size (px)

Citation preview

Page 1: Apuntes de estadística escolarizado

SISTEMA NACIONAL DE EDUCACIÓN SUPERIOR TECNOLOGICADIRECCIÓN GENERAL DE EDUCACIÓN SUPERIOR TECNOLÓGICA

INSTITUTO TECNOLÓGICO DE LA ZONA MAYA

INGENIERIA EN AGRONOMIA

APUNTES DE ESTADÍSTICATurno escolarizado

(Clave AGM-0614)

Presenta:

MC. VICTOR FRANCISCO DÍAZ ECHEVERRÍA

ENERO 2011UNIDAD I: Fundamentos

1.1 Estadística

Page 2: Apuntes de estadística escolarizado

La estadística se utiliza en diversas disciplinas socioeconómicas y científicas como, la industria, la política, la ganadería, la agricultura, la medicina, la sociología, los negocios, la educación, la sicología y la economía entre otras.Por ejemplo para tratar de predecir el resultado de una elección nacional, los encuestadores entrevistan a un número predeterminado de personas en todo el país y registran sus preferencias. Sobre la base de esta información se construye una predicción. La estadística también es utilizada en estudios de mercado, para determinar que porcentaje de los consumidores prefieren X o Y marca de leche pasteurizada. En sociología puede utilizarse para determinar que proporción de las casas rurales cuentan con electricidad.

1.1.1 IncertidumbreEn las actividades productivas o en los hechos cotidianos de la vida diaria, nos encontramos con una multitud de datos que colectamos, los cuales tenemos que organizar e interpretar, presentándolos en una forma reducida y entendible. En otras ocasiones nuestro interés es sacar conclusiones con respecto a un conjunto de datos grandes (población) de la cual se toma una muestra (una parte de la población). Para ello es indispensable contar con una herramienta de trabajo que facilite la toma de datos, su análisis y las conclusiones que se pueden sacar de ellos. Esa herramienta es la estadística.

1.1.2 Método científicoLa investigación científica consiste en la búsqueda permanente de la verdad por métodos objetivos, adecuados y precisos. La experimentación es un método científico de investigación que consiste en hacer operaciones y practicas destinadas a demostrar, comprobar y descubrir fenómenos o principios básicos. La experimentación en las ciencias biológicas, en particular comprende las pruebas, ensayos, observaciones, análisis o estudio practico de todo cuanto interesa a esta disciplina.El desarrollo agrícola de un país se basa en las investigaciones que se realizan en ese campo, valiéndose de la experimentación. Cualquier modalidad en las técnicas de cultivo, al introducirse por primera vez a una región, se necesita de la experimentación para poder adaptarlo y divulgarlo entre los agricultores. Estos se deben a que las condiciones de clima y suelo varían en cada región, estación y año.Para el aprovechamiento óptimo de los recursos disponibles, los experimentos se deben diseñar de acuerdo con los principios estadísticos que permitan al investigador llegar a conclusiones correctas acerca de un problema específico. Los investigadores y estadísticos deben planear los experimentos conjuntamente. Para ello el estadístico debe tener un criterio práctico y el investigador un criterio estadístico, pues la estadística es uno de los elementos básicos de la experimentación agrícola, ya que mediante ella se puede obtener algunas conclusiones acerca de problemas específicos de las ciencias agrícolas

1.2 Conceptos generalesLa estadística es la ciencia que trata de las técnicas para colectar, organizar, presentar y analizar datos, tanto para la deducción de conclusiones, como para tomar decisiones razonables de acuerdo con tales análisis. La base matemática de esta herramienta descansa en la teoría de la probabilidad.Cuando los datos que se están analizando provienen de las ciencias biológicas y la medicina, como es el caso de la agronomía, se utiliza el termino Bioestadística. Su principal diferencia con

Page 3: Apuntes de estadística escolarizado

las demás ciencias, es que analiza datos provenientes de seres vivos, los cuales sufren alteraciones a lo largo del desarrollo de su vida en periodos que pueden ser muy cortos.

1.2.1 EstadísticaLa estadística puede dividirse en dos partes: el análisis de datos descriptivo o deductivo y el análisis de datos inductivo o inferencial. La estadística descriptiva o deductiva, es la parte de la estadística que trata solamente de describir y analizar un grupo de datos sin sacar conclusiones o inferencias de los mismos o de un grupo mayor. En esta parte esta la descripción tabular o frecuencia de los datos, las medidas de tendencia central y de dispersión de los datos (varianza) y la probabilidad.La estadística Inductiva o Inferencial, es la parte de la estadística que se encarga de hacer inferencias o sacar conclusiones validas de un conjunto de datos a partir del análisis de una muestra de esos datos. Ósea trata de tomar decisiones, cuando se tiene solo una parte de los datos examinados. Sus principales medidas, son la hipótesis estadística, el análisis de varianza, la regresión y la correlación de los datos.

1.2.2 Población y parámetroUna población es cualquier colección entera de personas, animales, plantas o cosas de las cuales podríamos recolectar datos. Es el grupo entero que nos interesa, el cual deseamos describir o sobre cuál deseamos establecer conclusiones. Por los tanto la población es un conjunto de todas las mediciones o datos de interés, que son factibles de muestrease. Por ejemplo en el caso de la encuesta para determinar los resultados de una elección nacional, la población son todos los habitantes del país mayores de 18 años y que tiene derechos e identificación para votar.Un parámetro es un valor desconocido y por lo tanto tiene que ser estimado. Los parámetros se utilizan para representar una determinada característica de la población. Por ejemplo la media poblacional es un parámetro que normalmente se utiliza para indicar el valor medio de una cantidad. Dentro de una población, un parámetro es un valor fijo que no varía. Cada muestra tomada de la población tiene su propio valor de cualquier estadística que se utilice para estimar este parámetro.

1.2.3 Muestra y estimadorUna muestra es un subconjunto de las mediciones seleccionadas de la población de interés. En el caso de la elección nacional, la muestra la representan todos los ciudadanos de diferentes estados a los cuales se le aplico la encuesta de preferencia.La palabra estimación significa estimar, o sea darle un valor a algo. Una estimación estadística es una indicación de valor de una cantidad desconocida basada en datos observados. Más formalmente, una estimación es el valor particular de un estimador que es obtenido de una muestra particular de datos y que es utilizado para indicar el valor de un parámetro. Por ejemplo, suponga que los órganos electorales del país desean saber el valor de promedio de los ciudadanos que votan por estado. Para ello tendrían que utilizar todos los datos de todos los estados (miles de datos) de las personas que votaron en las últimas elecciones; es decir, la media de la poblacional, que en este caso se llamaría parámetro. En lugar de esto, el órgano electoral podría utilizar una estimación de la media poblacional, calculando la media de una muestra representativa de ciudadanos. Si se encontrara que el valor fue 17,000 personas, estos 17,000 votos serian su estimación o su estimador. Es decir un estimador es un valor calculado de una muestra y no de una población.

Page 4: Apuntes de estadística escolarizado

1.3 Ejercicios de aprendizaje Ejercicio 1. Con un compañero de clase lee perfectamente el texto de la primera unidad y contesta el siguiente cuestionario:

1. Describe cual es la rama de estudio de la estadística 2. Menciona mínimo cuatro disciplinas de las ciencias actuales en las que se utilice la estadística3. Describe por que la estadística es un elemento básico de la experimentación agrícola4. Describe por que es importante la investigación agrícola en el desarrollo de nuestro Estado5. Cual es la diferencia entre la estadística y la bioestadística6. Describe cual es la diferencia entre la estadística descriptiva y la estadística inferencial

7. En la siguiente descripción de una problemática agropecuaria señala los valores que describen a una población y sus parámetros; y los valores que describen a la muestra y sus estimadores El rancho Tres Gavilanes el mes pasado peso el total de sus 1220 borregas de pie de cría de las cuales obtuvo una media de 42.7 kilogramos con una varianza de 3.4 y una desviación estándar de 1.84 kilos, con los cuales se calculo un coeficiente de variación de 7.96%. En días pasados la Asociación Estatal de Productores Ovinos solicito los valores de peso de las borregas del rancho, dado que era imposible volverlas a pesar, se tomo al azar un grupo de 250 borregas cuya media fue 40.9 kilogramos con una varianza de 2.8 y una desviación estándar de 1,67, de los cuales se calculo un coeficiente de variación de 3.91%.Indica cual es:

El tamaño de la población _____________________________________________________

Los valores de los parámetros de la población _________________________________________________________________________________________________________________

El tamaño de la muestra _______________________________________________________

Los valores de los estimadores de la muestra_______________________________________ ___________________________________________________________________________

1.4 Ejercicios para evaluaciónTomando como base la información anterior y con investigación realizada en la biblioteca e Internet realiza un trabajo individual (no pueden existir dos trabajos iguales) de mínimo hoja y media tamaño carta con letra Times New Roman 12, con interlineado mínimo. En el que se describa ejemplos prácticos de la utilización y utilidad de la estadística en la agricultura, la ganadería y la actividad forestal. Mínimo un ejemplo por cada actividad productiva. En ejemplo debe de indicarse cual es una población, cual es la muestra, cuales son los parámetros y cuales son los indicadores (mínimo, 1 de agricultura, 1 de ganadería y 1 de producción forestal).

UNIDAD II: Estadística descriptiva

2.1 Introducción

Page 5: Apuntes de estadística escolarizado

La colección o toma de datos, es la obtención de los mismos sin que hallan sido ordenados numéricamente. Existen muchas maneras de ordenar y presentar un conjunto de datos, que permitan su interpretación de una manera fácil de entender. Como es el caso de los cuadros, graficas, figuras, histogramas y polígonos de frecuencia. La caracterización de los datos también puede ser presentando varios números como resumen. En particular nos interesa un número que localice el centro y una medida de amplitud de las observaciones. Como es el caso de la media aritmética, la mediana, la desviación media, varianza, desviación estándar, coeficiente de variación y rango.

1.2 Medidas de tendencia central para datos agrupados y no agrupados.Las medidas de centralización más comunes son: la media aritmética o simplemente media, la mediana, la moda. Cada una de ellas tiene sus ventajas e inconvenientes dependiendo de los resultados que se pretenden obtener de los datos.

1.2.1 MediaLa media es la medida de tendencia central de uso más común en la estadística. Cuando se trabaja con poblaciones completas a las medias se les denomina parámetros. Cuando se trabaja solo una muestra de la población se les denomina estimadores.La formula de la media aritmética es:

X = ∑ Xi /N

X = media∑ Xi = indica la suma de cada uno de los valores que toma la variable XN = numero de observaciones o datos que se tiene en total

Ejemplo: Calcular la media aritmética para el tamaño de camada de cinco marranas

No de marrana 1 2 3 4 5Tamaño de camada 8 7 6 11 10

X = ∑ Xi /N = 8 + 7 + 6 + 11 + 10 / 5 = 8.4

2.2.2 MedianaLa mediana es el valor o la media aritmética de dos de los valores medios de una colección de datos ordenados en orden creciente o decreciente.

Ejemplo 1: La mediana de los siguientes datos 10, 8, 14, 22, 33, 19, 9, 25, 44 sería: 8, 9, 10, 14, *19 * 22, 25, 33, 44. O sea es el numero 19

Ejemplo 2: Cuando el número de datos es par, se determina la media de ambos valores centrales, como en el caso de los siguientes números: 3, 9, 5, 11, 23, 17, 18, 29, 40, 24. La mediana sería: 3, 5, 9, 11 *17, 18*, 23, 24, 29, 40. dado que son dos valores centrales se determina (17 + 18) / 2 = 17.5

2.2.3 ModaLa moda es aquel valor que se presenta con mayor frecuencia en un conjunto de datos.

Page 6: Apuntes de estadística escolarizado

Ejemplo. La moda para el siguiente conjunto de números ( 2, 4, 17, 12, 14, 23, 12, 13, 18, 12, 17) sería el 12, dado que es el valor que se representa con mayor frecuencia, en este caso aparece 3 veces.

La moda para los siguiente datos (3, 7, 23, 11, 18, 11, 44, 22, 9, 11, 22, 15, 22, 15) sería los números 11 y 22, dado que son los valores que se representa más veces y con igual frecuencia.

2.3 Medidas de dispersión para datos agrupados y no agrupadosEl grado en que los datos numéricos tienden a extenderse alrededor de un valor medio, se le llama variación o dispersión de los datos. Dos o más conjuntos de datos pueden tener la misma media, pero la dispersión de sus valores alrededor de su valor medio puede ser diferente.

8, 8, 9, 10, 11, 12, 12 X = 105, 6, 8, 10, 12, 14, 15 X = 101, 2, 5, 10, 15, 18, 19 X = 10

Obsérvese que existe una mayor variación en el segundo y tercer conjunto de datos que en el primero, aunque la medias sea las mismas.Las medidas de dispersión mas usadas son la desviación media, la varianza, la desviación estándar, el coeficiente de variación y el rango.

2.3.1 VarianzaLa varianza de un conjunto de datos es igual al promedio de las desviaciones, de los datos con respecto a su media, elevados al cuadrado. Se denomina S2 y se calcula por:

∑ (X1 – X) 2 S2 = ---------------- N – 1

Ejemplo: Para calcular la varianza del peso de un grupo de pollos de 1 semana de edad.

Peso gr. Desviación (X1 – X) (X1 – X) 2

163 163 – 161.4 = 1.6 2.56152 152 – 161.4 = -9.4 88.36178 178 – 161.4 = 16.6 275.56149 149 – 161.4 = -12.4 153.76171 171 – 161.4 = 9.6 92.16162 162 – 161.4 = 0.6 0.36168 168 – 161.4 = 6.6 43.56148 148 – 161.4 = -13.4 179.56156 156 – 161.4 = -5.4 29.16167 167 – 161.4 = 5.6 31.36

Media 161.4 ∑ 896.40

∑ (X1 – X) 2 896.40

Page 7: Apuntes de estadística escolarizado

S2 = ---------------- = ------------ = 99.6 N – 1 10 - 1

2.3.2 Desviación estándar o desviación típicaLa desviación típica de un conjunto de datos es la raíz cuadrada de la varianza, se representa por (S) o por (DE) y se calcula por:

∑ (X1 – X) 2 DE = √ ---------------- o simplemente DE = √ S2

N - 1 Tomando los datos del ejemplo anterior, donde se calculo la varianza de 10 pollos de una semana de edad, se tendría una desviación típica de:

DE = √ S2 = √ 99.6 = 9.98

2.3.3 Coeficiente de variaciónEs una medida de dispersión relativa de un conjunto de datos, que se obtiene dividiendo la desviación estándar (DE) del conjunto de datos entre su media aritmética, el resultado es expresado en porcentaje y de calculad por la siguiente formula. DE CV = ------- x 100

X

El coeficiente de variación para el ejemplo anterior donde DE = 9.979 y X = 161.4 sería:

DE 9.979CV = ------- x 100 = ---------- x 100 = 6.18 % de variación

X 161.4

Para el ejemplo del peso de los pollos, si se quiere describir los datos se diría, que tienen una media de 161.4 Kg. una desviación estándar de 9.98 grs. y una variación del 6.18 %. El coeficiente de variación es la medida de dispersión mas adecuada para compara la variabilidad de dos conjuntos de datos, pues es una medida independiente de las unidades de medición, dado que se mide en las unidades originales. Esto es de suma importancia en la investigación, donde se tienen datos previos de otros experimentos, pues el CV se usa para comparar los datos obtenidos con los CV de los experimentos anteriores.

Ejemplo: Las medias y desviación estándar para los pesos al destete e intervalos entre partos de un grupo de 50 vacas suizas fueron:

X DE Pesos al destete 184.2 19.3Intervalo entre partos 461.7 93.7Calcula los coeficientes de variación y determina que característica productiva es mas variable.

Page 8: Apuntes de estadística escolarizado

CV Peso al destete = DE / X x 100 = 19.3 / 184.2 x 100 = 10.48 %

CV Intervalo entre partos = DE / X x 100 = 93.7 / 461.7 x 100 = 20.29 %

Comparando los coeficientes de variación, es posible decir que el intervalo entre partos es una característica mas variable que el peso el destete.

2.3.4 Rango Es la medida de dispersión mas simple. El rango se obtiene de la diferencia entre las observaciones de mayor y menor valor numérico en un conjunto o serie de datos.

Ejemplos:8, 8, 9, 10, 11, 12, 12 X = 10 Rango = 12 – 8 = 4 5, 6, 8, 10, 12, 14, 15 X = 10 Rango = 15 – 5 = 101, 2, 5, 10, 15, 18, 19 X = 10 Rango = 19 – 1 = 18

La ventaja de esta medida de dispersión es la facilidad con que se calcula. Su desventaja es que intervienen solo 2 números del conjunto de datos. Por otra parte al aumentar el número de observaciones aumenta la variabilidad. Así mismo tiene la desventaja de que no se puede utilizar para comparar 2 grupos de observaciones, amenos que tengan el mismo tamaño.

2.4 Organización y presentación de datosExisten muchas maneras de ordenar y presentar un conjunto de datos, que permitan su interpretación de una manera fácil de entender. Como es el caso de los cuadros, graficas, figuras, histogramas y polígonos de frecuencia.Uno de los mas fáciles de usar y mas socorridos en la estadística, es el cuadro de frecuencia o distribución de frecuencia, que permite distribuir un conjunto de datos en clases o categorías y la determinación del numero de datos pertinentes en cada clase.

Ejemplo: Se desea representar en una tabla de distribución de frecuencia, la altura de 50 plantas de cedro después de un año de siembra en invernadero, como indicativo de su crecimiento bajo condiciones controladas. Los datos de crecimiento en centímetros se contemplan en el cuadro siguiente y se detallan los pasos para la obtención de la tabla de distribución de frecuencia.

164 170 160 179 182 168 181 181 162 170165 184 175 168 182 175 182 160 163 171166 160 176 180 163 176 184 161 166 172181 166 177 166 161 175 183 163 165 173175 179 178 184 166 178 183 167 166 174

1) Se determinan los valores mayor y menor del conjunto de datos (160 y 184)2) Se determina el Rango de los datos, restando al valor mayor el valor menor (184 – 160 = 24)3) Se divide el rango en un número conveniente de intervalos de clase del mismo tamaño. Se puede fijar arbitrariamente entre 4 y 12 intervalos de clase o usar la formula K = 1 + 3.332 + log N, donde K es el numero de intervalos de clase y N el total de datos que se tienen. En este ejemplo se toman arbitrariamente 5 intervalos de clase, los cuales quedarían de la siguiente manera:

Page 9: Apuntes de estadística escolarizado

Distribuciòn de frecuencias para plantas de cedro

0

2

4

6

8

10

12

14

160 – 164 165 – 169 170 – 174 175 – 179 180 – 184

Serie1

160 – 164 ← Intervalo de clase165 – 169170 – 174 (los extremos de un intervalo de clase se conocen como limites de clase, en este caso 175 – 179 son los valores 160 y 164)180 - 184 4) Se determina el numero de datos que caen dentro de cada intervalo de clase y se calcula la frecuencia relativa, multiplicando el valor de cada intervalo por 100 y dividido entre N (es este caso N = 50) Altura (cm) Numero de plantas Frecuencia relativa

160 – 164 llllllllll = 10 20 %165 – 169 lllllllllll = 11 22 %170 – 174 llllll = 6 12 %175 – 179 lllllllllll = 11 22 %180 – 184 llllllllllll = 12 24 %

Total = 50 100 %Cálculos:10 x 100 /50 = 20 %11 x 100 /50 = 22 % 6 x 100 /50 = 12 %11 x 100 /50 = 22 %12 x 100 /50 = 24 %

Una ves ordenados los datos y determinado el numero de observaciones por cada intervalo de clase, estos también pueden ser presentados en diferentes tipos de graficas. Entre las mas utilizadas se encuentran las graficas de líneas, graficas de barras y graficas de pastel o circulares entre otras. Como se ejemplifica a continuación

Page 10: Apuntes de estadística escolarizado

0

2

4

6

8

10

12

Numero de datos

160 –164

165 –169

170 –174

175 –179

180 –184

Intervalos de clase

Distribucion de fecuencia para plantas de cedro

Serie1

Distribucion de fecuencia para plantas de cedro

160 – 164

165 – 169

170 – 174

175 – 179

180 – 184

2. 5 Ejercicios de aprendizajeEjercicio 1. En hojas blancas de manera manual, con la ayuda de la calculadora y posteriormente en el programa computarizado Excel, realiza los siguientes ejercicios.

a) Un granjero tomo la ganancia de peso de una parvada de pavos después de 8 semanas de ceba, cuyos datos están expresados en kilogramos. Determinar la media aritmética, medina, moda, varianza, desviación estándar y coeficiente de variación.

3.2 4.8 5.7 4.3 6.7 4.7 4.6 5.2 3.9 5.2 3.9 3.9 4.64.7 3.8 5.0 3.5 4.9 4.8 4.7 5.2 4.6 3.6 5.2 5.1 4.9 b) En una granja avícola se de una muestra de dos parvadas de pollos de engorda de diferentes razas Playmonth Rock y Sacijall, cuyos pesos al final de la engorda se dan a continuación. Se

Page 11: Apuntes de estadística escolarizado

desea determinar la media aritmética, medina, moda, varianza, desviación estándar y coeficiente de variación. Además saber cual parvada es mas uniforme, con la finalidad de elegir una raza para explotarse en la región.

Playmonth 1.2 1.3 1.7 2.2 1.5 1.9 1.7 1.8 2.2 2.0 1.4 1.5Sacijall 1.5 1.9 2.0 1.8 1.9 1.6 1.9 1.8 1.0 1.7 1.6 1.8

c) Se han obtenido los pesos al destete de un lote de 50 lechones de una piara comercial, los cuales se desean expresar en una tabla de distribución de frecuencia. Realiza dicha tabla para:Obtener los intervalos de claseCalcular las frecuencias relativas

5.00 5.20 5.40 5.60 5.80 6.00 6.20 6.40 6.60 6.807.00 7.20 7.40 5.19 5.39 5.59 5.79 5.99 6.19 6.396.59 6.79 6.99 7.19 7.39 7.59 5.10 5.30 5.50 5.705.90 6.10 6.30 6.50 6.70 6.90 7.10 7.30 5.29 5.495.69 5.89 6.09 6.29 6.49 6.69 6.89 7.09 7.29 7.49

Posteriormente en el programa computarizado excell, representa los datos en graficas de líneas, barras y circulares.

UNIDAD III. Introducción a la probabilidad

3.1 Conceptos

Page 12: Apuntes de estadística escolarizado

La estadística descriptiva trabaja con todos los individuos de una población. La estadística inferencias trabaja con muestras o subconjuntos formados por algunos individuos de esa población. A partir del estudio de la muestra se pretende inferir (determinar) aspectos relevantes de toda la población. Es decir el trabajo de la estadística inferencial, no solo consiste en reunir y tabular los datos, sino que este es un proceso de interpretación de la información. Donde lo fundamental es comprobar la validez (fiabilidad) de esas interpretaciones o inferencias estadísticas. En tal sentido la probabilidad es el fundamento de la estadística inductiva.

3.1.1 ProbabilidadLa probabilidad es la rama de las matemáticas que se ocupa de medir o determinar cuantitativamente la posibilidad de que ocurra un determinado suceso o evento. El calculo matemático de la probabilidad se basa en situaciones teóricas en las cuales se determina un espacio muestreal cuyos sucesos elementales o eventos tengan todos la misma probabilidad de ocurrir. Donde el espacio muestreal es el conjunto de todos los posibles resultados.

3.1.2 – 3.1.3 Eventos – Espacio muestral Si un evento (E) puede tener n resultados igualmente posibles (h) de los cuales tienen el atributo E, se dice entonces que la probabilidad de ocurrencia de E es la fracción h/n y se denota mediante la formula:

P(E) = h/n

P = Probabilidad E = Evento del que se quiere calcular la probabilidadh = Numero de elementos que tiene el atributon = numero total de elementos o espacio muestreal

En estos casos la probabilidad de un resultado se representa con un número entre 0 y 1. Donde la probabilidad 0 indica que el resultado nunca ocurrirá y la probabilidad 1 que el resultado ocurrirá siempre. Matemáticamente puede representarse como 0 ≥ P(E) ≤ 1. Este tipo de probabilidad suele llamarse probabilidad a priori, por que se puede calcular antes de realizar el evento.También puede calcularse la probabilidad de no ocurrencia del suceso o atributo (no E). Llamando su no ocurrencia y se representa como q y se simboliza matemáticamente como:

q = 1 – P

q = no ocurrencia del suceso1 = probabilidad totalP = probabilidad del suceso

Así pues: P (E) + P (no E) = 1 o P + q = 1

Ejemplo 1: Sea E el suceso de que aparezcan los números 2 o 6 en el lanzamiento de un dado:Espacio muestral = existen seis casos o resultados que pueden presentarse, los números 1, 2, 3, 4, 5, y 6, todos con igual posibilidad.

Evento = que se presente el 2 o el 6

Page 13: Apuntes de estadística escolarizado

Probabilidad: P (E) = h / n = 2 / 6 = 1/ 3 = 0.3333

No probabilidad: q (E) = 1 – h / n = 1 – 1/3 = 2 / 3 = 0.6666

Ejemplo 2: Cuál es la probabilidad de obtener un número impar en el lanzamiento de un dado. Sabiendo que el dado tiene 3 números impares.

Evento: Sea E el suceso de que aparezcan los números 1, 3 o 5, de seis resultados posibles

Probabilidad: P (E) = h / n = 3 / 6 = 1/ 2 = 0.5

No probabilidad: q (E) = 1 – h / n = 1 – 1/ 2 = 0.5

3.1.4 Probabilidad como frecuencia relativaOtra forma de estimar la probabilidad es calcularla como una medida de frecuencia relativa de ocurrencia de un evento casual. Por ejemplo una manera de calcular la probabilidad de tener un parto gemelar de una borrega, es consultar el registro de partos gemelares en borregas del mismo hato.

Ejemplo 1: En un hato de borregas gestantes, de los últimos 10 partos 8 han sido gemelares. Cuál es la probabilidad de obtener gemelos en el parto siguiente. Cual es la probabilidad de que el parto sea simple.

Probabilidad de parto gemelar: P = h / n = 8 / 10 = 0.8

No probabilidad de parto gemelar (simple): q = 1 – h / n = 1 – 0.8 = 0.2

Ejemplo 2: En los últimos 35 partos de una granja de cerdos, 20 marranas han parido camadas superiores a los 10 cerditos. Cuál es la probabilidad de que el siguiente parto sea superior a los 10 cerditos, Cuál es la probabilidad de que el siguiente parto sea inferior a los 10 cerditos, Cuál es la frecuencia relativa de marranas con mas de 10 cerditos por parto.

Probabilidad: P = h / n = 20 / 35 = 0.57

No probabilidad: q = 1 – h / n = 1 – 0.57 = 0.43

Frecuencia relativa = 20 / 35 x 100 = 57.14 %

3.2 Variables aleatoriasUna población es un conjunto de individuos o elementos que estamos interesados en estudiar. Esa población puede ser finita o infinita. El conjunto de todos los números positivos es un ejemplo de una población infinita, mientras que el conjunto del número de plantas en un vivero es un ejemplo de una población finita. Expresiones tales como la vaca tiene 3 crías o las piñas pesan 2 kilos, son comunes e informativas. Esas expresiones se refieren a rasgos productivos que no son constantes, sino que varían de un individuo a otro y por lo tanto sirve para distinguir o describir.

Page 14: Apuntes de estadística escolarizado

Las características o rasgos que muestran variabilidad se les llaman variables. Por ejemplo el peso al nacer, la altura de las plantas de maíz, el tamaño de la camada, entre otras. Estas variables se representan normalmente con la letra (x, y, w, z).Las variables de acuerdo con su cantidad numérica se pueden clasificar en: 3.2.1 Variables discretas Es la variables que solo puede tomar un numero finito o numerable de valores. Los ejemplos de variables discretas son, el tamaño de la camada, el número de frutos de una planta, el numero de servicios por concepción, entre otros. 3.2.2 Variables continuasEs la variable que teóricamente puede tomar cualquier valor entre dos valores dados. Los ejemplo de variables continuas son los pesos al nacer, las alturas de las plantas o los animales, los intervalos entre partos, los días de crecimiento de una planta para el cultivo, entre otras.

3.2.3 ConstantesSi una variable puede tomar solamente un valor se le llama Constante, por ejemplo la temperatura corporal normal de los animales homeotermos o el promedio de altura de una población.

3.2.4 Variables Binomiales Son un caso particular de las variables discretas, pues son aquellas variables que solo pueden tener dos resultados, Los ejemplos de la variables binomiales son la sobre vivencia (vivo o muerto), el estado reproductivo (gestante o vacía), la preferencia (si o no)

En general las medidas dan origen a datos continuos, mientras que las numeraciones o conteos originan datos discretos, donde un dato es el valor que puede tomar una variable.

3.2.5 Muestras aleatoriasEn algunas ocasiones las poblaciones de datos son inaccesibles o muy grandes para ser trabajadas en su totalidad. En consecuencia se estudian muestras (subconjuntos de la población) que en caso de ser aleatorias permite realizar estimaciones tanto de la población como de los parámetros estadísticos de esta.Una muestra aleatoria es una muestra elegida independientemente de todas las demás, con la misma probabilidad que cualquier otra.

En este caso la variable aleatoria es un numero real perfectamente definido asociado a cada punto muestreal. Es decir las variables aleatorias permiten definir la probabilidad como una función numérica (variable real) en lugar de una función de conjuntos.

3.3 Distribuciones de probabilidad La asociación de cada uno de los resultados posibles de un evento con su probabilidad de ocurrencia se llama distribución de la probabilidad.

Ejemplo: Al lanzar dos dados la suma de ambos puede asumir 11 valores diferentes en 36 puntos muéstrales

2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12

Page 15: Apuntes de estadística escolarizado

P 0.027

P 0.083P 0.011P 0.011

En este caso vemos que la distribución de p(x) obtenida es simétrica.

El valor de 36 representa el espacio muestreal o total de la población (N), en la cual X representa una variable aleatoria discreta, que en este caso puede tener 11 valores distintos (del 2 al 12), cada valor tiene una probabilidad de ocurrencia (p) y de no ocurrencia (q). Ambos valores siempre suman 1 (p + q = 1).Por lo tanto la distribución de probabilidad es un modelo matemático que asocia los valores de una variable aleatoria con su respectiva probabilidad

Probabilidad de X = Función p + q = 1

En caso de la producción agropecuaria, cualquier muestreo aleatorio o proceso donde se calcula la probabilidad, la unión de cada evento con su valor de probabilidad se llama distribución de la probabilidad. En la distribución de la probabilidad la unión de los eventos con su valor de probabilidad toma forma de campana.

Cada evento o muestra (r) tiene su valor de probabilidad (p) y de no probabilidad (q) con valores independientes del otro evento. El valor de mayor probabilidad es la media o punto de la campana. A medida que nos alejamos de la media en ambos sentidos el valor de la probabilidad disminuye. La suma de las probabilidades de todos los eventos (N) siempre tiene que sumar 1 o 100%.

Punto medio X

2 3 4 5 6 7 8 9 10 11 12 Suma de puntos

Ocurrencia del evento 6

54321 P 0.027

P 0.160

P 0.05P 0.05

P 0.083

P 0.013 P 0.013

N

N = tamaño de la población (36 posibilidades)P = probabilidadq = no probabilidadr = tamaño de la muestra o veces que se lanza el dado

r

Page 16: Apuntes de estadística escolarizado

Por lo tanto, se la media (X) es el valor de mayor probabilidad, las pedidas de dispersión como la varianza (S2) y desviación estándar (DE) pueden servirnos para saber cuanta probabilidad perdemos o ganamos a medida que la muestra (r) se aleja o acerca de la media, en ambos sentidos de la campana

Cada espacio muestral o población tiene su propia distribución de probabilidad (forma y tipo de la campana que forman sus datos) de acuerdo con sus características de tamaño y tipo de variable, las más comunes son:

a) Distribución binomial:Si en cada prueba la variable o muestra (r) en un número indeterminado de eventos (0-1000) solo puede tener dos resultados (positivo o negativo) independientes del evento anterior, con un valor de probabilidad constante (p = 0.5) (q = 0.5) la distribución se conoce como binomial. b) Distribución de Poisson:Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero limitado de eventos (tiempo-espacio) la distribución se conoce como “Distribución de Poisson”.

c) Distribución normalSi en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero ilimitado de eventos independientes (> 30) la distribución se conoce como Distribución Normal o Distribución de Z..

d) Distribución de T:Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero ilimitado de eventos independientes (< 30) la distribución se conoce como Distribución del T de Studen o Distribución para muestras pequeñas.

e) Distribución de Ji cuadrada:Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero ilimitado de eventos independientes, que se comparan con valores de probabilidad esperada o conocida, la distribución se conoce como Distribución de Ji-cuadrada.

f) Distribución de F:Si en cada prueba la variable o muestra (r) puede obtener cualquier valor de probabilidad (P>0<1) en un numero ilimitado de eventos independientes, cuya frecuencia es acumulativa y puede compararse con la frecuencia acumulativa de otros eventos, la distribución se conoce como Distribución de F.

En general cuando se conoce el tipo de distribución, el tamaño de la población (N), el tamaño de la muestra (r o k), la probabilidad de ocurrencia (p) o de no ocurrencia (q), se puede estimar con cierta facilidad una serie de valores de X evento de la población a los cuales se les conoce como inferencias. Cada distribución tiene sus formulas matemáticas para estimar los valores de probabilidad o sus parámetros estadísticos, como la media, varianza y desviación típica, conocido como estadístico de prueba o prueba estadística.Esta probabilidad también puede ser estimada con el uso de tablas de probabilidad de las cuales existe una para cada tipo de distribución, en las cuales se necesita conocer los valores antes mencionados.Se asume que mientras mas veces se repita un evento (tamaño de la muestra) mayor debe ser la exactitud de su calculo de probabilidad

Page 17: Apuntes de estadística escolarizado

3.3.1 Binomial Supongamos que un experimento aleatorio tiene las siguientes características: En cada prueba del experimento sólo son posibles dos resultados: el suceso p (éxito) y su contrario q (fracaso).El resultado obtenido en cada prueba es independiente de los resultados obtenidos anteriormente. La probabilidad del suceso es constante y representamos por p, y no varía de una prueba a otra. La no probabilidad es 1- p y la representamos por q. El experimento consta de un número n de pruebas. Todo experimento que tenga estas características diremos que sigue el modelo de la distribución binomial. A la variable X que expresa el número de éxitos obtenidos en cada prueba del experimento, la llamaremos variable aleatoria binomial.La variable binomial es una variable aleatoria discreta, sólo puede tomar los valores 0, 1, 2, 3, 4,..., n suponiendo que se han realizado n pruebas. La distribución binomial se suele representar por B (n, p) siendo n y p los parámetros de dicha distribución.

Los parámetros de la distribución binomial puede calcularse por:

Sea X una variable aleatoria discreta correspondiente a una distribución binomial.

Ejemplo 1: En un vivero forestal se sabe que por cada 1000 plantas que se producen, 7 salen infectadas de hongos patógenos. Que probabilidad existe que al escoger 50 plantas para sembrar en un terreno libre del hongo solo una planta salga infectada. Primero se calculo los valores de probabilidad:

Probabilidad de que las plantas estén infectadas: P = h / n = 7 / 1000 = 0.007No probabilidad de que las plantas estén infectadas: q = 1 – h / n = 1 – 0.007 = 0.993

Solución: Se trata de una distribución binomial de parámetros B (n=50, p=0.007) y debemos calcular la probabilidad p (X=1).

P ﴾X = 1) (n k ) p k * q n-k = (50 1 ) 0.007 1 x 0.993 49 = 0.00496

Existe 0.496 % de probabilidad de escoger una planta con hongos.

Page 18: Apuntes de estadística escolarizado

Los parámetros de esas 50 plantas se puede calcular con:X = n * p = 50 x 0.007 = 0.35 S2 = n * p * q = 50 x 0.007 x 0.993 = 0.347DE = √ n*p*q = √ 0.347 = 0.589 (Media, varianza y desviación estándar de plantas infectadas por cada 50)

Ejemplo 2: La probabilidad de éxito de la vacuna contra la influenza aviar es de 0.72. Calcula la probabilidad de que una vez administrada a 15 animales: a) ninguno sufra la enfermedad, b) todos sufran la enfermedad, c) dos de ellos contraigan la enfermedadCalculo los valores de probabilidad:

Probabilidad de éxito de la vacuna = 0.72No probabilidad de éxito de la vacuna: q = 1 – h / n = 1 – 0.72 = 0.28

Solución: Se trata de una distribución binomial de parámetros B (15, 0.72)

De 15 vacunados todos sana “no infectados”

De 15 vacunados todos se enferman “ninguno sana”

De 15 vacunados 13 sanan y 2 se enferman

Ejemplo 3: La probabilidad de que un fruto de chile habanero este infectado con picudo es del 4%. Un productor realiza en su cultivo un muestreo aleatorio de 1000 frutos, para tratar de determinar los indicadores de cuantos frutos infectados tendría por cada embarque de su producto. a) Hallar la media (χ) del número de frutos infectados en un corte de 1000 frutosb) La varianza (S2) y la desviación estándar (DE) de la muestra.Solución:χ = n * p = 1000 * 0.04 = 40 frutosS2 = n * p * q = 1000 * 0.04 * 0.96 = 38.4DE = √ n * p * q = √ 38.4 = 6.19

Como el cálculo de estas probabilidades puede resultar algo tedioso se han construido tablas para algunos valores de n y p que nos facilitan el trabajo.

Ejemplo 4: Cual es la probabilidad de obtener dos crías machos en una marrana que parió 6 crías.K = 2 n = 6 p = 0.5(Utilizar las tablas de distribución binomial que se encuentran en los anexos 1, 2 3)

3.3.2 Poisson El modelo de distribución de Poisson sirve para calcular sucesos o variables que su ocurrencia esta limitada a un intervalo, pudiendo ser tiempo, área o longitud.

Page 19: Apuntes de estadística escolarizado

Por ejemplo:El número de fallas (evento) de un tractor en una semana (intervalo)El numero de bacterias (evento) por milímetro cuadrado (intervalo).

En otras palabras se trata de calcular la probabilidad de un evento, dado que su ocurrencia esta limitado a un intervalo.Los parámetros estadísticos de la distribución Poisson se pueden calcular por:Media = n * pVarianza = n * p * q ambas son equivalentes a λn = total de ensayosp = probabilidadq = no probabilidad

La probabilidad de Poisson puede calcularse por la formula

λ = media de los éxitos por intervalo (esperados)x = fenómeno o variable a estimare = probabilidad de ocurrencia

En la práctica, la aproximación es muy buena cuando λ < 5, siendo n > 50

EjemploEn 60 ensayos con p = 0.002 a) Calcular la media y la varianza b) Calcular P(5)a) media λ = np = 60 x 0.002 =0.12 varianza λ = npq = 60 x 0.002 x 0.998 = 0.12b) p( 5) ( 0.125 x e-0.12) / 5! =1.84 x 10-7

3.3.3 Normal (o campana de Gauss-Laplace)La distribución normal es la que mas se usa en estadística por que mucho de los fenómenos biológicos de interés en las ciencias agropecuarias se distribuyen de esta manera. Como es el caso de los caracteres morfológicos de personas, animales y plantas de una especie, por ejemplo las alturas de una planta, el peso de los frutos o el peso de los animales, los diámetros o grososr de los tallos de las plantas entre otros, o los caracteres fisiológicos, por ejemplo el efecto de una misma dosis de un fármaco o de una misma cantidad de abono, sobre el peso de los frutos de una planta. Empleando cálculos bastante laboriosos, puede demostrarse que el modelo de la función de densidad que corresponde a tales distribuciones viene dado por la fórmula que se expresa en la figura siguiente.

Page 20: Apuntes de estadística escolarizado

La distribución normal queda definida por dos parámetros, su media y su desviación típica y la representamos así

Representación gráfica de esta función de densidad

Muchas variables biológicas aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de campana. La localización del centro de la curva es la media (X o µ) y la cantidad de joroba observada depende del tamaño de la varianza (S2 o σ 2). El área bajo la curva es igual a 1 por lo que se puede obtener el valor de la probabilidad de los eventos contenidos en ella.La distribución normal permite calcular la probabilidad de un grupo de resultados (muestra) mas que la probabilidad de un determinado resultado. La distribución normal se utiliza cuando el tamaño de la muestra es mayor a 30 observaciones (n > 30). En la práctica en vez utilizar la formula que describe la densidad de la curva, se utiliza una tabla (de Z) para obtener las probabilidades de una distribución normal o continua. En la cual lo esencia es saber a cuantas desviaciones estándar (DE) esta la muestra con respecto a la medía, considerando que:

Z es positiva cuado la media de la muestra (x) es mayor que la media general (µ)Z es negativa cuando la media de la muestra (x) es menor que la media general (µ)De µ a 0.05 DE en ambos lados de la campana esta el 68.0 % del área De µ a 1.0 DE en ambos lados de la campana esta el 95.0 % del área

A - B

A - B

Page 21: Apuntes de estadística escolarizado

De µ a 1.5 DE en ambos lados de la campana esta el 99.90 % del área Como se muestra en la figura anterior.

La distribución normal de la probabilidad de Z se conoce como distribución tipificada. Dado que su media es igual a cero (Zo) y su DE es 1.Por lo tanto, la manera mas fácil de encontrar una probabilidad (área) entre el intervalo A – B con un número especifico de desviaciones estándar (DE o σ) a partir de la media general, es mediante la utilización de la tabla de Z. Si se conoce el valor de Z o numero de Desviaciones Estándar (DE) se puede calcular el valor de probabilidad área de la campana y esta representa un porcentaje de la población.

Ejemplo 1: Sabemos que 0.68 del área se encuentra dentro de 1 DE a partir de la media, 0.95 del área dentro de 2 DE y casi toda el área dentro de 3 DE.Qué fracción del área total se encuentra entre la media (Zo) y 0.7 DE (Z = 0.7)Solución Buscar en la tabla de Z (anexo 4) el valor para la fracción 0.7 DE. Observe que el valor de Z, hasta el décimo más cercano se encuentra en la columna de la izquierda. La segunda cifra decimal de Z correspondiente al centésimo, se da en la fila superior. Así el área entre la media y el punto situado a Z = 0.7 DE a la derecha de la tabla es 0.2580.

Similarmente el área entre la media (Z0) y Z = 1.0 es de 0.3413, por lo tanto el área que se encuentra dentro de 1 DE en ambos lados de la media es dos veces 0.3413 o sea 0.6828El área que se encuentra dentro de 2 DE a partir de la media es de 0.4772. Si se quiere el valor en ambos lados de la grafica es 0.9544.Estos números proporcionan los valores aproximados de 68 y 95 % supuestos en la regla de distribución empírica Para encontrar un área de Z = 0.57 DE a la derecha de la media (Z0), en la columna de la izquierda buscamos la fila que tiene el valor 5, luego en la fila superior buscamos la columna que tiene el valor 0.07. La unión de las filas nos da el área aproximada de 0.2157.En algunas ocasiones se tiene que hallar áreas de Z que no parte de la media (Z0) y pueden abarcar un solo lado de la media o ambos lados de la misma, por lo tanto la forma de calcular el área se modifica como se ejemplifica a continuación:

Ejemplo 2. Hallar el área que se encuentra entre 1.63 DE (Z=1.63) y 1.88 DE (Z=1.88)Solución: Primeramente se hallan en la tabla los valores de Z=1.63 y Z=1.88

Z=1.63 en la tabla tiene una probabilidad de 0.4484Z=1.88 en la tabla tiene una probabilidad de 0.4699Como ambos valores de Z están por encima de la media (+) al mayor valor de Z (1.88) que dio 0.4699 se le resta el menor valor de Z (1.63) que dio 0.4484, por lo tanto el valor de z que se encuentra entre esas DE se puede calcular por:Z = 0.4699 – 0.4484 Z = 0.0125

Ejemplo 3. Hallar el área que se encuentra entre -0.50 DE (Z= -0.50) y 1.00 DE (Z=1.00)Solución: Primeramente se hallan en la tabla los valores de Z= -0.50 y Z=1.00

Page 22: Apuntes de estadística escolarizado

Z=0.50 en la tabla tiene una probabilidad de 0.1915Z=1.00 en la tabla tiene una probabilidad de 0.3413En este caso un valore de Z están por encima de la media (+) y el otro por debajo de la misma (-), por lo tanto el valor de Z (0.50) que dio 0.1915 se suma al valor de Z (1.00) que dio 0.3413, por lo que el valor de z que se encuentra entre esas DE se puede calcular por:Z = 0.1915 – 0.3413 Z = 0.5320

En algunos casos no se tienen los valores de Z, pero estos se puede calcular utilizando los datos tomados de la población y la muestra tomada de la misma, utilizando la formula:

X - µZ = ------------- (pudiendo ser cualquier valor entre 0.01 y 3.0 DE) DE (σ)

X = media de la muestraµ = media generalDE (σ) = desviación estándar

3.3.3.1 Distribución muestral de mediasCuando se trata de muestras de una población los valores de µ y DE (σ) para la muestra se pueden calcular por N – n µx = µ DE (σ) x = DE (σ)/√N * √ ----------- n - 1Ejemplo: 500 lechones tiene un peso medio de 5.02 Kg. y una DE de 0.30 Kg. Hallar la probabilidad de que una muestra al azar de 100 lechones tanga una media comprendida entre 4.96 y 5.00 Kg. y exprésalo como % de probabilidad

Datos población Datos de la muestraµ = 5.02 X; Z1 = 4.96 y Z2 = 5.00 σ = 0.30 DE = ¿?N = 500 n = 100

Soluciónµx = µ µ = 5.02Para poder aplicar la formula de Z se necesita la DE de la muestra, y no se tiene, por lo tanto se tiene que calcular por la formula: N – n 500 - 100DE(σ)x = DE(σ)/√ N * √ ---------- = 0.30/ √ 500 * √ -------------- = 0.0134 * 2.010 = 0.027 n – 1 100 – 1

Se busca los valores de Z para 4.96 y 5.00

Page 23: Apuntes de estadística escolarizado

X - µ 4.96 – 5.02Z (4.96) = ----------- = --------------- = - 2.22 DE (σ) 0.027

X - µ 5.00 – 5.02Z (5.00 ) = ----------- = --------------- = - 0.74 DE(σ) 0.027

La probabilidad pedida esta entre Z = - 2.22 y Z = - 0.74El área entre Z = -2.22 y Z = 0 es 0.4868El área entre Z = -0.74 y Z = 0 es 0.2704El área pedida es de 0.4868 – 0.2704 = 0.2164

Por lo tanto la probabilidad de que la muestra de 100 lechones tenga una media entre 4.96 y 5.00 es de 0.2164 en porcentaje (0.2164 x 100) es de 21.64 % de probabilidad.

3.4 Ejercicios de aprendizaje Ejercicio 1. (25 minutos)En equipos de trabajo, lee cuidadosamente los conceptos y ejercicios del subtema de conceptos de probabilidad que se encuentran en los apuntes de la unidad III para determinar los siguientes conceptos y preguntas:

a) Cual es el campo de estudio de la estadística inferencial y como influye la probabilidad en él.b) Que es la probabilidadc) Cual es la formula desglosada de la probabilidad y que valores puede tenerd) Cual es la formula desglosada de la probabilidad de no ocurrencia e) Como se calcula la probabilidad como frecuencia relativa

Ejercicio 2. (25 minutos)Con los juegos de azar proporcionados por el instructor realiza uno de los siguientes ejercicios

a) Utiliza la formulas de probabilidad para predecir y calcular (poner los valores) de la probabilidad de ocurrencia de los siguientes eventos:E1) La probabilidad de sacar un as en una sola extracción de un manojo de cartasE2) La probabilidad de sacar el as de corazones rojo de un manojo de cartas E3) La probabilidad de sacar un carta con corazón rojo de un manojo de cartas

b) Utiliza la formula de probabilidad para predecir y calcular (poner los valores) de la probabilidad de ocurrencia de los siguientes eventos:E1) La probabilidad de que te toque tomar en un solo lanzamiento de una pirinolaE2) La probabilidad de que te toque poner en el lanzamiento de una pirinolaE3) La probabilidad de que te caiga toma todo en el lanzamiento de una pirinola

Page 24: Apuntes de estadística escolarizado

c) Utiliza la formula de probabilidad para predecir y calcular (poner los valores) de la probabilidad de ocurrencia de los siguientes eventos:E1) La probabilidad de que te caiga un número par en un solo lanzamiento de un dadoE2) La probabilidad de que no te caiga un número par en un solo lanzamiento de un dadoE3) La probabilidad de que te caiga el número 6 en un solo lanzamiento de un dado

d) Anota la pizarra las formulas y los resultados obtenidos en cada evento calculado, explicándole a tus compañeros como se obtuvieron (10 minutos por cada equipo de trabajo).

Ejercicio 3. (30 minutos) En equipos de trabajo de 5 o 6 integrantes, lee cuidadosamente los conceptos y ejercicios que se encuentran en los apuntes de la unidad III en los subtemas de variables y distribución de la probabilidad para determinar los siguientes conceptos y preguntas:a) Que es una variable aleatoria y como se representab) De acuerdo con su valor numérico que es una variable discretac) De acuerdo con su valor numérico que es una variable continuad) Menciona dos ejemplos que no estén en los apuntes de variables binomiales e) Que es una muestra aleatoria y cuando se utilizaf) Por que una variable aleatoria permite definir la probabilidad de ocurrencia g) Que es la distribución de la probabilidad

Ejercicio 4. (30 minutos)Con el auxilio de los apuntes de los subtemas de distribución de la probabilidad determina cual es el tamaño de la población o espacio muestreal que existe en el lanzamiento de dos dados numéricos, que valores puede tomar la suma o combinación de una cara de cada dado en un lanzamiento (la cual se conoce como variable aleatoria discreta) y cual es el valor de ocurrencia (p) y no ocurrencia (q) de cada variable aleatoria. Ejercicio 5. (60 minutos)a) Con los dados proporcionados por el instructor realiza (Equipo 1: 75 lanzamientos, Equipo 2: 100 lanzamientos, Equipo 3: 125 lanzamientos y Equipo 4: 150 lanzamientos) y a anota en la tabla cada uno de los resultados obtenidos.

Suma veces que cayo Total23456789101112

b) Con los resultados de total de veces de cada variable (suma de los números) realiza un grafica de puntos para representar la probabilidad de cada ocurrencia de cada valor.

c) Contesta las siguientes interrogantes:

Page 25: Apuntes de estadística escolarizado

Que nombre la darías el punto medio de la gráfica Que sucede con la probabilidad a medida que se acerca o aleja el valor del punto medioComo medirías o que valor le darías a la cercanía o lejanía de un valor de su punto medio

Ejercicio 6. En hojas blancas de manera manual, con la ayuda de la calculadora o en el programa computarizado Excel, realiza los siguientes ejercicios.

a) Supongamos que en un tanque de nitrógeno líquido se tienen 15 dosis de semen en buenas condiciones y 4 dosis caducas. Cual es la probabilidad de sacar 1 dosis de semen buena y cuales la probabilidad de sacar una dosis de semen caduca.

b) La probabilidad de éxito (efectividad) de un nuevo insecticida orgánico a base extracto del árbol de nin para combatir la mosca blanca es 0.83. Calcula la probabilidad de que una vez administrada a un lote de injertos de naranja que consta de 20 plantas a) Ninguna sufra ataques de la plagab) Todas las plantas sean afectadas por la plaga,c) Solo el 50% sea afectada por la plaga d) Determina la media del número de plantas infectadas e) Determina la varianza del número de plantas infectadas e) Determina la desviación estándar del número de plantas infectadas

c) Da 10 ejemplos de variables continuas, 5 ejemplos de variables discretas y 5 ejemplos de variables binomiales.

d) Encontrar un área entre Z = 0 y Z = 1.63 DE Encontrar un área entre Z = 0 y Z = 1.88 DE Encontrar un área entre Z = 0 y Z = 2.57 DE Encontrar un área entre Z = 1.83 y Z = 1.98 DE Encontrar un área entre Z = -1.45 y Z = 1.67 DE

e) Marca John Deer asegura que el rendimiento de sus tractores de inyección electrónica fue de 25.5 Km./litro de disel, cuando realizo pruebas en las últimas 750 unidades producidas. Si los productores del ingenio azucarero adquieren 50 unidades con el fin de optimizar el uso de combustible en sus cultivos, ¿Qué % de los tractores crees que tengan un rendimiento de 27 Km./litro de disel.

UNIDAD IV. Estimación

Page 26: Apuntes de estadística escolarizado

4.1 Hipótesis estadísticaA menudo se tiene que tomar decisiones sobre una población partiendo de información procedente de una muestra de la misma.

Ejemplos: Si se quiere saber si un fertilizante es mejor que otro en el cultivo de chile habanero.Si existen diferencias en el peso al destete de dos razas de cerdos.Si el rendimiento de una Ha. de caña en Sac-Xan es igual o superior a la producción media de la región.

Para tomar tales decisiones sin que se estudie o analice toda la población “es conveniente hacer determinados supuestos o enunciados a cerca de las poblaciones que se estudian”.Tales supuestos se llaman hipótesis estadísticas y pueden ser ciertas o no. Existen 2 tipos de hipótesis estadísticas:

4.1.1 Hipótesis nula (Ho) Las hipótesis nulas afirman que no hay diferencias estadísticas de la muestra y el parámetro de la población o que no hay diferencias entre dos muestras de los fenómenos (tratamientos) en estudio.

4.1.2 Hipótesis alternativa (Ha)Las hipótesis alternativas afirman que existen diferencias entre la muestra y la población o que existen diferencias entre dos tratamientos.

Ejemplo 1: Se cree que la longitud dorsal de la abeja europea es de 30 mm. Se captura un enjambre de abejas en Limones y se obtiene una media de 20 mm de longitud dorsal. Para saber si las abejas que se capturaron en el municipio son europeas o africanizadas, en términos estadísticos las hipótesis serían:

Ho: La medida de longitud dorsal obtenida de la muestra (20 mm) es igual a la medida de las abejas europeas (30 mm)

Ha: La medida de longitud dorsal obtenida de la muestra es diferente a la medida de las abejas europeas.

Ejemplo 2. El promedio de peso al destete del ganado Brahmán en un rancho es de 210 Kg. y el promedio del Indobrasil es de 190 Kg. Existen diferencias entre el peso al destete de estas dos razas o la diferencia se debe a errores de muestreo. En términos estadísticos las hipótesis serían:

Ho: El promedio de peso al destete del ganado Indobrasil (190 Kg.) es igual al peso al destete del ganado Brahmán (210 Kg.)

Ha: El promedio de peso al destete del ganado Indobrasil (190 Kg.) es mayor que el del Brahmán (210 Kg.).

El procedimiento que facilita decidir si esas hipótesis son ciertas o falsas (se aceptan o se rechazan) o el determinar si lo observado es diferentes a los resultados esperados se llaman “ensayos de hipótesis” o reglas de decisión. Para que un ensayo de hipótesis sea correcto, debe diseñarse de forma que minimice los errores de decisión.

Page 27: Apuntes de estadística escolarizado

4.2 Tipos de erroresEl ensayo de hipótesis esta sujeto a dos tipos de errores que son predominantes en cualquier problema de decisión, en el que hay dos elecciones posibles. Podemos rechazar la hipótesis nula cuando en realidad es verdadera, o podemos aceptar la hipótesis nula cuando en realidad es falsa. Estos errores se llaman de tipo I y tipo II, respectivamente.. 4.2.1 Error tipo ISi rechaza una hipótesis cuando debería aceptarse se conoce como error tipo I

4.2.2 Error Tipo IISi acepta una hipótesis cuando debería rechazarse se conoce como error tipo II

La probabilidad máxima en la cual se puede cometer un error tipo I en una prueba se llama nivel de significancía del ensayo y se interpreta como la probabilidad del que el estadístico de prueba este en la zona de rechazo de la hipótesis alterna. La forma de representarla es α. El valor de significancia mas utilizado es el de 0.05 (α = 0.05) (P<0.05). Tal expresión significa que la probabilidad de cometer un error tipo I es de 5% e indican que si la probabilidad de es mayor de 5% se debe aceptar la hipótesis nula.La probabilidad de cometer un error tipo II se conoce como beta y se representa por B, y se interpreta como la probabilidad de que el estadístico de prueba este entre la zona de aceptación de la hipótesis alterna. El valor de significancia mas utilizada para B es el de 95% (B = 0.95) o (P>0.05). Tal expresión significa que la probabilidad de cometer un error tipo II es de 95% e indican que si la probabilidad de es mayor o igual a 95%, se debe aceptar la hipótesis alterna.Asumiendo que la hipótesis nula (Ho) es verdadera, un aumento de α significa una disminución en B. Es decir, si aumenta la probabilidad de α disminuye la de B. La única forma de reducir al mismo tiempo ambos errores de decisión es aumentar el tamaño de la muestra. Esto puede ser posible o no.En la practica los valores de α se pueden encontrar tabulados en la mayoría de los libros de estadística. Generalmente existe una tabla para cada tipo de prueba estadística. Los contenidos de las tablas se denominan valor tabular o valor de tabla.

4.3 Procedimientos para las pruebas de hipótesis de una población La aceptación o rechazo de la hipótesis (Ho) se basa en estadísticos de prueba. Los más usados son: La prueba de T de Student, la prueba de Ji cuadrada y la prueba de F.Si el valor calculado para el estadístico de prueba es mayor que el valor de tabla se rechaza la hipótesis nula y se acepta la hipótesis alterna.

Ejemplo: Cuando Tc >Tt se rechaza Ho. O cuando Tc<Tt se acepta Ho.

4.3.1 Para la media – 4.3.2 Para la varianza – 4.3.3 Para la proporción – 4.4 Intervalo de confianza de una población – 4.4.1 Para la media – 4.4.2 Para la varianza – 4.4.3 Para la proporción Generalmente los estadísticos de prueba se utilizan para compara los estadísticos de una población con los valores estadísticos de las muestras extraídas de la misma, con la finalidad de

Page 28: Apuntes de estadística escolarizado

determinar si la muestra pertenece o no a la población en estudio. Algunos de los procedimientos utilizados de describen a continuación. 4.3.1.1 Prueba de T de StudentSe utiliza para comparar la media de una muestra contra un valor hipotético. Se usa para comparar dos medias muéstrales. Se utiliza cuando el tamaño de la muestra es menor a 30 observaciones (n < 30). La T de Student utiliza el Error Estándar (EE) en ves de la varianza (S 2) para calcular la probabilidad de muestras pequeñas.

4.3.1.2 Comparación de una media con un valor hipotéticoLa prueba de T para comparar una media de una muestra con la media de una población, esta dada por la formula:

X - µ T = ----------- (EE = S2/√n)

X = media de la muestraµ = media de la poblaciónS2 = Varianza de la muestra EE = Error estándar de la muestra

En este caso de esta interesado en preguntar si una población tiene o no una media específica.

Ejemplo1: La familiaridad con los pesos del ganado en la región nos lleva a pesar que la media de peso a los 210 días de destete es de 180 Kg. Se pesan 25 becerros cebú y se obtiene una media de 210 Kg. con una varianza de 35 Kg. La hipótesis que se quiere probar es que la muestra de los becerros es igual al peso promedio de la región. Es decir:Ho: El peso de la muestra (210) es igual al valor regional (180) Ha: El peso de la muestra es diferente al valor regionalLas hipótesis señalan que se trata de una prueba de T de dos colasSi el valor de Tc es mayor que el valor de Tt se rechaza la hipótesis nula y se acepta la Ha.

t

Page 29: Apuntes de estadística escolarizado

X - µ 210 – 180 30T = ----------- = ----------- = -------- = 4.285 S2/√n 35/√25 7 El valor de Tt se buscar con n-1 grados de libertad (GL) y α (Anexo 5) GL = 25 -1 = 24α = 0.05 Se busca en la tabla de T (a dos colas) y equivale a 2.064Dado que 4.285 es mayor que 2.064 se rechaza la Ho y se concluye que la muestra pertenece a una población diferente a la regional.

Esta prueba garantiza que los resultados son reales y las diferencias no se deben al azar.“Cabe mencionar que el interés fue determinar si habían o no diferencias entre los dos valores, por eso se utilizo una prueba de dos colas (ambos lados de la media).

Ejemplo 2: Un investigador tiene razón suficiente para pensar que el aprovechamiento del silo de maíz en borregos es del 54%. Realiza una prueba con un lote de 7 borregos y obtiene los siguientes datos:

Borrego % aprovechamiento1 57.82 56.23 61.94 54.65 53.66 56.47 53.2

El investigador quiere probar la hipótesis del que el aprovechamiento de los borregos utilizados es mejor de lo que se espera (54%) Ha: El aprovechamiento del silo de maíz es superior al 54% (prueba de T de una cola) Con un α = 0.05Los datos arrojan que los borregos de la prueba tuvieron una X = 56.24, con una S2 = 8.89 (sacados en la calculadora)

EE = S/√n = 8.89/√7 = 3.367

56.24 -54.00Tc = --------------- = 0.665 3.367 La Tt se busca con 6 GL y α 0.05 tomando los valores de significancia en la base de la tabla (una cola) el valor es 1.943.Dado que Tc < Tt se acepta la Ho y se concluye que los borregos tuvieron un igual aprovechamiento de la media poblacional.

Page 30: Apuntes de estadística escolarizado

4.3.1.2 Comparación de dos medias muéstralesSupongamos que se tiene dos poblaciones con medias X1 y X2. A continuación se toma una muestra aleatoria de cada población para probar que ambas son iguales.La Ho que define esta diferencia entre medias se esquematiza, Ho: X1 = X2 y se prueba utilizando la formula:

χ1 - χ2 Tc = ------------ donde: S χ1 - χ2 = EE (Error Estándar de la diferencia entre las medias) S χ1 - χ2

En este caso ambas muestras tiene una media y varianza definida, y debe calcularse una varianza común, denominada Error Estándar de diferencia entre las medias (EE).El calculo de la varianza común (EE) es el primer paso a realizarse en cual quier prueba de T, donde se comparan dos medias muéstrales. Dado que existe una serie de condicionantes de las muestras que pueden hacer variara la formula para su calculo. La formula a utilizar depende de:. Si las dos muestras tienen una varianza común (iguales estadísticamente hablando)Si los valores de la varianza son conocidos o estimadosSi las dos muestras son del mismo tamañoSi las observaciones son pareadas

4.3.1.2.1 Prueba de homogeneidad para determinar si las muestras tiene varianza comúnEl primer paso es determinar si las varianzas son iguales. Una forma práctica y fácil de determinar si las dos varianzas son iguales es a través del uso de la prueba de F, mediante el siguiente procedimiento:

Se calcula la varianza de cada muestra en la calculadora tomando el total de datos de cada muestra y utilizando la función estadística de la misma.Posteriormente se calcula el valor de F dividiendo la varianza mayor entre la varianza menor (Fc= S2

1/S22 ) y el resultado se compara con el valor de F que se encuentra en las tablas (Ft)

proporcionadas en los anexos de estos apuntes..El valor de F tabulada se obtiene con los grados de libertad (gl = n1-1) de la varianza mayor en la parte de arriba de la tabla y los grados de libertad (gl = n2-1) de la varianza menor en la parte lateral izquierda de la tabla (Anexos 6, 7, 8, 9 y 10).Posteriormente se utiliza los siguientes criterios:Si el valor de F calculada (Fc) es menor que (<) la F de tablas (Ft) las varianzas comparadas son iguales o comunes. Si el valor de F calculada (Fc) es mayor que (>) la F de tablas (Ft) las varianzas comparadas son diferentes o no comunes.

4.3.1.2.2 Determinación del número de observaciones.De acuerdo con el número de observaciones de cada muestra, se pueden presentar dos casos: Caso 1: n1 = n2. (muestras con igual numero de observaciones tomadas en cada la población) Caso 2: n1 ≠ n2. (muestras con desigual número de observaciones tomadas en cada población) Con ambos factores se determina que tipos de formula utilizar para cada problema o pruebas de T especificas, tiendo en cuanta que X1 y X2 son medias de dos poblaciones independientes, donde

Page 31: Apuntes de estadística escolarizado

se han toma una muestra de cada una y se obtiene sus medias χ1 - χ2, varianza S1 – S2 y tamaño de muestra n1 – n2 y se desea probar la Ho: X1 = X2, suponiendo que las poblaciones se distribuyen normalmente y tiene un varianza común pero desconocidas, pueden encontrarse los siguientes casos para calcular los valores de la formula:

4.3.1. 2.3 Muestras con iguales varianzas e igual numero de observaciones Para este tipo de prueba los valores de Tc y Tt se estiman mediante las siguientes formulas

χ1 - χ2 Tc = ------------ EE SC χ1 + SC χ2

EE = √ 2S2/n donde S2 = --------------------- N - 2S2 = VarianzaSCX = Suma de cuadrados de XN = Total de observaciones de las dos muestras

Para obtener el valor de Tt se utilizan el nivel de significancia deseado (α. = 0.05) y GL sacado por N -2, es decir el total de las observaciones menos 2. La decisión de utilizar la tabla de t de una o dos colas depende de la hipótesis plateada.

4.3.1.2.4 Muestras con iguales varianzas y desigual numero de observaciones Para este tipo de prueba los valores de Tc y Tt se estiman mediante las siguientes formulas

χ1 - χ2 Tc = ------------ EE SC χ1 + SC χ2

EE = √ S2 (1/ n1 +1/ n2) donde S2 = --------------------- N – 2

Para obtener el valor de Tt se utilizan el nivel de significancia deseado (α. = 0.05) y GL sacado por N -2, es decir el total de las observaciones menos 2. La decisión de utilizar la tabla de t de una o dos colas depende de la hipótesis plateada.

4.3.1.2.5 Muestras independientes de varianza desigual (Heterogéneas) Cuando se realiza la prueba de F y las varianzas no son iguales (S1 ≠ S2) y se quiere probar la hipótesis de que X1 = X2, la forma de calcular Tc y Tt cambian a:

χ1 - χ2 Tc = ------------ EE

El EE se calcula por: EE = √ S21/n1 + S2

2/n2

Page 32: Apuntes de estadística escolarizado

En este caso no hay necesidad de calcular una varianza común, dado que resulto que las varianzas son desiguales e independientes, por lo que S2

1 y S22 se toman directamente de los datos

utilizando la calculadora.

Sin embargo, para obtener la Tt, se tienen que obtener los grados de libertad efectivos (GL) para ambas muestras mediante la formula:

(S1/n1 + S2/n2)2

GL = --------------------------------------------- { (S2

1/n1)2/n1-1 } + { (S22/n2)2/n2-1 }

El α. = 0.05

Ejemplo 1. En un experimento con 22 plantas. Se probaron dos hormonas de crecimiento, la Adenotropa (A) y la Corticotropa (C). 11 plantas recibieron la hormona A y 11 plantas la hormona C. Los efectos se midieron pesando las plantas después de 15 días de aplicación.

La hipótesis planteada es que las hormonas producen iguales efectos.Ho: No existen diferencias en el crecimiento de la plantas por efecto del tipo de hormona

Los resultados fueron los siguientes:HormonaA 57 120 101 137 119 117 104 73 53 68 118HormonaC 89 30 82 50 39 22 57 32 96 31 88

Cálculos necesariosHormona A Hormona Cχ 97 χ 56∑χ 1067 ∑χ 616∑χ2 111971 ∑χ2 42244S 29.106 S 27.83S2 847.2 S2 774.8N 11 N 11(∑χ)2/n (1067)2/11 = 103499 (∑χ)2/n 34496SCχ = ∑χ2 - (∑χ)2/n 111971–103499 = 8474 SCχ= ∑χ2 - (∑χ)2/n 42444– 4496 = 7948

1. Se toman de los valores de las varianzas de la calculadora).. S2 A = 847.2 S2 C = 774.8 2. Se realiza la prueba de homogeneidad de las varianzas

Fc = S21/S2

2 = 847.2 / 774.8 = 1.093Ft = 10 GL en el numerador y 10 GL en el denominador, a un α = 0.05 Ft = 2.97

Page 33: Apuntes de estadística escolarizado

Dado que Fc (1.093) < Ft (2.097) se acepta la Ho de que las varianzas son iguales.

3. Se calcula el EE de la diferencia entre medias En este caso la varianza común (S2

1 = S22) con igual numero de observaciones (n1 = n2)

EE = √ 2S2/n

SC χ1 + SC χ2 8,474 + 7,948 16,220 S2 = --------------------- = ------------------- = -------------- = 811.0 N – 2 22 – 2 20

EE = √ 2S2/n = √2 (811.0)/22 = 12.14

4. Se calcula T

χ1 - χ2 97 – 56 41Tc = ------------------- = ------------------ = -------------- = 3.38 EE = √ 2S2/n √2 (811.0)/22 12.14

5. Se determina Tt

Tt se busca con 20 GL (N – 2) y α = 0.05 (tabla de dos colas)Tt = 2.086Dado que Tc (3.38) > Tt (2.086) se rechaza la hipótesis nula y se concluye que existen diferencias en el peso de las plantas por efecto de las hormonas. Donde la hormona A da un peso superior a la hormona C.

4.3.1.2.6 Calculo de T con tratamientos pareadosEsta distribución se utiliza cuando los tratamientos por comparar son muy heterogéneos y hay similitud entre las observaciones contiguas o están correlacionadas. Esta prueba trata de eliminar errores de observaciones o fuentes de variación por falta de tiempo o espacio para hacer determinado experimento.

Ejemplo 1. En un estudio con Leucaena se compararon dos variedades durante 9 años. En cada año se sembraron las variedades peruana (P) y Leucocephala (L) y se obtuvieron los resultados de forraje verde en ton/ha.La hipótesis planteada es que la diferencia promedio de ambos variedades es igual Ho: No existen diferencias en el rendimiento de la leucaena por efecto de la variedad (µd = 0) Ha Existen diferencias en el rendimiento de la leucaena por efecto de la variedad (µd ≠ 0)

Resultados de dos variedades de Leucaena por 9 añosvariedades Diferencia

Año P L Di1992 71.0 54.7 16.31993 73.9 60.6 13.3

Page 34: Apuntes de estadística escolarizado

1994 48.9 45.1 3.81995 78.9 71.0 7.91996 43.5 40.9 2.61997 47.9 45.4 2.51998 63.0 53.4 9.61999 48.4 41.2 7.22000 48.1 44.8 3.3

Cálculos (di)χd 7.38∑χd 66.5∑χ2d 687.33Sd 4.95S2d 24.49Nd 9(∑d)2/n (66.5)2/9 = 491.36

∑d2 - ( ( ∑d)2 /n ) 687.3 – 491.36 195.97S2d = -------------------------- = ---------------------- = -------------- = 24.5 N – 1 9 – 1 8

EE = √ S2/n = √ 24.5/9 = 1.663

χd 7.38Tc = --------- = ----------- = 4.48 EE 1.663

Tt se busca con 8 GL (N – 1) y α = 0.05; Tt = 2.306Dado que Tc (4.48) > Tt (2.306) rechazamos la hipótesis Ho y concluimos que las variedades son diferentes. Donde la variedad peruana es mejor que la leucocephala.

4.4 Prueba de Ji cuadrada (para intervalos de confianza de una población) La distribución de Ji cuadrada se utiliza cuando se quiere comparar la media de una población observada con su valor esperado de probabilidad. Muchas veces, los resultados obtenidos de muestras no siempre concuerdan exactamente con los resultados teóricos esperados, según las reglas de probabilidad. Por ejemplo, aunque consideraciones teóricas conduzcan a esperar 50 machos y 50 hembras del nacimiento de 100 becerros, es raro que se obtengan exactamente estos resultados.Cuando se desea determinar si las frecuencias observadas difieren significativamente de las esperadas se utiliza el estadístico de prueba Ji cuadrada. Este estadístico da una medida de la discrepancia existente entre las frecuencias observadas y esperadas.

(O j - E j)2 Chi (X2) = ∑ ------------------ E j

Page 35: Apuntes de estadística escolarizado

Donde O j es la frecuencia observada y E j es la esperada en la celda j. Si la X2 = 0, la frecuencias observadas y esperadas concuerdan exactamente; mientras que si X2>0, no coinciden exactamente. A valores mayores de X2 mayores son las discrepancias entre las frecuencias observadas y esperadas.

Nota: Al igual que la distribución de t, la distribución de Ji cuadrada se calcula por el número de desviaciones independientes, es decir por los grados de libertad.El número de grados de libertad de un estadístico se define como el tamaño de la muestra menos el número de los parámetros de la población que deben estimarse a partir de las observaciones de la muestra. Se simboliza Gl (Gl = t – 1) y se buscan en el anexo 11

Ejemplo 1. Se desea determinar si se cumplen las leyes de la herencia mendeliana para la característica del cuello desnudo en un lote de 200 pollitos, resultado del cruzamiento de un gallo cuello desnudo (Nana) y gallinas (Nana) heterocigotos (no puros). De acuerdo con las leyes mendelianas la herencia debe de dar los resultados:NaNa = pollo cuello desnudoNana = pollo cuello desnudonana = pollos sin cuello desnudo

Ho: No existen diferencias entre los valores observados y los esperados (Ho = 0) Genotipo nana Nana NANAObservado 45 102 53Esperado 50 100 50

(45 – 50) 2 (102 – 100) 2 (53 – 50) 2 52 22 -32 X2 c = -------------- + ----------------- + --------------- = ----- + ------ + ------ = 0.72 50 100 50 50 100 50

X2t = Gl (numero de clases – 1) y α → o sea 2 Gl (3 -1) y α = 0.05 (Anexo 11)Cuando las clases del valor esperado son mayor de 2, se multiplica el numero de columnas por el numero de filas a las que previamente se les resta uno, para sacar los grados de libertad (Gl = Columnas -1 * filas -1)

Si la Xc > Xt rechazamos la Ho.Xc (0.72) < Xt (5.99)Conclusión:Por lo tanto aceptamos la hipótesis nula y se concluye que las frecuencias observadas están de acuerdo con las frecuencias esperadas de las leyes de Mendel.

En algunas ocasiones la naturaleza de los trabajos no permite tener la seguridad de los valores esperados, por lo tanto estos deben ser calculados a través de los resultados de los valores observados.

Page 36: Apuntes de estadística escolarizado

Ejemplo 2. Se desea determinar si el suero de inmunización del cólera porcino, es útil para curar la presencia de la enfermedad en cerdos de traspatio. Por lo tanto, a un grupo de animales se les inyecta el suero (grupo tratado) y al otro grupo agua destilada (grupo testigo).

Efectividad Suero

Testigo Total

Sanaron 75 25 100No Sanaron 5 45 50Total 80 70 150

A continuación se procede a calcular las frecuencias esperadas.La frecuencia esperada para la celda 1, se obtiene multiplicando los totales marginales y dividiendo el resultado entre el gran total.E1 = 100 * 80 / 150 = 53.33Similarmente las frecuencias esperadas para las celdas 2, 3 y 4.E2 = 100 * 70 / 150 = 46.67 E3 = 50 * 80 / 150 = 26.67E4 = 50 * 70 / 150 = 23.33

Entonces el valor de Chi – cuadrada se calcula como:

(O j - E j)2 X2 = ∑ ------------------ E j

(75 – 53.33) 2 (25 – 46.67) 2 (5 – 26.67) 2 (45 – 23.33) 2

X2 = ---------------- + ----------------- + ------------------ + ------------------- 53.33 46.67 26.67 23.33

X2 = 8.805 + 10.062 + 17.607 + 20.128 = 56.602 → X2c = 56.602

X2 t = Chi de tabla se busca con 1 Gl (2 columnas – 1) y α = 0.05; la cual resulta = 3.84

X2c (56.602) > X2t (3.84) por lo tanto se rechaza la hipótesis nula

El porcentaje o proporciones de animales que sanaron con el suero = 75 / 80 * 100 = 93.75 %El porcentaje de sanos en el testigo = 25 / 70 * 100 = 35.71 %

Conclusiones:Existen diferencias entre el grupo de animales tratados (93.75 % sanaron) y el grupo de animales testigos (35.71 %).

Nota. Si la Ho no se hubiera rechazado, sería equivalente a afirmar que la recuperación es independiente del empleo del suero, es decir la clasificaciones son independientes.

4.5 Ejercicios de aprendizaje

Page 37: Apuntes de estadística escolarizado

En parejas realiza los siguientes ejercicios

Ejercicio 1. Contesta el siguiente cuestionarioa) Cuando se deben formular una hipótesis estadísticab) Que afirma estadísticamente una hipótesis nulac) Que afirma estadísticamente una hipótesis alternativa

Ejercicio 2. Realiza el siguiente ejercicioCon las conclusiones sacadas del cuestionario anterior y tomando como base los ejemplos que se encuentran en los apuntes de la unidad IV, formula 5 hipótesis nulas y 5 hipótesis alternas, que estén relacionadas con el área agropecuario. Desde luego no pueden ser las mismas de los apuntes.

Ejercicio 3. Contesta el siguiente cuestionarioa) Que es un ensayo o prueba de hipótesis b) Que tipos de errores se pueden cometer en un ensayo o prueba de hipótesisc) Que es un error tipo Id) Que es un error tipo IIe) Que es el nivel de significancia, como se interpreta, como se representa y que nivel se utiliza.f) Como se conoce a la probabilidad de cometer un error tipo II, como se representa y que nivel se utilizag) Donde y como se pueden encontrar los valores de alfa y beta de los diferentes tipos de ensayo de hipótesish) Que es un estadístico de pruebai) Cuales son los estadísticos de prueba mas utilizados en el ámbito agropecuarioj) Cuando se utiliza un estadístico de prueba

Ejercicio 4. Realiza el siguiente formularioa) Cuales son las formulas de T de Studen para comparar una muestra con un valor hipotético o poblacionalb) Cuales son las formulas de T de Studen para comparar dos medias muéstrales c) Cuales son la formulas de T de Studen para comparar dos tratamientos pareados d) Cuales son la formulas para comparar las medias de una población observada con un valor de probabilidad esperado o prueba de Ji cuadrada

Ejercicio 5. En hojas blancas de manera manual, con la ayuda de la calculadora o en el programa computarizado Excel, realiza los siguientes ejercicios.

a) El promedio de producción de leche en la región para vacas Suizo Cebú es de 4.75 litros por vaca por día. Se tomo en un rancho de la región 30 vacas elegidas al azar a las que se alimento con un suplemento a base de melaza, gallinaza, sorgo y sal mineral por un periodo de 30 días. Durante todo el periodo se midió la producción de leche y se saco el promedio de producción diaria para cada vaca.Realiza una prueba de T de Student para probar la siguiente hipótesis.Ha: Las suplementación mejora la producción diaria de leche en las vacas No de vaca 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

Page 38: Apuntes de estadística escolarizado

Producción 7.5 8.0 5.0 4.0 2.0 5.0 8.9 7.6 9.1 8.0 5.2 6.3 4.2 5.0 6.1

No de vaca 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30Producción 5.0 4.0 6.0 4.5 4.9 3.00 3.2 5.9 9.0 5.0 4.5 9.0 8.9 9.2 9.7

b) El promedio del crecimiento de las plantas de zapote en vivero es de 80 cm por año, un productor cree que con un nuevo sistema de contenedores puede mejorar el crecimiento de las plantas, las cuales se siembra bajo condiciones controladas. Los resultados obtenidos en cm después de un año de siembra se muestran en el cuadro siguiente.Crees que exista suficiente evidencia estadística para pensar que el productor tiene razón. Platea las hipótesis que creas convenientes y pruébalas.

73 94 98 90 49 108102 79 74 76 82 95118 96 56 90 73 97104 98 111 64 86 8081 102 95 86 81 98

c) Un productor pretende comparar la producción en Kg. de una nueva variedad de fríjol (Mantequilla) con la variedad que se siembra comúnmente en la región, de la cual se obtiene normalmente 220 Kg. por hectárea. El productor siembra 20 hectáreas de la nueva variedad y obtiene los siguientes resultados

Rendimiento de fríjol mantequilla / ha. .420 460 380 410320 380 310 300250 320 280 260350 420 460 400360 250 220 260

El productor desea saber si el rendimiento de la nueva variedad es igual al rendimiento que obtiene normalmente o si la variedad es mejor.Plantea las hipótesis que creas convenientes para contestar las preguntas del productor.Con los resultados que obtuviste que le recomendarías.

d) En una graja de producción porcina, la ganancia normal de peso obtenida en cerdos de engorda es de 0.810 Kg. por animal por día alimentándolos con una dieta que contiene 14% de proteína cruda. El encargado de la alimentación cree que aumentando el nivel de proteína cruda a 18% en la dieta el peso aumentara. Para probar su idea alimenta un grupo de cerdos durante 3 meses y obtiene los resultados que se muestran abajo.

0.690 0.960 0.810 0.730 0.660 0.810 0.7100.660 0.760 0.810 0.650 0.800 1.250 1.0100.780 0.890 0.930 0.790 0.840 0.830 0.7000.740 0.710 0.830 0.690 0.730 0.790 0.850

La hipótesis ha probar fue:

Page 39: Apuntes de estadística escolarizado

Ha: El nivel de 18% de proteína cruda mejora la ganancia de peso ¿Crees que el encargado tiene razón?.¿En que te basas?

e) Un investigador pecuario trabajando con cabras lecheras, desea probar un suplemento fosfatado para la producción de leche, contra cabras sin suplementar. El efecto del suplemento se midió como la producción de leche por cabra por día. Se utilizaron 10 animales por cada tratamiento. Los resultados obtenidos después del experimento son los siguientes.

Testigo Ortofosfato1.150 1.4501.125 1.5501.100 1.5471.112 1.6501.195 1.4001.125 1.5501.150 1.4501.150 1.4501.125 1.5501.100 1.547

Prueba la hipótesis:Ho: el suplemento fosfatado mejora la producción de leche en cabras lecheras Saca tus conclusiones del trabajo

g) Un investigador esta tratando de probar la eficacia de escarificación de semillas de Leucaena con hidróxido de sodio (NaOH), para lo cual trato un lote de semillas y les hizo una prueba de germinación, el investigador comparo sus resultados con la germinación de semillas sin tratar.

Efectividad Testigo NaOH TotalGerminaron 745 909No germinaron 375 223Total

h) La eficacia de dos herbicidas (2-4 D amina y faena) se ha probado por el numero de plantas por hectárea de que elimina o deja de eliminar. Un productor desea saber si es lo mismo usar cualquiera de los dos herbicidas, dado que el faena vale 5 veces más que el 2 – 4 D amina.Plantas 2-4 D amina Faena TotalMuertas 1117 405Vivas 223 679Total

i) Un investigador trata de averiguar cual es el mejor método de escarificación de semillas de Leucaena, para lo cual utiliza cuatro diferentes tratamientos, ácido sulfúrico (H2SO), hidróxido de sodio (NaOH) y calor, Se utilizo un lote de semillas por cada método y se les hizo una prueba de germinación, el investigador comparo sus resultados con la germinación de semillas sin tratar.

Page 40: Apuntes de estadística escolarizado

Efectividad Testigo H2SO NaOH Calor TotalGerminaron 745 909 1117 450No germinaron 591 375 223 679Podridas 14 66 10 221UNIDAD V. Regresión y correlación

5.1 Regresión La aplicación de los conceptos de probabilidad en la producción agrícola, pecuaria y forestal, permiten predecir la influencia de algunos factores en el comportamiento productivo de animales, cultivos, plantas o calcular el grado de relación que existe entre esos factores y los caracteres productivos. Las herramientas matemáticas que facilitan estos aspectos son la regresión y la correlación.

5.1.1 Regresión lineal – 5.1.2 Regresión no linealEs el procedimiento que se usa para construir una ecuación de predicción para una variable aleatoria (que puede ser x carácter productivo) como efecto de una o mas variables independientes (obtenidas de rasgos productivos, mediciones, datos de producción etc.). Es decir se trata de predecir el comportamiento de una variable como resultado de la observación de otra u otras variables.

Ejemplo: En el sector de producción de caña es de sumo interés para los productores, poder estimar los volúmenes de producción para las siguientes cosechas en sus parcelas. Sin embargo los productores saben de antemano que no todas las parcelas producen igual, pues el rendimiento depende de factores como la fertilización, el tipo de suelo, las labores de cultivo, el tipo de maquinaria utilizada, entre otros. En tal sentido los productores quieren predecir como se incrementarían sus rendimientos tomando en cuenta que van a fertilizar sus parcelas. Para realizar las estimaciones los productores cuentan con la información de 10 parcelas distribuidas en ejidos diferentes con distintas características de producción, que muestran el rendimiento de las parcelas antes y después de la aplicación de fertilizante en cuestión. Dicha predicción le permitiría a cada productor decidir si realiza la inversión en ese tipo de fertilizante o no lo aplica o se cambia a otro, antes de comprar y aplicar el producto en cuestión, que se muestran en el cuadro siguiente.

Parcela Producción antes de fertilizar Ton/Ha. (X)

Producción después de fertilizar Ton/Ha. (Y)

1 39 652 43 783 21 524 64 825 57 926 47 897 28 738 75 989 34 5610 52 75

Puede observarse que el problema planteado es muy general, pues estamos interesados en una variable aleatoria (Y) que esta relacionada con algunas variables independientes (X1, X2, X3….).

Page 41: Apuntes de estadística escolarizado

La variable aleatoria en este caso es el rendimiento futuro de las parcelas y las variables independientes que influyen en el rendimiento son la fertilización (X1), el tipo de suelo (X2), las labores de cultivo (X3), el tipo de maquinaria (X4). En este caso nos interesa únicamente la primera variable.El objetivo de la regresión es medir el efecto de las variables independientes (X1, X2, X3….) para una parcela cualquiera (en este caso nos interesa únicamente la primera variable) y colocar esos valores en una ecuación de predicción y así poder estimar el promedio de producción de cualquier otra parcela. Es decir se trata de construir una ecuación que permita estimar la producción futura de cualquier parcela como efecto de la fertilización El primer paso para solucionar este problema, es construir una grafica con los datos de los productores, tomando los rendimientos de las parcelas después de fertilizar como eje Y, y la producción antes de fertilizar como eje X y trazar una línea a través de los puntos de tal manera que todos queden equidistantes de la línea trazada (línea de mejor ajuste).

En teoría se puede utilizar la grafica para predecir la producción de una parcela en función de la fertilización, pues la recta representa un modelo matemático que expresa la supuesta relación funcional entre Y y X (la producción de la parcela y la fertilización). Sin embargo la ecuación debe expresarse matemáticamente, de tal manera que pueda utilizarse en cálculos futuros, por lo cual debemos recordar que la ecuación matemática de una línea recta es:

Y = βo + β1X

Donde βo es el punto de intersección con el eje Y y β1 es la pendiente o inclinación de la recta. Cuando trazamos una línea a través de los puntos en realidad estamos trazando un modelo matemático deterministico, por que cuando se coloca un valor de X en la ecuación, el valor de Y queda determinado y no deja abierta la posibilidad de error. Por lo tanto los modelos deterministicos son bastante adecuados para utilizarse como herramienta de predicción.

Regresión lineal

0

20

40

60

80

100

120

0 20 40 60 80

Antes de fertilizar

Des

pu

es d

e fe

rtili

zar

Serie1

Page 42: Apuntes de estadística escolarizado

El segundo paso para la solución de la ecuación de la recta de mejor ajuste de Y con respecto a X, se utiliza el procedimiento de los mínimos cuadrados, donde se estima los valores de βo y β1, mediante la formulas:

SCxyβ1 = ____________ SCx

βo = Ÿ - β1(x)

Donde para calcular la SCx y SCxy se utiliza las formulas

SCx = SCxy =

Para su aplicación debe de realizarse los siguientes cálculos en la calculadora:

Sustituyendo los valores en la formula de SC, tendremos: (460)2

SCx= = 23,634 - -------- = 23,634 – 21160 = 2,474 10 (460) (760)SCxy = = 36,854 - ---------------- = 36,854 – 34960 = 1,894 10 Sustituyendo los valores en la ecuación tendríamos: SCxy 1,894 β1 = ________ = ________ = 0.765562 o 0.77 SCx 2,474

Βo = Ÿ - β1(x) = 76 – (0.765566) (46) = 76 – 35.216036 = 40.7841 o 40,78

X Y XY39 65 2,53543 78 3,35421 52 1,09264 82 5,24857 92 5,24447 89 4,18328 73 2,04475 98 7,35034 56 1,90452 75 3,900

∑X 460 ∑Y 760 ∑XY 36,854

Media x 46 Media y 76∑X2 23,63

4∑Y2 59,81

6N 10 N 10

(∑ X)2 ∑ X2 - -------- n

(∑ X) (∑ Y) ∑ (X)(Y) - ----------------- n

i =1

(∑ X)2 ∑ X2 - -------- n

i =1 (∑ X) (∑ Y) ∑ (X)(Y) - ----------------- n

Page 43: Apuntes de estadística escolarizado

Por lo tanto la ecuación que mejor ajusta la producción de una parcela con respecto a la fertilización sería: Y = 40.78 + 0.77 XDonde la valor 40.78 es la intersección con Y (sea cuando X vale 0) y 0.77 es la pendiente de la recta que da el cambio estimado en Y por cada unidad de cambio de X. Con esta ecuación se puede predecir la producciones futuras de una parcela fertilizada (Y) partiendo de una producción sin fertilizar (X).Ejemplos: Si una parcela produce actualmente 50 Ton/Ha. sin fertilizar y se fertiliza, su producción calculada sería: Y = βo + β1X Y = 40.78 + (0.77) (50) = 40.78 + 38.50 = 79.28 Ton/Ha.Para una parcela que produce 35 Ton/Ha, sería:Y = βo + β1X Y = 40.78 + (0.77) (35) = 40.78 + 26.95 = 67.90 Ton/Ha.

5.2 CorrelaciónAlguna veces es deseable saber que tanto una variable influyen en los cambios provocados en la otra variable o sea que tan fuerte es la relación entre las variables Y y X, que sea independiente de sus respectivas escalas de medición.

5.2.1 Correlación lineal – 5.2.2 Coeficiente de determinación A la relación que existe entre dos variables se le denomina coeficiente de correlación lineal entre Y y X y se simboliza con la letra r y su valor siempre va de 0 a 1 o -1, dependiendo si se trata de una correlación positiva (1) o negativa (-1). El valor de r = 0 indica que no hay correlación lineal entre Y y X o sea que los valores de X no producen cambios en Y. Los valores positivos de r (0.01 a 1) indica que existe una correlación positiva de Y y X y la recta que forman los datos van creciendo hacia la derecha, donde el valor de r = 1 indica que existe una total correlación de Y y X o sea que los valores de X explican 100% los cambios provocados en Y (a medida que aumenta X, aumenta Y). Cuando el valor de r es negativo indica que los puntos que forman la recta van decreciendo hacia la derecha, o sea que a medida que aumenta X desminuye el valor de Y. Para el calculo del coeficiente de correlación se utiliza la formula SCxy r = ------------------.

√(SCx) (SCy) Para explicar el cálculo del coeficiente de correlación tomaremos los mismos datos del ejemplo anterior, en que se quiere predecir la producción futura de una parcela de caña como efecto de la fertilización.

X Y XY39 65 2,53543 78 3,35421 52 1,09264 82 5,24857 92 2,24447 89 4,18328 73 2,04475 98 7,35034 56 1,904

Page 44: Apuntes de estadística escolarizado

52 75 3,900∑X 460 760 36,85

4X 46 76∑X2 23,63

459,816

N 10 10 10

La SCx y SCxy ya han sido calculadas y sus valores son

SCx = 2,474 SCxy = 1,894

La SCy se puede calcular mediante la formula:

SCy =

Sustituyendo los valores de la formula sería:

(760)2

SCy = 59,816 - -------- = 59,816 – 57,760 = 2,056 10Por lo tanto para calcular r se sustituyen en la formula SCxy 1894 1894 1894r = ------------------ = ------------------ = ------------- = ----------- = 0.8397 o 0.84

√(SCx) (SCy) √ (2,474) (2056) √5086544 2255.336

r = 0.84

El valor de 0.84 indica que existe una correlación positiva entre Y y X, o sea que a medida que va aumentando X, va aumentando el valor de Y, y que el 84% (0.84 x 100) de los cambios de Y están relacionados con los valores de X. O sea que existe una fuerte correlación entre las variables.Si el valor que se obtuvo fuera inferior a 0.5 indicaría que no existe una fuerte correlación entre las variables. O si el valor hubiera sido negativo (-0.84) indicaría que a medida que aumenta el valor de X disminuye el valor de Y.

5. 3 Ejercicios de aprendizaje Ejercico1. En hojas blancas de manera manual, con la ayuda de la calculadora o en el programa computarizado Excel, realiza los siguientes ejercicios. a) En la región lechera de Quintana Roo los productores desean saber si la suplementación de las vacas realmente esta relacionada con el incremento en la producción de leche por día, o este incremento es resultado de otros factores, también quieren saber como se incrementaría la producción en sus vacas, pues tiene animales de todas las cualidades genéticas. Por lo que los

(∑ Y)2 ∑ Y2 - -------- n

i =1

Page 45: Apuntes de estadística escolarizado

productores toman los datos de producción de los animales sin suplementar y después de someterlos a una suplementación de 60 días. Los datos se enlistan a continuación:

Vaca Antes Después1 4.5 8.62 4.8 8.93 6.0 10.94 6.2 12.05 4.0 7.96 4.3 8.07 4.9 8.68 4.6 9.29 5.0 10.010 5.0 10.911 5.2 10.712 5.7 10.213 5.6 9.714 5.8 9.915 5.9 11.0

Realiza una grafica que relacione la producción antes y después de la suplementación.Opten una ecuación de regresión lineal que permita predecir la producción de las vacas por efecto de la suplementación. Realiza las predicciones de producción partiendo de los datos de los animales sin suplementar. Opten el coeficiente de correlación entre la producción de leche y la suplementaciónDetermina si ambas variables están correlacionadas o no.

Page 46: Apuntes de estadística escolarizado

UNIDAD VI. Muestreo aleatorio simple

6.1 Conceptos básicos de muestreo Una población es cualquier colección entera de personas, animales, plantas o cosas, de las cuales podríamos recolectar datos. Es el grupo entero que nos interesa, él cual deseamos describir o sobre él cual deseamos establecer conclusiones. Por lo tanto la población es un conjunto de todas las mediciones o datos de interés que son factibles de muestrearse. Una muestra es un subconjunto de las mediciones seleccionadas de la población de interés. En tal sentido el muestreo puede definirse como la representación de un todo (población) en una proporción adecuada (muestra), que contenga las características de ese todo y cuyos resultados serán los mismos, como si se hubiera hecho el estudio en toda la población.Una muestra que no tenga representación de la población de estudio imposibilita la obtención de datos confiables, aun cuando en las etapas posteriores se utilicen las técnicas de análisis estadístico mas sofisticadas.En los sistemas de producción agropecuaria y en general en las poblaciones biológicas, la toma de decisiones, acciones y actitudes están basadas en gran parte en muestras, ante la imposibilidad de trabajar con toda la población, aunque está sea finita.La cantidad de información obtenida de la muestra para hacer inferencias acerca de la población, depende del número de elementos muestreados y la variación de los datos.El diseño del muestreo es el método de selección de la muestra dirigido a controlar la variación de los datos que pudieran afectar la inferencia. El diseño y tamaño de la muestra determina la cantidad de información pertinente a un parámetro poblacional, siempre y cuando se obtengan mediciones exactas en cada elemento muestreado.Como siempre estamos sujetos a errores, la manera de controlar la exactitud de las mediciones sería mediante métodos adecuados de recolección de datos y por una buena elaboración de los instrumentos de muestreo o plan de muestreo.

6.1.1 Unidad de muestreoLas unidades de muestreo son colecciones de datos no repetidos de elementos de la población, que conforman la población completa. Cada dato u observación independiente es llamado unidad experimental o item.

6.1.2 Marco de muestreoUn marco es una lista de unidades de muestreo (unidades experimentales) que contienen todos los elementos que son factibles de muestrearse y que generalmente proviene de una lista más grande. O sea un marco es la relación de los elementos que contienen el atributo que se desea muestrear. Algunos esquemas de muestreo pueden requerir marcos múltiples donde las muestras obtenidas pueden ser seleccionadas de un marco o varios marcos.

Page 47: Apuntes de estadística escolarizado

Para comprender mejor la terminología usada en el muestreo estadístico, analicemos el siguiente ejemplo:El baniario Rancho Alegre de la comunidad de Bacalar, realizo un muestreo de opinión, para determinar la actitud del público hacia la creación de una sección especial para acampar en las instalaciones del baniario. El Objetivo del muestreo fue estimar la proporción del número de personas de la ciudad de Chetumal mayores de 18 años, que pudieran hacer uso de la nueva sección para acampar.En este caso la unidad experimental o ítem, son los habitantes de la comunidad mayores de 18 años. La población es el número de habitantes de Chetumal mayores de 18 años (población finita)Las unidades de muestreo son los habitantes de Chetumal mayores de 18 años, visitantes potenciales o no, de la zona de acampar en el baniario. Sin embargo un proceso mas eficiente puede ser el muestreo de casa, (varias unidades experimentales). Si las casas son las unidades de muestreo, estas debe de definirse de tal manera que ninguna persona mayor de 18 años de la población pueda ser muestreada mas de una ves, y que cada unidad experimental tenga la misma oportunidad de ser seleccionada.En este ejemplo el marco de muestreo pueden ser las listas del Instituto Federal Electoral (IFE) de personas con credencial de elector., pues estas por regla tienen que tener mas de 18 años. Pero también pueden ser los resultados del censo de población del Instituto Nacional de Estadística Geografía e Informática (INEGI) en los que se seleccione las personas mayores de 18 años. Aunque también se pueden utilizar ambos marcos de muestreo que pueden ser complementarios, con la finalidad de tener mayor exactitud en el muestreo.

6.1.3 Diferencia entre parámetros y estimadores El objetivo del cualquier muestreo es realizar inferencias acerca de una población de interés, partiendo de la información obtenida de una muestra de dicha población. Las inferencias en el muestreo usualmente son dirigidas a la estimación de ciertas características numéricas de la población, tales como la media, la desviación estándar o el tamaño de la población. Estas medidas descriptivas de la población se denominan parámetros. Cuando estos valores o parámetros de la población se calculan a través de los valores obtenidos de una muestra tomada en la misma población se denominan Estimadores (E) y se simbolizan por ^. En otras palabras estimador (E) es una función (propiedad) de la variables aleatorias que se usa para estimar un parámetro. Por ejemplo la media muestral (ỹ) puede ser utilizada como un estimador de la media poblacional (µ). Por lo que ỹ en este caso es una variable aleatoria con una distribución de muestreo que depende del mecanismo muéstrela. Algunos de los posibles valores que ỹ puede tomar, estarán cercanos a µ en cualquiera de los lados positivo o negativo. Cualquier método de muestreo busca que el valor esperado de ỹ sea igual a µ (ỹ = µ) y que la desviación estándar entre la población (σ) y la muestra (s) se pequeña o iguales (σ = s).En términos generales se estima que en una población con distribución normal (distribución Z), la media y la varianza de la población es igual a la media y la varianza de la muestra, o se espera que sean muy cercanas. Por lo que cuando se hacen los cálculos de cualquier parámetro ambas medias y varianzas se toman por igual y se sitúan en el centro de la distribución de probabilidad como se esquematiza en la siguiente figura.

Page 48: Apuntes de estadística escolarizado

6.2 Concepto de muestreo aleatorio simple y sistemático Si una muestra n es seleccionada de una población de tamaño N de tal manera que cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada, el procedimiento de muestre se denomina Muestre Aleatorio Simple (MAS). A la muestra obtenida (n) se le llama muestra aleatoria irrestricta.En la practica el proceso del muestreo, se trata de obtener muestras de una población finita, por lo que es mas fácil asignar a cada elemento de la población un numero escrito y obtener ese numero, sin sesgos, mediante una tabla de números aleatorios (Anexo 12) o una calculadora con números aleatorios. La selección de los números corresponderá al número de elementos de la muestra de entre un total de N elementos de la población. Con base a esta selección se procede al muestreo. Este procedimiento garantiza en lo posible la ausencia de tendencias o sesgos.

Ejemplo: Supongamos que queremos muestrear la producción de leche de 25 vacas de un total de 850 vacas de la comunidad de Sergio Butron Casas. Primeramente se comienza por asignar un número a cada vaca de 01 a 850. Posteriormente en la tabla se toma aleatoriamente 25 números de 3 cifras (reuniendo 3 columnas) eliminando los que sean mayores a 850 pero también el 000. Si por ejemplo comenzamos en la quinta columna (se puede comenzar en cualquier columna) se obtendrían los números 517, 225, 560, 413, 730, 544, 412, 087, 458, 832…. hasta reunir los 25. Posteriormente se ve la lista de las vacas con esos números y se muestra la producción. En el caso de la calculadora se teclea 25 veces la función aleatoria y se van a notando los números resultantes, para posteriormente proceder al muestreo. Mediante este procedimiento se obtienen muestras aleatorias con reemplazamiento. Si se desea muestras sin reemplazamiento se habrá que eliminar los números cuando se repitan.

6.3 Estimación de la media y total poblacionalAun cuando el muestreo se realiza con muchos propósitos, generalmente el principal interés es determinar algunas características de la población a través de la muestra tomada. Dicha determinación recibe el nombre de estimación y se simboliza por ^, que sirve para indicar la estimación del algún parámetro de la población a través de los datos de la muestra.

6.3.1 EstimadoresLas estimaciones mas comúnmente realizadas son, la media de la población (Û), el error estándar de la población (σ) y el limité para el error de estimación (LEE). Para las cuales se utilizan las siguientes formulas: Û = ỹ Û = Estimación de la media de la población N = Tamaño de la población s (N-n) ỹ = Media de la muestra

σ = ------- * √ --------- n= Tamaño de la muestra

Ỹ o µỹ

V o σS2

Page 49: Apuntes de estadística escolarizado

√ n N-1 σ = Estimación del error estándar de la pobalción LEE = Limite de error de estimaciónLEE = 2 * σ s = Error estándar de la muestra El factor (N-n/N-1) se conoce como corrección por población finta (cpf). Cuando n es muy pequeña con respecto a N ( n<0.05) es decir cuando el tamaño de la muestra es menos del 5% del tamaño de la población, la cpf es muy cercano a 1 y puede eliminarse. En este caso el error estándar se calcula solo con s/√n.

Ejemplo: La Secretaría de Agricultura Ganadería Desarrollo Rural y Pesca (SAGARPA), necesita determinar la producción promedio y la dispersión de las 850 vacas registradas en su programa de ganado mejor (PROGAM) en la comunidad de Sergio Butron Casas, sin embargo debido a sus limitaciones de tiempo únicamente puede monitorear una muestra de esa población. Por lo que los encargados del programa diseñan la toma de una muestra aleatoria simple de 25 vacas y registran su producción durante un mes, mismas que se enlistan a continuación. Posteriormente se realizaron los cálculos necesarios para estimar los parámetros del total de las 850 vacas (población).

Vaca 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15Producción 4.

54.7

4.9

5.2

5.4

6.1

6.2

6.7

6.6

4.3

4.2

4.9

4.1

4.0

7.0

Vaca 16 17 18 19 20 21 22 23 24 25Producción 6.

75.9

6.8

4.6

7.0

7.2

8.9

5.2

5.9

5.4

a) Se calculan los parámetros de la muestraỹ 5.69

6S 1.21

8N 25

b) Se estiman los parámetros poblacionales

Û = ỹ = 5.696

s 1.218 1.218σ = ------- = ------- = ------- = 0.2436

√ n √25 5

Dado que 25 vacas es menor que un 5% de la población total de vacas, se omite el factor de corrección por población finita. LEE = 2 * σ = 2* 0.2436 = 2 * 0.2436 = 0.0487

Page 50: Apuntes de estadística escolarizado

El error de estimación también puede expresarse como porcentaje por lo que se traduciría a 4.87 %.

Sin embargo en el proceso de muestreo también se puede calcular el proceso inverso o sea se pueden calcular ciertos valores de la muestra tomando como base los valores de la población. Por lo que debe de tomarse en cuenta que para cualquier tamaño de muestra dada n, tomada de un población con media µ, los valores de la media (ỹ )y el error estándar (s) de la muestra se conoce como el valores esperados y se pueden estimar por: ỹ = µ µ = media de la población N = Tamaño de la población σ (N-n) ỹ = estimación de la media de la muestra

s = ------- * √ --------- n= Tamaño de la muestra

√ n N-1 σ = Error estándar de la población Ejemplo: La cantidad de hectáreas de caña de la Rivera del Río Hondo es considerada una población muy grande difícil de estimar, dado la constante variación que el tamaño de la parcelas de los diferentes productores y ejidos, sin embargo que el ingenio azucarero durante años ha calculado la media de producción estimada en 50.00 ton/ha, con una desviación estándar de 12.0. Cual serán los valores esperados de la media de la media y la desviación estándar, si se toma una muestra del rendimiento (ton/ha) de 36 productores.

ỹ = µ = 50.00 σ 12 s = ------- = -------- = 2.0

√ n √ 36

En el muestreo el error estándar de la media ofrece la base Principal para la inferencia estadística, con respeto a la media de una población que se desconoce. Por lo tanto al aumentar el tamaño de la muestra, la distribución de la muestra con respecto a la media poblacional se aproxima a la distribución normal, sin importar la forma de las distribuciones de las mediciones individuales de la población. Para propósitos prácticos puede suponerse que la distribución muestral de la media es aproximadamente normal cuando el tamaño de la muestra es mayor o igual a 30 (n>30). Por ello si se tiene una muestra grande (n>30) puede utilizarse la distribución normal para calcular la probabilidad de ciertos factores de la media y la distribución estándar.Por otra parte si se sabe que la población de donde se tomaron las muestras tiene una distribución normal y se conoce la desviación estándar. Puede utilizarse la distribución normal para hacer inferencias estadísticas a partir de muestras pequeñas.

Ejemplo: Un productor de sandia de José María Morelos toma una muestra aleatoria de 36 sandias (n= 36) en una hectárea que rindió un total de 1000 sandías. El peso promedio de las sandias en la hectárea fue de 2600 gramos (µ = 2600) con una desviación estándar de 450 gramos (σ = 450). El productor sabe que las sandias de mucho peso son difíciles de transportar y de vende en el mercado. Por lo que el quiere que el peso de su producción mayoritaria sea inferior a 2500 gramos. ¿Cuál es probabilidad de que el productor con su muestra tomada tenga una producción mayoritaria de 2500 gramos?

Page 51: Apuntes de estadística escolarizado

ỹ = µ = 2600 σ 450 s = ------- = -------- = 75

√ n √ 36

No se requiere factor de corrección por población finida por que 36 es menor de un 5% de total o 1000.

Para calcular la probabilidad se utiliza la formula de Z o distribución normal

X - µ 2500 – 2600 - 100Z = ---------- = --------------- = -------- = -1.33 se busca en la tabla de Z y da un valor de 0.4082 (σ) 75 75

Dado que se esta buscando que el valor este por debajo de 2500 gramos por debajo de la media poblacional, se requiere un valor de Z< -1.33 a la media de la probabilidad de la campana de Gauus ósea 0.50 de probabilidad. P(Z<-1.33) = 0.50 – P (-1.33<Z<0) = 0.50 – 0.4082 = 0.918Ósea se tiene una probabilidad del 9.18% de que la muestra del productor este por debajo de 2500 gramos).

6.3.4 Intervalos de confianza para la media utilizando la distribución normal

Una ves que se ha determinado o estimado la media poblacional y le media muestral, se necesita saber el porcentaje de probabilidad de que la media muestral realmente sirva como estimador de la media poblacional o viceversa. Este aspecto matemático se conoce como intervalo de confianza para la media, y se interpreta como la probabilidad de que la media muestral incluya el valor de la media poblacional. El método de estimación de un intervalo de confianza esta basado en que se puede utilizar la distribución normal de probabilidad para su calculo, por lo que este intervalo puede ser estimado cuando n ≥ 30 debido al teorema del limite central o cundo n ≤ 30 pero la población tiene una distribución y se conoce su desviación estándar.Cuando puede utilizarse la distribución normal de probabilidad, el intervalo de confianza para las medias puede determinarse por:

Área buscada 2500 2600

Page 52: Apuntes de estadística escolarizado

Intervalo = µ ± z σ Intervalo = ỹ ± z s

Donde z representa el intervalo de confianza o proporción del área de probabilidad. Los valores que se utilizan con mayor frecuencia son 90, 95 y 99%, mismo que equivalen a una cantidad de desviaciones estándar como se indica en el siguiente cuadro.

Z (numero de unidades de DE) Proporción del área en el intervaloµ ± z σ % de efectividad1.645 0.90 90 %1.96 0.95 95%2.58 0.99 99%

Para entender mejor la utilización y el calculo del intervalo de confianza para la media, analicemos el siguiente ejemplo:

Ejemplo: La asociación de porcicultores del estado de Yucatán, desea poner en marcha un programa de mejoramiento genético mejorar el peso al nacimiento. Por lo que se eligio al azar un muestra del peso al nacimiento de 300 cerditos. Los productores saben que el total del numero de animales nacidos es muy grande y difícil de estimar, sin embargo la asociación cuenta con estadísticas de todas sus granjas afiliadas, en las que se determino que el promedio del peso al nacimiento de todos los productores es de 1800 gramos con una desviación estándar de 140 gramos. Se necesita estimar un intervalo de peso al nacimiento con un 95% de confiabilidad, para poder poner en marcha el programa.

Intervalo = ỹ ± z s = 1800 ± 1.96 (s)

σ 140 s = ------- = -------- = 8.08229

√ n √ 300 Intervalo = 1800 ± 1.96 (8.08229) = 1800± 15.842 Por lo que 1800 – 15.842 = 1784.16 y 1800 + 15.842 = 1815.842

Por lo tanto puede decirse que el promedio al nacimiento de todas las granjas para comenzar el programa de mejoramiento genético se encuentra entre 1784.16 y 1815.842 gramos, con un grado de confianza de 95%.

6.3.5 Determinación del tamaño de la muestra para estimar la mediaSi conoce el tamaño del intervalo de confianza y el grado de confianza (z) que se requiere de la muestra y si se conoce o se puede estimar el error estándar (s) y la media (µ = ỹ), puede estimarse el tamaño de la muestra que se requiere para obtener resultados confiables en base a la distribución normal, mediante la formula:

Page 53: Apuntes de estadística escolarizado

(s)2 *z 2

n = --------- L2

n= tamaño de la muestras = desviación estándarz = numero de unidades de s para la confiabilidad L = media poblacional o la media muestral

Ejemplo. El promedio de producción de materia seca por hectárea de hojas de Leucaena leucocephala en los bancos de proteína establecidos en el municipio de José María Morelos fue estimado en 2.14 ton/Ha con una desviación estándar de 9.6. Que tamaño de muestra debo tomar si se requiere una confiabilidad del 95% para los datos de la muestra a recabar en esa misma comunidad.

(s)2 *z 2 (9.6) 2 * (1.96) 2 92.16 * 3.8416

n = ----------- = ------------------- = ------------------ = 77.30 o 78 L2 (2.14) 2 4.5796

n = 78 muestras

Ejercicios:Ejercicio1. Por parejas y en hojas sueltas soluciona el siguiente cuestionario para entregar al final de la clase.a) Que se entiende por población y muestreob) En que consiste el diseño del muestreo estadístico c) Que es una unida de muestreod) Que es un marco de muestreoe) Para que se utiliza la inferencia estadística en el muestreof) Que es un estimadorg) Cual es la diferencia entre u n estimador y un parámetroh) Cual es la característica de las poblaciones con distribución normali) Que es el muestreo aleatorio simplej) Ejemplifica como se realiza el muestreo aleatorio simplek) Cuales son las estimaciones más comunes realizadas en un muestreo aleatorio simplel) Describe las formulas para las estimaciones de un muestreo aleatorio simplem) Cual es el factor para la corrección por población finita y cuando se utilizan) Mediante que formula se estiman los valores de la media y desviación estándar de la muestra a través de los valores poblacionales ñ) Como de calcula el intervalo de confianza utilizando la distribución normalo) Como se estima el tamaño de la muestra requerida para obtener resultados confiablesp) Cuales son las formulas para determinar el intervalo de confianza y el tamaño de la muestra

Ejercicio 2. En hojas blancas de manera manual, con la ayuda de la calculadora o en el programa computarizado Excel, realiza los siguientes ejercicios.

Page 54: Apuntes de estadística escolarizado

a) Los responsables del programa estatal de pequeños rumiantes, sabe que el promedio del peso al destete para borregos pelibuey, en el estado de Quintana Roo es 9.00 Kg. con una desviación estándar de 0.5 Kg. Pero desean determinar el valor esperado de la media y desviación estándar de una muestra de 25 borregos tomada el rancho Tres Zapotes de Nicolás bravo. Calcula e interpreta dichos valores esperados.

b) Los cultivos forestales establecidos en el Quintana Roo tiene un promedio 1500 árboles de caoba por hectárea cuadrada, con una desviación estándar de 350 árboles. Los productores afirman que se puede elevar el numero de árboles por hectárea, pues afirman que en las selvas sin alterar se pueden encontrar hasta 1600 unidades por hectárea. Calcula la probabilidad de que una muestra de una hectárea de selva tomada al azar tenga una concentración arbórea de caobas superior a las 1600 plantas por hectárea cuadrada. Calcula la probabilidad de que la media de una muestra aleatoria de 40 hectáreas, tengan una concentración superior a las 1600 plantas por hectárea.

c) El promedio de pesos la las sandias Jubile en las producciones del municipio de José María Morelos fue estimado en 3.0 Kg. una desviación estándar muy grande de 20.0 Que tamaño de muestra debo tomar si se requiere una confiabilidad del 90% para los datos de la muestra a recabar en esa misma producción.

Page 55: Apuntes de estadística escolarizado

ANEXOS

Numero de anexo Titulo de la tabla

Anexo 1 Tablas de calculo de probabilidad binomialAnexo 2 Tablas de caculo de probabilidad binomial Anexo 3 Tablas de caculo de probabilidad binomialAnexo 4 Tabas de distribución normal o distribución de ZAnexo 5 Tablas de valores de TAnexo 6 Tablas para la distribución de frecuencia o distribución de F Anexo 7 Tablas para la distribución de frecuencia o distribución de FAnexo 8 Tablas para la distribución de frecuencia o distribución de FAnexo 9 Tablas para la distribución de frecuencia o distribución de FAnexo 10 Tablas para la distribución de frecuencia o distribución de FAnexo 11 Tabla de valores de Chi cuadrada o X2

Anexo 12 Tabla de números aleatorios