Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
1
INTRODUCCIÓN
Este libro esta destinado para valorar los diferentes métodos estadísticos que pueden ser
aplicados en forma cuantitativa y cualitativa de los datos en las investigaciones educativas,
modelar problemas que exijan a la utilización de los métodos de la Estadística Descriptiva
e Inferencial y Aplicar paquetes de programas estadísticos e interpretar cuantitativamente
los resultados.
Los sistemas de conocimiento abordados corresponden a la Estadística Descriptiva,
tratada como Univariada, en donde se estudia las escalas de medición, Distribuciones de
frecuencias, Indicadores de posición y de dispersión, Gráficos, Diagramas de caja y bigote.
La Estadística Descriptiva Bivariada con el tratamiento de la Correlación, el Coeficiente de
correlación de Pearson, la Regresión lineal, Aplicándolo al campo educativo, la predicción,
así como también el Coeficiente de determinación.
Para terminar con la Inferencia estadística, el Muestreo, las Distribuciones muestrales, la
Estimación de parámetros como parte fundamental a la estimación puntual y estimación
por intervalos, buscándo siempre las Aplicaciones en el contraste de hipótesis, Pruebas
paramétricas y no paramétricas y a los elementos de Estadística multivariada.
Serán herramientas útiles en la profesionalización del ingeniero de Medio Ambiente,
buscándo demostrar el manejo y sistematización de datos.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
2
ContenidoESTADÍSTICA CIENCIAS AMBIENTALES.................................................................................................4
ESTADÍSTICA ...................................................................................................................................4
Elementos de la Estadística ............................................................................................................4
TIPOS DE VARIABLES ......................................................................................................................5
PROBLEMAS ...............................................................................................................................5
ORDENAR DATOS ...........................................................................................................................6
DATOS NO AGRUPADOS .................................................................................................................6
Simbología estadística ................................................................................................................6
ESTADÍSTICOS .................................................................................................................................7
ESTADISTICA CON EXCEL ................................................................................................................8
PROBLEMAS .............................................................................................................................12
DATOS AGRUPADOS .....................................................................................................................16
CLASES E INTERVALOS DE CLASE ..............................................................................................16
TABLA ESTADÍSTICA ......................................................................................................................17
Para qué la Tabla ......................................................................................................................18
GRÁFICAS .....................................................................................................................................19
ESTADÍSTICOS ...............................................................................................................................19
PROBLEMAS .............................................................................................................................22
DISTRIBUCIÓN NORMAL ...................................................................................................................29
CARACTERÍSTICAS DE LA CURVA NORMAL ...................................................................................29
PUNTUACIÓN ESTÁNDAR (Z) ........................................................................................................30
PROBLEMAS VALORES Z ...........................................................................................................34
PROBLEMAS PARA SPSS ...........................................................................................................35
REGRESIÓN LINEAL Y CORRELACIÓN ............................................................................................36
Forma general de la ecuación de regresión lineal ....................................................................37
EJERCICIOS................................................................................................................................39
PROBLEMAS .............................................................................................................................40
Un panorama de conceptos probabilísticas .................................................................................42
Algunas Reglas de Probabilidad ................................................................................................43
Ejemplos. ..................................................................................................................................44
EJERCICIOS................................................................................................................................47
PRUEBAS DE HIPÓTESIS ................................................................................................................50
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
3
PRUEBAS PARA MUESTRAS GRANDES ..........................................................................................50
PRUEBA Z DE UNA MUESTRA DE LA DESVIACIÓN ESTÁNDAR CONOCIDA ....................................51
Decisión ........................................................................................................................................61
Resumen acerca del uso de la Prueba Ji Cuadrada ...................................................................66
EJERCICIOS................................................................................................................................69
PROBLEMAS .............................................................................................................................70
INTRODUCCIÓN AL DISEÑO DE EXPERIMENTOS ...........................................................................72
CONCEPTOS BÁSICOS EN EL DISEÑO EXPERIMENTAL...................................................................72
ANÁLISIS DE VARIANZA PARAMÉTRICO DE UNA VÍA. ...................................................................74
El ANOVA ..................................................................................................................................74
FASES EN EL ANÁLISIS DE VARIANZA. .......................................................................................75
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
4
Para una investigación entonces se deben definir las preguntas, que en estadística se las llaman
variables y responden a dos preguntas ¿de dónde? Y ¿cómo obtengo los datos?
A la primera pregunta se la responde claro está que en la población, pero para armarla se debe
elegir a una muestra.
ES
TA
DÍS
TIC
A D
ES
CR
IPT
IVA
ESTADÍSTICA CIENCIAS AMBIENTALESESTADÍSTICA
Para la mayoría de personas involucradas en las Ciencias, nos parecerá común utilizar la estadísticacomo herramienta más que necesaria, pero en aquellas personas que aparentemente nonecesitan de la estadística resulta difícil entenderla y aplicarla y buscan ayuda. Para enmendareste desconocimiento pongo a vuestra consideración estos apuntes de estadística para mejoraresos conocimientos y fortalezcan sus intereses investigativos.
Definición.- La estadística es la ciencia que se encarga de recolectar, ordenar, presentar los datos y
convertirlos en información necesaria para la toma de decisiones.
Elementos de la EstadísticaPoblación.- Parte constitutiva de la investigación.
Parámetro.- Es la característica de la población, en otras palabras es lo que se va a estudiar de la
población.
Muestra.- Es una parte representativa de la población.
Estadístico.- Es la característica de la muestra, es lo que se va a calcular en la investigación y
generalizar los resultados en la población.
Datos.- Son las respuestas a las preguntas sobre el tema que se desea investigar.
Información.- Es el análisis de los datos obtenidos en una investigación.
Ejemplo: En una investigación realizada en la Universidad Técnica de Cotopaxi para conocer la
estatura de los estudiantes que ingresan a primer ciclo en la especialidad de Medio Ambiente
periodo febrero-agosto 2009.
Población Estudiantes de la UTCParámetro Estatura de los estudiantes de la UTCMuestra Estudiantes del primer ciclo, carrera de Medio AmbienteEstadístico Promedio de la estaturaDato Registro de la estaturaInformación Porcentaje de altos, bajo, medianos
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
5
A la segunda pregunta se la relaciona con las técnicas empíricas de la estadística es decir se puede
hacer una encuesta, entrevista, test, experimento.
TIPOS DE VARIABLES
Para nuestros intereses se definen tres tipos de variables, a saber:
Escala.- Son de tipo numérico y pueden ser exactos (discretos) o con decimales (continuos).
Ordinales.- Son opciones de respuesta que tienen orden.
Nominales.- Son opciones de respuesta que no tienen prioridad.
Ejemplo:
La estadística cumple hasta aquí la parte de recolección de datos.
PROBLEMAS 1. Clasificar las variables siguientes, con los tipos que correspondan: salario, nacionalidad,
antigüedad en el trabajo, peso de un libro, tema de un libro, calificación de una prueba, precio de
un libro, motivo por el que se adquiere un libro, lugar donde se encuentra ubicada una biblioteca,
número de fojas de un expediente, criterio para archivo.
2. Clasificar las siguientes variables en discretas o continuas: número de pedidos en una biblioteca,
ventas en un CIBERCAFÉ, páginas de un libro, temperatura del estudiante, tiempo empleado en
llegar a CAREN, número de libros prestados a docentes, cantidad de memos por día en la carrera
de Medio Ambiente, cantidad de portafolios archivados.
3. Indicar si es una muestra o una población en los siguientes casos: trabajamos con el 12% del
curso; preferencia por cierta lectura de Microbiología preguntando a las personas que entran a la
Biblioteca entre las 10 y las 12 horas; la ocupación de los estudiantes de la generación 2007 a
través de los datos de Secretaría; ingreso de las personas que viven en salache bajo.
4. Clasificar los siguientes datos en variables o atributos, discretas y continuas, ordinales y
nominales.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
6
a) Marca de cerveza.
b) Rapidez en km/h.
c) Peso en lb.
d) Signo del zodíaco.
e) Nivel educativo (primario, secundario, superior, posgrado)
f) Años de estudio completados.
g) Tipo de enseñanza ( pública, privada)
h) Número de empleados en CEDAL.
i) Clase social (baja, media, alta)
ORDENAR DATOS
La estadística, una vez obtenido los datos, se encarga de organizarlos, si son numéricos en forma
ascendente, descendente, o en grupos.
Si el número de datos es relativamente pequeño (menor a 30), se los puede ordenar, ascendente o
descendentemente. Si el número de datos es considerable se los ordena en grupos.
DATOS NO AGRUPADOS
Simbología estadística Va a ser de utilidad el conocer la nomenclatura que utiliza la estadística
Sea una investigación referente a la estatura de 7 estudiantes de la UTC en cm
167, 173, 160, 170, 167, 182, 154
Formamos una tabla de presentación de los datos y los ordenamos en forma ascendente (del
menor al mayor)
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
7
Para efectos de investigación daremos una ponderación a los datos
Colocaremos un casillero que registre la suma y la multiplicación
ESTADÍSTICOS
Con esto se puede determinar medidas que tienden al centro y medidas que registran el grado de
su dispersión, éstas medidas son:
Tendencia central: Media aritmética o promedio, mediana, moda, media geométrica, media
ponderada.
Dispersión: Varianza, desviación típica o desviación estándar.
La media aritmética se la halla
iXx
n
1173
7x
167.57x
Media Ponderada
i
W
X Wx
W
3936
24Wx
164Wx
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
8
Media Geométrica
nG ix X
7 153.678 10Gx
167.36Gx
Mediana
En datos no agrupados, esta medida de tendencia central se ubica en la mitad de los datos
ordenados, se lo ubica dependiendo si el número de datos es par, es el promedio de los datos que
rodean el centro
y si el número de datos es impar su ubicación es (n+1)/2
Varianza
2
2
1
iX xs
n
2 485.71
6s
2 80.95s
Desviación Típica
Es la raíz cuadrada de la varianza
2s s
8.99s
ESTADISTICA CON EXCEL
Podríamos utilizar la hoja electrónica de Excel para automatizar los cálculos, para ordenar los
datos y hacer operaciones matemáticas conocidas las fórmulas para las medidas de tendencia
central y dispersión.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
9
Digitamos los datos en una columna
Después copiamos los datos en la columna contigua y lo ordenamos de menor a mayor
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
10
Para nuestro análisis estadístico habíamos considerado las ponderaciones a los datos
Ahora usaremos las fórmulas para multiplicar, sumar, restar y elevar al cuadrado, como también
copiar las fórmulas a otras celdas.
Debería quedar
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
11
Para la secuencia de la fórmula =(C5-$E$15)^2, la condición $E$15 significa que para cuando
copiemos la fórmula a las otras celdas C5, será secuencial a las celdas, C6, C7, C8,…, C11; mientras
que la celda donde está la media aritmética no será secuencial, sino permanece fija.
Entonces para las restantes medidas, formaremos un cuadro de resumen
La automatización sería
Es importante notar la utilización de los paréntesis en las fórmulas
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
12
PROBLEMAS 1. En una encuesta efectuada en una determinada localidad, se obtuvo la siguiente información
con referencia al número de hijos.
No. de hijos No. de familias
2 5
3 20
4 10
5 8
6 4
8 2
12 1
a) Indicar cual es la variable y cual la frecuencia.
b) Calcular la frecuencia acumulada.
c) Determinar el número mediano de hijos
d) Determinar 1er. y 3er. cuartil.
e) Calcular la moda y el promedio de hijos.
2. Con la finalidad de investigar la cantidad de libros en préstamo que hay en una biblioteca, se
tomaron 100 fichas y se ordenó en la tabla:
Número de libros en
préstamo
Cantidad
de estudiantes
0 8
1 11
2 16
3 20
4 15
5 13
6 12
7 5
a) Calcular las frecuencias relativa y representarla graficamente
b) Calcular la frecuencia acumulada
c) Calcular todas las medidas de posición y dispersión.
d) Interpretar los resultados
3. Ante la necesidad de conocer el movimiento de préstamos a domicilio de los libros a los
docentes de CAREN, se eligieron 20 semanas y se observó la cantidad de libros prestados en cada
una de ellas:
35, 20, 30, 25, 25, 25, 40, 20,50, 40, 30, 25, 20, 30, 30, 35, 45, 45, 40, 35
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
13
a) Indicar cual es la variable y cuales son las frecuencias.
b) Calcular la moda y mediana.
c) Se conoce que el promedio prestado semanalmente en otras bibliotecas es 32, indicar
como es en CAREN.
d) El coeficiente de variación de las otras bibliotecas es 0.30. Indicar si coincide con el de
nuestra biblioteca e interpretar el resultado.
4. Se realizó una encuesta a 50 bibliotecas para conocer la cantidad de funcionarios que trabajan
en ella. Los resultados se resumen en la tabla:
Cantidad de
funcionarios
Cantidad de
bibliotecas
6 5
8 8
10 20
15 11
16 5
18 1
calcular todas las medidas de posición.
Indicar el porcentaje de bibliotecas con menos de 10 funcionarios, con 15 o menos y con
más de 10.
Representar graficamente las frecuencias acumuladas.
5. Durante la última semana de enero 2015, 2 librerías han vendido los libros que ocupan los tres
primeros puestos en la lista de ventas a los precios siguientes:
IMPRENTA ANDRADE IMPRENTA CARRILLO
Precio Número de
ejemplares Precio
Número de
ejemplares
1800 10 1500 25
2100 13 1900 18
2300 15 2000 25
a) Calcular el Rango de la distribución del precio en cada uno de los establecimientos. ¿Existe
mucha o poca distinción entre los precios pagados por los clientes en la imprenta
Andrade? ¿Y en la imprenta Carrillo?
b) Que establecimiento ha presentado en la última semana una cobro medio más
representativo.
c) Si durante una promoción ambos establecimientos rebajan sus precios en $ 200, explique
como afectaría este cambio al rango y a la representatividad del precio medio
correspondiente a las ventas de los tres éxitos.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
14
6. Teniendo en cuenta que de acuerdo al número de citas que se hacen de un autor se puede
conocer la importancia o utilidad de su producción literaria, se tomó una muestra de 20 artículos
relacionados al tema “Metodología de la Matemática” y se observó las veces que fue citado el
autor “Tenorio M.” en cada uno de los artículos:
1, 3, 5, 7, 1, 3, 8, 9, 6, 6, 5,1, 2, 2, 5, 2, 3, 3, 2, 2
a) Calcular la cantidad promedio de citas del autor “Tenorio M.” por artículo.
b) Calcular la cantidad de citas que se presenta más frecuentemente en cada artículo.
c) Analizar si en cada artículo existe una cantidad similar de citas de ese autor, mediante
la medida que crea más conveniente.
7. Se dispone de la información relativa a la cantidad de horas que permanecen en la biblioteca
personas en la MATRIZ
Horas Personas
1 300
2 500
3 1500
4 700
5 300
6 200
a) Calcular la cantidad de horas promedio que se permanece en la biblioteca, la moda, la
mediana y el coeficiente de variación.
b) Que porcentaje permanece más de cuatro horas en la biblioteca y cuantos menos de
cinco horas pero más de dos.
8. En la biblioteca de CAREN existen libros sobre temas de “Medio Ambiente” se ubicaron 120
artículos sobre “Deforestación” cuya distribución, de acuerdo al número de páginas es la siguiente:
Xi n( xi )
10 20
12 35
15 40
18 15
20 10
a) Calcular el promedio de páginas por artículo.
b) Calcular la mediana y moda.
c) Calcular el coeficiente de variación.
d) Indicar cuántos artículos tienen más de doce páginas y cuantos tienen más de quince
pero menos de veinte
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
15
e) Si la hoja está escrita de ambos lados, (2 páginas por hoja), calcular el promedio de
hojas, la varianza y el coeficiente de variación correspondiente.
9. Se dispone de sesenta artículos sobre el tema “Análisis de datos”, los cuales presentan
características similares en relación a la cantidad de palabras que cada uno posee. Si contamos la
cantidad de veces que se repite la palabra “frecuencia”, obtenemos la siguiente distribución:
Xi N ( xi )
3 10
4 23
5 16
6 8
7 3
a) Calcular el promedio de repeticiones por artículo de la palabra “ frecuencia”
b) Calcular el número más común de repeticiones
c) Coeficiente de variación y coeficiente de simetría (con los datos dados)
d) Cuántos artículos tienen cuatro veces mencionada dicha palabra y cuántos artículos la
tienen menos de cinco veces.
10. Un profesor de Matemática desea conocer el nivel de conocimientos de sus dos grupos de
estudiantes del paralelo A y paralelo B, para planificar sus clases de acuerdo con dicho nivel. Para
ello elige al azar 15 estudiantes de cada paralelo y les aplica una prueba elaborada para este fin,
obteniéndose los resultados:
A B A B
4 8 5 2
3 9 6 2
7 1 7 10
5 2 7 7
6 8 3 8
4 8 4 2
5 4 5 1
4 3
a) En cuál de los dos paralelos le será más fácil la planificación de la Matemática.
b) Cuál es el nivel medio de cada paralelo.
c) Cuál es la mediana de las puntuaciones del paralelo B.
d) Qué valor tiene la desviación típica de la distribución del paralelo A.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
16
DATOS AGRUPADOS
Cuando los datos son mayores de 25 su tratamiento estadístico se lo realiza en base a grupos
llamados clases y conformados por intervalos de clase.
CLASES E INTERVALOS DE CLASE Para conocer cuántos grupos (c = grupos o clases) se pueden formar, se utilizan varios métodos:
Por ejemplo
4
5
6
7
2 4 grupos para comparar 16
2 5 grupos para comparar 32
2 6 grupos para comparar 64
2 7 grupos para comparar 128
n
n
n
n
Una vez establecido los grupos a formar, según el número de datos, se debe registrar el valor
mayor y el valor menor de los datos, para con esto obtener el ancho de la clase (C = ancho de
clase) el mismo que dará paso a la construcción de los intervalos de clase.
valor mayor valor menor
número de clases
M m
C
V VC
c
CLASES
Límite inferior Límite superior
Límite inferior Límite superior
Límite inferior Límite superior
Límite inferior Límite superior
Límite inferior Límite superior
CLASES
Valor menor Valor menor + ancho de clase
Valor obtenido + unidad de separación Límite inferior + ancho de clase
Idem Idem
Idem Idem
Idem Idem
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
17
Ejemplo:
Vm = 50
C = 26
CLASES
50 76
77 103
104 130
131 157
158 184
Vm = 101.4
C = 76
CLASES
101.4 177.4
177.5 253.5
253.6 329.6
329.7 405.7
405.8 481.8
TABLA ESTADÍSTICA
Los elementos principales en una tabla estadística son los siguientes
frecuencia Marca de
clase
Frecuencia acumulada
+
Frecuencia acumulada
-
Frecuencia relativa
Frecuencia relativa
porcentual
Frecuencia por la Marca
Frecuencia por la
marca al cuadrado
En simbología
f M F fa- fr fr% fM fM2
Frecuencia (f).- Número de datos que se encuentran en el intervalo de clase
Marca de Clase (M).- Es el punto medio del intervalo de clase M = (Linf + Lsup)/2
Frecuencia Acumulada (F).- Se la forma sumando las frecuencias
Frecuencia acumulada menos (fa-).- Se la forma restando las frecuencias del total de datos.
Frecuencia relativa (fr).- es el cociente entre cada frecuencia y el número de datos fr = f/n
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
18
Frecuencia relativa porcentual (fr%).- Es la frecuencia relativa por el 100%
Para qué la Tabla
El sentido de la Tabla es para presentar gráficas estadísticas y medidas de tendencia central y
dispersión.
Las clases y las frecuencias forman el HISTOGRAMA
Las Marcas y las frecuencias hacen EL POLÍGONO
Las marcas y las frecuencias acumuladas forman LA OJIVA
La frecuencia relativa porcentual forma el pastel o el gráfico circular
La suma del producto de la frecuencia por la marca de clase (fM) sirve para determinar la media
aritmética.
fMx
n
La suma del producto de la frecuencia por la marca de clase al cuadrado (fM2) nos sirve para
determinar la varianza
22
2
1
fM n xs
n
La mediana se determina en base a la frecuencia acumulada (F) en relación a la primera frecuencia
acumulada mayor a n/2
inf2
ant
r
nF
x L Cf
La moda se encuentra con la referencia de la mayor frecuencia (f)
infˆ a
r
a b
Dx L C
D D
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
19
Por ejemplo sea la tabla estadística
Clases f M F fa- fr fr% fM fM2
14 41 14 27,5 14 60 0,23 23,33 385 10587,5
42 69 8 55,5 22 46 0,13 13,33 444 24642
70 97 12 83,5 34 38 0,20 20,00 1002 83667
98 125 11 111,5 45 26 0,18 18,33 1226,5 136754,75
126 153 5 139,5 50 15 0,08 8,33 697,5 97301,25
154 181 10 167,5 60 10 0,17 16,67 1675 280562,5
60
1 100 5430 633515
GRÁFICAS
ESTADÍSTICOS
Para determinar las medidas de tendencia central
La media aritmética
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
20
543090.5
60x
La Mediana
n/2 = 30
Clases f M F fa- fr fr% fM fM2
14 41 14 27,5 14 60 0,23 23,33 385 10587,5
42 69 8 55,5 22 46 0,13 13,33 444 24642
70 97 12 83,5 34 38 0,20 20,00 1002 83667
98 125 11 111,5 45 26 0,18 18,33 1226,5 136754,75
126 153 5 139,5 50 15 0,08 8,33 697,5 97301,25
154 181 10 167,5 60 10 0,17 16,67 1675 280562,5
60
1 100 5430 633515
30 2270 28 88.67
12x
La Moda
La mayor frecuencia es 14
Clases f M F fa- fr fr% fM fM2
14 41 14 27,5 14 60 0,23 23,33 385 10587,5
42 69 8 55,5 22 46 0,13 13,33 444 24642
70 97 12 83,5 34 38 0,20 20,00 1002 83667
98 125 11 111,5 45 26 0,18 18,33 1226,5 136754,75
126 153 5 139,5 50 15 0,08 8,33 697,5 97301,25
154 181 10 167,5 60 10 0,17 16,67 1675 280562,5
60
1 100 5430 633515
(14 0)
ˆ 14 28 33.614 0 (14 8)
x
Para calcular la Varianza y desviación típica
2
2
2
633515 60 90.52408.47
59
49.08
s
s s
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
21
Coeficiente de Variación
100%s
Cvx
Su interpretación se lo hace con respecto a la tabla
Valor del coeficiente de variación (%) Interpretación del coeficiente
Variabilidad Estabilidad
Igual a 0 Nula Muy Alta
Mayor de 0 hasta 20 Baja Alta
Mayor de 20 hasta 60 Moderada Moderada
Mayor de 60 hasta 90 Alta Baja
Mayor de 90 Muy Alta Nula
49.08100% 54.23%
90.5Cv en nuestro ejemplo la variabilidad y la estabilidad son moderadas.
Coeficiente de Asimetría de Pearson
3 x xCs
s
En donde el signo nos indica el sesgo que presenta la distribución normal, si es positivo será
sesgada a la derecha y si es negativo será sesgada a la izquierda.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
22
PROBLEMAS 1. Una encuesta es colocada a los estudiantes graduados del Colegio Victoria Vásconez Cuvi con la
finalidad de conocer el tipo de ocupación al cual aspiran dichos estudiantes. Los resultados fueron:
OCUPACION NÚMERO PONDERACIÓN
BIÓLOGO 5 0.05
BANQUERO 8 0.08
EMPRESARIO 22 0.22
QUÍMICO 7 0.07
MEDICO 10 0.10
CORREDOR DE SEGUROS 6 0.06
PERIODISTA 9 0.09
ABOGADO 14 0.14
PROFESOR 9 0.09
INGENIERO 5 0.05
OTROS 5 0.05
TOTAL 100 1.00
En la categoría "OTROS" se registran las observaciones que de una u otra forma, logran hacer
significativa dicha clasificación.
Graficar los resultados con un pastel o circular, barras y líneas
2. A continuación se tiene el nivel de instrucción de la población de siete años y más edad, según
el censo de población de 1980 de un país de latinoamérica. Elabore una gráfica de barras y de
pastel para representar los datos.
NIVEL DE INSTRUCCIÓN PORCENTAJE
Ningún grado 12.5
Algún grado de primaria 54.3
Algún grado de secundaria 27.3
Algún año universitario 5.9
Total 100.0
Nota: En 1980 la población con siete años y más edad ascendía a 1 426 300 personas.
3. Un inspector de calidad quiere estimar el peso promedio de llenado para las cajas de cereal
empacadas. El cereal esta en paquetes que contienen doce cajas cada una. El inspector selecciona
aleatoriamente cinco paquetes y registra el peso de llenado de cada caja, de los paquetes
seleccionados. Con los resultados en onzas, elabore una tabla de frecuencias.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
23
PAQUETE ONZAS DE LLENADO
1 16.1 15.9 16.1 16.2 15.9 15.8 16.1 16.2 16.0 15.9 15.8 16.0
2 15.9 16.2 15.8 16.0 16.3 16.1 15.8 15.9 16.0 16.1 16.1 15.9
3 16.2 16.0 15.7 16.3 15.8 16.0 15.9 16.0 16.1 16.0 15.9 16.1
4 15.9 16.1 16.2 16.1 16.1 16.3 15.9 16.1 15.9 15.9 16.0 16.0
5 16.0 15.8 16.3 15.7 16.1 15.9 16.0 16.1 15.8 16.0 16.1 15.9
4. Elabore una distribución de frecuencias para los siguientes datos obtenidos en una encuesta,
sobre el ingreso promedio anual de las familias que habitan en el sector de Locoa, cantón
Latacunga.
INGRESOS ANUALES EN DOLARES
1000 1110 1010 1070 1030 1000
1150 990 1090 1080 1150 1200
1050 1030 1120 1050 1030 1150
1230 1170 1180 1110 1160 1100
1100 1060 1130 1105 935 1210
Determine los estadísticos: Media Aritmética, mediana, moda, desviación estándar, coeficiente de
variación y emita comentarios del análisis.
5. En el siguiente conjunto de números, se proporcionan los pesos (redondeados en libras) de los
bebés nacidos en el último mes en el Hospital General de Latacunga:
4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 11, 8, 7, 10, 8, 5,
7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5.
a) Construir una distribución de frecuencias.
b) Encontrar las frecuencias relativas.
c) Encontrar las frecuencias acumuladas.
d) Encontrar las frecuencias relativas acumuladas.
e) Dibujar un histograma.
f) Calcular las medidas de tendencia central.
g) Calcular las medidas de dispersión.
h) Calcular el sesgo.
6. A continuación se dan los resultados muestrales de universitarios. La característica es el tiempo
de reacción a un estímulo auditivo:
0.110 0.110 0.126 0.112 0.117 0.113 0.135 0.107 0.122
0.113 0.098 0.122 0.105 0.103 0.119 0.100 0.117 0.113
0.124 0.118 0.132 0.108 0.115 0.120 0.107 0.123 0.109
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
24
0.117 0.111 0.112 0.101 0.112 0.111 0.119 0.103 0.100
0.108 0.120 0.099 0.102 0.129 0.115 0.121 0.130 0.134
0.118 0.106 0.128 0.094 0.1114
a) ¿Cuál es la dispersión de la distribución de los datos?
b) Obtenga la distribución de frecuencias.
c) Calcular la media y la varianza
d) Dibuje el polígono de frecuencias relativas.
e) Dibuje el polígono de frecuencias relativas acumuladas.
7. Con el fin de observar la relación entre la inteligencia y el nivel socioeconómico, se tomaron dos
grupos, uno formado con sujetos de cociente intelectual inferior a 95 y otro formado por los
demás; De cada sujeto se anotó el salario mensual familiar. Teniendo en cuenta los resultados que
se indican en la tabla:
Nivel socioeconómico Sujetos con CI menor a 95 Sujetos con CI mayor o igual a 95
Intervalos Frecuencia Frecuencia
100 o menos 75 19
100 - 160 35 26
160 - 220 20 25
220 - 280 30 30
280 - 340 25 54
más de 340 15 46
a) Dibuje un gráfico que permita comparar ambos grupos.
b) Calcule las medidas de tendencia central para aquellos sujetos con CI menor a 95.
c) Calcular las medidas de dispersión para aquellos sujetos con CI mayor o igual a 95.
8. La tabla muestra la composición por edad, género y trabajo de un grupo de personas con
tuberculosis pulmonar en la provincia de los Ríos en el año 1979:
Edad Trabajadores No trabajadores Totales
Varón Mujer Total Varón Mujer Total Varón Mujer Total
14-19 2 1 3 25 40 65 27 41 68
19-24 10 4 14 20 36 56 30 40 70
24-29 32 10 42 15 50 65 47 60 107
29-34 47 12 59 13 34 47 60 46 106
34-39 38 8 46 10 25 35 48 33 81
39-44 22 4 26 7 18 25 29 22 51
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
25
a) Representar gráficamente la distribución de frecuencias de aquellas personas trabajadoras
que padecen tuberculosis.
b) Representar gráficamente la distribución de frecuencias de los varones no trabajadores
que padecen tuberculosis.
c) Representar gráficamente la distribución de frecuencias del número total de mujeres que
padecen tuberculosis.
d) ¿Cuál es la edad en la que se observa con mayor frecuencia que no trabajan los varones?
¿Y las mujeres? Determinar asimismo la edad más frecuente (sin distinción de género ni
ocupación).
e) Obtener la media, mediana y desviación típica de la distribución de las edades de la
muestra total.
f) Estudiar la asimetría de las tres distribuciones.
9. En una epidemia de ESCARLATINA, se ha recogido el número de muertos en un país,
obteniéndose:
Número de muertos 0 1 2 3 4 5 6 7
Ciudades 7 11 10 7 1 2 1 1
a) Representar gráficamente estos datos.
b) Obtener la distribución acumulada y representarla.
c) Calcular media aritmética, mediana y moda.
d) Calcular la varianza y la desviación típica.
e) Porcentaje de ciudades con al menos dos muertos.
f) Porcentaje de ciudades con más de tres muertos.
g) Porcentaje de ciudades con a lo sumo cinco muertos.
10. Se desea conocer cuál es la modalidad más frecuente en la solicitud de un libro (S = consulta
en sala; D = préstamo a domicilio; F= fotocopia), disponiendo de la información del 10% de la
población estudiantil de ingeniería en Medio Ambiente. Los datos proporcionados son los
siguientes:
S, S , D, S ,D ,F ,F ,S ,F ,S ,S ,S, D, D, D ,F ,S, S, F ,D
Realizar un estudio estadístico con estos datos disponibles, utilizando para ello cuadros, gráficos e
interpretación de los mismos
11. Representar gráficamente, utilizando gráfico de barra y circular, la cantidad de bibliotecas por
zonas de Latacunga (datos no reales)
Zona A B C D E
Biblioteca 50 120 70 43 17
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
26
12. El número de descargas de un archivo durante una semana del Aula virtual de Matemática, es
el siguiente:
Lunes 55
Martes 40
Miércoles 45
Jueves 38
Viernes 25
Sábado 12
Representar gráficamente esta información, de acuerdo al gráfico más conveniente.
13. Se realiza una encuesta para conocer los medios utilizados para calefacción en un hogar,
haciéndose la siguiente pregunta: ¿utiliza algún medio de calefacción su vivienda?
La respuesta fue:
10 contestaron “estufa a leña”
20 contestaron “estufa a gas“
6 contestaron “estufa a queroseno”
12 contestaron “panel radiante “
5 contestaron “acondicionador”
7 contestaron “losa radiante”
a) Determinar la distribución de frecuencias.
b) Representar gráficamente con barras y circular.
14. Se realiza una encuesta para conocer los productos utilizados para la limpieza del hogar,
haciéndose la siguiente pregunta: ¿qué producto de limpieza utiliza frecuentemente en su
vivienda?
La respuesta fue:
25 contestaron “productos ambientales “
35 contestaron “detergentes “
7 contestaron “amoníaco “
40 contestaron “hipoclorito “
6 contestaron “ otros “
a) Determinar la distribución de frecuencias.
b) Representar gráficamente en barras y circular.
15. Recurriendo a los expedientes archivados en el hospital público de Pujilí, se ha obtenido la
siguiente información sobre el tiempo de espera de los pacientes antes de ser operados.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
27
Tiempo de espera
Número de pacientes
hasta 1 mes 20
de 1 a 2 meses 35
de 2 a 4 meses 20
de 4 a 6 meses 10
mas de 6 meses 5
a) Construir una tabla estadística.
b) Qué porcentaje corresponde a las personas que han esperado dos meses o menos.
c) Qué porcentaje de pacientes han esperado entre dos y seis meses.
d) Cuántas personas han esperado más de tres meses.
16. En la entrada de la Casa de Cultura núcleo de Cotopaxi, un encuestador recoge información de
las personas que llegan a la misma preguntándoles sobre el número de visitas que realizan en el
mes. Cuando ha entrevistado a 60 personas entrega la información recopilada:
2 8 5 6 1 3 2 8 5 3 2 4 1 3 4
4 3 5 2 6 1 7 6 2 5 3 8 4 6 2
8 7 6 4 3 2 6 1 1 1 2 2 4 7 6
2 1 3 4 5 8 2 2 6 5 3 2 3 4 3
a) Determinar el campo de variación de la variable.
b) Representar en una tabla estadística.
c) Construir el gráfico de barra y una ojiva.
d) Realizar la representación numérica mediante una tabla estadística con datos agrupados
en intervalos de amplitud tres.
e) Graficar el histograma y la distribución de frecuencias acumuladas.
17. Medimos la altura de los niños de la Unidad Educativa Jean Piaget y se resumen en la tabla.
Alumno Estatura Alumno Estatura Alumno Estatura
1 1.25 11 1.23 21 1.21
2 1.28 12 1.26 22 1.29
3 1.27 13 1.30 23 1.26
4 1.21 14 1.21 24 1.22
5 1.22 15 1.28 25 1.28
6 1.29 16 1.30 26 1.27
7 1.30 17 1.22 27 1.26
8 1.24 18 1.25 28 1.23
9 1.27 19 1.20 29 1.22
10 1.29 20 1.28 30 1.21
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
28
a) Indicar si es necesario agrupar en intervalos o no, explicar.
b) Tabular la información, presentándola en una tabla de frecuencias y representarla
gráficamente
c) Calcular la función de distribución acumulada y representarla gráficamente.
18. Se registra la estatura en metros de treinta personas que bajan del bus urbano y los
resumimos en la tabla siguiente:
Persona Estatura Persona Estatura Persona Estatura
1 1.15 11 1.53 21 1.21
2 1.48 12 1.16 22 1.59
3 1.57 13 1.60 23 1.86
4 1.71 14 1.81 24 1.52
5 1.92 15 1.98 25 1.48
6 1.39 16 1.20 26 1.37
7 1.40 17 1.42 27 1.16
8 1.64 18 1.45 28 1.73
9 1.77 19 1.20 29 1.62
10 1.49 20 1.98 30 1.01
a) Indicar si es necesario agrupar en intervalos o no, explicar.
b) Tabular la información, presentándola en una tabla de frecuencias y representarla
gráficamente
c) Calcular la función de distribución acumulada y representarla gráficamente.
19. En un estudio de los valores de colesterol, realizado a 460 estudiantes de la Universidad
Técnica de Cotopaxi, seleccionados al azar, se encuentra lo siguiente:
Colesterol Número de estudiantes
150 a 179 50
180 a 199 200
200 a 219 100
220 a 249 50
250 a 299 50
300 a 349 10
a) Representar la distribución con un gráfico adecuado
b) Indicar que porcentaje de la población presenta valores iguales o mayores de 220
c) Indicar que porcentaje de la población presenta valores iguales o menores de 210. Que
supuesto se debe realizar para este cálculo.
d) Cuál es el límite superior de colesterol del 10% de los estudiantes que tienen valores más
bajos y cuál es el valor limite inferior de los individuos que tienen valores más altos.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
29
DISTRIBUCIÓN NORMAL
Puesto que los procedimientos estadísticos implican el manejo de diversa información y el
conocimiento de algunos conceptos, es importante que inicie el estudio haciendo una revisión de
las definiciones de algunos términos que serán utilizados en lo posterior.
CARACTERÍSTICAS DE LA CURVA NORMAL
El estudio de la distribución normal que se encuentra dentro de una gran diversidad de
distribuciones de frecuencia, su gráfica es la curva normal. La curva normal, también llamada
distribución Gaussiana, tiene una importancia fundamental en estadística por la gran cantidad de
fenómenos que se explican con ella.
Entre las principales utilidades que se puede tener con la distribución normal son:
* La interpretación de la desviación estándar
* En la toma de decisiones
* Generalizar los resultados de una muestra a una población con un manejo adecuado de las
probabilidades.
Para la curva normal estándar, simplemente hacemos
0 y 1
se obtiene la gráfica para la variable z en lugar de x.
La curva normal tiene las siguientes características:
Es simétrica con respecto de la media aritmética y tiene forma de campana.
La media, la mediana y la moda tienen el mismo valor.
Se extiende en ambas direcciones infinitamente sin tocar el eje horizontal.
El área bajo la curva es igual a 1 que corresponde al 100% de los datos.
ES
TA
DÍS
TIC
A I
NF
ER
EN
CIA
L
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
30
PUNTUACIÓN ESTÁNDAR (Z)
Con frecuencia podemos encontrar que dos o más variables tienen medias y desviaciones estándar
diferentes, lo cual se puede solucionar “transformando los datos de modo que todas las variables
tengan medias idénticas y las mismas desviaciones estándar, es decir “estandarizando” los
parámetros de las distribuciones”. (Kenet Hopkins, 1997, p.74)
Nos permite determinar la dirección y el grado en que cualquier puntaje X se aleja de la media de
una distribución en una escala de desviación estándar.
La calificación o puntuación Z se utiliza para comparar datos u observaciones que tienen distintas
unidades de medida, por ejemplo: peso, longitud, edad, entre otras; y comparar medidas que
corresponden a diferentes características u observaciones; por ello es adimensional. Las unidades
de medida de la puntuación Z son desviaciones estándar (DE).
Esta calificación estándar viene dada por la ecuación:
valor x - media aritmética
desviación típicaz
x xz
S
Una vez determinado el valor Z, se debe interpretar el área bajo la curva, la misma que se ubica de
dos maneras:
Mediante Tabla de valores Z
Mediante el programa PQRS
En tabla, por ejemplo para el valor Z = 2.24
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
31
Se debe ubicar en la columna izquierda el 2.2 y luego en la fila se completa el 0.04 que falta,
entonces el áea encontrada medida desde el centro de la campana a la derecha (por ser Z positivo)
de 0.0125, es decir el 1.25% si le multiplicamos por 100%.
Utilizando el Programa PQRS se debe registrar el valor Z en la parte central y dando enter nos
indica el área total a la izquierda y a la derecha (ya no desde el centro).
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
32
En los problemas se puede solicitar que porcentaje:
Es mayor;
Es menor
Entre dos valores
Por ejemplo: ¿Qué porcentaje en un estudio estadístico es mayor que 25, si la media aritmética es
68 y la desviación estándar es de 23?
681.87
2
5
3
2z
Como es un valor negativo estará a la izquierda del centro de la campana y utilizando PQRS
tenemos:
El 96.93% es mayor que 25
El 3.07% tiene puntajes menores que 25
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
33
Si se requiere conocer, el porcentaje ENTRE 25 y 70, para esto encontramos el valor Z de 70
70
680.09
23
70z
Restamos, en este caso las áreas de la izquierda o las áreas de la derecha, para encontrar el área
entre 25 y 70 que corresponde a 50.52%
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
34
PROBLEMAS VALORES Z En un grupo de estudiantes las calificaciones correspondientes a dos asignaturas son: para
Matemática 16.8x y s = 1.6; para Física 17.5x y s = 2.8. Para un estudiante que ha obtenido
18 en Matemática y 15 en Física, determine la calificación Z para cada asignatura y estime que
porcentaje está en mayor, menor en cada asignatura.
En un examen de estadística la calificación promedio es de 17 y la desviación estándar 2.5 calcule:
a) El porcentaje de calificaciones inferiores a 19
b) El porcentaje de estudiantes que obtuvieron calificaciones inferiores o iguales a 16
c) El porcentaje de estudiantes cuyas calificaciones están entre 16 y 20
Utilizando la Tabla de valores Z, calcula el área bajo la curva de distribución normal entre:
a) Z = 0.8 y Z = 2.12
b) A la derecha de Z = 1.67
c) Z = -0.7 y Z = 1.42
d) Z = 0.63 y Z = 1.8
e) A la izquierda de Z = 1.54
f) A la derecha de Z = -0.95
Realizando el proceso inverso al ejercicio anterior, calcula el valor de Z conociendo el área:
a) El área entre 0 y Z es 35.31%
b) El área entre 0 y Z es 39.72%
c) El área a la izquierda de Z es 91.31%
d) El área entre 0 y Z es 46.64%, Z es negativo
e) El área a la derecha de Z es 11.5%
f) El área a la izquierda de Z es 50%
Se obtienen las calificaciones de 5 estudiantes sobre 10 puntos, de un curso de 52 estudiantes en
las asignaturas de inglés y Matemática, halle en cada asignatura
INGLES MATEMÁTICA
2 3
5 4
3 4
7 8
8 9
a) El porcentaje de calificaciones inferiores a 4
b) El porcentaje de estudiantes que obtuvieron calificaciones inferiores o iguales a 7
c) El porcentaje de estudiantes cuyas calificaciones están entre 8 y 3
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
35
PROBLEMAS PARA SPSS Problema 1. En el siguiente conjunto de números, se proporcionan los pesos (redondeados a la
libra más próxima) de los bebés nacidos durante un cierto intervalo de tiempo en un hospital:
4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 11, 8, 7, 10, 8, 5,
7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5.
a) Cuál es el porcentaje de niños de menos de 6 libras
b) Cuál es el porcentaje de niños de más de 8 libras
c) Cuál es el porcentaje de niños entre 3 y 9 libras
Problema 2.- Utilizando el SPSS, realice la siguiente encuesta el respectivo análisis estadístico
Pregunta 1.- Gastos efectuados en el último mes
15 contestaron $100 8 contestaron $150 Realice un diagrama de barras con porcentaje 2 contestaron $200
Pregunta 2.- Criterio del cuidado del Medio Ambiente por las autoridades
9 contestan Excelente
12 Muy Bueno
2 Bueno Realice un diagrama de barras con frecuencia
2 No opinan
Pregunta 3.- Provincia con el mejor tratamiento de la Basura
4 contestan Cotopaxi
11 Loja
8 Azuay Realice un gráfico circular
2 Otra
Pregunta 4.- Palabras que interpreten el Ambiente
9 escriben Pureza
8 Limpieza
4 Planeta Realice un gráfico circular
3 Mundo
1 Naturaleza
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
36
REGRESIÓN LINEAL Y CORRELACIÓN
Definiciones
Análisis de correlación.- Es el conjunto de técnicas estadísticas empleado para medir la intensidad
de la asociación entre dos variables. El principal objetivo del análisis de correlación consiste en
determinar que tan intensa es la relación entre dos variables.
Diagrama de dispersión.- Es la gráfica que representas la relación entre dios variables.
Variable dependiente.- Es la variable que se desea explicar o predecir; también se le denomina
regresando o variable de respuesta. Es la variable que predice o calcula.
Variable independiente.- Es la variable explicativa o regresor. Es la variable que proporciona las
bases para el cálculo. Es la variable de predicción.
Es práctica común marcar la variable dependiente en el eje vertical, o eje y (ordenada), y la
variable independiente en el eje horizontal, o eje x (abscisa).
Coeficiente de correlación.- Es la medida de la intensidad de la relación lineal entre dos variables.
Para determinar el valor numérico del coeficiente de correlación, se utiliza la siguiente expresión:
222 2
n XY X Yr
n X X n Y Y
donde:
n = número de pares de observaciones
x = suma de los valores de la variable x
y = suma de los valores de la variable y
( x2) = suma de los valores de x elevados al cuadrado
( x)2 = cuadrado de la suma de los valores de x
( y2) = suma de los valores de y elevados al cuadrado
( y)2 = cuadrado de la suma de los valores de y
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
37
xy = suma de los productos de x e y
r La correlación es
1 grande, perfecta y positiva
0.90 a 0.99 muy alta positiva
0.70 a 0.80 alta, positiva
0.40 a 0.60 moderada, positiva
0.20 a 0.30 baja, positiva
0.01 a 0.19 muy baja positiva
0 nula
– 0.01 a – 0.19 muy baja, negativa
– 0.20 a – 0.39 baja negativa
– 0.40 a – 0.69 moderada, negativa
– 0.70 a – 0.89 alta, negativa
– 0.90 a – 0.99 muy alta negativa
– 1 grande, perfecta, negativa
Forma general de la ecuación de regresión lineal
y´ = a + b x
y´ = s el valor pronosticado de la variable y para un valor seleccionado de x
a = es la ordenada de la intersección con el eje y, o sea el valor estimado de y cuando x = 0. es
decir, corresponde al valor de y, donde la recta de regresión cruza el eje y, cuando x es igual a 0
b = es la pendiente de la recta, o sea, el cambio promedio en y´ por unidad de cambio (incremento
o decremento) en la variable independiente x.
X = es cualquier valor seleccionado de la variable independiente.
Pendiente de la línea de regresión
22
XXn
YXYXnb
Intercepción con el eje X
n
Xb
n
Ya
Ejemplo.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
38
Se seleccionan al azar las siguientes observaciones de muestra
X: 4 5 3 6 10
Y: 4 6 5 7 7
Evalué el coeficiente de correlación y determinación, establezca la ecuación de regresión y cuando
x vale 7
Se plantea la fórmula para seguir calculando los datos que nos hacen falta:
222 2
n XY X Yr
n X X n Y Y
N X Y X2 Y2 X Y
1 4 4 16 16 16
2 5 6 25 36 30
3 3 5 9 25 15
4 6 7 36 49 42
5 10 7 100 49 70
28 29 186 175 173
Luego se sustituye en la fórmula
75.0
46.70
53
4964
53
34*146
53
841875784930
812865
291755281865
2928173522
r
r
r
r
r
r
Para calcular el coeficiente de determinación el resultado que es el coeficiente de correlación se
eleva al cuadrado así:
(0.75)2 = 0.5625 * 100 % = 56.25 %
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
39
El coeficiente 0.75 indica una correlación positiva más bien fuerte entre x e y. el coeficiente de
determinación más del 56.25 % de la variación en y se explica por medio de x
Ecuación de regresión: y¨= a + bx
22
XXn
YXYXnb
n
Xb
n
Ya
3630.0
146
53
784930
812865
281865
292817352
b
b
b
b
784.3
016.28.5
5
2836.0
5
29
a
a
a
y´ = 3.784 + 0.363 x
cuando x = 7
y´ = 3.784 + 0.363 (7)
y´ = 3.784 + 2.541
y´ = 6.325
EJERCICIOS
Se seleccionan al azar las siguientes observaciones muestrales
X: 5 3 6 3 4 4 6 8
Y: 13 15 7 12 13 11 9 5
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
40
Evalúe el coeficiente de correlación, determinación, establezca la ecuación de regresión,
establezca y¨ cuando x = 12
PROBLEMAS
1. Con los pares de datos
Número de anuncios por TV
Ventas (miles dólares)
4 15
2 8
5 21
6 24
3 17
a) Cuál es la variable dependiente y la independiente
b) Realice el diagrama de dispersión en computadora
c) Calcule el coeficiente de correlación
d) Evalúe el coeficiente de determinación e interprete
e) Establezca la ecuación de regresión; y pronostique cuando haga 7 anuncios
2. Un departamento desea examinar la relación entre el número de trabajadores por producción
en 1 hora (arman PC) los datos son los siguientes:
Cantidad de empleados
Producción en 1 hora (unidades)
2 15
4 25
1 10
5 40
3 30
a) Cuál es la variable dependiente y la independiente
b) Realice el diagrama de dispersión en computadora
c) Calcule el coeficiente de correlación
d) Evalúe el coeficiente de determinación e interprete
e) Establezca la ecuación de regresión; y pronostique cuando haga 6 empleados.
3. La empresa eléctrica de Bolívar, estudia las relaciones entre el consumo de energía y el número
de habitaciones en una residencia, de una muestra aleatoria de 10 casas produjo lo siguiente:
Número de habitaciones Consumo kwh
12 9
9 7
14 10
6 5
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
41
10 8
8 6
10 8
10 10
5 4
7 7
a) Determine la ecuación de regresión
b) Evalúe el consumo, en miles de kwh, para una casa de 6 habitaciones
c) Realice el diagrama de dispersión en computadora
4. Hay interés en los resultados actuales de las ventas y ganancias de las empresas. Se selecciono
una muestra aleatoria de 12 compañías. A continuación se indican las ventas y ganancias, en
millones de dólares.
Compañía Venta Ganancias
A 89.2 4.9
B 18.6 4.4
C 18.2 1.3
D 71.7 8.0
E 58.6 6.6
F 46.8 4.1
G 17.5 2.6
H 11.9 1.7
I 19.6 3.5
J 51.2 8.2
K 28.6 6.0
L 69.2 12.8
a) Evalúe el coeficiente de determinación
b) Determine la ecuación de regresión
c) Calcule las ganancias de una compañía pequeña con 50 millones de dólares en venta
d) Elabore un diagrama de dispersión en computadora
5. Se estudia los fondos de bonos mutuales para invertir varios de ellos, a continuación se
muestran sus activos y tasas de rendimiento.
Fondo Activos Rendimiento %
A 622.2 10.8
B 160.4 11.3
C 275.7 11.4
D 433.2 9.1
E 437.9 9.2
F 494.5 11.6
G 158.3 9.5
H 681.0 8.2
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
42
I 241.3 6.8
a) Trace el diagrama de dispersión en computadora
b) Calcule el coeficiente de correlación
c) Evalúe el coeficiente de determinación
d) Determine la ecuación de regresión, utilice los activos como la variable independiente
e) Establezca la tasa de rendimiento a cinco años (en porcentaje) de un fondo con 400
millones de dólares en ventas
Un panorama de conceptos probabilísticas
Probabilidad.- Valor entre cero y uno, inclusive, que describe la posibilidad relativa que ocurrirá
un evento.
Evento.- Es uno o más posibles resultados de hacer algo o sea de un experimento.
Experimento.- Proceso que conduce a la ocurrencia de una (y solamente una) de varias
observaciones posibles.
Resultado.- Lo que resulta específicamente de un experimento.
Espacio muestral.- Es el conjunto de todos los resultados posibles de un experimento.
Eventos mutuamente excluyentes.- Si un y sólo uno de ellos pueden tener lugar a un tiempo, lo
que implica que ningún otro puede ocurrir al mismo tiempo.
Colectivamente exhaustiva.- presenta todos los resultados posibles o eventos que pueden
resultar de un experimento.
Enfoques de la Probabilidad.- Se analizarán dos enfoques de la probabilidad, específicamente, los
puntos de vista objetivo y subjetivo. La probabilidad objetiva puede subdividirse en probabilidad
clásica y empírica.
Probabilidad Clásica.- Se basa en la consideración de que los resultados de un experimento son
igualmente posibles.
posiblesresultadosdetotalnúmero
favorablesresultadosdenúmeroeventoundeobabilidad Pr
Probabilidad Empírica.- Otra manera para definir la probabilidad es con base en las frecuencias
relativas. La probabilidad de que un evento ocurra a largo plazo se determina observando en que
fracción de tiempo sucedieron eventos semejantes en el pasado.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
43
onesobservacuidetotalnúmero
pasadoelenocurrióeventoelquevecesdenúmeroeventounsucedaquedeobabilidadPr
Probabilidad Subjetiva.- Probabilidad de que suceda un evento específico, asignado por una
persona con base en cualquier información de que se disponga.
Algunas Reglas de Probabilidad
Regla de la adición.- Para aplicar esta regla, los eventos deben ser mutuamente excluyentes, y nos
indica que la probabilidad de que ocurra uno u otro de los eventos, es igual a la suma de sus
probabilidades.
P (A o B) = P (A) + P ( B ).
P (A o B o C) = P ( A ) + P ( B ) + P ( C ).
Regla del Complemento.- Se utiliza para determinar la probabilidad de que ocurra un evento
restando del número 1 la probabilidad de que no ocurra: P ( A ) = 1 – P ( Ac ).
Probabilidad Conjunta.- Es la probabilidad que mide la posibilidad de que dos o más eventos
ocurran en forma simultánea. P (A o B ) = P ( A ) + P ( B ) – P (A y B ).
Reglas de la Multiplicación.- Requiere que dos eventos A y B sean independientes. Es
independiente cuando la ocurrencia de un evento no tiene efecto en la probabilidad de la
ocurrencia de cualquier otra.
P ( A y B ) = P ( A ) P ( B )
P ( A y B y C ) = P ( A ) P ( B ) P ( C )
Probabilidad Condicional.- Es la probabilidad de que ocurra un evento en particular, dado que
otro evento haya ocurrido.
P ( A y B ) = P ( A ) P ( B / A )
P ( A y B y C ) = P ( A ) P ( B / A ) P ( C / A y C )
Permutación.- Un arreglo o disposición de y objetos seleccionados a partir de un grupo único de n
objetos posibles.
!!
rn
nPrn
Combinación.- Es el número de modos para elegir r objetos de un grupo de n de ellos sin
considerar el orden.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
44
!!
!
rnr
nCrn
Ejemplos.
Se ha desarrollado un nuevo juego de vídeo. 80 jugadores veteranos de este tipo de
juegos van a probar su potencial de mercado.
a) ¿Cuál es el experimento?. Prueba del nuevo juego de computadora
b) ¿Cuál es un resultado posible? A cincuenta y tres jugadores les gustó el juego.
c) Suponga que 65 jugadores probaron el nuevo juego y afirmaron que les gustó ¿65 es una
probabilidad?. No la probabilidad no puede ser mayor que 1. la probabilidad de que el
juego, al ser lanzado al mercado, tenga éxito, es 8125.080
65
d) La probabilidad de que el juego de vídeo sea un éxito se calcula como – 1. comente esto.
No puede ser menor que 0. tal vez hubo un error en la aritmética.
e) Especifique un posible evento. A más de la mitad de los jugadores que prueban dicho
juego les agradó.
Una carta de una baraja de 52 naipes se va a seleccionar en forma aleatoria. ¿cuál es la
probabilidad de que la carta sea una reina? ¿qué enfoque de la probabilidad utilizó para
contestar esta pregunta?. 0769.052
4 enfoque clásico.
El INEC, informó que de cada 883 decesos, 24 se debieron a accidentes automovilísticos,
182 a cáncer y 333 a enfermedades del corazón ¿cuál es la probabilidad de que una
muerte específica se deba a un accidente de automóvil? ¿qué enfoque probabilístico
utilizó para contestar esta pregunta? Enfoque empírico 027.0883
24
¿Cuál es la probabilidad de que el Promedio Industrial Daw Jones sobrepase el valor 10
000 antes de que llegue el tercer milenio? ¿qué enfoque de la probabilidad utilizó para
contestar esta pregunta? Subjetivo 0.35
Se ha de entrevistar a un grupo selecto de empleados, con respecto a un plan de
pensiones. Se efectuarán entrevistas detalladas a cada uno de los empleados
seleccionados en la muestra. Éstos se clasificaron como sigue:
Clasificación Evento número de empleados
Supervisores A 120
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
45
De mantenimiento B 50
De producción C 1460
Gerencia D 302
Secretarial E 68
2000
a) ¿Cuál es la probabilidad de que la primera persona seleccionada:
i) ¿sea empleado de mantenimiento o una secretaria?
059.02000
6850
ii) ¿no sea de gerencia? 849.02000
3021
b) ¿Los eventos en la parte a) i) son complementarios o mutuamente excluyentes, o
bien de ambas clase? Son mutuamente excluyentes
Como parte de un programa de servicio a la salud para los empleados de una empresa, se
efectúan anualmente exámenes físicos de rutina. Se descubrió que 8% de los empleados necesitan
zapatos correctivos, 15%, trabajo dental importante, y 3%, necesitan tanto zapatos correctivos
como corrección ortodóncica mayor.
a) ¿Cuál es la probabilidad de que un empleado seleccionado al azar necesite zapatos
correctivos o trabajo dental importante?
P ( A o B ) = P ( A ) + P ( B ) – P (A y B )
= 0.08 + 0.15 – 0.03 = 0.20
Debido a su larga experiencia, en una compañía se sabe que la probabilidad de que su
neumático XB – 70 dure 60 000 millas antes de perder el dibujo o fallar es 0,80. se hace un
ajuste para el caso de cualquier llanta que no resista dicho recorrido. Usted compra cuatro
XB – 70. ¿cuál es la probabilidad de que los cuatro neumáticos duren al menos 60 000
millas? (0.80) (0.80) (0.80) (0.80) = 0.4096
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
46
Una máquina introduce legumbres mixtas en una bolsa de plático. La experiencia indica
que algunos paquetes tuvieron mens peso, y algunos otros peso de más, pero la mayoría
fueron satisfactorios.
Peso paquete Probabilidad
Insuficiente 0.025
Satisfactorio 0.900
Excedido 0.075
a) ¿Cuál es la probabilidad de seleccionar hoy tres paquetes de la línea de
procesamiento de alimentos, y encontrar que a los tres les falta peso?
(0.025) (0.025) (0.25) (0.025) = 0.0000156
b) ¿Qué significa esta probabilidad? La posibilidad de seleccionar tres bolsas y descubrir
que a todos les falta peso, es muy remoto.
La Junta de directores de NN, está formada por ocho hombres y cuatro mujeres. Se
seleccionará un comité de cuatro miembros, en forma aleatoria, para recomendar a un
nuevo presidente de la compañía
a) ¿Cuál es la probabilidad de que sean mujeres los cuatro miembros del comité de
investigación? 002.011880
24
9
1
10
2
11
3
12
4
b) ¿Cuál es la probabilidad de que los cuatro miembros sean hombres?
1414.011880
1680
9
5
10
6
11
7
12
8
c) ¿La suma de la probabilidades para 1 y 2 es igual a 1? Explique su respuesta. No, porque
existen otras posibilidades, como tres mujeres y un hombre.
Un músico desea escribir una partitura basada solamente en 5 notas; si bemol, do, re, mi y
sol. Sin embargo, sólo tres de las cinco repeticiones como si bemol, si bemol y mi.
a) ¿Cuántas permutaciones de las cinco notas, tomadas tres cada vez, son posibles?
5*4*3 = 60
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
47
b) utilizando la fórmula de permutación ¿cuántas permutaciones son posibles ahora?
601*2
1*2*3*4*5
!35
!535
P
8 colores, que se tomaran tres a la vez, darían 56 combinaciones diferentes. Utilizando la
fórmula de la combinación, ¿resulta cierto eso?
56
!5*1*2*3
!5*6*7*8
!38!3
!838
C
EJERCICIOS
1. Algunas personas están a favor de reducir los beneficios del Seguro Social a fin de lograr
un presupuesto equilibrado, en tanto otras están en contra. Se seleccionaron dos
personas y se han de registrar sus opiniones. Mencione los resultados posibles
2. Una encuesta en una clase de 34 estudiantes de la facultad de administración, reveló la
siguiente selección de carreras:
Contabilidad 10
Secretariado 5
Sistemas 3
Administración 6
Mercadotecnia 10
Suponga que selecciona a un o una estudiante y observa su opción profesional.
¿Cuál es la probabilidad de que él o ella estudie la carrera de administración?
¿Qué concepto de probabilidad utilizó para hacer esta estimación?
3. El departamento de vía pública del municipio, está considerando en ampliar la Avenida a
tres carriles. Antes de tomar una decisión, se preguntó a 500 ciudadanos si apoyaban la
ampliación.
¿Cuál es el experimento?
¿Cuáles son algunos de los posibles eventos?
Mencione dos resultados posibles
4. En cada uno de los casos indique si se utiliza la probabilidad clásica, la empírica o la
subjetiva.
Una jugadora de básquetbol realiza 30 canastas en 50 tiros de falta. La probabilidad de
que efectúe bien el próximo tiro es 0.6.
Se formó un comité de estudiantes de siete miembros para estudiar asuntos
ambientales, ¿cuál es la probabilidad de que uno de ellos sea elegido como vocero?
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
48
Usted compra uno de los 5 millones de boletos que Lotto vendió para un sorteo. ¿cuál
es la probabilidad de que gane el premio principal de 1 millón de dólares?
La probabilidad de que ocurra un sismo en el norte en los próximos 10 años, es de
0.80
5. Hay 52 cartas en una baraja normal
¿Cuál es la probabilidad de que la primera que se saque sea de espadas?
¿Cuál es la de que el primer naipe seleccionado sea una sota de espadas?
¿Qué concepto de probabilidad ilustran a y b?
6. Los eventos A y B son mutuamente excluyentes. Supóngase que P (A) = 0.30 y P (B) = 0.20
¿cuál es la probabilidad de que ocurra A o B? ¿Cuál es la probabilidad de no suceda ni A ni
B?
7. Un estudio de 200 cadenas de tiendas de comestibles reveló estos ingresos, después del
pago de impuestos
Ingreso (dólares) después de impuestos Número de Empresas
Menos de 1 millón 102
De 1 millón a 20 millones 61
De 20 millones o más 37
¿Cuál es la probabilidad de que una cadena en especial tenga menos de un millón (de
dólares) en ingresos después de pagar impuestos?
¿Cuál es la probabilidad de que una cadena de tiendas seleccionada al azar tenga un
ingreso entre un millón y 20 millones, o bien uno de 20 millones o más? ¿qué regla de
probabilidad aplicó?
8. El presidente de una Junta de Directores dice. “Hay un 50% de posibilidad de que esta
compañía tenga utilidades, un 30% de que quede a nivel, y un 20% de que perderá dinero
el siguiente trimestre”
Utilice una regla de adición para encontrar la probabilidad de que no se pierda dinero
en el próximo trimestre.
Aplique la regla del complemento para obtener la probabilidad de que no haya
pérdidas en tal periodo.
9. La posibilidades de los eventos A y B son 0.20 y 0.30, respectivamente. La probabilidad de
que tanto A como B ocurran es 0.15. ¿cuál es la probabilidad de que suceda A o bien B?
10. Suponga que P (A) = 0,40 y P ( B / A ) = 0,30. ¿cuál es la probabilidad conjunta de A y B?
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
49
11. Un banco local reporta que 80% de sus clientes tienen una cuenta de cheques, 60% una
cuanta de ahorros, y 50% tienen ambas. Si se selecciona un cliente al azar, ¿cuál es la
probabilidad de que éste tenga una cuenta de cheques o una de ahorros? ¿cuál es la
probabilidad de que el cliente no tenga ninguna de las dos?
12. Obtenga el valor de lo siguiente
!35
!40
47 P
25 C
13. Evalúe lo siguiente
!17
!20
39 P
27 C
14. Un entrevistador selecciono al azar 4 de 10 personas disponibles. ¿cuántos grupos
diferentes de 4 son posibles?
15. Un número telefónico consta de 7 dígitos, y los tres primeros representan la zona.
¿cuántos números telefónicos distintos son posibles dentro del área zonal 537?
16. Una empresa de mensajería rápida con viajes durante la noche, debe incluir cinco
ciudades en su recorrido. ¿cuántas rutas diferentes son posibles suponiendo que no
importa el orden en que las ciudades se incluyan en el recorrido?
17. Un representante de la Agencia de Protección Ambiental, desea seleccionar muestras de
10 rellenos sanitarios, y se dispone de 15 de ellos para obtenerlas. ¿cuántas muestras
diferentes son posibles?
18. Una organización nacional de encuestas ha elaborado 15 preguntas destinadas a evaluar la
actuación del Presidente. El entrevistador seleccionará 10 de tales interrogantes. ¿cuántos
arreglos diferentes existen para el orden de las 10 preguntas seleccionadas?
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
50
PRUEBAS DE HIPÓTESIS
Hipótesis.- Enunciado acerca de una población elaborado con el propósito de poner a prueba.
Prueba de Hipótesis.- Procedimiento basado en la evidencia muestral y en la teoría de
probabilidad que se emplea para determinar si la hipótesis es un enunciado razonable.
Hipótesis Nula:- Afirmación (o enunciado) acerca del valor de un parámetro poblacional.
Hipótesis alterna:- Afirmación que se aceptará si los datos muestrales proporcionan amplia
evidencia de que la hipótesis nula es falsa.
Nivel de Significancia:- Probabilidad de rechazar la hipótesis nula cuando es verdadera.
Error de Tipo I:- Rechazar la hipótesis nula, Ho, cuando en realidad es verdadera
Error de Tipo II:- Aceptar la hipótesis nula cuando en realidad es falsa
Valor Estadístico de Prueba.- Valor obtenido a partir de la información muestral, que se utiliza
para determinar si se rechaza la hipótesis nula.
Valor Crítico.- Número que es el punto divisorio entre la región de aceptación y la región de
rechazo, de la hipótesis nula.
Tomar una decisión.- Esta basada en el nivel de significación, ya sea para una prueba de dos
extremos o para una prueba de un extremo. Se considera lo expresado en las regiones de rechazo
y aceptación.
Pruebas Bidiriccionales.- Cuando una investigación nos interesa determinar si existe o no
diferencia entre los fenómenos en estudio, sin interesarnos cual de los dos fenómenos es mayor o
menor que el otro entonces debemos escoger una prueba bidireccional o a dos colas, puesto que
estamos interesados en los dos extremos de la curva normal.
Pruebas Unidireccionales.- Llamadas también a una cola, deben ser utilizadas cuando en una
investigación nos interesa si un grupo es mayor o menor que otro, lo que significa que tomaremos
solamente un extremo de la curva normal.
PRUEBAS PARA MUESTRAS GRANDES
Los siguientes casos especiales son sólo unos pocos de los estadísticos de interés práctico. En cada
caso los siguientes son válidos para poblaciones infinitas o para muestreo con reemplazo. Los
resultados deben modificarse para la toma de muestras sin reemplazo de poblaciones finitas.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
51
MEDIAS.- Aquí S = X , la media muestral: xs
, la media de la población;
nXs
, donde es la desviación estándar de la población y n es el tamaño muestral.
La variable estandarizada está dada por:
n
XZ
( 1 )
Para probar la hipótesis nula Ho de que la media de la población es a podemos usar el
estadístico ( 1 ). Entonces, si la hipótesis alterna es ,a usando la prueba de dos colas,
podemos aceptar Ho (o al menos no rechazarla) al nivel de significancia de 0,05 si para una
muestra particular de tamaño n con media X
96,196,1
n
aX
( 2 )
y podemos rechazarla de otra manera. Para otros niveles de significancia podemos cambiar ( 2 ) de
manera apropiada. Para probar Ho en contra de la hipótesis alterna de que la media de la
población es mayor que a, podemos usar la prueba de una cola y aceptar Ho (o al menos no
rechazarla) al nivel del 0.05 si
96.1
n
aX
y rechazarla de otra manera. Para probar Ho en contra de la hipótesis alterna de que la media de la
población es menor que a, podemos aceptar Ho al nivel del 0.05 si
96.1
n
aX
PRUEBA Z DE UNA MUESTRA DE LA DESVIACIÓN ESTÁNDAR CONOCIDA
Ejemplo:
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
52
Supongamos que se desea verificar si cierta muestra de 100 estudiantes del primer año de
bachillerato, cuya media de CI es de 105, procede de una población que tiene una media de CI de
100 y la desviación estándar es de 16.
1. Planteamiento de las hipótesis estadísticas y su modelo de decisión
Hipótesis Nula:
No hay diferencia entre la media de la población y la media de la muestra
Hipótesis Alterna:
Si hay diferencia entre la media de la población y la media de la muestra
Ho: µ = X
H1 :µ ≠ X
2. Selección del nivel de significación
α = 0,05 ( 5%)
3. Especificación del estadístico
Para el error típico: nx
Para la Prueba Z x
XZ
4.- Especificación de las regiones de aceptación y rechazo
a un nivel = 0,05. Valor de Z = ± 1.96 (Graficación ver Anexo 1)
5. Recolección de datos y cálculo de los estadísticos
Error típico de media
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
53
6.1
100
16
x
x
xn
Prueba Z
12.3
6.1
100105
Z
Z
XZ
x
6.- Decisión
Como el valor de Z es 3.12 y el nivel de significación al 0.05 es ± 1.96, el valor está fuera de la
región de aceptación, por lo tanto se rechaza la hipótesis nula, aceptando la alterna.
Existe diferencia entre la media muestral y la media poblacional.
PROPORCIONES.- Aquí S = P, la proporción de “éxitos” en una muestra; pps
, donde p
es la proporción de éxitos en la población y n es el tamaño muestral; n
pqps
, donde q
= 1 – p, la variable estandarizada está dada por
n
pq
pPZ
En el caso n
XP
, donde X es el número verdadero de éxitos en una muestra, (5) se convierte en
qpn
pnXZ
Se pueden hacer observaciones similares a las hechas atrás sobre pruebas de una y dos colas para
medias.
Ejemplo.- De una encuesta realizada con anterioridad se concluyó que el 65% de los estudiantes
de un colegio de la localidad que se graduaron de bachilleres, querían seguir sus estudios
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
54
universitarios. Actualmente se toma una muestra de 70 estudiantes y se les plantea la misma
pregunta y 50 manifiestan que quieren seguir sus estudios universitarios. Determinar si la
proporción de estudiantes que quieren continuar sus estudios es mayor que el 70% al nivel de
significación del 1%
1. Planteamiento de hipótesis
Ho: P = 0.70
H1: P > 0.70
Hipótesis Nula:
La proporción de estudiantes que desean continuar sus estudios es de 70%.
Hipótesis Alterna:
La proporción de estudiantes que desean continuar sus estudios es mayor al 70%.
2. Nivel de significación
01.0
3. Especificación del estadístico
qpn
pnXZ
4.- Especificación de las regiones de aceptación y rechazo
= 0.01 → Zt = 2.33
Zc ≥ 2.33 se rechaza Ho
5. Recolección de datos y cálculo de los estadísticos
24.010.4
1
4.0*6.0*70
7.07050
Z
Z
qpn
pnXZ
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
55
6.- Decisión
Como el valor de Z es 0.24 y el nivel de significación al 0.01 es ± 2.33, el valor está en la región de
aceptación, por lo tanto se acepta la hipótesis nula, por lo tanto el porcentaje de estudiantes a
continuar los estudios universitarios es mayor al 70%.
DIFERENCIA DE MEDIAS.- Sean 21 XyX las medias maestrales obtenidas en muestras grandes
de tamaños n1 y n2 de poblaciones respectivas con media µ1 y µ2 y desviaciones estándar
21 y.
Considere la hipótesis nula de que no hay diferencia entre las medias de las poblaciones, es decir,
µ1 = µ2, vemos que la distribución muestral de diferencias en medias es aproximadamente normal
con media y desviación estándar dada por:
2
2
2
1
2
1
21
21
0
nnXX
XX
donde podemos, si es necesario, usar las desviaciones estándar observadas s1 y s2 como estimados
de 21 y usando la variable estandarizada dada por:
2121
2121 0
XXXX
XXXXZ
Ejemplo.- Se aplica una prueba para el ingreso a Medicina en la U. C. del Ecuador a dos grupos de
estudiantes formados por 75 y 85. El primer grupo tuvo una puntuación media de 60 con una
desviación típica de 6, mientras que el segundo grupo tuvo una puntuación media de 66 y una
desviación estándar de 5. Determinar si existe diferencia en el rendimiento de los estudiantes de
los dos grupos al nivel de significación de 0.05.
1. Planteamiento de Hipótesis
Hipótesis Nula Ho: El rendimiento de los dos grupos es igual
Hipótesis Alterna H1: El rendimiento de los dos grupos difiere significativamente
Ho: 02121 XXXX
H1: 02121 XXXX
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
56
2. Nivel de significación
05.0
3. Especificación del estadístico
2
2
2
1
2
1
21
21
0
nnXX
XX
2121
2121 0
XXXX
XXXXZ
4.- Especificación de las regiones de aceptación y rechazo
= 0.05 → Zt = ± 1.96
Se rechaza Ho sí
Zc ≥ + 1.96
Zc ≤ – 1.96
5. Recolección de datos y cálculo de los estadísticos
88.0
85
5
75
6
0
21
21
21
21
22
2
2
2
1
2
1
XX
XX
XX
XX
nn
82.6
88.0
6
88.0
6660
0
2121
2121
Z
Z
XXXXZ
XXXX
6.- Decisión
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
57
Como el valor de Z es – 6.82 y el nivel de significación de 0.05 es ± 1.96, el valor está fuera de la
región de aceptación, por lo tanto se rechaza la hipótesis nula, por lo tanto el rendimiento de los
dos grupos difieren significativamente.
DIFERENCIA DE PROPORCIONES.- Sean P1 y P2 las proporciones muestrales obtenidas en muestras
grandes de tamaño n1 y n2 de las poblaciones respectivas con proporciones p1 y p2. Considere la
hipótesis nula de que no hay diferencia entre las proporciones de la población, es decir, p1 = p2, y
por lo tanto, de que las muestras se tomaron realmente de la misma población.
Reemplazando p1 = p2 = p, vemos que la distribución muestral de diferencias en proporciones es
aproximadamente normal con media y desviación estándar dadas por
21
111
0
21
21
nnpppp
pp
Donde: 21
2211
nn
PnPnP
se usa como un estimado de la proporción de la población p. usando la
variable estandarizada:
2121
2121 0
ppPP
PPPPZ
Ejemplo.- Una muestra de 100 estudiantes ISPED San Luis que fueron preguntados sobre la
aceptación de la Universidad Estatal de Bolívar y otro grupo de 150 estudiantes ISPED Pujilí y que
fueron preguntados en igual forma, se muestra que el 53% y 45% respectivamente estaban de
acuerdo, determinar al nivel de significación del 5% de que existe diferencia de criterio entre los
estudiantes de San Luis y Pujilí respecto a la aceptación de la U.E.B.
1. Planteamiento de Hipótesis
Hipótesis Nula Ho: La proporción de criterio de los dos grupos es igual
Hipótesis Alterna H1: La proporción de los dos grupos difieren de criterio
significativamente
Ho: 02121 PPPP
H1: 02121 PPPP
2. Nivel de significación
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
58
05.0
3. Especificación del estadístico
21
2211
nn
PnPnP
21
111
0
21
21
nnpppp
pp
2121
2121 0
ppPP
PPPPZ
4.- Especificación de las regiones de aceptación y rechazo
= 0.05 → Zt = ± 1.96
Se rechaza Ho sí
Zc ≥ + 1.96
Zc ≤ – 1.96
5. Recolección de datos y cálculo de los estadísticos
482.0
250
5.6753
150100
45.0*15053.0*100
21
2211
P
P
P
nn
PnPnP
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
59
07.0
017.0518.0482.0
150
1
100
1482.01482.0
111
0
21
21
21
21
21
21
pp
pp
pp
pp
pp
nnpp
14.1
07.0
45.053.0
0
2121
2121
Z
Z
PPPPZ
ppPP
6.- Decisión
Como el valor de Z es 1.14 y el nivel de significación de 0.05 es ± 1.96, el valor está en la región de
aceptación, por lo tanto se acepta la hipótesis nula, es decir la proporción de criterio de los dos
grupos es igual, con un nivel de confianza del 95%.
PRUEBAS ESPECIALES DE SIGNIFICANCIA PARA MUESTRAS PEQUEÑAS
En el caso de que las muestras sean pequeñas (n < 30), podemos formular pruebas de hipótesis y
significancia usando otras distribuciones además de la normal, tales como la t de Student.
MEDIAS.- Para probar la hipótesis Ho de que una población tiene media, µ, usamos:
nS
Xn
S
Xt
1
Donde X es la media de la muestra de tamaño n. S se usa en lugar de .
DIFERENCIA DE MEDIAS.- Supongamos que se obtienen dos muestras aleatorias de tamaño n1 y n2
de poblaciones normales (o aproximadamente normales), cuyas desviaciones estándar son iguales,
es decir, 21 .
Supongamos, además, que estas dos muestras tienen medias y desviaciones estándar dadas por
respectivamente. Para probar la hipótesis Ho de que las muestras vienen de la misma población
es decir µ así como 21 , usamos la variable dada por:
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
60
21
21
11
nn
XXt
donde
221
2
22
2
11
nn
SnSn
La distribución t es la distribución t de Student con v = (n – 1 ) y n1 + n2 – 2 grados de libertad.
Ejemplo.- En un examen de Psicología, 12 estudiantes de un grupo obtuvieron una calificación
media de 80 con una desviación estándar de 6, mientras que 15 estudiantes en otro grupo
obtuvieron una calificación media de 74 con una desviación estándar de 8. Para 05.0 . Se
podrá afirmar que el primer grupo es superior en calificaciones al segundo.
1. Planteamiento de Hipótesis
Hipótesis Nula Ho: El grupo uno es menor o igual al grupo dos.
Hipótesis Alterna H1: El grupo es mayor al grupo dos.
Ho: 21
H1: 21
2. Nivel de significación
05.0
3. Especificación del estadístico
21
21
11
nn
XXt
221
2
22
2
11
nn
SnSn
4.- Especificación de las regiones de aceptación y rechazo
= 0.05 → 71.125
95.0 t según tabla
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
61
Se rechaza Ho sí
t > 1.71
5. Recolección de datos y cálculo de los estadísticos
5.7
25
64*1536*12
21512
81561222
1.2
39.0*5.7
6
15
1
12
15,7
7480
t
t
t
Decisión
Como el valor de t es 2.1 y el nivel de significación de 0.05, el valor está fuera de la región de
aceptación, por lo tanto se rechaza la hipótesis nula, es decir hay razones para afirmar que con
95% de confianza el primer grupo es superior al segundo.
Métodos no Paramétricos.- Las pruebas que no hacen supuestos ni consideración acerca de la
Naturaleza de la Población y los parámetros de la misma, así como de la Independencia de una o
varias muestras extraídas de ella, son llamadas Pruebas No Paramétricas.
Recientes estudios de estadísticas se han dirigido a intentar hallar estadísticos de Contraste, que
comparen distribuciones sin especificar la forma de las mismas.
Puesto que la comparación se realiza entre distribuciones y no entre parámetros, los métodos se
llaman Estadísticos No Paramétricos. Probablemente las técnicas No Paramétricas más utilizadas
son.
La Prueba 2 (Ji – Cuadrado) en una muestra para la Bondad de Ajuste de una Distribución
Teórica de Frecuencias.
La Prueba 2 (Ji – Cuadrado) para la independencia de varias muestras provenientes de una
Población.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
62
Frecuentemente al emprender una investigación nos interesamos en el número de sujetos,
objetos o respuestas que se clasifican en diferentes categorías:
Ejemplos: masculinos o femeninos: Verdadero o Falso; Opiniones a favor, indiferentes, en contra
Las Pruebas 2 (Ji – Cuadrado) son adecuadas para analizar datos como estos. El número de
categorías pueden ser dos o más y la técnica que se sigue del tipo de Bondad de Ajuste, que puede
usarse para probar la existencia de una diferencia significativa entre el número observado de
objetos o respuestas de cada categoría y un número Esperado, basado en la Hipótesis de Nulidad.
Con el fin de comparar un grupo de frecuencias observadas con uno esperado, debemos por
supuesto, ser capaces de indicar que frecuencias son esperadas.
Supongamos que en una muestra particular se pueda clasificar en un conjunto de casos Posibles
C1, C2, …, Ck que se observan con frecuencia O1, …, Ok y que de acuerdo con las Reglas de
Probabilidades las frecuencias que se esperan debían ser E1,…, Ek
Categorías C1 C2 … Ck
Frecuencia Observada
O1 O2 … Ok
Frecuencia Esperada
E1 E2 … Ek
Una medida de la discrepancia existente entre las frecuencias observadas y esperadas, puede
obtenerse a través de:
k
j j
jj
E
EO
1
2
2
Estadístico Ji – Cuadrado
Si la frecuencia total viene dada por n (tamaño de la muestra)
N
E
Ok
j j
j
1
2
2
Sí 02 las frecuencias Observadas y Esperadas coinciden exactamente
Sí 02 no coinciden exactamente. Cuanto mayor sea2 , mayor será la discrepancia entre
las frecuencias Observadas y las Esperadas.
La Hipótesis de Nulidad establecerá proporciones de objetos que caen en cada una de las
categorías de la población presumida.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
63
Puede Demostrarse que, bajo Ho, 2
1
2
, para Ej ≥ 5
Prefijado un α (nivel de significación), sí
2
1
2
Rechazamos la hipótesis
2
1
2
No Rechazamos la hipótesis Ho y diremos que el ajuste es Bueno para el nivel α.
Si además. 22
No rechazamos Ho y diremos que el Ajuste es “muy bueno” para el nivel α.
Ejemplo
Los Ítems de un test de Actitudes hallan respuesta subrayando una de los siguientes frases:
Pleno Acuerdo, Acuerdo, Indiferente, Desacuerdo, Pleno Desacuerdo. La distribución de
respuestas se ilustra en la tabla. ¿Divergen estas respuestas significativamente de la distribución a
esperarse al 1%, cuando no hay preferencias en el grupo?
Pleno
Acuerdo Acuerdo Indiferente Desacuerdo
Pleno
Desacuerdo Total
Frec.
Observadas
Oj
23 18 24 17 18 100
Frec.
Esperadas
Ej
20 20 20 20 20 100
Oi – Ej 3 – 2 4 – 3 – 2
( Oi – Ej )2 9 4 16 9 4
j
j
E
E2
iO
0.45 0.20 0.80 0.45 0.20
1. Planteamiento de Hipótesis
Ho: f1 = f2 = … = f5
2. Nivel de significación
Para α = 0.01; Por la tabla obtendremos 3.134
99.0
2 , por lo tanto realizamos el
contraste para 3.132
3. Especificación del Estadístico
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
64
2
1
2
i5
2O
k
j
j
ii E
E
4. Cálculo de la Ji – Cuadrada
Calculamos 2 = 0.45 + 0.20 + 0.80 + 0.20
10.22
5. Decisión
Como 2.10 < 13.3, No rechazamos Ho luego hay una convergencia de Respuestas a las Esperadas
un 99% de confiabilidad.
Prueba Ji – Cuadrado para muestras Independientes
La prueba Ji – Cuadrado puede también utilizarse a la hora de Probar si dos muestras Provenientes
de una misma población, son independientes o no. La Hipótesis que usualmente se pone a Prueba,
supone que los dos grupos difieren con respecto a alguna característica y por lo tanto, con
respecto a la frecuencia relativa con que los miembros del grupo son encontrados en diferentes
categorías.
Ejemplo
Probar si dos sexos opuestos difieren en la frecuencia con que escogen determinadas actividades
recreativas.
En este caso queremos probar que no existen diferencias significativas entre los sexos y las
actividades recreativas seleccionadas por los integrantes del grupo. En otras palabras la hipótesis
nula se puede expresar como:
Ho: Las variables Sexo y Actividades recreativas son independientes.
Si en el primer caso se podía formar con las frecuencias observadas, una tabla de 1 fila con k
columnas, en este caso se podrá formar una tabla de 2 filas y k columnas con las frecuencias
observadas.
Si extraemos r muestras de una Población y queremos determinar su Independencia, se formará
con las frecuencias observadas una tabla de r filas y k columnas, estas tablas son llamadas, Tablas
de Contingencia.
C1 … CK
M1 O11 ... O1K
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
65
.
.
.
Mr Or1 … ORk
La hipótesis de nulidad puede probarse por medio de:
r
i
k
j ji
jiji
E
EO
1 1
2
2
Oi j: frecuencias observadas correspondientes a la Muestra i y la Categoría J.
Ei j : Frecuencias esperadas Muestra i, Categoría j.
Bajo Ho: 2
11
2
krse rechaza la hipótesis Ho.
Ejemplo
La tabla siguiente, muestra los estudiantes aprobados y suspendidos por tres profesores x, y, z.
pruebe la Hipótesis que las proporciones de estudiantes suspendidos por los 3 profesores, son
iguales para α = 0,05
FRECUENCIAS OBSERVADAS
Categoría X Y Z Total
Aprobados 50 47 56 153
Suspendidos 5 14 8 27
Total 55 61 64 180
Ho : Proporciones de suspensos, es la misma: 15
180
27p
O sea,
Ho: px = py = pz = 15%. La proporción de suspensos es independiente de los profesores
Si 15% suspenden, 85% aprueban
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
66
FRECUENCIAS ESPERADAS
Categoría X Y Z Total
Aprobados 46.75 51.85 54.40 153
Suspendidos 8.25 9.15 9.60 27
Total 55 61 64 180
Cálculo De Ji Cuadrada
84.4
60.9
60.98
15.9
15.914
25.8
25.85
40.54
40.5456
85.51
85.5147
75.46
75.4650
2
222222
2
Grados de libertad: g. l. = (2 – 1) (3 – 1) = 1 * 2 = 2
Valor de tabla: 99.52
95.0
2
Como 4.84 no es mayor que 5.99 concluimos que: No rechazamos Ho esto es, puede afirmarse con
el 95% de confianza que las proporciones de estudiantes suspendidos, son iguales.
Resumen acerca del uso de la Prueba Ji Cuadrada
Caso: Una Muestra
Se clasifican las frecuencias observadas por categorías. La suma es igual a n (números de
observaciones independientes)
A partir de Ho se determinan la Ej, estas deben ser mayores o iguales que 5, en caso de no serlo, se
deben agrupar las Categorías para lograrlo.
Se calcula el valor de 2 determinando los grados de libertad.
Se rechaza la Hipótesis Ho, sí 2
1
2
Caso: Independencia de dos muestras extraídas de una Población
Se construye, con las frecuencias observadas, la tabla de Contingencia.
A partir de Ho se determinan las frecuencias esperadas para cada una de las celdillas de la Tabla,
para obtener los totales por categorías y por muestras
Se calcula 2 y se determinan los grados de libertad (r – 1) (k – 1).
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
67
Se rechaza la hipótesis si 2
1
2
Ejemplo 1
Durante un largo periodo de tiempo, las notas medias dadas por un grupo de profesores en la
asignatura de matemática fueron: (escala de 2 a 5)
5 12% Un nuevo profesor evalúa de: 5 22 estudiantes
4 18% 4 34 estudiantes
3 40% 3 66 estudiantes
2 30% 2 28 estudiantes
150 estudiantes
Determine a un nivel del 5% sí el nuevo profesor está siguiendo el patrón de calificación
establecido por otros profesores.
Ho: Oi = Ej para j = 1, 2, 3, 4
Categorías 5 4 3 2
Frecuencias Observadas Nuevo profesor
Oi 22 34 66 28
Frecuencias Esperadas
Ej 18 27 60 45
Oi – Ej 4 7 6 – 17
( Oi – Ej )2 16 49 36 289
j
ji
E
EO2
0.88
1.81
0.60
6.42
Observación, la fila de frecuencia Esperada se calcula mediante el cálculo de los % esperados
contra el total de estudiantes (150 en este caso)
El estadígrafo a utilizar es:
k
j j
jj
E
EO
1
2
2
Cálculo de Ji – Cuadrada
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
68
71.9
42.660.081.188.0
2
2
4
1
2
2
j j
jj
E
EO
En la tabla buscamos 81.73
95.0 y como 9.71 > 7.81, se rechaza la hipótesis Ho
Esto indica que el nuevo Profesor, no está siguiendo los patrones establecidos. Se observan
resultados mejores en el nuevo Profesor. Puede ocurrir que sea debido a mejores métodos de
enseñanza o estudiantes mejor preparados en cursos anteriores. Esto da lugar, sin dudas, a nuevas
valoraciones y estudios.
Ejemplo 2
La tabla muestra la relación entre los estudiantes de Informática en Matemática y Física. Pruebe la
Hipótesis de que el comportamiento en Física es independiente de los resultados en Matemática,
utilizando α = 0,01
FRECUENCIAS OBSERVADAS
MATEMÁTICA
F
I
S
I
C
A
ALTAS MEDIAS BAJOS TOTAL FÍSICA
ALTAS 56 71 12 139
MEDIAS 47 163 38 248
BAJAS
14 42 85 141
TOTAL MATEMÁTICA 117 276 135 528
HO:
PAF = PAM = PMM = PBM
PMF = PAM = PMM = PBM
PBF = PAM = PMM = PBM
Las proporciones A, M y B en Física. Son independientes de las Proporciones A, M y B en
Matemática.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
69
FRECUENCIAS ESPERADAS
MATEMÁTICA
F
I
S
I
C
A
ALTAS MEDIAS BAJOS TOTAL FÍSICA
ALTAS 30.8 72.7 35.5 139
MEDIAS 55 129.6 63.4 248
BAJAS
31.2 73.7 36.1 141
TOTAL MATEMÁTICA 117 276 135 528
Cálculo de 2
Frecuencia
Observada
Frecuencia
Esperada O – E ( O – E )2 ( O – E )2 / E
56 30.8 25.2 635.04 20.6
71 72.7 – 1.7 2.89 0.04
12 35.5 – 23.5 552.25 15.6
47 55 – 8 64 1.16
163 129.6 33.4 1115.56 8.6
38 63.4 – 25.4 645.16 10.2
14 31.2 – 17.2 295.84 9.5
42 73.7 – 31.7 1004.89 13.6
85 36.1 48.9 2391.21 66.2
TOTAL 2 145.5
Grados de libertad
g. l. = ( r – 1 ) ( k – 1 ) = 2 * 2 = 4
Valor de la tabla: 3,134
99,0
145,5 > 13,3, rechazamos la Ho tenemos la confianza de un 99% de afirmar que los resultados
obtenidos en Física, dependen de los obtenidos en Matemática.
EJERCICIOS
La Tabla indica el número de estudiantes de los grupos G1 y G2 que aprobaron y que suspendieron
en un mismo examen. Utilizando un nivel de significación α = 0.05. Probar la hipótesis que no hay
diferencia entre los dos grupos.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
70
Grupos Aprobaron Suspendieron
G1 72 17
G2 64 23
El número de libros prestados por la Biblioteca de la Universidad Central del Ecuador, durante una
semana particular, viene dado en la Tabla. Pruebe la hipótesis de que el número de libros
prestados no depende del día de la semana, para α = 0.01
Número
de libros Lunes Martes Miércoles Jueves Viernes Total
Oi 135 108 120 114 146 623
Ej 124.6 124.6 124.6 124.6 124.6 623
PROBLEMAS
1. La experiencia de algunos cursos, ha permitido obtener que la media del ingreso en una carrera
universitaria es de 80 en el presente curso, de 144 presentados el promedio fue de 90 con una
desviación estándar de 25. ¿Podremos afirmar con un 95% de confianza que los estudiantes
presentados estaban mejor preparados?
2. Se aplica una prueba de rendimiento a dos grupos de estudiantes, el primero formado por 58
estudiantes, tienen un rendimiento medio de 56 puntos y una desviación típica de 12; el otro
grupo de 49 estudiantes tienen un rendimiento medio 65 puntos y una varianza de 25 ensayar la
hipótesis de que el segundo grupo tienen un mejor rendimiento al α = 0.05
3. Un investigador educativo desea conocer, si el método puesto en marcha está produciendo
cambios de comportamiento, para lo cual toma una muestra de 52 estudiantes, en el cual
determinan mediante un test de aptitud que la media es de 14.85 y la desviación estándar de 4.23.
Estará generando cambios el método si la media deseada es de 15.5
4. En un estudio comparativo del tiempo medio de escolaridad para una muestra aleatoria de 50
hombres y 50 mujeres en una industria, se obtuvieron los siguientes valores estadísticos de
muestra. Hombres media 3.2 años y desviación típica 0.8 años. Mujeres media 3.7 años y
desviación típica de 0.9 años. ¿Puede concluir al nivel de 0.01 los hombres pasan un tiempo menor
en la escuela que las mujeres?
VALORES DE T A NIVELES DE CONFIANZA DE 0,05 Y 0,01
g. l. 0,05 0,01
1 12.706 63.657
2 4.303 9.925
3 3.182 5.841
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
71
4 2.776 4.604
5 2.571 4.032
6 2.447 3.707
7 2.365 3.499
8 2.306. 3.355
9 2.262 3.250
10 2.228 3.169
11 2.201 3.106
12 2.179 3.055
13 2.160 3.012
14 2.145 2.977
15 2.131 2.947
16 2.120 2.921
17 2.110 2.898
18 2.101 2.878
19 2.093 2.861
20 2.086 2.845
21 2.080 2.831
22 2.074 2.819
23 2.069 2.807
24 2.064 2.797
25 2.060 2.787
26 2.056 2.779
27 2.052 2.771
28 2.048 2.763
29 2.045 2.756
30 2.042 2.750
VALORES DE JÍ CUADRADO
g. l. 0.05 0.01
1 3.841 6.635
2 5.991 9.210
3 7.815 11.345
4 9.488 13.277
5 11.070 15.086
6 12.592 16.812
7 14.067 18.475
8 15.507 20.090
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
72
9 16.919 21.666
10 18.307 23.209
11 19.675 24.725
12 21.026 26.217
13 22.362 27.688
14 23.685 29.141
15 24.996 30.578
16 26.296 32.000
17 27.587 33.409
18 28.869 34.805
19 30.144 36.191
20 31.410 37.566
21 32.671 38.932
22 33.924 40.289
23 35.172 41.638
24 36.415 42.980
25 37.652 44.314
26 38.885 45.642
27 40.113 46.963
28 41.337 48.278
29 42.557 49.588
30 43.773 50.892
INTRODUCCIÓN AL DISEÑO DE EXPERIMENTOS
Existen múltiples diseños experimentales en la teoría estadística, acá, se abordarán algunos de
ellos, todos basados en el análisis de varianza (ANOVA), se seleccionaron aquellos que
permiten introducir el tema de manera fácil y que son de uso frecuente en diversas áreas del
conocimiento, especialmente en el área social y de alimentos, sin dejar de reconocer que este es
un tema de mucha aplicación industrial, siendo un paso más en el control estadístico de procesos.
Uno de los objetivos del diseño de experimentos, es identificar aquellos factores que pueden
incidir de una u otra manera en el resultado de otra variable, llamada, variable respuesta o
dependiente.
Debido a que el diseño de experimentos tiene su propio lenguaje, es importante, definir algunos
conceptos básicos.
CONCEPTOS BÁSICOS EN EL DISEÑO EXPERIMENTAL
Se empieza por desagregar el nombre del tema a estudiar.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
73
DISEÑO
Descripción de algo, bien sea con palabras o por medio de figuras. Para el caso, apunta a definir
adecuadamente como se va a realizar la prueba o ensayo, cuál es el número adecuado de
unidades experimentales, la forma de asignar los tratamientos a esas unidades. Definir si se
requieren agrupaciones de categorías, cada cuanto hay que seleccionar las unidades de análisis y
otros detalles más, dependiendo del tipo de diseño y de los objetivos del estudio.
EXPERIMENTO
Definición del problema, el cual debe tener en cuenta la definición y selección de las unidades
experimentales, de los tratamientos y de la variable respuesta.
UNIDAD EXPERIMENTAL
Objeto sobre el que se realiza una medición u observación. Definir claramente sus
características.
FACTOR
Variable independiente que se evalúa en la investigación. Puede ser cuantitativo, con pocas
categorías o cualitativo, son controlados por el investigador.
NIVEL
Atributos o estados en que se descompone un factor. Cuando se tiene un sólo factor, los
niveles son iguales a los tratamientos. Se presentan niveles fijos o aleatorios. Si se quiere
determinar que un método de aprendizaje es mejor que otro, por ejemplo, presencial, semi
presencial y semi virtual, el factor es el método de aprendizaje y tiene 3 niveles que son sus
categorías.
Si se desea determinar cuál medicamento es más eficiente para disminuir el dolor de cabeza de un
total de 50 analgésicos, y se seleccionan al azar 5 de ellos, se dice que el diseño es de efectos
aleatorios, por el contrario, si sólo nos interesa abordar el problema con 4 de ellos y se toman los
datos para ellos, se dice que es de efectos fijos.
TRATAMIENTO
Nivel de un factor o una combinación de ellos. Para los casos mencionados antes, el nivel del
factor corresponde a un tratamiento, pero si además, se desea identificar los cambios según
grupos de edad, un tratamiento para el caso de los métodos de aprendizaje, sería: presencial y
10 a 15 años, otro sería, presencial y 16 a 20 años. La siguiente tabla ilustra el caso.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
74
Un tratamiento es cada combinación o cruce de categorías, este modelo se conoce como
experimento de dos factores. La idea es generalizable, es decir, se diseñan experimentos de 3
o más factores y toman el nombre de experimentos factoriales. En este texto, se trabajará con
experimentos de hasta dos factores. Cuando se tiene un solo factor, se dice que es un modelo de
ANOVA de una vía, si por el contrario son dos, se dice que es de dos vías y así sucesivamente.
TRATAMIENTO CONTROL
Es necesario cuando la efectividad general de los tratamientos es desconocida pero no es
consistente bajo todas las condiciones.
VARIABLE RESPUESTA O DEPENDIENTE
Característica cuantitativa observada o medida en cada unidad experimental. Se debe definir
cómo se va a medir. Para el caso que se trae, se tiene que haber definido como se mide de
manera cuantitativa los cambios en el aprendizaje según las diversas modalidades y grupos de
edad.
BLOQUE
Grupo de unidades experimentales homogéneas, origina un diseño específico de experimentos.
ANÁLISIS DE VARIANZA PARAMÉTRICO DE UNA VÍA.
El análisis de la varianza (ANOVA) es una técnica estadística de contraste de hipótesis con respecto
a más de dos promedios, por lo tanto, es la técnica que nos introduce a técnicas multivariantes. El
ANOVA de una vía relaciona una variable independiente generalmente nominal y otra
dependiente o respuesta de carácter cuantitativa. El diseño más sencillo es el que utiliza una
sola variable independiente y toma el nombre de: Diseño de una vía o de un solo factor. El tratado
en este texto, se conoce como efecto fijo, es decir, es de interés solamente inferir sobre los
tratamientos seleccionados.
El ANOVA
Tiene múltiples aplicaciones, todas ellas, en busca de identificar diferencias dentro de las
categorías de la variable independiente. Entre otras se pueden mencionar:
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
75
Comparación de métodos de aprendizaje Comparación de métodos de cualquier tipo Volumen de
ventas por estrato.
Facturación por EPS.
Eficiencia de tratamientos de cualquier índole. Preferencia de candidatos por municipios.
Producción según métodos.
Como las demás pruebas paramétricas, requiere cumplir algunos supuestos, ellos son:
1. Aleatoriedad de los datos para cada tratamiento. Se valida con la prueba de rachas
(Wald-Wolfowitz).
2. Normalidad de los datos de cada uno de los tratamientos. La normalidad con
Smirnov- Kolmogorov -Lilliefor y el gráfico de probabilidad normal.
3. Homogeneidad de las varianzas entre los tratamiento. La homogeneidad con la prueba
de Levene, aunque en los textos generalmente se mencionan: Bartlett, Hartley y
Cochran.
FASES EN EL ANÁLISIS DE VARIANZA.
Identificar la variable dependiente o respuesta y las variables independientes.
Seleccionar el número de factores y niveles. Selección del diseño de experimentos.
Realización del experimento.
Análisis de datos.
Conclusiones y recomendaciones.
La diapositiva siguiente muestra como la técnica consiste en desagregar la variabilidad total
en partes, una debido a la variabilidad dentro de los tratamientos y otra entre ellos. La parte
operativa se basa en construir la tabla de ANOVA.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
76
Es importante recalcar que el ANOVA compara medias, no varianzas, para ello requiere de
algunos cálculos un poco tediosos y con fórmulas poco amigables, no obstante, con los ejemplos
se verá que no se requiere de ningún conocimiento especial en el área matemática. Además, en la
práctica, se utiliza software estadístico y/o otros programas que simplifican los cálculos.
Un hecho a resaltar, es qué hacer cuando no se cumplen los supuestos: Si falla la
normalidad, el estadístico F es robusto, lo que implica que no es tan problemático la falla de éste
supuesto, no obstante, si la no normalidad se da en la mayoría de tratamientos, se puede preferir
la prueba Kruskal Wallis de la estadística no paramétrica o ensayar con algunas
transformaciones, para lo cual se espera contar con software adecuado para el caso.
Si el problema es de aleatoriedad en los datos, se puede afirmar el adagio popular, “Apague y
vámonos”, es decir, hay que volver a tomar las mediciones, si es que se puede.
El problema de homogeneidad de varianzas, llamado heterocedásticidad, usualmente se
arregla con transformaciones, en caso contrario de nuevo se puede preferir la no paramétrica.
De manera sintética se presenta la siguiente figura, donde se esquematiza los tres grandes
pasos para llevar a cabo un procedimiento de ANOVA, teniendo en cuenta que primero se debe
explorar los datos y obviamente validar los supuestos.
Como se observa, se sigue con el mismo derrotero desarrollado en los problemas de pruebas de
hipótesis. Además, la parte de exploración de datos se sugiere para cualquier procedimiento
estadístico.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
77
Una manera general de validar los diferentes supuestos es el gráfico de caja y sesgos, ya
que permite observar de manera intuitiva, eso sí, la forma de los datos (normalidad) y la
variabilidad (varianzas iguales). Además, ayuda a visualizar si los tratamientos son iguales.
El gráfico de caja y sesgo, sugiere que el tratamiento C difiere de los otros dos, además, que el
tratamiento B tiene una variabilidad muy baja, como ya se mencionó esto es intuitivo, por ello,
usando el programa estadístico SPSS se ejecuta la prueba de rachas para la aleatoriedad, la de
Shapiro Wills de normalidad y la de Levene para homogeneidad de varianzas.
La tabla de Análisis de varianza tiene la siguiente presentación:
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
78
Con el siguiente ejemplo se desarrolla el procedimiento, asumiendo que se cumplen los supuestos.
Ejemplo
Se supone que el tratamiento (después del moldeo) de un plástico que se usa para lentes ópticos,
mejora su visibilidad.
Deben probarse cuatro tratamientos. Para determinar si existe una diferencia en la visibilidad
media entre los tratamientos, se moldearon 28 piezas a partir de una sola formulación y se
asignaron aleatoriamente siete piezas a cada tratamiento. Se determinó la visibilidad midiendo el
aumento en “Empañamiento” después de 200 ciclos de abrasión(los aumentos menores
indican mayor visibilidad).
Solución manual.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
79
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
80
Solución Excel.
Luego de activar la opción Datos +Análisis de datos +Análisis de varianza de un factor, se define el
rango de entrada de los datos y el de salida, tal como se muestra a continuación.
Para obtener los siguientes resultados.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
81
Los resultados obtenidos, son iguales a los presentados realizando los cálculos de manera manual.
Por lo tanto, las conclusiones e interpretaciones ya descritas son válidas.
Es claro, que se tienen elementos para aplicar la técnica de Análisis de Varianza de un Factor
utilizando el Excel, sin embargo, es importante tener claridad sobre la importancia de la validez
de los supuestos, ya que, en caso de que no se cumpla alguno de ellos, se debe procurar su
remedio y/o trabajar con la estadística no paramétrica.
Solución SPSS.
Dada la gama de opciones del programa estadístico SPSS en los diversos análisis de varianza, se
describe el procedimiento para un factor o una vía.
Luego de abrir el programa, y como es usual en el uso del mismo, se activa la opción Analizar +
Estadísticos descriptivos + Explorar. Tal como se muestra en la siguiente figura.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
82
Se destaca que la manera de entrar los datos es diferente al programa Excel, se nota que
sólo se requiere de dos columnas, una para la variable cuantitativa o variable respuesta y otra que
también se debe definir como numérica, sin serlo, para los diferentes tratamientos, por eso
se requiere entrar códigos de números para luego colocarles etiquetas.
Posteriormente, se procede a entrar las variables como se presenta en los cuadros de dialogo del
programa.
La variable dependiente es la cuantitativa y el factor es la independiente, luego de entrar por
Opciones, se solicita el gráfico de normalidad, que entrega las pruebas de Kolmogorov-Smirnov y
Shapiro-Wilk y la estimación de potencia, la cual arroja la prueba de homogeneidad de la varianza.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
83
Dado los tamaños de muestra pequeños, se observan los valores Sig de la prueba de Shapiro Wilk,
donde sólo el tratamiento A da un valor menor de 0.05, lo que indicaría que sus datos no se
distribuyen normal, no obstante, a la mayoría de tratamientos ser normales, se puede proseguir
con el ANOVA paramétrico. Con respecto a la homogeneidad de varianzas, la prueba confirma que
los tratamientos tienen varianzas similares, por lo tanto, se cumple son estos supuestos. Para
validar la aleatoriedad de los datos, supuesto vital para la validez del procedimiento, se requiere
primero segmentar el archivo, opción ubicada activando en el menú principal: Datos + Segmentar
archivos.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
84
A continuación, se entra por la ruta Analizar + pruebas no paramétricas + Rachas, contrastando la
variable Empañamiento como se muestra en la figura anterior, parte derecha. Los resultados
obtenidos y ajustados para el texto son:
Si se aprecian los valores de Sig.asintòt. (bilateral), todos ellos, son mayores de 0.05, con lo cual se
concluye que los datos para todos y cada uno de los tratamientos se comportan de manera
aleatoria.
Ahora sí, se puede llevar a cabo el cálculo del ANOVA paramétrico.
No olvide desactivar la segmentación del archivo, sino lo hace, el procedimiento no se ejecuta.
Analizar + Comparar medias + ANOVA de un factor.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
85
Colocando las variables como se muestra en la salida anterior, se obtiene la siguiente tabla de
ANOVA, con resultados iguales a los ya descritos usando el Excel.
Como el Sig. Mucho menor de 0.05, se concluye que existe diferencia en los promedios en al
menos uno de los tratamientos.
Para definir cuál o cuáles son los que difieren, se procede a activar la opción Post hoc, lo que
permite realizar diversas comparaciones, según diferentes autores, como se presenta a
continuación.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
86
Utilizando el de Tukey cuya salida es similar a los otros procedimientos, se obtiene entre otra
información la siguiente:
Se destaca que el tratamiento B, tal como se había percibido en el análisis exploratorio es el que
difiere de los demás, incluso detectando que tiene un promedio mayor, en los tratamientos A, C y
D, no hay diferencia en los promedios.
Si se construye el gráfico denominado de barras de errores. Se confirma lo ya expuesto.
Dr. Carlos Mantilla Parra. M.Sc. ESTADÍSTICA PARA CIENCIAS AMBIENTALES
87
Recommended