22
ESCUELA SUPERIOR POLITÉCNICA DE CHIMBORAZO “ESPOCH” ESCUELA DE INGENIERIA DE EMPRESAS, MODALIDAD FORMACIÓN DUAL INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS ANDREA CRISTINA BALLADARES CARRASQUILLO

Espoch modalidad dual cristina balladares

Embed Size (px)

DESCRIPTION

MINI MANUAL DE R COMMANDER

Citation preview

Page 1: Espoch modalidad dual cristina balladares

ESCUELA SUPERIOR POLITÉCNICA DE

CHIMBORAZO “ESPOCH” ESCUELA

DE INGENIERIA DE EMPRESAS, MODALIDAD

FORMACIÓN DUAL

INTERVALOS DE CONFIANZA Y CONTRASTES DE HIPÓTESIS

ANDREA CRISTINA BALLADARES

CARRASQUILLO

Page 2: Espoch modalidad dual cristina balladares

INTRODUCCION

INICIAR R COMMANDER

Una vez que R se está ejecutando, simplemente cargando el paquete Rcmdr mediante la instrucción library(Rcmdr) en la consola de R, se inicia la interfaz gráca de usuario (_GUI_) de R Commander. Para que funcione correctamente con Windows, R Commander requiere la interfaz de documento único (SDI) de R1. Después de cargar el paquete, las ventanas R Console y R Commander deberían aparecer más o menos como en las guras ?? y ??. Éstas y otras imágenes en este documento fueron creadas con Windows XP; si usa otra versión de Windows (o, por supuesto, otra plataforma informática), entonces la apariencia de la pantalla puede diferir2. Si estos paquetes no están instalados, Rcmdr ofrecerá instalarlos desde Internet o desde archivos locales (e.g., desde un CD_ROM). Si usted instala el paquete Rcmdr a través de Windows_R GUI_, los paquetes de los cuales Rcmdr depende deberían ser instalados automáticamente. En general, puede instalar el paquete Rcmdr y todos los paquetes de los que depende a través de la función install.packages, estableciendo el argumento dependencies = TRUE. Gracias a Dirk Eddelbuettel, los usuarios de Debian Linux sólo necesitan la instrucción apt-get install r-cran-rcmdr para instalar el paquete Rcmdr junto con todos los paquetes que éste requiere. En cualquier caso, instalar y cargar el paquete Rcmdr en los sistemas Linux suele ser sencillo. La tarea puede ser más complicada con OS/X en los sistemas Macintosh, ya que el paquete tcltk del cual depende Rcmdr requiere que Tcl/Tk esté instalado y que R se esté ejecutando con XWindows.

2

Page 3: Espoch modalidad dual cristina balladares

DEDICATORIA

El momento en que el ser humano culmina una meta, es cuando se detiene a hacer un recuento de

todas las ayudas recibidas, de las voces de aliento, de las expresiones de amor y comprensión; es

por eso que nosotras dedico éste triunfo manual a nuestros queridos padres quienes con su infinita

adhesión nos han brindado todo su apoyo sin escatimar sacrificio alguno. A nuestros hermanos,

porque han sido los amigos, los compañeros fieles en el camino hasta aquí recorrido; y en general

a toda nuestra familia que de una u otra manera contribuyeron para el logro de mi carrera.

A Dios por guiar nuestros pasos y ayudarnos a superar los obstáculos que se nos presentaron a lo

largo del camino; y, por último queremos dedicar este logro a todos nuestros amigos testigos de

nuestros triunfos y fracasos.

3

Page 4: Espoch modalidad dual cristina balladares

AGRADECIMIENTO

Hacemos llegar nuestro profundo agradecimiento primero a Dios por darnos fortaleza y la

constancia para cumplir nuestros objetivos propuestos, a nuestros padres por estar siempre a

nuestro lado brindándonos su apoyo, a nuestra universidad y especialmente a la Facultad de

Administración de empresas , que mediante sus autoridades y docentes nos brindaron una sólida

formación universitaria y lograron que culminemos con éxito una más de nuestras etapas

académicas.

4

Page 5: Espoch modalidad dual cristina balladares

EL ENTORNO R-COMMANDER

GENERALIDADES

R-Commander es una Interfaz Gráfica de Usuario (GUI en inglés), creada por John Fox, que permite acceder a muchas capacidades del entorno estadístico R sin que el usuario tenga que conocer el lenguaje de comandos propio de este entorno. Al arrancar R-Commander, se nos presentan dos ventanas:

Figura 1: La ventana R Console tras cargar el paquete Rcmdr.

5

Page 6: Espoch modalidad dual cristina balladares

Lenguaje de comandos de R, simplemente observando lo que va apareciendo en la ventana script se irá familiarizando (y con un poco de interés, también aprendiendo) con dicho lenguaje. Es más, el usuario puede introducir comandos directamente en dicha ventana, y tras pulsar el botón Submit dichos comandos serán ejecutados1 y su resultado mostrado en la ventana Output. El script puede guardarse y volver a ser ejecutado directamente otras veces con otros conjuntos de datos diferentes, sin que el usuario tenga que desplazarse por todo el sistema de menús para volver a realizar las mismas tareas.

6

Page 7: Espoch modalidad dual cristina balladares

El acceso a las funciones implementadas en R-commander es muy simple y se realiza utilizando el ratón para seleccionar, dentro del menú situado en la Si se desea ejecutar un único comando basta con situar el cursor en cualquier punto del comando y pulsar Submit . Si se desean ejecutar varios comandos conjuntamente hay que seleccionarlos todos con el ratón y a continuación pulsar Submit

.Introducción al uso de R-commander. primera línea de la ventana, la opción a la que queramos acceder. Las opciones son:

• − File: para abrir ficheros con instrucciones a ejecutar, o para guardar datos, resultados, sintaxis, etc.

• − Edit: las típicas opciones para cortar, pegar, borrar, etc.• − Data: Utilidades para la gestión de datos (creación de datos, importación desde

otros programas, recodificación de variables, etc.)• − Statistics: ejecución de procedimientos propiamente estadísticos• − Graphs: gráficos• − Models: definición y uso de modelos específicos para el análisis de datos.• − Distribution: probabilidades, cuantiles y gráficos de las distribuciones de

probabilidad más habituales (Normal, t de Student, F de Fisher, binomial, etc.)• − Tools: carga de librerías y definición del entorno.• − Help: ayuda sobre R-commander (en inglés).

LECTURA DE DATOS DESDE UN FICHERO EXTERNO

Supongamos que hemos creado los datos con EXCEL (o equivalente), y que los hemos guardado desde EXCEL en formato CSV (Comma Separated Values). Este formato es simplemente un formato de texto en el que los datos se guardan tal como se han introducido en EXCEL, separados por punto y coma, y sin que se añada ninguna información adicional (negritas, cursivas, colores de las letras, etc.). Para que R (y cualquier otro paquete estadístico) pueda utilizar los datos, éstos deben introducirse de modo que cada variable figure en una columna, y cada fila represente un caso. Asimismo, es conveniente que cada columna esté encabezada con el nombre de la variable.A modo de ejemplo, vemos la pantalla de EXCEL correspondiente a una muestra de peces, de cada uno de los cuales se ha determinado su estado de madurez sexual (0 = inmaduro, 1 = maduro) y sexo (1 = hembra, 2 = macho), midiéndose además su longitud y peso. Como se ve, cada columna corresponde a una variable, y cada fila corresponde a un sujeto (un pez en este caso).A veces no se dispone del valor de alguna variable o variables en alguno o varios casos. Por ejemplo, pudiera haber peces cuyo estado de madurez o sexo no haya podido determinarse, o cuya longitud o peso se haya podido. En EXCEL al guardar el fichero hay que seleccionar “guardar como” y elegir como tipo de fichero CSV (delimitado por comas). EXCEL nos informará de que sólo se guardará la hoja activa (deberemos aceptar), y a continuación nos avisará que el libro puede tener características no compatibles con CSV Deberemos elegir la opción SI, para que guardedefinitivamente el fichero en ese formato. Medir cuando falte algún dato, conviene introducir el valor NA, que R interpretará como Not Assigned (valor no asignado). En el ejemplo que se muestra a continuación vemos que hay valores perdidos en varias variables y varios casos, que han sido consignados con el valor NA.

7

Page 8: Espoch modalidad dual cristina balladares

Para leer estos datos con R commander, una vez situados en la ventana de este programa hay que picar con el ratón en la opción Data, luego Import data y por último from text file

Data > Import data > from text file ...

Nos aparecerá entonces el cuadro que se muestra en la página siguiente, en el que hay que especificar:� Nombre que le queremos poner al conjunto de datos (data set) que vamos a analizar. Este nombre no tiene por qué coincidir con el nombre del fichero de datos. En este caso vamos a llamar peces a nuestro conjunto de datos.� Como en el fichero están los nombres de las variables en la primera fila, marcamos la casilla Variable names in file.

8

Page 9: Espoch modalidad dual cristina balladares

Una vez introducida esta información, picando en OK, nos aparece la ventana para abrir ficheros de Windows. Buscamos el directorio en que hemos guardado nuestro fichero de datos y lo seleccionamos:

9

Page 10: Espoch modalidad dual cristina balladares

En la pantalla de R-commander ha aparecido un comando en la ventana superior (script) y el mismo comando repetido en la ventana inferior (Output window). Este comando es concretamente:peces <- read.table("C:/Estadística/Datos/peces.csv", header=TRUE, sep=";", na.strings="NA", dec=",",strip.white=TRUE)

La sintaxis de este comando es fácil de entender: en el data set (conjunto de datos) peces se introduce el resultado de leer (read.table) el ficheroc:/Estadística/Datos/peces.csv. Se indica que el fichero contiene los nombres de las variables en la cabecera (header=TRUE), que el separador de los datos es el punto y coma (sep=”;”), que los valores perdidos se han codificado como NA (na.strings=”NA”), que el separador de cifras decimales es la coma (dec=”,”) y que en caso de leer variables de tipo carácter (variables cuyos valores son alfanuméricos, por ejemplo, nombres de islas) se eliminen los espacios anteriores y posteriores al valor registrado en dichas variables (strip.white=TRUE).En la ventana de salida (Output) no se observa ningún resultado ya que solamente se ha procedido a la lectura de los datos. Esto se nos indica en la ventana inferior (Messages) donde aparece una nota señalando que se ha leido el dataset peces, y que éste tiene 20 filas y 4 columnas.

10

Page 11: Espoch modalidad dual cristina balladares

INTERVALOS DE CONFIANZA

Para poder realizar el cálculo de los intervalos de confianza, así como de los contrastes de hipótesis referentes a las distribuciones de probabilidad para representar el comportamiento estadístico de poblaciones, se supone que la muestra de datos recogida es representativa del comportamiento de la población, y una de las formas más usuales de garantizar esa representatividad es mediante muestras aleatorias simples.

INTERVALO DE CONFIANZA DE LA MEDIA POBLACIONAL

Vamos a comenzar por hallar el intervalo de confianza para la media poblacional. Existen dos tipos de estimación, la puntual se halla calculando la media de la muestra, y es de cálculo sencillo, pero es difícil que esta estimación coincida con el verdadero valor de la media poblacional, aparte de no informar sobre el error que cometemos. Otra forma es la estimación por intervalos que consiste en calcular a partir de la muestra, un intervalo con una probabilidad dada (nivel de confianza), de contener el valor de la media poblacional, informándonos del error.

EJEMPLO: Queremos estudiar la altura media de todos los individuos con un nivel de confianza de α =0.05.Utilizamos como conjunto de datos activo el de Pulso. Lo hemos asociado al data.frame Pulsea1.

D ESCONOCIDA:

Para calcular el intervalo de confianza empleamos la secuencia:se hace la secuencia:>Estadísticos >Medias >Test t para una muestra…

Para el intervalo de confianza bilateral hay que marcar En Hipótesis alternativa >Media poblacional = 0, Aunque hay un error y debería mostrar el texto Media poblacional <> 0, como hipótesis alternativa.Hay que elegir la Variable Height para altura, y dar un nivel de confianza, aquí del 95%

La instrucción R generada:> t.test(Pulsea1$Height, alternative='two.sided', mu=0.0, conf.level=.95)

One Sample t-testdata: Pulsea1$Height

t = 180.1207, df = 91, p-value < 2.2e-16alternative hypothesis: true mean is not equal to 0

95 percent confidence interval:(67.95957 69.47521)

Si se pusiera mu=5.8, el intervalo calculado sería el mismo, siempre que indiquemos alternative='two.sided' (Bilateral).

11

Page 12: Espoch modalidad dual cristina balladares

El cálculo anterior se basa en la distribución t de Student para un estadístico asociado a la media muestral, que es el más adecuado si no se conoce la varianza poblacional. El intervalo de confianza bilateral se formula:

xm ± t(n-1, 1-α/2) s/ n ,

Con s la cuasi-desviación típica muestral, xm la media muestral, t(n-1, 1-α/2) el valor tal que Pr(tn-1

<= t(n-1, 1-α/2)) = 1- α/2, esto es, el valor de la variable tn-1 de Student de (n-1) grados de libertad que deja a su izquierda un área de valor (1- α/2) bajo la función de densidad, o sea el cuantil (1- α/2) de la t de Student con (n-1) g.l.

La función sd calcula la cuasi desviación típica de la muestra. Y la siguiente secuencia de instrucciones R , los extremos del intervalo de confianza buscado:

> n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))> s=sd(Pulsea1$Height, na.rm = TRUE)>extrIzq=mean(Pulsea1$Height,na.rm=TRUE)-qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)>extrDer=mean(Pulsea1$Height,na.rm=TRUE)+qt(c(0.975), df=n-1, lower.tail=TRUE)*s/sqrt(n)>extrIzq;extrDer[1] 67.95957[1] 69.47521

Se ha utilizado la función is.na(), que vale TRUE o FALSE al aplicarse a una secuencia de datos. Es muy útil cuando faltan algunos datos que aparecen reflejados en el conjunto de ellos con el valor “NA”. No ocurre aquí, pero en previsión de que ocurra, se ofrece la anterior programación. Con los datos de Pulsos, podemos ver que para la variable Activity falta 1 dato, en la fila 54 del data.frame de Pulsos:> sum(is.na(Pulsea1$Activity))[1] 1La función is.na() devuelve aquí un vector con 1 componente FALSE y 91 componentes TRUE. Al aplicar la función sum() a este vector de valores lógicos (con un valor igual a 1 y 91 valores nulos), da la suma de los 1’s, que es 1.

CONOCIDA:

Si se conociese la varianza de la población de alturas, se podría construir un intervalo de confianza bilateral basándose en la distribución normal:

Recuérdese que el intervalo de confianza al 95% es n

σx 2/1 α−± zm , con xm la media muestral y

el cuantil 1-α/2 de la variable normal N(0,1). (1- α /2=1-0.025=0.975).

Con el mismo ejemplo, suponiendo que la desviación típica poblacional es σ =3.7 , la siguiente secuencia de instruccions R nos da los extremos del intervalo de confianza:

> sigma=3.7;n=length(Pulsea1$Height)-sum(is.na(Pulsea1$Height))> extrIzq= mean(Pulsea1$Height,na.rm=TRUE) - qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)*sigma/sqrt(n)> extrDer= mean(Pulsea1$Height,na.rm=TRUE) + qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)*sigma/sqrt(n)> extrIzq;extrDer[1] 67.96133[1] 69.47345

Tamaño de la muestra para estimar µ cuando σ es conocida.

12

Page 13: Espoch modalidad dual cristina balladares

Cuando la σ es conocida, se puede calcular el tamaño de muestra aleatoria simple necesario para obtener un intervalo de confianza con un margen de error dado.

Se llama margen de error, o simplemente error, E a la semiamplitud del intervalo de confianza.

Para el intervalo de confianza bilateral de la media, el margen de error es: E= 12

σ

nz α− , y despejando

de aquí el tamaño muestral: 12

2 2

2

z *σn

E

α−

=

Vamos a hacer una pequeña tabla que recoja la variación del tamaño de la muestra para un conjunto de valores del margen de error , cuando sigma=3.7. Considerando un nivel de confianza del 95%, z1-α/2 = z0,975 = 1,96 .

Recordemos cómo obtener con R el valor z0.975 =aprox 1.96:> qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE)[1] 1.959964

Calcularemos una pequeña tabla para diferentes valores de E, desde el valor inicial 0.5 al valor final 5 a incrementos de 0.5, estarán contenidos en un vector de nombre Evector

Una secuencia de valores equidistantes se puede hacer con R:

> 2.3:8[1] 2.3 3.3 4.3 5.3 6.3 7.3

> Evector=seq(0.5,5, by=0.5);Evector [1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0

> Elongi=seq(length=12,from=0.5, by=0.2);Elongi [1] 0.5 0.7 0.9 1.1 1.3 1.5 1.7 1.9 2.1 2.3 2.5 2.7

La siguiente secuencia de instrucciones da la tabla de tamaños de muestra buscada:> sigma=3.7;> cuantil=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);cuantil[1] 1.959964> Evector=seq(0.5,5, by=0.5);Evector [1] 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 5.0> nvector=cuantil^2*sigma^2/Evector^2;nvector;ceiling(nvector) [1] 210.358285 52.589571 23.373143 13.147393 8.414331 5.843286 4.293026 [8] 3.286848 2.597016 2.103583 [1] 211 53 24 14 9 6 5 4 3 3

Los últimos valores son los enteros para n en correspondencia con las componentes del vector Evector (la función ceiling () da el entero mayor inmediato al valor del argumento.

Así obtenemos cada Tamaño de la muestra con su correspondiente Margen de Error. Para tener menor Margen de error se ha de aumentar la muestra, como es natural.

TAMAÑO DE LA MUESTRA PARA ESTIMAR µ CUANDO σ ES DESCONOCIDA.

El Margen de error o semiamplitud del intervalo de confianza es en el caso de σ es desconocida :

E= t(n-1, 1-α/2) s/ n .

13

Page 14: Espoch modalidad dual cristina balladares

Aquí no se puede despejar el tamaño muestral n cuando se quiere elegir uno de antemano para garantizar un error dado con un cierto nivel de confianza, pues s, cuasi desviación típica muestral. no es conocida a priori de la extracción de la muestra. Pero se podría hacer una tabla relacionando n y E, para diversos valores de s considerando estimaciones de s que seas sensatas.

EJEMPLOS DE APLICACIÓN DE LOS INTERVALOS DE CONFIANZA PARA CONTRASTAR HIPÓTESIS

EJEMPLO:

Con el conjunto de datos de Pulsos, queremos estudiar la altura media de los hombres solamente, por medio de un intervalo de confianza al nivel de significación α =0.05, o de confianza del 95%, y utilizarlo para contrastar la hipótesis de si la altura media de los hombres es de 171 cms. Vamos a generar un conjunto de datos con las alturas de los hombres.En principio debemos filtrar la altura por medio del Género para separar los hombres de las mujeres con la secuencia::

>Datos >Conjunto de datos activos>Filtrar datos.

Como marcamos Incluir todas las variables, va a generar unData.frame con todos los datos referidossólo a Hombres: Gender==”Male”

El nuevo conjunto de datos activo, que tiene siempre el tipodata.frame, se llamará Alturahombres

El intervalo de confianza para la media de altiras ,Emplando el R Commander, lo producen los menús:

>Estadísticos > Medias >Test para una muestra….Resultando en la Ventana de resultados de R Commander

One Sample t-test

data: Alturahombres$Height t = 206.8254, df = 56, p-value < 2.2e-16alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 70.06908 71.43969 sample estimates:mean of x 70.75439

Basándonos en el intervalo de confianza para la media de alturas de hombres: (70.06908 71.43969) consideremos ahora el contraste de hipótesis sobre que la altura media es 171 cms. Pasando esta altura media a pulgadas, que es la información extraída de la tabla: 171/2.54= 67.3228 pulgadas.

Se concluye afirmando con el 95% de confianza que la altura media no es 171 cms, pues 67.3228 pulgadas no está contenido en el intervalo de confianza calculado.

14

Page 15: Espoch modalidad dual cristina balladares

EJEMPLO:

Calcular el intervalo de confianza de la media del pulse1 de los hombres que fuman en los datos de Pulsos. Vamos a filtrar los datos de de Pulsos generando un nuevo data.frame que recoja la variable Pulse1 con la restricción de que se refiera a Hombres (“Male”) que Fuman.(“Smoke”) . La secuencia de filtrado_> Datos >Conjunto de datos activo > Filtrar conjunto de datos activo…

Llamamos al conjunto de dato activo resultante:Pulso1HombresFuman, que tiene 1 sola Variable (columna) con Pulse1,con tantos datos como hombres fumadores.

La instrucción R asociada al filtrado:> Pulso1HombresFuman <-subset(Pulsea1, subset=(Gender=="Male")&(Smokes=="Smoke"), select=c(Pulse1))

Con el menu. > Estadísticos > Medias > Test t para una muestra…se genera la instrución R y el resultado con el intervalo de confianza bilateral de la media de pulsos con el 95% de confianza::

> t.test(Pulso1HombresFuman$Pulse1, alternative='two.sided', mu=0.0, conf.level=.95)

Ventana de resultados de R Commander:

data: Pulso1HombresFuman$Pulse1 t = 25.777, df = 19, p-value = 3.026e-16alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: 65.41875 76.98125 sample estimates:mean of x 71.2

15

Page 16: Espoch modalidad dual cristina balladares

EJEMPLO:

Se espera que la resistencia en kg/cm2 de cierto material suministrado por un proveedor se distribuya normalmente, con media 220 y desviación típica 7.75. Se toma unaa muestra de 9 elementos y se obtiene: 203, 229, 215, 220, 223, 233, 208, 228, 209. Se pide: Hallar el intervalo de confianza del 95% para la media y contrastar la hipótesis de µ=220, sin considerar conocida la desviación típica poblacional..

Vamos a interpretar el resultado del test de hipótesis con hipótesis nula mu=220, y alternativa que mu<> 220

Las instrucciones R asociadas:

> t.test(Resistencia$Resis, alternative='two.sided', mu=220, conf.level=.95)

One Sample t-testdata: Resistencia$Resis t = -0.3801, df = 8, p-value = 0.7138alternative hypothesis: true mean is not 95 percent confidence interval: (210.5774 226.7560) sample estimates:mean of x: 218.6667

Como el valor p-value=0.7138 es mayor que α=0.05, nivel de significación, no rechazamos la hipótesis nula. Observando por otro lado el intervalo de confianza al 95%, como el valor 220 está en el intervalo, no rechazamos que la resistencia media es 220.

INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN

EJEMPLO:

En los datos de Pulsos, calcular el intervalo de confianza para la proporción de los individuos que no fuman, con un nivel de confianza del 95%, (nivel de significación α =0.05)

El programa realiza el intervalo de la proporción de los individuos con un valor del factor atendiendo al orden alfabético de la denominación de los niveles del factor. Aquí realizará el análisis sobre los NonSmoker y no sobre los Smoke. Si quisiéramos calcular el intervalo de los fumadores, tendríamos que cambiar el nombre a los campos: Smoke=Fumador, NonSmoker= Nofumador. La secuencia de menús es:

16

Page 17: Espoch modalidad dual cristina balladares

> Estadísticos > Proporciones >Test de proporciones para una muestra…

Para hace rl intervalo bilateral, se marca Proporción de la población=p0, (R debería escribir <> (distinto) en vez de = (igual)El valor para la Hipótesis nula: p=0.5 por defecto,no importa para intervalo de confianza, pero sí para test.

Se elige Aproximación normal si se considera admisible. Se generan las siguientes instrucciones y respuestas en que incluimos nuestros comentarios:

#Genera una tabla de frecuencias> .Table <- xtabs(~ Smokes , data= Pulsea1 )> .Table

SmokesNonSmoker Smoke 64 28

# La function rbind agrupa la fila numérica 64 28 como iun vector fila para aplicarle la # función prop.test para test de proporciones.

> prop.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95, correct=FALSE)

1-sample proportions test without continuity correction

data: rbind(.Table), null probability 0.5 X-squared = 14.087, df = 1, p-value = 0.0001746 alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.5953573 0.7802631 sample estimates: p 0.6956522 estimador puntual

- Con corrección de continuidad, intervalo con el 95% de confianza: 0.5897050 0.7850303> prop.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95, correct=TRUE)

- Con la distribución binomial exacta, con el 95% de confianza: 0.5909669 0.7873276> binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95)

17

Page 18: Espoch modalidad dual cristina balladares

PROCESO CON RCOMMANDER:

Se introducen los datos como activos en el data.frame ResiProp, bien a través del gestor interactivo de tablas de RCommander o mediante:

ResiProp=data.frame(Resis)

Y seleccionando dede el botón Conjunto de datos el data.frame Resiprop, Añadimos una columna a esta tabla:>Datos>Modificar variables del conjunto de datos activo>Recodificar variables…

Y ya en esta situación:> Estadísticos >Proporciones >Test de proporciones para una muestra… con la columna que tiene estructura de variable factor, con el binomial exacto el nivel de confianza 95%

> .Table <- xtabs(~ Resis350 , data= ResiProp )> .TableResis350Grande Peque 6 4 > binom.test(rbind(.Table), alternative='two.sided', p=.5, conf.level=.95)

Exact binomial testdata: rbind(.Table) number of successes = 6, number of trials = 10, p-value = 0.7539alternative hypothesis: true probability of success is not equal to 0.5 95 percent confidence interval: 0.2623781 0.8784477 sample estimates:probability of success 0.6

Al nivel del factor que se considera “éxito” y cuya proporción se estudia, debe dársele un valor que alfabéticamente esté antes que el no deseado, para que R haga el cálculo adecuado. Aquí se ha elegido “Grande”, que está antes que “Peque”.

18

Page 19: Espoch modalidad dual cristina balladares

TAMAÑO DE MUESTRA (ALEATORIA SIMPLE) PARA ESTIMAR UNA PROPORCIÓN

Llamamos error E al semiancho del intervalo de confianza para la proporción. Basándose en la validez de la aproximación normal de la variable binomial, si se tiene idea del posible valor de la proporción poblacional p

(con base en un muestreo previo, por ejemplo), el tamaño de la muestra es: n2

2

2

α1

E

p)·p(1z −=

Si no se sabe nada de la magnitud de p, se elige una muestra de tamaño:

n2

2

2

α1

E*4

z−

=

puesto que el valor p(1-p) es siempre no mayor que 1/4 .

Obsérvese que a menor error E que se desee, el tamaño de la muestra debe ser mayor. Y a mayor nivel de confianza ( o menor nivel de significación), el tamaño también crece.

EJEMPLO:

Qué tamaño de muestra hay que elegir para estimar una proporción de modo que el error en la estimación sea menor o igual que 0,05, con un nivel de confianza del 95%? (Emplear la aproximación normal con el criterio más desfavorable).

> z=qnorm(c(0.975), mean=0, sd=1, lower.tail=TRUE);z[1] 1.959964> E=0.05; n=ceiling(z^2/(4*E^2));n[1] 385

¿Qué tamaño resultaría en el caso de que se emplee una primera estimación de la proporción de valor 0.17 ?

> p=0.17> n=ceiling(z^2*p*(1-p)/E^2);n[1] 217

Naturalmente, con más información, se reduce el tamaño de la muestra necesaria.

19

Page 20: Espoch modalidad dual cristina balladares

INTERVALO DE CONFIANZA PARA LA VARIANZA

R no da con un menú específico el intervalo de confianza para la varianza, aunque permite comparar varianzas de dos poblaciones a partir de sendas muestras de cada una.

Admitiendo la hipótesis de normalidad en la población de partida, se puede calcular el intervalo de confianza para la varianza:

[(n-1)*s2/χ2(n-1, 1-α/2) ; (n-1)*s2/χ2(n-1, α/2) ], calculando cada componente de las fórmulas.

EJEMPLO.-

Para el caso de las 10 probetas de hormigón sometidas a un ensayo de rotura, con los datos de resistencia en el vector columna Resis del data.frame ResiProp, se obtienen el intervalo de confianza de nivel 95% para la varianza y el de la desviación típica (los extremos son raíz cuadrada de los de la varianza), como sigue:

> n=length(ResiProp$Resis);s=sd(ResiProp$Resis);s[1] 18.11387> chi_iz=qchisq(c(0.975), df=n-1, lower.tail=TRUE)> chi_der=qchisq(c(0.025), df=n-1, lower.tail=TRUE)> iz=(n-1)*s^2/chi_iz;der=(n-1)*s^2/chi_der;iz;der [1] 155.2355[1] 1093.549> izDtipica=sqrt(iz);> derDtipica=sqrt(der);izDtipica;derDtipica[1] 12.45935[1] 33.06886> print(c(iz,der));print(c(izDtipica,derDtipica))[1] 155.2355 1093.5493[1] 12.45935 33.06886

Para valorar la normalidad de los datos, podemos utilizar la gráfica de comparación de cuantiles con el modelo normal, al 95% de confianza, que nos señala que es admisible.

También´podemos valorar la normalidad de los datos mediante el test de Shapiro-Wilk:

>Estadísticos > Resúmenes > Test de normalidad de Shapiro-Wilk…

> shapiro.test(ResiProp$Resis)Shapiro-Wilk normality test

data: ResiProp$Resis W = 0.8833, p-value = 0.1425

Como el valor de p-value es mayor que el nivel de significación 0.05 por ejemplo, se puede admitir la normalidad de los datos con un nivel de confianza del 95%.

20

Page 21: Espoch modalidad dual cristina balladares

DATOS EMPAREJADOS:

Para comparar dos materiales A y B para suela de zapatos deportivos, se eligen 10 niños al azar, y a cada uno se le proporciona un par de zapatos, uno con la suela del material A y el otro con la suela del material B. A fin de eliminar en lo posible la influencia de que un material vaya al pie derecho o al izquierdo, la asignación de orden dentro de cada par se hace al azar. Al cabo de 3 meses se mide una característica en cada zapato que refleja su comportamiento ante el uso, que se interpreta con que si la característica medida tiene mayor valor es porque ese tipo de material ofrece mejor calidad. Así resulta:

Niño MatA MatB1 13,2 14,02 8,2 8,83 10,9 11,24 14,3 14,25 10,7 11,86 6,6 6,47 9,5 9,88 10,8 11,39 8,8 9,310 13,3 13,6

Considerando los datos de los desgastes en 10 pares de zapatos según el material A y B, efectuamos la comparación.

> t.test(Zapatillas$MatA, Zapatillas$MatB, alternative='two.sided',

conf.level=.95, paired=TRUE)

Paired t-test

data: Zapatillas$MatA and Zapatillas$MatB t = -3.3489, df = 9, p-value = 0.008539alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.6869539 -0.1330461 sample estimates:mean of the differences -0.41

El intervalo de confianza (nivel del 95%) para la diferencia de medias en el Material A y en el B es (-0,687; -0,133),

lo que indica que el valor de la característica de uso (por tanto la satisfacción) es mayor con el Material B que con el A. Desde la visión de contraste de hipótesis, el reducido valor del p-valor: 0,009, indica que la hipótesis de igualdad de medias se rechazaría con un nivel de significación del 5%, frente a la hipótesis de que los dos materiales son igualmente satisfactorios.

Vamos a tratar los datos, erróneamente respecto al diseño del experimento, comparando como si fuesen independientes. Con R es necesario apilar el valor de la variable que mide la Calidad en una sola columna o variable, e introducir otra columna que indica el tipo de Material. Se opera con los menús,

>Datos>Conjunto de datos activo>Apilar variables del conjunto de dats activo…, con instrucciones R:

> ZapatillasApilados <- stack(Zapatillas[, c("MatA","MatB")])> names(ZapatillasApilados) <- c("Calidad", "Material")

Al aplicar el test de diferencia de medias de Calidad con datos independientes, resulta:

> t.test(Calidad~Material, alternative='two.sided', conf.level=.95, var.equal=FALSE, data=ZapatillasApilados)

Welch Two Sample t-test

21

Page 22: Espoch modalidad dual cristina balladares

data: Calidad by Material t = -0.3689, df = 17.987, p-value = 0.7165alternative hypothesis:

true difference in means is not equal to 0 95 percent confidence interval: -2.745046 1.925046 sample estimates:mean in group MatA mean in group MatB 10.63 11.04

Obsérvese que el intervalo de confianza del 95%, (-2.745046 1.925046)Incluye el valor ‘cero’, es decir, no se puede afirmar que un material es de más calidad que el otro.

El realizar el experimento con datos apareados aumenta la sensibilidad del contraste, detectando mejor las diferencias entre los datos.

22