13
CAFD Análisis de Datos – Tipo 1 Junio 2012 Nombre: DOLAN FUKENCIO MARTINEZ DNI: 666-pls Grupo: F (UK U GOOBY) ENTREGA: Guarda este documento cambiando “grupo” por la letra de tu grupo y “DNI” por tu DNI y envíalo por correo electrónico, desde tu correo de la universidad, indicando en el asunto “Examen AD “ y tu DNI. Comprueba junto con tu profesor que ha recibido el correo . 1. (2 puntos) El archivo “Parcial AD 11-12 grupo DNI.xlsx” contiene el conjunto de datos de trabajo. a. Impórtalo a SPSS. b. Modifica el tipo, anchura, decimales, etiqueta y medida de las variables importadas en función de su naturaleza. c. Recodifique en una nueva variable llamada GrupoCod donde se codifique el grupo (de letra a número A-1, B-2, etc) cambia su naturaleza (medida) y añade la codificación de valores en la vista de variables. d. Captura la pantalla de “Vista de variables” de SPSS con la combinación de teclas ALT+ImprPant y pégala en el área siguiente.

Examen ad contestado (nota final 10)

Embed Size (px)

Citation preview

Page 1: Examen ad contestado (nota final 10)

CAFD Análisis de Datos – Tipo 1 Junio 2012

Nombre: DOLAN FUKENCIO MARTINEZ

DNI: 666-pls Grupo: F (UK U GOOBY)

ENTREGA: Guarda este documento cambiando “grupo” por la letra de tu grupo y “DNI” por tu DNI y envíalo por correo electrónico,

desde tu correo de la universidad, indicando en el asunto “Examen AD “ y tu DNI. Comprueba junto con tu profesor que ha recibido

el correo.

1. (2 puntos) El archivo “Parcial AD 11-12 grupo DNI.xlsx” contiene el conjunto de datos de trabajo.

a. Impórtalo a SPSS.

b. Modifica el tipo, anchura, decimales, etiqueta y medida de las variables importadas en función de su

naturaleza.

c. Recodifique en una nueva variable llamada GrupoCod donde se codifique el grupo (de letra a número

A-1, B-2, etc) cambia su naturaleza (medida) y añade la codificación de valores en la vista de

variables.

d. Captura la pantalla de “Vista de variables” de SPSS con la combinación de teclas ALT+ImprPant y

pégala en el área siguiente.

Page 2: Examen ad contestado (nota final 10)

CAFD Análisis de Datos – Tipo 1 Junio 2012

2. (3 puntos) Comprueba la normalidad de las variables Partidos Ganados, Goles a Favor, y Goles en

Contra. Para ello:

a. Realiza un histograma para las variables determinadas incluyendo la curva de normalidad y

determina qué variable te parece más homogénea en su distribución y se acerca más a la

normalidad.

Para que el histograma de una variable muestre homogeneidad debe cumplir 3 requisitos:

1. Las “Alas” de la campana deben extenderse hasta el infinito.

2. La curva de la campana debe de coincidir con la media, mediana y moda.

3. Debe tener un solo pico situada en el centro de los datos.

Teniendo en cuenta esos 3 requisitos, se entiende que la variable más normal es “Goles a Favor”.

A continuación dejo los 3 Histogramas:

Page 3: Examen ad contestado (nota final 10)

CAFD Análisis de Datos – Tipo 1 Junio 2012

Page 4: Examen ad contestado (nota final 10)

CAFD Análisis de Datos – Tipo 1 Junio 2012

b. Sobre la variable más homogénea y la menos homogénea realiza los gráficos P-P o Q-Q (uno de

los dos) y explica las diferencias encontradas.

Variable Más Homogénea: GF

Variable Menos Homogénea: GC

Gráficos PP:

Se puede observar que los datos de la variable “Goles en Contra” se encuentran mucho más dispersos

respecto a la recta de normalidad, lo cual explicaría que es menos homogénea que la variable “Goles a

Favor”, cuyos datos están más cercanos (homogéneos) a la recta de normalidad.

Page 5: Examen ad contestado (nota final 10)

CAFD Análisis de Datos – Tipo 1 Junio 2012

c. Justifica matemáticamente cual es la variable más cercana y la más alejada de la normalidad.

Para justificarlo matemáticamente vamos a aplicar el test de Kolmogorov a las 3 variables. Estos son los

resultados:

Nos fijamos donde pone Sig. Asintít. (bilateral). A partir de 0,05 se considera variable paramétrica (las 3

son variables paramétricas).

La variable con la Sig. Más alta es GF, lo cual nos hace pensar que es la de mayor normalidad y por tanto la

más Homogénea. Mientras que la más alejada de la normalidad será Goles en Contra (menor Sig.),

secundando así los resultados obtenidos al examinar los Histogramas y las gráficas PP.

Page 6: Examen ad contestado (nota final 10)

CAFD Análisis de Datos – Tipo 1 Junio 2012

3. (3 puntos) Con respecto a la variable “Partidos ganados”, ¿qué variable está más relacionada con ella,

“Goles a favor” o “Goles en contra”?

a. Justifica y explica (mirando los valores en los ejes) gráficamente que pareja de variables parece

que tiene una mayor relación.

Comprobamos al observar los diagramas de dispersión que existe una Relación Positiva entre Partidos

Ganados y GF.

También parece observarse una relación negativa entre Partidos Ganados y GC, pero existe un punto

alejado completamente del resto de datos que hace que esta pareja de variables guarden menor relación.

Page 7: Examen ad contestado (nota final 10)

CAFD Análisis de Datos – Tipo 1 Junio 2012

b. Explica los pasos que seguirás para determinar que test deberás realizar para comprobar

matemáticamente el nivel de asociación entre los dos pares analizados.

Debido a que se trata de un anáisis de covarianzas deberíamos de realizar el test de Pearson, para

comprobar el grado de correlación entre ambos pares de variables, así como su probabilidad de que estas

relaciones se deba o no al azar (95% en las CCAFD).

c. Realiza los tests determinados en el apartado b y explica los resultados.

Observamos que los resultados obtenidos son reales al 100% (Sig. 0,00) y si seguimos la tabla expuesta en

clase sobre grado de relación:

0,6-0,8: Relación de Alto interés.

0,8-1: Relación de Alto interés.

Por lo que ambas variables son de alto interés de estudio respecto a Partidos Ganados (Siendo aún así GF

una relación de más importancia que GC).

Page 8: Examen ad contestado (nota final 10)

CAFD Análisis de Datos – Tipo 1 Junio 2012

d. Determina la bondad del ajuste en los dos pares analizados y explica qué significa.

La bondad de ajuste se haya mediante la línea de regresión. Apliquémosla a ambas gráficas y comentemos

los resultados:

Obsérvese R^2 Lineal (bondad del ajuste). Se expresa en porcentajes (cuanto más cerca de 1 se encuentre,

mayor bondad).

R^2 PG/GF: 77,7% ���� Existe mayor bondad del ajuste entre PG y GF.

R^2 PG/GC: 41,9%

Page 9: Examen ad contestado (nota final 10)

CAFD Análisis de Datos – Tipo 1 Junio 2012

4. (2 puntos) Realiza un estudio de la variable “Puntos por Partido”. Para ello:

a. Crea la variable “Puntos por Partido” mediante SPSS. Pega en el recuadro la ventana del

procedimiento del cálculo de variables.

b. Realiza un gráfico de barras que refleje la media de la variable analizada para cada uno de los

grupos de clasificación. Indica en qué grupo los equipos tienen más puntos por partido y cuál es

ese promedio. Pega el gráfico en el área resultante donde aparezcan también los valores

promedios impresos sobre cada una de las barras.

Observamos que el grupo con mas promedio de puntos por partido fue el GRUPO E (con 1,48 Puntos Por

Partido)

Page 10: Examen ad contestado (nota final 10)

CAFD Análisis de Datos – Tipo 1 Junio 2012

c. Indique de qué tipo de estudio de hipótesis se trata y cual es la prueba que debería hacerse

para comprobar si es significativo o no que pertenecer a un grupo de clasificación o a otro

implicaría haber conseguido mayor cantidad de Puntos Por Partido.

Variable Dependiente: Puntos Por Partido.

Variable Independiente: Grupo de Clasificación.

Se trata de un estudio de Muestras Independientes (+ de 2 Grupos). Teniendo en cuenta que las variables

son escalares (Grupo de clasificación se puede calcular como variable Nominal o Escalar. La consideraremos

escalar), deberemos de comprobar si se trata de variables Paramétricas o No paramétricas mediante las

pruebas de KS de 1 Muestra y Levene:

Al Obtener resultados superiores en la Sig. A 0,05 podemos afirmar que son variables Escalare

Paramétricas.

Por tanto: Muestras Independientes (+2 grupos) + Variable escalar paramétrica = Análisis de Varianza

(ANOVA) será la prueba que debamos realizar.

Page 11: Examen ad contestado (nota final 10)

CAFD Análisis de Datos – Tipo 1 Junio 2012

d. Calcula en qué porcentaje explica el azar las diferencias encontradas entre los grupos con

mayor y menor Puntos por Partido, y si esas diferencias encontradas entre los grupos pueden

ser generalizadas.

Grupo Mayor Media PPP: E

Grupo Menor Media PPP: D

Observemos la Sig. Entre los grupos D y E: Sig. = 1,00 ���� Lo que significa que existen un 100% de

probabilidades de azar de que exista relación entre las variables Puntos por Partido y Grupo Codificado.

Estos resultados se pueden extrapolar al resto de casos y por tanto, generalizamos que no existe relación

entre pertenecer a un grupo u otro de clasificación y tener mayor o menor media de PPP ya que hay un

100% de azar en todos los casos.

Comparaciones múltiples

P_P_P

Bonferroni

Intervalo de confianza al 95%

(I) Grupo Codificado (J) Grupo Codificado

Diferencia de

medias (I-J) Error típico Sig. Límite inferior Límite superior

B ,01667 ,49487 1,000 -1,6778 1,7111

C ,01667 ,49487 1,000 -1,6778 1,7111

D ,06667 ,49487 1,000 -1,6278 1,7611

E -,06667 ,49487 1,000 -1,7611 1,6278

F ,01667 ,49487 1,000 -1,6778 1,7111

G ,04167 ,51902 1,000 -1,7355 1,8188

H -,00833 ,51902 1,000 -1,7855 1,7688

A

I -,00833 ,51902 1,000 -1,7855 1,7688

A -,01667 ,49487 1,000 -1,7111 1,6778

C ,00000 ,49487 1,000 -1,6945 1,6945

D ,05000 ,49487 1,000 -1,6445 1,7445

E -,08333 ,49487 1,000 -1,7778 1,6111

F ,00000 ,49487 1,000 -1,6945 1,6945

G ,02500 ,51902 1,000 -1,7522 1,8022

H -,02500 ,51902 1,000 -1,8022 1,7522

B

I -,02500 ,51902 1,000 -1,8022 1,7522

A -,01667 ,49487 1,000 -1,7111 1,6778

B ,00000 ,49487 1,000 -1,6945 1,6945

D ,05000 ,49487 1,000 -1,6445 1,7445

C

E -,08333 ,49487 1,000 -1,7778 1,6111

Page 12: Examen ad contestado (nota final 10)

CAFD Análisis de Datos – Tipo 1 Junio 2012

F ,00000 ,49487 1,000 -1,6945 1,6945

G ,02500 ,51902 1,000 -1,7522 1,8022

H -,02500 ,51902 1,000 -1,8022 1,7522

I -,02500 ,51902 1,000 -1,8022 1,7522

A -,06667 ,49487 1,000 -1,7611 1,6278

B -,05000 ,49487 1,000 -1,7445 1,6445

C -,05000 ,49487 1,000 -1,7445 1,6445

E -,13333 ,49487 1,000 -1,8278 1,5611

F -,05000 ,49487 1,000 -1,7445 1,6445

G -,02500 ,51902 1,000 -1,8022 1,7522

H -,07500 ,51902 1,000 -1,8522 1,7022

D

I -,07500 ,51902 1,000 -1,8522 1,7022

A ,06667 ,49487 1,000 -1,6278 1,7611

B ,08333 ,49487 1,000 -1,6111 1,7778

C ,08333 ,49487 1,000 -1,6111 1,7778

D ,13333 ,49487 1,000 -1,5611 1,8278

F ,08333 ,49487 1,000 -1,6111 1,7778

G ,10833 ,51902 1,000 -1,6688 1,8855

H ,05833 ,51902 1,000 -1,7188 1,8355

E

I ,05833 ,51902 1,000 -1,7188 1,8355

A -,01667 ,49487 1,000 -1,7111 1,6778

B ,00000 ,49487 1,000 -1,6945 1,6945

C ,00000 ,49487 1,000 -1,6945 1,6945

D ,05000 ,49487 1,000 -1,6445 1,7445

E -,08333 ,49487 1,000 -1,7778 1,6111

G ,02500 ,51902 1,000 -1,7522 1,8022

H -,02500 ,51902 1,000 -1,8022 1,7522

F

I -,02500 ,51902 1,000 -1,8022 1,7522

A -,04167 ,51902 1,000 -1,8188 1,7355

B -,02500 ,51902 1,000 -1,8022 1,7522

C -,02500 ,51902 1,000 -1,8022 1,7522

D ,02500 ,51902 1,000 -1,7522 1,8022

E -,10833 ,51902 1,000 -1,8855 1,6688

F -,02500 ,51902 1,000 -1,8022 1,7522

H -,05000 ,54210 1,000 -1,9062 1,8062

G

I -,05000 ,54210 1,000 -1,9062 1,8062

A ,00833 ,51902 1,000 -1,7688 1,7855

B ,02500 ,51902 1,000 -1,7522 1,8022

C ,02500 ,51902 1,000 -1,7522 1,8022

D ,07500 ,51902 1,000 -1,7022 1,8522

H

E -,05833 ,51902 1,000 -1,8355 1,7188

Page 13: Examen ad contestado (nota final 10)

CAFD Análisis de Datos – Tipo 1 Junio 2012

F ,02500 ,51902 1,000 -1,7522 1,8022

G ,05000 ,54210 1,000 -1,8062 1,9062

I ,00000 ,54210 1,000 -1,8562 1,8562

A ,00833 ,51902 1,000 -1,7688 1,7855

B ,02500 ,51902 1,000 -1,7522 1,8022

C ,02500 ,51902 1,000 -1,7522 1,8022

D ,07500 ,51902 1,000 -1,7022 1,8522

E -,05833 ,51902 1,000 -1,8355 1,7188

F ,02500 ,51902 1,000 -1,7522 1,8022

G ,05000 ,54210 1,000 -1,8062 1,9062

I

H ,00000 ,54210 1,000 -1,8562 1,8562