2
UCC – Fac. Ing. - Sistemas Inteligentes - 2010 Práctico de laboratorio 3 – Entendimiento de los datos 1 Sea la base de datos “wine.csv” (carguela en R y guardela en la variable datawine). 2 Utilizando la base de wine, tome los primeros 20 datos y sobre ellos trabaje con la variable “Alcohol”. Haga una tabla de frecuencias, el histograma y un boxplot sobre esos valores. (manualmente). 3 Implemente una función en R que reciba como dato una matriz o data.frame, la columna deseada y la cantidad de particiones y genere una tabla de frecuencias. 4 Grafique un boxplot (help(boxplot) 5 Grafique el histograma (help(hist)) 6 Sea la base de datos “adult.data.csv” , especifique lo siguiente: 6.1 Realice un informe que exprese la información de dicha base de datos, conteniendo entre otras cosas los siguiente: 6.1.1 Descripción de los atributos, es decir, que tipo de variables contiene, formato, descripción, etc. 6.1.2 Comente como son aplicables los conceptos de consistencia, dominio e integridad para esta base de datos. 6.1.3 Si la intensión es determinar las razones de porqué un individuo llega a ganar mas o menos de U$S50.000 , ¿cuál de las columnas de la base de datos es el evento? 6.1.4 Realice los análisis de resumen correspondientes para cada variable (“Entendimiento de datos”). Justifique en cada caso la metodología aplicada. 7 Ejecute la siguiente función (excluya el atributo/variable TIPO de la base de datos) >pairs(datawine) ¿Qué hace? ¿Es correcto? Interprete. 8 Haga una función para calcular el valor medio, desvío estándar, moda, mediana, rangos y coeficientes de variación. (Una para cada cosa) 9 Genere un vector con datos aleatorios de longitud 5. Calcule el valor medio y desvío estándar con las funciones creadas. 9.1 Agregue un nuevo dato en la posición 6 del vector con valor igual a 15 y repita la operación. 9.2 Ahora genere un vector de 20 componentes y repita los pasos anteriores 9.3 ¿Qué observa? ¿suponiendo que el valor 15 es un dato erróneo, en cual situación se obtiene el valor más aproximado al valor medio esperado? ¿qué conclusiones puede sacar?

Practica 3 entendimiento_de_datos

Embed Size (px)

Citation preview

Page 1: Practica 3 entendimiento_de_datos

UCC – Fac. Ing. - Sistemas Inteligentes - 2010

Práctico de laboratorio 3 – Entendimiento de los datos

1 Sea la base de datos “wine.csv” (carguela en R y guardela en la variable datawine).

2 Utilizando la base de wine, tome los primeros 20 datos y sobre ellos trabaje con la variable “Alcohol”. Haga una tabla de frecuencias, el histograma y un boxplot sobre esos valores. (manualmente).

3 Implemente una función en R que reciba como dato una matriz o data.frame, la columna deseada y la cantidad de particiones y genere una tabla de frecuencias.

4 Grafique un boxplot (help(boxplot)

5 Grafique el histograma (help(hist))

6 Sea la base de datos “adult.data.csv” , especifique lo siguiente:

6.1 Realice un informe que exprese la información de dicha base de datos, conteniendo entre otras cosas los siguiente:

6.1.1 Descripción de los atributos, es decir, que tipo de variables contiene, formato, descripción, etc.

6.1.2 Comente como son aplicables los conceptos de consistencia, dominio e integridad para esta base de datos.

6.1.3 Si la intensión es determinar las razones de porqué un individuo llega a ganar mas o menos de U$S50.000 , ¿cuál de las columnas de la base de datos es el evento?

6.1.4 Realice los análisis de resumen correspondientes para cada variable (“Entendimiento de datos”). Justifique en cada caso la metodología aplicada.

7 Ejecute la siguiente función (excluya el atributo/variable TIPO de la base de datos)

>pairs(datawine)

¿Qué hace? ¿Es correcto? Interprete.

8 Haga una función para calcular el valor medio, desvío estándar, moda, mediana, rangos y coeficientes de variación. (Una para cada cosa)

9 Genere un vector con datos aleatorios de longitud 5. Calcule el valor medio y desvío estándar con las funciones creadas.

9.1 Agregue un nuevo dato en la posición 6 del vector con valor igual a 15 y repita la operación.

9.2 Ahora genere un vector de 20 componentes y repita los pasos anteriores

9.3 ¿Qué observa? ¿suponiendo que el valor 15 es un dato erróneo, en cual situación se obtiene el valor más aproximado al valor medio esperado? ¿qué conclusiones puede sacar?

Page 2: Practica 3 entendimiento_de_datos

Practico de laboratorio 3 – Sistemas Inteligentes - Fac. Ingeniería – UCC - 2010Entendimiento de datos

9.4 Realice el mismo experimento pero utilizando la mediana. ¿Qué observa? ¿Qué diferencia encuentra entre utilizar la mediana y la media?

10 Ejecute las siguientes líneas de comandos

>summary(winedata)

#cargue previamente los datos del archivo “canastacompras.csv”

>summary(canasta)

¿Qué sucede en cada caso?

11 Sobre la base de datos “wine” genere un informe mostrando sumariamente los tipos de datos y comportamiento de los mismos. Busque si existen variables relacionadas en algún sentido y justifique. Estudie las distribuciones de las variables y explique cuales de ellas presentan una distribución normal.

11.1 Si grafica la variable Alcohol vs su índice de fila, ¿tiene sentido graficar dicha variable de la BD como línea continua? ¿Y si grafica Alcohol vs Color ? Justifique

12 En una población de 10300 habitantes, tenemos que hay 5500 mujeres, 2000 tienen una caja de ahorros y 1500 tienen un prestamos hipotecario.

12.1 ¿Cuál es la proporción de hombres y el porcentaje de mujeres?

12.2 ¿Cuál es la razón de habitantes con caja de ahorros con respecto a los que tienen un prestamos?

12.3 Si sucede un nacimiento cada 1000 habitantes, ¿cuál es la tasa cada 10000?

12.4 ¿Cuál es la proporción de Raza “White” en la BD “adults…”? ¿Y la Razón con respecto a “Black”?