43
INSTITUTO TECNOLÓGICO DE CD. JUÁREZ DEPARTAMENTO DE INGENIERÍA INDUSTRIAL Y LOGÍSTICA TALLER DE INVESTIGACIÓN ANÁLISIS DE LOS DATOS DE MASTOGRAFIAS CON EL SOFTWARE R REPORTE DE INVESTIGACIÓN QUE PRESENTA: MANUEL JUSUS REYES MENDEZ CD. JUÁREZ, CHIH. A 21 DE MAYO DE 2020

INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

INSTITUTO TECNOLÓGICO DE CD. JUÁREZ DEPARTAMENTO DE INGENIERÍA INDUSTRIAL Y LOGÍSTICA

TALLER DE INVESTIGACIÓN

ANÁLISIS DE LOS DATOS DE MASTOGRAFIAS CON EL SOFTWARE R

REPORTE DE INVESTIGACIÓN QUE PRESENTA:

MANUEL JUSUS REYES MENDEZ

CD. JUÁREZ, CHIH. A 21 DE MAYO DE 2020

Page 2: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

i

RESUMEN Este es el reporte del proyecto para analizar los datos de cáncer de mama publicados en

internet. Los datos fueron del año 2016 y se escogieron arbitrariamente con el propósito de

practicar la búsqueda, lectura y análisis de datos reales.

Los datos se analizaron con el software estadístico R, utilizando dos paquetes de la

Ciencia de Datos: ggplot2 y tidyverse con el objetivo de avanzar en el conocimiento de las

herramientas de análisis gráfico exploratorio.

El problema con el análisis de datos abarca desde la descripción del tipo de análisis hasta

la toma de decisión acerca de que aspecto resaltar en las representaciones.

El marco teórico muestra los conceptos básicos del R, RSstudio y los paquetes ggplot2 y

tidyverse con el objeto de establecer las bases de conocimiento del software.

El resultado esperado de este reporte, es ayudar a los alumnos de Taller de Investigación

a comprender la metodología del reporte de investigación y los alcances que se pueden lograr

con la ayuda de la Ciencia de los Datos.

Page 3: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

ii

TABLA DE CONTENIDO

RESUMEN ............................................................................................................................... i

TABLA DE CONTENIDO ........................................................................................................... ii

LISTA DE FIGURAS ................................................................................................................. iii

1 INTRODUCCIÓN ............................................................................................................. 1

1.1 Antecedentes ........................................................................................................ 1

1.2 Planteamiento del Problema ................................................................................ 1

1.3 Preguntas de Investigación ................................................................................... 2

1.4 Hipótesis ................................................................................................................ 2

1.5 Objetivos ............................................................................................................... 2

1.6 Justificación ........................................................................................................... 2

1.7 Delimitaciones ....................................................................................................... 2

2 MARCO TEÓRICO ........................................................................................................... 3

2.1 Introducción a R .................................................................................................... 3

2.1.1 RStudio ............................................................................................................ 3

2.1.2 Resultados de correr los scripts de introducción a R ...................................... 6

2.2 El paquete ggplo2 ................................................................................................ 10

2.2.1 Resultados de los scripts de ggplot2 ............................................................. 11

2.3 Transformación de datos con tidyverse .............................................................. 15

2.3.1 Los resultados de correr el script transformación con tidyverse .................. 16

3 MATERIALES Y MÉTODOS ............................................................................................. 23

3.1 Procedimiento utilizando ggplot2 ....................................................................... 24

3.2 Procedimiento utilizando tidyverse .................................................................... 26

4 RESULTADOS ................................................................................................................ 29

4.1 Resultados con ggplot2 ....................................................................................... 29

4.2 Resultados con tidyverse .................................................................................... 33

CONCLUSIONES ................................................................................................................... 38

REFERENCIAS ....................................................................................................................... 39

Page 4: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

iii

LISTA DE FIGURAS Figura 1 Ventanas de RStudio ............................................................................................. 3

Figura 2 página de internet para descargar el archivo ..................................................... 23

Figura 3 Archivo zip en las descargas ................................................................................ 23

Figura 4 Archivo csv en la carpeta de descomprimidos .................................................... 23

Figura 5 Archivo csv original ............................................................................................. 24

Figura 6 Archivo csv de trabajo ......................................................................................... 24

Figura 7 Lectura de datos y cambio de nombre de la variable ......................................... 24

Figura 8 Resumen estadistico de los datos ...................................................................... 24

Figura 9 Mastografías Benignas y relacionadas ................................................................ 25

Figura 10 Código para graficar Benigna ............................................................................ 25

Figura 11 Registros con resultado Benigna para Juarez ................................................... 25

Figura 12 Resultados malignidad y relacionados .............................................................. 25

Figura 13 Resultados de malignidad para Juarez .............................................................. 26

Figura 14 Selección de registros para diferentes edades ................................................. 26

Figura 15 Código para graficar malignidad en Juarez ....................................................... 26

Figura 16 Graficas con jitter .............................................................................................. 26

Figura 17 Leer los datos .................................................................................................... 27

Figura 18 Cargar el paquete tidyverse .............................................................................. 27

Figura 19 Selección de variables ....................................................................................... 27

Figura 20 Agrupamiento de variables ............................................................................... 27

Figura 21 Filtración y agrupamiento de registros ............................................................. 28

Figura 22 Edad por resultado ............................................................................................ 28

Figura 23 Malignidad y benigna para Cd. Juarez .............................................................. 28

Page 5: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

1

1 INTRODUCCIÓN La Mastografía es un estudio de rayos “X” que se recomienda a mujeres de 40 a 69 años

de edad, sin signos, ni síntomas de cáncer (asintomáticas) y tiene como propósito detectar anormalidades en las mamas, que no se pueden percibir por la observación o la palpación.

Las mastografías buscan detectar cambios o anormalidades en los tejidos del seno que con el tiempo pueden convertirse en problemas. Pueden descubrir pequeños nódulos o masas que no los puede sentir una persona. Si se descubre alguna anormalidad mediante la mastografía se requerirán estudios adicionales para descartar o confirmar el diagnóstico. En caso de que el resultado sea normal, se citará a una nueva mastografía en dos años.

El estudio consiste en tomar 2 radiografías de cada mama: de los lados y de arriba hacia abajo. Tarda aproximadamente 15 minutos y causa molestias que son tolerables ya que se requiere comprimir el pecho.

No todos los resultados anormales significan cáncer, de cada 10 mujeres con mastografía anormal, sólo una tiene cáncer. Por lo tanto, si hay un resultado anormal, será necesario realizar más estudios para tener un diagnóstico definitivo. (Mexico, 2020)

1.1 Antecedentes En el taller de investigación se presentó el reto de hacer el análisis de datos reales

publicados por una institución. Se opto por trabajar con el Centro Nacional de Equidad de Género y Salud Reproductiva (CNEGSR) del gobierno de México.

En el CNEGSR se encuentra información sobre el cuidado de la Salud Materna y Neonatal, Cáncer de la Mujer, Planificación Familiar, Igualdad de Género en Salud y Prevención y Atención de la Violencia.

Los datos que interesaron fueron los que viene en Excel con la extensión csv o valores separados con comas. Los encontramos en la página Cáncer de la Mujer (SICAM) Cáncer de Mama (CNEGSR, 2020)

La tabla consta de 855 318 observaciones con 8 variables. Las variables que se reportan son: Clave de la Entidad. Entidad con 32 niveles, uno para cada estado. Clave de la Jurisdicción. Jurisdicción con 190 niveles. Clave del Municipio. Municipio con 229 niveles. Edad. y Resultado con 9 niveles.

1.2 Planteamiento del Problema Para realizar análisis estadístico de datos, se inicia con una descripción de los datos con el

objeto de sintetizar la información mediante tablas de frecuencias, representaciones gráficas y el cálculo de medidas estadísticas.

En nuestro caso el problema de analizar datos comenzó con la lectura de los mismos en el software, continuo con la selección de paquetes y comandos que facilitaran hacer la presentación y el análisis de los datos.

Así el problema modular fue responder a preguntas referentes a los resultados de las mastografías realizadas en 2016

Page 6: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

2

1.3 Preguntas de Investigación Las preguntas de investigación fueron: ¿Cuáles fueron las frecuencias de los resultados de las mastografías en el año 2016 a nivel

nacional, en el estado de Chihuahua y en Cd Juárez?

1.4 Hipótesis La hipótesis de trabajo es que la mayoría de las mastografías son malignas y que la

mayoría de frecuencias se encuentran en el centro del país.

1.5 Objetivos Los objetivos en la realización de este proyecto fueron: Obtener los datos en el programa. Analizar los datos con paquetes de R más eficientes. Que la información presentada sirva de guía en los Reportes de investigación

1.6 Justificación Generalmente los proyectos de investigación adolecen de temáticas y herramientas de

análisis que apoyen su realización. Es por eso que en necesario cubrir la laguna metodológica que orilla a contar con proyectos que caen en la descripción del tema o en la falta de análisis estadistico y gráfico. Este proyecto pretende cubrir parte de estos problemas.

1.7 Delimitaciones El enfoque de este estudio es hacia la utilización del software, a obtener mas practica en

el manejo de comandos y sobre todo abrir a los alumnos una puerta mas en la preparación profesional como investigadores.

Por lo anteriormente mencionado, aquí no se tratará el tema del cáncer de mama, ni los estudios relacionados. Este estudio es completamente de apoyo metodológico.

Page 7: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

3

2 MARCO TEÓRICO

2.1 Introducción a R R esta especialmente indicado para la manipulación y análisis de datos. Puede

descargarse de https://cran.r-project.org e instalarlo como cualquier programa.

2.1.1 RStudio La mejor plataforma para utilizar R es RStudio. RStudio es un IDE muy popular y que ofrece

un entorno prácticamente idéntico en todos los sistemas operativos para utilizar R. Un entorno de desarrollo integrado, en inglés Integrated Development Environment

(IDE), es una aplicación informática que proporciona servicios integrales para facilitar el

desarrollo de software.

RStudio, por defecto, tiene cuatro paneles. El panel inferior izquierdo es una consola de

R. En ella se puede escribir y ejecutar código. R muestra también en ella los resultados obtenidos.

El panel superior izquierdo es un editor de código. Los archivos que se abran y se editen

aparecerán en él dentro de sus correspondientes pestañas (Gil Bellosta, 2018).

El panel superior derecho contiene un listado de las variables en el entorno y un histórico

de comandos ejecutados. En el panel inferior izquierdo tiene las siguientes pestañas, Files: da

acceso al sistema de archivos del disco duro, Plots: aloja las gráficas que creen con R, Help:

muestra la página de ayuda de las funciones cuando la solicite el usuario. Ver la Figura 1.

Figura 1 Ventanas de RStudio

Page 8: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

4

Page 9: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

5

Page 10: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

6

2.1.2 Resultados de correr los scripts de introducción a R

Page 11: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

7

Page 12: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

8

Page 13: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

9

Page 14: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

10

2.2 El paquete ggplo2

Page 15: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

11

2.2.1 Resultados de los scripts de ggplot2

Page 16: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

12

Page 17: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

13

Page 18: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

14

Page 19: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

15

2.3 Transformación de datos con tidyverse

Page 20: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

16

2.3.1 Los resultados de correr el script transformación con tidyverse

Page 21: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

17

Page 22: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

18

Page 23: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

19

Page 24: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

20

Page 25: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

21

Page 26: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

22

Page 27: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

23

3 MATERIALES Y MÉTODOS Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud

en edades de 25 a 69 años durante el 2016 (SICAM, 2020). La Figura 2 muestra la página de internet de las Mastografías 2016. Aquí se debe de entrar

para descargar el archivo csv. Se selecciona Descargar.

Figura 2 página de internet para descargar el archivo

La Figura 3 muestra el Archivo zip en las descargas. En el explorador de archivos se debe

buscar el archivo zip para proceder a descomprimirlo.

Figura 3 Archivo zip en las descargas

La Figura 4 muestra el archivo csv en la carpeta de descomprimidos. Este archivo debe de

ubicarse en el directorio de trabajo. Este es donde se está llevando el proyecto. O bien ubicarlo donde se pueda localizar fácilmente.

Figura 4 Archivo csv en la carpeta de descomprimidos

La Figura 5 muestra el archivo csv original. Como se puede apreciar, la primera línea no debemos considerar dentro de un arreglo matricial de columnas y filas, por lo cual se elimina.

Page 28: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

24

Figura 5 Archivo csv original

En la Figura 6 se muestrea el archivo csv de trabajo. Como se puede apreciar, al archivo original se eliminó la primera fila y las columnas C, E y H para simplificar la tabla. Por último, se gravo el archivo con el nombre masto16.csv.

Figura 6 Archivo csv de trabajo

3.1 Procedimiento utilizando ggplot2 En la Figura 7 se muestran los comandos para realizar la lectura de los datos y el cambio

de nombre de la variable. Se presenta la dirección de internet desde donde se puede bajar el archivo. Para cargar los datos se utilizan los comandos read.csv y file.choose. Es importante tener bien localizado el archivo que se va a leer.

#cancer_mama_ggplot2

#https://datos.gob.mx/busca/dataset/cancer-de-la-mujer-sicam-cancer-de-mama

masto16 <- read.csv(file.choose(),header = TRUE)#Buscar archivo masto16.csv

en su directorio

head(masto16)#Ver los primeros registros

m16 <- masto16[,c(2,4,6:8)]#Seleccionar columnas 2, 4, 6, 7 y 8

Figura 7 Lectura de datos y cambio de nombre de la variable

La Figura 8 muestra el resumen estadistico de los datos. Se presenta también un grafica de barras de los resultados de mastografías.

library(ggplot2)#Cargar el paquete ggplot2

summary(m16)#Resumen estadístico

ggplot(data=m16,aes(x = Resultado,fill=Resultado))+theme_bw()+

geom_bar()#Grafica de barras Figura 8 Resumen estadistico de los datos

En la Figura 9 se muestra la selección de registro que tiene relación con el resultado Benigna de las mastografías.

#Selección de registros que contengan relación con Benigna

Benigna <- m16[m16$Resultado=="Benigna"|

m16$Resultado=="Negativa"|

m16$Resultado=="Evaluación Adicional"|

m16$Resultado=="Probablemente Benigna",]

summary(Benigna)#Resumen de Benigna

Page 29: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

25

Figura 9 Mastografías Benignas y relacionadas

Las graficas de barras y con facetas de los resultados Benigna se presenta en la Figura 10.

ggplot(data=Benigna,aes(x = Resultado,fill=Resultado))+theme_bw()+

geom_bar()

ggplot(data=Benigna,aes(x = Resultado,fill=Resultado))+theme_bw()+

geom_bar()+

facet_wrap(~Resultado)

ggplot(data=Benigna,aes(x=Edad,fill=Edad))+theme_bw()+

geom_bar()

ggplot(data=Benigna,aes(x=Edad,color=Resultado))+theme_bw()+

geom_bar()+

facet_wrap(~Resultado) Figura 10 Código para graficar Benigna

El código para generar el objeto bjuarez con los resultados de registros Begnina para Cd. Juárez, se muestra en la Figura 11.

#Benigna Juárez

bjuarez <- Benigna[Benigna$Jurisdicción=="Ciudad Juárez",]

summary(bjuarez) Figura 11 Registros con resultado Benigna para Juarez

En la figura 12 se muestra el objeto malignidad obtenido del filtro de los resultados de las mastografías como malignidad y relacionados. El carácter | es una barra vertical, indica el operador lógico “OR”.

####malignidad###

malignidad <- m16[m16$Resultado=="Altamente Sugestiva a Malignidad"|

masto16$Resultado=="Anormalidad Sospechosa"|

masto16$Resultado=="Baja Sospecha de Malignidad"|

masto16$Resultado=="Riesgo Intermedio de

Malignidad"|

masto16$Resultado=="Riesgo Moderado de Malignidad",] Figura 12 Resultados malignidad y relacionados

En la figura 13 se aprecia el código R para graficar la malignidad en Cd. Juárez con diferentes argumentos.

#Selección malignidad Juárez

mjuarez <- malignidad[malignidad$Jurisdicción=="Ciudad Juárez",]

summary(mjuarez)

ggplot(data=mjuarez,aes(x = Resultado,fill=Resultado))+theme_bw()+

geom_bar()

ggplot(data=mjuarez,aes(x=Edad,fill="blue"))+theme_bw()+

geom_bar()

ggplot(data=mjuarez,aes(x=Edad,color=Resultado))+theme_bw()+

geom_bar()+

facet_wrap(~Resultado)

ggplot(data = mjuarez) +theme_bw()+

geom_boxplot(mapping = aes(x = Edad, y =

Resultado,fill=Resultado),show.legend = FALSE)

Page 30: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

26

Figura 13 Resultados de malignidad para Juarez

En la Figura 14 se muestra el código R para obtener los datos de Juárez para diferentes edades.

#Selección de Malignidad en Juárez por grupos de edades

juarez1 <- mjuarez[mjuarez$Edad<=44,]

juarez2 <- mjuarez[mjuarez$Edad>44&mjuarez$Edad<55,]

juarez3 <- mjuarez[mjuarez$Edad>=55,]

juarez4 <- mjuarez[mjuarez$Edad>=60,] Figura 14 Selección de registros para diferentes edades

El código R para graficar el resultado de las mamografías para Cd. Juárez para diferentes edades, se muestra en la Figura 15.

#Graficas de Milignidad de cáncer en Juárez

ggplot(data = juarez1) +theme_bw()+

geom_boxplot(mapping = aes(x = Edad, y =

Resultado,fill=Resultado),show.legend = FALSE)

ggplot(data = juarez1,aes(x = Edad)) +theme_bw()+

geom_boxplot(aes(fill=Resultado))

ggplot(data = juarez2) +theme_bw()+

geom_boxplot(mapping = aes(x = Edad, y =

Resultado,fill=Resultado),show.legend = FALSE)

ggplot(data = juarez3) +theme_bw()+

geom_boxplot(mapping = aes(x = Edad, y =

Resultado,fill=Resultado),show.legend = FALSE)

summary(juarez4) Figura 15 Código para graficar malignidad en Juarez

En la Figura 16 se muestra el código para agregar aleatoriedad a cada punto para apreciar mejor los resultados.

# Graficas con jitter

ggplot(data = juarez3, aes(x = Edad, y = Resultado)) +

geom_boxplot(aes(fill=Resultado),show.legend = FALSE) +

geom_jitter(alpha=0.5,color="tomato")+theme_bw()

###

ggplot(data = juarez3, aes(x = Edad, y = Resultado)) +

geom_point(aes(fill=Resultado),show.legend = FALSE) +

geom_jitter(alpha=0.5,color="tomato")+theme_bw() Figura 16 Graficas con jitter

3.2 Procedimiento utilizando tidyverse El paquete de R llamado tidyverse es un conjunto de paquetes que se utiliza para facilitar

el manejo de bases de datos de forma mas eficiente y moderna. La Figura 17 muestra el código R para leer los datos. Aquí se puede saber la clase de objeto es masto16.

#cancer_mama

#https://datos.gob.mx/busca/dataset/cancer-de-la-mujer-sicam-cancer-de-mama

Page 31: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

27

masto16 <- read.csv(file.choose(),header = TRUE)

head(masto16)

class(masto16) Figura 17 Leer los datos

En la Figura 18 esta el código para instalar tidyverse. Debe aclararse que esto se hace una sola vez ya que queda en el disco mduro. Si el paquete se utiliza en otra sesión, únicamente se debe cargar con el comando library. El paquete tidyverse contiene el paquete ggplot2. El comando para hacer bases de datos más eficientes y que trabajen con tidyverse, es tibble.

#install.packages("tidyverse")# Instalar Ciencia de los Datos

library(tidyverse)

tibble(masto16) Figura 18 Cargar el paquete tidyverse

En la Figura 19 se presenta el código para hacer la selección de columnas y el uso del

comando pipe %>% que permite el encademiento de comandos.

m16 <- select(masto16,Entidad,Jurisdicción,Municipio ,Edad,Resultado)

m16 %>% ggplot(aes(x = Resultado,fill=Resultado))+theme_bw()+

geom_bar() Figura 19 Selección de variables

La Figura 20 muestra la forma para hacer resúmenes por grupos de variables. Para realizar el conteo se utiliza el comando n(). El código por entidad y resultado muestra el enlace eficiente de las operaciones.

por_Entidad <- m16 %>% group_by(Entidad) %>%

summarise(conteo=n(),Edad_media=mean(Edad))

por_Entidad_Resultado <- m16 %>% group_by(Entidad,Resultado) %>%

summarise(conteo=n(),Edad_media=mean(Edad))

por_Entidad_Resultado %>%

group_by(Entidad,Resultado,conteo) %>%

filter(conteo>25000) %>%

ggplot(aes(x = Entidad,fill=Entidad))+theme_bw()+

geom_bar()

arrange(por_Entidad,desc(conteo))#descendente Figura 20 Agrupamiento de variables

La selección o filtrado de registro se presenta en la Figura 21. De nueva cuenta se utilizan los comandos pipe, n() y la agrupación.

con_mas_casos <- filter(por_Entidad,conteo>22700)

con_menos_casos <- filter(por_Entidad,conteo<10000)

filter(por_Entidad,Edad<=40&Resultado=="Benigna")

Page 32: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

28

chihuahua <- m16 %>% group_by(Entidad,Municipio,Resultado) %>%

summarise(conteo=n(),Edad_media=mean(Edad)) %>%

filter(Entidad=="Chihuahua") Figura 21 Filtración y agrupamiento de registros

El resultado por edad para Juárez se resume en el código de la Figura 22.

por_Resultado <- m16 %>% group_by(Resultado) %>%

summarise(conteo=n(),Edad_media=mean(Edad))

m16 %>% group_by(Municipio,Resultado) %>%

summarise(conteo=n(),Edad_media=mean(Edad)) %>%

filter(Municipio=="JUAREZ") Figura 22 Edad por resultado

Con el código de la Figura 23 se filtran los registros que tiene resultados benignos y malignos en las mastografías. Se agruparon en resultados relacionados.

juarez_benigna <- m16 %>% group_by(Municipio,Edad,Resultado) %>%

summarise(conteo=n(),Edad_media=mean(Edad)) %>%

filter(Municipio=="JUAREZ",Resultado=="Benigna"|

Resultado=="Negativa"|

Resultado=="Probablemente Benigna"|

Resultado=="Evaluación Adicional")%>%

group_by(Resultado) %>%

summarise(conteo=n(),Edad_media=mean(Edad))

juarez_malignidad <- m16 %>% group_by(Municipio,Edad,Resultado) %>%

summarise(conteo=n(),Edad_media=mean(Edad)) %>%

filter(Municipio=="JUAREZ",Resultado=="Altamente Sugestiva a Malignidad"|

Resultado=="Anormalidad Sospechosa"|

Resultado=="Baja Sospecha de Malignidad"|

Resultado=="Riesgo Intermedio de Malignidad"|

Resultado=="Riesgo Moderado de Malignidad")%>%

group_by(Resultado) %>%

summarise(conteo=n(),Edad_media=mean(Edad)) Figura 23 Malignidad y benigna para Cd. Juarez

Page 33: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

29

4 RESULTADOS

4.1 Resultados con ggplot2

Page 34: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

30

Page 35: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

31

Page 36: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

32

Page 37: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

33

4.2 Resultados con tidyverse

Para referencias ver (Garrett & Wickham, 2020)

Page 38: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

34

Page 39: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

35

Page 40: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

36

Page 41: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

37

Page 42: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

38

CONCLUSIONES Las conclusiones que podemos hacer de este trabajo se sintetizan en los siguientes

puntos: Los datos que manejamos se pudieron cargar mediante los comandos de R sin ningún

problema. Únicamente se recomienda ubicar el archivo fácilmente localizable. Es importante quitar desde el inicio renglones y columnas que no se vallan a utilizar o que

no permitan tener un arreglo matricial. En cuanto a los paquetes, dado que tidyverse utiliza ggplot2, es importante manejarlo por

las ventajas que ofrece en cuanto a rapidez y lógica de comandos. El enlace de códigos con la función pipe %>% también es de gran utilidad. Se debe notar que el encadenamiento se establece en ggplot2 mediante el signo +. Históricamente ggplot2 salio primero que ggplot2, es por esto que se quedó con el método de enlace con el signo +.

Finalmente, el alumno participante en el curso de Taller de Investigación puede tomar la información aquí presentada para complementar sus reportes.

Page 43: INSTITUTO TECNOLÓGICO DE CD. JUÁREZ › uploads › 8 › ... · Información sobre el tamizaje de Cáncer de Mama en Unidades de la Secretaría de Salud en edades de 25 a 69 años

39

REFERENCIAS CNEGSR. (6 de Abril de 2020). Centro Nacional de Equidad de Genero. Obtenido de Gobierno de

Mexico: https://datos.gob.mx/busca/dataset/cancer-de-la-mujer-sicam-cancer-de-mama

Garrett, G., & Wickham. (15 de Mayo de 2020). R para Ciencia de Datos. Obtenido de r4ds: https://es.r4ds.hadley.nz/index.html

Gil Bellosta, C. J. (22 de Abril de 2018). R para profesionales de los datos. Obtenido de software R: https://www.datanalytics.com/libro_r/index.html

Mexico, G. d. (20 de Myo de 2020). IMSS. Obtenido de Mastografias: http://www.imss.gob.mx/salud-en-linea/cancer-mama/mastografia

SICAM. (1 de Mayo de 2020). Cancer de la mujer. Obtenido de Cancer de mamam: https://datos.gob.mx/busca/dataset/cancer-de-la-mujer-sicam-cancer-de-mama