View
0
Download
0
Category
Preview:
Citation preview
i
`
, Cuba, junio de 2019
Título: Agrupamiento de enzimas similares de la familia GH-70 utilizando descriptores libres de alineamiento
Autor: Jerry Rivera Fonseca
Tutoras: Dra.Sc. Deborah Galpert Cañizares
M.Sc. Karelia Ocana La O
i
Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las
Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui Gómez
Lubian” subordinada a la Dirección de Información Científico Técnica de la mencionada casa
de altos estudios.
Se autoriza su utilización bajo la licencia siguiente:
Atribución- No Comercial- Compartir Igual
Para cualquier información contacte con:
Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las Villas.
Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830
Teléfonos: +53 42281503-1419
RESUMEN
ii
RESUMEN
El reconocimiento de la estructura de las secuencias de enzimas de la familia GH-70 constituye un
tema abierto en la Bioinformática por la importancia de estas enzimas en el campo de la
Biotecnología y, específicamente en nuestro país, por el perjuicio que ocasionan a la producción
de azúcar. El uso de descriptores libres de alineamiento para el estudio de las estructuras resulta
una tendencia en el análisis de secuencias. La integración de diversos descriptores puede aportar
información valiosa al reconocimiento de secuencias similares estructuralmente dentro de dicha
familia. En los experimentos, los métodos de agrupamiento Expectation Maximization (EM) y K-
means fueron comparados en este trabajo para este fin, conjuntamente con diferentes valores de
parámetros de selección de métodos de pre-procesamiento como la normalización y la reducción
de la dimensionalidad por reducción de rasgos redundantes. Para esta última reducción se
comparan dos métodos: la reducción basada en la correlación y la reducción basada en el análisis
de las componentes principales (PCA). Para medir la calidad de los experimentos de agrupamiento
se utilizó la medida de validación interna Overall Similarity. Los mejores experimentos resultan
los que no aplican PCA. El mejor agrupamiento seleccionado con 20 grupos de secuencias, con el
algoritmo EM y un umbral de reducción de rasgos altamente correlacionados de 0.99, aparece
descrito con los rasgos predictores que más aportan, las distancias entre el centroide y las
secuencias, las distancias entre los centroides y un gráfico donde se muestran las secuencias en
cada clúster ploteadas por el valor de uno de los mejores rasgos predictores, observándose la
concentración de las secuencias en dos grupos.
Palabras Clave: Descriptores libres de alineamiento, Enzimas GH-70, Reducción de la
dimensionalidad, Análisis de Componentes Principales, Agrupamiento
ABSTRACT
iii
ABSTRACT
The structure recognition of the enzyme sequences of GH-70 family is an open field in
Bioinformatics because of the importance of these enzymes in the Biotechnology field;
specifically, in our country they are important due to their damaging effect in the sugar cane
production. The use of alignment-free descriptors to study the structures is a tendency in sequence
analysis. The integration of diverse descriptors may add useful information to the recognition of
similar structure sequences among this family. The Expectation Maximization (EM) and K-means
clustering algorithms were compared in this theses paper to achieve the clustering goal. Besides,
the selection of different parameter values related with the selection of pre-processing methods as
normalization and dimensionality reduction by means of the reduction of redundant features was
carried out in the experiments. For this last reduction the method based on the correlation between
features was compared with the one based on principal component analysis (PCA). The Overall
Similarity internal validation measure was used to assess the quality of the clustering experiments.
The best experiments were those without the application of PCA. The best clustering selected was
the one with twenty clusters, executed with the EM algorithm and a threshold of 0.99 for high
correlated features. This clustering is described with the most important predictor features. The
distance between the centroid and the sequence and the distances between the centroids and a
graphical image where the sequences in each cluster are plotted by the value of one of the best
predictor features are also presented. The concentration of the sequences towards to clusters is
visible in this image.
Key words: Aligment-free descriptors, GH-70 enzymes, Dimensionality reduction, Principal
Component Analysis, Clustering
iv
Agradecimientos
A mis tutoras la Dra.Sc. Deborah Galpert Cañizares y la M.Sc. Karelia Ocana La O, al Dr. Reinaldo
Molina Ruiz y al Lic. Ricardo Sánchez Alba por la ayuda en la realización de este trabajo. A todos
los que a través de estos arduos e intensos años de estudio me han ayudado y apoyado siempre que
los he necesitado en especial a mis compañeros de aula. ¡Muchísimas gracias!
Dedicatoria
Dedicado a todas aquellas personas que han hecho posible que me gradúe de Ciencias de la
Computación, en especial a mis padres, a la negra, a mi familia de forma general y a mi chiquitika.
ÍNDICE
v
TABLA DE CONTENIDOS
INTRODUCCIÓN ....................................................................................................................... 1
CAPÍTULO 1. Descriptores de secuencias de enzimas, reducción de la dimensionalidad y
agrupamiento 4
1.1 Descriptores libres de alineamiento ............................................................................... 4
1.2 Pre-procesamiento de los datos ...................................................................................... 6
1.2.1 Reducción de la dimensionalidad basada en la correlación ......................................... 7
1.2.2 Reducción de la dimensionalidad basada en el análisis de los componentes principales
8
1.3 Métodos de agrupamiento .............................................................................................. 9
1.3.1 Expectation Maximization ......................................................................................... 9
1.3.2 Algoritmo de agrupamiento bietápico ...................................................................... 10
1.3.3 Método de agrupamiento K-Means .......................................................................... 10
1.3.4 Método de agrupamiento Quick Cluster......................................................................... 11
1.4 Evaluación del agrupamiento ....................................................................................... 11
1.5 Consideraciones finales del capítulo ............................................................................ 13
CAPÍTULO 2. Agrupamiento de secuencias de enzimas integrando descriptores libres de
alineamiento 14
2.1 Conjuntos de datos de descriptores de las enzimas GH-70 ........................................... 14
2.2 Reducción de la dimensionalidad de los rasgos basada en correlación.......................... 15
2.3 Procedimiento propuesto ............................................................................................. 17
2.4 Diseño de experimentos ............................................................................................... 19
ÍNDICE
vi
2.5 Implementación y ejecución del pre-procesamiento ..................................................... 24
2.6 Conclusiones parciales ................................................................................................ 26
CAPÍTULO 3. Resultados experimentales de agrupamiento de secuencias de GH-70 ............. 27
3.1 Experimentos de combinación de parámetros para agrupamiento ..................................... 27
3.2 Resultados generales de experimentos de agrupamiento ................................................... 29
3.3 Resultados de agrupamiento a partir de parámetros .......................................................... 31
3.4 Comparación de Índices de validación del agrupamiento .................................................. 39
3.5 Mejor agrupamiento y rasgos de mayor importancia ......................................................... 42
3.6 Consideraciones finales del capítulo ................................................................................. 46
CONCLUSIONES..................................................................................................................... 47
RECOMENDACIONES ............................................................................................................ 48
BIBLIOGRAFÍA ....................................................................................................................... 49
ANEXOS .................................................................................................................................. 52
ÍNDICE
vii
LISTA DE FIGURAS
Figura 1 Esquema general del procedimiento definido para agrupar las secuencias de enzimas a
partir de descriptores. ................................................................................................................ 18
Figura 2 Diagrama de actividad correspondiente al primer experimento..................................... 19
Figura 3 Diagrama de actividad correspondiente al segundo experimento. ................................. 19
Figura 4 Diagrama de actividad correspondiente al tercer experimento. ..................................... 20
Figura 5 Diagrama de actividad correspondiente al cuarto experimento. .................................... 20
Figura 6 Diagrama de actividad correspondiente al quinto experimento. .................................... 21
Figura 7 Diagrama de actividad correspondiente al sexto experimento. ...................................... 21
Figura 8 Diagrama de actividad correspondiente al séptimo experimento. .................................. 22
Figure 9 Diagrama de actividad correspondiente al octavo experimento..................................... 22
Figura 10 Diagrama de actividad correspondiente al noveno experimento.................................. 23
Figura 11 Diagrama de actividad correspondiente al décimo experimento.................................. 23
Figura 12 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de PCA
y el valor de Overall Similarity. ................................................................................................. 32
Figura 13 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de la
normalización y el valor de Overall Similarity. .......................................................................... 32
Figura 14 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de
reducción y luego integración y el valor de Overall Similarity. .................................................. 33
Figura 15 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de
integración y luego reducción y el valor de Overall Similarity. .................................................. 34
Figura 16 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de EM o
K-Means y el valor de Overall Similarity. .................................................................................. 35
ÍNDICE
viii
Figura 17 Resultados del test de Kruskal-Wallis para medir la relación entre los diferentes umbrales
y el valor de Overall Similarity. ................................................................................................. 36
Figura 18 Árbol de decisión ....................................................................................................... 38
Figura 19 Resultados de agrupamiento de experimentos por índices de validación interna. ........ 41
Figura 20 Visualización de agrupamiento de experimentos por índices de validación interna. .... 42
Figura 21 Resultados de agrupamiento por el algoritmo Bietápico para el experimento de mayor
Overall Similarity. ..................................................................................................................... 43
Figura 22 Gráfico de agrupamiento por el algoritmo Bietápico para el experimento de mayor
Overall Similarity expresado en función del rasgo de mayor importancia................................... 46
ÍNDICE
ix
LISTA DE TABLAS
Tabla 1 Resumen del análisis descriptivo ................................................................................... 15
Tabla 2 Resultados de Reducción de dimensionalidad por correlación a partir de varios umbrales.
.................................................................................................................................................. 16
Tabla 3 Combinación de parámetros para experimentos para agrupamiento. .............................. 27
Tabla 4 Resultados del agrupamiento de secuencias e índices de validación para cada experimento.
.................................................................................................................................................. 29
Tabla 5 Resumen del modelo ..................................................................................................... 37
Tabla 6 Tabla de Árbol 1 según distintos parámetros ................................................................. 38
Tabla 7 Tablas de Árbol 2 según distintos parámetros ................................................................ 39
Tabla 8 Clúster bietápico ........................................................................................................... 40
Tabla 9 Perfiles de clúster .......................................................................................................... 40
Tabla 10 Distribución de clúster ................................................................................................ 43
Tabla 11 Distancias entre centros de clústeres finales 1.............................................................. 44
Tabla 12 Distancias entre centros de clústeres finales 2.............................................................. 44
Tabla 13 Número de casos en cada clúster ................................................................................. 45
INTRODUCCIÓN
1
INTRODUCCIÓN
Las enzimas son macromoléculas biológicas que actúan como catalizadores específicos durante los
procesos biológicos. El reconocimiento de la función y la clasificación estructural de las mismas
como las correspondientes a la familia GH-70 constituye un problema de gran importancia en la
Bioinformática por la utilidad biotecnológica de estas enzimas. En nuestro país, estas enzimas están
siendo estudiadas desde hace varios años por el Instituto Cubano de Investigaciones de los
Derivados de la Caña por el efecto nocivo que presentan en la producción de azúcar, ocasionando
pérdidas millonarias (Fraga R, 2011a, Fraga R, 2011b, Fraga, 2015).
En particular el problema de la clasificación funcional ha sido abordado por diferentes autores
según el recuento (Davies and Sinnott, 2008), evidenciándose la necesidad de aumentar la eficacia
de la clasificación principalmente en familias que contienen secuencias de baja identidad conocidas
como secuencias divergentes como sucede en la familia GH-70. Es por esto que el uso de diversos
descriptores libres de alineamiento de proteínas o enzimas se presenta como una tendencia en este
tipo de clasificación (Ong et al., 2007). A su vez la clasificación estructural de enzimas a partir de
las secuencias y su relación con la función constituye un campo de investigación abierto ya que
para esta familia sólo aparecen reportadas seis secuencias con estructura 3D reconocida (Meng et
al., 2016).
Partiendo de la consideración de que la similitud estructural define la similitud funcional y que
algunas pocas secuencias de la mencionada familia han sido caracterizadas estructuralmente, el
agrupamiento de secuencias combinando diversos descriptores libres de alineamiento con el uso
herramientas de aprendizaje automático pudiera conformar grupos de secuencias con patrones
estructurales similares. Estos descriptores representarían las secuencias como vectores con
múltiples componentes representando diferentes propiedades estructurales. De este modo se
pudieran explorar 482 secuencias de enzimas de GH-70 disponibles a la comunidad científica en
el sitio CAZy.org1 (Lombard V, 2014) para contribuir a inferir su clasificación estructural y
funcional. Precisamente, la integración de descriptores ha permitido elevar la calidad de la
1 http://www.cazy.org/
ÍNDICE
v
clasificación evolutiva en trabajos realizados en el Centro de Investigaciones de Informática de la
Universidad Central “Marta Abreu” de Las Villas (UCLV) como (Galpert, 2018). Es por esto que
en (Arteaga, 2018), se propone como parte de un sistema de Big Data Analítica, el cálculo de
descriptores libres de alineamiento de alta dimensionalidad de rasgos utilizando el modelo de
programación Spark con vistas a aplicarlos a la comparación por pares de grandes conjuntos de
secuencias de proteínas o enzimas. Sin embargo, la aplicación integrada de descriptores a
problemas de aprendizaje automático para la clasificación de enzimas, no ha sido abordada en
nuestra Universidad.
De lo anterior se propone el siguiente problema de investigación:
Caracterización estructural de la familia GH-70 a partir de la integración de descriptores de alta
dimensionalidad y el agrupamiento de secuencias similares.
Se propone el siguiente objetivo general:
Agrupar secuencias similares de la familia GH-70 aplicando herramientas de minería de datos a
descriptores libres de alineamiento de alta dimensionalidad.
Objetivos específicos:
1. Analizar variantes de métodos disponibles de agrupamiento y reducción de la
dimensionalidad de rasgos.
2. Aplicar los métodos de reducción de la dimensionalidad de los rasgos.
3. Aplicar algoritmos de agrupamiento.
4. Validar los resultados obtenidos.
Tareas de investigación
Entre las tareas a realizar se requiere:
1. El estudio del estado del arte sobre diversos descriptores de proteínas y enzimas, la integración
y pre-procesamiento de rasgos de los descriptores, así como de las técnicas de agrupamiento
con sus medidas de calidad.
2. La descripción de los conjuntos de datos de descriptores calculados para la familia GH-70.
3. El pre-procesamiento e integración de los descriptores.
INTRODUCCIÓN
3
4. El agrupamiento y evaluación en el proceso experimental.
Justificación
El presente trabajo forma parte del proyecto de investigación: “Herramientas bioinformáticas para
la búsqueda de secuencias codificadoras de enzimas dextranasacarasas”, Proyecto Empresarial de
UCLV con el código 10654, de la línea científica Ciencia e ingeniería de la computación, cuyo
líder es el Profesor Titular, Dr. Rafael E. Bello Pérez. Los resultados que se obtengan en este trabajo
de diploma deben apoyar los objetivos específicos del proyecto relacionados con:
Desarrollar herramientas que integren varios descriptores de proteínas para la detección de
secuencias de enzimas tipo GH-70, y que sean escalables al análisis amplio de diversos
proteomas. Estas enzimas son altamente perjudiciales en la producción de azúcar
ocasionando pérdidas millonarias y es por esto necesario caracterizarlas estructural y
funcionalmente para posteriormente modelar su inhibición.
Aporte práctico
Las herramientas bioinformáticas que se desarrollen en este trabajo deben ser de utilidad a la
comunidad bioinformática de nuestro país y de fuera de este por su futura aplicabilidad en la
industria biotecnológica.
El presente trabajo de diploma se divide de la siguiente forma: El Capítulo 1 se titula: “Descriptores
de secuencias de enzimas, reducción de la dimensionalidad y agrupamiento” constituyendo el
marco teórico del trabajo. El Capítulo 2: ha sido titulado “Agrupamiento de secuencias de
enzimas integrando descriptores libres de alineamiento” y el Capítulo 3 se titula: “Resultados
experimentales para secuencias de GH-70”. Además, se incluye una sección de Anexos con tablas
de resultados no incluidas en los capítulos.
4
CAPÍTULO 1. Descriptores de secuencias de enzimas, reducción de la
dimensionalidad y agrupamiento
En este capítulo se abordan aspectos teóricos sobre los descriptores de proteínas o enzimas. Se
mencionan aspectos referentes al pre-procesamiento, la integración y la reducción de la
dimensionalidad de los rasgos de los descriptores. Además, se incluyen cuestiones básicas sobre
agrupamiento y su evaluación.
1.1 Descriptores libres de alineamiento
En el análisis de secuencias de enzimas es posible transformar las secuencias de aminoácidos a
descriptores numéricos denominados descriptores libres de alineamiento (Vinga, 2014). En (Pérez
et al., 2018) se implementa el cálculo de varios descriptores que caracterizan las secuencias desde
el punto de vista de su estructura. Estos son:
• Pseudo composición de aminoácidos de Chou
Información sobre la composición de aminoácidos conjuntamente con la influencia del
orden de la secuencia. El efecto del residuo Rj sobre el Ri los cuales están ubicados cada
uno a una distancia topológica (λ) dentro de la secuencia (Chou, 2001). En este
descriptor se incluyen las propiedades de hidrofobicidad, el valor hidrofílico y la masa
de encadenamiento de los aminoácidos.
• Composición de aminoácidos
Composición (C), Transición (T) y Distribución (D) (CTD): estos tres descriptores
recogen información a partir de la división de aminoácidos en tres clases de acuerdo
con el valor de sus atributos como la hidrofobicidad, el volumen normalizado de van
der Waals, la polaridad, etc. De esta forma cada aminoácido es acompañado por cada
CAPÍTULO 1. DESCRIPTORES DE SECUENCIAS DE ENZIMAS, REDUCCIÓN DE LA DIMENSIONALIDAD Y AGRUPAMIENTO
5
uno de los índices correspondientes a las clases 1, 2 y 3. El descriptor C: representa el
por ciento global de cada clase (1, 2 y 3) en la secuencia, el descriptor T, el por ciento
de frecuencia con la cual la clase 1 es seguida por la clase 2 o la 2 es seguida por la 1.
El descriptor D representa la distribución de cada rasgo en la secuencia codificada
(Dubchak et al., 1995, Dubchak et al., 1999).
• Autocorrelación
• Norm Moreau Broto
• Moran
• Geary
• Total: Dichos descriptores de autocorrelación (Geary’s, Moran’s y Moreau–
Broto’s) están basados en determinadas propiedades de los aminoácidos que son
normalizadas en conjunto en el Total (Cao et al., 2013).
• Descriptores Quasi-Sequence-Order (QSO)
Combinación de la composición y la correlación de las propiedades de los aminoácidos
definidas por Chou KC (2000) (Chou, 2000).
Partiendo de la representación de un conjunto de enzimas 𝐸 = {x1, x2, … , x𝑚}, con m secuencias,
los descriptores mencionados transforman las secuencias en vectores mediante una función 𝑆𝑟: X →
ℝ𝑛𝑟, donde r es la identificación del descriptor, 𝑋 el conjunto de secuencias y 𝑛𝑟 es la
dimensionalidad del descriptor. El conjunto de datos resultante del cálculo de un descriptor
representa un conjunto de vectores para las m secuencias donde los componentes de los vectores
pueden ser múltiples, fundamentalmente para los descriptores donde aparece la frecuencia de
subsecuencias de determinada longitud en las secuencias, por ejemplo, los k-mers de longitud k
cuya dimensionalidad máxima sería 20k siendo 20 el total de aminoácidos. La dimensionalidad de
los otros descriptores mencionados depende de la longitud máxima de las secuencias y de la
información extraída en los mismos.
ÍNDICE
v
Estos descriptores libres de alineamiento están siendo utilizados de manera integrada en múltiples
aplicaciones de la bioinformática con el objetivo de descubrir información subyacente en la
mutación de secuencias que divergen en la evolución (Borozan et al., 2015). Es decir, para
clasificar secuencias es necesario compararlas con otras pertenecientes a diversas especies cuyas
distancias evolutivas pueden marcar la heterogeneidad de dichas secuencias; es por esto necesario,
incluir en la comparación diversas informaciones que permitan reconocer su similitud. En
específico, para la clasificación estructural de 482 secuencias de enzimas de la familia GH70 se
han calculado 10 descriptores almacenados en archivos CSV diferentes con un rango de
dimensionalidad entre 31 y 721 rasgos continuos con alta variabilidad en sus rangos. De esta
necesidad de integración de datos diversos y de la alta dimensionalidad se deriva el uso de técnicas
de pre-procesamiento para la minería de datos como las expuestas en (García S, 2015),
fundamentalmente aquellas dedicadas a la reducción de la dimensionalidad, ya que una alta
dimensionalidad puede aumentar el espacio de búsqueda de manera exponencial y la posibilidad
de obtener modelos inválidos. De igual forma debe existir una relación lineal entre el número de
instancias y la dimensionalidad para obtener modelos de alta calidad.
1.2 Pre-procesamiento de los datos
Como se menciona en la sección anterior la minería de datos de secuencias de aminoácidos
conlleva la extracción de datos numéricos que pueden pertenecer a diversas escalas y presentar
rangos diversos lo que puede definir el uso técnicas de normalización (García S, 2015) como la
Min-Max que permite transformar los datos a un rango determinado, siendo usual el rango entre
cero y uno. Otro pre-procesamiento requerido es la reducción de la dimensionalidad eliminando
rasgos redundantes. En esta sección se exponen algunos de estos pre-procesamientos que pueden
ser utilizados cuando no se cuenta con información previa sobre las clases de las instancias a
involucrar en el aprendizaje automático, es decir, son técnicas no supervisadas de reducción de la
dimensionalidad de los rasgos.
Como herramientas para realizar el pre-procesamiento es posible utilizar las propias de los paquetes
de aprendizaje automático como Weka (Weka, 2013) y MLlib (MLlib, 2016), este último para big
data. También es posible utilizar herramientas disponibles en los lenguajes de programación como
Phyton o PySpark, este último, para big data. Entre las herramientas se encuentra el paquete Pandas
versión 0.24.2 con facilidades como una estructura de datos similares a los dataframes de R. En las
CAPÍTULO 1. DESCRIPTORES DE SECUENCIAS DE ENZIMAS, REDUCCIÓN DE LA DIMENSIONALIDAD Y AGRUPAMIENTO
7
estructuras disponibles se pueden representar tipos de datos tabulares con columnas de tipo
heterogéneo y con etiquetas en columnas y filas. Pandas proporciona herramientas que permiten:
_leer y escribir datos en diferentes formatos entre los que se encuentra CSV, formato en que son
almacenados los descriptores mencionados en la sección anterior.
_seleccionar y filtrar tablas de datos en función de posición, valor o etiquetas.
_fusionar y unir datos.
_transformar datos aplicando funciones tanto globales como por ventanas.
_realizar gráficas.
_calcular estadísticos, específicamente la correlación de Pearson.
1.2.1 Reducción de la dimensionalidad basada en la correlación
La reducción de dimensionalidad basada en la correlación ha sido abordada en (Mitra et al., 2002,
Soni and Joshi, 2012, Malavika and K.Selvam, 2015) partiendo del cálculo de la correlación basado
en las siguientes consideraciones. El coeficiente de correlación se encuentra en el rango entre -1 y
1. El valor de 1 implica que existe una ecuación lineal que describe la relación entre X y Y, con
todos los puntos en una línea para la cual Y aumenta según aumenta X. El valor −1 implica que
todos puntos aparecen en una línea para cual Y decrece según X aumenta. El valor 0 implica que
no existe correlación lineal entre las variables. Se tiene que (Xi − X)(Yi − Y) es positivo si y solo si
Xi y Yi se encuentran en el mismo lado de sus respectivas medias. De esta forma el coeficiente de
correlación es positivo si Xi y Yi tienden a ser simultáneamente mayores, o simultáneamente
menores que sus respectivas medias. El coeficiente de correlación es negativo si Xi y Yi tienden a
encontrarse en lados opuestos de sus respectivas medias. El coeficiente de correlación de Pearson
entre dos variables (expresión 1.1) se define como la covarianza de las dos variables dividida por
el producto de sus deviaciones estándar.
𝜌𝑋,𝑌=
𝑐𝑜𝑣(𝑋,𝑌)
𝜎𝑋𝜎𝑌=
𝐸[(𝑋−�̅�)(𝑌−�̅�)]
𝜎𝑋𝜎𝑌
(1.1)
ÍNDICE
v
Esta expresión se corresponde con el coeficiente de correlación de la población, sin embargo, al
sustituir por los estimados de la covarianza y varianzas basados en la muestra se obtiene el
coeficiente de correlación en la expresión 1.2.
𝑟 =∑ (𝑋𝑖−�̅�)(𝑌𝑖−�̅�)𝑛
¡=1
√∑ (𝑋𝑖−�̅�)2𝑛¡=1 √∑ (𝑌𝑖−�̅�)2𝑛
¡=1
(1.2)
Para la reducir la dimensionalidad de los rasgos en un conjunto de datos de entrada de la minería
de datos, de los pares de rasgos con alto valor del valor absoluto de r, se retiene uno de ellos en el
conjunto de rasgos reducido. Esta técnica de reducción de dimensión se basa en encontrar la
correlación entre varios rasgos para determinar aquellos altamente correlacionados (rasgos
redundantes) y eliminar los redundantes del conjunto de entrada. Para esto se mide un parámetro
llamado relevancia dado un umbral, a partir de los valores de correlación obtenidos. Las
inconsistencias en la asignación de nombres de rasgos también pueden causar redundancias en el
conjunto de datos resultante, y pueden ser detectadas con medidas de correlación.
1.2.2 Reducción de la dimensionalidad basada en el análisis de los componentes principales
El análisis de componentes principales (PCA) es la técnica más antigua y mejor conocida de
análisis multivariable de datos. Tiene una gran variedad de aplicaciones tales como en la extracción
de información relevante en un conjunto de datos; la compresión del tamaño de un conjunto de
datos conservando sólo la información importante; el análisis de la estructura de las observaciones
y variables; en la compresión de imágenes (Sidharth Prasad Mishra et all, 2017).
La idea fundamental para el análisis de una muestra con n instancias con m rasgos se desea
encontrar un número de factores subyacentes p < m que explican aproximadamente el valor de los
m rasgos para cada instancia. Existen dos formas básicas de calcular el PCA; el método basado en
la matriz de correlación y el método basado en la matriz de covarianzas. El nuevo conjunto de
rasgos se deriva en un orden decreciente de contribución, permitiendo que la primera variable
obtenida, llamada componente principal, contenga la mayor proporción de la varianza del conjunto
original (95%).
CAPÍTULO 1. DESCRIPTORES DE SECUENCIAS DE ENZIMAS, REDUCCIÓN DE LA DIMENSIONALIDAD Y AGRUPAMIENTO
9
Es útil cuando hay muchas variables independientes que están altamente correlacionadas al permitir
la combinación de la esencia de los rasgos originales en un nuevo conjunto reducido de rasgos.
Cuando se calculan los k vectores ortonormales que apuntan a una dirección perpendicular a otros
de modo que los datos originales son una combinación lineal de los componentes principales
(García S, 2015).
1.3 Métodos de agrupamiento
Los métodos de agrupamiento permiten descubrir conocimiento en conjuntos de datos donde no se
tiene información previa de la clase de las instancias a utilizar en el aprendizaje, como ocurre en
este trabajo con instancias consideradas como las secuencias de enzimas convertidas a vectores
numéricos. Los que aquí se abordan aparecen implementados en el paquete de minería de datos de
Weka (Weka, 2013) y en el paquete SPSS Versión 22 2013.
1.3.1 Expectation Maximization
El algoritmo EM (Expectation-Maximization) (Weka, 2013) asigna a cada instancia una
distribución de probabilidad de pertenencia a cada clúster. El algoritmo puede decidir cuántos
clústeres crear basado en validación cruzada, o se le puede especificar a priori cuántos debe generar.
Utiliza el modelo Gaussiano finito de mezclas, asumiendo que todos los atributos son variables
aleatorias independientes. Este algoritmo requiere muchas más operaciones que el K-Means.
EM se usa en estadística para encontrar estimadores de máxima verosimilitud de parámetros en
modelos probabilísticos que dependen de variables no observables. El algoritmo EM alterna pasos
de expectación (paso E), donde se computa la expectación de la verosimilitud mediante la inclusión
de variables latentes como si fueran observables, y un paso de maximización (paso M), donde se
computan estimadores de máxima verosimilitud de los parámetros mediante la maximización de la
verosimilitud esperada del paso E. Los parámetros que se encuentran en el paso M se usan para
comenzar E siguiente, y de esta forma se repite el proceso.
Expectation: Utiliza los valores de los parámetros, iniciales o proporcionados por el paso
Maximization de la iteración anterior, obteniendo diferentes formas de la FDP (Función de
Densidad de Probabilidad) buscada.
ÍNDICE
v
Maximization: Obtiene nuevos valores de los parámetros a partir de los datos
proporcionados por el paso anterior.
1.3.2 Algoritmo de agrupamiento bietápico
El algoritmo de agrupamiento bietápico (TwoStep) de SPSS 2013 puede manejar datos continuos
y categóricos. Tiene dos pasos: 1) pre-agrupamiento de casos en multiples pequeños sub-grupos;
2) agrupamiento de los pequeños sub-grupos resultantes del paso anterior, en un número deseado
de grupos. Puede seleccionar de manera automática la cantidad de grupos.
1.3.3 Método de agrupamiento K-Means
El método K-Means (k-Medias) es un método de particionado de agrupamiento de los datos idóneo
para analizar gran número de casos. Cuando se tiene X = {𝑥𝑖}, i = 1,..., n el conjunto de n puntos
d-dimensionales para agruparse en un conjunto de K grupos, C = {𝑐𝑘 , 𝑘 = 1, … , 𝐾}. El algoritmo
K-means encuentra una partición tal que el error cuadrático entre la media empírica de un grupo y
los puntos en el grupo se minimiza. Sea µ𝑘 el medio del clúster 𝑐𝑘. El error cuadrático entre µ𝑘 y
los puntos en el clúster 𝑐𝑘 se definen como 𝐽(𝑐𝑘) = ∑ ‖𝑥𝑖 − 𝜇𝑘‖2𝑥𝑖∈𝑐𝑘
.
El objetivo de K-Means es minimizar la suma del error cuadrático sobre todos los K grupos,
J(C) = ∑ ∑ ‖𝑥𝑖 − 𝜇𝑘‖2𝑥𝑖∈𝑐𝑘
K
k=1.
El método comienza con una partición inicial con K grupos y asigna patrones a grupos para reducir
el error cuadrático. Dado que el error cuadrático siempre disminuye con un aumento en el número
de grupos (con J(C) = 0 cuando k = n), solo se puede minimizar para un número fijo de grupos
(Jain, 2010).
Los pasos principales del algoritmo de K-Medias son los siguientes:
1. Seleccionar una partición inicial con K grupos; repetir los pasos 2 y 3 hasta que la
membresía del clúster se estabilice.
2. Generar una nueva partición asignando cada patrón a su más cercano centroide del grupo.
3. Calcular nuevos centroides de grupos.
CAPÍTULO 1. DESCRIPTORES DE SECUENCIAS DE ENZIMAS, REDUCCIÓN DE LA DIMENSIONALIDAD Y AGRUPAMIENTO
11
El método K-Means, puede converger a un mínimo local, aunque se ha demostrado que con una
gran probabilidad K-Means podrían converger al óptimo global cuando los grupos están bien
separados. La distancia euclidiana es la más usada para calcular la distancia entre los puntos y los
centroides del clúster.
1.3.4 Método de agrupamiento Quick Cluster
El método QuickCluster del SPSS 2013 es una variante del K-Means que permite estimar las
medias de las variables para cada clúster o grupo. Por defecto selecciona tantos casos como
clústeres a formar. Estos centros de clústeres iniciales son utilizados para una primera pasada de
clasificación y luego son actualizados. Como resultado del algoritmo se muestra para cada caso la
asignación de clúster final y la distancia Euclidiana entre la instancia y el centro del clúster usado
para clasificar dicha instancia. Además, devuelve la distancia entre centros de grupos finales.
1.4 Evaluación del agrupamiento
En esta sección se recogen algunos aspectos sobre las medidas de validación internas de calidad
del agrupamiento utilizadas cuando no se tiene información de referencia sobre las clases de las
instancias a clasificar. Un buen agrupamiento debe agrupar las instancias, de forma tal que
instancias dentro de cada grupo sean más similares entre sí que instancias que estén en grupos
diferentes (Arco et al., 2006). La similitud intra-grupo se define como la similitud promedio entre
las instancias de cada grupo, y la similitud entre-grupos como la similitud promedio entre las
instancias dentro de cada grupo y el resto de las instancias en el conjunto de datos. Overall
similarity es una medida interna basada en la similitud de los pares de instancias en un grupo
(Steinbach et al., 2000).
Los índices para evaluar agrupamiento generalmente se basan en alguna motivación geométrica
para estimar cuán compactos y bien separados están los grupos. Un ejemplo son los índices Dunn
(Dunn, 1974) y sus generalizaciones (Bezdek and Pal, 1995). Los índices Dunn varían en función
de la medida de distancia entre grupos y la medida de distancia del grupo que se utilice.
Originalmente Dunn utilizó el mínimo de todas las distancias entre pares de elementos para calcular
la distancia entre los grupos, y consideró el diámetro del grupo como la mayor distancia entre sus
miembros (Dunn, 1974). Así, las medidas tienden a producir valores elevados para los
ÍNDICE
v
agrupamientos con grupos compactos y muy bien separados. Sin embargo, Bezdek reconoció que
el índice Dunn es muy sensible al ruido (Bezdek and Pal, 1995); por ejemplo, la distancia entre un
par de grupos puede ser menor que el diámetro de un grupo. Bezdek propuso una modificación en
el cálculo de la distancia entre grupos mediante la estandarización respecto al tamaño de los
mismos y una nueva forma de cálculo del diámetro del grupo mediante el cálculo de la distancia
de todos sus elementos al centro del grupo, también estandarizado por su tamaño. Esta variante
obtiene mejores resultados para diferentes dominios, pero hace referencia a un centro de grupo, y
no todos los algoritmos trabajan con prototipos, ni la estructura de todos los datos son grupos con
forma esférica. A pesar de las modificaciones propuestas por Bezdek, los índices Dunn son
sensibles a la presencia de ruido en los datos y requieren una cantidad de tiempo considerable para
su cálculo. Para evaluar el agrupamiento se busca maximizar los índices Dunn.
Bezdek propone cinco generalizaciones de los índices Dunn para validar grupos con diferentes
formas hiperesféricas y disminuir su sensibilidad al ruido. Las generalizaciones abogan por
definiciones apropiadas para el cálculo del diámetro de los grupos y la distancia entre los grupos,
siguiendo el principio de que todos los datos deben estar explícitamente implicados en el cálculo
del índice.
La medida Davies-Bouldin es basada en la idea de que una buena partición es aquella con gran
separación entre grupos, alta homogeneidad y compactación dentro de cada grupo. Esta medida es
una proporción de la suma de la dispersión interna del grupo y la separación entre grupos. La
dispersión dentro del grupo es relativa a los centroides de éstos y la distancia entre los grupos se
basa en la distancia entre sus centros. Una dispersión baja y una distancia grande entre grupos
tienden a producir valores bajos, por tanto se desea minimizar esta medida (Davies and Bouldin,
1979). Los índices Dunn y Davies-Bouldin son relativos al análisis geométrico de los grupos:
típicamente centroidal y con forma esférica; elementos no presentes en todos los agrupamientos.
El índice de silueta es el promedio, sobre todos los grupos, del ancho de la silueta de sus puntos.
Dos cálculos fundamentales intervienen en la silueta de un punto: la distancia promedio entre el
punto y todos los otros puntos en el grupo, y el mínimo de la distancia promedio entre el punto y
los puntos en otros grupos. Valores altos del índice silueta global indican grupos más compactos y
bien separados. El cálculo de este índice tiene una alta complejidad; sin embargo, en las
investigaciones actuales es muy utilizado para la validación del agrupamiento (Arco et al., 2006).
CAPÍTULO 1. DESCRIPTORES DE SECUENCIAS DE ENZIMAS, REDUCCIÓN DE LA DIMENSIONALIDAD Y AGRUPAMIENTO
13
En SPSS 2013 es posible obtener el Coeficiente de Silueta Promedio (average Silhouette
coefficient) como un promedio por todas las instancias de la expresión (B−A)/max(A,B) para cada
instancia donde A es la distancia promedio de cada instancia a todas las instancias asignadas al
mismo clúster y B es la mínima distancia promedio de la instancia a instancias de diferentes
clústeres. Para reducir la complejidad computacional se asumen las siguientes consideraciones:
A es la distancia entre la instancia y el centro (centroide) del clúster al cual pertenece la instancia.
B es la distancia mínima de la instancia al centroide de cada otro grupo.
Adicionalmente el SPSS calcula la medida Importancia del Predictor que indica cuánto puede
diferenciar una variable a los diferentes grupos. Mientras mayor sea el valor de esta medida, menos
posible será que la variación de la variable entre clústeres sea por azar y más posible que sea por
alguna diferencia subyacente.
El coeficiente de Silueta y su promedio están en el rango de -1 y 1, indicando el -1 que se ha
estimado un modelo pobre y el 1, un modelo excelente. Se considera que promedio de Silueta
mayor que 0.5 indica que se obtenido una partición razonable de los datos; en cambio un valor
menor que 0.2 indica que los datos no muestran una estructura de grupos.
1.5 Consideraciones finales del capítulo
Conociendo la estructura de los datos de los descriptores de secuencias de aminoácidos es posible
definir métodos de pre-procesamiento a utilizar como la normalización, la integración de diversos
descriptores, la reducción de la dimensionalidad mediante la reducción de rasgos redundantes o la
transformación de los rasgos en un nuevo conjunto de componentes principales que explique mejor
el conjunto de datos. Es por esto que las diferentes variantes posibles a utilizar para el pre-
procesamiento pueden conducir a diversos resultados de agrupamiento según los diferentes
algoritmos seleccionados para este fin y por consiguiente deben medirse los índices de validación
interna de los agrupamientos resultantes para obtener aquellos de mayor calidad. Esta diversidad
de resultados a medir conduce a la definición de un procedimiento general para el agrupamiento
de secuencias de enzimas de la familia GH-70 a estudiar y al diseño de experimentos para encontrar
el agrupamiento más adecuado de tales secuencias.
14
CAPÍTULO 2. Agrupamiento de secuencias de enzimas integrando
descriptores libres de alineamiento
En este capítulo se especifica el procedimiento propuesto para la realizar el agrupamiento de
secuencias de enzimas de la familia GH-70. Primeramente, se muestra el análisis descriptivo de las
secuencias. Luego aparecen detalles de la implementación y la selección de parámetros del pre-
procesamiento y del agrupamiento. Finalmente se muestran los flujos de proceso para los distintos
experimentos realizados cuyos resultados se discuten en el CAPÍTULO 3.
2.1 Conjuntos de datos de descriptores de las enzimas GH-70
Los descriptores seleccionados para realizar el agrupamiento de 482 secuencias de enzimas GH-
70 aparecen listados a continuación con la cantidad de filas y columnas de cada uno.
GH70_Auto_Moran
GH70_Auto_NMB
GH70_Auto_Total
GH70_CTD_C
GH70_CTD_D
GH70_CTD_T
GH70_PseudoAAC_Lamda_10
GH70_PseudoAAC_Lamda_30
GH70_QSO_maxlag_30_weight_0.1
GH70_QSOCN_maxlag_30
El total de columnas integradas asciende a 1,177 de modo que para utilizar las implementaciones
disponibles para una PC de recursos estándares, se propone la reducción de la dimensionalidad
partiendo de los descriptores antes de ser integrados y luego después de este proceso.
CAPÍTULO 2. DESCRIPTORES DE SECUENCIAS DE ENZIMAS INTEGRANDO DESCRIPTORES LIBRES DE ALINEAMIENTO
15
El resumen del análisis descriptivo aparece en la Tabla 1.
Tabla 1 Resumen del análisis descriptivo
Descriptor Número de rasgos
Varianza Mínima
Varianza Máxima
Mínimo Mínimo
Máximo Máximo
Máximo Rango
GH70_Auto_Moran 31 0.001 0.003 -0.356 0.357 0.586
GH70_Auto_NMB 31 0.002 0.002 -0.123 0.217 0.336
GH70_Auto_Total 721 0.001 0.004 -0.356 1.396 0.874
GH70_CTD_C 22 0 0.001 0.046 0.837 0.282
GH70_CTD_D 106 0.007 23.557 0.035 100 59.117
GH70_CTD_T 22 0 0.001 0.003 0.356 0.178
GH70_PseudoAAC_Lamda_10 31 0.005 0.953 0 14.864 12.268
GH70_PseudoAAC_L
amda_30 51 0.001 0.262 0 7.648 6.319
GH70_QSO_maxlag_30_weight_0.1 101 0 0 0 0.043963 0.022444
GH70_QSOCN_maxla
g_30 61 22978.665 28450.83 11.486 1039.541 1017.424
TOTAL DE RASGOS 1177 0 28450.83 -0.356 1039.541 1017.424
A partir del resultado obtenido del análisis descriptivo y la referencia (García et al., 2015) sobre
selección de técnicas de pre-procesamiento se toman en cuenta las siguientes consideraciones:
1. Teniendo en cuenta la varianza de los datos: existen varios atributos con el valor de varianza
muy baja por lo que motiva el uso de técnicas de reducción de dimensionalidad para mejorar
el conjunto de rasgos que representen las instancias.
2. Teniendo en cuenta la amplitud del rango de los rasgos: existe variabilidad y un valor alto del
rango por lo que un procedimiento de normalización pudiera favorecer el procesamiento con el
conjunto de datos.
3. Teniendo en cuenta la información de las instancias ha sido extraída por múltiples métodos de
extracción de rasgos (descriptores) por lo que la integración puede ser favorable.
2.2 Reducción de la dimensionalidad de los rasgos basada en correlación
El Algoritmo 1 se basa en la correlación de Pearson entre pares de rasgos (expresión 1.2).
ÍNDICE
v
Algoritmo 1 Reducción de la Dimensionalidad basada en la Correlación de Pearson.
Tabla 2 Resultados de Reducción de dimensionalidad por correlación a partir de varios
umbrales.
Valor de umbral Dimensión del
conjunto
reducido
Por ciento del total
de rasgos
integrados
Proporción entre
cantidad
de rasgos
y
cantidad
de
instancias
función delColCorr (<DF>, <umbral>):
INSTRUCCIÓN
Inicializar Corr con un dataframe con los valores absolutos de la
matriz de correlación de Pearson de <DF>
Inicializar Df con el valor de <DF>
Inicializar Col_corr como un conjunto
for i = 0 hasta el length-1 de la cantidad de columnas de Corr hacer
if columna i de Corr is not in Col_corr then
for j = i + 1 hasta el length-1 de la cantidad de columnas
de Corr hacer
if columna j de Corr is not in Col_corr then
if Corr[j,i] es mayor al <umbral> then
eliminar de Df la columna que coincida
con la columna j de Corr
agregar a Col_corr la columna eliminada
de Df
return Df
1- Inicializar tantas variables de tipo dataframe como descriptores se tengan.
2- Cargar los archivos de descriptores y asignarselos a las variables del paso 1.
2- Asignarle la función delColCorr a las variables.
3- Eliminar la primera columna de identificadores de secuencias desde la segunda
variable hasta la última.
4- Inicializar Updf con la concatenación de todas las variables por columnas.
5- Guardar Updf como un archivo csv.
CAPÍTULO 2. DESCRIPTORES DE SECUENCIAS DE ENZIMAS INTEGRANDO DESCRIPTORES LIBRES DE ALINEAMIENTO
17
0.5 232 19.86 0.48
0.6 317 27.14 0.66
0.7 379 32.45 0.79
0.8 423 36.22 0.88
0.9 450 38.53 0.93
0.99 754 64.55 1.56
0.995 801 68.58 1.66
0.999 928 79.45 1.93
A partir de las pruebas realizadas se seleccionaron los umbrales de 0.99, 0.995, 0.999 por brindar
proporciones mayores que uno entre la cantidad de rasgos y la cantidad de instancias. Estos valores
de umbral brindan un margen para la combinación de técnicas de reducción para realizar los
experimentos de agrupamiento que aparecen descritos en la siguiente sección.
2.3 Procedimiento propuesto
El esquema general del proceso de agrupamiento se muestra en forma de pasos:
1. Cada conjunto de datos correspondiente a un descriptor puede ser normalizado o no.
2. Cada conjunto de datos correspondiente a un descriptor normalizado o no será la entrada
de algoritmos de reducción de la dimensionalidad (reducción de rasgos redundantes basado
en la correlación). Este paso devuelve rasgos reducidos o transformados para cada
descriptor.
3. Se integran los rasgos reducidos o transformados de los distintos descriptores o los rasgos
sin reducir.
4. Se aplica o no reducción de rasgos redundantes basada en la correlación o análisis de
componentes principales al conjunto de rasgos integrados.
5. Se aplican algoritmos de aprendizaje no supervisado al conjunto de rasgos integrado.
Primeramente, se aplica el EM para determinar cantidad de grupos y esta cantidad se utiliza
como valor de k para el SimpleKMeans de Weka.
ÍNDICE
v
6. Se analiza la calidad de los agrupamientos realizados en Weka utilizando los siguientes
criterios para seleccionar el agrupamiento de mayor calidad para un conjunto de datos.
a. El mayor valor de Overall Similarity.
b. El mayor valor del índice de Dunn.
c. El mayor valor del índice de Dunn-Bezdek.
d. El menor valor de Davies-Bouldin.
7. Para los mejores agrupamientos realizados en Weka según el Overall Similarity valorar el
índice de Silueta en el SPSS 2013 utilizando el mismo valor de k seleccionado
anteriormente en el algoritmo de agrupamiento bietápico (Two Step). Con este valor de k
obtener con el QuickCluster lo promedios de distancia entre los casos y el centroide y entre
los centroides. Mostrar el agrupamiento seleccionado como de más calidad a partir de la
selección de los mejores rasgos predictores.
De forma más concisa se muestra en la Figura 1 el diagrama de actividad del procedimiento
especificado anteriormente.
Figura 1 Esquema general del procedimiento definido para agrupar las secuencias de
enzimas a partir de descriptores.
CAPÍTULO 2. DESCRIPTORES DE SECUENCIAS DE ENZIMAS INTEGRANDO DESCRIPTORES LIBRES DE ALINEAMIENTO
19
2.4 Diseño de experimentos
Los distintos experimentos propuestos se han especificado a continuación mediante diagramas de
actividad. De la Figura 2 hasta la Figura 11 se muestran los diagramas correspondientes a los
experimentos del 1 al 10 respectivamente.
Figura 2 Diagrama de actividad correspondiente al primer experimento.
Figura 3 Diagrama de actividad correspondiente al segundo experimento.
ÍNDICE
v
Figura 4 Diagrama de actividad correspondiente al tercer experimento.
Figura 5 Diagrama de actividad correspondiente al cuarto experimento.
CAPÍTULO 2. DESCRIPTORES DE SECUENCIAS DE ENZIMAS INTEGRANDO DESCRIPTORES LIBRES DE ALINEAMIENTO
21
Figura 6 Diagrama de actividad correspondiente al quinto experimento.
Figura 7 Diagrama de actividad correspondiente al sexto experimento.
ÍNDICE
v
Figura 8 Diagrama de actividad correspondiente al séptimo experimento.
Figure 9 Diagrama de actividad correspondiente al octavo experimento.
CAPÍTULO 2. DESCRIPTORES DE SECUENCIAS DE ENZIMAS INTEGRANDO DESCRIPTORES LIBRES DE ALINEAMIENTO
23
Figura 10 Diagrama de actividad correspondiente al noveno experimento.
Figura 11 Diagrama de actividad correspondiente al décimo experimento.
ÍNDICE
v
2.5 Implementación y ejecución del pre-procesamiento
Se utilizan las siguientes funciones:
read_csv(): para leer los ficheros de descriptores.
to_csv(): para guardar el resultado como csv.
corr(): halla la correlación entre las columnas.
del: elimina las columnas en el dataframe.
concat(): concatena los dataframe.
A parte se creó la función delColCorr(x) que tiene como pase de parámetros un dataframe y como
devolución la eliminación de la correlación entre sus columnas. A parte el código esta comentado
completo para que sea más comprensible. A continuación, se muestra el código utilizado obsérvese
que está separado porque no cabe completo en la hoja.
CAPÍTULO 2. DESCRIPTORES DE SECUENCIAS DE ENZIMAS INTEGRANDO DESCRIPTORES LIBRES DE ALINEAMIENTO
25
import pandas as pd
# leer archivos csv como pandas dataframes
pdf_Auto_Moran = pd.read_csv("/home/ftp/New_calc/GH70_Auto_Moran.csv")
pdf_Auto_NMB = pd.read_csv("/home/ftp/New_calc/GH70_Auto_NMB.csv")
pdf_GH70_Auto_Total = pd.read_csv("/home/ftp/New_calc/GH70_Auto_Total.csv")
pdf_GH70_CTD_C = pd.read_csv("/home/ftp/New_calc/GH70_CTD_C.csv")
pdf_GH70_CTD_D = pd.read_csv("/home/ftp/New_calc/GH70_CTD_D.csv")
pdf_GH70_CTD_T = pd.read_csv("/home/ftp/New_calc/GH70_CTD_T.csv")
pdf_GH70_PseudoAAC_Lamda_10 =
pd.read_csv("/home/ftp/New_calc/GH70_PseudoAAC_Lamda_10.csv")
pdf_PseudoAAC_Lamda_30 =
pd.read_csv("/home/ftp/New_calc/GH70_PseudoAAC_Lamda_30.csv")
pdf_QSO_maxlag_30_weight_0 =
pd.read_csv("/home/ftp/New_calc/GH70_QSO_maxlag_30_weight_0.1.csv")
pdf_QSOCN_maxlag_30 = pd.read_csv("/home/ftp/New_calc/GH70_QSOCN_maxlag_30.csv")
# asignando df no correlacionados y eliminación de la 1ra columna a partir del 2do df
# para despues concatenarlos y aplicarles clustering
df1 = delColCorr(pdf_Auto_Moran)
df2 = delColCorr(pdf_Auto_NMB)
del df2['name']
df3 = delColCorr(pdf_GH70_Auto_Total)
del df3['name']
df4 = delColCorr(pdf_GH70_CTD_C)
del df4['name']
df5 = delColCorr(pdf_GH70_CTD_D)
del df5['name']
df6 = delColCorr(pdf_GH70_CTD_T)
del df6['name']
df7 = delColCorr(pdf_GH70_PseudoAAC_Lamda_10)
del df7['name']
df8 = delColCorr(pdf_PseudoAAC_Lamda_30)
del df8['name']
df9 = delColCorr(pdf_QSO_maxlag_30_weight_0)
del df9['name']
df10 = delColCorr(pdf_QSOCN_maxlag_30)
del df10['name']
# concatenacion de los df
frames = [df1, df2, df3, df4, df5, df6, df7, df8, df9, df10]
updf = pd.concat(frames, axis = 1)
# Guarda datos en CSV:
updf.to_csv('result.csv', header = False)
ÍNDICE
v
2.6 Conclusiones parciales
A partir del análisis descriptivo de los datos, de diseña un procedimiento para realizar el
agrupamiento de secuencias de enzimas con vistas a probar diferentes variantes de pre-
procesamiento. La implementación es realizada en Python permite a selección de los valores de
umbral para la reducción de dimensionalidad basada en la correlación.
############# función q elimina columnas correlacionadas ###############
def delColCorr(x):
try:
corr = x.corr(method='pearson').abs() # obteniendo matriz de correlación de
Pearson con valores absolutos
df_del = x
col_corr = set()
# recorrer matriz de correlacion para eliminar columnas con correlación > a
un umbral experimental
for i in range(len(corr.columns)):
if corr.columns[i] not in col_corr: # no visitar columnas eliminada(s) en
la matriz de correlacion
for j in range(i + 1, len(corr.columns)):
if corr.columns[j] not in col_corr: # no visitar filas
eliminada(s) en la matriz de correlacion
if corr.iloc[j, i] > 0.999: # visitar solo diagonal inferior
y valores mayores al umbral en este caso se estaba trabajando con 0.999 pero cambia
según el valor de umbral a utilizar
colname = corr.columns[j] # obteniendo el nombre de la
columna a borrar
del df_del[colname] # borrando la columna del dataframe
col_corr.add(colname) # agregando columna al conjunto de
eliminadas
except:
pass
return df_del
27
CAPÍTULO 3. Resultados experimentales de agrupamiento de secuencias de
GH-70
En este capítulo se realiza el análisis de los experimentos realizados al conjunto de datos, teniendo
en cuenta la normalización o no del mismo. Se presentan los resultados de los algoritmos de
agrupamiento EM y SimpleKmeans. Se presentan los mejores resultados teniendo en cuenta la
validación del proceso de agrupamiento para estimar la calidad al agrupar las secuencias de la
familia GH-70.
3.1 Experimentos de combinación de parámetros para agrupamiento
En esta sección se muestran los diferentes parámetros para la realización de distintos experimentos
(ver Tabla 3). Estos parámetros son: el uso de PCA, normalización, reducción de descriptores
realizados a partir de la correlación e integración de descriptores. Los parámetros
REDUCCION_INTEGRACION e INTEGRACION_REDUCCION indican el orden de realización de los pasos de
reducción e integración.
Tabla 3 Combinación de parámetros para experimentos para agrupamiento.
Experimento Algoritmo Umbral PCA NORMALIZACION REDUCCION_
INTEGRACION
INTEGRACION_
REDUCCION
1 1 0,99 No No Si No
1 1 0,999 No No Si No
1 1 0,995 No No Si No
1 2 0,99 No No Si No
1 2 0,999 No No Si No
1 2 0,995 No No Si No
2 1 0,999 No Si Si Si
2 1 0,99 No Si Si Si
2 1 0,995 No Si Si Si
2 2 0,999 No Si Si Si
2 2 0,99 No Si Si Si
ÍNDICE
v
2 2 0,995 No Si Si Si
3 1 0,995 Si Si Si No
3 1 0,99 Si Si Si No
3 1 0,999 Si Si Si No
3 2 0,99 Si Si Si No
3 2 0,995 Si Si Si No
3 2 0,999 Si Si Si No
4 1 0,999 No Si Si No
4 1 0,995 No Si Si No
4 1 0,99 No Si Si No
4 2 0,999 No Si Si No
4 2 0,99 No Si Si No
4 2 0,995 No Si Si No
5 1 0,999 No Si Si Si
5 1 0,995 No Si Si Si
5 1 0,99 No Si Si Si
5 2 0,99 No Si Si Si
5 2 0,999 No Si Si Si
5 2 0,995 No Si Si Si
6 1 0,999 Si Si Si No
6 1 0,99 Si Si Si No
6 1 0,995 Si Si Si No
6 2 0,999 Si Si Si No
6 2 0,99 Si Si Si No
6 2 0,995 Si Si Si No
7 1 0,999 No No No Si
7 1 0,99 No No No Si
7 1 0,995 No No No Si
7 2 0,99 No No No Si
7 2 0,999 No No No Si
7 2 0,995 No No No Si
8 1 0,995 No Si No Si
8 1 0,999 No Si No Si
8 1 0,99 No Si No Si
8 2 0,999 No Si No Si
CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70
29
8 2 0,99 No Si No Si
8 2 0,995 No Si No Si
9 1 Si Si No No
9 2 Si Si No No
10 1 0,99 Si Si No Si
10 1 0,999 Si Si No Si
10 1 0,995 Si Si No Si
10 2 0,999 Si Si No Si
10 2 0,99 Si Si No Si
10 2 0,995 Si Si No Si
3.2 Resultados generales de experimentos de agrupamiento
Los resultados obtenidos en los experimentos diseñados para el agrupamiento se muestran en la
Tabla 4, se observa la cantidad de grupos obtenidos según el método seleccionado y los resultados
de cálculos de diferentes medidas de validación interna.
Tabla 4 Resultados del agrupamiento de secuencias e índices de validación para cada
experimento.
Experime
nto
Algorit
mo
Umbr
al
Cantidad de
clusters con EM
Overall
Similarity
Dunn Dunn-
Bezdek
Davies-
Bouldin
1 1 0.99 20 0.93394 1.5320743E-02 0.028975 5.07731
1 2 0.99 20 0.933137 1.96132E-02 0.06505 1.2234805
7 1 0.999 14 0.931547 0.009963811 0.040984 4.4659243
1 1 0.999 14 0.930327 9.9642700E-03 0.036932 4.0832005
7 2 0.99 16 0.930068 0.014288007 0.119734 1.1922874
7 2 0.999 14 0.928384 0.010210198 0.070099 1.2004145
1 2 0.999 14 0.927071 1.0977563E-02 0.065424 1.2249378
7 1 0.99 16 0.924175 0.012165051 0.028008 4.889427
7 1 0.995 16 0.921075 0.009029615 0.03979 5.6467605
7 2 0.995 16 0.912184 0.009728067 0.067627 1.2088673
1 1 0.995 8 0.910214 1.2015326E-02 0.042326 3.7331681
4 1 0.999 3 0.903832 9.2358957E-04 0.276054 2.1951544
5 1 0.999 3 0.901192 1.1268527E-03 0.303864 1.9735059
1 2 0.995 8 0.900505 1.05828E-02 0.199503 1.2333554
5 1 0.995 3 0.898654 1.0659682E-03 0.266717 1.5486636
ÍNDICE
v
4 1 0.995 2 0.888543 1.0930246E-03 0.643396 1.0527308
8 2 0.999 3 0.888376 0.002950375 0.589452 0.94075966
2 2 0.999 3 0.888376 2.9503745E-03 0.589452 0.940760
5 2 0.99 3 0.886622 5.1139700E-04 0.510646 1.0055205
5 2 0.999 3 0.885825 5.07333E-04 0.596459 0.9435965
4 2 0.999 3 0.885824 5.1182350E-04 0.596461 0.9436012
8 1 0.995 2 0.885203 0.004508719 0.677198 1.0481176
8 1 0.999 3 0.884254 0.005172538 0.334077 1.9241772
2 1 0.999 3 0.884254 5.1725376E-03 0.334077 1.924177
8 1 0.99 2 0.882638 0.005604822 0.690158 1.0477147
2 1 0.99 2 0.882638 5.6048217E-03 0.690158 1.0477147
5 2 0.995 3 0.88146 5.117093E-04 0.515705 0.9746490
8 2 0.99 2 0.881328 0.003717092 1.304274 0.6057171
2 2 0.99 2 0.881328 3.7170916E-03 1.304274 0.6057171
4 1 0.99 2 0.880395 1.2190022E-03 0.68705 1.0461843
8 2 0.995 2 0.876519 0.001698529 1.479433 0.5611602
4 2 0.99 2 0.875159 5.584672E-04 1.31044 0.59747505
5 1 0.99 3 0.875009 1.0355923E-03 0.323238 1.5845138
4 2 0.995 2 0.873979 1.0230446E-04 1.318012 0.59991777
10 1 0.99 14 0.833735 0.06531491 0.295776 1.2768627
6 1 0.999 8 0.799781 0.08756213 0.267954 1.3938254
3 1 0.995 8 0.786648 0.11817274 0.347228 1.278369
10 1 0.999 11 0.778199 0.07527399 0.309143 1.401182
10 2 0.999 11 0.761454 0.15008336 0.473972 0.98800796
10 2 0.99 14 0.760142 0.1187262 0.508288 1.0646505
2 2 0.995 2 0.756789 0.030977666 0.789558 1.1110101
2 1 0.995 2 0.755034 0.040017605 0.62567 1.2819061
6 1 0.99 6 0.752822 0.038466692 0.289143 1.2406718
3 1 0.99 6 0.733642 0.063675486 0.38152 1.3796076
3 1 0.999 5 0.732385 0.09780735 0.3371 1.391052
6 2 0.999 8 0.727959 0.1817943 0.398036 1.0116128
9 1 5 0.714032 0.050936222 0.29507 1.3835237
10 1 0.995 6 0.704598 0.051388294 0.295572 1.385302
10 2 0.995 6 0.691745 0.031244516 0.606725 1.1218752
3 2 0.99 6 0.689059 0.14344656 0.616251 1.0588212
CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70
31
6 1 0.995 5 0.683254 0.056222916 0.273337 1.3785498
3 2 0.995 8 0.66737 0.04314509 0.447469 1.160631
6 2 0.99 6 0.651398 0.06871498 0.432085 1.1189755
6 2 0.995 5 0.644091 0.14106333 0.498649 1.1196704
9 2 5 0.608796 0.15423602 0.444064 1.0779644
3 2 0.999 5 0.595541 0.12655187 0.492985 1.1249082
Para el presente trabajo, el índice de Overall similarity se asume como la principal medida a
observar para determinar la calidad del agrupamiento según las características de los datos. Como
medida interna se basa en la similitud de los pares de instancias dentro del grupo. Los mejores
resultados fueron alcanzados en los 5 primeros experimentos que se muestran en la Tabla donde se
obtuvieron los mayores valores de dicho índice.
3.3 Resultados de agrupamiento a partir de parámetros
Esta sección contiene el análisis planteado con relación a la calidad de los experimentos medida
por el índice de Overall Similarity y los parámetros descriptos en la Tabla 3.1. Los análisis se basan
en la prueba de comparación de muestras independientes de Mann-Whitney considerando como
muestras los 56 resultados experimentales. Además, se muestran árboles de decisión conformados
para medir la influencia de todos los parámetros en los resultados del mencionado índice.
Con aplicación de PCA
La Figura 12 muestra la significación menor que 0.05 de la prueba de Mann-Whitney por lo que
existen diferencias significativas entre los grupos de experimentos utilizando o no el PCA. El grupo
de experimentos que no utiliza PCA obtiene mayores valores de Overall Similarity.
ÍNDICE
v
Figura 12 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de
PCA y el valor de Overall Similarity.
Con los datos normalizados
La significación de la prueba resultó menor que 0.05 (Figura 13) por lo que existen diferencias
significativas entre los grupos de experimentos que realizan o no la normalización. El grupo de
experimentos en los que no se realiza normalización se obtienen mayores valores de Overall
Similarity.
Figura 13 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de
la normalización y el valor de Overall Similarity.
CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70
33
Con reducción basada en la correlación
La significación de la prueba (Figura 14) resultó mayor que 0.05 por lo que no existen diferencias
significativas entre los grupos de experimentos donde se realiza o no la reducción-integración.
Figura 14 Resultados del test de Mann-Whitney para medir la relación entre la aplicación
de reducción y luego integración y el valor de Overall Similarity.
Con los datos integrados y luego reducidos
La significación de la prueba (Figura 15) resultó mayor que 0.05 por lo que no existen diferencias
significativas entre los grupos de experimentos donde se realiza o no la integración-reducción.
ÍNDICE
v
Figura 15 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de
integración y luego reducción y el valor de Overall Similarity.
Con los dos tipos de algoritmos de agrupamiento
La significación de la prueba (Figura 16) resultó mayor que 0.05 por lo que no existen diferencias
significativas entre los grupos de experimentos donde se aplica un tipo u otro de algoritmo de
agrupamiento.
CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70
35
Figura 16 Resultados del test de Mann-Whitney para medir la relación entre la aplicación de
EM o K-Means y el valor de Overall Similarity.
Con los diferentes valores de umbral
La significación de la prueba de Kruskal-Wallis (Figura 17) resultó mayor que 0.05 por lo que no
existen diferencias significativas entre los grupos de experimentos donde utilizan diferentes valores
de umbral para la reducción basada en la correlación.
ÍNDICE
v
Figura 17 Resultados del test de Kruskal-Wallis para medir la relación entre los diferentes
umbrales y el valor de Overall Similarity.
Se considera que los experimentos donde no se realizó pre-procesamiento de los datos con PCA ni
normalización obtuvieron mejores resultados, por lo que, contribuyen directamente al
agrupamiento según los valores del índice Overall similarity.
El árbol de decisión construido para medir la relación entre todos los parámetros considerados y el
valor de Overall Similarity en dos niveles (menor o igual que 0.8 y mayor que 0.8) se muestran en
la Figura 18. Se observa que los experimentos en los que no se aplica PCA y tienen un umbral de
0.99 y 0.999 obtienen mejores valores de Overall Similarity. De los que aplican PCA los que
integran y luego reducen son los de mayor valor de Overall Similarity obtenido.
CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70
37
Tabla 5 Resumen del modelo
Resumen del modelo
Especificaciones Método de crecimiento CRT
Variable dependiente NivelOverallSimilaity
Variables independientes PCA, @0RMALIZACION, REDUCCION_INTEGRACION, INTEGRACION_REDUCCION, Algoritmo, Umbral
Validación Ninguna
Máxima profundidad del árbol 5
Casos mínimos en nodo padre
10
Casos mínimos en nodo hijo 5 Resultados Variables independientes
incluidas PCA, INTEGRACION_REDUCCION, Umbral, REDUCCION_INTEGRACION
Número de nodos 7
Número de nodos terminales 4
Profundidad 2
ÍNDICE
v
Figura 18 Árbol de decisión
Tabla 6 Tabla de Árbol 1 según distintos parámetros
Nodo
Menor0.8 Mayor0.8 Total
N Porcentaje N Porcentaje N Porcentaje
0 21 37.5% 35 62.5% 56 100.0% 1 2 5.6% 34 94.4% 36 64.3% 2 19 95.0% 1 5.0% 20 35.7% 3 0 0.0% 24 100.0% 24 42.9% 4 2 16.7% 10 83.3% 12 21.4% 5 14 100.0% 0 0.0% 14 25.0% 6 5 83.3% 1 16.7% 6 10.7%
CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70
39
Tabla 7 Tablas de Árbol 2 según distintos parámetros
Tabla de árbol
Nodo Categoría
pronosticada Nodo padre
Variable independiente primaria
Variable Mejora Valores de división
0 Mayor0.8 1 Mayor0.8 0 PCA .367 NO 2 Menor0.8 0 PCA .367 SI 3 Mayor0.8 1 Umbral .009 .990; .999 4 Mayor0.8 1 Umbral .009 .995 5
Menor0.8 2 INTEGRACION_REDUCCION
.004 NO
6 Menor0.8 2
INTEGRACION_REDUCCION
.004 SI
Riesgo
Estimación Error estándar
.054 .030
Clasificación
Observado
Pronosticado
Menor0.8 Mayor0.8 Porcentaje
correcto
Menor0.8 19 2 90.5% Mayor0.8 1 34 97.1% Porcentaje global 35.7% 64.3% 94.6%
3.4 Comparación de Índices de validación del agrupamiento
Con el índice de validación Overall Similarity se obtuvieron los mejores resultados en los
experimentos 1 y 7 con los valores 0.99, 0.999 de umbral de correlación para los dos algoritmos
de agrupamiento.
Con los índices Dunn y Dunn-Bezdek para valorar la fortaleza del grupo se obtuvieron los mejores
resultados en los experimentos 6, 9, 10, 3 y 8, 4, 2 respectivamente con los valores 0.999, 0.99,
0.995 de umbral de correlación en el algoritmo de agrupamiento SimpleKMeans del Weka.
Con el índice de validación Davies-Bouldin basada en la homogeneidad se obtuvieron los mejores
resultados en los experimentos 8, 4 y 2 con 0.995 y 0.99 respectivamente de umbral de correlación
en el algoritmo de agrupamiento SimpleKMeans del Weka.
La Figura 19 muestra resultados de agrupamiento de experimentos por los valores de los diferentes
índices de validación interna. Se conforman dos grupos de experimentos donde los índices de
mayor importancia en la separación son el DavisDoublin y luego DunnBezdek. Los experimentos
con mayores valores de Overall Similarity se comportan de manera similar en los demás índices.
ÍNDICE
v
Tabla 8 Clúster bietápico
Distribución de clúster
N % de combinado % del total
Clúster 1 6 10.7% 10.7%
2 50 89.3% 89.3%
Combinado 56 100.0% 100.0%
Total 56 100.0%
Tabla 9 Perfiles de clúster
Centroides
OverallSimilarity Dunn DunnBezdek
Media Desviación estándar Media
Desviación estándar Media
Clúster 1 .9252129683 .00878166929
.0114098026667
.00228378032053
.03616895883
2 .8166245968 .09670852462
.0412097205286
.05179089747284
.50707254860
Combinado .8282590652 .09740528129
.0380168721862
.04976599152236
.45661859255
Centroides
DunnBezdek DaviesBouldin
Desviación estándar Media Desviación estándar
Clúster 1 .006215163604 4.6492984000 .69701849828
2 .335227643795 1.1828770068 .33916157164
Combinado .348885020845 1.5542792989 1.14762612294
CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70
41
Figura 19 Resultados de agrupamiento de experimentos por índices de validación interna.
Luego en la Figura 20 se muestra un gráfico de agrupación de experimentos basado en el Overall
Similarity y los grupos previamente conformados con todos los índices. Los experimentos se han
etiquetado según la Tabla 3 con número de 1 a 10 que indica la combinación de normalización, uso
de PCA y los órdenes de integración y reducción, luego el umbral utilizado para la reducción basada
en la correlación y seguidamente el algoritmo empleado. Se observa que el clúster de 6
experimentos (10.7% de 56) es el que presenta Overall Similarity por encima de 0.8.
ÍNDICE
v
Figura 20 Visualización de agrupamiento de experimentos por índices de validación interna.
3.5 Mejor agrupamiento y rasgos de mayor importancia
Para la realización de los cálculos de los índices en el Software SPSS se utilizó el mejor
experimento resaltado en la Tabla 4 según el mayor Overall Similarity. Para éste se calculó el
índice de Silueta para el agrupamiento Bietápico y las distancias entre las instancias y los centroides
y entre centroides según el algoritmo QuickCluster. La Figura 21 muestra los resultados del
agrupamiento Bietápico y Tabla 11, Tabla 12, Tabla 13 los del QuickCluster.
Adicionalmente, para un experimento conveniente con una cantidad adecuada de grupos (8 grupos)
para la visualización se muestran los rasgos de mayor importancia (Anexo 1) y para el mejor
experimento se muestran los grupos de secuencias conformados con relación al rasgo de mayor
importancia en la Figura 22.
CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70
43
Tabla 10 Distribución de clúster
N % de
combinado % del total
Clúster 1 1 0.2% 0.2%
2 4 0.8% 0.8%
3 1 0.2% 0.2%
4 3 0.6% 0.6%
5 1 0.2% 0.2%
6 1 0.2% 0.2%
7 1 0.2% 0.2%
8 1 0.2% 0.2%
9 451 93.6% 93.6%
10 1 0.2% 0.2%
11 1 0.2% 0.2%
12 1 0.2% 0.2%
13 4 0.8% 0.8%
14 1 0.2% 0.2%
15 2 0.4% 0.4%
16 1 0.2% 0.2%
17 1 0.2% 0.2%
18 2 0.4% 0.4%
19 1 0.2% 0.2%
20 3 0.6% 0.6%
Combinado 482 100.0% 100.0%
Total 482 100.0%
Figura 21 Resultados de agrupamiento por el algoritmo Bietápico para el experimento de
mayor Overall Similarity.
ÍNDICE
v
Tabla 11 Distancias entre centros de clústeres finales 1
Clúster 9 10 11 12 13 14 15 16
1 275.197 222.774 123.852 171.827 117.230 74.253 151.966 83.701 2 439.350 91.109 287.157 322.942 64.150 138.863 61.986 246.952 3 374.110 211.160 244.956 238.699 157.077 174.860 185.087 210.318 4 110.451 599.623 263.601 250.426 498.229 431.490 529.395 302.871 5 433.694 95.242 279.817 329.013 66.962 131.074 52.581 243.978 6 442.018 930.470 595.513 573.714 830.341 761.266 860.445 634.981 7 39.313 529.796 194.007 184.361 427.673 361.333 458.965 232.698 8 59.676 433.767 95.934 113.633 330.960 264.700 362.346 136.297 9 491.567 155.141 152.294 388.985 322.468 420.343 194.125
10 491.567 340.130 375.508 125.161 194.355 104.438 301.586
11 155.141 340.130 98.289 236.398 173.113 268.611 46.094
12 152.294 375.508 98.289 277.647 227.111 313.612 105.767
13 388.985 125.161 236.398 277.647 99.430 68.979 197.288
14 322.468 194.355 173.113 227.111 99.430 118.096 142.015
15 420.343 104.438 268.611 313.612 68.979 118.096 231.863
16 194.125 301.586 46.094 105.767 197.288 142.015 231.863 17 452.548 85.936 299.212 342.323 79.320 151.106 68.149 262.244 18 345.270 160.092 192.321 239.737 50.009 71.379 89.282 154.092 19 176.132 665.197 329.303 313.271 563.980 496.731 594.985 368.566 20 490.140 64.939 337.309 376.939 123.124 189.795 105.889 299.748
Tabla 12 Distancias entre centros de clústeres finales 2
Clúster 17 18 19 20
1 183.038 75.193 450.455 221.438 2 61.419 101.016 614.206 92.160 3 193.430 156.006 539.979 216.311 4 561.226 454.324 66.554 598.052 5 46.510 94.848 607.873 83.792 6 892.564 786.457 266.778 928.726 7 491.236 383.925 137.748 528.712 8 394.084 286.960 234.069 431.872 9 452.548 345.270 176.132 490.140 10 85.936 160.092 665.197 64.939 11 299.212 192.321 329.303 337.309 12 342.323 239.737 313.271 376.939 13 79.320 50.009 563.980 123.124 14 151.106 71.379 496.731 189.795 15 68.149 89.282 594.985 105.889 16 262.244 154.092 368.566 299.748 17 113.608 626.719 70.571
18 113.608 520.103 157.610
19 626.719 520.103 663.348
20 70.571 157.610 663.348
CAPÍTULO 3. RESULTADOS EXPERIMENTALES DE AGRUPAMIENTO DE SECUENCIAS DE GH-70
45
Tabla 13 Número de casos en cada clúster
Clúster 1 11.000
2 9.000
3 1.000
4 12.000
5 3.000
6 13.000
7 107.000
8 36.000
9 180.000
10 1.000
11 23.000
12 4.000
13 8.000
14 1.000
15 1.000
16 53.000
17 5.000
18 3.000
19 10.000
20 1.000 Válido 482.000 Perdidos .000
ÍNDICE
v
Figura 22 Gráfico de agrupamiento por el algoritmo Bietápico para el experimento de
mayor Overall Similarity expresado en función del rasgo de mayor importancia.
3.6 Consideraciones finales del capítulo
El procedimiento basado en el pre-procesamiento de los datos considerando la integración, la
normalización y la reducción de la dimensionalidad fue utilizado para realizar los experimentos
que se presentan en este capítulo los que arrojan como resultado que el uso de PCA no es
requerido para obtener los mejores valores de Overall Similarity.
El mejor experimento tiene un umbral de 0.99, se utilizó el algoritmo EM, un valor de Overall
Similarity de 0.93394 y se obtuvieron 20 clústeres.
El agrupamiento de medidas de validación interna indica que para los experimentos de mayor
Overall Similarity el resto de las medidas se comportan de manera similar.
CONCLUSIONES
47
CONCLUSIONES
1. Teniendo en cuenta el análisis descriptivo de los datos se consideraron como alternativas
de pre-procesamiento la integración, la normalización y la reducción de la dimensionalidad
debido a que los rasgos integrados podían aportar diversas informaciones al agrupamiento
de las secuencias, a la baja varianza y amplitud de rango de varios de los rasgos
respectivamente.
2. Se propone un método de reducción por correlación alternativo a PCA como método de
reducción de la dimensionalidad, con el que se obtienen mejores resultados de Overall
Similarity.
3. Se propone un procedimiento para el agrupamiento que permite valorar diferentes
parámetros en la experimentación como son: el uso de PCA, la normalización, la
integración antes de la reducción o la reducción y luego la integración, el algoritmo de
agrupamiento a utilizar y el umbral de reducción.
4. El mejor experimento tiene un umbral de 0.99, se utilizó el algoritmo EM, arrojó un valor
de Overall Similarity de 0.93394 y se obtuvieron 20 clústeres.
RECOMENDACIONES
48
RECOMENDACIONES
1. Ampliar el estudio para descriptores de mayor dimensionalidad.
2. Mejorar la selección de los valores de umbrales.
3. Utilizar otros algoritmos de agrupamiento.
4. Valorar la utilización de Big Data según aumente la dimensionalidad de los descriptores.
BIBLIOGRAFÍA
49
BIBLIOGRAFÍA
ARCO, L., BELLO, R. & GARCIA, M. M. 2006. On Clustering Validity Measures and the Rough Set Theory. Proceedings of the Fifth Mexican International Conference on Artificial Intelligence. IEEE Computer Society.
BEZDEK, J. & PAL, N. Cluster validation with generalized Dunn's indices. In: KASABOV, N. & COGHILL, G., eds. Proceedings of the 2nd International two-stream Conference on ANNES, 1995 Piscataway, NJ. IEEE Press, 190-193.
BOROZAN, I., WATT, S. & FERRETTI, V. 2015. Integrating alignment-based and alignment-free sequence similarity measures for biological sequence classification. Bioinformatics, 31, 1396-1404.
CAO, D.-S., XU, Q.-S. & LIANG, Y.-Z. 2013. propy: a tool to generate various modes of Chou’s PseAAC. Bioinformatics, 29, 960-962.
CHOU, K.-C. 2000. Prediction of protein subcellular locations by incorporating quasi-sequence-order effect. Biochemical and biophysical research communications, 278, 477-483.
CHOU, K.-C. 2001. Prediction of Protein Cellular Attributes Using Pseudo-Amino Acid Composition. PROTEINS: Structure, Function, and Genetics, 43, 246–255.
DAVIES, D. L. & BOULDIN, D. W. 1979. A cluster separation measure. IEEE Transactions on Pattern Analysis and Machine Learning, 1, 224-227.
DAVIES, G. J. & SINNOTT, M. L. 2008. The sequence-based classifications of carbohydrate-active enzymes, sorting the diverse. Biochemical Regulars Journal Classic Papers, The Biochemical Society 1-32.
DUBCHAK, I., MUCHNIK, I., HOLBROOK, S. R. & KIM, S. H. 1995. Prediction of protein folding class using global description of amino acid sequence. Proc Natl Acad Sci U S A, 92, 8700-8704.
ÍNDICE
v
DUBCHAK, I., MUCHNIK, I., MAYOR, C., DRALYUK, I. & KIM, S. H. 1999. Recognition of a protein fold in the context of the SCOP classification. Proteins: Structure, Function, and Bioinformatics, 35, 401-407.
DUNN, J. 1974. A fuzzy relative isodata process and its use in detecting compact well-separated clusters. J. Cybernetics, 3, 32-57.
FRAGA R, M. A., MOULIS C, ESCALIER P, MOREL S, REMAUD-SIMÉON M, MONSAN P 2011a. A novel dextransucrase is produced by Leuconostoc citreum strain B/110-1-2: an isolate used for the industrial production of dextran and dextran-derivatives. J Ind Microbiol Biotechnol, 38:1499-1506.
FRAGA R, M. C., ESCALIER P, MOREL S, REMAUD-SIMÉON M, MONSAN P 2011b. Isolation of a gene from Leuconostoc citreum B/110-1-2 encoding a novel extransucrase enzyme. Current Microbiology, 62, 1260-1266.
FRAGA, R. H. 2015. Aislamiento, caracterización y expresión heteróloga del gen de una nueva dextranasacarasa de la cepa industrial de Leuconostoc sp. B/110-1-2. Tesis en opción al grado científico de Doctor en Ciencias Biológicas.
GARCÍA S, L. J., HERRERA F. 2015. Data Preprocessing in Data Mining. Switzerland: Springer International Publishing
HALL, M. A. 1999. Correlation-based Feature Selection for Machine Learning. Doctor of Philosophy, The University of Waikato.
JAIN, A. K. (2010). Data clustering: 50 years beyond K-means q. Pattern
Recognition Letters, 31(8), 651–666. https://doi.org/10.1016/j.patrec.2009.09.011
LOMBARD V, G. R. H., DRULA E, COUTINHO PM, HENRISSAT B. 2014. The Carbohydrate-active enzymes database (CAZy) in 2013. Nucleic Acids Res, 42:D490–D495.
MALAVIKA, S. & K.SELVAM 2015. Reduction of Dimensionality for High Dimensional Data using Correlation Measures. Global Journal of Pure and Applied Mathematics (GJPAM) © Research India Publications http://www.ripublication.com, 11, 107-111.
MENG, X., GANGOITI, J., BAI, Y., PIJNING, T., LEEUWEN, S. S. V. & DIJKHUIZEN, L. 2016. Structure–function relationships of family GH70 glucansucrase and 4,6-a-glucanotransferase enzymes, and their
BIBLIOGRAFÍA
51
evolutionary relationships with family GH13 enzymes. Cell. Mol. Life Sci., 73, 2681–2706.
MITRA, P., MURTHY, C. A. & PAL, S. K. 2002. Unsupervised Feature Selection Using Feature Similarity. IEEE TRANSACTIONS ON PATIERN ANALYSIS AND MACHINE INTELLIGENCE, 24.
ONG, S. A., LIN, H. H., CHEN, Y. Z., LI, Z. R. & CAO, Z. 2007. Efficacy of different protein descriptors in predicting protein functional families. BMC Bioinformatics, 8.
PÉREZ, A. A., CAÑIZARES, D. G. & MOLINA-RUIZ, R. 2018. Aplicación del modelo de programación Spark al cálculo de medidas de similitud para pares de genes. Trabajo de Diploma para optar por la Licenciatura en Ciencia de la Computación, Universidad Central "Marta Abreu" de Las Villas.
SONI, V. & JOSHI, R. 2012. A Novel Dimension Reduction Technique based on Correlation Coefficient. International Journal of Scientific & Technology Research 1.
STEINBACH, M., KARYPIS, G. & KUMAR, V. A comparison of document clustering techniques. Proceedings of KDD Workshop on Text Mining, 2000.
VINGA, S. 2014. Editorial: Alignment-free methods in computational biology. BRIEFINGS IN BIOINFORMATICS, 15, 341-342.
WEKA 2013. Data Mining Software in Java. 3.7.8 ed.: Machine Learning Group University of Waikato.
ANEXOS
52
ANEXOS
Anexo 1 Visualización de los rasgos de mayor importancia
Recommended