Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Aplicaciones interdisciplinares de la F́ısicaEstad́ıstica: Detección de palabras relevantes en
textos literarios y en secuencias de ADN.
Pedro Carpena
Departamento de F́ısica Aplicada IIUniversidad de Málaga
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Estructura de la charla
Introducción
Palabras clave en textos
Secuencias simbólicas
Palabras clave en ADN
Clustering y Complejidad
Trabajo futuro
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Introducción
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Introducción
Nuestro interés por la detección de palabras clave en textos seremonta a hace unos 10 años.
La motivación proviene del análisis de espectros energéticos desistemas cuánticos con desorden: las propiedades estad́ısticas dedichos espectros proporcionan una gran información sobre laspropiedades del sistema (conductor-aislante)
Cuando los niveles energéticos interaccionan entre śı (usualmente, serepelen), el sistema es conductor. Cuando los niveles energéticos nointeraccionan, el sistema es aislante.
Una manera sencilla de medir esta interacción entre niveles consisteen analizar las propiedades de la separación energética entre nivelesconsecutivos.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Introducción (II)
• Llamemos {e1, e2, · · · , en} a los niveles energéticos de un espectro.• Definamos εi ≡ ei+1 − ei . Una forma sencilla de medir la interacción entreniveles:
σ =
√〈ε2〉 − 〈ε〉2〈ε〉 , con 〈ε〉 =
∑n−1i=1 εi
n − 1 y 〈ε2〉 =
∑n−1i=1 ε
2i
n − 1
σ < 1 =⇒ Repulsiónσ = 1 =⇒ Sin interacción (niveles aleatorios)σ > 1 =⇒ Atracción
AtracciónRepulsiónSin interacción
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Introducción (III)
La idea era aplicar la misma medida a las palabras en untexto, para ver sus interacciones.
Nuestra idea inicial era que las palabras dentro de un textomostraran en general repulsión, porque forma parte delestilo de escritura evitar la repetición de una mismapalabra a distancia corta.
Sin embargo, nos llevamos una sorpresa, como vamos aver.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Palabras clave en textos
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
El espectro de una palabra en un texto
Para aplicar técnicas de análisis de espectros en palabras, necesitamosdefinirlos.
Para una palabra cualquiera que aparezca n veces, se determinan susposiciones en el texto (p1, p2, ..., pn), que forman su espectro.
Por ejemplo, en la siguiente frase:
A great scientist must be a good teacher and a goodresearcher
el espectro de la palabra ’a’ seŕıa (1, 6, 10)
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Ejemplos de espectros
Espectros de las palabras ‘Quixote’ y ‘but’ en las 50.000 primeras palabras de
la versión inglesa del Quijote:
0 10000 20000 30000 40000 50000
(248 occurrences)
(288 occurrences)
'but'
'Quixote'
position (words)
Frequencia similar pero estructura muy diferenteLa palabra no relevante (but) se distribuye al azar
La palabra relevante se ‘atrae’ a śı misma y forma ‘clusters’
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Propiedades generales
Estas propiedades observadas en los ejemplos son generales:
Las palabras relevantes/funcionales se ‘atraen’ entre śı y forman ‘clusters’.
Las palabras no relevantes (preposiciones, conjunciones, etc) nointeraccionan consigo mismas, y se distribuyen al azar en el texto
La razón por la que las palabras se comportan aśı tiene que ver con laforma en la que transmitimos la información.
Un concepto importante aparece con mucha frecuencia en un determinadocontexto, cuando se está hablando de él. Pero cuando se habla de otracosa, no aparece o lo hace poco. =⇒ La palabra se ‘atrae’ a śı misma yforma ’ clusters’.
Una palabra no relevante, de las que se usan para construir frases, puedeaparecer en cualquier parte sin restricción, y por eso lo hace al azar =⇒No interacciona consigo misma.
Conclusión
Si se mide adecuadamente la atracción o ‘clustering’ de una palabra en untexto, se está determinando su relevancia
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
La medida de clustering (relevancia) σ
Aplicamos la misma idea que para los espectros energéticos
Dado un espectro (p1, p2, · · · , pn) usamos las distancias entreapariciones sucesivas de una palabra: di = pi+1 − pi
Propuesta: Podemos medir el clustering de una palabra, y por tanto surelevancia, con:
σ ≡√〈d2〉 − 〈d〉2〈d〉
Con 〈d〉 =∑n−1
i=1 din − 1
y 〈d2〉 =∑n−1
i=1 d2i
n − 1Si se ordenan las palabras de un texto por su valor de σ se obtiene unranking de relevancia bastante razonable.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Renormalización de σ: σnor
Mejora 1) σ funciona, pero depende de la probabilidad de aparición pr = n/Nde la palabra en el texto. Podemos eliminarla mediante normalización:
σnor =σ√
1− prSimulación de textos aleatorios:
0 100 200 300 400 500 600 700 800 900 10000.86
0.88
0.90
0.92
0.94
0.96
0.98
1.00a)
0 200 400 600 800 1000
0.84
0.88
0.92
0.96
1.00
n (word count)
p = 0.01 p = 0.05 p = 0.1
n (word count)
La normalización elimina la dependencia con pr en textos aleatorios.
σnor = 1 indica azar; σnor > 1, clustering; σnor < 1, repulsión
PERO hay efectos de tamaño finito.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Significación estad́ıstica: la medida CMejora 2)
Podemos asociar a σnor una significación estad́ıstica.
Para ello, dada una palabra con frecuencia n, para la que se obtiene unvalor determinado de clustering σnor definimos la medida C como unz-score:
C(σnor, n) ≡σnor − 〈σnor〉(n)
sd(σnor)(n)(1)
C mide la desviación de σnor con respecto al valor esperado en un textoaleatorio (〈σnor〉(n)) en unidades de la desviación standard esperada(sd(σnor)(n)).
〈σnor〉(n) y sd(σnor)(n) se obtienen numéricamente simulando textosaleatorios.
C = 0→ Distribución aleatoriaC > 0→ Atracción (clustering)C < 0→ Repulsión
Si dos palabras tienen el mismo valor de C su clustering es estad́ısticamente
equivalente, independientemente de n.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Resultados: palabras clave en textos literarios
La medida C permite extraer palabras clave de textos literarios. Para ello,basta con analizar el texto y calcular el valor de C para cada palabra, yordenarlas en orden decreciente de C.
Ejemplo: ’On the Origin of species by means of Natural Selection’, de Ch. Darwin:
word Counts σnor C
sterility 122 6.018 58.00hybrids 152 5.14 53.04varieties 486 3.13 47.64instincts 100 4.87 40.93species 1922 1.91 39.87plants 471 2.64 36.23crossed 116 3.97 33.65bees 92 4.18 32.36island 69 4.57 32.01instinct 79 4.33 31.65pollen 121 3.66 30.73fertility 93 3.97 30.38selection 559 2.27 30.37organs 224 2.97 30.30forms 565 2.22 29.37
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Palabras clave en textos cortos
Al independizar los resultados de la frecuencia de aparición, C da buenosresultados también en textos cortos (aplicación en art́ıculos cient́ıficos,páginas web, etc).
Ejemplo: las 10 primeras palabras claves extráıdas con C de 4 entradas deWikipedia “physics”, “sound”, “speed” y “statistics”.
Palabra physics sound speed statistics```````````ranking
# de palabras3692 1306 476 3903
1 condensed speed per statistics2 philosophy pressure time population3 matter waves hour hypothesis4 applied noise h measurements5 physics an distance experimental6 mathematics level interval models7 classical intensity units sample8 mechanics energy an probability9 relativity pa km significance
10 quantum hz miles mathematical
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Algunos comentarios
Las medidas de clustering nos permiten obtener las palabrasrelevantes de un texto sin ninguna información a priori del mismo.Se basan simplemente en la distribución espacial de las palabras a lolargo del texto analizado.
El hecho de no necesitar información externa lo hace muy versátil, ylo diferencia de otros métodos de detección de palabras clave quenecesitan de un corpus externo para comparar y decidir si unapalabra es relevante o no.
Existen otros métodos de detección de palabras clave basadosfundamentalmente en medidas entrópicas (Shannon) y quefuncionan también sin información externa.
Sin embargo, resultados nuestros muy recientes muestran de formacuantitativa (precision, recall, average precision, etc) que ladetección de clustering funciona mejor.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Secuencias simbólicas
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Secuencias simbólicas
Los resultados que hemos presentado se han obtenido en textos ‘normales’.
Son secuencias simbólicas, constrúıdas con las letras del alfabeto, en lasque se transmite información.
Sin embargo, en los textos normales se ‘juega con ventaja’, porque seconocen las palabras del mensaje que se transmite, ya que existen losespacios separadores.
La idea es ver si estos métodos funcionan en secuencias simbólicas másgenerales, en las que no se conozcan las ‘palabras de mensaje’, sino queconsten de una cadena continua de śımbolos (como el ADN).
Una opción es probar textos sin espacios separadores, formando unacadena continua de śımbolos, porque es fácil comprobar los resultados.
Ejemplo: El Quijote quedaŕıa aśı:
enunlugardelamanchadecuyonombrenoquieroacordarme...
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Textos sin espacios
El método funciona también en textos ’sin comas’ (sin espacios niseñales de puntuación). Es razonable: aunque se eliminen losespacios, las distancias entre palabras relevantes y comunes siguensiendo diferentes.
Puesto que se desconocen las ‘palabras’ y sus longitudes, se tomantodos las cadenas posibles de longitud k , con k entre 2 y 35 y seordenan por sus valores de clustering.
El resultado son linajes de palabras: cada palabra contiene palabrasmás cortas y está contenida a su vez en otras palabras más largas.
Por ejemplo, la palabra quijote en El Quijote tiene dos ‘padres’(quijot y uijote) y diversos ‘hijos’, como lquijote o quijotey.
Para eliminar la redundancia, cada linaje se organiza en un gráficoaćıclico dirigido (DAG) y se eligen las palabras con mayor C de cadalinaje.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Resultados: Palabras (y conceptos!) clave
Libro: Relativity: The Special and General Theory, A. Einstein, (texto sin espacios):
word Counts σnor C
energy 23 4.29 19.10theuniverse 20 3.84 15.76project 35 2.73 11.85econtinuum 23 2.70 10.04thegravitationalfield 27 2.60 10.01sphere 16 2.8 9.79electron 13 2.92 9.54geometry 31 2.45 9.54theprincipleofrelativity 33 2.41 9.48specific 11 2.91 9.11theembankment 40 2.25 9.09square 28 2.41 8.92thetheoryofrelativity 32 2.31 8.78velocityv 17 2.60 8.63referencebody 56 2.01 8.50materialpoint 12 2.69 8.29thelorentztransformation 33 2.22 8.26fourdimensional 26 2.33 8.25
¡Detectamos correctamente palabras (y conceptos) relevantes!
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Base de datos TextKeywords
http://bioinfo2.ugr.es/TextKeywords/
Libros analizados, con y sin espacios (tomados del proyecto Gutenberg):
EspañolDon Quijote, Miguel de CervantesLa Celestina, Fernando de Rojas
InglésRelativity: the especial and general theory, Albert EinsteinThe Origin of Species by means of Natural Selection, Charles DarwinDon Quixote, Miguel de CervantesThe Odyssey, HomeroThe Jungle Book, Rudyard KiplingMoby Dick, Herman MelvilleThe Three Musketeers, Alejandro Dumas
AlemánFaust: Der Tragödie erster Teil, Johann Wolfgang von GoetheFaust: Der Tragödie zweiter Teil, Johann Wolfgang von Goethe
ItalianoLa Divina Commedia di Dante, Dante Alighieri
Lat́ınDe Bello Gallico, Julio Caesar
http://bioinfo2.ugr.es/TextKeywords/
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Palabras clave en ADN
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Secuencias de ADN
• El ADN puede considerarse como una secuencia simbólica formada por 4śımbolos (nucleótidos): A,T,C,G.
• Cuando se secuencia el ADN, se obtiene algo aśı (400 nucleótidos delcromosoma 22):
GAAACAGGCCCTGAATGGATGGAGCTCGGGGTCACTGGGCCAGCCACAGC
CCTCAGAGGACCCCATCTCTGTGCCCTCTAACCTGGGCTCCTGGCCCACA
CCCACCCAGGCTGCCTGTCAGGATCTGCTCCCTCTCCAGCCCTCAGAGCT
GCCCTATGTGGAGGGTTGGGGGTCCCAGAAAACCTGGGAGAAACGGGTCC
TGGAAACAGGGTCGGGGGGAAGGGCAGAGTGCTGGGGATGCTGGGCCCAC
GACCTCCCTGTCCCTGGGGCTTCCCCATGTCAGAGGTGAGGCTCAGAGAG
GTAAGGGCGCACCCTTTGTCTGCCCCCTCCCCAGCATGGCCAAGTCGCTC
CCAGGGTGCAGGCGATGGCAGGCCATTTGTCTCCCTCCTGGGTGAGTCTC
TGGACATGGATTCTCACATTTTTTATTTAAGAATCAGAGAGATATAAGAA
• Las secuencias tienen gran complejidad y se analizan con multitud detécnicas (bioqúımicas y computacionales).
• Para nosotros ahora lo importante es la información que contiene.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
El código genético
Tras la secuenciación del genoma humano (2001), sabemos que:
Hay 20.000-25.000 genes que codifican protéınas. La información de losgenes está escrita con el código genético.
gen 1 gen 2 gen 3 gen 4
... ...gen 1 gen 2 gen 3 gen 4
... ...
exón 1 exón 2 exón 3 exón 4
gen 1 gen 2 gen 3 gen 4
... ...
exón 1 exón 2 exón 3 exón 4
...TAGCATGCGAGGTTAC...
Met Arg Gly Tyr
Inicio
codón 1 codón 2 codón 3 codón 4
Dentro de los genes, cada tres nucleótidos (codón) codifican un aminoácido.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Evidencias de otros códigos en el ADN
Los genes codifican protéınas, y conocemos su código. Pero...
El número de genes es mucho menor que el esperado inicialmente. Se creeque ese número de genes es muy pequeño para explicar la infinidad y lacomplejidad de las tareas que realiza un ser vivo como el hombre.
Los genes cubren únicamente alrededor del 2 % del genoma completo. ¿Elotro 98 % es inútil (ADN ‘basura’)?
Con toda probabilidad, el resto de la secuencia debe contener muchainformación (‘materia oscura’ del genoma). Hay muchas evidencias:
El 57-80 % del genoma se transcribeExiste ADN no codificador pero conservado evolutivamente.Además, se necesita una gran cantidad de información adicional almargen de las protéınas que codifican los genes.
Hay otras capas de información en el genoma
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Información codificada
¿De qué información se trata?
Información reguladora: Cómo y cuando funcionan los genes ycomo interactúan
Mensajes posibles:
Promotores, represores, sitios para controlar la expresión, elementosseparadores, sitios de unión a factores de transcripción, etc y lo que noconocemos
¿Cómo está ‘escrita’ esa información?
No lo sabemos. Sin embargo, no está escrita de forma tan ‘sencilla’como el código genético: 3− 3− 3− ..., porque seŕıa fácil detectarla.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Antecedentes de predicción de función en ADN
Intentos previos de predicción de función en ADN basados en tresprincipios diferentes:
1 Sobre-abundancia de ciertas palabras (motifs).
Problema: sólo se toman en cuenta las frecuencias de las palabras,pero no su organización espacial. Además, existe mucho ADNrepetido.
2 Conservación evolutiva: las regiones conservadas en distintasespecies deben tener un papel funcional.
Problema: casi la mitad de los elementos funcionales conocidosfuera de los genes no están conservados evolutivamente.
3 Grupos de genes co-regulados: los genes que se expresan de formaparecida comparten elementos reguladores.
Problema: incertidumbre en cuanto al número de grupos posibles,naturaleza combinatoria de la regulación.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Un posible vocabulario genómico
Nosotros proponemos una estrategia para detectar las ‘palabras’ quecodifican la información contenida fuera de los genes (el ‘vocabulariogenómico’).
Podemos usar los métodos desarrollados en textos sin espacios paraencontrar las palabras de ADN con alto clustering
Por ejemplo, podemos tomar los 200 k-meros (k = 6, 7, 8) conmayor clustering en cada uno de los 24 cromosomas para definir unvocabulario.
PERO en el ADN no sabemos si el clustering está ligado a larelevancia. Hay que demostrarlo.
Lo hemos conseguido a través de experimentos deenriquecimiento
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Enriquecimiento y el vocabulario del genoma
Se conocen elementos en el ADN que son funcionales, y otros que no lo son.
Podemos comprobar si las palabras que tienen alto clustering aparecenespecialmente en regiones funcionales conocidas (exones, TFBSs) y noaparecen mucho en regiones conocidas no funcionales (ADN repetido, etc).
Tomemos una clase de elementos funcionales (como los exones en unasecuencia) o no funcionales (como los intrones) y una palabra cualquiera.
La densidad de la palabra dentro de esa clase: D in =nin
Lin
La densidad de la palabra fuera de esa clase: Dout =nout
Lout
El enriquecimiento es r =D in
Dout
r > 1: palabra enriquecida en la clase, r < 1: empobrecida, r = 1:homogénea.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
El vocabulario del genoma
El enriquecimiento de una palabra crece monótamente con su clustering sila clase escogida es funcional
El enriquecimiento de una palabra es independiente de su clustering si laclase escogida es no funcional
0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2
0
20
40
60
80
100
Wor
d en
richm
ent p
erce
ntag
e
σnor
TFBS_cisRED Chr1 N6 N7 N8
0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2
0
20
40
60
80
100
Wor
d en
richm
ent p
erce
ntag
e
σnor
Exons Chr1 N6 N7 N8
0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2
0
20
40
60
80
100
Wor
d en
richm
ent p
erce
ntag
e
σnor
Introns Chr1 N6 N7 N8
0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2
0
20
40
60
80
100
Wor
d en
richm
ent p
erce
ntag
e
σnor
RM Chr1 N6 N7 N8
0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2
0
20
40
60
80
100
Wor
d en
richm
ent p
erce
ntag
e
σnor
TFBS_cisRED Chr1 N6 N7 N8
0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2
0
20
40
60
80
100
Wor
d en
richm
ent p
erce
ntag
e
σnor
Exons Chr1 N6 N7 N8
0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2
0
20
40
60
80
100
Wor
d en
richm
ent p
erce
ntag
e
σnor
Introns Chr1 N6 N7 N8
0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2
0
20
40
60
80
100
Wor
d en
richm
ent p
erce
ntag
e
σnor
RM Chr1 N6 N7 N8
Las palabras con clustering alto se usan preferentemente en zonas
funcionales
Hay algunas excepciones: palabras con clustering alto que tienen que vercon el ADN repetido (AAAAAAA,TTTTTT,etc ). Luego volveremossobre ello.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Clustering y relevancia en ADN
La conclusión de los experimentos de enriquecimiento es que las palabrascon clustering están ı́ntimamente relacionadas con las zonas funcionalesdel genoma: son mayoritariamente ‘relevantes’.
Tenemos una posible v́ıa para encontrar el vocabulario del genoma
Aproximación simple: Para distintas longitudes de palabra (k-meros,con k = 6, 7, 8) podemos tomar las n primeras palabras ordenadaspor valor de clustering o las que superen un cierto umbral declustering y aplicar el algoritmo de los linajes para evitarredundancias.
El conjunto resultante de ‘palabras’ seŕıa un buen candidato aposible vocabulario del genoma
Estamos en ello...
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Clustering y complejidad
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Clustering y complejidad
Hasta ahora, hemos caracterizado la distribución espacial de una palabra conun número (σnor o C).Sin embargo, el clustering puede ser simple o complejo: puede ocurrir a unadeterminada escala espacial o a muchas escalas implicadas (tipo fractal).Podemos realizar un estudio algo más detallado de esta estructura espacial.Más que un número: densidad de probabilidad de distancias entre vecinos, p(d)
0 1 2 3 4 5 6 7 8 9 1010-3
10-2
10-1
100
p(d)
Distance d (units of average distance)
TATATA TGGCAT GGCGGC
0.1 1 1010-3
10-2
10-1
100
p(d)
Distance d (units of average distance)
TATATA TGGCAT GGCGGC
• Para palabras con clustering, p(d) es del tipo ‘stretched-exponential’.
• Para palabras sin clustering, p(d) es exponencial (distribución aleatoria).
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Dimensión fractalPrimer test de complejidad: dimension fractal de los espectros dbox = − d log nd log sn: número de segmentos necesarios para cubrir el espectros: tamaño de los segmentos
100 101 102 103 104 105 106
10-2
10-1
100
TAAGGCTATATAGGCGGC
box-scale (bp)box-scale (bp)
num
ber o
f box
es
box-scale (bp)100 101 102 103 104 105 106
10-2
10-1
100
-1
100 101 102 103 104 105 106
10-2
10-1
100
Encontramos tres comportamientos:1) Palabras con clustering y relevantes: dos reǵımenes fractales.2) Palabras con clustering no relevantes (excepxiones): un régimen fractal aescalas muy pequeñas.
3) Palabras sin clustering: sin régimen fractal.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Correlaciones de largo alcance
• Para cada palabra en una secuencia de ADN creamos una secuencia auxiliar S(i), con S(i) = 1si en la posición i aparece la palabra estudiada, y S(i) = 0 si no lo hace.
• Estudiamos las correlaciones de largo alcance de S(i) usando DFA, que estudia las fluctuacionesF (`) de una señal (S(i)) con respecto a su tendencia local a esa escala `. Hay correlaciones siF (`) ∝ `α
• Si α = 0,5, no hay correlaciones (azar). Si α > 0,5, hay correlaciones positivas, crecientes con α.
• Se puede calcular un α local: α(`) =d log F (`)
d log `
101 102 103 104 105
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
pendiente 0.5
log 1
0(F
(l))
escala l (bp)
AAAAAA GGCGGC TAAGGC
101 102 103 104 105
0.5
0.6
0.7
0.8
0.9
1.0
1.1
α(l)
escala l (bp)
AAAAAA GGCGGC TAAGGC
1) Las palabras con clustering no relevantes sólo tienen correlaciones a escalas muy pequeñas.2) Las palabras con clustering y relevantes poseen correlaciones a escalas intermedias (funcionales)3) Las palabras sin clustering no tienen correlaciones.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Clustering en múltiples escalas: wavelets
• Las palabras no relevantes presentan fluctuaciones de densidad sólo aescalas pequeñas.
• Las palabras relevantes presentan fluctuaciones de densidad fuertes ycomplejas a muchas escalas.
Palabra norelevanteCGTAGTσnor ' 1
Palabra re-levanteGGCGGCσnor ' 2
0 10000000 20000000 300000003
4
5
6
log(
scal
e)
0 10000000 20000000 300000003
4
5
6
log
(sca
le)
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
5
Position in the sequence (bp)
Human chromosome 22 (q-arm) (p local)/(p global)
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Conclusión
En el ADN, el clustering únicamente NO es sinónimo derelevancia, porque existen excepciones asociadas a laexistencia de ADN repetido.
PERO si el clustering además presenta una estructuraespacial compleja, entonces la palabra es relevante
Por tanto, la complejidad nos ayuda a filtrar palabras conclustering no relevantes, y nos puede servir para refinar losvocabularios genómicos.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Trabajo futuro
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Redes complejasEstamos en condiciones de encontrar las ‘palabras’ con las que se escribe la información enADN
Pero
No sabemos cómo se usan estas palabras (reglas de escritura)No sabemos qué significan (semántica)
Proponemos el uso de la Redes Complejas
Se usan para estudiar las propiedades de sistemas con muchos elementos que interaccionanentre śı de manera compleja.
Cada elemento del sistema es un nodo
Si dos nodos interaccionan, entre ellos se establece un ‘link’
Estudiando las propiedades topológicas de la red (grado de conexión, distancia entre nodos,existencia de subredes, etc) se puede entender el funcionamiento del sistema que modela.
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Tipos de redes
Proponemos analizar dos tipos de redes
Redes de palabras. Cada palabra de nuestro vocabulario es unnodo. Los links entre nodos se establecen por proximidad en lasecuencia. Nos permitirán determinar las reglas de escritura
Redes de genes. Cada gen es un nodo, y los links se establecenentre genes que compartan palabras del vocabulario. Nos permitirándeterminar las propiedades semánticas
Nos vamos a divertir...
Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro
Grupo de trabajo
Universidad de Málaga (F́ısica Aplicada II)
Pedro Carpena (email: pjcarpenauma.es)
Pedro Bernaola
Ana V. Coronado
Concepción Carretero
Universidad de Granada (Genética)
José L. Oliver
Michael Hackenberg
Guillermo Barturen
IntroducciónI1I2I3
Palabras clave en textostexto1espectros de dos palabrastexto2Medida del clusteringtexto3Significación estadística: la medida CTextos literariostexto4textos7
Secuencias simbólicassimb1Textos 'sin comas'conceptosBase de datos TextKeywords
Palabras clave en ADNsecuencias de ADNOtros códigosotros2información codificadaAntecendetes en ADNVocabulariosEnriquecimiento y el vocabulario del genomaEl vocabulario del genomarel5
Clustering y complejidadcomple1comple2comple3comple4comple5
Trabajo futuroRedesredes2