Aplicaciones interdisciplinares de la F sica Estad stica ...ugr.es/~angulo/fisicainf/Carpena.pdfLa idea era aplicar la misma medida a las palabras en un texto, para ver sus interacciones

Introducción Palabras clave en textos Secuencias simbólicas Palabras clave en ADN Clustering y complejidad Trabajo futuro

Aplicaciones interdisciplinares de la F́ısicaEstad́ıstica: Detección de palabras relevantes en

textos literarios y en secuencias de ADN.

Pedro Carpena

Departamento de F́ısica Aplicada IIUniversidad de Málaga


Estructura de la charla

Introducción

Palabras clave en textos

Secuencias simbólicas

Palabras clave en ADN

Clustering y Complejidad

Trabajo futuro


Introducción


Introducción

Nuestro interés por la detección de palabras clave en textos seremonta a hace unos 10 años.

La motivación proviene del análisis de espectros energéticos desistemas cuánticos con desorden: las propiedades estad́ısticas dedichos espectros proporcionan una gran información sobre laspropiedades del sistema (conductor-aislante)

Cuando los niveles energéticos interaccionan entre śı (usualmente, serepelen), el sistema es conductor. Cuando los niveles energéticos nointeraccionan, el sistema es aislante.

Una manera sencilla de medir esta interacción entre niveles consisteen analizar las propiedades de la separación energética entre nivelesconsecutivos.


Introducción (II)

• Llamemos {e1, e2, · · · , en} a los niveles energéticos de un espectro.• Definamos εi ≡ ei+1 − ei . Una forma sencilla de medir la interacción entreniveles:

σ =

√〈ε2〉 − 〈ε〉2〈ε〉 , con 〈ε〉 =

∑n−1i=1 εi

n − 1 y 〈ε2〉 =

∑n−1i=1 ε

2i

n − 1

σ < 1 =⇒ Repulsiónσ = 1 =⇒ Sin interacción (niveles aleatorios)σ > 1 =⇒ Atracción

AtracciónRepulsiónSin interacción


Introducción (III)

La idea era aplicar la misma medida a las palabras en untexto, para ver sus interacciones.

Nuestra idea inicial era que las palabras dentro de un textomostraran en general repulsión, porque forma parte delestilo de escritura evitar la repetición de una mismapalabra a distancia corta.

Sin embargo, nos llevamos una sorpresa, como vamos aver.


Palabras clave en textos


El espectro de una palabra en un texto

Para aplicar técnicas de análisis de espectros en palabras, necesitamosdefinirlos.

Para una palabra cualquiera que aparezca n veces, se determinan susposiciones en el texto (p1, p2, ..., pn), que forman su espectro.

Por ejemplo, en la siguiente frase:

A great scientist must be a good teacher and a goodresearcher

el espectro de la palabra ’a’ seŕıa (1, 6, 10)


Ejemplos de espectros

Espectros de las palabras ‘Quixote’ y ‘but’ en las 50.000 primeras palabras de

la versión inglesa del Quijote:

0 10000 20000 30000 40000 50000

(248 occurrences)

(288 occurrences)

'but'

'Quixote'

position (words)

Frequencia similar pero estructura muy diferenteLa palabra no relevante (but) se distribuye al azar

La palabra relevante se ‘atrae’ a śı misma y forma ‘clusters’


Propiedades generales

Estas propiedades observadas en los ejemplos son generales:

Las palabras relevantes/funcionales se ‘atraen’ entre śı y forman ‘clusters’.

Las palabras no relevantes (preposiciones, conjunciones, etc) nointeraccionan consigo mismas, y se distribuyen al azar en el texto

La razón por la que las palabras se comportan aśı tiene que ver con laforma en la que transmitimos la información.

Un concepto importante aparece con mucha frecuencia en un determinadocontexto, cuando se está hablando de él. Pero cuando se habla de otracosa, no aparece o lo hace poco. =⇒ La palabra se ‘atrae’ a śı misma yforma ’ clusters’.

Una palabra no relevante, de las que se usan para construir frases, puedeaparecer en cualquier parte sin restricción, y por eso lo hace al azar =⇒No interacciona consigo misma.

Conclusión

Si se mide adecuadamente la atracción o ‘clustering’ de una palabra en untexto, se está determinando su relevancia


La medida de clustering (relevancia) σ

Aplicamos la misma idea que para los espectros energéticos

Dado un espectro (p1, p2, · · · , pn) usamos las distancias entreapariciones sucesivas de una palabra: di = pi+1 − pi

Propuesta: Podemos medir el clustering de una palabra, y por tanto surelevancia, con:

σ ≡√〈d2〉 − 〈d〉2〈d〉

Con 〈d〉 =∑n−1

i=1 din − 1

y 〈d2〉 =∑n−1

i=1 d2i

n − 1Si se ordenan las palabras de un texto por su valor de σ se obtiene unranking de relevancia bastante razonable.


Renormalización de σ: σnor

Mejora 1) σ funciona, pero depende de la probabilidad de aparición pr = n/Nde la palabra en el texto. Podemos eliminarla mediante normalización:

σnor =σ√

1− prSimulación de textos aleatorios:

0 100 200 300 400 500 600 700 800 900 10000.86

0.88

0.90

0.92

0.94

0.96

0.98

1.00a)

0 200 400 600 800 1000

0.84

0.88

0.92

0.96

1.00

n (word count)

p = 0.01 p = 0.05 p = 0.1

n (word count)

La normalización elimina la dependencia con pr en textos aleatorios.

σnor = 1 indica azar; σnor > 1, clustering; σnor < 1, repulsión

PERO hay efectos de tamaño finito.


Significación estad́ıstica: la medida CMejora 2)

Podemos asociar a σnor una significación estad́ıstica.

Para ello, dada una palabra con frecuencia n, para la que se obtiene unvalor determinado de clustering σnor definimos la medida C como unz-score:

C(σnor, n) ≡σnor − 〈σnor〉(n)

sd(σnor)(n)(1)

C mide la desviación de σnor con respecto al valor esperado en un textoaleatorio (〈σnor〉(n)) en unidades de la desviación standard esperada(sd(σnor)(n)).

〈σnor〉(n) y sd(σnor)(n) se obtienen numéricamente simulando textosaleatorios.

C = 0→ Distribución aleatoriaC > 0→ Atracción (clustering)C < 0→ Repulsión

Si dos palabras tienen el mismo valor de C su clustering es estad́ısticamente

equivalente, independientemente de n.


Resultados: palabras clave en textos literarios

La medida C permite extraer palabras clave de textos literarios. Para ello,basta con analizar el texto y calcular el valor de C para cada palabra, yordenarlas en orden decreciente de C.

Ejemplo: ’On the Origin of species by means of Natural Selection’, de Ch. Darwin:

word Counts σnor C

sterility 122 6.018 58.00hybrids 152 5.14 53.04varieties 486 3.13 47.64instincts 100 4.87 40.93species 1922 1.91 39.87plants 471 2.64 36.23crossed 116 3.97 33.65bees 92 4.18 32.36island 69 4.57 32.01instinct 79 4.33 31.65pollen 121 3.66 30.73fertility 93 3.97 30.38selection 559 2.27 30.37organs 224 2.97 30.30forms 565 2.22 29.37


Palabras clave en textos cortos

Al independizar los resultados de la frecuencia de aparición, C da buenosresultados también en textos cortos (aplicación en art́ıculos cient́ıficos,páginas web, etc).

Ejemplo: las 10 primeras palabras claves extráıdas con C de 4 entradas deWikipedia “physics”, “sound”, “speed” y “statistics”.

Palabra physics sound speed statistics```````````ranking

# de palabras3692 1306 476 3903

1 condensed speed per statistics2 philosophy pressure time population3 matter waves hour hypothesis4 applied noise h measurements5 physics an distance experimental6 mathematics level interval models7 classical intensity units sample8 mechanics energy an probability9 relativity pa km significance

10 quantum hz miles mathematical


Algunos comentarios

Las medidas de clustering nos permiten obtener las palabrasrelevantes de un texto sin ninguna información a priori del mismo.Se basan simplemente en la distribución espacial de las palabras a lolargo del texto analizado.

El hecho de no necesitar información externa lo hace muy versátil, ylo diferencia de otros métodos de detección de palabras clave quenecesitan de un corpus externo para comparar y decidir si unapalabra es relevante o no.

Existen otros métodos de detección de palabras clave basadosfundamentalmente en medidas entrópicas (Shannon) y quefuncionan también sin información externa.

Sin embargo, resultados nuestros muy recientes muestran de formacuantitativa (precision, recall, average precision, etc) que ladetección de clustering funciona mejor.



Los resultados que hemos presentado se han obtenido en textos ‘normales’.

Son secuencias simbólicas, constrúıdas con las letras del alfabeto, en lasque se transmite información.

Sin embargo, en los textos normales se ‘juega con ventaja’, porque seconocen las palabras del mensaje que se transmite, ya que existen losespacios separadores.

La idea es ver si estos métodos funcionan en secuencias simbólicas másgenerales, en las que no se conozcan las ‘palabras de mensaje’, sino queconsten de una cadena continua de śımbolos (como el ADN).

Una opción es probar textos sin espacios separadores, formando unacadena continua de śımbolos, porque es fácil comprobar los resultados.

Ejemplo: El Quijote quedaŕıa aśı:

enunlugardelamanchadecuyonombrenoquieroacordarme...


Textos sin espacios

El método funciona también en textos ’sin comas’ (sin espacios niseñales de puntuación). Es razonable: aunque se eliminen losespacios, las distancias entre palabras relevantes y comunes siguensiendo diferentes.

Puesto que se desconocen las ‘palabras’ y sus longitudes, se tomantodos las cadenas posibles de longitud k , con k entre 2 y 35 y seordenan por sus valores de clustering.

El resultado son linajes de palabras: cada palabra contiene palabrasmás cortas y está contenida a su vez en otras palabras más largas.

Por ejemplo, la palabra quijote en El Quijote tiene dos ‘padres’(quijot y uijote) y diversos ‘hijos’, como lquijote o quijotey.

Para eliminar la redundancia, cada linaje se organiza en un gráficoaćıclico dirigido (DAG) y se eligen las palabras con mayor C de cadalinaje.


Resultados: Palabras (y conceptos!) clave

Libro: Relativity: The Special and General Theory, A. Einstein, (texto sin espacios):

word Counts σnor C

energy 23 4.29 19.10theuniverse 20 3.84 15.76project 35 2.73 11.85econtinuum 23 2.70 10.04thegravitationalfield 27 2.60 10.01sphere 16 2.8 9.79electron 13 2.92 9.54geometry 31 2.45 9.54theprincipleofrelativity 33 2.41 9.48specific 11 2.91 9.11theembankment 40 2.25 9.09square 28 2.41 8.92thetheoryofrelativity 32 2.31 8.78velocityv 17 2.60 8.63referencebody 56 2.01 8.50materialpoint 12 2.69 8.29thelorentztransformation 33 2.22 8.26fourdimensional 26 2.33 8.25

¡Detectamos correctamente palabras (y conceptos) relevantes!


Base de datos TextKeywords

http://bioinfo2.ugr.es/TextKeywords/

Libros analizados, con y sin espacios (tomados del proyecto Gutenberg):

EspañolDon Quijote, Miguel de CervantesLa Celestina, Fernando de Rojas

InglésRelativity: the especial and general theory, Albert EinsteinThe Origin of Species by means of Natural Selection, Charles DarwinDon Quixote, Miguel de CervantesThe Odyssey, HomeroThe Jungle Book, Rudyard KiplingMoby Dick, Herman MelvilleThe Three Musketeers, Alejandro Dumas

AlemánFaust: Der Tragödie erster Teil, Johann Wolfgang von GoetheFaust: Der Tragödie zweiter Teil, Johann Wolfgang von Goethe

ItalianoLa Divina Commedia di Dante, Dante Alighieri

Lat́ınDe Bello Gallico, Julio Caesar

http://bioinfo2.ugr.es/TextKeywords/


Palabras clave en ADN


Secuencias de ADN

• El ADN puede considerarse como una secuencia simbólica formada por 4śımbolos (nucleótidos): A,T,C,G.

• Cuando se secuencia el ADN, se obtiene algo aśı (400 nucleótidos delcromosoma 22):

GAAACAGGCCCTGAATGGATGGAGCTCGGGGTCACTGGGCCAGCCACAGC

CCTCAGAGGACCCCATCTCTGTGCCCTCTAACCTGGGCTCCTGGCCCACA

CCCACCCAGGCTGCCTGTCAGGATCTGCTCCCTCTCCAGCCCTCAGAGCT

GCCCTATGTGGAGGGTTGGGGGTCCCAGAAAACCTGGGAGAAACGGGTCC

TGGAAACAGGGTCGGGGGGAAGGGCAGAGTGCTGGGGATGCTGGGCCCAC

GACCTCCCTGTCCCTGGGGCTTCCCCATGTCAGAGGTGAGGCTCAGAGAG

GTAAGGGCGCACCCTTTGTCTGCCCCCTCCCCAGCATGGCCAAGTCGCTC

CCAGGGTGCAGGCGATGGCAGGCCATTTGTCTCCCTCCTGGGTGAGTCTC

TGGACATGGATTCTCACATTTTTTATTTAAGAATCAGAGAGATATAAGAA

• Las secuencias tienen gran complejidad y se analizan con multitud detécnicas (bioqúımicas y computacionales).

• Para nosotros ahora lo importante es la información que contiene.


El código genético

Tras la secuenciación del genoma humano (2001), sabemos que:

Hay 20.000-25.000 genes que codifican protéınas. La información de losgenes está escrita con el código genético.

gen 1 gen 2 gen 3 gen 4

... ...gen 1 gen 2 gen 3 gen 4

... ...

exón 1 exón 2 exón 3 exón 4

gen 1 gen 2 gen 3 gen 4

... ...

exón 1 exón 2 exón 3 exón 4

...TAGCATGCGAGGTTAC...

Met Arg Gly Tyr

Inicio

codón 1 codón 2 codón 3 codón 4

Dentro de los genes, cada tres nucleótidos (codón) codifican un aminoácido.


Evidencias de otros códigos en el ADN

Los genes codifican protéınas, y conocemos su código. Pero...

El número de genes es mucho menor que el esperado inicialmente. Se creeque ese número de genes es muy pequeño para explicar la infinidad y lacomplejidad de las tareas que realiza un ser vivo como el hombre.

Los genes cubren únicamente alrededor del 2 % del genoma completo. ¿Elotro 98 % es inútil (ADN ‘basura’)?

Con toda probabilidad, el resto de la secuencia debe contener muchainformación (‘materia oscura’ del genoma). Hay muchas evidencias:

El 57-80 % del genoma se transcribeExiste ADN no codificador pero conservado evolutivamente.Además, se necesita una gran cantidad de información adicional almargen de las protéınas que codifican los genes.

Hay otras capas de información en el genoma


Información codificada

¿De qué información se trata?

Información reguladora: Cómo y cuando funcionan los genes ycomo interactúan

Mensajes posibles:

Promotores, represores, sitios para controlar la expresión, elementosseparadores, sitios de unión a factores de transcripción, etc y lo que noconocemos

¿Cómo está ‘escrita’ esa información?

No lo sabemos. Sin embargo, no está escrita de forma tan ‘sencilla’como el código genético: 3− 3− 3− ..., porque seŕıa fácil detectarla.


Antecedentes de predicción de función en ADN

Intentos previos de predicción de función en ADN basados en tresprincipios diferentes:

1 Sobre-abundancia de ciertas palabras (motifs).

Problema: sólo se toman en cuenta las frecuencias de las palabras,pero no su organización espacial. Además, existe mucho ADNrepetido.

2 Conservación evolutiva: las regiones conservadas en distintasespecies deben tener un papel funcional.

Problema: casi la mitad de los elementos funcionales conocidosfuera de los genes no están conservados evolutivamente.

3 Grupos de genes co-regulados: los genes que se expresan de formaparecida comparten elementos reguladores.

Problema: incertidumbre en cuanto al número de grupos posibles,naturaleza combinatoria de la regulación.


Un posible vocabulario genómico

Nosotros proponemos una estrategia para detectar las ‘palabras’ quecodifican la información contenida fuera de los genes (el ‘vocabulariogenómico’).

Podemos usar los métodos desarrollados en textos sin espacios paraencontrar las palabras de ADN con alto clustering

Por ejemplo, podemos tomar los 200 k-meros (k = 6, 7, 8) conmayor clustering en cada uno de los 24 cromosomas para definir unvocabulario.

PERO en el ADN no sabemos si el clustering está ligado a larelevancia. Hay que demostrarlo.

Lo hemos conseguido a través de experimentos deenriquecimiento


Enriquecimiento y el vocabulario del genoma

Se conocen elementos en el ADN que son funcionales, y otros que no lo son.

Podemos comprobar si las palabras que tienen alto clustering aparecenespecialmente en regiones funcionales conocidas (exones, TFBSs) y noaparecen mucho en regiones conocidas no funcionales (ADN repetido, etc).

Tomemos una clase de elementos funcionales (como los exones en unasecuencia) o no funcionales (como los intrones) y una palabra cualquiera.

La densidad de la palabra dentro de esa clase: D in =nin

Lin

La densidad de la palabra fuera de esa clase: Dout =nout

Lout

El enriquecimiento es r =D in

Dout

r > 1: palabra enriquecida en la clase, r < 1: empobrecida, r = 1:homogénea.


El vocabulario del genoma

El enriquecimiento de una palabra crece monótamente con su clustering sila clase escogida es funcional

El enriquecimiento de una palabra es independiente de su clustering si laclase escogida es no funcional

0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

0

20

40

60

80

100

Wor

d en

richm

ent p

erce

ntag

e

σnor

TFBS_cisRED Chr1 N6 N7 N8

0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

0

20

40

60

80

100

Wor

d en

richm

ent p

erce

ntag

e

σnor

Exons Chr1 N6 N7 N8

0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

0

20

40

60

80

100

Wor

d en

richm

ent p

erce

ntag

e

σnor

Introns Chr1 N6 N7 N8

0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

0

20

40

60

80

100

Wor

d en

richm

ent p

erce

ntag

e

σnor

RM Chr1 N6 N7 N8

0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

0

20

40

60

80

100

Wor

d en

richm

ent p

erce

ntag

e

σnor

TFBS_cisRED Chr1 N6 N7 N8

0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

0

20

40

60

80

100

Wor

d en

richm

ent p

erce

ntag

e

σnor

Exons Chr1 N6 N7 N8

0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

0

20

40

60

80

100

Wor

d en

richm

ent p

erce

ntag

e

σnor

Introns Chr1 N6 N7 N8

0.8 1.0 1.2 1.4 1.6 1.8 2.0 2.2

0

20

40

60

80

100

Wor

d en

richm

ent p

erce

ntag

e

σnor

RM Chr1 N6 N7 N8

Las palabras con clustering alto se usan preferentemente en zonas

funcionales

Hay algunas excepciones: palabras con clustering alto que tienen que vercon el ADN repetido (AAAAAAA,TTTTTT,etc ). Luego volveremossobre ello.


Clustering y relevancia en ADN

La conclusión de los experimentos de enriquecimiento es que las palabrascon clustering están ı́ntimamente relacionadas con las zonas funcionalesdel genoma: son mayoritariamente ‘relevantes’.

Tenemos una posible v́ıa para encontrar el vocabulario del genoma

Aproximación simple: Para distintas longitudes de palabra (k-meros,con k = 6, 7, 8) podemos tomar las n primeras palabras ordenadaspor valor de clustering o las que superen un cierto umbral declustering y aplicar el algoritmo de los linajes para evitarredundancias.

El conjunto resultante de ‘palabras’ seŕıa un buen candidato aposible vocabulario del genoma

Estamos en ello...


Clustering y complejidad


Clustering y complejidad

Hasta ahora, hemos caracterizado la distribución espacial de una palabra conun número (σnor o C).Sin embargo, el clustering puede ser simple o complejo: puede ocurrir a unadeterminada escala espacial o a muchas escalas implicadas (tipo fractal).Podemos realizar un estudio algo más detallado de esta estructura espacial.Más que un número: densidad de probabilidad de distancias entre vecinos, p(d)

0 1 2 3 4 5 6 7 8 9 1010-3

10-2

10-1

100

p(d)

Distance d (units of average distance)

TATATA TGGCAT GGCGGC

0.1 1 1010-3

10-2

10-1

100

p(d)

Distance d (units of average distance)

TATATA TGGCAT GGCGGC

• Para palabras con clustering, p(d) es del tipo ‘stretched-exponential’.

• Para palabras sin clustering, p(d) es exponencial (distribución aleatoria).


Dimensión fractalPrimer test de complejidad: dimension fractal de los espectros dbox = − d log nd log sn: número de segmentos necesarios para cubrir el espectros: tamaño de los segmentos

100 101 102 103 104 105 106

10-2

10-1

100

TAAGGCTATATAGGCGGC

box-scale (bp)box-scale (bp)

num

ber o

f box

es

box-scale (bp)100 101 102 103 104 105 106

10-2

10-1

100

-1

100 101 102 103 104 105 106

10-2

10-1

100

Encontramos tres comportamientos:1) Palabras con clustering y relevantes: dos reǵımenes fractales.2) Palabras con clustering no relevantes (excepxiones): un régimen fractal aescalas muy pequeñas.

3) Palabras sin clustering: sin régimen fractal.


Correlaciones de largo alcance

• Para cada palabra en una secuencia de ADN creamos una secuencia auxiliar S(i), con S(i) = 1si en la posición i aparece la palabra estudiada, y S(i) = 0 si no lo hace.

• Estudiamos las correlaciones de largo alcance de S(i) usando DFA, que estudia las fluctuacionesF (`) de una señal (S(i)) con respecto a su tendencia local a esa escala `. Hay correlaciones siF (`) ∝ `α

• Si α = 0,5, no hay correlaciones (azar). Si α > 0,5, hay correlaciones positivas, crecientes con α.

• Se puede calcular un α local: α(`) =d log F (`)

d log `

101 102 103 104 105

-2.0

-1.5

-1.0

-0.5

0.0

0.5

1.0

1.5

pendiente 0.5

log 1

0(F

(l))

escala l (bp)

AAAAAA GGCGGC TAAGGC

101 102 103 104 105

0.5

0.6

0.7

0.8

0.9

1.0

1.1

α(l)

escala l (bp)

AAAAAA GGCGGC TAAGGC

1) Las palabras con clustering no relevantes sólo tienen correlaciones a escalas muy pequeñas.2) Las palabras con clustering y relevantes poseen correlaciones a escalas intermedias (funcionales)3) Las palabras sin clustering no tienen correlaciones.


Clustering en múltiples escalas: wavelets

• Las palabras no relevantes presentan fluctuaciones de densidad sólo aescalas pequeñas.

• Las palabras relevantes presentan fluctuaciones de densidad fuertes ycomplejas a muchas escalas.

Palabra norelevanteCGTAGTσnor ' 1

Palabra re-levanteGGCGGCσnor ' 2

0 10000000 20000000 300000003

4

5

6

log(

scal

e)

0 10000000 20000000 300000003

4

5

6

log

(sca

le)

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

Position in the sequence (bp)

Human chromosome 22 (q-arm) (p local)/(p global)


Conclusión

En el ADN, el clustering únicamente NO es sinónimo derelevancia, porque existen excepciones asociadas a laexistencia de ADN repetido.

PERO si el clustering además presenta una estructuraespacial compleja, entonces la palabra es relevante

Por tanto, la complejidad nos ayuda a filtrar palabras conclustering no relevantes, y nos puede servir para refinar losvocabularios genómicos.


Trabajo futuro


Redes complejasEstamos en condiciones de encontrar las ‘palabras’ con las que se escribe la información enADN

Pero

No sabemos cómo se usan estas palabras (reglas de escritura)No sabemos qué significan (semántica)

Proponemos el uso de la Redes Complejas

Se usan para estudiar las propiedades de sistemas con muchos elementos que interaccionanentre śı de manera compleja.

Cada elemento del sistema es un nodo

Si dos nodos interaccionan, entre ellos se establece un ‘link’

Estudiando las propiedades topológicas de la red (grado de conexión, distancia entre nodos,existencia de subredes, etc) se puede entender el funcionamiento del sistema que modela.


Tipos de redes

Proponemos analizar dos tipos de redes

Redes de palabras. Cada palabra de nuestro vocabulario es unnodo. Los links entre nodos se establecen por proximidad en lasecuencia. Nos permitirán determinar las reglas de escritura

Redes de genes. Cada gen es un nodo, y los links se establecenentre genes que compartan palabras del vocabulario. Nos permitirándeterminar las propiedades semánticas

Nos vamos a divertir...


Grupo de trabajo

Universidad de Málaga (F́ısica Aplicada II)

Pedro Carpena (email: pjcarpenauma.es)

Pedro Bernaola

Ana V. Coronado

Concepción Carretero

Universidad de Granada (Genética)

José L. Oliver

Michael Hackenberg

Guillermo Barturen

IntroducciónI1I2I3

Palabras clave en textostexto1espectros de dos palabrastexto2Medida del clusteringtexto3Significación estadística: la medida CTextos literariostexto4textos7

Secuencias simbólicassimb1Textos 'sin comas'conceptosBase de datos TextKeywords

Palabras clave en ADNsecuencias de ADNOtros códigosotros2información codificadaAntecendetes en ADNVocabulariosEnriquecimiento y el vocabulario del genomaEl vocabulario del genomarel5

Clustering y complejidadcomple1comple2comple3comple4comple5

Trabajo futuroRedesredes2

Documents

Aplicaciones interdisciplinares de la F sica Estad stica ...ugr.es/~angulo/fisicainf/Carpena.pdfLa idea era aplicar la misma medida a las palabras en un texto, para ver sus interacciones