Algunos problemas computacionales en metagenómicamarper/docencia/... · Algunos problemas...

Preview:

Citation preview

Algunos problemas computacionales enmetagenómica

Francesc Rosselló

Grupo de Biología Computacional y Bioinformática (UIB)

Técnicas Inteligentes en BioinformáticaSevilla, 16 de junio de 2014

Los reyes de la Tierra?

2 / 53

Los reyes de la Tierra?

2 / 53

Aunque sólo sea por número

N. C. Kyrpides, Nature Biotech. 27 (2009), 627–6323 / 53

Los microbios controlan la atmósfera

El ciclo del carbono

Fuente: http://www.bigelow.org/foodweb/carbon_cycle.jpg4 / 53

Los verdaderos amos

6 / 53

Cómo se estudian los microbios?

Era pre-genómica: 1650-1975

7 / 53

Cómo se estudian los microbios?

Era genómica: 1975-. . .

• 1975-1980: Primeros genomas de virus secuenciados

• 1995: Primer genoma de bacteria secuenciado H. influenziæ

• Hoy: Más de 3.000 genomas completos de microorganismossecuenciados y depositados en GenBank, 12.000 proyectos desecuenciado de microorganismos en marcha sólo en el DoE.

• Básicamente, microbios en cultivos puros o (a partir de 2005)de especies dominantes en su comunidad o de genomafácilmente separable.

8 / 53

Cómo se estudian los microbios?

The new science of metagenomics. The National Academies Press (2007). Fig. 1-3

9 / 53

Cómo se estudian los microbios?

The new science of metagenomics. The National Academies Press (2007). Fig. 1-3

10 / 53

Metagenómica

La metagenómica (más allá del estudio genómico de un soloorganismo) analiza las colecciones de secuencias obtenidas demuestras microbianas ambientales

De moda porque:• La mayoría de los microbios no se pueden estudiar aislados enlaboratorios

• El estudio de las comunidades microbianas es más interesante

• Las nuevas técnicas de secuenciación producen cantidadesgrandes de secuencias de DNA a bajo coste

11 / 53

Metagenómica

Secuenciadores de nueva generación

A. Magi et al, Genes 1 (2010), 294–307

12 / 53

Oportunidades en metagenómica

13 / 53

Pasos de un estudio metagenómico

The new science of metagenomics. The National Academies Press (2007). Fig. 4-114 / 53

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

15 / 53

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

2 Muestreo• Las muestras han de ser representativas: Cálculo de curvas de

rarefacción

S. Monira, S Nakamura et al, Front. Microbiol. 2 (2011), 228

• Elección de las condiciones de muestreo

• Metadatos (para poder reciclar los datos)

15 / 53

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

2 Muestreo

3 Extracción de las macromoléculas que se usarán• Marcadores específicos

• Secuenciado shotgun aleatorio de DNA

15 / 53

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

2 Muestreo

3 Extracción de las macromoléculas que se usarán

4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )

15 / 53

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

2 Muestreo

3 Extracción de las macromoléculas que se usarán

4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )

5 Procesado computacional de las secuencias• Identificación de anomalías

• Identificación de OTU

15 / 53

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

2 Muestreo

3 Extracción de las macromoléculas que se usarán

4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )

5 Procesado computacional de las secuencias

6 Análisis filogenético o taxonómico de la muestra de secuencias

15 / 53

Pasos de un estudio metagenómico

1 Selección de la comunidad microbiana a estudiar, y estudioprevio

2 Muestreo

3 Extracción de las macromoléculas que se usarán

4 Procesado bioquímico de las macromoléculas (amplificacióncon PCR, secuenciado, . . . )

5 Procesado computacional de las secuencias

6 Análisis filogenético o taxonómico de la muestra de secuencias

7 Análisis de la comunidad

15 / 53

rRNA

X. C. Morgan, C. Huttenhower, PLoS Comput. Biol. 8 (2012), e1002808 16 / 53

rRNA

Subunidades 16S (bacterias y archaea) y 18S rRNA (hongosunicelulares)

Fuente: B. Alberts et al, Molecular biology of the cell

17 / 53

rRNA

Subunidades 16S (bacterias y archaea) y18S rRNA (hongos unicelulares):

• Largas• Ubicuas• Baratas de obtener y secuenciar• Estructura y función altamenteconservadas: buen marcadorevolutivo

18 / 53

rRNA

Subunidades 16S (bacterias y archaea) y18S rRNA (hongos unicelulares):

• Largas• Ubícuas• Baratas de obtener y secuenciar• Estructura y función altamenteconservadas: buen marcadorevolutivo

• Contienen pequeños trozosaltamente conservados: primersuniversales para PCR

• Contienen trozos muy variables:marcadores característicos de laespecie

19 / 53

rRNA

Problemas:

• Raros en el genoma (< 0.1%)• Los trozos similares dificultan el ensamblado correcto delecturas pequeñas

• No todos los rRNA se amplifican en la misma medida con losprimers universales

• Especies con diversas copias de sus genes rRNA• No se conoce un umbral fijo de similitud que separe especies• Tendencia a producirse quimeras en la PCR

20 / 53

Procesado computacional de rRNA

Etapas:

1 Filtrado

2 Eliminación de quimeras y otras anomalías

3 Formación de OTU

4 Identificación de los OTU con organismos en bases de datos

Algunos paquetes permiten llevar a cabo todo el proceso:• mothur: http://www.mothur.org

• QIIME: http://qiime.org

21 / 53

Formación de quimeras en la PCR

22 / 53

Formación de quimeras en la PCR

(Aunque la PCR de emulsión las reduce)23 / 53

Detección computacional de quimeras: Pintail

Fuente: K. E. Ashelford, et al, Appl. Environ. Microbiol. 71 (2005), 7724–773624 / 53

Detección computacional de quimeras: ChiSeqI

Fuente: A. M. Arigon, G. Perrière, M. Gouy, Biochimie 90 (2008), 609–614.25 / 53

Detección computacional de quimeras: Otros

Bellerophon T. Huber et al, Bioinformatics 20 (2004), 2317–2319

Mallard K. E. Ashelford et al, Appl Environ Microbiol. 72 (2006), 5734–5741

ChimeraSlayer B. Haas et al, Genome Res. 21 (2011), 494–504.

Uchime R. Edgar et al, Bioinformatics 27 (2011), 2194-2200.

Perseus C. Quince et al, BMC Bioinformatics 12 (2011), 38.

DECIPHER E. S. Wright et al, Appl. Environ. Microbiol 78 (2012) 717–725

...

26 / 53

Agrupamiento de secuencias en OTU

• Mediante comparación con secuencias consenso (QIIME)• Aceptando o descartando secuencias nuevas

• Recalculando los consensos

• Técnicas de aprendizaje automático supervisado (redesBayesianas, SVM)

• Mediante clustering no supervisado basado en distancias deedición

En todos los casos, el OTU se representa mediante una secuenciade consenso obtenida mediante alineamiento múltiple

27 / 53

Agrupamiento de secuencias en OTU

Clustering no supervisado: mothur

• Alineamiento múltiple con secuencias modelo de una base dedatos (SILVA)

• Clustering jerárquico UPGMA por distancias de edición• Corte manual del árbol para producir los OTU

28 / 53

Agrupamiento de secuencias en OTU

Clustering no supervisado: DBC1 Parte de diversas muestras2 Preclasificación en grupos de 90% de similitud3 Usa una combinación de distancia de edición (por alin.

múltiple) e información sobre distribución en las muestras

S. P. Preheim et al, Appl Environ Microbiol. 79 (2013), 6593–6603 29 / 53

Bases de datos

• INSDC (International Nucleotide Sequence DatabaseCollaboration, http://www.insdc.org): agrupa secuenciasanotadas de DNA de diversos repositorios. Demasiado grande,lento y no cuidado para buscar sólo rRNA

• NCBI RefSeq (http://www.ncbi.nlm.nih.gov):Nomenclatura y clasificación taxonómica de los organismos enINSDC

• RDP (Ribosomal Database Project,http://rdp.cme.msu.edu/): Clasificación filogenética de16S rRNA procariota en INSDC

• Greengenes (http://greengenes.lbl.gov/): Clasificaciónfilogenética de 16S rRNA procariota en GenBank

• SILVA (http://www.arb-silva.de): Clasificaciónfilogenética de 16S y 18S rRNA de bacterias, archaea y hongosen el European Nucleotide Archive

30 / 53

Bases de datos

• INSDC (International Nucleotide Sequence DatabaseCollaboration, http://www.insdc.org): agrupa secuenciasanotadas de DNA de diversos repositorios. Demasiado grande,lento y no cuidado para buscar sólo rRNA

• NCBI RefSeq (http://www.ncbi.nlm.nih.gov):Nomenclatura y clasificación taxonómica de los organismos enINSDC

• RDP (Ribosomal Database Project,http://rdp.cme.msu.edu/): Clasificación filogenética de16S rRNA procariota en INSDC

• Greengenes (http://greengenes.lbl.gov/): Clasificaciónfilogenética de 16S rRNA procariota en GenBank

• SILVA (http://www.arb-silva.de): Clasificaciónfilogenética de 16S y 18S rRNA de bacterias, archaea y hongosen el European Nucleotide Archive

30 / 53

Análisis taxonómico

lecturasreferenciagenómica

estadísticas referenciataxonómica

clasificaciónno-taxonómica

clasificacióntaxonómica

mapeo

asignaciónno-taxonómica

asignacióntaxonómica

31 / 53

Problema de la asignación taxonómica

Input:• Una referencia genómica S (conjunto de secuencias)

• Una referencia taxonómica T (árbol) de hojas L, cada unaetiquetada con una secuencia de S

• Un conjunto R de reads (lecturas) de rRNA

Output:• Para cada Ri ∈ R , un nodo de T que represente lo mejorposible el conjunto Mi ⊆ L de secuencias que se asignan a Ri(hits)

32 / 53

MEGAN

• Filtrado de hits relevantes:• Umbral de puntuación del alineamiento entre read y hoja con

BLASTX, absoluto y en porcentaje del máximo

• Para cada read, sólo los hits de máxima puntuación

• Sólo reads con un número mínimo de hits

• . . .

• Se asigna cada Ri al LCA del Mi obtenido de esta manera

D. Huson et al, Genome Res. 17 (2007), 377–386

33 / 53

TANGO

http://www.lsi.upc.edu/~valiente/tango/

D. Alonso-Alemany et al, Bioinformatics 30 (2014), 17–2334 / 53

Precisión y Exhaustividad

VP: Verdaderos positivos FP: Falsos positivosVN: Verdaderos negativos FN: Falsos negativos

Precisión: P =VP

VP + FP

Exhaustividad: R =VP

VP + FN

Índice F : Media armónica de P y R , F =2

1P + 1

R=

2PRP + R

35 / 53

Precisión y Exhaustividad en una asignación taxonómicaSean• k > 0 un umbral máximo de errores de alineamiento• Ri el i-ésimo read• Mi las hojas de T que contienen Ri salvo k errores• Ti el subárbol de T con raíz el LCA de Mi• Ni las hojas de Ti que no contienen Ri salvo k errores

Hojas de Ti :• VP i = Mi

• FP i = Ni

• VN i = ∅• FN i = ∅

Ti

Ni Mi

FPi VPi 36 / 53

Precisión y Exhaustividad en TANGO

Sean• Tij el subárbol de Ti con raíz en el j-ésimo nodo de Ti

• Mij las hojas Tij que contienen Ri salvo k errores• Nij las hojas Tij que no contienen Ri salvo k errores

Hojas de Ti , paracada j :• VP ij = Mij

• FP ij = Nij

• VN ij = Ni \ Nij

• FN ij = Mi \Mij

Ti

Tij

Ni Nij MijMi

VNij FPij VPij FNij

37 / 53

Evaluación de la asignación taxonómica

• La precisión de la asignación de Ri a la raíz de Tij es

Pij =|VP ij |

|VP ij |+ |FP ij |

• La exhaustividad de la asignación de Ri a la raíz de Tij es

Rij =|VP ij |

|VP ij |+ |FN ij |

• El índice F de la asignación de Ri a la raíz de Tij es

Fij =2PijRij

Pij + Rij

38 / 53

BacteriaAquificae

AquificaeAquificales

AquificaceaeAquifex

Aquifex pyrophilusHydrogenobaculum

Hydrogenobaculum acidophilumHydrogenobacter

Hydrogenobacter subterraneusHydrogenobacter thermophilusHydrogenobacter hydrogenophilus

PersephonellaPersephonella hydrogeniphilaPersephonella marinaPersephonella guaymasensis

SulfurihydrogenibiumSulfurihydrogenibium subterraneumSulfurihydrogenibium azorenseSulfurihydrogenibium yellowstonense

ThermocrinisThermocrinis albusThermocrinis ruber

HydrogenivirgaHydrogenivirga caldilitoris

P = 6/(6+ 8) = 43%R = 6/(6+ 0) = 100%

F = 60%

P = 3/(3+ 0) = 100%R = 3/(3+ 3) = 50%

F = 67%

39 / 53

Evaluación de la asignación taxonómica

• El índice F de la asignación de Ri a la raíz de Tij es

Fij =2PijRij

Pij + Rij=

2|VP ij ||FN ij |+ |FP ij |+ 2|VP ij |

• La penalización de la asignación de Ri a la raíz de Tij es

PS ij = q|FN ij ||VP ij |

+ (1− q)|FP ij ||VP ij |

Asignaremos cada Ri minimizando PS . El parámetro q ∈ [0, 1]influye en la altura de la asignaciónq = 0 Cada Ri se asigna a una hojaq = 0.5 Cada Ri se asigna a un nodo de maximiza F (Teorema)q = 1 Cada Ri se asigna al LCA de Mi

40 / 53

Protocolo de asignación taxonómica

• Aplicar una herramienta de mapeo de reads a R y T paracalcular el conjunto de hits Mi para cada Ri ∈ R

• Especificar q ∈ [0, 1]

• Para cada Ri ∈ R• Si |Mi | = 0, la salida es null• Si |Mi | = 1, la salida es la hoja en Mi• Si no, la salida son los nodos j de Ti con menor PS i,j

41 / 53

Protocolo de asignación taxonómica

TeoremaDados un conjunto Mi ⊆ L de hits y el subárbol Ti de T con raízsu LCA:• Todas las penalizaciones PSi ,j se pueden calcular en tiempototal O(|Ti |)

• Todas las penalizaciones PSi ,j se pueden calcular en tiempototal O((|Mi |) con un preprocesado (común) en tiempoO(|T |)

42 / 53

Análisis de la comunidad

• Estudio de la biodiversidad por comunidad

• Comparación de composiciones de comunidades

• Predicción de asociación de especies con metadatos

• Análisis de correlaciones para detectar grupos demicroorganismos

43 / 53

Biodiversidad

Obtenemos Ni observaciones del OTU si• Estimación de abundancias relativas

xi =Ni + 1∑i (Ni + 1)

Se puede obtener también su distribución de probabilidad (másinformativo)

P(x |N) = Dir(N + 1)

• Entropía de Shannon para estimar biodiversidad (la máspopular)

H = −∑i

xi ln(xi )

• Número efectivo de especies

neff = eH

44 / 53

Distancia UniFrac entre comunidades

La distancia más popular es UniFrac: la distancia entre lacomunidad A y la comunidad B es la fracción de ramas del árbolfilogenético o taxonómico de las que cuelgan OTU de A o de Bpero no de ambos

Similar Communities Maximally Different Communities

UniFrac Distance Measure = (------) / (------ + ------)

C. Lozupone, R. Knight, Appl. Env. Microbiol. 71 (2005), 8228–8235

45 / 53

Distancia UniFrac entre comunidades

Versiones con pesos según abundancias:

dW (A,B) =

∑i`i |pAi − pBi |∑

i`i (pAi + pBi )

d (α)(A,B) =

∑i`i (pAi + pBi )

α |pAi −p

Bi |

pAi +pB

i∑i`i (pAi + pBi )α

donde• `i : longitud del arco i

• pAi , pBi : abundancias relativas de OTU de A y B que cuelgan

de idW (A,B): C. Lozupone et al, Appl. Environ. Microbiol. 73 (2007), 1576–1585.

d(α): J. Chen et al, Bioinformatics 28 (2012), 2106–2113

46 / 53

Distancia UniFrac entre comunidades

MDS con la distancia UniFrac

¿Qué significan los ejes?

F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e56859

47 / 53

Edge PCA

Partimos de S muestras y un árbol filogenético con E arcos.

1 Para cada muestra s y cada arco e, se calcula el número dereads en s que cuelgan del arco menos el número de los que nocuelgan del arco

2 Organizamos estas diferencias como una matriz S × E : filas,muestras, columnas, arcos

3 Se aplica el PCA. (Con suerte) Los primeros vectoresprincipales explican la mayor parte de la variabilidad de lasmuestras

4 Los vectores principales son combinaciones de arcos, y sepueden visualizar/interpretar en el árbol

5 La proyección sobre los primeros vectores principales ayuda avisualizar la similitud de las muestras

F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e56859

48 / 53

Edge PCA

Microbioma vaginal:

1er vector principal → 56% devariabilidad total

2o vector principal → 24% devariabilidad total

F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e5685949 / 53

Edge PCA

F. Matsen IV, S. N. Evans, PLoS ONE 8 (2013): e5685950 / 53

Correlaciones entre grupos de microorganismos

Para cada especie xi , se estima su abundancia relativa xil en lacomunidad l :

x i = (xi1, . . . , xim)

• Usar correlación de Pearson sobre datos dependientes esincorrecto

• Se han hecho simulaciones mostrando que, en efecto, su usoen variables composiciones en metagenómica da resultadossesgados

51 / 53

SparCC

Para cada especie xi , se estima su abundancia relativa xil en lacomunidad l :

x i = (xi1, . . . , xim)

• y ij = log(x i/x j) tiene información sobre abundancias absolutas

• tij = Var(y ij)

• tij = ω2i + ω2

j − 2ρijωij donde las ω son las (co)varianzas dellog de abundancias absolutas y ρij su correlación

• Se pueden aproximar las ω si suponemos ρij ≈ 0 y muchosρij = 0 (sparse correlation), y se despejan las ρij

• Se itera eliminando los pares de especies más correlacionados

L. Friedman, E. J. Alm, PLoS Comput Biol 8 (2012), e1002687

52 / 53

Y éste era el enfoque fácil

Los problemas computacionales en metagenómica con secuenciadoshotgun son mucho más difíciles.

Lectura recomendada:• V. Kunin et al, “A Bioinformatician’s Guide to Metagenomics”.Microbiol. Mol. Biol. Rev. 72 (2008), 557–578

• Briefings in Bioinformatics, Special Issue on Bioinformaticsapproaches and tools for metagenomic analysis, 13 (6) 2012

53 / 53

Recommended