49
Práctica 1 Danaí Montalván Sorrosa Instituto de Física Instituto de Fisiología Celular UNAM

Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

  • Upload
    trinhtu

  • View
    221

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

Práctica 1

Danaí Montalván SorrosaInstituto de Física

Instituto de Fisiología CelularUNAM

Page 2: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

1. Acceda al servidor MG-RAST (http://metagenomics.anl.gov)

ANÁLISIS DE AMPLICONES

Page 3: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

2. Describa brevemente cada una de las bases de datos y herramientas bioinformáticas de anotación del MG-RAST busque en el artículo del MG-RAST y en http://press.igsb.anl.gov/mg-rast/mg-rast-for-the-impatient-readme-1st/

InterPro

Es una base de datos de familias de proteínas, dominios y sitios funcionales, cuyas propiedades identificables encontradas en proteínas conocidas pueden ser aplicadas a nuevas secuencias de proteínas para caracterizarlas funcionalmente.

IMG (Integrated Microbial Genomes)

Es un buscador de genomas y una plataforma de anotación desarrollada por el departamento de energía de Estados Unidos y el Joint Genome Institute (DOE-JGI). IMG contiene el bosquejo y los genomas microbianos completos secuenciados por el DOE-JGI integrados con otros genomas disponibles al público. Esta herramienta permite realizar análisis comparativos entre genomas microbianos considerando 3 dimensiones: genes, genomas y funciones.

Genbank

Base de datos de secuencias genéticas del NIH (NationalInstitutes of Health de Estados Unidos), en la que se encuentran a disposición del público secuencias de ADN. Está integrada por la base de datos de Japón (DNA DataBank of Japan (DDBJ)), el Laboratorio Europeo de Biología Molecular (European Molecular Biology Laboratory (EMBL)) y el GenBank del National Center for Biotechnology Information.

KEGG (Kyoto Encyclopedia of Genes and Genomes)

Colección de bases de datos en línea que tienen que ver con genomas, rutas enzimáticas y moléculas biológicas. La base de datos PATHWAY contiene redes de interacciones moleculares en la célula y variantes de las mismas para diferentes microorganismos. KEGG mantiene 5 bases de datos principales:

KEGG Atlas KEGG Pathway KEGG Genes KEGG Ligand KEGG BRITE

Page 4: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

M5NR

Es la integración de varias bases de datos de secuencias en una sola. Se puede utilizar BLAST ó BLAT para hacer una búsqueda simplemente por similaridad y permite encontrar similitudes a partir de varias bases de datos.

Patric (Pathosystems Resource Integration Center)

Es una base de datos centrada en genómica relacional y de bioinformática que constituye una herramienta para la investigación de enfermedades infecciosas. Esta base de datos contiene: bases de datos de genómica bacteriana, datos relevantes asociados al análisis genómico y una suite de herramientas computacionales y plataformas para el análisis bioinformático.

Phantome (Phage Annotation Tools and Methods)

El proyecto Phantome incluye lo siguiente: una base de datos que integra todos los genomas de fagos secuenciados (PhageSeed) y también proporciona acceso a profagos, genomas bacterianos y otros. PhageBioBike proporciona un lenguaje gráfico de programación para acceder a los datos en la base PhageSeed. El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias de ADN.

GO (Gene Ontology)

Es una iniciativa bioinformática con el fin de estandarizar la representación de los genes y de los productos génicos a lo largo de las especies y bases de datos. El proyecto proporciona un vocabulario controlado (ontologías) de términos para describir los productos génicos en función de sus procesos biológicos asociados, componentes celulares y funciones moleculares en una forma especie-independiente. Las ontologías con las que actualmente cuenta son función molecular, proceso biológico y componente celular.

eggNOG (Evolutionary genealogy of genes: Non-supervised Orthologous Groups)

Es una base de datos que contiene grupos ortólogos de genes. Estos grupos están anotados con líneas de descripción funcional (derivado de la identificación de un común denominador para los genes basado en sus propias anotaciones), con categorías funcionales.

Page 5: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

RefSeq (Reference Sequence)

Es una colección de secuencias de nucleótidos (DNA y RNA) anotadas y curadas de libre acceso así como sus productos como proteínas. La base de datos esta desarrollada por el National Center for BiotechnologyInformation (NCBI) y , a diferencia de GenBank, proporciona un solo record para cada molécula biológica natural (p.ej. DNA, RNA o proteína) para organismos como virus, bacterias y eucariontes.

KO (KEGG Orthology System)

Los mapas de rutas de referencia de KEGG, las jerarquías funcionales de BRITE y los módulos de KEGG son representados de una manera general para ser aplicable a todos los organismos. El sistema de ortología KEGG (KO), es la base para esta representación, consiste en grupos ortólogos definidos manualmente que correspondes a los nodos en las rutas KEGG, nodos de jerarquías de BRITE y los nodos de los módulos KEGG.

BLAST (Basic Local Alignment Search Tool)

Es un algoritmo para comparar secuencias biológicas primarias como las secuencias de aminoácidos ó de nucleótidos de DNA. Una búsqueda BLAST permite comparar una secuencia con una biblioteca o base de datos de secuencias e identificar secuencias que asemejan a la secuencia inicial considerando cierto umbral.

GreenGenes

Es una aplicación web que permite el acceso a los alineamientos del 16S rRNA actuales para buscar, realizar blast, probar y descargar. Los datos y las herramientas que se presentan en esta web permiten elegir sondas filogenéticamente específicas, interpretar resultados de microarreglosy alinear/anotar secuencias nuevas.

RDP (Ribosomal Database Project)

Proporciona datos relacionados con los ribosomas y servicios a la comunidad científica, incluyendo análisis de datos en línea y secuencias anotadas y alineadas de la subunidad pequeña del rRNA 16s de bacterias y arqueas.

Page 6: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

SEED

Integra secuencias de genomas disponibles al publico en una sola base de datos. Contienen anotaciones precisas y al día basadas en el concepto de subsistemas que aprovecha el agrupamiento entre genomas para anotar eficiente y precisamente genomas microbianos.

SwissProt

UniProtKB/Swiss-Prot es una sección anotada manualmente y revisada de UniProt Knowledgebase(UniProtKB). Es una base de datos de secuencias no redundantes de proteínas anotadas con una gran calidad, lo cual integra resultados experimentales, características computadas y conclusiones científicas.

UniProtKB/TreMBL

Contienen records computacionalmente analizados con gran calidad, los cuales son enriquecidos con anotación automática. Fue introducida en respuesta al incremento del flujo de datos resultante de los proyectos de genomas. La traducción de las secuencias anotadas en EMBL-Bank/GenBank/DDBJ nucleotide sequencedatabase son procesadas e ingresadas a UniProtKB/TrEMBL automáticamente.

COG (Clusters of Orthologous Groups)

Son clusters de proteínas generadas por comparación de secuencias de proteínas de genomas completos. Cada clúster contiene proteínas o grupos de parálogos de al menos tres linajes. La base de datos COG contienen tanto clustersprocariontes (COGs) como eucariontes (KOGs).

Glimmer (Gene Locator and Interpolated Markov ModelER)

Es un sistema para encontrar genes en DNA microbiano, especialmente en bacterias arqueas y virus. Glimmer utiliza modelos de Markov interpolados (IMMs) para identificar las regiones codificantes y distinguirlas del DNA no codificante. Existe una versión diferente de este programa para eucariontes.

Page 7: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias
Page 8: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

Browse

3. Describa los menús accesibles en el MG-RAST

Page 9: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

Contact

Page 10: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

Upload

Analyze

Page 11: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

Search

Download

Page 12: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

Support

Page 13: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

4. Acceda a la sección Browse

5. Seleccione un metagenoma por tipo de secuenciación de tipo Amplicones

Page 14: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

• Título del metagenoma• Visibilidad• Link

• Descripción

• Fuente de financiamiento

• Con quién contactar

• Datos adicionales en algunos casos

• Metagenomas del proyecto

6. ¿Qué datos le da la página de overview de cada muestra?

Page 15: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

7. Vaya al menu download del overview de la muestra elegida, ¿qué archivos le permite descargar? ¿En qué formato se encuentran? ¿Qué programa usaría para abrir los archivos?

Si se da click en “download Project metadata” lo que se puede descargar es un archivo que se puede abrir con programas como Excel u Origin.

Page 16: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

Si se da click en “download metagenomes” se abre una página de un servidor (FTP, File Transfer Protocol , Protocolo de Transferencia de Archivos en español) que permite acceder a los diferentes archivos generados del estudio del metagenoma en cuestión.

Page 17: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

En este caso di click en la primera carpeta que aparece:al dar click a cada archivo todos se despliegan en otra página del navegador, a excepción del archivo con extensión .gz, el cual es un archivo comprimido que necesita un programa especial para descomprimir.

Page 18: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

8. Ingrese al menú de análisis http://metagenomics.anl.gov/metagenomics.cgi?page=Analysis

9. En el menú 1 de la página de análisis seleccione: 1) Data type | Organism Abundance y seleccione las opciones (Representative Hit Classification, best hit classification, lowest comonancestor) Describa que hace cada una de las opciones. Escoja una de las opciones y justifique porqué la va a usar para esta práctica.

Opciones  Descripción  Modos posiblesde visualización de datos

Representative Hit Classification

Brinda clasificación taxonómica de hits de similitud sencilla

Barchart, Tree, Table, Heatmap, PCoA

Best hit classification Brinda clasificación taxonómica de hits con la mejor similitud

Barchart, Tree, Table, Heatmap, PCoA, Rarefaccioón

Lowest comon ancestor Reporta el ancestro común más bajo de los hits de mejor similitud

Barchart, Tree, Table, Heatmap, PCoA

Utilizaré la opción Best hit classification, para obtener la clasificación taxonómica

Page 19: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

10. Seleccione al menos 3 metagenomas de amplicones en la sección 2) Data Selection | Metagenomes | compare individually | public | amplicon. Use el menú de availablemetagenomes y paselos con las flechas de selección a selected metagenomes. Seleccione la fuente de anotación (Annotation Sources) y seleccione la(s) que considere adecuadas según el punto 2 de esta práctica.

Page 20: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

11. Genere los parámetros de búsqueda. Max e-Value cutoff, min % Identity Cutoff, Min. Alignment Length cutoff. Para darse idea de que parámetros usar puede guiarse de la descripción del punto 6. Justifique que parámetros de búsqueda utiliza.

Maxima probabiblidad de que hay una secuencia conuna mayor similitud a mi secuecnia blanco que la que esproporcionada.

El mínimo porcentaje deidentidad entre los genomasseleccionados y secuenciassBLAST existentes.

Longitud mínima de secuencias que coinciden para serconsideradas como “suficientemente alineadas”, se mideen aminoácidos (aa) para proteínas y en pares debases (bp) para bases de datos de RNA.

Elegiré él valor de 1x10-5 por que…

Elegiré él valor de 15 considerando que un primer

para PCR tiene una longitud mínima de entre 12 y 20 pares de bases.

Escogeré un valor mínimo de 70%.

Page 21: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

12. Seleccione Tabla a partir del menú 3 (Data visualization). Genere la tabla.

13. De la tabla generada. ¿Qué campos nos permite ordenar?

# de los hits únicos en las bases de datos de proteínas ó de RNA

Etiqueta del metagenoma

Base de datos de origen de los hits

Dominio Phylum Clase Abundancia

Exponente promedio de el valor e para los hits

Porcentaje promedio de identidad de los hits

Longitud promedio de alinemaiento delos hits

Page 22: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

14. Utilice el plugin Krona que aparece cuando se genera la tabla, ¿Qué se genera? ¿Cómo se interpreta? Utilice las flechas del plugin para ver las distintas muestras. Guarde imágenes de este punto.

Se obtiene un gráfico de pastel que refleja la abundancia taxonómica del metagenoma analizado, este gráfico animado permite además observar lo que cada uno de los grupos contiene al dar click en cada uno de ellos, como se observa en la siguiente página.

Page 23: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

Click en Bacteria

Click en Firmicutes

Page 24: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

Un par de ejemplos más de los gráficos de dos diferentes

metagenomas

Page 25: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

15. Seleccione generar una gráfica de barras en el menú 3 (Data visualization). Genere la gráfica

16. ¿Qué información da la gráfica generada? ¿A qué nivel taxonómico?

Se pueden obtener dos tipos de gráficas, una que tiene los datos crudos y otra con los datosnormalizados, en ambos casos se presenta la distribución de dominios en cada metagenomaanalizado, incluyendo virus y secuencias sin asignar.

Page 26: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

17. De click en la gráfica en cualquiera de las barras que pertenecen a Bacteria. ¿Qué sucede? ¿Si repite el proceso varias veces hasta donde se generan resultados?

Se obtiene lo siguiente:

• Distribución de Dominios

• Distribución de Phylum

• Distribución de Clases

• Distribución de Órdenes

• Distribución de Familias

• Distribución de Géneros

• Distribución de Especies

• Distribución de Cepas

Page 27: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias
Page 28: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias
Page 29: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias
Page 30: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

18. Seleccionar generar un árbol en la barra del menu 3 (Data visualization). Genere el árbol (tree).

19. ¿Qué opciones adicionales aparecen al momento de desplegarse el árbol?

20. ¿Qué son las leaf weights?

Se obtiene un árbol filogenéticoque puede desplegar los datospor phylum, clase, orden,familia, género, especie ó cepa,asimismo, se puede elegir entredesplegar los leaf weights comostacked bars ó como barcharts,como se muestra en la siguientepágina.

A weighted tree is a uniquelyleaf labelled tree with weightedleaves

Page 31: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

Stacked bar Barchart

Opciones que ofrece este tipo de visualización

Page 32: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

21. De click en un nodo ¿Qué pasa? ¿Que información extra se genera?

Al dar click en uno de los nodosa la derecha se despliega unaserie de gráficas de pastel queindican el número de hits de esegrupo en particular en losmetagenomas.

Page 33: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

22. Ubique un grupo único en una sola muestra y diga como llego a ubicarlo

Con la opción de stacked bar para los leaf weights sepueden observar barras de un solo color, si se da clicken el nodo, a la derecha se puede observar que lamuestra en particular sólo contiene un hit.

Page 34: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

23. Guarde una imagen del árbol.

Page 35: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

24. Seleccione generar un heatmap en la barra del menu 3 (Data visualization). Genere el heatmap.

25. ¿De qué formas se puede agrupar el heatmap?Se puede agrupar por:

• Dominios

• Phylum

• Clases

• Órdenes

• Familias

• Géneros

• Especies

• Cepas

26. ¿Es lo mismo usar datos crudos (raw) que normalizar? ¿Que usaría y porqué?

No es lo mismo utilizar datos crudos que estosnormalizados, para hacer comparaciones deabundancia relativa deben utilizarse los datosnormalizados.

Page 36: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

27. ¿Qué es clustering? ¿Que es ward, single, complete, mcquity, median, centroid?

Clustering:

Se refiere a la tarea de agrupar un set de objetos/datos detal manera que los objetos del mismo grupo (cluster) son mássimilares entre ellos que con aquellos de otros grupos.

Ward Clustering:

Es un criterio en estadísticapara el análisis jerárquico declusters. El método es el de lamínima varianza de Ward.Se minimiza la varianza totaldentro del cluster. Para elloen cada paso se encuentra elpar de clusters que da elmínimo incremento en lavarianza total del cluster.

Single Clustering:

También llamado análisis del vecino más cercano ó la distanciamás corta es un método para calcular distancias entre clustersen el clustering jerárquico. En este caso, la distancia entre dosclusters es computada como la diatancia entre los dos lementosmás cercanos entre dos clusters.

Complete Clustering:

También llamado del vecino más lejano, es otro método paracalcular distancias entre clusters. En este caso la distancia entredos clusters es computada como la máxima distancia entre unpar de objetos, uno en un cluster y el otro en otro.

Page 37: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

Ward clustering

Single clustering

29. Pruebe distintos parámetros y re-dibuje el heatmap.

Page 38: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

30. ¿Qué le dicen los árboles verticales del heatmap?

31. ¿Qué le dicen los árboles horizontales del heatmap?

Es el árbol filogenético con respecto alas diferentes clases de organismos.

Es el árbol filogenético con respecto acada metagenoma evaluado.

32. ¿Qué dicen las gráficas de caja y bigotes abajo del heatmap?

33. ¿Si agrupa el heatmap a nivel de género que observa? ¿Es lo mismo que hacerlo a otros niveles taxonómicos?

Page 39: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

34. Genere un PCoA en la barra del menu 3 (Data Visualization).

35. ¿Qué es un PCoA?

36. ¿Tiene alguna similitud con el heatmap?

37. ¿Qué se trata de responder con un PCoA? ¿Qué puede decir de la relación entre sus muestras analizadas?Es un método de clustering también.

Si existe algún tipo de agrupamiento entre las muestras, en elcaso analizado se podría pensar en la formación de 3 gruposdiferentes, marcados por los óvalos en la figura de arriba.

Es un método que explora y visualizasimilitudes y diferencias entre datos.Comienza con una matriz de similitud yasigna a cada ítem una posición en unespacio de pocas dimensiones, como unagráfica 3D.

Este método trata de encontrar los ejesprincipales de una matriz. Es un tipo de“eigenanálisis” y calcula una serie deeigenvalores y eigenvectores. Cadaeigenvalor tienen un eigenvector..

El resultado es la rotación de los datos de lamatriz, no cambia la posición de los puntoscon respecto a ellos mismos, sólo cambia elsistema de coordenadas.

Page 40: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

38. Genere una gráfica de rarefacción en la barra del menú 3 (Data Visualization).

39. ¿Qué puede decir de las muestras que compara en base a lo que ve en la gráfica?

En este ejemplo se puede observar que lamuestra 4445735.3 (color rosa) tiene la mayorabundancia de especies.

¿Qué es la diversidad alfa? ¿Cómo lo cálculaen este caso?

Se refiere a la riqueza de especies enun área.

Page 41: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

ANÁLISIS DE FUNCIONES

41. Seleccione el tipo de fuente de Anotación en Subsistemas. ¿Porqué le llaman sistemas jerárquicos de clasificación?

40. Vuelva al menú de selección de Datos (2) y seleccione ahora metagenomasWGS solamente, al menos seleccione 3. (2 Data Selection | Metagenomes | compare individually | public | WGS | available metagenomes -> )

Page 42: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

42. Seleccione un valor de corte de e-value(CutOff) %ID y longitud de alineamientos y justifique su elección, en esta vez utiliza amino ácidos.

43. Genere una gráfica de barras. Menú 3, Data visualization, barchart.

Page 43: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

44. ¿Qué obtiene? ¿Qué pasa si da click en una de las barras? ¿Se puede hacer recursivamente hasta que punto?

Se puede hacerrecursivamente hasta:

• Distribución de Dominios

• Distribución de Phylum

• Distribución de Clases

• Distribución de Órdenes

• Distribución de Familias

• Distribución de Géneros

• Distribución de Especies

Page 44: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

45. De la gráfica anterior seleccione el nivel máximo al que pueda acceder y en la parte inferior de la página seleccione el botón TO WORKBENCH.

46. En el worbench (pestaña verde entre el menu 3 y las gráficas). De click, ¿Qué puede hacer en el workbench?

Descargar el metagenoma en formato FASTA anotadosegún lo escoja en el menú de al lado.

Desplegar los datos anotadosabajo

Page 45: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

47. Genere una tabla funcional. (2 Data Visualization -> Table -> generate)

48. Ordene la tabla y encuentre la función más representada por abundancia. (ponga un valor númerico y de Intro).

Page 46: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

49. Seleccione la función más representada con un click en la última columna y luego de clicken el boton TO WORKBENCH. ¿Que obtiene de esto en el workbench?

Descargar el metagenoma en formatoFASTA anotado según lo escoja en el menúde al lado.

Desplegar los datos anotadosabajo

Page 47: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

50. Genere un Krona Graph en el menú que aparece por encima de la tabla. Identifique la función más representada

La función más representada es lade Clostridia con un 60%.

Page 48: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

51. Genere un heatmap funcional. (2. Data Visualization -> Heatmap -> generate)

52. Compare la agrupación del Heatmap por el nivel 1 hasta el nivel 3. ¿Que nivel de comparación sugiere usar?

*Nota: Si doy click a Phylum ó aDominio, lo único que aparece sonestas dos gráficas:

Page 49: Práctica 1 - Inicioweb.ecologia.unam.mx/laboratorios/genomica/wp-content/...El software PhiRAST permite la anotación rápida de genomas de fagos desde archivos fasta de secuencias

53. Del Menú 3 seleccione el botón open KEGG Mapper

54. Seleccione los mismos metagenomas en el DATA Selection con los que ha estado trabajando (los números de acceso ayudan a identificar esto rápidamente e.j. 4447970.3, 4447971.3)

*Nota: en el menú 3 no me apareceningún botón oopen KEGG Mapper