51
Agrobiotecnología Curso 2008 Departamento de Fisiología, Biología Molecular y Celular Facultad de Ciencias Exactas y Naturales Universidad de Buenos Aires Bioinformática Patricio Yankilevich

Bio in for Ma Tic a 3

Embed Size (px)

Citation preview

Page 1: Bio in for Ma Tic a 3

AgrobiotecnologíaCurso 2008

Departamento de Fisiología, Biología Molecular y Celular

Facultad de Ciencias Exactas y Naturales

Universidad de Buenos Aires

BioinformáticaPatricio Yankilevich

Page 2: Bio in for Ma Tic a 3

Referencias

Sumario

Análisis de secuencias

Introducción ¿Qué es la Bioinformática?

Genomas, Mapas Genéticos y Librerías de ESTs en Plantas

Bases de Datos

Agrobiotecnología

Bioinformática

Análisis funcional: Plant Ontology y Microarrays

Page 3: Bio in for Ma Tic a 3

Introducción ¿Qué es la Bioinformática?

Agrobiotecnología

Bioinformática

Page 4: Bio in for Ma Tic a 3

Origen y Definición

Agrobiotecnología

Bioinformática

Introducción ¿Qué es la Bioinformática?

• La bioinformática surge como herramienta de investigación a partir del maremoto de información generada por los avances tecnológicos en el área de la biología hacia fines del siglo pasado (biotecnología).

• En la actualidad la bioinformática representa una nueva disciplina de la ciencia. Esta utiliza las matemáticas, la computación y la estadística para comprender, modelar y responder los problemas propuestos por la biología.

• La genómica y la proteómica utilizan la bioinformática como herramienta. Además, estás disciplinas se integran con la bioinformática en una nueva área de investigación llamada Biología de Sistemas, donde se crear modelos de sistemas mediante el estudio de las relaciones y las interacciones entre las diferentes elementos (ADN, ARN, Proteínas, metabolitos y otras moléculas pequeñas) de un sistema biológico.

Page 5: Bio in for Ma Tic a 3

Aéreas de investigación bioinformática

Agrobiotecnología

Bioinformática

Introducción ¿Qué es la Bioinformática?

Page 6: Bio in for Ma Tic a 3

Niveles de información y Formato de datos

Agrobiotecnología

Bioinformática

Introducción ¿Qué es la Bioinformática?

Formato Genbank

>gi|726297|gb|AAA64213.1| obesity protein MCWRPLCRFLWLWSYLSYVQAVPIQKVQDDTKTLIKTIVTRINDISHTQSVSAKQRVTGLDFIPGLHPILSLSKMDQTLAVYQQVLTSLPSQNVLQIANDLENLRDLLHLLAFSKSCSLPQTSGLQKPESLDGVLEASLYSTEVVALSRLQGSLQDILQQLDVSPEC

Formato FASTA Formato PDB

Page 7: Bio in for Ma Tic a 3

Visión general de una infraestructura bioinformática

Diseño y Desarrollo Bases de Datos• Nomenclatura / Ontología• Bibliografía• Taxonomía• Secuencias ADN-RNA y Proteínas• Genes• Estructura de proteínas• Pathways bioquímicos• Encimas• Expresión genética• Interacción• Genomas, etc

Desarrollo de herramientas para consultar y analizar las bases de datos en ServidoresAlgoritmos, Programas, Herramientas estadísticas, herramientas analíticas para predecir genes o estructuras de proteínas, crear mapas genéticos, etc.

Areas: Expression Data Analysis, Homology Modeling, Macromolecular Structure, Molecular Graphics, Pathways, Phylogeny, Proteomics, Sequence Alignment, Sequence Analysis, Structure Verification, Genomics, Metabolomics, Systems Biology, Transcriptomics, Database Searching)

•CGI, HTML•R, Bioconductor•BioPerl•XML•EMBOSS•E-utils•MySQL•Unix / Linux

Esquema de Base de Datos

Formato de datosBases de Datos Biológicas

BD Primarias

BD Secundarias

InternetDiseño y desarrollo de interfaces Estas pueden agrupar varias herramientas diferentes permitiendo a los usuarios contestar preguntas más complejas.

Distintos perfiles y niveles de usuarios• Análisis de secuencias• Organización de genes y genomas• Evolución molecular• Estructura, plegamiento y función• Interacción de Proteínas• Vías metabólicas• Regulación, Señalización• Fisiología, Células• Biología Inter-especies• Etc.

Page 8: Bio in for Ma Tic a 3

Visión de la bioinformática desde la AgrobiotecnologíaUno de los problemas más grandes del investigador, mejorador o transformador vegetal (que la bioinformática puede solucionar) es que deben disponer en forma rápida de información biológica actualizada sobre varias cuestiones al mismo tiempo:

Page 9: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Introducción ¿Qué es la Bioinformática?

Plantas modelo utilizadas en la bioinformática

Plantas ModeloLa genómica comparativa de genomas de plantas ha demostrado que la organización de los genes de las distintas especies de plantas se ha mantenido evolutivamente más conservado de lo que originalmente se pensaba (sintenia). Estos descubrimientos sugieren que la información obtenida de sistemas modelo de cultivos pueda ser utilizada para mejorar otros cultivos de interés.

Arabidopsis thaliana Oryza sativa (x2) Actualmente existen unos 45 proyectos en progreso para completar genomas de Plantas como Soja, Maíz, Café, Algodón, Tomate, Sorgo, Banana, etc..

Esta es una forrajera reconocida como un excelente modelo para la genómica de leguminosas.El genoma de M. truncatula ha demostrado estar muy conservado con los genomas de la alfalfa y de la arveja, y moderadamente conservado con el genoma de la soja.

Medicago truncatula

Este árbol de rápido crecimiento se utiliza como un modelo de la biología molecular de árboles; es el primer árbol forestal en ser secuenciado.

Plantas modelo con genoma completo

Plantas modelo con genoma en etapa de ensamblado

Populus trichocarpa (álamo)

Page 10: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Introducción ¿Qué es la Bioinformática?

Ejemplos de los primeros proyectos donde se utilizó bioinformática en la Agricultura

Obtención de variedades con resistencia a insectosGenes de Bacillus thringiensis resistes a pestes fueron trasferidos con éxito en algodón, maíz y papa. Esta nueva habilidad de las plantas para resistir el ataque de insectos se traduce en un menor uso de insecticidas y por lo tanto un incremento en la calidad nutricional de los cultivos.

Obtención de variedades con mejoras en la calidad nutricionalUn ejemplo es la transferencia de genes realizada en arroz incrementando los niveles de Vitamina A, hierro y otros nutrientes. Este trabajo puede tener un impacto profundo en Asia reduciendo los casos de ceguera y anemia causados por deficiencia de vitamina A y hierro respectivamente. Otro ejemplo son los tomates con genes de levadura que logran una maduración tardía y vida más prolongada.

Cultivos en suelos pobres y resistencia a sequíaEn este aspecto se ha progresado en el desarrollo de variedades de cereales con mayor tolerancia a suelos alcalinos, sin aluminio y metales tóxicos permitiendo cultivar en zonas de suelos pobres. Las investigaciones también han progresado en realizar variedades de cultivos que toleren mejor los momentos de sequía.

Page 11: Bio in for Ma Tic a 3

Bases de Datos

Agrobiotecnología

Bioinformàtica

Page 12: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Bases de Datos

National Center for Bioitechnology Information (NCBI, USA, http://www.ncbi.nlm.nih.gov)

Establecida en 1988 por el National Institutes of Health (NIH), el NCBI da servicio internacional de información de biología molecular: crean las bases de datos públicas, lleva a cabo la investigación en biología computacional y desarrollan software para el análisis de los datos relativos a genomas de las distintas especies.

European Bioinformatics Institute (EBI, UK, http://www.ebi.ac.uk)

Esta es una organización académica que forma parte del European Molecular Biology Laboratory (EMBL). El EMBL es una red internacional de institutos de investigación financiados por contribuciones de los diecisiete países y dedicado a la investigación en biología molecular. La EBI es un centro de investigación y servicios en bioinformática. Al igual que el NCBI, este instituto administra todo tipo de bases de datos de datos biológicos y software bioinformático.

Aunque es casi imposible mantener una lista de todas las bases de datos disponibles actualizada, ExPASy trata de mantener una lista de todas las fuentes de información para los científicos de las ciencias de vida con un interés en biológica molecular en: http://www.expasy.org/links.html.

Bases de datos biológicos más importantes para trabajar diariamente

Page 13: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Bases de Datos

• NCBI Literature Database (http://www.ncbi.nlm.nih.gov/Literature)PubMed, PubMed Central, Bookshelf, etc.

• EBI Literature Databases (www.ebi.ac.uk/Databases/literature.html)MEDLINE, CiteXplore, OMIM, European Patent Abstracts

• Open Source Biology (http://www.bios.net) Biological Innovation for Open Society (ciencia a código abierto)Pantent Lens base de datos con más de 1.500.000 patentes de las

ciencias de la vida. BioForge desarrollo de nuevas plataformas de biotecnológicas libres

de patentes. Por ej. se está desarrollando una tecnología alternativa, e igual de efectiva, a la transformación por Agrobacterium y un nuevo gene reportero GUSPlus, disponible gratuitamente para todos.

• Scirus (http://www.scirus.com)Motor de búsqueda en Internet específico para ciencia. Realiza las

búsquedas sobre más de 200 millones de sitios web específicos de ciencia como journals, universidades, empresas, etc.

Bases de datos de bibliografía

Page 14: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Bases de Datos

• AGRICOLA (http://agricola.nal.usda.gov/) (AGRICultural OnLine Access) es una base de datos de citas

bibliográficas de literatura agrícola en formato electrónico. El proyecto contiene citas desde 1970.

• AGRIS/CARIS (http://www.fao.org/agris/) Este es un sistema internacional de información de ciencias agrícolas y tecnológicas. Fue creado por la FAO en 1974 para facilitar el intercambio de información y literatura relevante a todos los aspectos de la agricultura. También podemos buscar en CARIS (Current Agricultural Research Projects), por ejemplo para ver cuáles son los países que más están investigando en soja.

• CABI (http://www.cabi.org/) CABI es una organización sin fines de lucro que proporciona conocimientos científicos e información sobre agricultura.

• Intute (http://www.intute.ac.uk/healthandlifesciences/agriculture/)Catálogo curado de recursos en internet sobre agricultura para la investigación y la educación.

Bases de datos de bibliografíaagrícola

Page 15: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Bases de Datos

• NCBI Taxonomy Browser (http://www.ncbi.nlm.nih.gov/Taxonomy/) La base de datos taxonómica del NCBI contiene los

nombres de todos los organismos que están representados en las bases de datos genéticos con al menos una secuencia de nucleótidos o de proteínas.

• IOPI (http://plantnet.rbgsyd.nsw.gov.au/iopi/iopihome.htm) Información taxonómica de plantas.

• The Tree of Life web project (http://tolweb.org) Es un esfuerzo colaborativo de biólogos de todo el mundo.

• Species 2000 (http://www.sp2000.org/)Es una federación de bases de datos que trabajan en estrecha colaboración con los usuarios y los taxonomistas. El objetivo del proyecto es crear una lista validada de todas las especies del planeta (plantas, animales, hongos y microbios).

• UniProt taxonomy (http://beta.uniprot.org/taxonomy/)Esta base de datos es mantenida por el grupo UniProt. Integra los datos taxonomicos recopilados en la base de datos NCBI y datos específicos referentes a UniProt Knowledgebase.

Bases de datos taxonómicas

Page 16: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Bases de Datos

Bases de datos de secuencias de nucleótidos

• The International Nucleotide Sequence Database Collaboration (BD primaria)

Esta colaboración es una operación conjunta de: EMBL-Bank en el European Bioinformatics Institute (EBI).

DDBJ (DNA Data Bank of Japan).

GenBank en el National Center of Biotechnology Information (NCBI).

Las tres bases de datos: EMBL-Bank, DDBJ y GenBank son sincronizadas diariamente y en ellas se encuentra anotada la colección de todas las secuencias de ADN públicas.

Nota: Dado que cualquier persona puede realizar una anotación en estas bases de datos, existen gran cantidad de secuencias redundantes. Y lo que es más importante, las secuencias depositadas no son datos curados!

• Existen bases de datos de secuencias cuya anotación si ha sido revisada por un grupo de curadores. Por ejemplo:RefSeq (NCBI) accesible desde Entrez Gene.

• UniGene (http://www.ncbi.nlm.nih.gov/UniGene) (BD secundaria)

Resuelve la redundancia haciendo un agrupamiento de las secuencias expresadas (ESTs + mRNA). Cada cluster representa un gen y es útil para gene discovery. Los datos provienen de GenBank.

Page 17: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Bases de Datos

Bases de datos de proteínas Es la base de datos de información sobre proteínas más

grande del mundo. Se trata de un repositorio central de secuencias y funciones de proteínas creada mediante la unión de la información contenida en Swiss-Prot, TrEMBL, y PIR.

UniProt The Universal Protein Resource(http://beta.uniprot.org/)

InterPro (http://www.ebi.ac.uk/interpro/)Esta es una base de datos de familias de proteínas, dominios, repeticiones y motivos funcionales. Estas características identificables que se encuentran en las proteínas conocidas se pueden aplicar a las nuevas secuencias de proteínas por medio del programa de comparación de secuencias InterProScan.

ENZYME (http://www.expasy.org/enzyme/)Este es un repositorio de información relativo a la nomenclatura de las enzimas. Aquí se describe cada tipo de enzima que ha sido caracterizada y a la que se le ha asignado un número CE (Comisión de Enzimas). Por ej. EC 3.6.3.52 Chloroplast protein-transporting ATPase

PDB (http://www.rcsb.org/pdb)Protein Data Bank (PDB) es la base de datos estructural más importante con más de 50.000 estructuras 3-D de proteínas.

Page 18: Bio in for Ma Tic a 3

Gramene (http://www.gramene.org) Este es un repositorio de datos curados para

realizar análisis comparativos de genomas de gramíneas, centrado en el genoma del arroz.

Agrobiotecnología

Bioinformática

Bases de Datos

Bases de datos genómicos de plantas

Bases de datos genómicos reúnen toda la información disponible de un determinado organismo o grupo de organismos en un único lugar. Las bases de datos de genómicos de plantas más conocidas son:

The Legume Information System (http://www.comparative-legumes.org)

Esta es una base de datos que integra información a nivel genético y molecular de varias especies de legumbres. Permite hacer comparaciones entre especies a nivel genómico o transcripcional.

TAIR The Arabidopsis Information Resource (http://www.arabidopsis.org/)

MaizeGDB (http://www.maizegdb.org/)

Page 19: Bio in for Ma Tic a 3

Arroz Arroz silvestre

Tomado de: Liang, C. et al. Nucl. Acids Res. 2008 36:D947-D953

Una región del mapas genéticos de arroz y maíz relacionando genes en CMAP

Organización conceptual de datos en Gramene

Trigo Cebada

Centeno Sorgo

mijo foxtail mijo pearl

Avena Maíz

Arbol del gene de arroz bhlh90 (parcial) mostrando genes ortólogos entre arroz, maíz, A. thaliana y el álamo

Page 20: Bio in for Ma Tic a 3

Organización conceptual de datos en

Herramientas visuales de búsqueda

Datos Transcriptomicos

Mapas de genomas

Datos Genómicos

Organización de los datos

Page 21: Bio in for Ma Tic a 3

Genomas, Mapas Genéticos y Librerías de ESTs en Plantas

Agrobiotecnología

Bioinformática

Page 22: Bio in for Ma Tic a 3

NCBI Proyectos Genoma (http://www.ncbi.nlm.nih.gov/Genomes/)El portal Entrez Genome Proyect dentro del NCBI es una base de datos que recopila todos los proyectos de secuenciación de genomas completos e incompletos (en ejecución), en etapa de ensamblado o siendo anotados, y los proyectos de mapeo de los organismos celulares.

Agrobiotecnología

Bioinformática

Genomas, Mapas Genéticos y Librerías de ESTs en Plantas

Genomas de plantas

NCBI Genomas Completos (http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome)La base de datos de genomas proporciona acceso a una gran variedad de genomas, cromosomas completos, con mapas de contigs, mapas genéticos y mapas físicos. La base de datos está organizada en seis grandes grupos de organismos: Archaea, Bacterias, Eukaryotae, Virus, Viroides y Plásmidos. Incluye cromosomas completos, orgánulos y plásmidos, así como proyectos genoma ensamblados versión borrador.

Page 23: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Genomas, Mapas Genéticos y Librerías de ESTs en Plantas

Mapas de genomas

¿Qué es un mapa de genoma? Un mapa de genoma es un conjunto de marcadores conocidos con posiciones relativas. Un marcador puede ser cualquier elemento genómico con una secuencia o propiedad que puede ser identificado unívocamente. Existen marcadores de formas diferentes, los no polimórficos como los STS (Sequence Tagged Sites) son secuencias cortas (200 a 500 pares bases) que se encuentran una única vez en un genoma y cuya ubicación y secuencia se conocen; los polimórficos como los microsatélites (short tandem repeats – STR), los SNPs (single nucleotide polymorphism ), AFLPs (Amplified Fragment Length Polymorphism), RFLP (Restriction Fragment Length Polymorphism), entre otros, además de actuar como sitios de ubicación dentro del genoma sirven para diferenciar entre los individuos. Los mapas de genomas se dividen en dos grandes categorías: los Mapas genéticos se construyen mediante la evaluación de los genotipos de un conjunto de marcadores polimórficos, o bien Mapas físicos cuya construcción se realiza con ambos tipos de marcadores.

Page 24: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Genomas, Mapas Genéticos y Librerías de ESTs en Plantas

Mapas de genomas

Los Mapas Físicos tiene una escala absoluta e invariable medida en pares de bases, que define la distancia física entre los marcadores. Dos marcadores pueden estar muy cerca genéticamente (se produce muy poca recombinación entre ellos) pero muy alejados físicamente. Si un rasgo o enfermedad se localiza en un mapa físico entre dos marcadores moleculares es importante para determinar el tasa de recombinación en toda la región, para poder seleccionar adecuadamente un grupo de marcadores para detectar una asociación genética. En cambio, si en un mapa genético se marca un rasgo o enfermedad entre dos marcadores moleculares, es útil saber si la distancia representa el 1 kb, 1Mb o más aún, para definir el número probable de genes o regiones reguladoras en ese lugar.

Los Mapas Genéticos se construyen mediante la evaluación de los genotipos de un conjunto de marcadores polimórficos en un grupo de individuos relacionados. Estos datos de mapeo se analizan de paquetes de software, tales como MapMaker que construyen el mapa genético observando la frecuencia con qué los alelos en dos marcadores cualesquiera son heredados juntos. Cuanto más cerca están los marcadores, es menos probable que un evento de recombinación separe los alelos, y el más probable que se hereden juntos. En estos mapas la distancia entre los marcadores no es unidad física, sino que es una medida de la frecuencia de recombinación entre estos dos marcadores. La distancia entre dos marcadores se mide como 1 centimorgan (CM) si ambos marcadores están separados por recombinación en el 1% de ocasiones.

Page 25: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Genomas, Mapas Genéticos y Librerías de ESTs en Plantas

Navegador de mapas genómicos

Los navegadores de mapas genéticoss nos permiten tener una vista interactiva de la secuencia y de las anotaciones realizadas sobre un genoma particular.

NCBI Map Viewer (http://www.ncbi.nlm.nih.gov/mapview/)Esta herramienta proporciona distintos modos de navegación para un subconjunto de genomas. Map Viewer permite ver y buscar en el genoma completo de un organismo, mostrar su mapa de cromosomas y hacer zoom en forma progresiva hacia mayores niveles de detalle, hasta poder visualizar la secuencia de una región de interés.

Page 26: Bio in for Ma Tic a 3

NCBI Plant Genome Central – Organización de la información (www.ncbi.nlm.nih.gov/genomes/PLANTS/PlantList.html)

Mapas de Genomas

Arroz Arabidopsis Maiz (en progreso)

GenomasPlantas a las que se le secuenció completamente el ADN nuclear, mitocondrial y del cloroplasto.

Librerías de EST (Transcriptoma)

Mapas Físicos (totalidad de la secuencia) Mapas Genéticos (marcadores)

RFLPsAFLPsQTLsSNPsSSR Etc..

ClonesSSRsContigs Etc..

Unidad: CMUnidad: bandas o base-pairs

Se toman muestras de distintos tejidos y etapas de desarrollo

Se aísla Poly(A) mRNA y se produce cDNA para ser secuenciado

Express Sequence Tag

Page 27: Bio in for Ma Tic a 3

NCBI Plant Genome Central – Organización de las herramientas (www.ncbi.nlm.nih.gov/genomes/PLANTS/PlantList.html)

Mapea de Genomas

Arroz Arabidopsis Maiz (en progreso)

GenomasPlantas a las que se le secuenció completamente el ADN nuclear, mitocondrial y del cloroplasto.

Mapas Físicos (totalidad de la secuencia) Mapas Genéticos (marcadores)

RFLPsAFLPsQTLsSNPsSSR Etc..

ClonesSSRsContigs Etc..

Unidad: CMUnidad: bandas o base-pairs

Librerías de EST (Transcriptoma)

Se toman muestras de distintos tejidos y etapas de desarrollo

Se aísla Poly(A) mRNA y se produce cDNA para ser secuenciado

Express Sequence Tag

Buscador multi-especies en mapas genéticos de plantas permite buscar un marcador determinado en todos los mapas genéticos de plantas disponibles con una sola búsqueda.

BLAST personalizado de genoma de plantas La base de datos BLAST incluye tres conjuntos de datos: •Secuencias nucleótidos derivadas de GenBank utilizadas en los mapas genéticos como por ejemplo: Avena sativa (avena), Glycine max (soja), Hordeum vulgare (cebada), Oryza sativa (arroz), Solanum Lycopersicum (tomate), Triticum aestivum (trigo ) o Zea mays (maíz).

• Las dos colecciones de contigs desarrollado por el chino se esfuerza WGS

• Todo el material genómico de los genomas de Arabidopsis thaliana y Oryza sativa.

PlantEST BLAST Este trabaja sobre una colección de base de datos BLAST específica por cada organismo compuesta por los ESTs de las plantas con más de 50.000 ESTs anotados.

Page 28: Bio in for Ma Tic a 3

Análisis de secuencias

Agrobiotecnología

Bioinformática

Page 29: Bio in for Ma Tic a 3

Paradigma de Darwin

Por esto, no es casual que las secuencias de genes de especies relacionadas de plantas, animales y microorganismos muestren complejos patrones de semejanza unos con otros. Este es uno de los aspectos mas fascinantes del estudio de la evolución. De hecho, muchos biólogos moleculares están convencidos que el entender la evolución de secuencias es el primer paso para poder comprender la evolución.

Los cambios que ocurren en el ADN funcional son la materia prima para la evolución. Estos cambios crean variación en los organismos, luego la selección natural trabaja sobre esa variación haciendo prosperar y reproducir el ADN de los organismos que tienen mutaciones ventajosas, mientras que extingue a los que poseen mutaciones desventajosas.

La comparación entre secuencias (alineamiento) y el análisis de la estructura de secuencias de genes son algunos de los procesos utilizados para entender la evolución de secuencias.

...GATTACATATA… ...GATTTCATACTA… ...GATTTTATACTA…

Las mutaciones en el ADN (a lo largo del tiempo) conducen la Evolución

Agrobiotecnología

Bioinformática

Análisis de secuencias

Page 30: Bio in for Ma Tic a 3

• La organización de los genes es más compleja en los organismos eucariotas, fundamentalmente por la presencia de intrones. Algunos genes tienen mas de 50 intrones.

• El procesamiento de los ARN primarios eucariotas puede ocurrir de varias maneras alternativas.

Las estrategias para trabajar con secuencias de procariotas y eucariotas deben ser diferentes, especialmente en las tareas de análisis de secuencias para la predicción de genes.

Algunos factores a tener en cuenta al analizar secuencias

• Sólo un 1,5% del material genético en eucariotas superiores es codificante contra un 85% en bacterias, cuyas secuencias codificantes se solapan a menudo.

• Los genomas eucariotas son ricos en secuencias •repetidas, lo que dificulta su análisis.

• El número de genomas eucariotas secuenciados es mucho menor que el de procariotas, lo que impone ciertos límites técnicos a la hora de aplicar métodos de predicción de genes.

Page 31: Bio in for Ma Tic a 3

Algunas herramientas bioinformáticas para obtención de información a partir del análisis de secuencias

Alineamiento y Búsqueda de secuencias similares: Una pequeña consulta a las bases de datos de secuencias al comienzo de un proyecto puede ahorrarles mucho del valioso tiempo de laboratorio. Por ej. BLAST, FASTA. La búsqueda de secuencias homólogas nos permitirá luego hacer un análisis filogénico o ubicar las partes conservadas de una secuencia.

Alineamiento de la secuencia problema con otras secuencias similares: programas de alineamiento múltiple ayudan a identificar visualmente los sitios de una secuencia que pueden ser funcionalmente importantes, usualmente son los sitios conservados. Por ej. ClustalW, T-Coffee

Búsqueda de secuencias cuya información asociada tenga algo en común con la secuencia problema. Por ej. Motores de búsqueda como NCBI (Entrez) o EBI (SRS)

Búsqueda de motivos funcionales o estructurales, esto es, pequeñas regiones, previamente caracterizadas, con un significado funcional o estructural en la secuencia problema. Por ej. InterProScan

Obtención de secuencias que contienen los mismos motivos, aunque su similitud sea baja y previamente no

fueron detectadas por los programas como PSI-BLAST.

Reconstrucción de la filogenia a partir del alineamiento. Se intentan describir relaciones evolutivas de un grupo de secuencias Por ej. PHYLIP

Construcción de un motivo característico del alineamiento. Por ej. HMMER o PSI-BLAST

Usar el motivo para encontrar nuevas secuencias con motivos comunes con el alineamiento previamente realizado. Por ej. HMMER o PHI-BLAST

Predicción de genes es un tema que ha cobrado gran relevancia en el contexto de secuenciación de genomas y esta ahora siendo replanteado. Predicción de ORF, genes, límites exon-itron, sitios de anclaje de promotores, secuencias repetidas, entre otras cosas ayuda a los biólogos moleculares a comprender ADN que aun no anotado. Por ej. GenScan o Glimmer. El análisis de contenidos es sobre las propias secuencias de ADN (no hay comparaciones), como un análisis estadístico de la composición de codones o realizar un mapa de restricción. Por ej. EMBOSS

Predicción de estructura a partir de su secuencia (Ab initio)

Modelado por Homología

Obtención de secuencias similares. Por ej. BLASTn

múltiple

Page 32: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Análisis de secuencias

Paquetes de herramientas para análisis de secuencias

Existen varios paquetes de herramientas de análisis de secuencias gratuitos, de código abierto, y que están específicamente desarrollados para cubrir las necesidades de los biólogos moleculares. Estos programas manejan información biológica en varios formatos y permiten el acceso a secuencias en forma remota de manera transparente para el usuario. Además proveen al usuario con una interface unificada para todas las aplicaciones. Actualmente EMBOSS, el más popular de estos paquetes, incluye más de 150 programas distintos que cubren áreas como:

• Alineamiento de secuencias • Búsquedas de secuencias a partir de patterns, identif. islas CpG o repeciones• Identificación de motivos y análisis de dominios • Análisis de uso de codones

El European Molecular Biology Open Software Suite se encuentra instalado online en cientos de centros de investigación, por ej.:http://sbcr.bii.a-star.edu.sg/emboss/)Puede descargarse de http://emboss.sourceforge.net/

Sequence Manipulation Suite (http://bioinformatics.org/sms2/)

Para el recreo… (http://www.dnai.org/geneboy/index.html)

Page 33: Bio in for Ma Tic a 3

Pattern searching•fuzznuc: Nucleic acid pattern search.•fuzztran: Protein pattern search after translation.

Restriction Enzyme Sites•restrict: Finds restriction enzyme cleavage sites. •redata: Search REBASE for enzyme name, references, suppliers•remap: Display a sequence with restriction cut sites, translation •silent: Silent mutation restriction enzyme scan.

Transcription Factors•tfscan: Scans DNA sequences for transcription factors.

Repeats•einverted: Finds DNA inverted repeats. •equicktandem: Finds tandem repeats. •etandem: Looks for tandem repeats in a nucleotide sequence •palindrome: Looks for inverted repeats in a nucleotide sequence.

Codon usage, composition•cusp: Create a codon usage table. •chips: Codon usage statistics. •codcmp: Codon usage table comparison. •syco: Synonymous codon usage Gribskov statistic plot. •wordcount: Counts words of a specified size in a DNA sequence. •geecee: Calculates the fractional GC content of nucleic acid sequences

CpG islands•cpgreport: Reports CpG rich regions. •newcpgseek: Reports CpG rich regions (a revision of cpgreport). •cpgplot: Plot CpG rich areas.

Primers•prima: Selects primers for PCR and DNA amplification. •primersearch: Searches DNA sequences for matches with primer pairs. •eprimer3 : Picks PCR primers and hybridization oligos.

DNA properties•dan: Calculates DNA RNA/DNA melting temperature. •isochore: Plots isochores in large DNA sequences. •banana: Bending and curvature plot in B-DNA.

Algunos de los programas incluidos en el paquete EMBOSS

prophet Gapped alignment for profiles.

infoseq Displays some simple information about sequences.

water Smith-Waterman local alignment.

pepstats Protein statistics.

showfeat Show features of a sequence.

palindrome Looks for inverted repeats in a nucleotide sequence.

eprimer3 Picks PCR primers and hybridization oligos.

profit Scan a sequence or database with a matrix or profile.

extractseq Extract regions from a sequence.

marscan Finds MAR/SAR sites in nucleic sequences.

tfscan Scans DNA sequences for transcription factors.

patmatmotifs

Compares a protein sequence to the PROSITE motif database.

showdb Displays information on the currently available databases.

wossname Finds programs by keywords in their one-line documentation.

abiview Reads ABI file and display the trace.

tranalign Align nucleic coding regions given the aligned proteins.

Los programas más populares de EMBOSS Otros programas de interés

Page 34: Bio in for Ma Tic a 3

Alineamiento de secuencias (método comparativo de análisis)

¿Por qué comparar secuencias? Una alta similitud entre secuencias indica un origen común (homología) y una función similar. Comparando múltiples secuencias podemos descubrir las partes de las secuencias más importantes (partes conservadas). La comparación también permite detectar sitios de solapamiento durante las tareas de ensamblado de fragmentos secuenciados.

La comparación de secuencias de nucleótidos es apropiada: 1) Si queremos comparar secuencias muy parecidas, en las que quizás sólo hay diferencias en uno o dos nucleótidos (estudios filogenéticos de poblaciones, SNPs, etc). 2) Si queremos identificar genes. Si comparamos zonas equivalentes del genoma de ratón y del genoma de humanos, vemos que las regiones exónicas están más conservadas que las intrónicas. 3) Si queremos comparar secuencias no codificantes.

La comparación de secuencias de aminoácidos es apropiada: 1) queremos buscar secuencias homólogas. No sólo el parecido en la secuencia aminoacídica se pierde más lentamente, sino que también sabemos que algunos aminoácidos tienen propiedades más parecidas a otros, por lo que podemos darle más sentido a los cambios que observamos. 2) Si queremos identificar sitios importantes o dominios de las proteínas.

¿Secuencias de ADN (ARN) o proteínas? ¿Qué secuencias comparar? La elección de comparar secuencias de nucleótidos o de aminoácidos depende de la información que estamos buscando. Uno de los aspectos más importantes a saber es que el parecido entre secuencias de nucleótidos con un origen común se pierde más rápidamente que el parecido entre secuencias de aminoácidos correspondientes; por una parte porque el alfabeto es más reducido (cuatro letras frente a veinte) y por otra porque la secuencia de nucleótidos puede cambiar sin que esto se refleje en la de aminoácidos (cambios sinónimos).

Page 35: Bio in for Ma Tic a 3

Alineamiento entre dos secuencias

Tipos de Alineamiento entre dos secuencias

Alineamiento Local: se utiliza cuando se quiere encontrar sub-secuencias compartidas.

• Para buscar dominios en proteínas• Para encontrar elementos de regulación• Para localizar un gene similar en un genoma

Secuencia A Secuencia B

Estos métodos de comparación de pares de secuencias tienen serias limitaciones para encontrar secuencias de homólogos remotos, que son aquéllos que comparten un mismo origen evolutivo pero que han divergido mucho y su identidad de secuencia está por debajo del ~25% (este es un porcentaje aproximado, en realidad depende de cada caso).

El alineamiento local es adecuado cuando las proteínas no se parecen a lo largo de toda su secuencia, por ejemplo si una tiene un dominio A y otro B y la otra tiene un dominio A y otro C (B y C no son homólogos y no tendría sentido intentar alinearlos). El algoritmo más exacto es el de Smith-Waterman

El algoritmo más exacto es el de Needleman-Wunsch

Alineamiento Global: se utiliza cuando hay que comparar secuencias de tamaño similar.•Para comparar genes similares•Para buscar mutaciones o polimorfismos en una secuencia comparándola contra una secuencia de referencia.

Page 36: Bio in for Ma Tic a 3

BLAST (Basic Local Alignment Search Tool)

Estimación de la probabilidad de que un determinado parecido entre secuencias se deba al azar: el e-value Uno de los problemas más importantes una vez que hemos encontrado secuencias parecidas en las bases de datos es saber si son significativas o si podrían deberse al azar, y por tanto no reflejan una relación de homología. En el caso de parecidos muy claros (% de identidad alto), la respuesta es evidente, pero hay muchos otros parecidos en los que no lo es. Para resolver este problema se han desarrollado diversos modelos estadísticos. Básicamente lo que se hace es calcular la probabilidad de que un alineamiento entre secuencias no relacionadas (por azar) alcance una puntuación (score) determinada. En la práctica tenemos que tener en cuenta lo siguiente: el e-value depende del tamaño de la base de datos de secuencias (si una DB es 10 veces menor que otra, el e-value será 10 veces menor, también). En general, con bases de datos grandes, podemos fiarnos de e-values menores de 1e-05 (0.00001), y en el rango 1e-05 a 0.1 hay que evaluarlo y por encima de 0.1 ya es más arriesgado.

(http://www.ncbi.nih.gov/BLAST/)

compara una por una las secuenciasNuestra secuencia problema

La búsqueda de genes o de productos génicos homólogos es uno de los métodos más antiguos y más usados para identificar secuencias codificantes y determinar la estructura de genes de nuestras secuencias. Este método se basan en comparar la secuencia problema contra información procedente del estudio de otros genomas. Es, por tanto, menos eficiente en Eucariotas que en Procariotas dada la menor abundancia de información (genomas anotados) de especies evolutivamente cercanas.

BLAST es una heurística para encontrar el alineamiento local óptimo entre pares de secuencias

Page 37: Bio in for Ma Tic a 3

BLAST Plant Genomes y otros

Arabidopsis thaliana (thale cress)

Avena sativa (oat)

Glycine max (soybean)

Hordeum vulgare (barley)

Oryza sativa (rice)

Triticum aestivum (wheat)

Zea mays (corn)

Lycopersicon esculentum (tomato)

BLASTN permitiría identificar secuencias parecidos en bases de datos de secuencias de ADN, usando la secuencia genómica como "query". (ADN query / ADN db)

BLASTX traduce la secuencia "query" en las seis fases de lectura posibles y hace búsquedas en bases de datos de proteínas; esto permitiría identificar proteínas parecidas a los codificados por la secuencia, y serviría para identificar regiones codificantes. (ADN query 6 ORF / protein db)

TBLASTX traduce la secuencia "query" en las seis fases abiertas de lectura y hace búsquedas en bases de datos de secuencias de ADN también traducidas en la seis fases de lectura posibles; esto serviría para identificar secuencias que codifican para productos parecidos a los que codifica la secuencia "query". (ADN query 6 ORF / ADN db 6 ORF )

Si se conoce, o se puede predecir, la secuencia del producto génico, o parte de ella, otros programas permiten usar la secuencia de aminoácidos como "query":

BLASTP busca proteínas parecidas en bases de datos de proteínas. (Protein query / protein db)

TBLASTN hace búsquedas en bases de datos de secuencias de ADN traducidas en la seis fases de lectura posible. (Protein query / ADN db 6 ORF )

Secuencia Problema

Secuencia contaminada obtenida de un Vector

Base de datos de secuencias de Vectores

Otra secuencia

Page 38: Bio in for Ma Tic a 3

Comparación de múltiples secuencias

Alineamiento de pares de secuencias Alineamiento de múltiples secuencias

Los métodos como BLAST son muy útiles como un primer paso en el análisis de secuencias porque generalmente un análisis de este tipo lo comenzamos con una única secuencia y porque son muy rápidos. Sin embargo tienen serias limitaciones para encontrar homólogos remotos, que son aquéllos que comparten un mismo origen evolutivo pero que han divergido mucho y su identidad de secuencia está por debajo del ~25% (es un porcentaje aproximado, en realidad depende de cada caso). Tales porcentajes de identidad aparecen por azar en las enormes bases de datos y por eso no son distinguibles las homologías.  Es decir, los métodos de comparación entre pares de secuencias (como BLAST) nos dicen poco acerca de la historia evolutiva de los genes/proteínas o de cuales son sus zonas conservadas. Los métodos de alineamientos múltiples de secuencias como ClustalW o T-Coffee nos permiten buscar secuencias evolutivamente lejanas de origen común.

ClustalW http://www.ebi.ac.uk/clustalw/T-Coffee http://igs-server.cnrs-mrs.fr/Tcoffee

BLAST ClustalW

Alineamiento de múltiples secuenciasLos programas más populares de alineamiento múltiple son ClustalW, T-Coffee

Page 39: Bio in for Ma Tic a 3

Análisis de secuencias basado en contenido

Estos métodos consisten en el análisis estadístico de la composición del ADN, generalmente se utilizan para detectar sesgos en las frecuencias de codones impuestas por las restricciones que impone el código genético en las zonas codificantes.

• El contenido G+C es la medida más simple. Aún así, puede ser de ayuda a la hora de deducir la estructura de un gen dado que el contenido en G+C es más alto en las 5'-UTR que en las 3'-UTR. Esta diferencia es especialmente marcada en los vertebrados de sangre caliente. • El contenido en G+C de la tercera posición de los codones de bacterias con alto contenido en G+C, como las del género Streptomyces, puede ser de hasta un 92% (mientras que el contenido en G+C del genoma de Streptomyces coelicolor, por ejemplo, es del 73%). • GC3s. Este parámetro es parecido al anterior, mide la frecuencia de codones sinónimos en los que la 3ª posición es G o C. • Uso de Codones. Las frecuencias de uso de cada uno de los codones, y las frecuencias de uso de codones sinónimos, pueden también usarse para predecir si una secuencia es codificante o no. Dado que dichas frecuencias varían entre genomas y entre genes de un mismo genoma, es necesario disponer de tablas de frecuencias específicas de cada organismo, apropiadas para la secuencia que se va a analizar. Existen muchos programas para calcular tablas de uso de codones a partir de secuencias previamente caracterizadas (SMS por ej.), o también pueden ser obtenidas de bases de datos especializadas (Codon Usage Database). Otros parámetros relacionadas con el uso de codones miden la frecuencia en la que ocurren pares de codones sucesivos (dicodon counts), la periodicidad de oligonucleótidos repetidos, o bien el Índice de Adaptación de Codones (CAI), que mide el grado en que el uso de codones de una secuencia se adapta a las frecuencias de uso de codones calculadas previamente para un organismo.

SeqFacts

http://www.kazusa.or.jp/codon

http://bip.weizmann.ac.il/seqfacts

Page 40: Bio in for Ma Tic a 3

Otros programas que trabajan con el análisis de secuencias

Electronic PCR (ePCR - http://www.ncbi.nlm.nih.gov/sutils/e-pcr/)Este programa recrea una PCR en la computadora. Se utiliza para identificar STS dentro de las secuencias de ADN. e-PCR busca los STS potenciales (bandas) en las secuencias de ADN mediante la búsqueda de subsecuencias estrechamente relacionadas con los primers PCR. Estas subsecuencias (potenciales sitios de unión de los primers) deben tener el orden correcto, la orientación, y el espaciamiento para poder generar STS conocido.

Ensamblado de secuenciasTIGR Assembler, Phred-Phrap, CAP, etc.

Programas de predicción de genes a partir de secuencias:GLIMMER, GenScan, Grail, GeneFinder, BlastN, etc.

CBS Prediction Servers (http://www.cbs.dtu.dk/services/)NetPlantGene Intron splice sites in Arabidopsis thaliana DNA

ChloroP Chloroplast transit peptides and their cleavage sites in plant proteins

TargetP Subcellular location of proteins: mitochondrial, chloroplastic, secretory pathway, or other

SignalP Signal peptide and cleavage sites in gram+, gram- and eukaryotic amino acid sequences

Agrobiotecnología

Bioinformática

Análisis de secuencias

Page 41: Bio in for Ma Tic a 3

Análisis funcional: Plant Ontology y Microarrays

Agrobiotecnología

Bioinformática

Page 42: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Análisis funcional: Plant Ontology y Microarrays

Ontología de Plantas

Consorcio de Ontología de Plantas (Plant Ontology Consortium - POC, http://www.plantontology.org) Este es un esfuerzo colaborativo entre varias bases de datos del genoma de plantas modelo y de investigadores que tiene por objeto crear, mantener y facilitar el uso de un vocabulario controlado (ontología) para las plantas. La ontología permite a los usuarios asignar atributos de estructura vegetal (anatomía y morfología) y sobre etapas de desarrollo a tipos de datos, tales como los genes y fenotipos, para proporcionar un marco semántico para hacer búsquedas y comparaciones entre especies y base de datos. La POC se ha construido sobre la base del Consorcio Ontología de Genes (Gene Ontology Consortium – GOC) mediante la adopción y la ampliación sus principios, programas informáticos existentes y estructura de base de datos. POC posee cientos de términos ontológicos asociados con miles de genes y productos génicos de Arabidopsis, arroz y maíz, entre otras plantas.

21857anotaciones

14007anotaciones

Page 43: Bio in for Ma Tic a 3

Tomado de: Avraham, S. et al. Nucl. Acids Res. 2008 36:D449-D454; doi:10.1093/nar/gkm908

Agrobiotecnología

Bioinformática

Análisis funcional: Plant Ontology y Microarrays

Pasos para buscar y visualizar anotaciones y ontologías de plantas

Page 44: Bio in for Ma Tic a 3

El uso principal que se le ha dado a la tecnología de microarrays es para estudiar la expresión génica mediante la detección de los niveles de ARNm en las células y tejidos.

En este tipo de análisis de los genes y otras transcriptos de un organismo están representados por las secuencias de ADN (moléculas, secuencias complementarías) desplegadas sobre una matriz de alta densidad en un cristal (del tamaño de un portaobjetos de microscopio), que es conocido como un microarray.

Los microarrays trabajan por medio de hibridación (unión química no covalente) de ARNm marcado con fluorescencia (extraído de células o tejidos) a las moléculas de ADN (sondas) que están pegadas a la superficie del cristal posiciones específicas previamente conocidas; la eventual unión del ARNm marcado con fluorescencia (presentes en la muestra) a las sondas en la superficie del cristal está determinado por las reglas de reconocimiento molecular de sus secuencias complementarias.

Tecnología de microarrays de ADN

Page 46: Bio in for Ma Tic a 3

Microaray de oligonucleótidos de alta densidad (canal único)

Tecnología de microarrays de ADN

Page 47: Bio in for Ma Tic a 3

Microaray de oligonucleótidos de alta densidad (canal único)

Tecnología de microarrays de ADN

Microaray de cDNA o Spotted (dos canales)

Page 48: Bio in for Ma Tic a 3

Microaray de oligonucleótidos de alta densidad (canal único) Microaray de cDNA o Spotted (dos canales)

Tecnología de microarrays de ADN

Page 49: Bio in for Ma Tic a 3

Ejemplo en plantas

Arabidopsis genes encoding plant-specific proteins exhibit preferential expression in organs. Heat map showing the 600 plant-specific genes that exhibited differential expression in at least one microarray experiment comparing RNA samples from different plant organs.

Page 50: Bio in for Ma Tic a 3

Agrobiotecnología

Bioinformática

Algunos temas importantes de la bioinformática que no hemos tratado

• Análisis Filogenético

• Predicción de estructura secundaria del RNA

• Clasificación y Predicción de estructuras de proteínas

• Análisis de SNPs y haplotipos

• Análisis de Genomas

Page 51: Bio in for Ma Tic a 3

1. Mount, David W. Bioinformatics: Sequence and Genome Analysis Spring Harbor Press, May 2002.ISBN 0-87969-608-7

4. Baxevanis, A.D. and Ouellette, B.F.F., eds., Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins, third edition. Wiley, 2005. ISBN 0-471-47878-4

6. NCBI Education http://www.ncbi.nlm.nih.gov/Education/

8. EBI Education http://www.ebi.ac.uk/2can

Referencias

Agrobiotecnología

Bioinformática