estructura de las tijeras

Embed Size (px)

DESCRIPTION

es un libro sobre como hacer origamis de tijeras

Citation preview

  • UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

    FACULTAD DE CIENCIAS BIOLGICAS

    E.A.P. MICROBIOLOGA Y

    PARASITOLOGA

    ANLISIS BIOINFORMTICO

    SECUENCIAS NUCLEOTDICAS

    CURSO:

    Biologa Molecular

    PROFESORA:

    ALUMNOS:

    Mg. Giovanna Sotil

    Garro Salvador Natalia Ximena

    Villegas Coblentz Julio Cesar

    Gonzales Dahua Jean Patrick

    Llanos Rosales Carlos Daniel

    Ramirez Montano Luis Fernando

    Sullca Sulca Franklin Alberto

  • INTRODUCCIN

    El uso de la informtica (en especial la internet) ha permitido el avance acelerado de

    muchas ramas de la ciencia, en particular la Biologa, durante estos ltimos aos. De

    este modo, muchas empresas y/o organizaciones han hecho uso de esta gran

    herramienta. Entre los diferentes modos de usos, en el presente trabajo hablaremos

    en especial sobre el uso de base de datos bioinformticos, las que como su mismo

    nombre dice almacena informacin de las diversas especies del mundo.

    Lo que ms agrada de estas base s de datos, es que la gran mayora son libres, es

    decir, donde quiera y a la hora que se desea, se puede buscar informacin gratis de

    muchas especies, as como secuencias nucleotdicas y proteicas presentes en las

    diversas especies de seres vivos y/o virus (algunos son de paga, pero al menos lo que

    haremos en esta prctica es gratis).

    Algunas base de datos son especializados en secuencias proteicas (como ProtParam

    Tool o Protein Data Bank), otras almacenas artculos de diversas revistas, secuencias

    de genes especficos y sus estudios consecuentes, estudios taxonmicos de diversas

    especies, todo en conjunto (como NCBI), o algunos que permite observar la estructura

    tridimensional de algunas protenas (como Protein Data Bank, con ayuda de la

    herramienta Java).

    En particular usaremos programas como CLUSTAL W2 (en la misma pgina web),

    BioEdit, BLAST (tambin en la misma pgina web). Estos son programas que funcionan

    como base de datos las cuales, en este caso, nos ayudar a predecir a qu secuencia

    de nucletidos completa se parece en lo mayor posible una fraccin de nucletidos

    dado.

    Adems de predecir, tambin podemos editar dichas secuencias completas en los

    formatos y colores que ms deseamos (por ejemplo, con el programa BioEdit).

    OBJETIVOS

    Aprender a usar las diferentes bases de datos informticos que se puede

    disponer en la internet.

    Determinar a qu especie pertenece (o al menos ms parece) la secuencia

    dada por la profesora, con el uso de la base de datos BLAST.

  • Analizar con el uso del CLUSTAL W2 la mejor manera de distribuir los genes

    seleccionados, de tal manera que tenga la mayor interseccin posible (el

    mayor parecido) entre ellos.

    Editar las secuencias mltiples con el objetivo que sean lo ms comprensibles

    posibles segn lo que se desea explicar

    MARCO TERICO

    National Center for Biotechnology Information - NCBI

    El Centro Nacional para la Informacin Biotecnolgica o National Center for

    Biotechnology Information (NCBI) es parte de la Biblioteca Nacional de Medicina de

    Estados Unidos (National Library of Medicine), una rama de los Institutos Nacionales

    de Salud (National Institutes of Health o NIH). Tiene la misin de ser una importante

    fuente de informacin de biologa molecular. Almacena y constantemente actualiza la

    informacin referente a secuencias genmicas en GenBank, un ndice de artculos

    cientficos referentes a biomedicina, biotecnologa, bioqumica, gentica y genmica

    en PubMed, una recopilacin de enfermedades genticas humanas en OMIM, adems

    de otros datos biotecnolgicos de relevancia en diversas bases de datos.

    Todas las bases de datos del NCBI estn disponibles en lnea de manera gratuita .

    El NCBI ofrece adems algunas herramientas bioinformticas para el anlisis de

    secuencias de ADN, ARN y protenas, siendo BLAST una de las ms usadas.

    NCBI alberga genoma secuenciado en GenBank, y un ndice de los artculos

    biomdicos de investigacin en PubMed Central y PubMed, as como otra informacin

    relevante a la biotecnologa.

    El NCBI es dirigido por David Lipman, uno de los autores originales del programa de

    alineacin de secuencias BLAST y una figura extensamente respetada en

    bioinformtica.

    Basic Local Alignment Search Tool BLAST

    BLAST es un programa informtico de alineamiento de secuencias de tipo local, ya sea

    de ADN, ARN o de protenas. El programa es capaz de comparar una secuencia

    problema (tambin denominada en la literatura secuencia query) contra una gran

    cantidad de secuencias que se encuentren en una base de datos. El algoritmo

    encuentra las secuencias de la base de datos que tienen mayor parecido a la

    secuencia problema. Es importante mencionar que BLAST usa un algoritmo heurstico

  • por lo que no nos puede garantizar que ha encontrado la solucin correcta. Sin

    embargo, BLAST es capaz de calcular la significacin de sus resultados, por lo que nos

    provee de un parmetro para juzgar los resultados que se obtienen.

    Normalmente el BLAST es usado para encontrar probables genes homlogos. Por lo

    general, cuando una nueva secuencia es obtenida, se usa el BLAST para compararla

    con otras secuencias que han sido previamente caracterizadas, para as poder inferir

    su funcin.

    La aplicacin local de BLAST tiene la ventaja de que permite manejar varios

    parmetros que en las bsquedas de NCBI estn estandarizados, por lo que provee

    una mayor flexibilidad para los usuarios avanzados.

    Algoritmo del BLAST

    BLAST usa el algoritmo Smith-Waterman para realizar sus alineamientos . BLAST usa

    una matriz de sustitucin de aminocidos o nucletidos para calificar sus

    alineamientos. Dicha matriz contiene la puntuacin (tambin llamada score) que se le

    da al alinear un nucletido o un aminocido X de la secuencia A con otro aminocido

    Y de la secuencia B. Las matrices ms usadas para calificar alineamientos de protenas

    son la BLOSUM y la PAM (ambas fueron obtenidas midiendo la frecuencia de los

    aminocidos en una gran muestra de protenas). Tambin se permite al usuario

    definir su propia matriz. El tipo de matriz usada es determinante para los resultados

    que se obtendrn, el uso de una matriz incorrecta puede llevar a calificar

    errneamente los alineamientos y por lo tanto obtener resultados equivocados.

    El algoritmo de BLAST tiene tres etapas princ ipales: ensemillado, extensin y

    evaluacin. A continuacin se describen brevemente cada una de ellas:

    o Primera etapa: ensemillado o seeding.

    En esta etapa se buscan "palabras" pequeas en las secu encias de la base de datos,

    que corresponden a fragmentos de la secuencia problema. BLAST asume que los

    alineamientos significativos deben contener estas palabras. Slo se consideran

    significativas las palabras que tengan una puntuacin mayor a T (T es un parmetro

    que se pueda modificar al usar el programa) y que se encuentren al menos a una

    distancia A de otra palabra. W es otro parmetro usado por BLAST y se refiere al

    tamao de las palabras a buscar. Ajustando los parmetros T, A y W se puede escoger

    entre hacer un alineamiento sensible pero lento, o uno ms rpido pero con menor

    sensibilidad.

  • o Segunda etapa: extensin.

    Una vez obtenidas las palabras que cumplen con los criterios dados, se pasa a la etapa

    de extensin. En esta etapa el alineamiento se va extendiendo a ambos lados de las

    palabras. La extensin realizada en este punto se realiza haciendo uso del algoritmo

    de Smith-Waterman. BLAST va extendiendo el alineamiento hasta que la puntuacin

    del alineamiento descienda X o ms puntos con respecto a la puntuacin ms alta

    obtenida anteriormente. Aqu reside el factor heurstico del BLAST, ya que al imponer

    el lmite X, evita extender a lo largo de toda la secuencia todos los alineamientos

    (proceso que llevara demasiado tiempo). El peligro que esto conlleva es que el

    programa se puede quedar atorado en un mximo local. Es por ello que la definicin

    de X es determinante para el resultado.

    o Tercera etapa: evaluacin

    Una vez terminada la extensin de todas las palabras, cada uno de los alineamientos

    realizados es evaluado para determinar su significacin estadstica. Para ello, el

    programa elimina los alineamientos inconsistentes (alineamientos que junten la

    misma parte de la secuencia problema con distintas partes de una secuencia en la

    base de datos). Los alineamientos resultantes son llamados pares de alta puntuacin

    (High Score Pairs o HSPs, por sus siglas en ingls). Una vez realizado esto, se calcula la

    puntuacin final de los alineamientos resultantes y se determina su significacin

    tomando en cuenta la probabilidad que tiene dicho alineamiento de haber sido

    obtenido por azar de acuerdo al tamao de la base de datos. Al final se reportan slo

    los alineamientos que hayan obtenido una probabilidad menor a E. El parmetro E es

    conocido como e -valor (e-value) de corte, y nos permite definir qu alineamientos

    queremos obtener de acuerdo a su significacin est adstica. Cuanto menor sea el

    valor de E, ms significativo es un alineamiento.

    Programas de la familia BLAST

    Blastn: Compara una secuencia de nucletidos contra una base de datos qu e

    contenga tambin secuencias nucleotdicas.

    Blastp: Compara una secuencia de aminocidos contra una base de datos del mismo

    tipo. Usualmente usa la matriz de sustitucin BLOSUM o PAM para realizar los

    alineamientos, aunque puede usar una matriz definida por el usuario.

  • BlastX: Este programa usa como entrada una secuencia de nuclotidos. Traduce la

    secuencia en sus seis posibles marcos de lectura (tres marcos de lecturas por

    hebra) y compara estas secuencias traducidas contra una base de datos de

    protenas. Se usa cuando se tiene sospecha de que la secuencia de entrada

    codifica para una protena pero no se sabe exactamente cul es su producto.

    TBlastn: Compara una secuencia proteica con una base de datos de nuclotidos. Para

    realizar esto traduce todas las secuencias de nucletidos en sus seis marcos

    de lectura. Se usa cuando se tiene una protena, y el anlisis con Blastp no

    ha sido exitoso. Se debe tener cuidado con los resultados de este Blast,

    porque una buena cantidad de las secuencias traducidas no son protenas

    que existan en la naturaleza.

    TBlastX: Es la combinacin del TBlastn con el BlastX. Compara una secuencia de

    nucletidos contra una base de datos de nucletidos, pero primero traduce

    tanto la secuencia problema como la base de datos a protenas, usando los

    seis marcos de lectura posibles. La mayora de los servidores pblicos no

    aceptan usar esta opcin en combinacin con las bases de mayor tamao

    debido a que la bsqueda es muy intensiva computacionalmente.

    Bl2seq: Es un blast que compara dos secuencias entre ellas, en vez de comparar una

    secuencia con una base de datos. Al usar el mismo algoritmo de BLAST, este

    programa no es recomendable pa ra secuencias donde las regiones de

    similitud estn muy separadas.

    CLUSTAL

    Clustal es un programa de computadora utilizado para realizar alineamientos

    mltiples de secuencias.

    ClustalW: interfaz de lnea de comandos

    ClustalX: esta versin tiene una interfaz grfica. Est disponible para

    Unix/Linux, Mac OS y Windows.

    Este programa acepta un amplio rango de formatos de entrada. Incluyendo NBRF/PIR,

    FASTA, EMBL/Swissprot, Clustal, GCC/MSF, GCG9 RSF y GDE.

    El formato de salida puede ser alguno de los siguientes: Clustal, NBRF/ PIR, GCG/MSF,

    PHYLIP, GDE, NEXUS

  • BIOEDIT

    En funcin de la complejidad y de la importancia de un buen alineamiento es

    recomendable el uso de un editor de secuencias. Uno de los editores ms eficientes

    disponibles gratuitamente en la web es Bioedit desarrollado por Ha ll (1999) para la

    plataforma de Windows conteniendo funciones bsicas para la edicin, alineamiento,

    manipulacin y anlisis de secuencias nucleotdicas y de protenas. Bioedit no es un

    poderoso programa de anlisis de secuencias pero ofrece muchas rpida s y fciles

    funciones para la edicin de las mismas. La longitud de las secuencias as como si

    nmero es limitada solo por la memoria disponible por el sistema del usuario.

    Este programa puede importar archivos directamente desde el formato BioEdit,

    Genbank, Fasta, NBRF/PIR, Phylip, as como el formato ABI obtenido directamente de

    los secuenciadores automticos.

    ALINEAMIENTO MLTIPLE DE SECUENCIAS - MSA

    Un alineamiento mltiple de secuencias (MSA, por sus siglas en ingls) es un

    alineamiento de tres o ms secuencias biolgicas, generalmente protenas, ADN o

    ARN. En general, se asume que el conjunto de secuencias de consulta que se ingresa

    como entrada (conjunto problema) tienen una relacin evolutiva por la cual

    comparten un linaje y descienden de un ancestro comn. Del MSA resultante, se

    puede inferir la homologa, y puede llevarse a cabo el anlisis filogentico para

    evaluar los orgenes evolutivos compartidos por las secuencias. Las representaciones

    visuales del alineamiento ilustran mutaciones tales como mutaciones puntuales (un

    solo cambio de aminocidos o nucletidos) que aparecen como diferentes caracteres

    en una sola columna del alineamiento, y la insercin o supresin de mutaciones (o

    gaps) que aparecen como huecos en una o varias de las secuencias en la alineacin. El

    alineamiento mltiple de secuencias a menudo se utiliza para evaluar la conserv acin

    de los dominios proteicos, las estructuras terciarias y secundarias, e incluso

    aminocidos o nucletidos individuales.

    Como puede ser difcil alinear a mano tres o ms secuencias de longitud

    biolgicamente relevante, y casi siempre consume mucho tiempo, se utilizan

    algoritmos computacionales para producir y analizar los alineamientos. Los MSA

    requieren metodologas ms sofisticadas que los alineamientos de pares porque son

    computacionalmente ms complejos de producir. La mayor parte de los programas de

  • alineamiento mltiple de secuencias usan mtodo s heursticos en

    lugar de optimizacin global, porque identificar el alineamiento ptimo

    entre ms de unas pocas secuencias de longitud moderada es

    prohibitivamente costoso computacionalmente.

  • PROCEDIMIENTO EXPERIMENTAL

    Se nos proporcion las siguientes secuencias

  • En vista de que el programa no alcanza a reconocer todos los picos que indican la presencia de

    nucletidos marcados con fluorforos, hubo que utilizar el criterio humano para hacer coincidir,

    segn tamao y color de los picos, las secuencias dadas.

  • Despus de completado el emparejamiento se procedi a guardar la secuencia en formato

    FASTA

  • Luego se procedi a copiar la secuencia en una sola plantilla del block de notas

  • Se abri el archivo fasta que contena las dos secuencias trabajadas previamente, desde el

    programa Bioedit, para proceder al alineamiento mediante la herramienta ClustalW.

  • Luego del alineamineto se procedi a crear la secuencia concenso, con lo cual se seguira el

    resto del anlisis.

  • Se pas a exportar la secuencia consenso a formato fasta

    Para la identificacin de la especie a la cual pertenece la secuencia estudiada, se utiliz la base

    de datos online Boldsystem.

    En la opcin Identification se insert la secuencia consenso.

  • Dando como resultado que la secuencia analizada perteneca a la genero Philine.

  • Se realiz el mismo procedimiento con la herramienta Blastn

  • Con lo cual se obtuvo el siguiente resultado:

  • Al comparar los resultados de del Bold System y BLASTn: Se tom el criterio para seleccionar

    los especmenes que se utilizaran en el anlisis filogentico.

  • Se descarg en formato Fasta las secuencias de los especmenes con los que se realizar el

    anlisis filogentico.

  • Mediante el software Bioedit se realizo el alineamiento mltiple de todas las secuencias que se

    analizaron.

  • Una vez alineadas se exportaron las secuencias en formato fasta, para su posterior anlisis

    con el software MEGA.

  • Con el software MEGA se convirti el formato Clustal a un formato compatible.

  • Se realizo el anlisis filogentico utililizando el modelo Neiborg Joining

  • Los parmetros se utilizaron por default.

    A continuacin se muestra el arbol filogentico obtenido mediante el anlisis Neiborg

    Joining.

  • DISCUSIONES: El siguiente rbol muestra las relaciones filogenticas propuestas por el autor

    PRICE, R. et al. (2011). En el cual se observa ms de una especie el mismo gnero,

    adicionalmente se observan clados monofilticos y algunos otros clados que se han mantenido

    a partir de un nodo basal. Los resultados obtenidos mediante nuestro anlisis informtico no

    son comparables con esta referencia, pero se obtuvo algunos grupos monofilticos y clados

    monotpicos. Se sugiere hacer un anlisis comparado con un mayor nmero de especmenes.

  • Conclusin

    Se concluye que a travs de herramientas bioinformticas se puede realizar un anlisis de secuencias nucleotdicas que nos permitan dilucidar las relaciones filogenticas entre diversos organismos a partir de muestras de ADN secuenciados de genes marcadores.