Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Bases de datos biológicas
Dr. Eduardo A. RODRÍGUEZ TELLO
CINVESTAV-Tamaulipas
28 de mayo del 2013
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 1 / 50
1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicasDesventajas de las bases de datos biológicasRecuperación de información de las BD biológicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 2 / 50
Bases de datos biológicas Introducción
1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicasDesventajas de las bases de datos biológicasRecuperación de información de las BD biológicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 3 / 50
Bases de datos biológicas Introducción
Introducción
Recordemos que en computación una Base de Datos (BD) es unconjunto de datos pertenecientes a un mismo contexto yalmacenados sistemáticamente para su posterior utilización
El objetivo principal del desarrollo de una BD es organizar losdatos en un conjunto de registros estructurados que permitanrecuperar fácilmente la información
Cada registro está compuesto por un número determinado decampos que contienen datos específicos, por ejemplo: nombres,números de teléfono, etc.
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 4 / 50
Bases de datos biológicas Introducción
Introducción
Para recuperar un registro particular de la base de datos, unusuario puede especificar una pieza de información, llamadavalor, que será encontrada en un campo en especial. Lacomputadora entonces recuperará el registro completo
Este proceso es llamado consulta
Aun cuando la recuperación de información es el principal objetivode todas las BD, las BD biológicas a menudo tienen unrequerimiento de más alto nivel, conocido como descubrimientode conocimiento
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 5 / 50
Bases de datos biológicas Introducción
Introducción
Este se refiere a la identificación de conexiones entre piezas deinformación que no eran conocidas cuando la información fueintroducida por primera vez
Por ejemplo, en las BD que contienen información cruda (sinprocesar) de secuencias de ADN se pueden realizar tareas extraspara identificar homología de secuencias o motivos conservados
Con lo cual se prodría facilitar el descubrimiento de nuevosconocimientos biológicos a partir de datos crudos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 6 / 50
Bases de datos biológicas Tipos de bases de datos
1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicasDesventajas de las bases de datos biológicasRecuperación de información de las BD biológicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 7 / 50
Bases de datos biológicas Tipos de bases de datos
Tipos de bases de datos
Originalmente, todas las bases de datos utilizaban un formato dearchivo plano, que es un largo archivo de texto que contienemuchas entradas separadas por un delimitador, un carácterespecial como por ejemplo una barra vertical (|)
Dentro de cada entrada hay una serie de campos separados portabuladores o comas
Además de los valores crudos en cada campo, el archivo de textono contiene instrucciones ocultas para las computadoras parabuscar información específica o para la creación de informesbasados en determinados campos de cada registro
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 8 / 50
Bases de datos biológicas Tipos de bases de datos
Tipos de bases de datos
BD en un archivo plano
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 9 / 50
Bases de datos biológicas Tipos de bases de datos
Tipos de bases de datos
El archivo de texto puede ser considerado como una tabla única
Por lo tanto, para buscar en un archivo plano una determinadapieza de información, la computadora tiene que leer todo elcontenido del archivo, obviamente, se trata de un procesodemasiado ineficiente
Esto es manejable para una pequeña BD, pero a medida queaumenta el tamaño de ésta o los tipos de datos se vuelven máscomplejos, este estilo de BD puede ser muy complicado para larecuperación de información
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 10 / 50
Bases de datos biológicas Tipos de bases de datos
Tipos de bases de datos
De hecho, las búsquedas a través de estos archivos suelencausar fallos de todo el sistema debido al uso intensivo dememoria que requiere la operación
Para facilitar el acceso y recuperación de datos, sofisticadosprogramas de software se han desarrollado
Estos programas reciben el nombre de sistemas de gestión debases de datos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 11 / 50
Bases de datos biológicas Tipos de bases de datos
Tipos de bases de datos
Estos sistemas no sólo contienen los registros de datos crudos,sino también instrucciones operacionales (estructuras de datos)para ayudar a identificar las conexiones ocultas entre los registrosde datos
El propósito de establecer una estructura de datos es para facilitarla ejecución de las consultas y para combinar diferentes registroscon el fin de formar informes de consultas
Dependiendo de los tipos de estructuras de datos, estos sistemasde gestión de bases de datos se pueden clasificar en diferentestipos: jerárquicos, de red, relacionales, orientados a objetos, etc...
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 12 / 50
Bases de datos biológicas Tipos de bases de datos
Tipos de bases de datos
BD jerárquica
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 13 / 50
Bases de datos biológicas Tipos de bases de datos
Tipos de bases de datos
BD de red
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 14 / 50
Bases de datos biológicas Tipos de bases de datos
Tipos de bases de datos
BD relacional
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 15 / 50
Bases de datos biológicas Tipos de bases de datos
Tipos de bases de datos
BD orientada a objetos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 16 / 50
Bases de datos biológicas Bases de datos biológicas
1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicasDesventajas de las bases de datos biológicasRecuperación de información de las BD biológicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 17 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos biológicas
En la actualidad los tres principales tipos de sistemas de gestiónde bases de datos utilizados para almacenar datos biológicosson:
1 Archivos planos2 BD relacionales3 BD orientadas a objetos
A pesar de las evidentes desventajas de la utilización de archivosplanos en la gestión de los datos, muchas BD biológicas siguenutilizando este formato
La justificación de esto es que este sistema no requiere tenerconocimientos avanzados sobre diseño de BD, además de quelos resultados de una búsqueda pueden ser fácilmentecomprendidos por los biólogos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 18 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos biológicas
Basado en su contenido, las BD biológicas pueden clasificarse entres categorías:
1 BD primarias2 BD secundarias3 BD especializadas
Las BD primarias contienen datos biológicos originales
Son repositorios de secuencias crudas o datos estructuralessometidos por la comunidad científica
Tanto GenBank como PDB (Protein Data Bank) son ejemplos deBD primarias
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 19 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos biológicas
Las BD secundarias contienen información procesadacomputacional o manualmente por un experto, a partir deinformación original de las bases de datos primarias
Las BD de secuencias traducidas de proteínas que contienenanotaciones funcionales pertenecen a esta categoría
Algunos ejemplos son: SWISS-Prot y PIR (Protein InformationResources) que es sucesor del Atlas of Protein Sequence andStructure
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 20 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos biológicas
Las BD especializadas son aquellas dedicadas un interés deinvestigación particular
Por ejemplo, Flybase, HIV sequence database, y RibosomalDatabase Project son BD que se especializan en un determinadoorganismo o en un tipo particular de datos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 21 / 50
Bases de datos biológicas
Bases de datos biológicas Bases de datos biológicas
1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicas
Bases de datos primariasBases de datos secundariasBases de datos especializadasInterconexión entre bases de datos biológicas
Desventajas de las bases de datos biológicasRecuperación de información de las BD biológicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 23 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos primarias
Hay tres grandes BD públicas de secuencias que almacenandatos crudos de secuencias de ácido nucleico, producidos ysometidos por investigadores de todo el mundo: GenBank, EMBL(European Molecular Biology Laboratory) y DDBJ (DNA DataBank of Japan).
Todas son accesibles de manera gratuita a través de Internet
La mayoría de los datos en estas BD son aportados directamentepor los autores con un nivel mínimo de anotación
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 24 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos primarias
Actualmente, el someter las secuencias, ya sea a GenBank,EMBL, o DDBJ es una precondición para su publicación en lamayoría de las revistas científicas
Esto es para garantizar que los datos moleculares fundamentalesestén disponibles gratuitamente
Estas tres bases de datos públicas colaboran estrechamente eintercambian los datos nuevos cada día
Juntas constituyen el INSDC (International Nucleotide SequenceDatabase Collaboration)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 25 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos primarias
Esto significa que mediante la conexión a cualquiera de las tresBD, se pude tener acceso a los mismos datos de la secuencia denucleótidos
Aunque las tres BD contienen el mismo conjuntos de datosprimarios, cada una de ellas tiene tipo un formato ligeramentediferente para representar esos datos
Afortunadamente, para la estructura tridimensional demacromoléculas biológicas, sólo hay una BD centralizada, el PDB(Protein Data Bank)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 26 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos primarias
Esta BD contiene coordenadas atómicas de macromoléculas(proteínas y ácidos nucleicos), determinadas por cristalografía derayos X y resonancia magnética nuclear (RMN)
Utiliza un formato de archivo plano para representar el nombre deproteína, los autores, detalles experimentales, la estructurasecundaria, cofactores, y las coordenadas atómicas
La interfaz Web de PDB también proporciona herramientas devisualización sencillas para la manipulación de la imagen
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 27 / 50
Bases de datos biológicas Bases de datos biológicas
1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicas
Bases de datos primariasBases de datos secundariasBases de datos especializadasInterconexión entre bases de datos biológicas
Desventajas de las bases de datos biológicasRecuperación de información de las BD biológicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 28 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos secundarias
Las anotaciones adicionales a las secuencias en una BD primariason a menudo mínimas
Por su parte las BD secundarias, contienen información desecuencias procesadas computacionalmente derivada de las BDprimarias
Un ejemplo importante de una BD secundaria es SWISS-PROT,la cual provee anotaciones detalladas de las secuencias queincluyen: estructura, función y familia de proteínas a la quepertenecen
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 29 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos secundarias
Los datos de secuencias son principalmente derivados deTrEMBL, una BD de secuencias traducidas de ácido nucleicoalmacenadas en la BD EMBL
Las anotaciones a cada entrada es cuidadosamente supervisadapor expertos y por lo tanto son de calidad
Las anotaciones en las proteínas incluyen: función, estructura dedominios, sitios catalíticos, cofactor vinculante, modificaciónposttraducción, información de vía metabólica, asociación conenfermedades, y similitud con otras secuencias
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 30 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos secundarias
La mayoría de esta información es obtenida de la literaturacientífica e introducida por expertos encargados de la BD
Las anotaciones proporcionan un valor agregado significativo acada registro de una secuencia original
El registro de datos también proporciona enlaces de referenciascruzadas a otros recursos en línea de interés
Otras características tales como la muy baja redundancia y el altonivel de integración con otras BD primarias y secundarias hacenque SWISS-PROT sea muy popular entre los biólogos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 31 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos secundarias
Recientemente se ha hecho un esfuerzo por combinarSWISS-PROT, TrEMBL, y PIR para crear la BD UniProt, la cualtiene una mayor cobertura que cualquiera de las 3 BD
Al mismo tiempo mantiene las características originales deSWISS-PROT en cuanto a una baja redundancia, referenciascruzadas, y una alta calidad de las anotaciones
También existen BD secundarias que se relacionan con laclasificación de familias de proteínas de acuerdo a su función oestructura
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 32 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos secundarias
Las BD Pfam y Blocks contienen información de alineamiento desecuencias de proteínas así como también de motivos derivadosy patrones, la cual puede ser usada para clasificar familias deproteínas e inferir sus funciones
DALI es una BD secundaria de estructuras de proteínas que esvital para la clasificación de estructuras de proteínas y análisis deéstas para identificar relaciones evolucionarías entre proteínas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 33 / 50
Bases de datos biológicas Bases de datos biológicas
1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicas
Bases de datos primariasBases de datos secundariasBases de datos especializadasInterconexión entre bases de datos biológicas
Desventajas de las bases de datos biológicasRecuperación de información de las BD biológicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 34 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos especializadas
Las BD especializadas sirven normalmente a una comunidadcientífica específica o se enfocan a un organismo particular
Las secuencias en estas BD pueden traslaparse con una BDprimaria, pero puede también contener nuevos datos enviadospor los autores
Debido a que comúnmente están supervisadas por expertos en elcampo, pueden tener organizaciones únicas y anotacionesadicionales asociadas a las secuencias
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 35 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos especializadas
Muchas BD genómicas que son específicas a una taxonomíacaen en esta categoría
Flybase, WormBase, AceDB, y TAIR son ejemplos de este tipo deBD
Además, también hay BD especializadas que contienen datosoriginales derivados de análisis funcionales
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 36 / 50
Bases de datos biológicas Bases de datos biológicas
Bases de datos especializadas
Por ejemplo, GenBank EST y MGED (Microarray GeneExpression Database) del Instituto Europeo de Bioinformática sonalgunas de las BD de expresión de genes disponibles
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 37 / 50
Bases de datos biológicas Bases de datos biológicas
1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicas
Bases de datos primariasBases de datos secundariasBases de datos especializadasInterconexión entre bases de datos biológicas
Desventajas de las bases de datos biológicasRecuperación de información de las BD biológicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 38 / 50
Bases de datos biológicas Bases de datos biológicas
Interconexión entre bases de datos biológicas
Como mencionamos, las BD primarias son repositorios centralesy distribuidores de secuencias crudas e información estructural
Sin embargo, comúnmente los usuarios necesitan obtenerinformación tanto de BD primarias como secundarias pararealizar sus tareas porque la información contenida en una solaBD no es suficiente
En vez de dejar a los usuarios que visiten múltiples BD, esconveniente que las entradas en una BD sean referenciascruzadas y ligas a entradas relacionadas en otras BD
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 39 / 50
Bases de datos biológicas Bases de datos biológicas
Interconexión entre bases de datos biológicas
Esto crea la necesidad de ligar diferentes BD
El principal obstaculo para ligar diferentes BD es la actualincompatibilidad de formatos, debido a que se utilizan estructurasheterogéneas (archivos planos, BD relacionales y orientadas aobjetos)
Una solución es utilizar el estándar conocido como CORBA(Common Object Request Broker Architecture)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 40 / 50
Bases de datos biológicas Bases de datos biológicas
Interconexión entre bases de datos biológicas
CORBA permite a las aplicaciones con BD en diferentesubicaciones comunicarse en una red a través de una plataformaque facilita la invocación de métodos remotos bajo un paradigmaorientado a objetos
Todo esto ocurre sin necesidad de que una BD conozca laestructura de otra
Otra alternativa es el uso de XML (eXtensible Markup Language)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 41 / 50
Bases de datos biológicas Desventajas de las bases de datos biológicas
1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicasDesventajas de las bases de datos biológicasRecuperación de información de las BD biológicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 42 / 50
Bases de datos biológicas Desventajas de las bases de datos biológicas
Desventajas de las bases de datos biológicas
Uno de los problemas asociados a las BD biológicas es el excesode confianza en la información de secuencias y anotacionesrelacionadas, sin tomar en cuenta la fiabilidad de la información
A menudo se ignora el hecho de que hay demasiados errores enlas BD de secuencias
Por ejemplo la mayoría de los errores en las secuencias denucleótidos son causadas por errores en la secuenciación
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 43 / 50
Bases de datos biológicas Desventajas de las bases de datos biológicas
Desventajas de las bases de datos biológicas
Algunos de esos errores causan desplazamientos que hacen quetoda la identificación del gen se dificulte o que la traducción de laproteína sea imposible
Generalmente los errores de este tipo son más comunes ensecuencias producidas antes de los años 1990 (actualmente lacalidad ha mejorado)
El verdadero problema es que estos errores pueden propagarse aotras BD
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 44 / 50
Bases de datos biológicas Desventajas de las bases de datos biológicas
Desventajas de las bases de datos biológicas
Otro problema con las BD primarias son los altos niveles deredundancia
Las causas de estas redundancia incluyen envíos repetidos desecuencias idénticas o que se traslapan, una administracióndeficiente de las BD, etc.
Todo esto provoca que las BD primarias sean excesivamentegrandes lo que complica la recuperación de información
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 45 / 50
Bases de datos biológicas Recuperación de información de las BD biológicas
1 Bases de datos biológicasIntroducciónTipos de bases de datosBases de datos biológicasDesventajas de las bases de datos biológicasRecuperación de información de las BD biológicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 46 / 50
Bases de datos biológicas Recuperación de información de las BD biológicas
Recuperación de información de las BD biológicas
Como mencionamos, el objetivo principal del desarrollo de BD esproveer acceso eficiente y amigable a los datos almacenados
Existen algunos sistemas especialmente diseñados pararecuperar información biológica
Los sistemas de recuperación de información más populares paraBD biológicas son Entrez y SRS (Sequence Retrieval Systems)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 47 / 50
Bases de datos biológicas Recuperación de información de las BD biológicas
Recuperación de información de las BD biológicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 48 / 50
Bases de datos biológicas Recuperación de información de las BD biológicas
Recuperación de información de las BD biológicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 49 / 50
Bases de datos biológicas Recuperación de información de las BD biológicas
Recuperación de información de las BD biológicas
Estos proveen acceso a múltiples BD para recuperación integradade resultados de búsquedas
Este tipo de sistemas ofrece la posibilidad de efectuar consultascomplejas a través del uso de operadores Booleanos (AND, OR,NOT)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bases de datos biológicas 28 de mayo del 2013 50 / 50