22
Bases de données Applications en biologie

Bases de données

Embed Size (px)

DESCRIPTION

Bases de données. Applications en biologie. Explosion des données. Croissance de Genbank. Nombreux Domaines d’application. http://www.infobiogen.fr/deambulum/index.php. Types de données. Les séquences GENBANK, methDb (DNA methylation database) , Human SNP Database - PowerPoint PPT Presentation

Citation preview

Bases de données

Applications en biologie

03/02/2006 Hervé PHILIPPE – BIN1001 2

Explosion des données

Croissance de Genbank

03/02/2006 Hervé PHILIPPE – BIN1001 3

Nombreux Domaines d’application

Séquences

Nucléiques Protéiques Familles de protéines

Séquences immunologiques

Interrogation multi-banques Soumission de séquences aux banques

Génomes

Organismes modèles

Virus Archées Bactérie

Champignons Plantes Animaux Homme

Organites cellulaires

Données comparatives

Données métaboliques

Répertoires

Biotechnologies Lignées cellulaires

Ressources médicales

Banques de données médicales Données toxicologiques

Données bibliographiques

Bioinformatique Médecine Biologie moléculaire

Biologie & agriculture

Ressources-Portails

Serveurs FTP de séquences Banques de banques de données

Répertoires de banques de données Banques de données des logiciels

http://www.infobiogen.fr/deambulum/index.php

03/02/2006 Hervé PHILIPPE – BIN1001 4

Types de données Les séquences

GENBANK, methDb (DNA methylation database), Human SNP Database

Les données cartographiques GENATLAS

Les données structurales NDB (Nucleic Acids Database), PDB (Proteins Database)

Les données d'expression KEGG (Kyoto Encyclopedia of Genes and Genomes)

Les données génomiques GNN (Genome News Network), ENSEMBL

Les données fonctionnelles KEGG , UM-BBD (The University of Minnesota Biocatalysis/Biodegradation

Database)

03/02/2006 Hervé PHILIPPE – BIN1001 5

Enjeux des bases de données

Diffusion des connaissances : rapidité d’accès à l’information facilité d’interrogation mise à jour régulière

Gestion de l’explosion des entrées

Gestion de l’hétérogénéité des données

Réponse à des besoins très divers

03/02/2006 Hervé PHILIPPE – BIN1001 6

Atlas of Protein Sequences (Dayhoff) mise à jour annuelle – 50 protéines

bandes magnétiques sur abonnement

CD sur abonnement EMBL, genbank

serveurs FTP → bases de données locales

sites web mise à jour quotidienne – plusieurs millions de séquences

Toujours plus de diffusion

1968

2005

≈1970

≈1990

≈1980

≈2000

03/02/2006 Hervé PHILIPPE – BIN1001 7

Faiblesses des banques généralistes Hétérogénéité dans la nature des séquences

ADN nucléaire ou mitochondrial, ARN (t, r, m, ….), génome

Variabilité de l’état des connaissances caractérisation biologique beaucoup plus lente que le séquençage

Erreurs dans les séquences origine du fragment liées à la technologie : séquençage des extrémités difficile liées à la méthodologie : 3% d’erreur lors du séquençage des EST

Biais d’échantillonnage des espèces des gènes redondance des données

→ création de banques spécialisées

03/02/2006 Hervé PHILIPPE – BIN1001 8

Intégration des données

données hétérogènes interopérabilité : exploitation conjointe de

différentes bases pour un besoin unique représentation unifiée des données détection de nouvelles corrélations

environnement informatique homogène définition d’ontologies thésaurus de nommage interface répondant à une diversité de besoins

03/02/2006 Hervé PHILIPPE – BIN1001 9

créée en 1988 1982 : Genbank

faciliter l’utilisation des bases de données et des logiciels

accès unique à des données diverses séquences génomes structures

03/02/2006 Hervé PHILIPPE – BIN1001 10

Intégration des données

Formats standards de sauvegarde FASTA, NEXUS, PUZZLE …

Interrogation multi-bases DBGET

EMBL, Genbank, Swissprot, PIR, PRF, LITDB, PDB, PDBSTR, EPD,

Prosite, Ligand, PMD, AA-Index, OMIM Entrez

Medline, GenBank, EMBL, DDBJ, PIR, SwissProt, PRF et PDB

03/02/2006 Hervé PHILIPPE – BIN1001 11

créée en 1971 depuis 1998, gérée par le RCSB, Research Collaboratory for

Structural Bioinformatics

base de données unifiée pour collecter et distribuer TOUTES les informations ayant trait à la structure tertiaire des protéines et des acides nucléiques

≈ 30 000 structures 2004 (par mois) :

5 000 000 de fichiers téléchargés 400 structures déposées

03/02/2006 Hervé PHILIPPE – BIN1001 12

GPGRDB

03/02/2006 Hervé PHILIPPE – BIN1001 13

Ross, H. A., G. M. Lento, M. L. Dalebout, M. Goode, G. Ewing, P. McLaren, A. G. Rodrigo, S. Lavery, and C. S. Baker. (2003) DNA Surveillance: Web-based molecular identification of whales, dolphins and porpoises. J. Hered. 94: 111-114. Baker, C. S., M. L. Dalebout, S. Lavery, and H. A. Ross. (2003) www.DNA-surveillance: applied molecular taxonomy for species conservation and discovery. Trends Ecol. Evol. 18: 271-272.

http://www.dna-surveillance.auckland.ac.nz/

« CSI » Auckland : une base de données pour la conservation et l’identification des espèces de Cétacés par analyses ADN

03/02/2006 Hervé PHILIPPE – BIN1001 14

Origine : Identification des espèces de Cétacés chassées illégalement par l’analyse ADN d’échantillons achetés sur les marchés Coréens et JaponaisBaker CS, Palumbi S (1994). Which whales are hunted - A molecular genetic approach to monitoring whaling. Science 265: 1538-1539.

Buts : Fournir une base de données de séquences d’ADN de référence afin d’identifier formellement les espèces de Cétacés à des fins taxonomiques et de conservation

Origines et buts

03/02/2006 Hervé PHILIPPE – BIN1001 15

Échantillons « biologiques »

>inconnu cytbATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT

Séquençage d’ADN (ex. gène du Cytochrome b)

Comparaison à la base de données de séquences de référencesobtenues à partir de spécimens formellement identifiés

par construction d’un arbre phylogénétique

Principe

03/02/2006 Hervé PHILIPPE – BIN1001 16

Découverte d’une nouvelle espèce de baleine à bec (Ziphiidae)à partir de l’analyse ADN de spécimens échoués

Dalebout ML, Mead JG, Baker CS, Baker AN & van Helden AL (2002). A new species of beaked whale Mesoplodon perrini sp. n. (Cetacea: Ziphiidae) discovered through phylogenetic analyses of mitochondrial DNA sequences. Marine Mammal Science 18: 577-608.

Mesoplodon perrini

>inconnu cytbATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT

Exemple d’applications

03/02/2006 Hervé PHILIPPE – BIN1001 17

http://www.barcodinglife.org/

Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes. Proc R Soc Lond BS 270: 313-321.

« Barcoding Life » : une base de données pour inventorier la

biodiversité par le séquençage de gènes « Code-barres »

03/02/2006 Hervé PHILIPPE – BIN1001 18

Idée Originale : Utiliser la séquence d’un gène ubiquiste comme « code-barre » afin d’inventorier la diversité biologique par son séquençage chez toutes les espèces vivantes Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes.Proc R Soc Lond BS 270: 313-321.

Buts : Fournir une base de données permettant d’identifier chaque espèce animale par la séquence d’environ 600 nucléotides du gène mitochondrial de la Cytochrome Oxydase I et d’informations associées

Origines et buts

03/02/2006 Hervé PHILIPPE – BIN1001 19

Contenu de la base de données

03/02/2006 Hervé PHILIPPE – BIN1001 20

Distinction de 10 espèces différentes correspondant à la spécialisationalimentaire des chenilles d’un papillon tropical (Astraptes fulgerator)

Hebert PD, Penton EH, Burns JM, Janzen DH, Hallwachs W (2004). Ten species in one: DNA barcoding reveals cryptic species in the neotropical skipper butterfly Astraptes fulgerator. Proc Natl Acad Sci USA 101: 14812-14817.

Exemple d’application

03/02/2006 Hervé PHILIPPE – BIN1001 21

Quelques exemples

03/02/2006 Hervé PHILIPPE – BIN1001 22

GPCRDB