Upload
artaxiad-jacobs
View
30
Download
2
Embed Size (px)
DESCRIPTION
Bases de données. Applications en biologie. Explosion des données. Croissance de Genbank. Nombreux Domaines d’application. http://www.infobiogen.fr/deambulum/index.php. Types de données. Les séquences GENBANK, methDb (DNA methylation database) , Human SNP Database - PowerPoint PPT Presentation
Citation preview
03/02/2006 Hervé PHILIPPE – BIN1001 3
Nombreux Domaines d’application
Séquences
Nucléiques Protéiques Familles de protéines
Séquences immunologiques
Interrogation multi-banques Soumission de séquences aux banques
Génomes
Organismes modèles
Virus Archées Bactérie
Champignons Plantes Animaux Homme
Organites cellulaires
Données comparatives
Données métaboliques
Répertoires
Biotechnologies Lignées cellulaires
Ressources médicales
Banques de données médicales Données toxicologiques
Données bibliographiques
Bioinformatique Médecine Biologie moléculaire
Biologie & agriculture
Ressources-Portails
Serveurs FTP de séquences Banques de banques de données
Répertoires de banques de données Banques de données des logiciels
http://www.infobiogen.fr/deambulum/index.php
03/02/2006 Hervé PHILIPPE – BIN1001 4
Types de données Les séquences
GENBANK, methDb (DNA methylation database), Human SNP Database
Les données cartographiques GENATLAS
Les données structurales NDB (Nucleic Acids Database), PDB (Proteins Database)
Les données d'expression KEGG (Kyoto Encyclopedia of Genes and Genomes)
Les données génomiques GNN (Genome News Network), ENSEMBL
Les données fonctionnelles KEGG , UM-BBD (The University of Minnesota Biocatalysis/Biodegradation
Database)
03/02/2006 Hervé PHILIPPE – BIN1001 5
Enjeux des bases de données
Diffusion des connaissances : rapidité d’accès à l’information facilité d’interrogation mise à jour régulière
Gestion de l’explosion des entrées
Gestion de l’hétérogénéité des données
Réponse à des besoins très divers
03/02/2006 Hervé PHILIPPE – BIN1001 6
Atlas of Protein Sequences (Dayhoff) mise à jour annuelle – 50 protéines
bandes magnétiques sur abonnement
CD sur abonnement EMBL, genbank
serveurs FTP → bases de données locales
sites web mise à jour quotidienne – plusieurs millions de séquences
Toujours plus de diffusion
1968
2005
≈1970
≈1990
≈1980
≈2000
03/02/2006 Hervé PHILIPPE – BIN1001 7
Faiblesses des banques généralistes Hétérogénéité dans la nature des séquences
ADN nucléaire ou mitochondrial, ARN (t, r, m, ….), génome
Variabilité de l’état des connaissances caractérisation biologique beaucoup plus lente que le séquençage
Erreurs dans les séquences origine du fragment liées à la technologie : séquençage des extrémités difficile liées à la méthodologie : 3% d’erreur lors du séquençage des EST
Biais d’échantillonnage des espèces des gènes redondance des données
→ création de banques spécialisées
03/02/2006 Hervé PHILIPPE – BIN1001 8
Intégration des données
données hétérogènes interopérabilité : exploitation conjointe de
différentes bases pour un besoin unique représentation unifiée des données détection de nouvelles corrélations
environnement informatique homogène définition d’ontologies thésaurus de nommage interface répondant à une diversité de besoins
03/02/2006 Hervé PHILIPPE – BIN1001 9
créée en 1988 1982 : Genbank
faciliter l’utilisation des bases de données et des logiciels
accès unique à des données diverses séquences génomes structures
03/02/2006 Hervé PHILIPPE – BIN1001 10
Intégration des données
Formats standards de sauvegarde FASTA, NEXUS, PUZZLE …
Interrogation multi-bases DBGET
EMBL, Genbank, Swissprot, PIR, PRF, LITDB, PDB, PDBSTR, EPD,
Prosite, Ligand, PMD, AA-Index, OMIM Entrez
Medline, GenBank, EMBL, DDBJ, PIR, SwissProt, PRF et PDB
03/02/2006 Hervé PHILIPPE – BIN1001 11
créée en 1971 depuis 1998, gérée par le RCSB, Research Collaboratory for
Structural Bioinformatics
base de données unifiée pour collecter et distribuer TOUTES les informations ayant trait à la structure tertiaire des protéines et des acides nucléiques
≈ 30 000 structures 2004 (par mois) :
5 000 000 de fichiers téléchargés 400 structures déposées
03/02/2006 Hervé PHILIPPE – BIN1001 13
Ross, H. A., G. M. Lento, M. L. Dalebout, M. Goode, G. Ewing, P. McLaren, A. G. Rodrigo, S. Lavery, and C. S. Baker. (2003) DNA Surveillance: Web-based molecular identification of whales, dolphins and porpoises. J. Hered. 94: 111-114. Baker, C. S., M. L. Dalebout, S. Lavery, and H. A. Ross. (2003) www.DNA-surveillance: applied molecular taxonomy for species conservation and discovery. Trends Ecol. Evol. 18: 271-272.
http://www.dna-surveillance.auckland.ac.nz/
« CSI » Auckland : une base de données pour la conservation et l’identification des espèces de Cétacés par analyses ADN
03/02/2006 Hervé PHILIPPE – BIN1001 14
Origine : Identification des espèces de Cétacés chassées illégalement par l’analyse ADN d’échantillons achetés sur les marchés Coréens et JaponaisBaker CS, Palumbi S (1994). Which whales are hunted - A molecular genetic approach to monitoring whaling. Science 265: 1538-1539.
Buts : Fournir une base de données de séquences d’ADN de référence afin d’identifier formellement les espèces de Cétacés à des fins taxonomiques et de conservation
Origines et buts
03/02/2006 Hervé PHILIPPE – BIN1001 15
Échantillons « biologiques »
>inconnu cytbATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT
Séquençage d’ADN (ex. gène du Cytochrome b)
Comparaison à la base de données de séquences de référencesobtenues à partir de spécimens formellement identifiés
par construction d’un arbre phylogénétique
Principe
03/02/2006 Hervé PHILIPPE – BIN1001 16
Découverte d’une nouvelle espèce de baleine à bec (Ziphiidae)à partir de l’analyse ADN de spécimens échoués
Dalebout ML, Mead JG, Baker CS, Baker AN & van Helden AL (2002). A new species of beaked whale Mesoplodon perrini sp. n. (Cetacea: Ziphiidae) discovered through phylogenetic analyses of mitochondrial DNA sequences. Marine Mammal Science 18: 577-608.
Mesoplodon perrini
>inconnu cytbATGATCAACATTCGAAAAACACACCCATTAATAAAAATTATCAACAACGCATTTATTGATCTTCCCACTCCATCAAACATCTCCTCATGATGAAACTTTGGTTCATTACTCGGTCTCTGCCTAATCATACAAATTCTTACAGGCTTATTCCTAGCAATACACTACACACCAGACACTACAATAGCCTTTTCATCAGTTGCACACATCTGCCGAGACGTTAACTATGGTTGAATTATCCGATACCTACATGCAAATGGAGCTTCCATATTTTTTATCTGCCTTTACGCACACATTGGACGCGGTCTATATTACGGCTCTTATATTTTTCAAAAAACATGAAATATTGGAGTAATTTTACTCTTCATAGTTATAGCTACTGCATTT
Exemple d’applications
03/02/2006 Hervé PHILIPPE – BIN1001 17
http://www.barcodinglife.org/
Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes. Proc R Soc Lond BS 270: 313-321.
« Barcoding Life » : une base de données pour inventorier la
biodiversité par le séquençage de gènes « Code-barres »
03/02/2006 Hervé PHILIPPE – BIN1001 18
Idée Originale : Utiliser la séquence d’un gène ubiquiste comme « code-barre » afin d’inventorier la diversité biologique par son séquençage chez toutes les espèces vivantes Hebert PD, Cywinska A, Ball SL, deWaard JR (2003). Biological identifications through DNA barcodes.Proc R Soc Lond BS 270: 313-321.
Buts : Fournir une base de données permettant d’identifier chaque espèce animale par la séquence d’environ 600 nucléotides du gène mitochondrial de la Cytochrome Oxydase I et d’informations associées
Origines et buts
03/02/2006 Hervé PHILIPPE – BIN1001 20
Distinction de 10 espèces différentes correspondant à la spécialisationalimentaire des chenilles d’un papillon tropical (Astraptes fulgerator)
Hebert PD, Penton EH, Burns JM, Janzen DH, Hallwachs W (2004). Ten species in one: DNA barcoding reveals cryptic species in the neotropical skipper butterfly Astraptes fulgerator. Proc Natl Acad Sci USA 101: 14812-14817.
Exemple d’application