22
Bases de données en biologie [email protected] Institut National de Recherche en Informatique et en Automatique

Bases de données en biologie

  • Upload
    nitara

  • View
    47

  • Download
    2

Embed Size (px)

DESCRIPTION

Bases de données en biologie. [email protected] Institut National de Recherche en Informatique et en Automatique. Plan du cours : Bases de données en biologie. Historique. BD séquences généralistes. - séquences nucléotidiques - séquences protéiques. Rappels de BIO. - PowerPoint PPT Presentation

Citation preview

Page 1: Bases de données en biologie

Bases de données en biologie

[email protected]

Institut National de Recherche en Informatique et en Automatique

Page 2: Bases de données en biologie

• BD séquences généralistes- séquences nucléotidiques- séquences protéiques

• BD bibliographiques

• Historique

Plan du cours : Bases de données en biologie

Rappels de BIO

• BD spécialisées - par organisme- par thématique (problématique bio)

Violaine Pillet+ Extraction d ’information à partir de textes

• Des bases de données aux bases de connaissances

Page 3: Bases de données en biologie

Bases de données en biologie

• Bases de données dédiées à la biologie moléculaire

• Complément essentiel aux données de la littérature scientifique spécialisée

• Premier point de contact avec l’informatique pour les biologistes

• Outil essentiel pour la recherche en biologie

Page 4: Bases de données en biologie

• BD séquences généralistes- séquences nucléotidiques- séquences protéiques

• Historique

Bases de données en biologie

• BD spécialisées - par organisme- par thématique (problématique bio)

PLAN

Page 5: Bases de données en biologie

Historique (1)

• 1965: Première compilation de protéinesMargaret Dayhoff: Atlas of Protein Sequences (50 entrées)Imprimé jusqu ’en 1978, puis format électronique

• Début des années 80: premières grandes banques de séquences généralistes

• 1954: Première séquence de protéine (insuline, Sanger)

• 1958: Première structure 3D de protéine (myoglobine, Kendrew)

• 1971: PDB - Protein Data Bank (struct. 3D macromolécules)

• 1985: CABIOS (première revue de bioinformatique)

Page 6: Bases de données en biologie

Historique (2)

• Juin 2000: A grand renfort de publicité séquence du génome humain (3 109 bp)

• 1995: Premier génome bactérien entièrement séquencé Haemophilus influenzae (2 106 bp)

• 1999: Premier organisme multicellulaire Caenorhabditis elegans (108 bp)

• 1992: Séquence du Chromosome III de la levure (3 105 bp)

• 1988 : Processus de double publicationDépôt des séquences aux banques avant soumission de l ’article associé aux revues scientifiques

Page 7: Bases de données en biologie

Banques de données

• Banque : les séquences sont déposés directement par les chercheurs qui les ont obtenues, sous leur seule responsabilité.

Page 8: Bases de données en biologie

• Collection de données– structurées – requêtable (index) – périodiquement mises à jour (release)– références croisées (hyperliens)

• Outils associés- accès à la base- mise à jour (insertion, délétion,…)

• Système de gestion - fichiers à plat (ASCII)- SGBD relationnel …

Base de données

Page 9: Bases de données en biologie

• Difficile d ’identifier le nombre exact de BD. > 1000

• Taille variable : < 100 Ko to > 10 Go– Seq. nucléique: > 10 Go– Seq. protéique: 1 Go– Structures 3D: 5 Go

• Fréquence de mise à jour: - jour année

Quelques stats

Page 10: Bases de données en biologie

AATDB, AceDb, ACUTS, ADB, AFDB, AGIS, AMSdb, ARR, AsDb, BBDB, BCGD, Beanref, Biolmage,BioMagResBank, BIOMDB, BLOCKS, BovGBASE,

BOVMAP, BSORF, BTKbase, CANSITE, CarbBank,CARBHYD, CATH, CAZY, CCDC, CD4OLbase, CGAP,

ChickGBASE, Colibri, COPE, CottonDB, CSNDB, CUTG,CyanoBase, dbCFC, dbEST, dbSTS, DDBJ, DGP, DictyDb,Picty_cDB, DIP, DOGS, DOMO, DPD, DPlnteract, ECDC,ECGC, EC02DBASE, EcoCyc, EcoGene, EMBL, EMD db,ENZYME, EPD, EpoDB, ESTHER, FlyBase, FlyView,GCRDB, GDB, GENATLAS, Genbank, GeneCards,

Genline, GenLink, GENOTK, GenProtEC, GIFTS,GPCRDB, GRAP, GRBase, gRNAsdb, GRR, GSDB,

HAEMB, HAMSTERS, HEART-2DPAGE, HEXAdb, HGMD,HIDB, HIDC, HlVdb, HotMolecBase, HOVERGEN, HPDB,HSC-2DPAGE, ICN, ICTVDB, IL2RGbase, IMGT, Kabat,KDNA, KEGG, Klotho, LGIC, MAD, MaizeDb, MDB,Medline, Mendel, MEROPS, MGDB, MGI, MHCPEP5

Micado, MitoDat, MITOMAP, MJDB, MmtDB, Mol-R-Us,MPDB, MRR, MutBase, MycDB, NDB, NRSub, 0-lycBase,OMIA, OMIM, OPD, ORDB, OWL, PAHdb, PatBase, PDB,PDD, Pfam, PhosphoBase, PigBASE, PIR, PKR, PMD,PPDB, PRESAGE, PRINTS, ProDom, Prolysis, PROSITE,

PROTOMAP, RatMAP, RDP, REBASE, RGP, SBASE,SCOP, SeqAnaiRef, SGD, SGP, SheepMap, Soybase,SPAD, SRNA db, SRPDB, STACK, StyGene,Sub2D,

SubtiList, SWISS-2DPAGE, SWISS-3DIMAGE, SWISS-MODEL Repository, SWISS-PROT, TelDB, TGN, tmRDB,TOPS, TRANSFAC, TRR, UniGene, URNADB, V BASE,VDRR, VectorDB, WDCM, WIT, WormPep, YEPD, YPD,

YPM, etc, etc, etc...... !!!!

Bases de données - biologie moléculaire

Page 11: Bases de données en biologie

• Numéro de janvier de la revue: Nucleic Acids Research

http://nar.oupjournals.org

> 100 articles décrivant les bases les plus importantes et introduisant les nouvelles.

La version électronique de la revue permet d’accéder à une liste de ~ 300 BDhttp://www3.oup.co.uk/nar/database/c/

Bases de données - accessibilité (1)

• Généralement accessibles au travers du webAttention toutes ne sont pas gratuites

Page 12: Bases de données en biologie

Plusieurs sites Web ont pour vocation de répertorier l’ensemble des bases disponibles.

Bases de données - accessibilité (2)

Page 13: Bases de données en biologie

www.infobiogen.fr/services/dbcat

Bases de données - accessibilité (3)

Page 14: Bases de données en biologie

Bases de données - accessibilité (4)

www.expasy.ch/alinks.html

Page 15: Bases de données en biologie

• BD séquences généralistes- séquences nucléotidiques- séquences protéiques

• Historique

Rappels de BIO• BD spécialisées

- par organisme- par thématique (problématique bio)

Bases de données en biologie PLAN

Page 16: Bases de données en biologie

La séquence: élément central autour duquel les banques de données se sont constituées

BD séquences

Dogme central de la biologie moléculaire

Page 17: Bases de données en biologie

BD séquences

Bases de séquences Adresse Bases génériques (multi- organismes)EMBL / trEMBL http:/ / www.ebi.ac.uk/ embl/Genbank / GenPept http:/ / www.ncbi.nlm.nih.gov/ entrezDDBJ (DNA Data Bank of J apan) http:/ / www.ddbj .nig.ac.jp/SwissProt http:/ / www.expasy.org/ sprot/ Bases spécialisées (organisme)GenoList http:/ / genolist.pasteur.f rCyanobase http:/ / www.kazusa.or.jp/ cyano/TAI R (The Arabidopsis I nformation Resource) http:/ / www.arabidopsis.orgFlyBase (Database of the Drosophila Genome) http:/ / flybase.bio.indiana.edu/MGD (Mouse Genome Database) http:/ / www.informatics.jax.org/GDB (Human Genome data Base) http:/ / gdbwww.gdb.org/ Bases spécialisées (thématique)PROSI TE http:/ / www.expasy.org/ prositeeMOTI F http:/ / f old.stanford.edu/ motifEPD (Eukaryotic Promoter Database) http:/ / www.epd.isb-sib.ch/

Page 18: Bases de données en biologie

Banques de séquences généralistes (nt)

Banques de séquences nucléotidiques

• ADN / ARN• gènes (CDS, ARNr, ARNt,..)• signaux de régulation

Séquences nucléiques

• EMBL

• Genbank

• DDBJ

Mission • rendre publiques les données issues des fonds publics, donc collectives

Page 19: Bases de données en biologie

Banques nucléiques: Genbank + EMBL + DDBJ

• les banques Genbank, EMBL et DDBJ s ’échangent systématiquement leur contenu

• adoptent un système de conventions communes(The DDBJ/EMBL/Genbank feature Table Definition)

Depuis 1987,

Page 20: Bases de données en biologie

Banques nucléiques: Genbank + EMBL + DDBJ

Page 21: Bases de données en biologie

Banques nucléiques: Genbank + EMBL + DDBJ

Ces grandes banques généralistes, internationales, sont devenues indispensables à la communauté scientifique• Mémoire des données produites dans les laboratoires

- scientifiques- projet de séquençage d ’un génome- centres de séquençages- bureau des brevets (EPO: European Pantent Office)

gènes, ESTs, génomes complets,...

• Gisement de connaissances à explorer

• Diversité des organismes (> 50 ’000 espèces différentes) analyse de type évolutif (phylogénie moléculaire)

Page 22: Bases de données en biologie

Banques nucléiques: Genbank + EMBL + DDBJ

Mais...

• Données redondantes Archive : pas de vérification

• Données hétérogènesgénomes, variants, fragmentstaille min: 10 bptaille max: 300,000 bp (fragments de génomes)Genome division (http://www.ebi.ac.uk/genomes/)

• Qualité variableErreurs: séquences, annotationsAnnotations (données associées aux séquences) hétérogènes

= responsabilité de l ’auteurdonnées incomplètes

pas de remise à jour

Problème de propagation des erreurs = effet boule de neige