64
données en biologie moléculaire : de la donnée à la structure Eric Viara CRI INFOBIOGEN / SYSRA Conférence BDA’02

Banques et bases de données en biologie moléculaire : de la donnée à la structure

  • Upload
    tybalt

  • View
    36

  • Download
    0

Embed Size (px)

DESCRIPTION

Banques et bases de données en biologie moléculaire : de la donnée à la structure. Eric Viara CRI INFOBIOGEN / SYSRA Conférence BDA’02. Objet de la présentation (1). Quelques mots de biologie L a situation actuelle en bioinformatique : - PowerPoint PPT Presentation

Citation preview

Page 1: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Banques et bases de données en biologie moléculaire :de la donnée à la structure

Eric ViaraCRI INFOBIOGEN / SYSRA

Conférence BDA’02

Page 2: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Objet de la présentation (1)

Quelques mots de biologie La situation actuelle en bioinformatique :

au travers d'un panorama des banques de données et traitements exploités par le CRI INFOBIOGEN

un système d'intégration de données

Page 3: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Objet de la présentation (2)

Une approche fédérative et orientée objet développée par SYSRA et INFOBIOGEN dans le cadre d'un projet d'intégration et de manipulation de données génomiques et protéomiques basé sur le SGBDO EYEDB

Page 4: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le CRI INFOBIOGEN (1) Centre National de Ressources

bioinformatique (Genopole/Université d'Evry)

Informatique appliquée à la biologie Mise à disposition des banques de

données et codes de calcul Accès anonymes WEB (4 000 visites/jour)

et authentifiés (5 000 comptes) Assistance technique aux utilisateurs

Page 5: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le CRI INFOBIOGEN (2) Recherche & Développement :

bases de données, intégration de données interfaces homme/machine traitement intensifs génomiques (TERAPROT

avec le CEA/DAM) Equipement serveurs SUN E10K (48

CPU, 26 Go mémoire, 4 To) Evolution SF15K en cours Connectique Internet Renater 155 Mbps

Page 6: Banques et bases de données en biologie moléculaire : de la donnée à la structure

SYSRA Société créée en 1993 par Eric Viara Activités de service : CNRS, INSERM,

GENOPLANTE, INFOBIOGEN, GENE-IT, GENETHON, UNIVERSITE D’EVRY …

Activités R&D : développement du SGBDO EYEDB, intégration de données en biologie moléculaire.

Collaboration avec INFOBIOGEN depuis 1994

Collaboration avec GENE-IT

Page 7: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Quelques mots de bio (1) La grande majorité des êtres vivants

contient une ou plusieurs cellules Une cellule contient :

procaryotes : une molécule d’ADN (acide désoxyribonucléique)

eucaryotes : plusieurs molécules d’ADN présentes dans les chromosomes situés dans un compartiment cellulaire : le noyau

L’ADN est constitué de nucléotides : T A G C

Page 8: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Quelques mots de bio (2) Une partie de l’ADN est transcrite en ARN

(acide ribonucléique) => transcription L’ARN est constitué de nucléotides : U A G C L’ARN est traduite en protéines => traduction Les protéines sont constituées d’acides aminés

: 20 acides aminés Les protéines confèrent à chaque organisme

son originalité spécifique et individuelle

Page 9: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Quelques mots de bio (3) L’ADN :

constitue le matériel génétique des êtres vivants : les segments d’ADN situés sur un chromosome porteurs d’une information génétique (i.e. utilisés dans le processus de transcription) sont les gènes

confèrent aux êtres vivants leur proprieté la plus remarquable : celle de se reproduire en transmettant leurs caractères d’une génération à l’autre

Page 10: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Ordres de grandeur Arabidopsis Thaliana :

ADN : ~ 100 millions de nucléotides Gènes : ~ 25000 Protéines : ~ 30000 à 50000 Portion de l’ADN codant : ~ 5 %

Homo sapiens : ADN : ~ 3,4 milliards de nucléotides Gènes : ~ 25000 à 30000 Protéines : ~ 30000 à 50000 Portion de l’ADN codant : ~ 5 %

Page 11: Banques et bases de données en biologie moléculaire : de la donnée à la structure

La synthèse d’une protéine (1)

ADN[ATGC]

ARN[AUGC]

Protéine[FLIMVSPTAYH

QNKDECWRG]Alphabet :

Transcription Traduction

Page 12: Banques et bases de données en biologie moléculaire : de la donnée à la structure

La synthèse d’une protéine (2)

ADN

préARNm

ARNm

ProtéineTRADUCTION

MATURATION

TRANSCRIPTION

introns exons

Page 13: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le code génétique Chaque ensemble de 3 nucléotides

(codons) code un acide aminé ou le codon Stop

AUGC x AUGC x AUGC = 64 combinaisons possibles

20 acides aminés => code dégénéré Exemples :

UAU : Tyr (Y) UAC : Tyr (Y) CAU : His (H) UGA : Stop

Page 14: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le code génétique standard

U C A G

UUUU Phe FUUC Phe FUUA Leu LUUG Leu L

UCU Ser SUCC Ser SUCA Ser SUCG Ser S

UAU Tyr YUAC Tyr YUAA StopUAG Stop

UGU Cys CUGC Cys CUGA StopUGG Trp W

U

CCUU Leu LCUC Leu LCUA Leu LCUG Leu L

CCU Pro PCCC Pro PCCA Pro PCCG Pro P

CAU His HCAC His HCAA Gln QCAG Gln Q

CGU Arg RCGC Arg RCGA Arg RCGG Arg R

C

AAUU Ile IAUC Ile IAUA Ile IAUG Met M

ACU Thr TACC Thr TACA Thr TACG Thr T

AAU Asn NAAC Asn NAAA Lys KAAG Lys K

AGU Ser SAGC Ser SAGA Arg RAGG Arg R

A

GGUU Val VGUC Val VGUA Val VGUG Val V

GCU Ala AGCC Ala AGCA Ala AGCG Ala A

GAU Asp DGAC Asp DGAA Glu EGAG Glu E

GGU Gly GGGC Gly GGGA Gly GGGG Gly G

G

Page 15: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le séquencage Le séquencage d’un être vivant consiste à

déterminer la suite de nucléotides constituant son ADN

La technique du séquencage n’autorise que la lecture de séquences relativement courtes => découpage de l’ADN en fragments clonages des fragments séquencage de chacun des fragments

Carte physique : ordonnancement des fragments clonés chevauchant reconstituant la molécule d’ADN de départ

Page 16: Banques et bases de données en biologie moléculaire : de la donnée à la structure

L’annotation du génome L’annotation du génome consiste à :

prédire et localiser l'ensemble des séquences codantes (gènes) du génome,

déterminer et identifier leur structure (annotation syntaxique),

leur fonction (annotation fonctionnelle), les relations entre les entités biologiques

relatives au génome (annotation relationnelle).

Page 17: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Glossaire bio (1) Génétique : Science de l’hérédité. La

génétique étudie les caractères héréditaires des individus, leur transmission au fil des générations et leurs variations (mutations)

Gène : Segment d’ADN ou d’ARN situé sur un chromosome et porteur d’une information génétique

Page 18: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Glossaire bio (2) Génome : Ensemble du matériel génétique

d’un individu ou d’une espèce. Il est constitué de molécules d’acides nucléiques (ADN ou ARN). Les gènes c-a-d les parties d’ADN porteuses d’une information génétique, ne constituent qu’une partie du génome

Protéine : produit du gène issu de la synthèse protéique via le code génétique

Protéome : complément protéique total du génome, c-a-d l’ensemble des protéines exprimé par le génome d’une espèce donnée

Page 19: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Les types de données (1) Les séquences

nucléiques : alphabet de 4 lettres : A T G C protéiques : alphabet de 20 lettres

correspondant aux 20 acides aminés Les annotations

prédiction expérimentation

Page 20: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Les types de données (2) Nombreux types Forte corrélation entre les types, en

perpétuelle évolution : des nouveaux types émergent (résultats d'expériences de puces à ADN, par exemple) et des nouveaux liensentre les types apparaissent, les deux grâce aux progrès des biotechnologies (automatisation, miniaturisation)

Multiplicité des points de vue sur le schéma :sémantiques différentes selon les biologistes

Page 21: Banques et bases de données en biologie moléculaire : de la donnée à la structure

La quantité de données (1) Les projets de génomiques ont produit ces

dernières années des volumes considérables de données : séquençage massif de gros génomes complets : levure, arabidopsisthaliana (première plante séquencée), riz, drosophile, souris, homme...

Les volumes augmentent exponentiellement : doublent tous les 18 mois

Transcriptomique, protéomique, génotypage

Page 22: Banques et bases de données en biologie moléculaire : de la donnée à la structure

La quantité de données (2)

Page 23: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Les traitements Calcul intensif :

Comparaison de séquences (2 a 2) Alignements multiples (n séquences) Prédictions intro-exon sur des génomes

complets, Analyse de liaison pour la cartographie Analyse de la structure des protéines Analyse du transcriptome

Page 24: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Les banques de données (1)

Plusieurs centaines de banques de données biologiques disponibles

Catalogues de banques de données : La base DBCAT (gérée à INFOBIOGEN) est un

catalogue des bases de données en biologie moléculaire (509 bases répertoriées)

Numéro spécial annuel de Nucleic Acid Research

Plus de 150 banques disponibles à INFOBIOGEN : 2 tera-octets

Page 25: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Les banques de données (2) Les banques généralistes :

Les banques de séquences nucléiques Les banques de séquences protéiques

Les banques thématiques : Les banques de motifs ou de domaines

protéiques Les banques de familles Les banques de structure moléculaire Les banques spécifiques à un organisme, les

banques génomiques

Page 26: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Les banques de données (3)

La redondance : il est fréquent de trouver plusieurs fois la même séquence ou des séquences extrèmement similaires dans des entrées différentes (surtout dans les banques généralistes) : polymorphisme, gènes dupliqués ou erreurs ?

Erreurs de sequences : erreurs de séquençage ou de saisie

Erreurs d’annotation : méthodes informatiques automatiques pour l’analyse des données du séquençage systématique

Page 27: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Des banques généralistes Banques généralistes de séquences

nucléiques : EMBL : EBI GENBANK : NCBI

Banques généralistes de séquences protéiques : PIR SWISSPROT TREMBL

Page 28: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Une entrée GenBankLOCUS R11659 415 bp mRNA linear EST 11-APR-1995DEFINITION yf40c12.s1 Soares fetal liver spleen 1NFLS Homo sapiens cDNA clone IMAGE:129334 3', mRNA sequence.ACCESSION R11659VERSION R11659.1 GI:764394KEYWORDS EST.SOURCE human. ORGANISM Homo sapiens Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Primates; Catarrhini; Hominidae; Homo.REFERENCE 1 (bases 1 to 415) AUTHORS Hillier,L., Clark,N., Dubuque,T., Elliston,K., Hawkins,M., Holman ,M., Hultman,M., Kucaba,T., Le,M., Lennon,G., Marra,M., Parsons,J., Rifkin,L., Rohlfing,T., Soares,M., Tan,F., Trevaskis,E., Waterston ,R., Williamson,A., Wohldmann,P. and Wilson,R. TITLE The WashU-Merck EST Project JOURNAL Unpublished (1995)COMMENT Contact: Wilson RK Washington University School of Medicine 4444 Forest Park Parkway, Box 8501, St. Louis, MO 63108 Tel: 314 286 1800 Fax: 314 286 1810 Email: [email protected] Insert Size: 706 High quality sequence stops: 274 Source: IMAGE Consortium, LLNL This clone is available royalty-free through LLNL ; contact the IMAGE Consortium ([email protected]) for further information. Insert Length: 706 Std Error: 0.00 Seq primer: -21m13 High quality sequence stop: 274.

Page 29: Banques et bases de données en biologie moléculaire : de la donnée à la structure

... une entrée GenBankFEATURES Location/Qualifiers source 1..415 /organism="Homo sapiens" /db_xref="GDB:481495" /db_xref="taxon:9606" /clone="IMAGE:129334" /clone_lib="Soares fetal liver spleen 1NFLS" /sex="male" /dev_stage="20 week-post conception fetus" /lab_host="DH10B (ampicillin resistant)" /note="Organ: Liver and Spleen; Vector: pT7T3D (Pharmacia) with a modified polylinker; Site_1: Pac I; Site_2: Eco RI; 1st strand cDNA was primed with a Pac I - oligo(dT) primer [5' AACTGGAAGAATTAATTAAAGATCTTTTTTTTTTTTTTTTTTT 3'], double-stranded cDNA was ligated to Eco RI adaptors (Pharmacia), digested with Pac I and cloned into the Pac I and Eco RI sites of the modified pT7T3 vector. Library went through one round of normalization. Library constructed by Bento Soares and M.Fatima Bonaldo."BASE COUNT 96 a 93 c 127 g 91 t 8 othersORIGIN 1 tttgtacatt tatttgcatg tttattggtt taacacaggg gtcgcaaact caaatgccca 61 cagaggccag gttaggttag cggctgaagc agtctgggga gaggcaaaaa gcaatggcag 121 ggaggtggga cagaggaatn tgggccccaa actatggggg cagctgctac tcagtgccag 181 ctnttcgtcg ccatgggggg aagcgggacc agagccgccg ggtcttcggc tttttcaaga 241 ggacgcataa ctccggattg ttatttgaac tgtcctgact ttggtaagac tctntgacgg 301 tnacagtnaa ggaggccgac tcatcgtcaa tttcacacaa gtactcgccg gagtcctcga 361 gctgggacaa ccgggcagca ccaggcggng ggacagtgtc ttccttntgc angag//

Page 30: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Une entrée EMBLID HS65975 standard; RNA; EST; 415 BP.XXAC R11659;XXSV R11659.1XXDT 21-APR-1995 (Rel. 43, Created)DT 04-MAR-2000 (Rel. 63, Last updated, Version 2)XXDE yf40c12.s1 Soares fetal liver spleen 1NFLS Homo sapiens cDNA cloneDE IMAGE:129334 3', mRNA sequence.XXKW EST.XXOS Homo sapiens (human)OC Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;OC Eutheria; Primates; Catarrhini; Hominidae; Homo.XXRN [1]RP 1-415RA Hillier L., Clark N., Dubuque T., Elliston K., Hawkins M., Holman M.,RA Hultman M., Kucaba T., Le M., Lennon G., Marra M., Parsons J., Rifkin L.,RA Rohlfing T., Soares M., Tan F., Trevaskis E., Waterston R., Williamson A.,RA Wohldmann P., Wilson R.;RT "The WashU-Merck EST Project";RL Unpublished.XXDR RZPD; IMAGp998B23135; IMAGp998B23135.DR UNILIB; 262; 262.XX

Page 31: Banques et bases de données en biologie moléculaire : de la donnée à la structure

... une entrée EMBLFH Key Location/QualifiersFHFT source 1..415FT /db_xref="taxon:9606"FT /db_xref="RZPD:IMAGp998B23135"FT /db_xref="UNILIB:262"FT /note="Organ: Liver and Spleen; Vector: pT7T3D (Pharmacia)FT with a modified polylinker; Site_1: Pac I; Site_2: Eco RI;FT 1st strand cDNA was primed with a Pac I - oligo(dT) primerFT [5' AACTGGAAGAATTAATTAAAGATCTTTTTTTTTTTTTTTTTTT 3'],FT double-stranded cDNA was ligated to Eco RI adaptorsFT (Pharmacia), digested with Pac I and cloned into the Pac IFT and Eco RI sites of the modified pT7T3 vector. LibraryFT went through one round of normalization. LibraryFT constructed by Bento Soares and M.Fatima Bonaldo."FT /sex="male"FT /organism="Homo sapiens"FT /clone="IMAGE:129334"FT /clone_lib="Soares fetal liver spleen 1NFLS"FT /dev_stage="20 week-post conception fetus"FT /lab_host="DH10B (ampicillin resistant)"XXSQ Sequence 415 BP; 96 A; 93 C; 127 G; 91 T; 8 other; tttgtacatt tatttgcatg tttattggtt taacacaggg gtcgcaaact caaatgccca 60 cagaggccag gttaggttag cggctgaagc agtctgggga gaggcaaaaa gcaatggcag 120 ggaggtggga cagaggaatn tgggccccaa actatggggg cagctgctac tcagtgccag 180 ctnttcgtcg ccatgggggg aagcgggacc agagccgccg ggtcttcggc tttttcaaga 240 ggacgcataa ctccggattg ttatttgaac tgtcctgact ttggtaagac tctntgacgg 300 tnacagtnaa ggaggccgac tcatcgtcaa tttcacacaa gtactcgccg gagtcctcga 360 gctgggacaa ccgggcagca ccaggcggng ggacagtgtc ttccttntgc angag 415//

Page 32: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le contexte technique (1) La situation actuelle en bioinformatique

ont été marqués par les approches qui ont prévalu dans le passé lorsque : le volume d'information était réduit les types de données peu diversifiés moins de corrélation entre les types

Page 33: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le contexte technique (2)L'information est aujourd'hui : disséminée dans une multitude de banques de

données stockée sous des formats syntaxiquement

hétérogènes en général non disponible dans des systèmes

de gestion de bases de données (SGDB) mais distribuée sous forme de fichiers plats

modélisée dans ces différentes banques selon des sémantiques hétérogènes et difficiles à mettre en relation

Page 34: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le système SRS : la référence

SRS (Sequence Retrieval System) est un système européen relativement générique permettant d'intégrer des dizaines de bases génomiques et qui offre des outils de navigation et de recherche orientés WEB

C'est la référence européenne en matière d'intégration de données génomiques

SRS repose sur une technologie de fichiers plats ASCII et de fichiers d'index qui pointent directement vers des entrées dans les fichiers plats

Page 35: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Limites structurelles de SRS

SRS n'est pas basé sur un SGDB La technologie sur laquelle repose SRS

(pointeurs directs vers des fichiers de données) n'est pas adaptée aux mises à jour incrémentales : c'est un système essentiellement read only

Données peu structurées Pas d'API permettant d'accéder aux

données structurées => données non facilement manipulables par programmes

Page 36: Banques et bases de données en biologie moléculaire : de la donnée à la structure

SRS : exemples Le serveur SRS du CRI INFOBIOGEN L’entrée GENBANK-ACC:R11659 L’entrée EMBL-ACC:R11659 L’entrée SWISSPROT:PHYA_ARATH

Page 37: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le projet GIX Le projet “Environnement d'intégration et

de manipulation de données génomiques et protéomiques” (nom de code: GIX pour GenomiCS) propose de remédier à ces problèmes en intégrant dans un mêmeenvironnement les principales bases de données d'intérêt de la génomique

Projet de collaboration SYSRA / INFOBIOGEN en partie subventionné par le ministère de la recherche (décision 00 H 0348)

Page 38: Banques et bases de données en biologie moléculaire : de la donnée à la structure

GIX : points clés (1) Une modélisation objet globale et

extensible pour l’ensemble des banques du domaine : modélisation objet :

fort pouvoir expressif (héritage, méthodes, aggrégations, références ...)

globale : les utilisateurs (humains et programmes) dispose

d'une sémantique unique pour l'ensemble des bases de données

facilite l'accès, la manipulation et l'analyse croisée des données

extensible : permet d’intégrer de nouvelles banques

Page 39: Banques et bases de données en biologie moléculaire : de la donnée à la structure

GIX : points clés (2) Un SGBD O pour le stockage des

données : SGBD :

système read write, concurrent, transactionnel, langage de requête ...

adapté aux mises à jour incrémentales API permettant d’accéder aux données

structurées O :

supporte nativement la modélisation objet

Page 40: Banques et bases de données en biologie moléculaire : de la donnée à la structure

GIX : points clés (3) Un mécanisme d’importation et de mise

à jour des données des principales banques publiques

Une bibliothèque pour l’importation et la mise à jour de données privées

Une boîte à outils pour le développement d'interfaces graphiques orientées WEB

Page 41: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Un SGBDO : lequel ? Versant ? Objectivity ? O2 ? MATISSE ? POET ? ORIENT ? EYEDB ? autre ?

Page 42: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le SGBDO EYEDB Un premier prototype, IDB, a été

développé dans les laboratoires Généthon dans le cadre du projet Genome View

Ce projet a été initié en 1992 pour stocker et faciliter l'accès aux données du génome humain produites par Généthon (cartes physique et génétique)

Depuis 1994, SYSRA développe une nouvelle version avec diverses collaborations : cette nouvelle version, EYEDB, est une réécriture complète

Page 43: Banques et bases de données en biologie moléculaire : de la donnée à la structure

EYEDB et ODMG 3.0 EYEDB est basé sur les spécifications

ODMG 3.0 : EYEDB Object Query Language est un sur-

ensemble strict de l'ODMG OQL EYEDB Object Definition Language est un

sous-ensemble étendu de l'ODMG ODL Les bindings C++ et Java ne sont pas ODMG

compliant

Page 44: Banques et bases de données en biologie moléculaire : de la donnée à la structure

EYEDB : caractéristiques clés (1) Caractéristiques standards des SGBDO :

Gestion de données typées persistantes Modèle Client/Serveur Services Transactionnels Système de recouvrement

Orienté langage : Langage de définition des types : ODL Langage de requêtes : OQL Bindings C++ & Java Bindings PHP & PERL

Page 45: Banques et bases de données en biologie moléculaire : de la donnée à la structure

EYEDB : caractéristiques clés (2)

Généricité et orthogonalité du modèle objet : Chaque classe dérive de la classe object Polymorphisme Relations binaires : 1:1, 1:N, N:N Types littéraux et objets Surcharge de méthodes et late binding Services de triggers Contraintes d’intégrité : unique, not null Collections template : set, bag & array Tableaux multi-dimensionnel et de taille variable Flexibilité du schéma

Page 46: Banques et bases de données en biologie moléculaire : de la donnée à la structure

EYEDB : caractéristiques clés (3)

Support pour les données distribuées : Binding CORBA Objets multi-databases

Efficacité : Storage manager performant Mode d’accès local

Scalability : Collections et index paramétrables Localisation et clusterisation Les programmes peuvent gérer des centaines

de millions d’objets sans perte de performance

Page 47: Banques et bases de données en biologie moléculaire : de la donnée à la structure

La modélisation objet (1) La modélisation objet est issue de la

structure des banques à intégrer Une partie commune à l'ensemble de

ces banques a été isolée : le modèle canonique

Des extensions tenant compte des spécificités de chaque banque ont ensuite été ajoutées à la modélisation objet par héritage.

Page 48: Banques et bases de données en biologie moléculaire : de la donnée à la structure

La modélisation objet (2) Cette approche garantit suffisamment

d'extensibilité pour pouvoir intégrer dans l'avenir des données provenant de sources variées dans le domaine

La modélisation objet a été representée sous forme de diagramme UML à l'aide de l'outil Objecteering. Une passerelle bidirectionnelle entre EYEDB et cet outil a été réalisée

Page 49: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Implémentation dans EYEDB (1) Pour implémenter cette modélisation objet

dans EYEDB pour un ensemble de banques génomiques, deux architectures possibles : centralisée ou fédérée : l'architecture centralisée consiste en une seule

base EYEDB avec un schéma unique l'architecture fédérée consiste en la séparation

des données provenant de banques génomiques différentes dans des bases de données EYEDB distinctes avec des schémas qui peuvent être éventuellement légèrement distincts

Page 50: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Implémentation dans EYEDB (2) L'approche fédérée a été retenue :

l'import des données est plus facilement parallèlisable : limitations uniquement au niveau des accès concurrents au disque

les mises à jour non incrémentales sont plus simples à effectuer pour une nouvelle version d'une banque génomique

il sera possible de réaliser des distributions partielles du produit à la demande

une modification mineure du schéma n'entraîne pas nécessairement la migration de l'ensemble des données

Page 51: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Implémentation dans EYEDB (3)

Une couche logicielle au dessus EYEDB permet l'accès aux différentes bases constituant la fédération comme s'il s'agissait d'une seule base physique. Cette couche logicielle supporte : les requêtes multi-bases : exécution d'une même

requête sur plusieurs bases et fusion des résultats

les requêtes inter-bases: il s'agit d'exécuter une requête contenant des critères de recherches dans des bases distinctes et croiser les résultats

la navigation inter-bases: il faut un moyen pour suivre des liens d'une base vers une autre

Page 52: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Intégration des données (1) Des spécifications pour des programmes

d'import ont été réalisés pour 11 banques génomiques (essentiellement de séquences) : SWISSPROT, SPTREMBL, EMBL, PROSITE, PRODOM, PFAM, BLOCKS, RHDB, UNIGENE, ENZYME et GENBANK

Une bibliothèque logicielle regroupant des fonctionnalités communes aux programmes d'import a été réalisée

Page 53: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Intégration des données (2)

Ces banques (sauf GENBANK) ont été importées et leur programme de mise à jour incrémentale réalisés

Environ 300 Gb de données dont 260 Gb pour EMBL (17 millions d'entrées)

Page 54: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Intégration des données (3)

Banque de données

Nombre d’entrées

Taille de la base (Go)

Nombre d’objets bio

Durée d’import

PROSITE 1,5 K 0,8 108 K 6 minSWISSPROT 100 K 2,9 2,4 M 5h30SPTREMBL 660 K 13 8,4 M 20h33EMBL 17 M 261 122 M 25jPRODOM 305 K 3,1 2,5 M 3h50PFAM 85 K 1,9 1,6 M 10h04BLOCKS 12 K 0,6 690 K 1h40ENZYME 4 K 0,2 42 K 5 minRHDB 133 K 1,9 1,34 M 1h58

Page 55: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Boîte à outils L'objectif est de permettre aux

biologistes d'enrichir l'environnement de leur propres données et de réaliser à moindre coût leurs propres logiciels de consultation ou d'analyse

Page 56: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Particularités des applications dédiées à la génomique

1. En général spécifications sommaires et très évolutives dans le temps

2. Les données manipulées sont souvent sujettes à des interprétations qui peuvent aboutir à une remise en cause de leur structure et en conséquence des schémas des bases de données

3. Les biologistes ont besoin d'outils de navigation qui intègrent des données publiques avec leurs propres données et aussi d'annoter ces données

4. Les nouvelles applications doivent intégrer ou être interopérables avec des applications existantes

5. Du fait de la dispersion géographique, le WEB est un environnement de prédilection

Page 57: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Composants de la boîte à outils

La boîte à outils comporte trois composants : Un serveur d’application WEB Un système de définition de vues Un langage de manipulation des vues

Page 58: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le serveur d’applications L'orientation des interfaces graphiques vers

les techniques du WEB est une nécessité. Les particularités des applications “bases de

données” dans le monde du WEB engendre les besoins particuliers et récurrents : les scénarios complexes nécessitent des

mécanismes de suivi de sessions certains scénarios de mise à jour nécessitent des

sessions transactionnelles dans un environnement qui n'a pas été prévu pour cela à l'origine

le coût des connexions aux bases de données rend les techniques classiques (CGI) inefficaces

Page 59: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le système de définition de vues (1) Il est raisonnable de penser les applications

pour la génomique comme des applications en changement permanent; changements dictés davantage par une évolution des structures de données que par une évolution des besoins de visualisation; deux règles de conception : bon découplage entre les objets graphiques et les

objets sémantiques interfaces qui s'adaptent dynamiquement aux

changements

Page 60: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le système de définition de vues (2)

La solution proposée repose sur la notion de vue : les vues sont représentées dans un langage de définition dédié (View Definition Markup Language : VDML) basé sur XML et ensuite importées sous la forme d'objets EYEDB dans un référentiel spécifique

Page 61: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Le langage de manipulation de vues

Un second langage (Framework Markup Language : FWML) permet de manipuler les vues pour générer des représentations HTML ou XML exploitables par les navigateurs

Page 62: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Démonstration

click here

Page 63: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Travaux futurs Optimisation :

des durées d’importation de l’encombrement disque de la recherche en expression régulière

Intégration de nouvelles banques Enrichissement de la boîte à outils Développement d’IHMs spécifiques

Page 64: Banques et bases de données en biologie moléculaire : de la donnée à la structure

Crédits L’environnement d’intégration et de

manipulation des données génomiques et protéomiques a été développé à l’aide d’un financement du Ministère de la Recherche (décision 00 H 0348)

Le SGBDO EYEDB a été développé par SYSRA en collaboration avec le CRI INFOBIOGEN, l’Agence Nationale de la Valorisation de la Recherche (ANVAR) et le Conseil Régional de l‘Île de France