31
Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux d’ADN [Agilent] . Guernec 1 , J. Montfort 1 , A. Lecam 1 , R. Reinhart 2 , P. Prunet 1 , Y. Guiguen 1 , P.Y Rescan 1 , D Power 3 1 INRA UR1037 SCRIBE, Campus de Beaulieu, 35000 - Rennes, FRANCE 2 Max Planck Institute for Molecular Genetics, htpt group, Ihnestr. 63, 14195 - Berlin, ALLEMAGNE 3 Universidade do Algarve, Campus de Gambelas, 8005-139, Faro, PORTUGAL Statistiques pour la Biologie Intégrative [groupe SIB] V2: Rennes – Groupe SIB – le 19 avril 2011 V1: Versailles – Rencontres Bio-informaticiens et Statisticiens de l’INRA- le 25 mars 2011

Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Embed Size (px)

Citation preview

Page 1: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et

micro-réseaux d’ADN [Agilent]G. Guernec1, J. Montfort1, A. Lecam1, R. Reinhart2, P. Prunet1, Y. Guiguen1, P.Y Rescan1, D.

Power3

1 INRA UR1037 SCRIBE, Campus de Beaulieu, 35000 - Rennes, FRANCE2 Max Planck Institute for Molecular Genetics, htpt group, Ihnestr. 63, 14195 - Berlin, ALLEMAGNE

3 Universidade do Algarve, Campus de Gambelas, 8005-139, Faro, PORTUGAL

Statistiques pour la Biologie Intégrative [groupe SIB]

V2: Rennes – Groupe SIB – le 19 avril 2011V1: Versailles – Rencontres Bio-informaticiens et Statisticiens de l’INRA- le 25 mars 2011

Page 2: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Octobre 2009 : Acquisition du premier jeu de données de comptage généré par technologie de séquençage haut débit … à l’INRA Scribe

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

… Travaux inclus dans le projet Aquagenome 2008

Questionnement légitime des biologistes : « Qu’en est-il de la fiabilité des résultats obtenus à partir de ces

nouveaux supports émergents? »

… Report à la bibliographie : Marioni & Al, 2008 [1] / Comparaison [Illumina] vs [Affymetrix] Qu’en est-il avec la technologie 454 [Roche] ?

… Vise à répondre à une question type de transcriptomique :« Recherche des gènes actifs dans le muscle à un stade de développement donné chez la 

truite arc en ciel » Analyse différentielle sur les transcrits d’ARN

- 2 stades de développement : Larvaire [J] vs Adulte [B]

Page 3: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Détails du protocole expérimental

Analyses préalables en microarrays et biblio. : 2 stades très marqués chez le muscle

Planification expérimentale en microarrays : 5 répétitions par condition [Agilent monocouleur]

… fixe le nombre de répétitions (nombre de chemins) pour le RNA seq (454 -peu d’informations)

Connaissances a priori

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Bonne gestion et prise en charge des données issues de microréseaux d’ADN par le plateau transcriptomique du Scribe.

Mise en place d’une étude comparative entre une technologie microréseaux [Agilent] et une technologie de séquençage haut-débit [454 Roche Titanium]

Page 4: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Les grandes étapes d’une analyse de séquençage haut- débit …

…GTGCCCGATCTCGATCAGGTAATCGTATATTAAAGTGCCCGATCTCGATCAGGT…

Départ : Constitution d’une banque d’ADNc pour une espèce donnée en 4 étapes

1) Fragmenter l’ADNc d’un génome en plusieurs milliers (milliards) de petits morceaux

2) Lire la séquence de chaque petit fragment (read) (Détection par fluorescence : Sanger)

PB : Les séquenceurs automatiques ne donnent pas tjs des lectures exactes des séquences

Le taux d’erreur dépend: - De la pureté et de l’homogénéïté des échantillons d’ADN initiaux- Séquence spécifique des paires de bases dans l’échantillon d’ADN

Solution : Multiples lectures indépendantes (10*) pour chaque pb du génôme

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 5: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Les grandes étapes d’une analyse de séquençage haut- débit …

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

AGTGCCCGATTATA [0 mismatch] AGTACCCGATTATA [1 mismatch]

AGTACCCGACTATA [2 mismatchs]AGTGCCCG-TTATA

TATATTACAGTGCCCGATTATATTAAGTG

3) Faire coïncider par informatique, les fragments où les séquences identiques : Alignement (Mapping) des séquences (Tophat1.2…)

Zoom sur l’alignement de 2 séquences : Cas de figure possible

4) Assemblage des lectures (cufflinks…) ayant des séquences chevauchantes: Théorie du contigage

… 0, 1 ou 2 mismatches tolérés

- Compare chaque séquence avec chacune des autres séquences- Génère une liste des régions ayant certains critères de similarités de séquences

Page 6: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

543210

READS

Couverture

Contig ou consensus

Exemple de couverture d’un contig …

Les grandes étapes d’une analyse de séquençage haut- débit …Zoom sur la théorie du contigage

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Remarque : « L’obtention d’une séquence consensus par assemblage des contigs est ici une préoccupation de second ordre »

Page 7: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Les grandes étapes d’une analyse de séquençage haut- débit …Les principaux supports

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Support Average Read Length Run Time (Day) GB / run

Roche 454 330 0.35 0.45

Illumina Solexa GA II 36 à 100 4 18

Applied Biosystems Solid 3 50 7 30

Michael Metker. Nature ReviewsGenetics, 2010 [3]Définitions :

1) « Un run (réalisation d’un processus complet par la machine) produit un grand nombre de lectures (reads) correspondant à des séquences d’ADN ou d’ARN de l’espèce étudiée. La capacité de la machine se mesure en nombre total de bases séquencées »

2) Library size : nombre total de reads alignés pour un échantillon donné

Problèmes associés à l’assemblage :

1) Faible couverture2) Erreurs de séquençage3) Séquences répétées

Page 8: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Détails du protocole expérimental

Muscle pool – Stade Larvaire (J) Muscle – Stade Adulte (B)

Séquençage en simultané de millions de petits fragments d’ADN(330 pb de moyenne)

Technique de F. Sanger utilisée en parallèleChaque échantillon séquencé sur 1 des 10 pistes

55793 contigs disponibles

Désigné par Salem & Al, 2008 [4*44K]

Oligonucléotides de 60 mers obtenus à partir de processus de synthèse

45220 sondes incluant 37394 oligos uniques (+6409 oligos dupliqués aléatoirement)

Technologie 454 Roche Technologie micro-réseaux Agilent

Plate-forme GENOTOUL, Toulouse Plateau transcriptomique Scribe, Rennes

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 9: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Stade J (*5) Stade B (*5)

Le jeu de données de comptage généré [454]

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Comparaison directe des données d’expression (agilent) et de comptage (454) générés

Aucun contrôle possible des variabilités engendrées par les étapes d’alignement et d’assemblage

Page 10: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Descriptif des données d’expression de micro-réseaux

Départ : 37454 sondes différentes (oligos + contrôles)

Arr

ayB

2

Arr

ayB

3

Arr

ayB

4

Arr

ayB

5

Arr

ayB

6

Arr

ayJ2

Arr

ayJ3

Arr

ayJ4

Arr

ayJ5

Arr

ayJ6

-50

510

Lo

g2

(In

ten

sity

)

B level J level

Descriptive statistics Global B level J levelSpearman’s correlation

Coefficient [CI 95%] 0.879 [0.816 – 0.942] 0.955 [0.940 – 0.969] 0.993 [0.990 – 0.996]

Average percentage of log2(intensity)>5 [sd] 5.52 [0.37] 5.49 [0.52] 7.58 [0.73]

Etape de filtrages classiques (Agilent) en 3 parties :- uniformité du signal- intensité du spot > sign. intensité BG- intensité < seuil de saturation+ Règle de décision / sonde

Suppression des contrôles

Nouveau : 26496 sondes conservées (72%)

Normalisation par la médiane des 10 échantillons

Boxplot des log(intensités) normalisées

Gamme dynamique plus importante au stade larvaire

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 11: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Descriptif données de comptage [séquençage 454]

Départ : 55793 contigs Nombre total de lectures : 1.069.535 reads (compte-tenue de la qté d’ARN de départ)

Remarques :1) « Près de 35% des contigs comptent 0 lecture à chacune des 10 pistes étudiées  et ne sont donc 

pas conservés pour la suite de l’étude »2) 24592 contigs (>67%) comptent 0 lecture à un des 2 stades    [contigs spécifiques]

   Problème lors de l’estimation des Fold Changes : FC = Jest / Best   0   ?  … ou inversement ….Nouveau : 36411 contigs

Depth Subgroups Global [%] B level [%] J level [%]0 19382 [34.7] 37302 [66.9] 26054 [46.7]

1 – 4 26610 [47.7] 14474 [25.9] 22617 [40.5]5 – 20 6964 [12.5] 2895 [5.2] 5103 [9.1]> 20 2837 [5.1] 1122 [2.0] 2016 [3.6]

Evaluation de la variabilité globale et intra - conditions Elaboration d’un score /20 d’estimation de la qualité des répétitions biologiques (ie inter-runs) 20 tests exact de Fisher (loi hypergéométrique) avec une erreur de 1% (+ ajustement Bonferroni)

- 5 runs « stade larvaire » = 10 tests « runs 2 à 2 »- 5 runs « stade adulte » = 10 tests « runs 2 à 2 »

Plus le score est faible plus la répétabilité inter-runs est bonne

Pour un gène …

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 12: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Evaluation de la variabilité globale et intra – conditions

Départ : 36411 contigs Nombre total de lectures : 1.069.535 reads (compte-tenue de la qté d’ARN de départ)

Remarques :1) « 92% des contigs testés ont une répétabilité globale bonne voire excellente »2) On observe une répétabilité inter-runs plus homogène au stade adulte qu’au stade larvaire

Evaluation of the potential lanes’ effect (/20) Global [%] B level [%] J level [%]

0 8067 [22.2] 24527 [67.4] 15036 [41.3]1 – 5 25439 [69.9] 6018 [16.5] 9412 [25.8]6 – 15 2897 [8.0] 5832 [16.0] 11946 [32.8]

≥ 16 8 [<10-1] 34 [0.1] 17 [<10-1]

Mise en place de l’étude comparative …

… A partir de 2 fichiers de même dimension

Recherche de la correspondance oligos <-> contigs à partir d’un fichier d’annotations swissprot

1) Suppression des oligos agilent pour lesquels il n’y a pas de correspondance

2) Conservation des oligos pour laquelle la correspondance est unique

Final : Etude comparative à partir de 2 fichiers de 7010 gènes / identifiant unique

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 13: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Normalisation des données de comptage (N=7010)

Etude comparative proposée par [Marioni & Al. ,2008] : PAS de normalisation des données de comptage Depuis : « Importance de la normalisation sur le résultat final » [Bullard et al, 2010] [2] Choix de la technique de normalisation ? ….. Encore flou …….

Démarche proposée :

1) Ajout d’un 1 à l’ensemble des reads (cellules du fichier) : Pour s’affranchir du pb des 0s (cf estimation des Fold Changes)

2) Ajustement par le total des reads sur le run :

Xij(k) : Nbr de reads gène i / échantillon (run) j / condition kNj(k) : Production totale reads sur run j (library size) / condition k

3) Choix de la constante : Cste = max(Nj(k)) …. Et arrondis …. Pourquoi ?

CsteN

XX

j

ijij *'

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 14: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Remarques :

1) Variabilité inter – runs reste plus importante au stade J avec N = 7010

2) Amélioration significative de la répétabilité après normalisation (tests de Mac Némar 5%)

3) … Semble contradictoire avec les résultats de microarrays  : Répétabilité entre les échantillons globalement meilleure au stade J

Effets de la normalisation des données de comptage (N=7010)

Evaluation of the potential lanes’ effect (Score /10)

B state J state

Before [%] After [%] Before [%] After [%]

0 4868 [69.4] 6886 [98.2] 2768 [39.5] 6868 [98.0]

1-5 2075 [29.6] 102 [1.5] 4072 [58.1] 120 [1.7]

≥ 6 67 [1.0] 22 [0.3] 170 [2.4] 22 [0.3]

Total 7010 [100.0] 7010 [100.0] 7010 [100.0] 7010 [100.0]

B J

01

23

Global Standard Deviance

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 15: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Descriptifs et comparaisons (N=7010)

Number of contigs with more than 4 reads Run1 Run2 Run3 Run4 Run5B state 515 503 424 491 567J State 1037 892 1351 1596 1042

4) Gamme dynamique plus importante au stade J (idem microarrays)

Supports by levels

Coefficient of correlation (Spearman)Number of reads by better quartiles

1 (1977)* 2 – 3 (1850) 4 – 8 (1485) > 8 (1698)J [95% CI] B [95% CI] J B J B J B J B

RNA - Sequencing 0.461 [0.451 – 0.470] 0.436 [0.423 – 0.449] 0.05 0.17 0.09 0.20 0.14 0.22 0.70 0.64Agilent technology 0.994 [0.993 – 0.995] 0.964 [0.960 – 0.969] 0.99 0.96 0.99 0.96 0.99 0.97 0.99 0.98

*: unequals subgroups because of ex-aecquos

5) La corrélation intra-groupe reste globalement très forte en microarrays

6) Elle est d’autant plus forte que les gènes observés comptent beaucoup de lectures

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 16: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Analyse différentielle – Démarche proposée

… Pour les micro-réseauxtests limma (G. K. Smyth – BioConductor)

… Pour le séquençage 454

Régression de Poisson [contrainte forte : E(Y)=VAR(Y)=λ] :

« Le nombre de lectures observées pour une piste et un contig donné est représenté par la variable Y de paramètre λ = (λJ; λB) telle que :

Avec : et i=1, .., 5

Estimation des Fold Changes (max. de vraisemblance) :

Le problème de la surdispersion : …Biais d’optimisme possible sur les p-values

Les analyses se font gène par gène puis gestion des tests multiples par correction FDR

!)(

i

yJ

i y

eJStadeyYP

iJ

][10 *)ˆlog( Jstade

B

JBJFC

ˆ

ˆ/

!)(

i

yB

i y

eBStadeyYP

iB

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 17: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Analyse différentielle – Démarche proposée

… Pour le séquençage 454

Détection de la surdispersion : test de chi2 de Pearson

256 modèles / 7010 en surdispersion

Recours à la régression négative binômiale : Inclusion d’un terme de bruit …

Test du rapport de vraisemblance pour déterminer la significativité de la variable « stade »« Sous H0: La statistique de test suit une loi de chi2 à 1 ddl »

10

6

29

25

1

2

~ˆ)ˆ(

ˆ)ˆ(

k B

Bk

k J

Jk YYstat

kY

YE

/)var(

)(2

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 18: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

RNA Sequencing (436) Agilent Technology (4600)

2302

4272108 328

Analyse différentielle – Résultats

Comment expliquer les divergences des listes de gènes obtenues à partir de ces 2 supports ?

N= 7010 - 1% FDR

Remarques :

1) Proportion importante de gènes différentiels en microarrays (plus de 50%)2) … spécifiques aux données de microarrays. Pourquoi ?

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 19: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Analyse différentielle – Une explication des divergences …

Tableau de contingence 2*2Nbr reads Stade J Stade B Total

Gène X 3 23 26

Pas gène X 546809 528413 1075222

Total 546812 528436 1075248

En supposant que la répétabilité inter –runs est parfaite : Sommation des reads intra-conditions

Exemple : gène X -> 0 0 1 1 1 (reads / run : stade J) 4 5 4 5 5 (stade B)

Cadre classique : test exact de Fisher 1% (loi hypergéométrique)

H0 : Prop. Estimée (stadeJ) = Prop. Population (stade J)

))((1075248546812)(: %990 JJ ECHPROPICPOPPROPH

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

TOTAL

J B

Gène X 0 0 1 1 1 4 5 4 5 5

TOTAL 546812 528436

J B

Gène X 3 23

∑ ∑

Page 20: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Analyse différentielle – Une explication des divergences …

0.0 0.2 0.4 0.6 0.8 1.0

02

04

06

08

0

Depth = 95

Possible Probabilities

Po

ssib

le d

ep

ths

for

the

J g

rou

p

0.0 0.2 0.4 0.6 0.8 1.0

01

23

4

Depth = 4

Possible Probabilities

Po

ssib

le d

ep

ths

for

the

J g

rou

p

99% CI

Intervalles de confiance (99%) des proportions relatives à toutes les combinaisons possibles pour chacun des 7010 gènes Exemple ci-dessous : 2 gènes comptant 95 (à gauche) et 4 lectures (à droite) au total

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 21: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Analyse différentielle – Reprise des diagrammes

RNA Sequencing (436) Agilent Technology (4600)

2302

4272108 328

RNA Sequencing (426) Agilent Technology (1850)

695

1460136 390

Visualisation ordonnée des graphes« On ne peut conclure qu’un gène est différentiel dès lors qu’il est associé à moins de 5

lectures au total » -> Manque de puissance

On constate une baisse très nette du nombre de gènes différentiels « spécifiques » microarrays : Près de 3000 gènes différentiels [Agilent] n’ont pas bénéficié d’une couverture suffisante pour sortir différentiels en RNAseq …

Quelle interprétation pour les 1460 gènes différentiels restants ?

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 22: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Analyse différentielle – Une interprétation des divergences …

Nouveau zoom sur la répétabilité inter – runs :

Venn ’s group I N < 5 reads (%*)≥ 5 reads (%**)

Lane’ score = 0 Lane’ score ≥ 1 Genes in overlap 328 0 158 (48.2) 170 (51.8)

RNA sequencing only 108 0 44 (40.7) 64 (59.3)Agilent only 4272 2755 (64.5) 307 (20.2) 1210 (79.8)

Not Differential 1620 1132 (69.9) 268 (23.7) 864 (76.3)TOTAL 7010 3887 (55.4) 777 (25.2) 2308 (74.8)

Venn ’s group II N < 5 reads (%)≥ 5 reads (%)

Lane’ score = 0 Lane’ score ≥ 1 Genes in overlap 390 0 186 (47.7) 204 (52.3)

RNA sequencing only 136 0 55 (40.4) 81 (59.6)Agilent only 1460 0 281 (19.2) 1179 (80.8)

Not Differential 695 0 114 (16.4) 581 (83.6)TOTAL 2681 0 636 (23.7) 2045 (76.3)

Remarques :1) Les gènes différentiels en microréseaux spécifiquement ont une variabilité inter-runs 

significativement plus importante  que dans les autres groupes2) Evocation d’un problème de l’adéquation du modèle aux données …

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 23: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Analyse différentielle – Comparaison des Fold Changes

-10 -5 0 5 10

-10

-50

51

0

Fold Change

>67 reads<67 readsNo differential

Agilent

RN

A s

eq

log2-Fold Change

log2

-Fol

d C

hang

e

Spearman's correlation coefficient = 0.39

Spearman’ s coefficient by subgroupsSubgroups N Coefficient> 67 reads 219 0.75≤ 67 reads 217 0.40

No differential 6574 0.36Total 7010 0.39

« The set of differentially expressed genes that show the strongest correlation (…) seems to be those that are mapped by many reads »

[ J.C Marioni (Genome Research -2008) ]

Remarques :

1) On retrouve la caractéristique principale de la comparaison Affymetrix <-> Agilent

2) Proportion conséquente de fold changes atypiques (changement de signes)

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 24: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Analyse différentielle – Interprétation des autres groupes spécifiques

1e-7 1e-6 1e-5 1e-4 1e-3 1e-2 5e-2

Threshold

%

0

20

40

60

80

100

25

9

2138

64104

55 72 102 142 213 328 475

1e-7 1e-6 1e-5 1e-4 1e-3 1e-2 5e-2

Threshold

%

0

20

40

60

80

100

55

72

102

142

213

328

475

154 173 209 259 328 436 585

Remarques :1) La proportion des fold changes « atypiques » diminue avec le seuil de test  2) Les p-values [microarray] des gènes spécifiques « RNA seq» restent en bonne partie 

voisine du seuil choisi 

Proportion des Fold Changes atypiques en fonction su seuil

Proportion des gènes spécifiquement différentiels en séquençage en fonction du seuil

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 25: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Répartition de l’ensemble des contigs de départ en fonction de leurs tailles (nombre de bases de nucléotides)

Répartition des effectifs des groupes de gènes différentiels (%) par taille de transcrits

Analyse différentielle – Influence de la taille des contigs ?

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Venn ’s group II[N= 2681]

Length of transcripts by quartilesTOTAL

]<1005[ [1005-1285] [1286-1606] ]>1606[

Genes in overlap 146 (37.4) 90 (23.1) 88 (22.6) 66 (16.9) 390

RNA sequencing only 54 (39.7) 22 (16.2) 29 (21.3) 31 (22.8) 136

Agilent only 337 (23.1) 384 (26.3) 350 (24.0) 389 (26.6) 1460

Not differential 135 (19.4) 173 (24.9) 203 (29.2) 184 (26.5) 695

Length of transcripts by quartiles[N= 55793]

Min Q1 Median Q3 Max

515 503 424 491 567

Remarque(s) :« On observe une légère tendance mais pas d’effets notables de la taille des transcrits 

sur l’expression des contigs »

Page 26: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Remarque 1: « Dérive actuelle » - Ne séquencer qu’un échantillon d’ARN par condition puis tests exacts de Fisher et corrections FDR Quel est le pouvoir de généralisation de résultats ainsi obtenus ?

Remarque 2: A- t’on besoin d’autant de répétitions biologiques en 454 qu’en Agilent pour obtenir des listes de gènes différentielles quasi - similaires ?

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Number of 454’ samples

compared

Differentially expressed genes

with RNAseq

Overlap with genes called from array

Correlation of FC between count and array data

2 vs 2 306 232 0.43

3 vs 3 313 235 0.46

4 vs 4 407 303 0.51

5 vs 5 526 390 0.56

Analyse différentielle – Influence des répétitions biologiques en 454 ?

Principe Approcher la liste de gènes différentiels obtenue par micro-réseau en faisant varier le

nombre de réplicats biologiques (runs) du 454Venn ’s group II [N= 2681]

Remarque(s) : « Amélioration notable de l’intersection et des FC »

Page 27: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

a

Analyse différentielle – Comparaison des normalisations proposées pour le 454

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Panorama des normalisations existantes (04/2011)

jjj

ij Nss

Xˆ;

ˆ

j j

jj

j

ij

mediann

medians

s

X

1ˆ;

ˆ

)max(ˆ;

ˆ j

jj

j

ij

N

Ns

s

X

Total read Count normalization (TC) Hypothèse : Comptages proportionnels au niveau d’expression et à la profondeur de séquençage Plus la profondeur de la librairie est importante, plus le comptage associé au transcrit est grand (indépendamment de la taille du transcrit et du niveau d’expression)

Single Quantile Normalization (Bullard & al, 2010) (MED, UQ) [2] Hypothèse : Nombre total de reads dépend surtout de qqs contigs fortement exprimés

Full Quantile normalization (Bolstad & Al, 2002) (FQ) [4] Equivalent « normalisation par quantile » en microréseaux Implémentation limma 3.6.9 [5] Hypothèse : Distribution identique des comptages d’une librairie à l’autre

Adjusted Total read Count normalization (MAX) Hypothèse : Augmentation proportionnel du nombre de comptages par gène pour suggérer une couverture suffisante par gène

nn

i

ijij

X

Xmedians

1

1)(

ˆ

Scaling normalization (Robinson & Al, 2010) (TMM) [7] Principe :

fj = si / sj

Mrij : log ratio gène i entre échantillon j et r

wij : Correction sur la variance Li : Taille du gène i

jj

iijij N

S

LXE

][

*

*

)ˆ(2logGi

rij

Gi

rij

rij

jw

Mwf

DESEQ normalization (Anders & Huber, 2010) (DESEQ) [6] Implémentation package DESEQ Xij~NB(μij,σ2

ij) μij= qij(k)*sj …avec qij(k) : Concentration « vraie » gène i /échantillon j

Page 28: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Analyse différentielle – Comparaison des normalisations proposées pour le 454

Résultats :1) Tableau (ci-dessus): Pourcentage de gènes

différentiels communs en faisant varier le type de normalisation pour les données de 454

2)   Graphe (ci-contre) : Similarités des listes de gènes différentiels obtenues à partir des données de 454 en faisant varier le type de normalisation

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

RNA.max RNA.TC RNA.MED RNA.TMM RNA.DESEQ RNA.FQ microarrayRNA.max 100.0 74.7 79.5 74.7 84.0 41.8 74.1RNA.TC 98.5 100.0 95.2 100.0 96.2 55.9 76.2

RNA.MED 97.9 89 100.0 89.0 96.5 49.9 75.2RNA.TMM 98.5 100 95.2 100.0 96.2 55.9 76.2

RNA.DESEQ 98 85.1 91.4 85.1 100.0 46.6 75.2RNA.FQ 81.5 82.6 78.9 82.6 77.8 100.0 85.2

microarray 21.1 16.4 17.4 16.4 18.3 12.4 100.0

[N= 2681]

Conclusion : 1) Diagrammes de Venn très similaires d’une normalisation

à l’autre2) Particularité de la normalisation FQ

Clustering hiérarchique Distance de corrélation et méthode de Ward

Page 29: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

2) L’intérêt de la technologie 454 est liée à la garantie pour l’utilisateur d’une couverture suffisante a priori sur l’ensemble des contigs étudiés :

« Solutions bioinformatiques et/ ou planifications expérimentales adaptées passent par une coordination soutenue des compétences bio-informatiques et

statistiques »3) Nécessité de « garder le contact » avec les biologistes.

Importance du travail de vulgarisation scientifique par la mise à disposition d’outils intermédiaires adaptés :- Score d’estimation de la variabilité des répétitions biologiques et/ou techniques - Outils d’estimation de seuil de lectures « limite »

4) Les modèles d’analyse différentielle utilisés en séquençage 454 reposent encore aujourd’hui sur des hypothèses fortes (loi hypergéométrique), et nécessitent d’être améliorés …

Conclusions & Perspectives [Technologie 454]

Après normalisation des données de comptage, certains gènes différentiels en microarrays ne le sont plus en séquençage du fait d’une mauvaise prise en compte de la variabilité qui perdure … L’adéquation du choix de l’association « normalisation + modèle » se doit d’être rigoureusement déterminée

1) Etude essentiellement basée sur la comparaison de diagrammes de Venn MAIS mesurait-on vraiment la même chose au départ ?

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 30: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Références [liste non exhaustive]• Metzker ML. Sequencing technologies –the next generation. Nature Reviews Genetics, 2010 Jan; 11(1):31-46 [3]• Bullard JH, Purdom E, Hansen KD, Dudoit S. Evaluation of statistical methods for normalization and differential expression in mRNA-seq experiments. BMC Bioinformatics2010, 11:94. [2]• Mortazavi A, Williams BA, McCue K, Schaeffer L, Wold B. Mappingand quantifying mammalian transcriptomes by RNA-seq. Nature Methods, 2008 Jul; 5(7):621-628.• Audic, S. and Claverie, J-M. The significance of digital gene expression profiles. Genome research 1997; 7:986-995• Cloonan, N et al. Stem cell transcriptome profiling via massive-scale mRNA sequencing. Nature Methods2008; 5(7):613-619.• Robinson MD, Smyth, GK. Moderated statistical tests for assessing differences in tag abundance. Bioinformatics 23(21):2881-2887. [7]• Robinson MD, McCarthy DJ, Smyth, GK. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics2009.• Marioni JC, Mason CE et al. RNA-seq: An assessmentof technical reproducibility and comparison with gene expression arrays. GenomeResearch2008, 18:1509-1517. [1]• Robinson MD, Oshlack A. A scaling normalization method for differential expression analysis of RNA-seqdata. GenomeBiology2010, 11:R25• Anders, S and Huber, W. Differential expression analysis for sequence count data. Nature Precedings 2010, march [6]• Torres T, Metta M, Ottenwälder B, and Schoötterer C. 2008 : Gene expression profiling by massively parallel sequencing, Genome Research, 1: 172-177

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011

Page 31: Une étude comparée de listes de gènes différentiels générées par séquençage haut-débit [454 Roche] et micro-réseaux dADN [Agilent] G. Guernec 1, J. Montfort

Références [suite]• Bolstad B, Irizarry R, Astrand M, and Speed T. A comparison of normalization methods for high density nucleotide array data based on variance and bias. Technical report, UC Berkeley, 2002 [4]• Gordon K. Smyth. Limma : linear models for microarray data. In R. Gentleman, V. Carey, S. Dudoit, R. Irizarry, and W. Huber, editors, Bioinformatics and Computational Biology Solutions using R and Bioconductor, pages 397, 420. Springer, New York, 2005 [5]

Statistiques pour la Biologie Intégrative [Groupe SIB] – Rennes, le 19 avril 2011