36

clubrevistaRNAseq_1_2

Embed Size (px)

Citation preview

Page 1: clubrevistaRNAseq_1_2
Page 2: clubrevistaRNAseq_1_2

•Importante fuente de madera.

Segundo especie importante después de Popolus (genoma de referencia ´terminado´ en 2010)

EST/Unigenes disponibles en base de datos es limitado. (Necesidad de mantener información privada)

De 5 especies de Eucaliptus, existen 56000 secuencias en NCBI (37000 son EST sanger). Realmente son menos, ya que existe mucha redundancia (dato de Marzo 2010)

Necesidad de incrementar información. Catalogo de genes activos.

Page 3: clubrevistaRNAseq_1_2

Objetivos

• Con la informacion disponible, es posible que a partir de reads Illumina se logre ensamblar genes largos,como modelo para la especie Eucalipto?

• Que genes del catalogo se disparan durante el rapido crecimiento de esta especie?

• Se puede establecer con la informacion de RNAseq, un perfil especifico de expresion para cada contig ensamblado?

Page 4: clubrevistaRNAseq_1_2

Metodologia

• RNA total, a partir de seis tejidos (ES UN HIBRIDO) Xilema, xilema inmaduro, floema, shoot tips, Hoja

joven, hoja madura

• Enriquecemiento de PolyA

• Fragmentacion de RNA poliA,

• Se secuenció una libreria paired-end por cada muestra. Las librerias tenian un promedio de 200 pb.

• Solo se usaron datos de paired-ends.

Page 5: clubrevistaRNAseq_1_2

• Se ha reportado que RNAseq produce reads que no cubren los transcriptos uniformemente, entonces usaron una estrategia de ensamblaje de referencia, usando Mosaik. - Se alineo las secuencias filtradas vs los contigs, y se establecio el promedio de reads por contig -

Page 6: clubrevistaRNAseq_1_2

• A custom script was then developed to extract the pairs of sequences that mapped to each contig, and using that contig as a template, each contig was re-assembled using Velvet with the associated expected coverage parameter set to the Mosaik average coverage value for that contig

Page 7: clubrevistaRNAseq_1_2

Acceso a archivo de datos brutos.

Page 8: clubrevistaRNAseq_1_2

.

Page 9: clubrevistaRNAseq_1_2

Figure 2. Comparison of the de novo assembled contig of the Eucalyptus grandis UDP-glucosedehydrogenase (UGDH) transcript to a reference Sanger-based sequence (Genbank EF179384) for thesame gene. Peak height indicates coverage per base (CPB) of mapped short-reads across each sequence.CPB of the fully assembled contig is shown in cyan. CPB of the predicted CDS region is shown in darkblue. CPB of the Sanger reference sequence is shown in red. 5’ UTR (orange box) and 3’ UTR (purplebox) regions are indicated.

Page 10: clubrevistaRNAseq_1_2

Peak height indicates coverage per base (CPB) of mapped short-reads across each sequence.CPB of the fully assembled contig is shown in cyan. CPB of the predicted CDS region is shown in darkblue. CPB of the Sanger reference sequence is shown in red.

Page 11: clubrevistaRNAseq_1_2
Page 12: clubrevistaRNAseq_1_2
Page 13: clubrevistaRNAseq_1_2

Ensamblaje• 62 millones de paired ends reads (6.9Gpb) que van desde 36 pb a

60pb. Se removio las bases de baja calidad (‘N’s) (Quedan Como gaps? O se eliminan?) y las secuencias con repeticiones de tipo ribosomal.

• Quedo Dataset de 3.93 Gpb para ensamble y se estimo el cubrimiento por base (CPB) ¿Por cada read o por cada base independiente?), despues de la limpieza se elimino mas de la mitad de los reads !!Tissue Type* Dataset† Reads Read Length‡ (bp) Total bp (Raw Data)

Xylem ZMSR1 2,568,500 36-38 95,034,500

Xylem ZMSR2 6,288,462 50-55 330,144,255

Immature Xylem ZMSR3 2,228,286 36-38 82,446,582

Immature Xylem ZMSR4 2,961,422 36-38 109,572,614

Immature Xylem ZMSR5 3,243,376 50-55 170,277,240

Immature Xylem ZMSR6 6,567,176 60-60 394,030,560

Immature Xylem ZMSR7 6,799,600 60-60 407,976,000

Phloem ZMSR8 6,875,592 50-55 360,968,580

Shoot Tips ZMSR9 3,291.364 50-55 172,796,610

Shoot Tips ZMSR10 8,263,698 60-60 495,821,88

Shoot Tips ZMSR11 8,223,074 60-60 493,384,440

Young Leaf ZMSR12 7,324,568 60-60 439,475,160

Young Leaf ZMSR13 3,650,916 50-55 191,673,090

Mature Leaf ZMSR14 3,466,122 50-55 181,971,405

TOTAL 71,752,174 3,925,572,916

A que se debe la diferencia?

Entonces, cuantas replicas biologicas se necesitan?

Page 14: clubrevistaRNAseq_1_2
Page 15: clubrevistaRNAseq_1_2

• Predictor GENSCAN:

• 15.713 contigs tienen un CDS (que paso con los 3000 restantes? - efecto de predictor)

• 6208 Contienen full length.

• 4610 corresponden a extremo 5´

• 4874 corresponden a extremo 3´

• 21 son fragmentos.

Analisis de marcos de lectura.

Page 16: clubrevistaRNAseq_1_2

• De 36 millones de reads, se ensamblaron 18894 contigs (sesgados a los que tengan mas de 200pb) mean: 1170pb. Promedio de cada base representada por contig: 37 veces. Que va desde 8X hasta 5262X

• Se deberian considerar los menores a 200pb? (reads originales son de 35-60pb)

Page 17: clubrevistaRNAseq_1_2
Page 18: clubrevistaRNAseq_1_2

Anotacion Contigs ensamblados 18,894 RNA-derived contigs

were assembled (comprising 22.1 Mbp of transcriptome sequence)

Homologias contra base de datos

Secuencias de proteinas de Arabidopsis (TAIR9)

Secuencias de proteinas de Vitis.

Populus 2.0. Phytozome

were used to construct the individual BLAST datasets

The Eucalyptus public dataset (EucAll)

We further characterized the assembled contigs by high stringency BLASTX analysis, minimum 100 bp high scoring pair (HSP) match length

Page 19: clubrevistaRNAseq_1_2

15055

3551Exclusivas de eucalipto?

Son secuencias genomicas?

15

293Que es?

1. Falsos positivos

Baja expresion relacionado con bajo cubrimiento que lleva a tener solo una fraccion del orf ?

Page 20: clubrevistaRNAseq_1_2

• Supplemental Figure S5. Amino acid frequencies in the predicted proteomes of Arabidopsis thaliana and Populus trichocarpa, as compared to the predicted proteins from the expressed gene catalog of the Eucalyptus grandis x E. urophylla F1 hybrid. Analysis was performed using Anaconda 1.5 [5].

0%

2%

4%

6%

8%

10%

12%

Lys Asn Thr Arg Ser Ile Met Phe Tyr Cys Trp Leu Pro His Gln Val Ala Gly Asp Glu Stop

Am

ino

acid

freq

uenc

y

Arabidopsis thaliana

Populus tricocarpa

Eucalyptus grandis x E. urophylla

Page 21: clubrevistaRNAseq_1_2
Page 22: clubrevistaRNAseq_1_2
Page 23: clubrevistaRNAseq_1_2

Perfil de expresion digital: NIVELES DE EXPRESION

• Abundancia de EST, esta relacionado con niveles de expresion.

• Implicaciones:

• Reads generados, no deberian presentar variaciones significativas para un

evento de muestreo igual (se mantienen las proporciones de sobre-expresados vs

expresion baja?)

• Ensamble de contigs debe ser fino. Concepto – GEN MODELO-

• No todos los reads que hace parte de un contig, estan igualmente distribuidos en el contig

Page 24: clubrevistaRNAseq_1_2

• Como conseguir que todas las secuencias para un transcriptoma dado, esten bien repersentadas.

• Que cantidad de datos es necesario para detectar y cuantificar la concentracion de los mRNA poco abundantes.

• Como los reads pueden ser cuantificados y como la cuantificacion relativa se convierte a cuantificacion absoluta de RNA.

• Genomas largos son ricos en paralogos (reads que se mapean y pegan en diferentes lugares)

• El FPKM de la densidad de los reads, refleja la concentracion molar de transcriptos en una muestra dada (normalizando el tamaño del RNA y el total de reads en el calculo). Se facilita la comparacion entre muestras. (La sensibilidad esta en funcion de la concentracion molar y el tamaño de los transcriptos)

Fragments Per Kilobase of exon per Million fragments mapped (FPKM)El numero de reads que cubre cada nucleotido (del 1 kb), por cada Millon de reads mapeados

Page 25: clubrevistaRNAseq_1_2
Page 26: clubrevistaRNAseq_1_2

• Se ajusta a una region mapeable.

Page 27: clubrevistaRNAseq_1_2

• La cuantificacion especifica por tejido, de la abundacia de los short-reads se realizó combinando datos (en algunos casos multiples lineas) que se generaron de tejidos iguales, y datasets de 6 tejidos especificos VS el catalogo de genes ensamblados, usando Bowtie (como se normalizo, dada las diferencias iniciales en los reads analizados??)

• Importancia del mapeo.

• Y los splacing alternativos? Como abordar esos casos?

Bowtie is an ultrafast, memory-efficient short read aligner. It aligns short DNA sequences (reads) to the human genome at a rate of over 25 million 35-bp reads per hour

Page 28: clubrevistaRNAseq_1_2

Tissue Type* Dataset† Reads Read Length‡ (bp) Total bp (Raw Data)

Xylem ZMSR1 2,568,500 36-38 95,034,500

Xylem ZMSR2 6,288,462 50-55 330,144,255

Immature Xylem ZMSR3 2,228,286 36-38 82,446,582

Immature Xylem ZMSR4 2,961,422 36-38 109,572,614

Immature Xylem ZMSR5 3,243,376 50-55 170,277,240

Immature Xylem ZMSR6 6,567,176 60-60 394,030,560

Immature Xylem ZMSR7 6,799,600 60-60 407,976,000

Phloem ZMSR8 6,875,592 50-55 360,968,580

Shoot Tips ZMSR9 3,291.364 50-55 172,796,610

Shoot Tips ZMSR10 8,263,698 60-60 495,821,88

Shoot Tips ZMSR11 8,223,074 60-60 493,384,440

Young Leaf ZMSR12 7,324,568 60-60 439,475,160

Young Leaf ZMSR13 3,650,916 50-55 191,673,090

Mature Leaf ZMSR14 3,466,122 50-55 181,971,405

TOTAL 71,752,174 3,925,572,916

Page 29: clubrevistaRNAseq_1_2

• Dada la diversidad de las secuencias

Page 30: clubrevistaRNAseq_1_2

Comparacion con catalogo de genes de arabidopsis.

Page 31: clubrevistaRNAseq_1_2

Resultados_ Cuantificacion de la expression Contig name FPKM (Xylem) FPKM (Immature Xylem) FPKM (Phloem) FPKM (Shoot Tips) FPKM (Young Leaves)

contig_1 94,8029 98,4549 106,364 84,6936 70,3627contig_10 121,514 57,1504 13,3735 66,3205 61,3831contig_100 1588,87 1493,9 368,037 56,1722 86,6732

contig_10000 38,2172 38,987 23,7512 18,748 23,3108contig_10001 27,7314 22,5511 26,3758 45,9198 45,6065contig_10010 21,279 21,0817 15,0018 25,0655 20,184contig_10011 148,901 142,032 246,74 317,011 335,776contig_10017 13,51 27,6276 21,6775 20,451 15,9455contig_10018 29,9545 33,9538 60,2399 43,1043 33,2494contig_10019 57,2613 36,1213 37,447 60,7039 55,5708contig_10020 50,9802 56,9738 267,404 18,8998 12,8867contig_10021 0 5,44256 0 13,2247 15,7897contig_10023 0 11,4067 12,8808 7,68939 6,50662contig_10024 16,6728 10,2528 5,71509 5,49729 10,4829contig_10025 0 2,47116 6,71774 0 0contig_10029 9,14128 11,3395 18,8936 20,2317 11,3019contig_10030 7,36381 37,21 59,6942 43,1789 40,7933contig_10032 23,5015 3,97582 10,5777 2,13135 5,34473contig_10033 26,1296 51,2988 46,6396 13,946 12,6478contig_10034 62,5598 60,6903 104,607 76,5878 71,4334contig_10035 102,504 153,301 143,266 172,526 114,83contig_10036 15,7234 19,5241 8,97949 13,3207 9,20524contig_10037 16,6335 0 0 5,93793 18,5071contig_10039 244,665 357,686 411,766 165,132 162,245contig_10043 61,7362 75,0587 36,6988 29,1877 27,268contig_10045 30,7092 24,5009 28,8479 36,5616 32,7946contig_10046 21,6053 18,2512 23,8634 31,0859 24,7646contig_10048 0 21,2238 37,2638 32,5203 40,0712contig_10049 33,5703 30,4231 42,0983 11,5398 9,89222contig_1005 1010,47 836,616 978,357 899,588 710,99contig_10050 16,0083 5,96719 9,59122 23,0186 19,4023contig_10052 11,9413 10,5105 5,45458 8,53382 7,61389contig_10055 10,9771 8,21773 69,9945 2,39945 3,41188

Additional file 4. Table containing all 18,894 contig names and FPKM (Fragments Per Kilobase of exon per Million fragments) values (calculated using Cufflinks, Trapnell et al., in press) after mRNA-Seq analysis of six tissues (immature xylem, xylem, phloem, shoot-tips, young leaves and mature leaves) of a fast-growing Eucalyptus grandis x E. urophylla tree. Note that the contig names reflect the original node numbers assigend by Velvet during contig assembly. As a measure of secondary xylem specificity, the ratio of the average FPKM value for xylem and immature xylem to the average for shoot tips, young leaves and mature leaves is given. The BLAST, GO, InterProScan and KEGG annotations of these contigs are available in the online Eucspresso database (http://eucspresso.bi.up.ac.za).

Page 32: clubrevistaRNAseq_1_2
Page 33: clubrevistaRNAseq_1_2

Tasa de uso de codones

• Supplemental Figure S4. Codon usage histogram for predicted coding sequences in the Eucalyptus grandis x E. urophylla hybrid (A), Arabidopsis thaliana (B) and Populus tricocarpa (C) gene catalogs. Rare codons (<5%) are highlighted in blue. Analysis was performed using Anaconda 1.5 [5]. The y-axis shows frequency of codon usage.

Predicted codon usage and amino acid frequencies in the proteome represented by the Eucalyptu expressed gene catalog were very similar to those of expressed gene catalogs from Arabidopsis and Populus

A

B

C

Page 34: clubrevistaRNAseq_1_2

• Because transcripts (or genes) vary in length (kilobases) and sequence-runs vary in the amount of reads produced, you would somehow like to account for these variations if you want to compare runs/samples. RPKM is a measure that (up to a certain degree of course) accounts for these.If you are examining in differential expression of genes between samples you don't really need to normalize for transcript length. When comparing gene to gene between samples the length of the transcript is constant (let's ignore the possibility of differential isoform expression). In this case you only need to normalize for the total number of reads in each sample pool.

• Primary data from mouse muscle RNAs that map uniquely in the genome to a 1-kb region of the Myf6 locus, including reads that span introns. The RNA-Seq graph above the gene model summarizes the quantity of reads, so that each point represents the number of reads covering each nucleotide, per million mapped reads (normalized scale of 0–5.5 reads)

• RFKM: Una ves se mapean los reads a un locus unico, de 1kb de tamaño (1 normalizada) el RFKM significa: El numero de reads que cubre cada nucleotido (del 1 kb), por cada Millon de reads mapeados (en la escala de

Page 35: clubrevistaRNAseq_1_2

• Here, the sheer number of reads produced made it possible to identify splice events very effectively for high- and moderate-abundance RNAs (>15–25 RPKM).

Page 36: clubrevistaRNAseq_1_2