8
在本研究中,我们根据Ion个人化操作基因组(PGM™)测序仪所产生的读取深度 RNA-Seq数据确定了灵敏度和动态范围。我们使用了利用同一RNA样品的五 次单独测序运行所产生的增量数据。在对一组已经经过芯片质量控制(MAQC)究证明所有芯片平台均可检测到的基因集合进行比较时[4],我们证明,凭借可 定位到人类基因的200万个序列读取,Ion半导体测序上RNA-Seq的灵敏度超过 了芯片。 为了进一步研究灵敏度的差异,我们测定了Ion PGM™测序仪上的RNA-Seq芯片以及TaqMan ® 定量PCR (qPCR) assay在检测表达差异显著基因上的一致 性。我们认为,差异表达基因的表达水平在几个平台中呈现出高度相关。 材料与方法 文库制备 RNA-Seq文库是从Ambion ® Human Brain Reference (HBRR)Stratagene ® Universal Human Reference (UHRR)RNA制备而来的,这些也用于MAQC究。随后利用Ambion ® MicroPoly (A) Purist™ Kit选择了添加到总RNA样品中的 外部RNA加标对照(ERCC) [5]mRNA转录本。根据Ion Total RNA-Seq Kit用户 手册制备文库[6, 7]测序 利用Ion Xpress™ Template Kit v2.0Ion Sequencing™ Kit v2.0,根据已发布 的用户手册开展模板制备和测序反应。我们对HBRRUHRR样品的五次技术平 行重复进行了测序,因此在Ion PGM™测序仪上运行了十块Ion 316™芯片。利 Torrent Server Suite开展数据提取和碱基检出(附录A),产生了十个FASTQ件,这些文件包含了单个碱基检出及每个读取的相关质量值(根据位置)利用Ion半导体测序 开展RNA-Seq的灵敏度 与芯片和qPCR的比较 RNA测序(RNA-Seq) 技术的最新进展 使得研究人员能够鉴定整个转录组比测定基因表达的传统平台要全面得 [1, 2]RNA-Seq不受限于预定义的 转录本注释因此不仅能定量已知的 转录本还能发现新的外显子和其他 剪接形式此外RNA-Seq实验所产 生的数据是离散的计数数据故动态 范围在理论上没有限制因此随着 测序深度增加灵敏度和每个碱基的 覆盖度也增加可实现低丰度转录本 的定量以及开展更专业应用(如等位基 因特异的表达)的能力[3]

利用Ion半导体测序...序列质量调整、定位和计数 每个FASTQ文件经过最短序列长度的 过滤,并从每个读取的3'端读入,根 据每个碱基检出相关的质量值过滤。这是利用FASTX-工具箱实现的[8]。如

  • Upload
    others

  • View
    36

  • Download
    0

Embed Size (px)

Citation preview

在本研究中,我们根据Ion个人化操作基因组(PGM™)测序仪所产生的读取深度

和RNA-Seq数据确定了灵敏度和动态范围。我们使用了利用同一RNA样品的五

次单独测序运行所产生的增量数据。在对一组已经经过芯片质量控制(MAQC)研

究证明所有芯片平台均可检测到的基因集合进行比较时[4],我们证明,凭借可

定位到人类基因的200万个序列读取,Ion半导体测序上RNA-Seq的灵敏度超过

了芯片。

为了进一步研究灵敏度的差异,我们测定了Ion PGM™测序仪上的RNA-Seq、

芯片以及TaqMan®定量PCR (qPCR) assay在检测表达差异显著基因上的一致

性。我们认为,差异表达基因的表达水平在几个平台中呈现出高度相关。

材料与方法

文库制备

RNA-Seq文库是从Ambion® Human Brain Reference (HBRR)和Stratagene®

Universal Human Reference (UHRR)总RNA制备而来的,这些也用于MAQC研

究。随后利用Ambion® MicroPoly (A) Purist™ Kit选择了添加到总RNA样品中的

外部RNA加标对照(ERCC) [5]和mRNA转录本。根据Ion Total RNA-Seq Kit用户

手册制备文库[6, 7]。

测序

利用Ion Xpress™ Template Kit v2.0和Ion Sequencing™ Kit v2.0,根据已发布

的用户手册开展模板制备和测序反应。我们对HBRR和UHRR样品的五次技术平

行重复进行了测序,因此在Ion PGM™测序仪上运行了十块Ion 316™芯片。利

用Torrent Server Suite开展数据提取和碱基检出(附录A),产生了十个FASTQ文

件,这些文件包含了单个碱基检出及每个读取的相关质量值(根据位置)。

利用Ion半导体测序

开展RNA-Seq的灵敏度

与芯片和qPCR的比较

RNA测序(RNA-Seq)技术的最新进展

使得研究人员能够鉴定整个转录组,

比测定基因表达的传统平台要全面得

多[1, 2]。RNA-Seq不受限于预定义的

转录本注释,因此不仅能定量已知的

转录本,还能发现新的外显子和其他

剪接形式。此外,RNA-Seq实验所产

生的数据是离散的计数数据,故动态

范围在理论上没有限制。因此,随着

测序深度增加,灵敏度和每个碱基的

覆盖度也增加,可实现低丰度转录本

的定量以及开展更专业应用(如等位基

因特异的表达)的能力[3]。

序列质量调整、定位和计数

每个FASTQ文件经过最短序列长度的

过滤,并从每个读取的3'端读入,根

据每个碱基检出相关的质量值过滤。

这是利用FASTX-工具箱实现的[8]。如

果质量调整后读取短于35个碱基,则

读取会从分析中去除,以避免非特异

的序列比对。这样平均去除了8-10%

的初次读取,使得平均读取数约为

160万个。

随后利用TMAP flow序列定位程序

[9],将所有FASTQ文件的读取定位

到人类基因组上(UCSC build hg18)

和ERCC参考序列上。选择mapall参

数,以发现每个读取的最佳得分比

对。生成的SAM文件包含了每个读取

定位的基因组坐标及其他与每个比对

特征相关的信息。超过99%的读取定

位到基因组位置。

为了从每个SAM文件获得每个基因的

计数,我们使用HTSeq [10]来计算哪

些读取与已知的外显子基因组坐标重

叠。这些坐标在RefGene GTF文件中

注明,可从UCSC Genome Browser网

站上获得。随后总结生成的外显子计

数,产生基因水平的计数。对于本报

告中描述的所有比较,“数百万个定

位读取”指的是定位到基因组上,并

与MAQC 12K set的已知RefGene外显

子注释重叠的读取。这个MAQC 12K

set指的是来自MAQC研究的12,091个

基因[11, 12],它们存在于所有检测的

芯片平台中,因此被选为芯片和RNA-

Seq平台的比较分析。

为了获得外部加标转录本的读取计

数,我们将ERCC序列添加到基因组

定位参考序列中,并直接比对单个读

取,这样可以从每个TMAP生成的SAM

比对文件中轻松提取每个ERCC转录本

的读取计数。为了评估灵敏度,我们

利用线性回归比较了每个ERCC转录本

的读取计数和已知浓度。根据分析结

果,我们获得了R平方值、斜率和样

本量,这些可作为性能指标,随后通

过散点图观察。

对于累积的深度分析,我们对MAQC

12K set中的每个基因在每块Ion 316™

芯片(共五块重复)上的计数进行了总

结。这有效地形成了定位读取的五

次增量取样,在此简称为1M、2M、

3M、4M和5M (表2)。

本研究所用的数据集和参考文件在

Ion社区公开,地址为http://ioncom-

munity.iontorrent.com。

利用外部加标对照分析RNA-Seq的灵

敏度

我们使用92个ERCC外部RNA加标对

照测定了动态范围、灵敏度和可变

性。这些转录本是多聚腺苷酸化、

未标记的RNA,它们经过美国标准与

技术研究所(NIST)的认证和检测,作

为检测RNA样品性能和控制可变性来

源的一种方法。ERCC转录本长度在

250-2,000 nt范围内,且GC含量经过

平衡,以便准确代表内源真核mRNA

的特征。

E R C C转录本库是以已知滴度配置

的,旨在代表大的表达水平动态范

围。利用这一信息,我们可通过线性

回归分析比较定位到每个ERCC转录

本的读取计数。以R平方值和斜率作

为性能指标,我们评估了灵敏度和可

变性。

芯片数据

对于芯片数据的下游分析,我们利用

探针信号对数误差[13] (PLIER+16)估

计预处理了包含原始信号强度值的文

件。如MAQC文献所述,测定了标准

化的信号和对数比值。根据MAQC文

献中的建议,我们利用MAS5.0算法

[14]确定了存在和缺少的检出。来自

MAQC“site 1”的数据被挑选出,因

为它有着最低的变异系数,适合基因

检测。本分析共包含了五个重复的芯

片数据集,其中三个直接来自MAQC

研究,另两个来自同一平台对相同样

品的内部芯片分析。随后在所有与

RNA-Seq表达数据的比较中使用了产

生的基因集合。

表1. Ion PGM™测序仪所产生的RNA-Seq数据的总体定位统计数据和数据分析流程。平均指的是随机分配到1-5重复的UHRR和HBRR计数的平均值。

图1. 利用Ion PGM™测序仪获得的RNA-Seq定位读取

的技术重复相关性。图中显示了MAQC 12K set的两个

UHRR重复的比较。所有两两比较显示,所有样品特

异的技术重复之间的皮尔森相关系数(R)高于0.99。

图2. ERCC读取计数的分析。y轴的原始读取计数指的

是总的ERCC定位比对读取;而x轴表示每个ERCC转录本在加标到每个样品的转录本库中的相对浓度。灰

色的阴影区域表示90%置信区间。1M-5M标记表示计

数重复的数目,它们的定位读取计数被累积合并。对

于200万和500万个总的定位读取,分别观察到0.86和0.91的R平方值。样品量(n)在48-65之间,而斜率(m)在0.76-0.89之间。

log2(UHRR mapped reads) replicate 1

log 2(U

HR

R m

appe

d re

ads)

rep

licat

e 2

0

2

4

6

8

10

0 2 4 6 8 10

log2(relative ERCC concentration)

log 2(E

RCC

map

ped

read

s)

−5

0

5

10

5 10 15 20

• 5M R2 = 0.91, m = 0.85, n = 65• 4M R2 = 0.90, m = 0.89, n = 63• 3M R2 = 0.88, m = 0.80, n = 57• 2M R2 = 0.86, m = 0.78, n = 55• 1M R2 = 0.84, m = 0.76, n = 48

Analysis flow Filter out short reads

Map to full genome reference

Extract MAQC 12K gene set counts

Replicate Mean total raw reads

Mean total post-filter reads

Mean mapped reads 21K RefGene, Genome only, Junctions, rRNA, tRNA, mtRNA, ERCC

Mean mapped reads MAQC 12K set only

1 1,990,213 1,660,266 1,653,766 1,001,951

2 2,052,587 1,669,327 1,663,753 1,017,996

3 1,601,962 1,431,864 1,426,019 870,218

4 1,800,034 1,456,358 1,451,527 891,500

5 2,263,519 1,700,392 1,694,065 1,032,050

共有基因列表

为了确保两个平台使用同一基因列

表进行比较,我们将来自MAQC 12K

set的芯片探针标识符定位到基因符

号。鉴于MAQC发表的时间,UCSC

转录本注释经过修改、删除或如今含

糊定位到探针标识符。在解决了这些

问题之后,定位RNA-Seq读取所用

的RefGene文件中有11,599基因符号

是基因列表共有的。随后构建第二个

MAQC set特异的RefGene文件,并计

算每个基因的计数。MAQC 12K set特

异及整个参考基因组序列的定位统计

数据总结在表1。

不同平台之间差异表达的比较

作为评估每个平台灵敏度的代表,我

们计算了HBRR和UHRR样品之间差

异表达基因(DEGs)的一致性。对于

RNA-Seq计数数据、DEGs的标准化

和确定,我们使用了R统计软件[12]包

DESeq[15] (附录A),它是R函数库中

Bioconductor[16]套件中的一部分。

生成的表格包括对数转化比值和p

值。

对于芯片数据,我们使用了Partek

Genomics Suite (Partek Inc., St.

Louis, MO, U.S.A.),利用已处理的数

据来计算平均信号、倍数变化和t检验

的p值。

在最终比较时,我们将 Ion PGM™

测序仪的累积读取计数与直接来自

MAQC研究的qPCR数据进行了比较。

利用≥2倍变化的阈值和≤0.05的p值,

我们评估了基因检测水平的一致性。

结果与讨论

平台的重复性

我们对每个平台的技术重复进行了

相关性评估。对于芯片,供应商的

技术重复有着非常好的相关性。对于

HBRR和UHRR样品,芯片“通常存

在”检出(在≥3/5次重复中存在)和所

有RNA-Seq技术重复的平均标准化强

度有着高于0.99的皮尔森相关系数。

RNA-Seq UHRR重复之间的相关性如

散点图所示(图1)。

表2. 根据累积的定位读取来检测MAQC 12K set。* 存在的检出或检测定义为RNA-Seq数据中每个基因有≥10个定位读取。

** 芯片数据的存在检出定义为“一般存在于”MAQC研究5个位点中的3个。位点1被用于这些比较,因为文章中

的数据显示出最低的可变性。

图3. 定位到基因的读取分布。在合并1M至5M的UHRR技术重复数据集时,可辨别对灵敏度的累加效应。

log2定位读取计数所测得的基因表达中值的最大变化

发生在1M与2M之间,或约在100万与200万定位读取

之间。

图4. 根据累积定位读取实现HBRR或UHRR样品的基因检测。实线表示随着定位读取计数的累积所实现的基因水平

检测。RNA-Seq数据的检测水平阈值显示在每个基因的1、2、5和10个读取计数。橙色虚线显示了在MAQC HG-U133 Plus 2.0芯片上检测到的9.140个基因。在≥5个读取计数的阈值,100万个定位读取超过了芯片基因检测。在

使用更为严格的≥10个读取计数阈值时,需要180万个定位读取来实现芯片的基因检测水平。

我们计算出1M至5M的每个读取计数

集合的ERCC剂量反应,并对结果作

图(图2)。

R平方、斜率和样品量(≥1次计数的检

测)的数值均随着读取计数的累积及最

大R平方值而增加。

基因检测和灵敏度的比较

为了评估从RNA-Seq数据累积得到

的100万至500万个定位读取的信号

差异,我们首先对每个基因的log2转

化定位读取计数分布的概率密度作图

(图3)。我们观察到计数分布的明显差

异,特别是在1M和2M增量之间。无

论研究五个重复中的哪两个,这种现

象都是一致的。

在大部分情况下,RNA-Seq数据的

检测被定义为每个基因≥10次读取计

数。RNA-Seq所检测到的基因集合将

会与上面提到的“一般存在的”芯片

检出相比较并作图。对于这种比较,

芯片所检测到的基因数量,无论是

HBRR还是UHRR,均为9.140。我们

预计随着重复数据集合的增加,当检

测阈值为每个基因≥10次读取时,在

RNA-Seq using Ion PGM™ Sequencer MAQC microarrays

Name Mean mapped reads (UHRR+HBRR)

Present* in UHRR or HBRR

Present** in UHRR or HBRR

1M 1,001,951 8,366 9,140

2M 2,019,947 9,373 9,140

3M 2,890,165 9,680 9,140

4M 3,781,665 9,912 9,140

5M 4,813,715 10,079 9,140

log 2(n

umbe

r of

map

ped

read

s)

0

2

4

6

8

10

12

14

••

•••

••••

Mapped read depth

1M 2M 3M 4M 5M

1 2 3 4 5

7000

8000

9000

10000

11000

12000

microarrays

Millions of mapped reads

Gen

es d

etec

ted

HBRR或UHRR样品中实现芯片基因检

测灵敏度所需的定位读取数量大约为

180万个定位读取。为了评估以阈值

为函数的检测,我们还研究了1、2、3和大于10次读取计数的检测阈值。

当检测阈值放宽至每个基因的≥10至

≥5个定位读取时,芯片的灵敏度水平

仅仅超过100万个定位读取。这些结

果如图4所示。

为了深入了解利用每个基因≥10次读

取计数从1M至5M增量检测的基因表

达水平,我们对21,134个基因的读取

计数进行了表达水平从高到低的排

序,并分配了单个RNA-Seq重复的百

分比排名。尽管第一个四分位数的检

测零星增加,但额外基因的检测主要

发生在第二个四分位数(图5)。根据此

分析,我们观察到UHRR样品中大约

50%的基因是在100万定位读取时检测

的。

−10

−5

0

5

10

−10 −5 0 5 10RNA-Seq log2 (Fold Change)

Mic

roar

ray

log 2 (

Fold

Cha

nge)0% 50%25% 75% 100%

low gene expression high gene expression

Percent Rank

Mean mapped reads (UHRR+HBRR)

Sig DEGs RNA-Seq only

Sig DEGs RNA-Seq total

Sig DEGs shared

Sig DEGs microarrays

1,001,951 63 583 520 4,198

2,019,947 1,259 4,630 3,371 4,198

2,890,165 1,348 4,836 3,488 4,198

3,781,665 1,400 4,944 3,544 4,198

4,813,715 1,430 4,994 3,564 4,198

图5. 利用累积定位读取对每个基因的UHRR读取技术的百分比排名的基因检测。所有21,374个UCSC RefGene条目

的计数按照从高到低排序,为每个基因分配了一个百分比排名。橙色线表示,在累积了多达5个技术重复的读取

计数时,其他检测到(≥10个计数)的基因。绿色线表示一直未检测到的基因,而蓝色线表示用100万个定位读取初

次检测到的基因。根据此粉刺,我们观察到大部分额外检测到的基因都在第二个四分位数。大约50%的基因是以

100万个定位读取检测的。

表3. 累积RNA-Seq数据和MAQC芯片的表达差异显著基因(sig DEGs)计数(HBRR和UHRR之间的倍数变化≥2,p≤0.05)的比较。

图6. Ion PGM™ 测序仪RNA-Seq和MAQC芯片表达数

据之间的UHRR和HBRR倍数变化比较。此处标出的

RNA-Seq数据来自2M读取计数水平。紫色标记表明两

个平台上的sig DEGs,而灰色标记则不显著。

平台间差异表达的比较

为了进一步拷问平台之间基因表达

测定的差异,我们通过芯片、 I o n

PGM™测序仪上的RNA-Seq和qPCR

对DEGs分析的比较,研究了相对基因

表达。对于那些被认为是表达差异显

著的基因,UHRR和HBRR样品之间的

倍数变化必须≥2,且上面介绍的每种

显著性检验方法的p值必须≤0.05。

对于RNA-Seq,我们根据1M至5M

的累积定位读取计算出倍数变化和p

值,并与芯片数据的相应值比较,测

定平台间一致性。当RNA-Seq数据从

2M增加到5M时,DEGs的数量显著

增加,只在RNA-Seq数据中发现的

DEGs数量从63增加到1,259 (表3)。根

据此次分析,我们推断,180万至230

万个定位读取的计数数据足以达到

与芯片相当的DEG水平。对于MAQC

12K set中的所有基因(N = 11,584),2M水平下的RNA-Seq计数数据的倍

数变化与芯片之间的皮尔森相关系数

为0.889 (图6),而DEGs为0.959 (N =

3,371)。

应当指出,随着读取计数从1M累积到

5M,当定位到基因的总读取计数达到

~200万时,DEGs的增幅最大,且芯

片特异的DEGs数量稳定在此水平。这

表明,对于MAQC 12K set,在累积更

多计数时,一致的差异表达无显著增

加。这可以归结为如何利用DESeq vs.

t检验计算差异表达或RNA-Seq计数数

据和探针水平强度坚持不同信号分布

方式上的细微差异。也可能是因为芯

片特异的许多基因是假阳性,因交叉

杂交事件而产生。

最后,为了进一步详细检查我们利用

RNA-Seq的DEGs观察,我们将结果

与MAQC研究的qPCR数据进行了比

较。我们从MAQC 12K set获得了690

个TaqMan® assay基因及倍数变化信

图7. Ion PGM™测序仪RNA-Seq和MAQC qPCR数据之

间的UHRR和HBRR倍数变化比较。我们从两个平台上

比较了690个基因的差异表达。选择2M定位读取作为

此深度下的检测水平,这与芯片相似。对于比较的所

有基因及sig DEGs,qPCR和RNA-Seq的数据集呈现高

度相关。灰色表示两个被检测RNA之间表达无差异的

基因。橙色表示那些表达差异的基因。

表4. Ion 318™芯片所产生的RNA-Seq读取示例。数据是来自四次独立文库和模板制备的四块Ion 318™芯片运行的

平均结果。标准偏差在括号中注明。利用Dynabeads® mRNA DIRECT™ Kit,按照新的“mRNA from Total RNA”步骤,从HeLa细胞中分离poly(A) RNA。利用Ion Total RNA-Seq Kit v2生成全转录组文库。模板制备时使用Ion OneTouch™ 200 Template Kit,在Ion PGM™测序仪上运行四块Ion 318™ 芯片时使用Ion PGM™ 200 Sequencing Kit。所用的数据分析管道在材料与方法中已有介绍,使用TMAP来进行hg18 + ERCC的比对以及在RefSeq数据库

中注释为外显子的转录本计数。

息。在这些基因中,328个基因是表

达差异显著的,倍数变化≥2。当读取

深度大约为200万个定位读取时,我

们发现,表达差异显著的RNA-Seq基

因与qPCR存在77.2%的一致。qPCR

与2M RNA-Seq数据之间的皮尔森相

关系数(R)超过0.95 (图7)。在对qPCR

和芯片DEGs进行相同比较时,我们发

现72.9%的DEGs是一致的。

结论

在本研究中,我们将 Ion PGM™测

序仪上运行的RNA-Seq结果与来自

MAQC研究的芯片和qPCR基因表达数

据进行了比较,以评估其灵敏度和动

态范围的差异。所有数据集经过重复

性和基因检测的验证,作为质量控制

的一种方式。

我们从五次RNA-Seq运行所产生的大

约100万至500万个定位读取中构建

了数据集。利用每个额外的定位读取

集,我们得以确定其基因检测水平近

似于芯片水平灵敏度。在灵敏度比较

中,我们观察到来自Ion PGM™测序

仪的200万个定位读取超过了芯片水

平的基因检测。一般来说,RNA-Seq

检测阈值设为≥ 10次读取计数/基因。

然而,当此阈值降至5次读取计数/基

因时,100万个定位读取的基因水平

−10

−5

0

5

10

−10 −5 0 5 10RNA-Seq log2(Fold Change)

TaqM

an lo

g 2(Fol

d Ch

ange

)

Ion chip Verified library reads (from Torrent Server)

Total aligned reads Reads aligned to RefSeq

318™ 5,173,193 (±578,119) 3,963,876 (±1,003,810) 2,866,637 (±698,467)

灵敏度也近似于芯片。此外,当比较

中包含了~200万个定位读取时,在差

异表达上可以观察到RNA-Seq和芯片

之间,以及RNA-Seq和qPCR之间是

高度一致的。

随着Ion半导体测序技术不断快速发

展,分析和发现新的转录动力学的能

力和方法也在不断进步。作为这一

点的例证,表4显示了最近使用HeLa

细胞的poly(A)选择性RNA以Ion Total

RNA-Seq Kit v2 (2012年第二季度上

市)制备文库的结果;平均来说,单块

Ion 318™芯片上获得了超过200万个

读取定位到RefSeq外显子。使用Ion

半导体测序的RNA-Seq经过证实是一

种高度灵敏的开展全转录组分析的方

法。

附录A

附加的统计方法信息

计数数据的离散性一般符合泊松分

布,这样整个重复样品的方差(σ2)就

等于平均值。RNA-Seq的计数数据趋

向于遵守过离散的泊松分布或负二项

式分布。基于此原因,在估计错误模

型的变化时,DESeq旨在解释偏大离

差[15]。一旦计算出来,就能估计两

个样品之间单个基因的标准化和显著

对数倍数变化。

芯片强度测定是连续的数据,遵守对

数正态分布。因此,在开展标准化计

算时,利用了参数统计方法。在计算

差异基因表达时,一旦施加适当的信

号过滤器来去除噪音水平附近的饱和

特征和低水平强度测定,就使用标准

的t检验。

软件版本

Torrent Server v1.4.1

TMAP v0.0.19

R v2.12.2

Bioconductor v2.10.0

ggplot v0.8.9 (详见参考文献19)

DESeq v1.2.1

HTSeq v0.5.3p1

1. Wang Z., Gerstein M, Snyder M. RNA-Seq: a revolutionary tool for transcriptomics. Nat Rev Genet. 2009 Jan;10(1):57-63. Review.

2. Mortazavi A., Williams B.A., McCue K., Schaeffer L., Wold B. Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nat Methods. 2008 Jul;5(7):621-8.

3. Tang F, Barbacioru C, Nordman E, Bao S, Lee C, Wang X, Tuch BB, Heard E, Lao K, Surani MA. Deterministic and stochastic allele specific gene expression in single mouse blastomeres. PLoS One. 2011;6(6)

4. MAQC Consortium. MicroArray Quality Control (MAQC) project shows inter- and intraplatform reproducibility of gene expression measurements. Nat Biotechnol. 2006 Sep;24(9):1151-61.

5. Jiang L., Schlesinger F, Davis C.A., Zhang Y., Li R., Salit M., Gingeras T.R., Oliver B. Synthetic spike-in standards for RNA-seq experiments. Genome Res. 2011 Sep;21(9):1543-51.

6. Ion Total RNA-Seq Kit user guide, protocol: (https://www3. appliedbiosystems.com/ cms/ groups/mcb_support/documents/ generaldocuments/cms_094735.pdf)

7. Ambion® MicroPoly(A)PuristTM protocol: (http://products.invitrogen.com/ivgn/ product/AM1919M?ICID=search- product)

8. FASTX-toolkit: (http://hannonlab.cshl. edu/ fastx_toolkit/)

9. TMAP: The Ion Torrent flow sequence mapping program: (http://lifetech-it. hosted.jivesoftware.com/docs/DOC- 1975)

10. HTSeq overview: (http://www-huber. embl. de/users/anders/HTSeq/doc/ overview. html)

11. MAQC genes present across all microar- ray platforms tested (http://www.nature. com/nbt/journal/v24/n9/extref/nbt1239- S5.txt)

12. MAQC supplemental tables: (http:// www. nature.com/nbt/journal/v24/n9/ extref/ nbt1239-S8.pdf)

13. Gyorffy B., Molnar B., Lage H., Szallasi Z., Eklund A.C. Evaluation of microarray preprocessing algorithms based on con- cordance with RT-PCR in clinical samples. PLoS One. 2009 May 21;4(5):e5645.

14. Hubbell E, Liu WM, Mei R. Robust estimators for expression analysis. Bioinformatics. 2002 Dec;18(12):1585-92

15. Anders S., Huber W. Differential expres- sion analysis for sequence count data. Genome Biol. 2010;11(10):R106. Epub 2010 Oct 27 (DESeq)

16. Gentleman R., Carey V.J., Bates D.M., et al. Bioconductor: Open software development for computational biology and bioinformat- ics 2004 Genome Biology, Vol. 5, R80

17. R Development Core Team (2011). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0: (http://www.R-project. org/)

18. Malone J.H., Oliver B. Microarrays, deep sequencing and the true measure of the transcriptome. BMC Biol. 2011 May 31;9:34. Review.

19. Wickham H. ggplot2: elegant graphics for data analysis. Springer New York, 2009.

参考文献

Personal Genome Machine™ Sequencer

Ion PGM™ System - includes Ion PGM™ Sequencer (4462917) and Torrent Server (4462918) 4462921

Semiconductor Sequencing Chips

Ion 316™ Chip Kit (4 pack) 4466616

Ion 318™ Chip Kit (4 pack) 4466617

Reagent Kits

Ion Total RNA-Seq Kit (12 reactions) 4466666

Ion Xpress™ Template Kit 4469001

Ion Sequencing Kit 4468997

Ion PGM™ 200 Sequencing Kit 4474004

Ion Control Materials 200 Kit 4471249

Ambion® ERCC RNA Spike-In Mix Kit 4456740

Ambion® MicroPoly(A)Purist™ Kit AM1919M

Ambion® FirstChoice® Human Brain Reference RNA AM6051

Stratagene® Universal Human Reference RNA 740000*The content provided herein may relate to products that have not been officially released and is subject to change without notice.

试剂和仪器 货号

订购信息