9
利用 agriGO 网络服务进行 GO 富集分析 苏震,徐文英,杜舟,周鑫 1. 分析目的 随着生命科学的发展,越来越多的基因功能被实验验证或者预测推导,但如何规范地 注释这些基因是一个难题。基因本体论(Gene OntologyGO)是一个在生物信息学领域中 广泛使用的本体,应用于基因的功能注释和富集化分析。GO 是一个国际标准化的基因功能 分类体系,提供了一套动态更新的标准词汇表,由 Gene Ontology 组织 http://www.geneontology.org/)开发并且维护。并且,GO 是对基因属性特征的客观描述, 独立于任何物种或者细胞类型。因此,我们利用 GO,可以对不同物种、不同细胞类型下的 基因功能进行规范的描述,避免了沟通上的不便,也可以将隐藏在文献中的基因功能信息更 加有效地提取出来。 在动植物功能基因组的研究中,高通量技术的使用产生了海量的组学数据,比如在不 同发育期、不同逆境处理下的转录组数据集可以多至上千个表达谱,如何分析和解释这些数 据成为摆在生物学家面前的一个难题,而使用 GO 对基因功能注释进行富集分析,是一套较 好的解决方案。agriGOGO Analysis Toolkit and Database for Agricultural Community)是一个 专注农业物种(以植物物种为主)的 GO 功能注释与分析的网络数据库与在线分析平台。 agriGO 采用的是一套具有完整结构的控制词汇集,使得对该系统可以更好地用于统计和运 算,为生物信息学、生物统计学的研究带来了很大的便利。 2. 分析工具 Gene Ontology 富集分析工具 agriGO,网址: http://bioinfo.cau.edu.cn/agriGO/ http://systemsbiology.cau.edu.cn/agriGOv2/ 参考文献: Zhou Du, Xin Zhou, Yi Ling, Zhenhai Zhang, and Zhen Su. (2010) agriGO: a GO analysis toolkit for the agricultural community. Nucleic Acids Research 38: W64-W70. Tian Tian, Yue Liu, Hengyu Yan, Qi You, Xin Yi, Zhou Du, Wenying Xu, Zhen Su; (2017) agriGO v2.0: a GO analysis toolkit for the agricultural community, 2017 update. Nucleic Acids Research. doi: 10.1093/nar/gkx382

利用 agriGO 网络服务进行 GO 富集分析bioinfo.cau.edu.cn/agriGO/download/agriGO_manuC.pdf利用 agriGO 网络服务进行GO 富集分析 苏震,徐文英,杜舟,周鑫

  • Upload
    others

  • View
    30

  • Download
    0

Embed Size (px)

Citation preview

利用 agriGO 网络服务进行 GO 富集分析 苏震,徐文英,杜舟,周鑫

1. 分析目的

随着生命科学的发展,越来越多的基因功能被实验验证或者预测推导,但如何规范地

注释这些基因是一个难题。基因本体论(Gene Ontology,GO)是一个在生物信息学领域中

广泛使用的本体,应用于基因的功能注释和富集化分析。GO 是一个国际标准化的基因功能

分 类 体 系 , 提 供 了 一 套 动 态 更 新 的 标 准 词 汇 表 , 由 Gene Ontology 组 织

(http://www.geneontology.org/)开发并且维护。并且,GO 是对基因属性特征的客观描述,

独立于任何物种或者细胞类型。因此,我们利用 GO,可以对不同物种、不同细胞类型下的

基因功能进行规范的描述,避免了沟通上的不便,也可以将隐藏在文献中的基因功能信息更

加有效地提取出来。

在动植物功能基因组的研究中,高通量技术的使用产生了海量的组学数据,比如在不

同发育期、不同逆境处理下的转录组数据集可以多至上千个表达谱,如何分析和解释这些数

据成为摆在生物学家面前的一个难题,而使用 GO 对基因功能注释进行富集分析,是一套较

好的解决方案。agriGO(GO Analysis Toolkit and Database for Agricultural Community)是一个

专注农业物种(以植物物种为主)的 GO 功能注释与分析的网络数据库与在线分析平台。

agriGO 采用的是一套具有完整结构的控制词汇集,使得对该系统可以更好地用于统计和运

算,为生物信息学、生物统计学的研究带来了很大的便利。

2. 分析工具

Gene Ontology 富集分析工具 agriGO,网址:

http://bioinfo.cau.edu.cn/agriGO/

http://systemsbiology.cau.edu.cn/agriGOv2/

参考文献:

Zhou Du, Xin Zhou, Yi Ling, Zhenhai Zhang, and Zhen Su. (2010) agriGO: a GO analysis toolkit

for the agricultural community. Nucleic Acids Research 38: W64-W70.

Tian Tian, Yue Liu, Hengyu Yan, Qi You, Xin Yi, Zhou Du, Wenying Xu, Zhen Su; (2017) agriGO

v2.0: a GO analysis toolkit for the agricultural community, 2017 update. Nucleic Acids Research.

doi: 10.1093/nar/gkx382

3. 操作步骤

采 用 agriGO 平 台 提 供 的 实 例 , 练 习 agriGO 中 主 要 的 分 析 工 具 ( 见

http://bioinfo.cau.edu.cn/agriGO/analysis.php):Singular Enrichment Analysis (SEA) 、Parametric

Analysis of Gene Set Enrichment (PAGE) 和 Cross comparison of SEA (SEACOMPARE)。

3.1 SEA 分析:对一组目标基因中对应的 GO 词条进行富集分析

所用的测试数据是选自拟南芥 ATH1 基因芯片的 168 个探针组 ID(probeset ID),这些探

针组在拟南芥受冷处理后,在地上部分的表达水平呈现上调趋势。在分析中,提交这些探针

组作为目标列表到 agriGO 中(见图 1),并选择 Affymetrix ATH1 Genome Array (GPL198)作为

背景,其它参数使用默认参数。分析的结果页面在图 2 中。

图 1 SEA 分析输入页面

在结果页面中,用户可以看到四大模块:分析总结(Analysis Brief Summary),图形结果

(Graphical Results),GO flash 表单(GO flash Chart),详细信息(Detail information)。在分

析总结模块中,包括了此次分析的识别号、物种、背景、GO 注释目标列表成员等信息及相

关的链接。在图形模块中,则将分析结果以层级树状图形结果(图 3)。

图 2 SEA 分析结果界面截图

在层级树状图中,GO 词条以内含详细说明的方框表示,根据 GO 词条的富集显著程度,用

不同的颜色来表示(无显著性为白色,有显著性则随着显著程度增加而颜色加深),同时,

根据词条间的内在层级关系排布词条,并且用不同线型的线连接词条。如果用户点击这些方

框,将进入该词条的详细信息页,该页面中有目标列表中被该词条所注释的基因或者探针的

详细信息。

图 3 SEA 分析产生的生物过程下的 GO 词条层级树状图。

图中用方框表示某个 GO 词条,并包含了该词条的 GO 识别号、定义、统计信息。如果某词条是统计显著的(校正

后 p 值小于或等于 0.05)则用颜色标记出来,不显著的词条用白色标记。方框中的颜色深度跟词条的富集显著度成正比。

实心线、虚线、点状线分别表示有两个、一个或没有显著富集词条在线的两端。该图的排列方式是从上往下。

图 4 GO 三大分类中显著性富集的词条生成的 flash 柱状图。 该图中,Y 轴代表某词条对应基因占总数的比例,反应了词条的富集程度。该比例的计算方式是把查询列表中对应

某词条的基因数除以查询列表的基因总数,背景中的比例也是用相同的方法计算出来的。两组比例用不同的颜色分别来

表示。X 轴代表 GO 词条。

用户还可以从 GO 词条的三个类中任意选取词条来做柱状图表(动态 flash 图表,见图 4)

并进行比较分析。在默认模式下,所有能有检测到的三个根词汇(GO:0008150 biological

process, GO:0003674 molecular function 和 GO:0005575 cellular component)的下级词汇(第二

层级词条),以及有统计显著变化的第三层级词条被用来生成一个 flash 的柱状图。该工具可

以自由定制,用户可以按个人要求进行调节直接制作出合适的图表。

3.2 PAGE 分析:从带有表达变化倍数的目标基因中找到变化显著的 GO 词条

图 5 PAGE 分析输入页面

这里使用的测试数据(请用 Example 2,见图 5)是利用层级聚类的方法从拟南芥冷处理

的 ATH1 基因芯片数据中选取的 1921 个探针组,对于每个探针组都有 6 个时间点下的冷处

理表达值与对照组表达值的比值(log2 转换,其热图可见图 6)。

图 6 PAGE 分析输入样本 来自冷处理下的六个时间点(0.5, 1, 3, 6, 12 和 24 小时),共选取了 1921 个在冷处理后期显示有上调信号探针组

图 7 PAGE 分析结果界面局部截图

PAGE 分析结果页面与 SEA 的页面既有相同的地方也有不同之处,这主要是因为 PAGE 结

果页面自身支持不同时间点或者不同处理的分析结果的比较,而 SEA 则需要使用

SEACOMPARE 工具才能实现。PAGE 结果页面(见图 7)的结构和 SEA 分析的结果页面相似,

其中一个特色的工具便是 HTML 表单模块(Colorful text mode),利用该模块,GO 词条在不

同时间点或者处理条件下的变化显著性可以用 HTML 表单的形式显示出来。在此表单中,红

色表示该 GO 词条显著上调,蓝色则表示显著下调,而颜色越深则越显著。为了能够令结果

更加简明,用户可以自主地选择 GO 词条来生成简短的 HTML 表单(图 8)。在该图中,我们

可以发现逆境和刺激相关的词条是上调的,并在后三个时间点逐步增强(6h,12h,24h),这

跟我们的预期是相符合的。有趣的是,转录因子相关词条(例如,GO:0030528 和 GO:0003700)

在相对较早的阶段(6h)出现上调,在处理 12 小时之后到达顶点,但是在最后时间点(24h)

却没有显著的上调。另外一个有趣的发现是,两个与刺激相关(response to stimulus)的词

条,GO:0042221 和 GO:0050896 在极早阶段(0.5h)就处在了显著下调的状态。通过以上分

析,我们可以看到 HTML 表单结果可以帮助用户快速有效地挖掘出 PAGE 分析结果中的生物

学含义。

图 8 六个时间点的 1921 探针组在完成 PAGE 分析之后使用 HTML 表单模块显示结果。

有颜色的方块代表该词条在某一时间点上调或下调的程度。其中黄红色系,青蓝色系、灰色分布表示该词条是上调、下

调还是不显著。颜色的深度由词条的显著程度决定的,每个词条的详细信息都包含在表单中。

图 9 PAGE 分析两时间点比较的层级树状图。

这里展示了冷处理下的两个时间点(0.5 和 24 小时)的层级树状图比较。为了显示词条可能的状况,我们使用了三种不同的颜色系统。其中黄红系统表示该词条在两个时间点都上调(双层边框)

或者在一个时间点上调(单层边框)。类似的设置也应用与青蓝色系但表示的是下调的词条。紫色系统则表示该词条在一个时间点上调另外一个时间点下调。

与 SEA 分析类似,PAGE 分析也支持层级树状图。更进一步,PAGE 能支持两个时间点或

处理之间的分析结果展示(图 9)。当有两个时间的时候,PAGE 会采用三套颜色体系:黄红

色系统,青蓝色系统、紫色系统分别代表:两个时间点该词条上调、下调、上下调不一致。

(多于两个时间点或处理时,由于需要的颜色体系可能过多或过于复杂,易导致混淆而使用

户查看困难,故 agriGO 不予支持。)

4. 思考和练习

4.1 GO 功能富集分析能提供什么样的信息,试举例说明。这些信息对我们的实验研究可能会

有什么帮助?

4.2 SEA分析和 PAGE分析有什么异同点?怎样通过 SEA工具实现对不同时间点或者逆境处理

的分析,尝试一下利用 SEACOMPARE 工具实现的 HTML 表单模块,来展示对多个时间点或者

处理分析结果。

相关阅读文献: [1] Zhou Du, Xin Zhou, Yi Ling, Zhenhai Zhang, and Zhen Su. (2010) agriGO: a GO analysis toolkit

for the agricultural community. Nucleic Acids Research 38: W64-W70. [2] Tian Tian, Yue Liu, Hengyu Yan, Qi You, Xin Yi, Zhou Du, Wenying Xu, Zhen Su; (2017) agriGO

v2.0: a GO analysis toolkit for the agricultural community, 2017 update. Nucleic Acids Research. doi: 10.1093/nar/gkx382

[3] Xin Zhou, Zhen Su. (2007) EasyGO: Gene Ontology-based annotation and functional enrichment analysis tool for agronomical species, BMC Genomics 8:246.

[4] Liu F, Xu W, Wei Q, Zhang Z, Xing Z, Tan L, Di C, Yao D, Wang C, Tan Y, Yan H, Ling Y, Sun C, Xue Y, Su Z. (2010) Gene Expression Profiles Deciphering Rice Phenotypic Variation between Nipponbare (Japonica) and 93-11 (Indica) during Oxidative Stress. PLoS ONE 5(1): e8632.

[5] Wenying Xu, Rendong Yang, Meina Li, Zhuo Xing, Wenqiang Yang, Guang Chen, Han Guo, Xiaojie Gong, Zhou Du, Zhenhai Zhang, Xingming Hu, Dong Wang, Qian Qian, Tai Wang, Zhen Su, Yongbiao Xue. (2011) Transcriptome Phase Distribution Analysis Reveals Diurnal Regulated Biological Processes and Key Pathways in Rice Flag Leaves and Seedling Leaves. PLoS ONE 6(3): e176133.

[6] Dongxia Yao, Xueyan Zhang, Xinhua Zhao, Chuanliang Liu, Chunchao Wang, Zhenghai Zhang, Chaojun Zhang, Qiang Wei, Qianhua Wang, Hong Yan, Fuguang Li, Zhen Su. (2011) Transcriptome analysis reveals salt-stress-regulated biological processes and key pathways in roots of cotton (Gossypium hirsutum L.). Genomics. 98: 47–55.

[7] Xueyan Zhang, Dongxia Yao, Qianhua Wang, Wenying Xu, Qiang Wei, Chunchao Wang, Chuanliang Liu, Chaojun Zhang, Hong Yan, Yi Ling, Zhen Su, Fuguang Li. (2013) mRNA-seq analysis of the Gossypium arboreum transcriptome reveals tissue selective signaling in response to water stress during seedling stage. PLoS ONE. doi:10.1371/journal.pone.0054762.