36
定量蛋白质组学数据分析报告(2017v1.2http://www.biorefer.cn Tel15900766827 [email protected] 1 蛋白质组数据分析报告 项目名称 蛋白质组数据分析 项目号 P***** 客户单位 分析人 俞鸿 2017 年 月 日 手机扫一扫微信订阅号

蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 1

蛋白质组数据分析报告

项目名称 蛋白质组数据分析

项 目 号 P*****

客户单位

分 析 人 俞鸿

时 间 2017 年 月 日

页 数

手机扫一扫微信订阅号

Page 2: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 2

目录

1. 数据分析流程........................................................................................................ 3

2. 数据预处理............................................................................................................ 4

3. 蛋白质结果信息统计............................................................................................ 5

4. 实验质量评估........................................................................................................ 7

4.1. 蛋白质表达箱线图 ..................................................................................... 7

4.2. 蛋白质表达小提琴图 ................................................................................. 8

4.3. 蛋白质表达分布密度图 ............................................................................. 9

4.4. 蛋白质表达直方图 .................................................................................... 10

4.5. 样本聚类分析 ............................................................................................ 11

4.6. 表达相关性分析 ........................................................................................ 13

4.7. 主成分分析 ................................................................................................ 15

5. 全部蛋白质功能分析........................................................................................... 16

5.1. GO 功能分析 ............................................................................................. 16

5.2. KEGG 通路分析 ........................................................................................ 20

6. 差异蛋白分析...................................................................................................... 22

6.1. 差异蛋白筛选 ........................................................................................... 22

6.2. 差异蛋白的功能分析 ............................................................................... 23

6.2.1. GO 功能分析 .................................................................................. 24

6.2.2. KEGG 功能分析 ............................................................................. 27

6.3. 蛋白相互作用网络分析 ........................................................................... 28

6.4. 差异蛋白显示 ........................................................................................... 29

参考文献...................................................................................................................... 31

申明............................................................................................................................. 32

补充说明..................................................................................................................... 32

Page 3: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 3

1. 数据分析流程

Page 4: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 4

2. 数据预处理

对由实验获得基本的 Total spectra, Spectra, Unique spectra, Peptide, Unique peptide, Protein 的统计信息进行描述。

注:由于实验平台的差异,统计的项目可能存在差异。

将得到的蛋白质列表进行整理,如果存在多次实验重复,将实验数据进行合

并。根据搜库的数据来源下载对应的可用注释信息。

Page 5: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 5

3. 蛋白质结果信息统计

对鉴定对的总蛋白质表中的参数信息绘图统计图,以便了解鉴定到的蛋白质组

结果的整体情况。采用 Proteome Discoverer 软件搜索到的列表绘图,通常包

括 Coverage, Score, Peptides, PSMs, Unique Peptides, Protein Length, Molecular Weight, Isoelectricpoint.

Page 6: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 6

Page 7: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 7

4. 实验质量评估

使用 R 语言对于蛋白质表达量二维矩阵数据进行一系列的分析和绘图,可显示

蛋白质数据的整理情况,评估重复实验的质量。

4.1. 蛋白质表达箱线图

箱线图能提供有关数据位置和分散情况的关键信息,比较不同的母体数据时更

可表现其差异,可以体现生物学重复之间的关系。在每一个盒子中,从上向下

为上边缘、上四分位数 Q3,中位数,下四分位数 Q1,下边缘;白色圆点是均

值,两端的黑色圆点是离群点。同一组的样品用相同的颜色标示。

Page 8: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 8

4.2. 蛋白质表达小提琴图

小提琴图是一种用来对多组数据的分布进行比较的方法。在上图的小提琴图中

加了箱线图,白色的点表示均值,黑色的框表示 IQR,细黑线表示须,小提琴

的胖瘦表示分布密度。

Page 9: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 9

4.3. 蛋白质表达分布密度图

蛋白质表达密度分布曲线图排除了由于取样不同和测量不准所带来的误差,能

够精确地反映总体的分布规律。

密度分布图显示全部样本的蛋白质表达值

分开显示每一个样本的蛋白质表达值的密度分布图

Page 10: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 10

4.4. 蛋白质表达直方图

直方图是表示数据变化情况的一种主要工具,用直方图可以解析出数据的规则

性,比较直观地看出产品质量特性的分布状态,对于资料分布状况一目了然,

便于判断其总体质量分布情况。直方图是数值数据分布的精确图形表示,是一

个连续变量(定量变量)的概率分布的估计,将值的范围分段,即将整个值的

范围分成一系列间隔,然后计算每个间隔中有多少值。

Page 11: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 11

4.5. 样本聚类分析

聚类分析是为了研究样品之间存在的亲疏关系,蛋白质表达相似程度较大的样

品聚合为一类,正常同一组生物学重复或者技术重复之关会聚合在一起。

样品聚类图,采用 Euclidean distance 和 Average linkage 方法进行聚类分析

层次聚类热图,采用 Euclidean distance 和 Complete linkage 方法进行聚类分

Page 12: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 12

kmeans 聚类,kmeans 算法以 k 为参数,把 n 个对象分为 k 个聚类,以使聚类

内具有较高的相似度,而聚类间的相似度较低。Kmeans 聚类在定义了 k 之

后,将趋势相同的蛋白质归在同一个类别中,比较适合时间点取样的样本的分

析。

K=5 的示例图,左图中绿色折线是每个蛋白质的连线图,红色线是均值线;右

图是分组后带标准误差线的均值线。

Page 13: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 13

4.6. 表达相关性分析

生物学重复或者技术重复是在实验设计上需要的,样品间蛋白表达水平相关性

是检验实验可靠性和样本选择是否合理的重要指标。我们通过相关系数检查样

本之间的关系。

使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线

的散点图,右下上角是两两样本之间的 Pearson 相关系数,矩阵对角线是样本

表达值的直方图。相关系数 r 的值在-1 至 1,越接近 1,表明样品之间相似度

越高。

Page 14: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 14

蛋白表达相关性热图,蓝色越深表明正相关性越强,红色越深表明负相关性越

强,自动将相关性接近的组打上红框。提供了三种不同风格的图。

Page 15: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 15

4.7. 主成分分析

主成分分析(principal component analysis, PCA)是将多指标化为少数几个综

合指标的一种统计学方法,将原来众多具有一定相关性的指标,重新组合成一

组新的相互无关的综合指标,对所有因素按重要性排序,通常靠后的微小因素

被忽略掉,从而起到简化数据的作用。在蛋白质组数据分析中我们可以通过

PCA 找出离群样本、判别相似性高的样本簇。表达相近的样本会在散点图中聚

在一起。

左图为第 1、第 2 主成分的散点图,右图是第 1,2,3 主成分的三维图

Page 16: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 16

5. 全部蛋白质功能分析

方法(中文):

蛋白质的访问号被提交到 DAVID(The Database for Annotation, Visualization and Integrated Discovery, v6.8),选择对应物种作为背景参

照进行功能分析,下载了 GO 和 KEGG 的分析结果后用内部的 Perl 和 R 开发的

流程对结果进行绘图。

方法(英文):

All identified protein accessions were submitted to DAVID(The Database for Annotation, Visualization and Integrated Discovery, v6.8) web site. Then, The default matched organism were selected as background to do analysis. The GO and KEGG reports of DAVID were downloaded to draw charts using some in-house Perl and R scripts.

5.1. GO 功能分析

Gene Ontology 是一个在生物信息学领域中广泛使用的本体, 它包括三个分

支:细胞组件(cellular component),细胞的每个部分和细胞外环境。分子

功能(molecular function),基因产物在分子级别的主要活动,比如结合以及

催化。生物过程(biological process),细胞内发生的,可以定义开始和结束

的事件或行动。在做 GO 功能分析时,基因或者蛋白质可能对应到三个分支上

的多个功能,也可能对应不到任何功能。在做 GO 功能分类统计时,功能类别

的蛋白质或基因数默认都是重复统计的。

结果详见:AllProteins/DAVID/DAVID_GO.xls

文件的说明见“DAVID 表格说明.xlsx”。

全部蛋白质的 GO 功能分析可以通过一系列图形进行展示,首先,对生物过程

(biological process),细胞组分(cellular component), 分子功能

(molecular function)的第二层 GO 功能进行统计绘图。

Page 17: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 17

第二层 GO 功能分类统计图,对 GO 的三大 Ontology - biological process, cellular component, molecular function 的第二层 GO 功能的蛋白计数柱状

图,柱状图上的数字是该功能的蛋白质的个数

单个 Ontology GO 功能分类统计图(GO Cellular Component Categories Level2),三大 ontology 分开绘制,条形图标注的数字是蛋白的个数

除了上图之外,在 allProteins/DAVID/GOLevel2 中还有多种风格的图供选

择,包括分面条形图,分面 Cleveland 点图,含背景数据的分面百分比图,按

ontology 类别分开绘制的数目条形图和百分比图。

GO 富集分析的结果:

见 allProteins/DAVID/GO_Enrichment

Page 18: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 18

前 10 个统计学上富集的 GO 功能统计图(p<0.05)

GO 生物学过程功能前 10 位富集的功能条形图,条形后的数字是 p-value

Page 19: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 19

前 10 位富集的功能的气泡图,Rich Factor 为结果表中的 Count/Pop Hits

常见的细胞定位被单独挑选出,结果见 allProteins/DAVID/CellLocation

细胞定位统计图

蛋白直接对应的 GO 功能统计的富集分析结果见:

allProteins/DAVID/GO_Direct_Enrichment

Page 20: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 20

5.2. KEGG 通路分析

KEGG(京都基因与基因组百科全书)是一套关于基因组、酶促途径以及生物化

学物质的在线数据库。因为 KEGG 的通路数据广,使用便利,通路分析时用该

数据集比较多,DAVID 工具提供 KEGG 通路的结果。

统计学上显著富集的通路(p<0.05)

前 10 个富集的 KEGG 通路

Page 21: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 21

全部 KEGG 通路的双坐标图,左边坐标轴是蛋白的计数,右边坐标轴是-log10(p-value)

全部 KEGG 通路的气泡图,Rich Factor 为结果表中的 Count/Pop Hits

结果表见 allProteins/DAVID/DAVID_KEGG.xls, 表头说明见 DAVID 表格说

明.xlsx 更多的图见 allProteins/DAVID/KEGG

Page 22: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 22

6. 差异蛋白分析

6.1. 差异蛋白筛选

方法(中文):Student’s t-Test 方法被使用检测两两之间比较以获取 p-value. 平均比值大于 1.5 或者小于 0.667 且 p-value<0.05 被当作显著差异蛋白

方法(英文):Student’s t-Test was performed on the corrected expression value of identified proteins to obtain the p-value. The significant differentially expressed proteins(DEPs) were identified if the ratio was >1.5 or <0.667, and the p-value was <0.05.

差异蛋白统计图

FC: Fold Change, P: p-value

Down-P0.01 : FC<0.667 and P<0.01

Down-P0.05: FC<0.667 and P<0.05 and P>=0.01

NoSig: 按设定的筛选条件无显著差异 No Significance

Up-P0.01: FC>1.5 and P<0.01

Up-P0.05: FC>1.5 and P<0.05 and P>=0.01

Down: 下调蛋白 FC<0.667 and P<0.05

Up: 上短蛋白 FC>1.5 and P<0.05

Page 23: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 23

火山图

6.2. 差异蛋白的功能分析

方法(中文):

蛋白质的访问号被提交到 DAVID(The Database for Annotation, Visualization and Integrated Discovery, v6.8),选择对应物种作为背景参照进行功能分析,下载了 GO和 KEGG 的分析结果后用内部的 Perl 和 R 开发的流程对结果进行绘图。

方法(英文):

All identified protein accessions were submitted to DAVID(The Database for Annotation, Visualization and Integrated Discovery, v6.8) web site for functional analysis. Then, the default matched organism were selected as background to do analysis. The GO and KEGG reports of DAVID were downloaded to draw charts using some in-house Perl and R scripts.

Page 24: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 24

6.2.1. GO 功能分析

结果详见:DEP/?vs?/DAVID/DAVID_GO.xls

文件的说明见“DAVID 表格说明.xlsx”。

第二层 GO 功能分类统计图,对 GO 的三大 Ontology - biological process, cellular component, molecular function 的第二层 GO 功能的蛋白计数柱状

图,柱状图上的数字是该功能的蛋白质的个数

单个 Ontology GO 功能分类统计图(GO Cellular Component Categories Level2),三大 ontology 分开绘制,条形图标注的数字是蛋白的个数

Page 25: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 25

单个 Ontology GO 功能前 10 位富集的功能条形图,X 轴是对 p-value 取-log10, 条形图中的标注的数字是 p-value.

单个 Ontology GO 功能前 10 位富集的功能气泡图,X 轴是 Rich Factor, Rich Factor 是被分析数据集中该功能的蛋白数除以背景参照中该功能的蛋白数,Y

轴是-Log10(p-value)

Page 26: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 26

前 10 个统计学上富集的 GO 功能统计图(p<0.05)

Page 27: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 27

6.2.2.KEGG 功能分析

统计学上显著富集的通路(p<0.05)

按 p-value 从小到大取前 10 位 KEGG 通路所做的条形图,X 轴是对 p-value 取

-log10, 条形图上标注的是 p-value

KEGG 的表格结果见 DEP/?vs?/DAVID/DAVID_KEGG.xls

更多的绘图见 DEP/?vs?/DAVID/KEGG_PATHWAY

Page 28: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 28

6.3. 蛋白相互作用网络分析

方法:全部的差异蛋白的访问号被提交到 STRING(strong-db.org), 获取差

异蛋白之间的相互作用文件。接着,蛋白-蛋白相互作用文件和蛋白的表达信息

被导入到 Cytoscape(version: 3.2.1)中进行网络构建。

方法(英文):The accession of DEPs were submit to STRING website (string-db.org) for obtaining the protein-protein interaction (PPI) file. Then, PPI files and protein expression file were imported to Cytoscape (version:3.2.1) tools to construct, style, and display the PPI network.

差异蛋白之间的相互作用网络,红色顶点是上调的蛋白,绿色顶点是下调的蛋

白,连接线越粗则 Combined Score 值越高, 也表示相互作用关系越可靠

其中顶点的信息见 DEP/?vs?/Network/*.Node.csv

表格中顶点分析的字段说明见

Page 29: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 29

6.4. 差异蛋白显示

热图

方法:采用 R pheatmap 软件/HemI 进行热图绘制。

Page 30: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 30

圈图

方法:采用 Circos 软件(version: 0.69)对全部样本或者比值进行绘图。

热图是蛋白质在不同样品中的表达(也可能用比值),连线图是比值的均值。

Page 31: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 31

参考文献

DAVID

Huang da W, Sherman BT, Lempicki RA (2009) Systematic and integrative analysis of large gene lists using DAVID bioinformatics resources. Nat Protoc 4:44–57.

STRING

Szklarczyk D, Morris JH, Cook H, Kuhn M, Wyder S, Simonovic M, Santos A, Doncheva NT, Roth A, Bork P, Jensen LJ, von Mering C.The STRING database in 2017: quality-controlled protein-protein association networks, made broadly accessible.Nucleic Acids Res. 2017 Jan; 45:D362-68

Szklarczyk D, Franceschini A, Wyder S, Forslund K, Heller D, Huerta-Cepas J, Simonovic M, Roth A, Santos A, Tsafou KP, Kuhn M, Bork P, Jensen LJ, von Mering C.STRING v10: protein-protein interaction networks, integrated over the tree of life.Nucleic Acids Res. 2015 Jan; 43:D447-52.

Cytoscape

Shannon P, Markiel A, Ozier O, Baliga NS, Wang JT, Ramage D, Amin N, Schwikowski B, Ideker T.Cytoscape: a software environment for integrated models of biomolecular interaction networks.Genome Research 2003 Nov; 13(11):2498-504

HemI

Wankun Deng, Yongbo Wang, Zexian Liu, Han Cheng and Yu Xue. HemI: A Toolkit for Illustrating Heatmaps PLoS One 2014 Nov 5;9(11):e11198852.

CIRCOS

Krzywinski, M. et al. Circos: an Information Aesthetic for Comparative Genomics. Genome Res (2009) 19:1639-1645

Page 32: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 32

申明

本项目报告由上海生咨生物科技有限公司(Biorefer)提供给项目相关客户。本

公司承诺:未经客户同意,不向第三方泄露数据及数据分析内容,不将客户数

据用于任何商业行为(遵循合同保密协议)。客户未经本公司同意,不得以任

何目的向第三方出示项目报告。本报告的最终解释权归上海生咨生物科技有限

公司。

a) 因查看结果的需要,建议安装下列软件: Microsoft Word 2007 版以上 Microsoft Excel 2007 版以上 Acrobat reader or Acrobat Professional 如果之前安装的是 office 2003 版本建议 office2007 文件格式兼容包 SVG 格式文件需要安装 SVG Viewer 文本编辑器:UltraEdit, Editplus, or Notepad++ 等其中之一。 b) 如果您发表论文,希望可将本公司列入致谢中。中文: 上海生咨生物科技有

限公司,英文:Shanghai BIOREFER biological technology Co. , Ltd.

补充说明

1) GENE ONTOLOGY:

基因本体(Gene Ontology,GO)是一个在生物信息学领域中广泛使用的本

体。随着生物技术的发展越来越快,人们得到的数据越来越多。需要寻找一种

方法来组织整理这些信息。GO(gene ontology)基因本体论提供了一个省时

省力的解决方案,基因产物在数据库中被赋上 GO 的词条,进而科学家们可以

到数据库中去查询这些生物学的相关信息。

Gene Ontology 是一个在生物信息学领域中广泛使用的本体, 它包括三个分

支:

细胞组件(cellular component),细胞的每个部分和细胞外环境。 分子功能(molecular function),基因产物在分子级别的主要活动,比如结合

以及催化。 生物过程(biological process),细胞内发生的,可以定义开始和结束的事件

或行动。

在做蛋白质或者基因功能分析时,常常用 GO 的某一个分支(用的较多的是

biological process)去分类蛋白质功能。

Page 33: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 33

GO 是一个有向无环图(directed acycline graph, DAG,在图论中,如果一

个有向图无法从某个顶点出发经过若干条边回到该点,则这个图是一个有向无

环图)型的本体,它是一个有层次结构的复杂体系,在功能类别水平上,一个

父类可以有多个子类,一个子类也可能有多个父类。GO 的功能类别从粗到细

的层次可以多达 10 多层。

在做 GO 功能分析时,基因或者蛋白质可能对应到三个分支上的多个功能,

也可能对应不到任何功能。在做 GO 功能分类统计时,功能类别的蛋白质或基

因数默认都是重复统计的。

2) GO slim http://www.geneontology.org/GO.slims.shtml

GO slims are cut-down versions of the GO ontologies containing a subset of the terms in the whole GO. They give a broad overview of the ontology content without the detail of the specific fine grained terms.

GO slims are particularly useful for giving a summary of the results of GO annotation of a genome, microarray, or cDNA collection when broad classification of gene product function is required. See the map2slim.pl section for a perl implementation of this.

GO slims are created by users according to their needs, and may be specific to species or to particular areas of the ontologies. GO provides a generic GO slim which, like the GO itself, is not species specific, and which should be suitable for most purposes. Alternatively, users can create their own GO slims or use one of the model organism-specific slims integrated into the GO flat file. Please email the GO helpdesk for more information about creating and submitting your GO slim.

3) P-Value 矫正方法

The adjustment methods include the Bonferroni correction ("bonferroni") in which the p-values are multiplied by the number of comparisons. Less conservative corrections are also included by Holm (1979) ("holm"), Hochberg (1988) ("hochberg"), Hommel (1988) ("hommel"), Benjamini &

Page 34: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 34

Hochberg (1995) ("BH" or its alias "fdr"), and Benjamini & Yekutieli (2001) ("BY"), respectively. A pass-through option ("none") is also included. The set of methods are contained in the p.adjust.methods vector for the benefit of methods that need to have the method as an option and pass it on to p.adjust.

The first four methods are designed to give strong control of the family-wise error rate. There seems no reason to use the unmodified Bonferroni correction because it is dominated by Holm's method, which is also valid under arbitrary assumptions.

Hochberg's and Hommel's methods are valid when the hypothesis tests are independent or when they are non-negatively associated (Sarkar, 1998; Sarkar and Chang, 1997). Hommel's method is more powerful than Hochberg's, but the difference is usually small and the Hochberg p-values are faster to compute.

The "BH" (aka "fdr") and "BY" method of Benjamini, Hochberg, and Yekutieli control the false discovery rate, the expected proportion of false discoveries amongst the rejected hypotheses. The false discovery rate is a less stringent condition than the family-wise error rate, so these methods are more powerful than the others.

4) 超几何分布

x, q vector of quantiles representing the number of white balls drawn without replacement from an urn which contains both black and white balls.

m the number of white balls in the urn.

n the number of black balls in the urn.

k the number of balls drawn from the urn.

p probability, it must be between 0 and 1.

The hypergeometric distribution is used for sampling without replacement. The density of this distribution with parameters m, n and k (named Np, N-Np, and n, respectively in the reference below) is given by

Page 35: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

定量蛋白质组学数据分析报告(2017v1.2)

http://www.biorefer.cn Tel:15900766827 [email protected] 35

p(x) = choose(m, x) choose(n, k-x) / choose(m+n, k)

for x = 0, …, k.

The quantile is defined as the smallest value x such that F(x) ≥ p, where F is the distribution function.

5) Z- score

Page 36: 蛋白质组数据分析报告 - biorefer.com · 使用矩阵散点图显示样品之间的相关性,左下三角是两两样本之间带拟合曲线 的散点图,右下上角是两两样本之间的Pearson

上海生咨生物科技有限公司技术服务部

联系人:俞鸿

电话:159-0076-6827

Email:[email protected]; [email protected]

QQ: 12628609

微信: 15900766827

联系方式

我们一直致力于生物信息学咨询及其扩展服务!

BIOREFER生物数据分析与挖掘

专业服务商