返回

RNA水平研究

进阶数据分析(通路、聚类)

基于LC-MS的代谢组数据的固有特性要求我们使用多元变量统计分析方法对数据进行分析。相比于传统的单变量统计分析方法(univariate analysis, UVA)如学生氏t检验、方差分析(analysis of variance, ANOVA)等更加注重代谢物水平的独立变化,多元变量统计分析更加注重代谢物之间的关系以及它们在生物过程中的促进/拮抗关系。同时参考两类统计分析方法的结果,有助于我们从不同角度观察数据,也可以帮助我们避免只使用一类统计分析方法带来的假阳性错误或模型过拟合。

差异代谢物筛选

通过OPLS-DA过滤掉了不相关的正交信号,因而获得的差异性代谢物更加可靠。本项目采用 OPLS-DA模型第一主成分的VIP(Variable Importance in the Projection)值(阈值>1),并结合学生氏t检验(t-test)的p值(阈值<0.05)来寻找差异性表达代谢物。客户也可以根据自己的需求,选择其他差异代谢物的筛选标准。

我们将筛选差异代谢物的结果以火山图(volcano plot)的形式进行可视化,结果如图所示:


差异代谢物筛选火山图

差异代谢物层次聚类分析

通过以上分析得到的差异代谢物,在生物学上往往具有结果和功能相似性/互补性,或者受同一代谢通路的正调控/负调控,表现为在不同实验组间具有相似或相反的表达特征。对这类特征进行层次聚类分析,有助于我们将具有相同特征的代谢物归为一类,并发现代谢物在实验组间的变化特征。


差异代谢物层次聚类分析热力图

差异代谢物KEGG注释

生物体中的复杂代谢反应及其调控并不单独进行,往往由不同基因和蛋白质形成复杂的通路和网络,它们的相互影响和相互调控最终导致代谢组发生系统性的改变。对这些代谢和调控通路的分析可以更全面,更系统的了解实验条件改变导致的生物学过程的改变,性状或疾病的发生机理和药物作用机制等生物学问题。

京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes, KEGG) Pathway数据库以基因和基因组的功能信息为基础,以代谢反应为线索,串联可能的代谢途径及对应的调控蛋白,以图解的方式展示细胞生理生化过程。这些过程包括能量代谢,物质运输,信号传递,细胞周期调控等,以及同系保守的子通路等信息,是代谢网络研究最常用的通路数据库。


我们整理出差异代谢物映射的所有通路,如下表所示:


KEGG通路注释信息表(部分)




获得上述结果后,我们将差异代谢物在KEGG通路图上进行标记,以亮红色代表上调,亮蓝色代表下调。以Citrate cycle (TCA cycle)代谢通路为例:


代谢通路图,其中红色标记的点为差异代谢物

差异代谢物代谢通路富集分析

KEGG注释分析仅找到所有差异代谢物参与的通路,但要想知道这些通路是否与实验条件密切相关,需对差异代谢物进行进一步的代谢通路富集分析。通过对差异代谢物所在通路的综合分析(包括富集分析和拓扑分析),我们可以对通路进行进一步的筛选,找到与代谢物差异相关性最高的关键通路。


代谢通路富集分析的结果以气泡图进行展示。气泡图中每一个气泡代表一个代谢通路,气泡所在横坐标和气泡大小表示该通路在拓扑分析中的影响因子大小,大小越大影响因子越大;气泡所在纵坐标和气泡颜色表示富集分析的P值(取负常用对数,即-log10P-value),颜色越深P值越小,富集程度越显著。我们对富集分析和拓扑分析综合考虑后凸显出重要性的通路进行了标注,帮助客户深入理解分析结果。


代谢通路富集分析气泡图

参考文献

XueKe G, Shuai Z, JunYu L, LiMin L, LiJuan Z, JinJie C. Lipidomics and RNA-Seq Study of Lipid Regulation in Aphis gossypii parasitized by Lysiphlebia japonica. Sci Rep 2017; 7(1): 1364.

联系我们
客户支持
学术交流
联系我们 客户支持 吉凯商城