关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

单细胞转录组高级分析之细胞谱系分析

2020.4.10

基于单细胞转录组数据的细胞轨迹分析常见形式有细胞变化轨迹分析和细胞谱系分析,在上一篇中,我们详细介绍了常规拟时间序列分析的相关内容(具体内容查看链接)。在这里,我们主要就细胞谱系分析进行介绍和解读。

细胞谱系分析,最简明的理解就是细胞领域的进化树,通常指的是某类祖源细胞,在特定条件下,有多个发育轨迹和命运,变化过程类似复杂树状分支变化过程。因此,该分析的目的就是用单细胞数据还原复杂细胞命运变化。该分析的结果呈现内容可以简单概括为两点:1.细胞变化命运:2.不同命运细胞的marker基因。

以Monocle来进行细胞谱系分析为例,Monocle细胞谱系分析的目的是在实验中了解细胞是如何通过一个基因表达变化的生物程序进行转化的。每个细胞都可以看作是高维空间中的一个点,每个维描述基因组中不同基因的表达。识别基因表达变化的程序相当于学习细胞在这个空间中遵循的轨迹。但是,分析中维度越多,学习轨迹就越困难。然而,许多基因通常彼此共存。因此,可以使用各种不同的算法来降低数据的维数。所以,谱系分析的核心还是通过基因表达数据的降维,可视化细胞间的关系紧密程度。

1. 谱系骨架图

要进行该分析的输入数据主要包含三部分:基因列表、表达矩阵、细胞类型。通过对数据进行降维、编码每个细胞映射到轨迹中的位置,根据已有知识指定轨迹的起点,就可以得到基本的谱系变化图(谱系框架图)。

图一 谱系框架图

 

上图是由Monocle2分析得到的血细胞分化的谱系骨架,数据来源见参考文献[1],上述图形象地描述了细胞间的谱系关系。

2. 谱系层次聚类热图(Complex Heatmap)

谱系框架图能看出来细胞间的谱系关系,当然,通过对具有相似基因集进行层次聚类,以热图形式也允许我们识别到在每个分支中发育的细胞类型,如下图:
 


图二 谱系层次聚类热图

上图显示根据谱系骨架得到的Cluster在谱系的各个节段的分布情况,名字(数字)标签对应于树的每个段的状态标签。

3. 谱系(各树干)评分计算(stemness score)

得到基本谱系结构后,需要对结果进行评价和优化。因此,需要对谱系进行评分计算。通常,评分计算遵循以下几个过程:

(1)选择每个分支特有的stemness基因

(2)根据选择的基因计算表达值,进而计算谱系评分,并校正谱系骨架图

(3)将 UMI 归一化为 TPM 数据结构

校正完后,通过评分高低,留下可靠的,删除不可靠数据细胞,分别进行绘图展示:


图三 校正后留下细胞与剔除细胞谱系图,右图为校正后的留下细胞谱系图

4.差异基因分析

得到谱系图后,需要分析每个不同的分支内特有的差异基因是哪些,这样便于理解每个分支的特征和生物学过程。基于Monocle2的回归模型,可以检测在发育过程中随着命运决定而改变的基因,并很好地计算和可视化不同分支间表达的差异。

得到差异基因后,我们可以通过以下几种方式进行展示:

(1) 差异基因多方向的动力学曲线

将特征基因,以不同分支进行分类,以进化轨迹为横坐标,绘制动力学曲线图:


图四 基因动力学曲线图

以上图中,每条曲线对应于特定谱系中该基因的动力学。

(2) 差异基因的branch_ heatmap

根据差异基因,可通过形式展示每个不同分支的基因表达热图,直观展示每个不同分支中,不同基因的变化情况:

图五 差异基因表达热图

上述四步过程结果,展示了细胞谱系分析后的主要结果。针对特定的分支,我们也可以通过其他的一些方式进行展示。但是,不管哪种方式,模拟出细胞的谱系变化和筛选每个分支中的特征基因是该分析的主要结果和重点。有了这样一个高大上的生物信息学分析,相信对于每一个特定情境下的单细胞数据解读,可以提供巨大的帮助。


推荐
关闭