关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

基于单细胞数据理解细胞变化过程—拟时间序列分..(一)

2020.4.13

单细胞检测技术的发展为我们理解复杂生命体中细胞的组成与各自功能及变化过程提供了强有力的工具。基于单细胞基因表达谱数据,我们可以窥探发育过程中细胞内的调控变化,发现肿瘤微环境中的各类细胞及它们的细胞间交流,理解器官组织中复杂多样的细胞类型。现有单细胞研究是一个从整体到个体,再由个体特征重建整体的过程。在这个过程中,有一些非常有意思的问题是我们希望通过单细胞数据加以理解的,比如,某个组织中,某类细胞的发育生成过程;在不同条件下,细胞的改变过程和命运等等。因此,我们需要通过特定的分析手段实现对数据的分类和还原,并通过数据来勾画出细胞间的变化过程。在这样的背景下,拟时间序列分析(Pseudotime分析)为我们提供了来解决该问题的工具。

拟时间序列分析(Pseudotime分析)的字面意思是通过构建细胞间的变化轨迹来重塑细胞随着时间的变化过程。从具体的分类分析和复杂程度来说,可以分为细胞轨迹分析和细胞谱系分析。

细胞轨迹分析指的是简单模型的细胞变化轨迹分析,通常指的是细胞沿着某个过程有特定化的变化终点,轨迹具有简单树状结构,一端是“根”,另一端是“叶”;细胞谱系分析通常指的是某类祖源细胞,在特定条件下,有多个发育轨迹和命运,变化过程类似复杂树状分支变化过程。因此,简单细胞轨迹分析和细胞谱系分析原理上类似,复杂程度有所区别,当然,基于此的分析手法和方式也会有所不同。

近期单细胞检测技术的发展也激起了基于单细胞数据分析技术的爆发。从现有发表研究来看,已有不同类型的分析方法用于拟时间序列分析。我们对现有常用的分析策略整理如下图:

图1 单细胞拟时间序列分析不同策略与流程

以下我们以Monocle软件的拟时间分析为例,以简单模型来了解下通过该分析我们能拿到什么样的结果。

拟时间序列分析包括基因选择,数据降维和在拟时间内排列细胞三个基本步骤:

1.选择基因 

推断单细胞轨迹是一个机器学习问题。第一步是选择机器学习方法输入的基因。这叫做特征选择,它对轨迹的形状有很大的影响。算法通过检查这些基因在细胞群中的表达模式来对细胞进行排序。寻找以“有趣”即不只是嘈杂方式变化的基因,并利用这些基因来构造数据。这些基因将产生一个健壮、准确和具有生物学意义的轨迹。

2.数据降维

一旦细胞有序排列,我们就可以在降维空间中可视化轨迹,所以首先选择用于细胞排序的基因,然后使用反向图嵌入算法对数据进行降维。

3.在拟时间内排列细胞 

通过将表达数据投射到更低的维度空间,通过机器学习描述细胞如何从一种状态过渡到另一种状态的轨迹。假设轨迹具有树状结构,一端是“根”,另一端是“叶”。尽可能地将最佳树与数据匹配起来。这项任务被称为“歧管学习”,在生物过程的开始阶段,细胞从根部开始,沿着主干前进,直到到达第一个分支如果有的话。然后,细胞必须选择一条路径,沿着树走得越来越远,直到到达一片叶子。一个细胞的伪时间值是它回到根的距离。

通过该过程,我们就能得到以不同分类细胞为分类的细胞轨迹图:

图2 细胞轨迹图

从上述的轨迹图中,我们基本可以把这些细胞的轨迹途径分为5个不同的阶段(State),因此,可以用阶段(State)对轨迹图进行绘制,以明确轨迹过程阶段:


推荐
关闭