关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

丁显廷/林关宁团队开发新型质谱数据聚类方法比较框架

2019.12.26

  随着大规模细胞术在医学研究中的应用越来越广泛,已经开发出了多种聚类方法,包括半监督和无监督的聚类方法,用于数据分析.选择最优的聚类方法可以加速有意义细胞群体的识别。

  2019年12月23号,上海交通大学丁显廷、林关宁团队在Genome Biology上在线发表了题为A comparison framework and guideline of clustering methods for mass cytometry data的研究论文。该成果为研究人员提供了基于这些特征的决策准则,以便更容易地选择最合适的聚类工具。

图片.png

  在过去的十年里,单细胞技术取得了巨大的进步.由于能够在单细胞水平上同时测量多种特征,生物学家现在能够以前所未有的复杂性描述生物和病理过程。细胞计量学是利用Cytof技术实现的,它是一种先进的实验技术,它测量大量(通常是几百万)细胞中多种蛋白质的水平。同时获得大量蛋白质使得CytoF在药物优化、疫苗开发和疾病标记的发现中都很有用。与众所周知的单细胞RNA测序(scRNA-seq)(平均处理数万至数十万个细胞)相比,CytoF获得了更高的细胞数量(平均高达数百万个细胞),并根据细胞表面抗原的表达水平将混合细胞分为不同的亚型。细胞首先被金属同位素标记的抗体染色,然后通过飞行时间质谱仪,每个同位素标签的密度被量化。与使用荧光标记的传统流式细胞术相比,CytoF克服了光谱重叠和自荧光的问题,使生物学家能够在同一批实验中获得单细胞水平的高维蛋白质分析。

  实验技术的快速发展必然给数据处理和分析带来许多挑战。大规模细胞仪数据分析的一个关键任务是研究高维空间中功能不同的细胞群体。通常,细胞群体的识别是通过“manual gatin”来实现的,它是在先前知识的基础上,在一系列双轴图(显示所有细胞两种蛋白质表达的点图)上手动定义不同的细胞群体。这种劳动密集型方法提供了缓慢但准确的细胞分类。在某些情况下,这种先验知识被认为是“ground truth”,并被用来开发半监督分类器。例如,自动细胞类型发现和分类(ACDC)利用标记×细胞类型注释表为所有种群定义地标点,然后使用随机步行将剩余的单元链接到这些地标。另一种称为线性判别分析(LDA)的线性算法也用预定的人工标签实现了较高的聚类精度。

图片.png

各工具的相对优势

  为了解决这一问题,研究人员比较了基于六个独立基准数据集的九种方法的三种绩效衡量标准,即“精度”作为外部评价、“一致性”作为内部评价和稳定性。在6组流式细胞仪数据集上测试了7种非监督方法(Accense、XShift、物象图、FlowSOM、Flow Means、Depeche和KMeans)和2种半监督方法(自动细胞类型发现和分类及线性判别分析(LDA))。研究还计算并比较了所有定义的性能度量,针对随机次抽样、不同样本大小以及每种方法的聚类数。LDA最精确地复制手册标签,但在内部评估中没有排名第一。在精度、一致性和稳定性方面,物像图和Flow SOM比其他非监督工具表现得更好。当检测精细子簇时,相图和XShift具有更强的鲁棒性,而Depeche和FlowSOM则倾向于将相似的簇聚类划分为元簇。随着样本量的增加,物像图、XShift和Flow Means的性能受到影响,但Flow SOM随着样本量的增加而相对稳定。

  总之,在选择合适的分析工具时,应综合考虑所有的评价方法,包括精确性、一致性、稳定性和聚类分辨率。因此,该研究为研究人员提供了基于这些特征的决策准则,以便更容易地选择最合适的聚类工具。


推荐
关闭