关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

mtSC:单细胞类型自动鉴定的新方法

2021.6.01

  单细胞测序技术有助于刻画细胞层面的异质性,为进一步探索细胞功能和内在作用机制等奠定了基础。在单细胞转录组测序数据的分析过程中,细胞类型鉴定是必须且重要的一步。常规的细胞类型鉴定依赖于细胞类型标记基因,这种方法费时费力且不稳定,可重复性差,易导致不同实验室的鉴定结果不可比较。随着单细胞测序技术的迅猛发展,众多科学家联名在2017年提出人类细胞图谱计划(The Human Cell Atlas),于2020年提出了人类癌症图谱计划(The Human Tumor Atlas),海量的已标注细胞类型的单细胞转录组测序数据越来越多,利用这些数据作为参考数据集(reference)来鉴定新测序的细胞(single cell assignment against the reference),正成为一种细胞注释的新思路。

  2021年5月29日,同济大学生命科学与技术学院生物信息系刘琦教授课题组(段斌,陈绍奇,陈晓涵为文章共同第一作者)在Nucleic Acids Research线上发表了题为Integrating multiple references for single cell assignment的研究论文,发布了基于人工智能多任务深度度量学习的整合同一组织的多个来源的参考数据集进行单细胞类型自动鉴定的新方法mtSC,以及简单易用的python包平台,和包含人类、小鼠在内的多个组织器官的预训练的完整reference数据集,为有效利用海量的单细胞测序数据,进一步提高细胞类型自动鉴定性能等提供了可借鉴的工具和资源。

294023_202106010957321.jpg

  已有的利用参考数据集来鉴定细胞类型的方法大多只基于一个参考数据集,这导致了两个主要缺陷:(1)一个参考数据集的细胞类型数量以及每个细胞类型的细胞数量非常有限,这往往导致“unassigned”和错误的鉴定结果;(2)细胞类型鉴定的结果很大程度上依赖于参考数据集的质量和注释的准确性,这使得只用一个参考数据集的方法结果极不稳定。因此,整合同一组织的不同来源的数据可以很大程度上解决以上痛点,但是,如何有效整合多个参考数据集用于细胞类型鉴定尚缺乏详细的探讨。

  基于以上考量,作者提出了一种基于人工智能多任务深度度量学习的细胞类型鉴定框架mtSC,刘琦课题组之前的工作scLearn已经证明度量学习可以更好的刻画参考数据集的特征,提升细胞类型的鉴定效果,在此基础上,mtSC将度量学习推广至多任务场景,构建了多任务深度度量学习的计算框架。在该框架下,多个参考数据集可视为多个相关的任务。该方法的核心思想是:尽管每个参考数据集来自不同平台,存在批次效应,但是其内在的生物信息是一致的,故可以通过参数共享的多任务学习模式,来揭示其共性特征,同时消除其批次信息。另外,该框架通过避免了对数据层面的直接整合而可以解决批次过矫正(over-correction)的问题。

  该工作通过在多达27套的单细胞benchmark数据集上的基准测试,证明了mtSC具有普适而优良的细胞类型鉴定性能。mtSC计算平台基于python语言开发,同时提供了多达27套预训练的高质量的单细胞转录组测序reference数据集,其中包含了脑细胞,胰腺细胞,免疫细胞等等各个组织的单细胞参考数据集,方便用户后续进行相关领域的研究。需要特别指出的是,该工作进一步的分析指出随着参考数据集的增多,该方法的性能可以进一步提升,同时对于跨物种的细胞类型鉴定也有着很好的效果。综上所述,随着单细胞测序技术的快速发展,单细胞测序数据将不断积累,该类多数据源整合分析的工具将可以发挥更大的作用。

294023_202106010957441.jpg

  图1. mtSC的算法框架

  刘琦教授课题组长期从事基于人工智能和组学数据分析的肿瘤精准治疗、药物发现以及基因编辑方面的研究工作,近年来逐步形成了“AI-Omics”交叉融合的研究范式。目前关注的研究方向之一是基于人工智能面向单细胞测序数据开发组学分析平台,及其在肿瘤免疫和细胞治疗领域的应用。2019年,课题组基于人工智能主题学习(Topic model)模型,在Nature Communications发表了针对于单细胞CRISPR筛选数据分析的计算平台MUSIC (Model-based Understanding of single cell CRISPR screening)。2020年,基于度量学习(Metric learning)思想,课题组在Science Advances发表了单细胞细胞类型鉴定的计算平台scLearn (Learning for single cell assignment)。本次工作是刘琦教授课题组继以上两个工作之后在单细胞测序数据整合分析领域的又一有益探索。

  刘琦教授课题组长期招聘生物信息学以及数据科学背景的研究生、博士后以及助理研究院,提供和国内外主流制药公司、CRO公司、AI制药初创公司以及互联网大厂的合作机会。


推荐
关闭