关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

Nature子刊:深度学习预测传统RNA-Seq无法检测的选择性剪接

2019.3.27

  项目负责人Yi Xing博士是CHOP计算和基因组医学中心主任,本周他与博士生Zijun Zhang和Zhicheng Pan在《Nature Methods》报道了这款DARTS的框架。DARTS,又称为深度学习加强的RNA-seq转录剪接分析(Deep-learning Augmented RNA-seq analysis of Transcript Splicing)。利用基于深度学习的预测,来驾驭公共数据集中大量RNA测序(RNA-seq)信息,从而揭示选择性剪接。

  “DARTS的概念创新在于,它提供了一个桥梁,从公共领域的大数据到个体调查研究的小型数据集,”Xing说。“DARTS可以将大量公共RNA-seq数据转换成一个知识库,这个知识库被表示为一个深层的神经网络,描述如何调节剪接。这个计算框架推广到任何一个独立的实验室将是非常有用的,可以提高实验的效率,有助于发现新东西。只需读取2000或3000万个RNA序列,就可以对看不到的东西做出有根据的猜测和推断。”

  Xing长期致力于选择性剪接研究,即用不同的方式将单个基因的DNA信息拼接在一起,转录产生不同的信使RNA和蛋白质产物。每个基因平均生产10个或更多个这样的产物,有时甚至多达38000个。选择性剪接变异可能导致疾病,改变疾病风险,使疾病更温和或更严峻。

  大规模平行RNA测序是用来研究选择性剪接的标准技术。然而,为了精确测量选择性剪接,必须进行深度RNA测序。大家一致认为,为了分析选择性剪接,至少需要1亿以上的序列。由于成本过高,大多数实验室无法承担如此深入的RNA测序实验。此外,许多医学上重要的基因表达水平不高,即使做了深层RNA测序也不能足够覆盖,也就是说,研究这些基因的选择性剪接模式是不可能的。

  Xing课题组首先借鉴了来自ENCODE共同体的大规模公共领域RNA测序数据资源,这是一个由国家人类基因组研究所承担的国际项目,目标是识别基因组中所有功能元件,包括在RNA水平发挥作用的功能元件。利用这些海量数据集,DARTS训练一个深层的神经网络来预测选择性剪接变化。该模型覆盖了1500个RNA结合蛋白和3000个序列特征水平的信使RNA(mRNA)。

  为了让其他研究人员自如使用深度学习模型,该深度神经网络预测与来自贝叶斯假设验证的特定生物样本的实际RNA测序数据结合。所以,不同实验室可以在其独立实验中更好地描述不同生物条件下的选择性剪接。

  研究人员将DARTS应用于肺癌和前列腺癌细胞系,以测试其预测剪接模式的能力。这些细胞系是上皮细胞向间充质细胞转变模型,这是胚胎发育和癌症转移的一个重要过程。通过深度学习预测,DARTS发现了许多基因的选择性剪接模式变化,而这些基因在细胞中的表达水平很低,因此无法被传统计算工具检测到。研究小组随后进行生物学实验来验证这些新的预测,这些发现可能使科学家更好地识别疾病的生物标志物和治疗靶标。

  “DARTS是一个令人兴奋的概念框架,可以适应其他用途,”Xing补充。“例如,我们可以创建一个预测特定患者组织中选择性剪接的版本,提高组织活检对罕见疾病的诊断,组织活检是我们经常使用的用于评估有困惑的、未确诊的疾病。”

  DARTS可以让科学家更深入地了解研究不足的基因的作用,这些基因可能表达量不高,但却可以对健康和疾病产生重要影响。“DARTS为转录组的暗物质提供了一个新窗口,”他说。

推荐
关闭