2016年11月,国际学术期刊《基因组生物学》(Genome Biology)在线发表了中国科学院北京生命科学研究院计算基因组学实验室研究员赵方庆团队题为A novel codon-based de Bruijn graph algorithm for gene construction from unassembled transcriptomes 的最新研究成果。该研究提出一种基于密码子de Bruijn图的新算法,使用非拼接策略直接对转录组测序数据进行编码基因识别和重建,解决了编码基因识别效率低且不完整的难题,该方法在非模式生物的进化基因组研究领域具有很大的应用前景。

  近年来,高性能计算技术和高通量测序技术的快速发展促进了大量基因组测序计划的实施完成,从而获得了海量的生物组学数据。面对转录组数据,科学家们的首要任务是获得它们的编码基因信息。传统的基因识别工具主要依赖于RNA-seq组装软件得到的转录本进行基因鉴定。这些工具的缺点之一是组装软件对测序错误高度敏感并且不能有效处理重复序列区域,因此导致在此基础上进行基因识别会产生大量高度冗余和片段化的基因序列。此外,这些工具需要过度依赖同源基因数据库或参考基因组,不能有效地应用于非模式物种的转录组数据的基因识别。因此,一种基于转录组数据重建编码基因的新算法亟待开发。