北京生科院赵方庆团队针对转录组数据分析中的编码基因识别问题,开发了一种基于密码子de Bruijn图的新算法inGAP-CDG。该方法不依赖于参考基因组,直接从未拼接的转录组测序数据中进行基因识别。通过使用模拟数据集和公共数据库的真实转录组测序数据,他们对预测基因的长度、灵敏度、冗余度、错误率和杂合度进行了系统性的评估。与其它方法相比,inGAP-CDG构建出的编码基因序列具有长度更长、冗余度更低和特异度更高的优势。该研究为基因识别提供了新的思路和方法,进而对此后的系统发育和功能基因组学研究具有重要的应用价值。inGAP-CDG已公开发布在免费的开源网站SourceForge上(https://sourceforge.net/projects/ingap-cdg/),以方便相关研究者下载使用。

  该工作由赵方庆课题组的博士研究生彭公信和冀培丰共同完成,并得到国家自然科学基金委和科技部重点研发计划的经费支持。