关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

北京生命科学研究院方赵庆课题组发布新的基因预测方法

2016.11.21

  当缺乏密切相关的参考基因组时,大多数的基因预测方法检测的是来自转录组组件的编码序列。这些方法的应用有限,因为高的转录本片段和广泛的组装错误,可能会导致多余的或错误的编码序列预测。11月17日在国际学术期刊《Genome Biology》发表的一项研究中,来自中科院北京生命科学研究院的研究人员,提出了一种方法——inGAP-CDG,可以利用基于密码子的de Bruijn图表,构建来自未组装转录组的完整长度的和非冗余的编码序列,从而简化了组装过程。这项研究的通讯作者是中科院北京生命科学研究院的赵庆方研究员。

  对于有参考基因组的物种来说,通常是用基于同源性的方法来预测功能基因,这可能通过将靶序列对准到近缘种的原始基因,来识别基因。然而,参考数据库只代表一小部分现有的物种,从而限制了这些方法的使用。因此,依赖于已知参考基因组的基因预测方法,限制了我们对于新物种的功能性理解。当缺乏相关的参考基因组时,利用组装基因组序列的从头预测方法,从本质上说是比较困难的——由于训练数据集的质量。

  另外,可以基于从头转录组组装来进行基因预测,这可大大降低数据集的大小,并增加获得的功能性信息。然而,这些方法都受到从头转录组组装质量的限制。因此,一种典型的转录组组装,可能会导致大量的片段碎片、冗余和含有错误的转录本。因此,来自组装转录本的同源基因数据集通常是不完整的、支离破碎的和冗余的,经常包含错误和异构体,从根本上歪曲了分子系统分析中对于直系同源的根本假设。

  为了克服这个困难,并增加转录组数据集的效用,该研究小组开发了inGAP-CDG,这种算法可执行来自未组装转录组的基因构建。相比较以前的方法,inGAP-CDG可预测直接来自于未组装读数的开放阅读框(ORFs),利用一种监督式的支持向量机制(SVM),来过滤假阳性OPFs,并采用一种新型的基于密码子的de Bruijn图表,将纯化的OPFs组装成全长的CDSs。

  注:赵方庆,博士,研究员。中科院“百人计划”入选者。2001年获青岛海洋大学海洋生物学、计算机技术及其应用专业学士学位。2006年在中国科学院海洋研究所获博士学位,研究方向为海洋微藻的进化基因组学。在此期间获得了中国科学院院长特别奖(2006),中国科学院优秀博士论文(2007),国家海洋科学技术奖一等奖(2012)。2006年7月至2010年底在美国宾州州立大学比较基因组学和生物信息学研究中心,从事计算生物学和基因组学的研究工作。2010年10月被中国科学院北京生命科学研究院聘为“百人计划”研究员,主要研究方向是计算基因组学。现为中国科学院北京生命科学研究院科研部副主任、计算生物学联合研究中心秘书长、中国生物工程学会计算生物学专业委员会副主任委员、副秘书长。生物信息学国际刊物《Briefings in Bioinformatics》、《Hereditas》、《Genomics, Proteomics & Bioinformatics》编委。2012年获得中国科学院“科技创新交叉与合作团队”计划的资助,成立了“计算基因组学”交叉合作团队。承担国家自然科学基金3项,中科院知识创新工程资助课题1项和中科院院长特别奖基金1项。目前,以第一作者或通讯作者身份在生物信息学和基因组学领域国际刊物发表学术论文40余篇。

推荐
热点排行
一周推荐
关闭