关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

修正基因组法有效提高非模式生物蛋白质组鉴定的新策略

2020.9.06

  随着高通量测序技术的不断崛起,全基因组测序也逐步普及。越来越多的物种基因组予以公布。目前,主要有两种获得研究物种参考基因组的策略:de novo 基因组拼接和基于mapping算法的基因组序列修正,mapping是指将所有测序读段通过序列比对定位到参考基因组上。De novo 基因组拼接是利用短读序列(reads)组装出一个基因组草图,然后通过自动注释标出可能的开放阅读框(open reading frame, ORF)。然而现行的测序平台和自动拼接算法的限制,并不能一次拼接出较长的基因组序列,而是输出数以万计的短碎的contig,这些contig常常缺乏完整的ORF,或者很难对ORF进行预测,甚至对于基因组较小的生物也存在这种问题。因此,想要做到较好的基因组拼接效果,就必须额外进行测序以及更复杂的计算处理。然而即便是这样,拼接结果仍然错误频发。研究报道,当食烷菌(Alcanivorax borkumensis)SK2菌株的平均测序深度为30x时,de novo 拼接结果的正确率只有95.3%(每20个碱基有一个错误),覆盖度为98.7%,远低于基于mapping算法的基因组修正策略。另外,自动注释的准确性仍然有待提高:在测试中,对食烷菌(Alcanivorax borkumensis)SK2拼接结果的ORF进行注释,最好的注释软件也只能达到52.8%的正确率,假阳性率高达到49%。

  相比之下,基于mapping的基因组修正策略是将短读序列(reads)匹配到近缘物种已知的全基因组上,然后找到单核苷酸变异,并用这些修正信息补充更新现有的参考序列。当存在已知的近缘基因组序列时,这种策略得到的新基因组会非常精确,而且可以直接利用原有的基因组注释信息。尽管基于mapping的基因组修正策略无法分析与参考基因组相比有大片段插入或者是基因组重排的情况,但是这些插入的部分通常对于蛋白质方向的研究并不太重要,因为在系统中大多数编码基因均普遍存在。因此,这种策略能够有效的运用于群体的基因分型,也就是简化基因组分析。随着生物信息学的不断发展,各种mapping算法应运而生。相应的也存在很多检测研究物种实际基因组序列与已知近缘参考基因组序列间单个核苷酸变异(SNV)的算法,例如,k-spectrum-based、Suffix tree/array based和MSA based。相应的软件有HSHREC、Reptile、Quake、SOAPec、HiTEC、ECHO、Coral。根据Yang文中的评估结果,Reptile参数的选择比其他软件繁琐;HiTEC不适合处理有“N”的或不同长度的reads。值得关注的是,这些方法的共有的缺陷也十分明显:(1)对于SNV的敏感度非常不稳定,对有的菌很好但有的菌很差(可低至0.03%);(2)敏感度最高的算法在修正大肠杆菌基因组时就需要11个小时以上的时间和大约10 GB的RAM,此方法对计算机的性能要求很高;(3)现行可用的方法都只能处理与参考基因组十分相近的基因组(差异<1.6%)。对于没有十分相似基因组的物种,这些算法都无法很好的发挥其功能。

  很不幸的是,单一物种不同菌株间的遗传多样性常常超出上述算法的最大限度。例如轻症链球菌(Streptococcus mitis)不同菌株间的差异要高于5%;金黄色葡萄球菌(Staphylococcus aureus)不同菌株基因组序列间的变异率甚至能够达到20%。显然,传统的基于mapping的基因组修正方法是无法解决如此高得差异度的,但是基因组的多样性往往导致了菌株致病性和耐药性的重大变化。而基因组的高度变异又会导致这些缺乏准确的参考蛋白组,这种情况严重阻碍了这些菌株蛋白质组的分析与发展,影响了致病菌和耐药菌的功能研究。

  针对上述问题,暨南大学翻译组学实验室提出了一个新策略。利用迭代修正的方法不断矫正已知近缘物种的基因组序列,以获得研究物种相对精确的基因组。这种修正方法是基于该实验室自行开发的mapping算法:FANSe。FANSe具有稳定、精确、容错率高的特点,能够在保持合理运行速度的前提下达到非常高的准确度。FANSe的优势体现在:(1)准确性:在实际运行时,FANSe能够达到一个稳定且非常高的灵敏度。在测序错误率为每核苷酸0.5%的情况下,FANSe的误判率可低达10-6,特别是在比对RNA-seq序列时。(2)对插入缺失位点敏感:FANSe使用了不依赖硬件的加速Smith-Waterman算法,能够完美的检测出碱基的插入与缺失。(3)运算速度:在运行速度方面,FANSe使用CPU的一个核便可以在几分钟内将1000万条reads匹配到大肠杆菌的参考基因组上。可在大约一天时间内,使用一台四核计算机将1000万条reads 匹配到人类参考基因组上。(4)容错率高:FANSe对于错配碱基的容忍度也是极高的。这一参数可供使用者根据研究需要灵活设置,而不像其它mapping算法,例如:SOAP2、Bowtie,最多只能允许2~3个错配。设置较高的错配数时,FANSe并不会降低比对的准确性,reads仍然能够匹配到最佳的位置上。(5)适应性强:FANSe的适用性很广,对于输入的测序读长和参考基因组没有任何限制。它可以支持参考序列中同时存在大小写字母和未被准确测定的核苷酸(标记为“N”),并支持单向比对。FANSe这一强大的比对算法为我们新策略的提出奠定了坚实的基础。新策略可以矫正研究物种基因组与已知近缘物种基因组的差异大约在5%左右的情况并正确输出研究物种的参考蛋白质组。在二级质谱鉴定中,利用修正后的蛋白质数据库能够显著的提高蛋白和肽段的鉴定效率。新策略大幅度提高了非模式生物功能蛋白质组的分析。(本课题相关测序服务由上海伯豪生物技术有限公司提供)。

  原文出处:Wu XH, Xu LN, Gu W, Xu Q, He QY, Sun XS , Zhang G. Iterative Genome Correction Largely Improves Proteomic Analysis of Nonmodel Organisms. J Proteome res. 2014.

  来源:上海伯豪生物技术有限公司

  联系电话:021-58955370

  E-mail:market@shbio.com

  【点击可查看 上海伯豪生物技术有限公司 相关服务】

  标签: 逐次修正基因组法 非模式生物 蛋白质组鉴定


推荐
热点排行
一周推荐
关闭