关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

希望组自主三代组装软件NextDenovo最新版本全球学术开源

2019.10.29

  希望组面向全球释放三代测序数据高效纠错、组装软件NextDenovo最新版本V2.0-beta.1 (https://github.com/Nextomics/NextDenovo),并免费开放用于学术和其他非商业用途。据悉,本次希望组发布的最新版本NextDenovo是专为三代测序数据开发的纠错、组装软件,不但解决了现有三代测序数据组装工具资源占用大、运行时间长、组装质量不稳定的瓶颈问题,还实现了单Contig一条染色体和超大型基因组组装的突破,为利用三代数据组装基因组扫清了组装算法的障碍。

  三代测序数据组装已经成为基因组De novo的主流方案,其中Nanopore的读长可达数百kb甚至超过2Mb,在解决染色体着丝粒/端粒区域、性染色体等基因组复杂区域以及复杂基因组组装问题方面,具有更大的优势[1]。前不久,加州大学圣克鲁斯基因研究所等单位的研究人员利用Nanopore的ultra-long reads成功拼接出了首个人类X染色体基因组完成图序列[2]。

  但目前的组装算法仍存在较多的瓶颈,使三代测序的优势不能完全发挥。现有三代测序数据组装软件如:Falcon[3]、Canu[4]、Miniasm[5]、Wtdbg[6]等存在以下几类问题:

  1. 部分软件不具备纠错功能;2. 纠错过程耗费大量时间和计算资源;3. 组装出的基因组准确度不够;4. 组装出的基因组大小与预估有偏差。

  针对以上问题希望组胡江团队研发出专门用于三代测序数据纠错、组装的软件——NextDenovo。其包含NextCorrect和NextGraph两个模块,依次进行测序数据的高效纠错、组装,在极大减少计算资源和运行时间的情况下,仍然能够组装出高质量基因组。基于NextDenovo,希望组已经实现了小基因组物种近完成图和>10Gb基因组物种的组装工作。

  高效纠错

  NextDenovo原始数据纠错模块可对PacBio和Nanopore的三代测序原始数据进行纠错。表1为NextDenovo与现有主流三代测序数据校正工具(Canu、Falcon和Racon[7]),对不同三代测序平台(PacBio和Nanopore)数据的纠错性能比较。NextDenovo能够在极大减少运行时间的情况下,达到甚至高于与其他软件的纠错精度。

  高效组装

  NextDenovo组装模块是基于String graph算法,利用纠错后的三代测序数据进行基因组高效组装。之前的评测结果https://mp.weixin.qq.com/s/8P9KeTpGc5-hIpVy4T4XxQ表明利用相同的Nanopore数据,NextDenovo在组装速度、结果连续性等指标均明显优于Canu。

  高准确度

  Nanopore数据用NextDenovo组装的结果再结合NextPolish直接进行2轮或多轮二代数据polish后,平均碱基准确度能达到99.99%以上(关于NextPolish的详细评测结果见https://github.com/Nextomics/NextPolish/blob/master/doc/TEST1.pdf)。

  NextDenovo组装案例

  在实际项目应用中,NextDenovo的表现非常抢眼,某禾本科植物Plant1基因组组装Contig N50高达66.3Mb,某同源多倍体植物Plant2的Contig N50也达到了59.7Mb(表2)。与参考基因组比对的共线性图几乎呈一条对角线(图3)。值得一提的是这两个物种基因组都含有大量的重复序列,而NextDenovo的组装版本邻接性要远高于其他版本。

219254_201910291147041.jpg

NextDenovo的组装案例

  单Contig一条染色体

  利用NextDenovo软件对水稻93-11(Oryza sativa L. 2n=24)的273X深度ONT测序数据进行组装。最终获得的水稻93-11基因组仅包含18条 Contigs,Contig N50 高达29.43Mb。水稻93-11基因组的12对染色体中,至少有一半的单条染色体由单个Contig装出。BUSCO评估显示,在该组装中可以找到约98.1%的完整基因元件,反映组装结果真实可靠。进行基因组单碱基错误率的统计,该组装基因组的单碱基准确率在99.99%以上。与其他组装策略相比,利用Next系列软件组装的水稻93-11基因组质量明显优于其他组装结果[8]。

  超大型基因组

  超大型基因组大量高重复区域和动辄Tb级别的数据量对组装算法是一个巨大挑战。NextDenovo能够很好的处理超大型基因组组装问题,对一个预估基因组11.02Gb的超大型基因组进行组装,NextDenovo组装版本的基因组与预估大小非常接近约为10.42Gb,Contig N50达5.02Mb,明显优于常规基因组组装工具(表3)。

  自成立以来,希望组致力于三代测序技术应用与服务。2017年,希望组搭建Oxford Nanopore测序平台以来陆续开展ONT Ultra-long测序、低起始量建库测序等前沿技术研发工作,并率先于2017年底推出ONT Ultra-long测序服务,目前已经完成近百个物种的ONT Ultra-long测序、组装工作。该公司自主研发的基于ONT数据的系列组装、纠错算法软件NextDenovo、NextPolish,在运行效率、组装质量、适用范围方面均优于现有组装工具,实现了单Contig一条染色体和超大型基因组组装的突破。在分析服务方面,希望组与华为云合作,将纳米孔测序数据分析流程整合到云计算平台上,实现急速基因组组装与注释,为全球客户提供快速、高效的纳米孔长读长测序计算和存储服务。在三代测序服务领域,希望组技术顶尖,算法领先,服务全面,目前已完成了数百个三代测序科研项目,在Nature genetics、Nature Communications、Molecular Cell、Developmental Cell等国际权威杂志合作发表多篇研究论文,累积影响因子超过380。

推荐
关闭