关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

Nature Methods:De Novo基因组序列组装的新方法

2016.5.18

  对于de novo人类基因组序列组装而言,短读长简直意味着不可能的任务。不过,加州大学旧金山分校、BioNano Genomics和10X Genomics的研究人员近日开发出一种新的组装方法,它将short-read测序与10X的linked-read测序相结合。这项成果于近日发表在《Nature Methods》上。

  如今,测序人类基因组已并非难事,但如果要获得高质量的基因组序列组装,人们必须克服三大挑战:1) 几乎100%相同的重复序列,它们存在于大多数高等真核基因组中;2) 二倍体的DNA;3) 缺乏能够产生准确的长读取的低成本测序平台。

  去年,西奈山伊坎医学院的Matthew Pendleton去年开发出一种方法,将Illumina测序、PacBio测序和BioNano Genomics的基因组作图相结合,对HapMap样品NA12878进行了高质量的组装。不过,这种方法的缺点在于PacBio测序的成本相对较高,通量较低。

  于是,加州大学旧金山分校的Pui-Yan Kwok及其同事用10X Genomics的linked-read数据取代了Pacific Biosciences的long-read序列。在一项试验性研究中,他们利用这种方法来测序和组装HapMap项目的个体基因组,看看效果如何。

  这种新方法主要依靠两个平行过程。首先,利用SOAPdenovo短寡核苷酸分析软件将Illumina的序列组装成scaffold。为了让这些scaffold有序排列成更长的片段,研究人员调入10X GemCode平台所产生的序列数据,并利用fragScaff来产生新的scaffold。同时,他们利用BioNano Genomics的Irys系统来产生序列motif的物理图谱,之后结合10X scaffold来产生最终的混合组装图谱。然后,他们利用10X Long Ranger软件对混合组装的scaffold进行分相,并借助BioNano Genomics的图谱来分辨一些重复区域。

  在试验性研究中,研究人员利用这种方法对人类HapMap样品NA12878进行组装和分相。最初的Illumina组装产生了超过14,000个scaffold,而N50为0.59 Mb。在混合组装后,scaffold数量降为170个,而N50大小达到33.5 Mb,相对之前有57倍的改善。

  与参考基因组相比,研究人员发现他们的组装结果比2011年发表的ALL-PATHS组装更准确,与Pendleton等人的方法有95.2%相似。此外,他们还指出,95.7%的外显子存在于他们的新组装中。

  尽管Kwok及其同事认为这种方法是一种改进,但也存在一些局限。例如,10X的方法依赖于高分子量DNA的制备,这对长期保存的样品而言很难做到。另外,linked-read是通过50-100 kb分子的随机k-mer扩增产生的,但这些分子不一定北扩增。因此,人们需要产生不同大小的多个测序文库,这增加了工作量。

  “通过这个原理验证研究,我们证明了使用这三组互补的作图-测序数据能克服之前的限制,而普通实验室可在短时间内以合理的成本平行生成这些数据,”作者在文中写道。

推荐
热点排行
一周推荐
关闭