关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

PacBio如何获得又长又准确的reads

2019.3.01

  Pacific Biosciences公司近日以单分子环形一致性测序(CCS)为基础开发出一种方案,能够在Sequel测序平台上生成高度准确的长reads。这种方法有望克服短读长测序的读长不足以及长读长测序的准确性有限的问题。

  这篇题为“Highly-accurate long-read sequencing improves variant detection and assembly of a human genome”的文章于近期发表在预印本网站bioRxiv上。

  第一作者、PacBio生物信息学部门的首席科学家Aaron Wenger表示,这项研究是在2018年年中开展的。他们的最初想法是开发出一种方法来改善reads,但Wenger和他的同事并不知道如何整合长读长和短读长测序的不同用法。

  “一开始,我们的想法是让长reads变得更加准确,就像短reads一样,这样人们就能够将为短reads开发的软件应用在这些更长、更准确的reads上,”Wenger解释说。从某种程度上说这没错,但事情并不像Wenger预想的那样。

  “尽管准确长reads和短reads的错误率相似,但这两种数据之间的错误类型是完全不同的,而软件必须意识到这一点,”Wenger说。

  短读长测序中的错误往往是DNA中的某个碱基出错,比如明明是个T,出来却是个A。长读长测序则明显不同,它可能会漏掉某个碱基或增加一个碱基。

  “如今,人们对市场上各种测序仪的看法是,短读长测序仪只能观察小片段DNA,但它们特别准确,长读长测序仪能够观察数万个碱基,但每十个碱基中就有一个错误,”Wenger说。于是,他和同事努力去生成又长又准确的reads。

  后来,他们利用CCS技术实现了这一点。这种测序技术是PacBio多年前开发的,它将DNA变成环形,这意味着研究人员能够对DNA进行多次测序,最终形成一致性序列。

  据Wenger介绍,之前没有使用CCS技术,是因为它处理的数据量存在限制。“CCS通常仅限于较短的DNA片段,因为如果是15,000 bp的DNA片段,测序十次,那么这就意味着你要读取150,000 bp的原始DNA,”他说。

  然而,PacBio的试剂在2018年下半年经过了升级,能够带来非常长的reads。这样,研究团队就能够多次观察长片段的DNA。

  于是,他们将这项技术应用于瓶中基因组联盟(Genome in a Bottle Consortium)的参考基因组——人类男性HG002样本。测序结果表明,覆盖度达28倍,平均读长为13.5 kb,且准确性高达99.8%。

  “(原先的)参考序列是利用短读长测序建立的,”Wenger谈道。“令人惊喜的是,我们能够利用这种新的数据类型来校正参考序列中的许多错误。”

  当然,光靠PacBio的努力还不够。在收集到原始数据后不久,PacBio就与Google(谷歌)分享了他们的结果,希望利用Google的DeepVariant软件来检出长片段中的变异。在此之前,他们尝试使用了Broad研究所的GATK软件。Wenger表示GATK的结果还不错,但不如处理短片段时那么强大。

  Google软件能够直接适应长且准确的序列数据,而GATK需要手写代码。“我们能够使用Google的机器学习方法,并且弄清楚哪些错误是插入缺失错误,而哪些又是替换错误,”Wenger说。

  在Google处理了数据之后,PacBio又召集了其他研究机构来分析结果,以便改善流程。具体包括约翰•霍普金斯大学、国家人类基因组研究所(NHGRI)和Dana-Farber癌症研究所。

  Wenger表示,对于数据处理,目前还有很多工作要做。PacBio正在努力以更轻松、更低成本的方式产生数据。


推荐
热点排行
一周推荐
关闭