关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

Biotechniques:新一代测序中的缺口填补

2014.10.26

  在完成的基因组的复兴时代,科学家使用由第三代测序技术提供的长读取,来填补基因组装配中的缺口(gap)。新一代测序能赶得上吗?

  新一代测序,可让科学家们以比Sanger测序更快的速度和更低的价格,进行基因组测序,为1000美元基因组测序铺平了道路。但是这种方法牺牲了长读取速度,将平均读长减少至大约100个碱基对,而不是Sanger测序的800-900个碱基对。短的读取长度使得基因组装配更加困难,因为要产生可比较的装配,就需要增加覆盖范围,即,更多的重叠序列读长。

  但是更深的覆盖范围并不能弥补某些问题。对于从头装配(de novo assembly)来说,比读取长度更长的重复序列会产生缺口,从而造成近年来比以往更多的分散组装。因此,更难检测到重复区域中的变异,这对于理解某些疾病可能是很重要的。

  贝勒医学院人类基因组测序中心的遗传学家Kim Worley称:“关于短的读取数据,令人沮丧的是,在100个碱基对的读长内没有大量的信息含量。”她指出,目前的恒河猴(一种重要的医学动物模型)基因组草图,包含其基因模型高达20%的序列缺口。

  她说:“我们已经完成了人类基因组和小鼠基因组测序。但是即使这些完成的基因组,也有不完全连续和正确的区域,这些数据的用户总是不满意这些区域。”

  为了解决这个问题,Worley及其同事借助于Pacific Biosciences (PacBio) RS平台,第三代测序技术,可以进行实时单分子测序反应。该系统产生的平均读取可跨度几千个碱基,在某些情况下,最大读取长度可达到30,000个碱基。

  这些长的序列读长,可简化基因组装配,因为它们可以跨越重复区域,并且,因为不需要源DNA的扩增,某些测序假象(artifacts)和基因组覆盖偏差也有所减少。因为PacBio RS平台产生长的读取,而没有GC偏差或系统误差,它是唯一适合于升级基因组装配的技术。

  先前在《PLoS ONE》的一篇报道中,Worley和她的同事们开发了一种自动化的软件工具,称为PBJelly,它可将长的PacBio读取排列成装配草图,以关闭或改善缺口,同时保留注释。通过将这种方法应用于四种基因组――一种模拟的黑腹果蝇(Drosophila melanogaster)基因组、拟暗果蝇(Drosophila pseudoobscura)的版本2草图、Assemblathon 2.0虎皮鹦鹉数据库的装配、乌黑白眉猴基因组的初步装配、研究人员解决了63%到99%的缺口,并能关闭32%到69%,提高12%到63%。

  PacBio首席科学官Jonas Korlach说:“我们正在经历一个完成基因组的复兴时代。回到Sanger测序年代这是真正的规范,但是当新一代测序到来时,它几乎被抛弃了,因为用Sange测序来关闭这些基因组不可能,或者说很难处理。”

  追赶

  原则上,PBJelly可以应用于任何平台产生的长序列读取。在新一代测序公司赶上PacBio的读取长度时,这种特征在未来可能是很重要的。

  在这个方向的一个举措是,Illumina对San Francisco-based startup Moleculo的收购。Moleculo开发的技术,允许我们在标准的新一代测序Illumina系统上对大的DNA片段进行测序,随后装配成合成长读取。来自每个分子的短序列读取被分别装配,最终的结果是所有片段的一个完整序列。基本上,短的读取数据被重建成长的读取。

  在国际植物和动物基因组会议上,一组科学家报道称,Moleculo技术可以利用Illumina HiSeq2000平台,产生长的、精确的DNA测序读取,跨越1.5-15千碱基对。

  长读取技术的另外一个例子是454 GS FLX+系统,它可以产生1000多个碱基对的读取。现在,一个研究财团正在利用这种测序技术,分析和装配RP11人类参考基因组,这是关闭缺口和发现基因组序列中新基因的一部分努力。

  454生命科学(罗氏公司)研究和开发副总裁Todd Arnold称:“454最出名的事情之一是,它具有最高的质量和最长的测序读取。”读长和通量只会变得更好,他说:“我们要争取的是,当我们增加读长的时候,还能保持我们的质量分,因为这对于我们的客户是非常重要的。”

  但是根据Korlach介绍,其他现有的技术将永远无法赶上PacBio。他说:“有基本的技术差异和限制,使其他商用技术不能提供我们可以提供的连续单个读取长度。”

  即便如此,PacBio长读取技术的一个缺点是它的高错误率。虽然可以通过建立共识序列,获得高精确度的测序结果,但PacBio RS仪器可产生的单次读取,平均只有87%到89%的核苷酸准确性。

  公司产品管理高级总监Edwin Hauw说:“我们正在致力于改进这种情况,但是在很长一段时间内,精确度将可能会低于其他现有技术,因为我们的技术基本上是基于单分子的实时检测。”

  测试长读取

  在东京大学,计算生物学家Michiaki Hamada并不太在意那些错误率。他说:“在我看来,这些高错误率并不会引起严重的问题,因为大多数的误差,可以使用具有低错误率的短读取来纠正,例如Illumina测序仪产生的读取。”

  在一项研究中,Hamada和他的团队开发出一种读长模拟器,称为PBSIM,可捕捉PacBio读长的关键特征。Hamada说:“我们的长期研究目标是,开发一种de novo装配器,用于PacBio等测序仪产生的长读取。但是,没有可用的模拟器,靶定特定一代的PacBio文库。”

  在去年《Bioinformatics》的一项报道中,Hamada和他的研究团队使用PBSIM分析了13个PacBio数据集。在对PacBio读长进行混合纠错和组装测试后,他们发现,所获得的广泛装配结果,具有至少15×的连续读长覆盖深度,结合至少30×的圆形共识序列覆盖深度。Hamada说:“PBSIM不仅可用于评估PacBio测序仪的装配器,而且还可用于测序的实验设计。”

  最后,因为参考基因组中的这些缺口,可能包含疾病相关基因,因此,利用长读取技术可以对临床领域产生巨大的影响。例如,在他们的研究中,Arnold及其同事确定了一个区域,可能参与了肿瘤的发展。Arnold说:“有证据表明,这个基因是由更早的RNA序列数据产生,但是它并没有出现在参考基因组中,所以重新测序的任何人都不会看到它。参考文库越全面,你就越能够以积极的方式使用这些数据。”

推荐
热点排行
一周推荐
关闭