PacBio完成大型基因组测序项目

2014-4-03 10:13 来源: 生物通
收藏到BLOG

  什么叫PacBio技术应用到大型基因组测序项目中会大打折扣,在哪个环节大打折扣?提出这个问题的读者几乎都是抱有同样的心态,尽管大多数读者都基本认同了,如果为了得到Finishing Genome,那么PacBio无论技术和成本,理论上都是最低的,但即使这样,客观成本还是高的吓人,而假如将就Draft就不需要PacBio技术的介入了。

  那么Draft到底能不能将就过去?我们试着翻翻测序的历史,就会看到一些端倪。

  早期测序是一种奢侈的行为,即一代Sanger测序时代,不是所有的基因组都能享受到从Draft到 Finishing Genome的待遇,只有那些个具备高度科学研究价值的模式生物才被赋予高质量的完成基因组测序,或者说,这是由Sanger测序法的极尽繁琐和昂贵性以及当时的资源紧缺决定的。如此一来,Draft反而成为一般基因组的最奢华配置,能被列入Draft list都是一种荣耀的象征。

  之后进入NGS时代,客观地说也是为了打破这个僵局,让更多的物种能够以低成本的测序方式准入,或者说,NGS的问世,更多的是为了追求“泛”而不是为了追求“精”。这也是为什么学者们明知NGS会引入假阳性也要开拓测序的原因,因为人类认知的方向随着被测序物种的迅速扩张而极度发散了。这个时候,Draft已经降级为标准配置,哪怕得到的只是支离破碎的Draft也能发表文章,甚至不会去问责这个标准到底是什么。

  随着后基因组时代的到来,学者们的关注视角逐渐收敛,切换到功能基因组、比较基因组、进化基因组等由“泛” 入“精”的研究。这个时候Draft弊端暴露无遗,比如序列错误、组装顺序错误、高GC区沦陷、重复区丢失、染色体结构变异空泛等等,需要不断对 Draft进行一代和二代测序技术的迭代优化优化,期望最终得到完整基因组这么一个一劳永逸的结果,去最终指导研究物种内的功能基因表现差异和物种间的进化推演。这个时候,早期测序的奢侈理念重新浮出水面,即集中力量对哪些最具科研价值的物种进行优化并Finishing Genome,并验证Finishing Genome相比Draft的最终价值。这个时期,Draft逐渐成为没落的标准配置,但的确还可以将就。原因是,一代二代测序法各有利弊,一代利偏于质量而二代利偏于成本,研究人员必须要在质量和成本这两个方面做出折衷,有了折衷就不得不选择物种优化,置于选择之外的物种可以将就用Draft。

  当越来越多的比较基因组和进化基因组在微生物和其他小基因组领域被揭示后,Finishing Genome相比Draft的绝对优越性有了更多实际证据的积累,这时候测序届才真正开启了“测序即目的而非手段”的时代,对于在Draft中的“有幸发现”正迅速进入被广泛质疑的阶段,任何大小的基因组,Finishing Genome都是一个必然的选择,已经不再是质量和成本之间的折衷。鉴于我们同时正处于大数据的时代,大数据的核心理念是用相关性分析取代因果分析。这里不妨把Finishing Genome想象成一个大数据,可以展开认知以外的相关性分析,这将成为颠覆性发现的源头;而Draft则无法跳脱因果分析的范畴,将绝对受限于当前认知的逻辑局限,试想如何颠覆?

  “测序即目的”,倾注了科研人员的无限遐想。然后此时,中期“泛”测序时代的遗留问题开始产生严重的困扰,即早期的基因组信息中包含了大量的因NGS引入的假阳性和关键信息缺失。在将Draft升级之前,就非常有必要对Draft先进行纠正,甚至还要对早期 Finishing Genome进行序列验证和补充,得到二次升级。正是在这个大前提下,由Baylor研究院振臂一呼,业界逐渐展开大型基因组的升级或二次升级工作,所用的工具正是PacBio第三代测序,源于第三代技术的超长读长、超高精度、均匀覆盖基因组的显著特点。所以我们不得不说,不是科研工作者选择了第三代测序,而是测序发展到这个时代,由这个时代选择了第三代测序,而PacBio仅仅是第三代测序的一个先行者而已。

  至此,答案已经明朗了,PacBio技术不仅可以在微生物领域发挥得淋漓尽致,而且也正在时代需求的驱动下,契合到动植物等大型基因组的升级和二次升级工作中,成为跟NGS技术彼此依赖共存的大数据时代产物。