关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

浅谈NGS的这10年(二)

2021.7.02

  边连接边测序(SOLiD和Complete Genomics)

  从 根本上来说,SBL法包含了杂交和对标记的探针的连接15。探针包含了一到两个特定碱基序列和一系列通用序列,这可以使得探针与模板之间进行互补配对。锚 定的片段则包含一段已知的和接头互补的序列用于提供连接位点。连接之后,模板被系统进行测序反应16。在锚和探针复合物或者荧光基团被完全移除之后,也或 者连接位点重新生成之后,新的循环又重新开始了。


  SOLiD平台使用的是双碱基编码的探针,每个荧光基团信号代表了一个二核糖核酸17。因 此,原始输出的数据并非直接和已知的核糖核酸相连。因为有16种可能的二核糖核酸组合并不能单独结合荧光基团。每四种组合使用一种荧光信号,共有四种荧光 信号。所以,每种连接信号代表了几种可能的二核糖核酸组合。SOLiD测序过程由一系列的探针-锚的结合,连接,图像获取以及切割的循环组成。


  Complete Genomics使用探针-锚的连接方式(cPAL)或者探针-锚的合成方式(cPAS)来进行测序14。在cPAL中(图2b),锚的序列(与四种接头 序列其中之一的互补)以及探针杂交到DNA微球的不同位置。每个循环中,杂交探针是一组特定位置已知碱基序列的探针的一员。每个探针包涵一段已知序列的碱 基以及对应的荧光基团。获取图像之后,全部的探针-锚复合物被移除,新的探针-锚复合物被杂交。cPAS方法是cPAL的修改版,增加了read的长度; 然而,目前来说,该方法还是有局限性的。

  b478a029060f4d13be8a603c7da071fb_th.jpg

  图2: SBL测序原理。

  边合成边测序(Sequencing-by-synthesis)

  SBS 的方法是指那些依赖于大量的DNA聚合酶来进行测序的方法。但是,SBS中依然包括了各种不同的测序原理。本文中,SBS方法被分为循环可逆终止 (Cyclic reversible termination, CRT)以及单核糖核酸增加(single-nucleotide addition, SNA)18。


  边合成边测序:CRT(Illumina,Qiagen)

  CRT 方法是根据类似于Sanger测序的终止反应来界定的,其3'-OH基团被屏蔽而被阻止继续延伸19,20。在反应开始时,DNA模板被一段和探针序列互 补的接头结合,DNA聚合酶也是从这段序列开始结合。每个循环过程中,四种单独标记的复合物和3'屏蔽的脱氧核糖核酸被添加进反应中。在延伸过程中每结合 一个dNTP,其他没有被结合的dNTPs被移除,并且获取图像来确定是那个碱基在某个簇中被结合。荧光基团以及屏蔽基团随后被移除并且开始一轮新的反 应。


  Illumina的CRT和其他平台相比,代表了最大的测序平台市场。Illumina短读长测序的设备可以从台式的低通量单位到大型 的超高通量,如应用于全基因组关联分析(whole-genome sequencing,WGS)。dNTPs是通过两个或者四个激光通道来对荧光进行分析的。在绝大多数Illumina平台上,每种dNTP结合一种荧 光基团,因此需要四种不同的激光通道。而NextSeq和Mini-Seq则使用的是双荧光基团系统。

  c9c1a222f0c142cab4944143da42fff1_th.jpg

  图3: SBS测序原理。

  2012 年,Qiagen获得了Intelligent BioSystems CRT平台,并且在2015年将该平台命名为GeneReader重新推出并且使之商业化22(图3b)。与其他平台不同的是,该平台打算做一站式的 NGS平台,从样本制备到数据分析,全部一站式解决。为此,GeneReader系统整合了QIAcube样本制备系统和Qiagen Clinical Insight平台用于不同的数据分析。GeneReader平台的技术原理与Illumina平台基本一致。然而,该平台并非让每个DNA模板都去结合 带有荧光基团的dNTPs23,而是只要足够的dNTPs结合到模板上就可以完成鉴定。


  边合成边测序:SNA(454,Ion Torrent)

  与 CRT不同的是,SNA方法依赖于单信号标记dNTP来对链进行延伸。四种核糖核酸都必须反复添加到测序反应过程中。不仅如此,SNA不需要将dNTP屏 蔽,因为测序反应过程中下一个碱基的缺失会阻止链的延伸。碱基的寡聚体则是一个例外,在这种情况下,信号的强度会随着dNTP数量的增加而成比例的增强。


  第 一个NGS仪器是454焦磷酸测序仪24。这种SNA系统将结合有模板的珠子以及酶混合物分配到PicoTiterPlate中。由于一个dNTP只能结 合到一条链上,酶复合物会对其产生生物荧光。一个特定的珠子中的一个或多个dNTPs可以通过电荷共轭偶联设备(charge-coupled device, CCD)检测到的荧光来确认(图4a)。


  Ion Torrent是第一个没有光学感应的NGS平台25。与酶化学复合物产生的信号相比,Ion Torrent平台检测的是dNTP中释放出来的H离子。pH值的改变通过(integrated complementary metal-oxide-semiconductor,CMOS)以及(ion-sensitive field-effect transistor,ISFET)来检测(图4b)。传感器对pH的变化对于连续碱基的检测还不够完善,因此在测量同一碱基连续出现时的数量可能会有所 误差。

  4cfe1d39cc9946cbb4780cdae4f59bbf_th.jpg

  图4: 边合成边测序:单核糖核酸添加法。

  短读长平台的比较

  每 个平台在通量,成本,错误率以及read结构上都大相径庭(表一)。尽管有多家NGS技术供应商,NGS研究最常用的还是Illumina平台21。尽管 该平台极为稳定,数据可靠,但是基于其使用的单一测序的方法26-28,既然具有系统偏好性的问题。因此,新技术的发展使得研究人员能够有完整的测序方案 来获得完整的序列信息。


  SOLiD与Complete Genomics系统使用的SBL技术准确率非常高(~99.999%)7,14,因为每个碱基都会被标记多次。虽然这些技术非常准确,但是在敏感性与特 异性之间依然不能达到完美的平衡,当一些错误的碱基变化出现时,真实的碱基变化可能被忽略29-31。该类技术在应用上最大的限制可能就是其过短的读长。 尽管所有的平台都能产生单末端和双末端的reads,SOLiD的最大读长只能达到75bp,Complete Genomics只能达到28-100bp33,使得其在基因组拼接和结构变异研究中的可操作性大大降低。不幸的是,SOLiD系统不仅受制于运行时间, 还受制于其工业生产。另外,尽管cPAL计划准备在成本和通量上和Illumina竞争,却在2016年被迫下马,该技术仅在人类WGS中有所应用 33,34。cPAS的BGISEQ-500系统则受制于中国大陆政府。


  Illumina由于其技术成熟,平台之间高度互补性与交叉性,使 得其在短读长测序上大占优势。Illumina的产品覆盖了从低通量的Mini-Seq到超高通量的HiSeq X系列,其中HiSeq X系列最多可以在一年内产生1800多个30×覆盖度的人类基因组数据量。此外,其运行时间,read结构以及read长度(最大300bp)都在不停的 改进。但是,作为一个依赖于CRT技术的Illumina平台,相对于SNA平台的优势在于其在读取核糖核酸多聚体(同一种核糖核酸多次出现)时较低的错 误率。尽管SNA平台总体上的准确率可以达到99.5%35,但是在读取那些高AT富集或者高GC富集的片段的时候错误率差强人意32,37,38。在 2008年,据Bentley等报道,Illumina平台鉴定到的人类单核糖核酸多态性(SNPs)与基因芯片鉴定的SNPs具有惊人的一致性35。但 是,这种高度的敏感性也随之带来了2.5%左右的错误率。因此,其他小组计划使用Sanger测序来对鉴定到的SNPs进行重新测序以便区分测序错误导至 的SNPs与真实的基因突变导至的SNPs35,39,40。在对所有的可能性都进行优化之后,Illumina平台被大量的研究人员认可,在大量的领域 中均有涉及:WGS的基因组测序与外显子测序;遗传学应用如染色质免疫共沉淀——测序(chromatin immunoprecipitation followed by sequencing)41;ATAC-Seq(transposase-accessible chromatin using sequencing)42或者DNA甲基化测序(Methyl-Seq)43;RNA转录组测序(tranomics applications through RNA sequencing, RNA-seq)44等等。NextSeq与MiniDeq平台使用的双色标记系统通过降低双色通道的扫描与荧光基团的使用达到成本并且增加测序速度。然 而,双通道系统却会略微增加测序的错误率45。HiSeq X是目前最高通量的仪器,但其由于通量过大,因此只在部分应用上得以使用,如WGS与全基因组甲基化测序。不仅如此,HiSeq X更大的局限在于其高昂的成本,以至于超过了绝大多数单位的可接受程度。


  Qiagen的GeneReader是专为临床诊断设计的,其主要 关注点在肿瘤基因panels46上,也因此其局限性较大。根据对其运行时间与功能的分析,GeneReader与Illumina的MiSeq较为相似 46。尽管还没有使用数据,但是GeneReader和MiSeq平台有相同的优缺点。


推荐
关闭