关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

浅谈NGS的这10年(三)

2021.7.02

  454平台和Ion Torrent平台相比于其他的短读长平台而言,能够提供较长的read读长,分别大约在700bp与400bp,因此在基因组结构较为复杂的研究上应用 较多。然而,由于同样都是基于SNA技术,它们都拥有相同的缺点。虽然,其在非碱基多聚体(non-homopolymer)的测序上正确率与其它NGS 平台相差无几,但其插入与缺失(Insertion and deletion,indel)是最大的问题。同一碱基的多聚体是该类技术最大的问题所在。有报道,对同一碱基的多聚体的测序误差能够达到6-8个碱基之 多47,48。不幸的是,尽管Ion Torrent依然在紧跟快速进化的NGS平台的步伐,454平台却由于成本与应用范围过于狭小却已经被罗氏公司停产。


  Ion Torrent平台为不同的研究人员的不同需求提供了不同的芯片与设备,通量从50Mb到15Gb不等,运行时间也从2小时到7小时不等。这一点使得其几 乎是所有目前的二代测序平台中最快的一个。这也使得其在基因panel与精准临床诊断上大有优势50,包括转录组与可变剪切鉴定51。Ion Torrent先后发布Ion Personal Genome Machine (PGM) Dx与Ion S5系列希望于在临床诊断上打开疆土。与Ion Chef文库制备试剂盒和芯片上样设备结合使用,S5系列希望能够成为最方便操作的设备,消除其它Ion Torrent设备对氩的依赖。但是,其最大的缺点在于Ion PGM Dx系统可以进行双向测序,更高通量的Ion Proton与S5系统却并不支持双向测序,也因此限制了其在大范围基因组测序与转录组结构上的应用。


  长读长(read)的NGS测序

  综述

  基 因组是一个复杂的复合物,其中包含了多种重复序列,拷贝数变化,结构变异。这些与进化,适应以及疾病密切相关54-56。然而,许多复合物元件由于过长, 导至短读长测序并不能够完美的对其进行测序。长读长测序的reads可以达到几千个碱基,这使得可以对大的结构进行功能解析。此类的长读长测序产生的单一 长序列可以跨越复合物或者重复序列。长读长测序在转录组测序过程中也大有益处,因为长读长的reads可以跨越完整的mRNA的转录本而不需要拼接。这可 以使得研究人员可以鉴定到更多的基因亚型等。


  最近,人们开发出了两种长读长测序的实验方案,分别是:单分子实时测序(single- molecule real-time sequencing )以及依赖于已有短读长技术体外构建长读长的合成法。单分子法与短读长测序完全不同,因为单分子法不需要对模板进行扩增来产生足够测序仪读取的信号,也不 需要轮番添加dNTP。而合成法并非产生原始的长读长的reads,而是通过利用barcodes来进行拼接获得长片段。


  表一:NGS平台概述。

  163969f69bb14664a5b7262a86b26077_th.jpg

  4dbe5ab554d548cd9dd70db454b6e991_th.jpg

  单分子长读长测序(PacBio和ONT)

  最 近这段时间,最常用的长读长测序法平台就是使用PacBio Biosciences(PacBio)57的单分子实时测序法(single-molecule real-time sequencing, SMRT)(图5a)。该设备使用了一个特制的流动单元,其中包含了成千上万的单独的底部透明的皮升孔(picolitre wells)——zero-mode waveguides(ZMW)58。短读长SBS技术需要使得聚合酶结合DNA,沿着DNA进行扩增,而PacBio则固定聚合酶在空的底部,让DNA 链通过ZMW。由于有聚合酶有固定的位置,因此该系统可以对单分子DNA进行测序。dNTP结合在每个孔的单分子模板上,通过激光或者成像设备记录ZMW 底部标记在核糖核酸上的发射波长的颜色与持续时间来进行序列的读取。聚合酶在结合dNTPs的过程中,切割dNTP结合的荧光基团,使得荧光基团在第二个 标记的碱基进入ZMW前将前一个荧光基团去除。SMRT平台也使用了独特的环状模板,这种方式的模板可以使得聚合酶反复读取模板的序列。尽管这种方法不太 容易对长度大于3kb的片段反复读取,但是短的模板却可以反复读取多次57,59。由于多次读取同一序列,因此系统会产生多次测序后的保守序列 (consensus sequence, CCS)。


  2014年,第一个消费级别的nanopore测序仪的原型机——MinION在 Oxford Nanopore Technologies(ONT)诞生。与其他平台不同的是,nanopore测序仪并不监测模板DNA结合或杂交的核糖核酸。其它平台通过监测次级信 号,光,颜色或pH等来进行碱基序列的读取,二nanopore则直接对天然的ssDNA分子进行读取。为达成此,DNA需要通过一个蛋白孔 (protein pore)(图5b),孔也会因为DNA分子的通过导至的电压阻塞(voltage blockade)的发生。对这些电荷瞬时的追踪称为squiggle space,特定DNA序列通过孔会产生特定的电压改变,这被称为k-mer。相比于1-4种可能的信号,nanopore拥有1000多种可能的k- mer,尤其是当天然DNA序列中存在修饰的碱基的时候。最近的MK1 MinION流动单元由特殊应用的芯片组成,包涵了512个独立的通道,每秒可以读取70bp长度,到2016年预计能够增加到500bp/秒。新推出的 PromethION设备是包含了48个独立流动单元的高通量平台。该项工作最多可以在2天内输出~2-4Tb的数据量,这使可能其成为HiSeq X系列的强力竞争者。与PacBio的环状模板类似的是,ONT MinION使用一个leader-harpin library结构。这使得正向DNA链可以通过孔,接着harpin蛋白结合双链,最后是反义链。这产生了1D和2D reads,1D链可以通过比对产生一个保守的2D read。

  b989ce5a9b094405b510c1eff61ab10f_th.jpg

  图5: 长读长实时测序原理。

  长reads的合成

  与 真正测序的平台不同的是,合成长读长技术依赖于一个barcode系统来结合不同的片段,通过已有的短读长测序仪来获得长读长reads61。该方法将大 的DNA分子分割成若干个小片段到微孔中或者乳液中。每个微孔或者乳液中的模板被切割并且加上了barcodes。这种方法允许在短读长测序仪上使用,测 序后数据被通过barcode分开按照barcodes的序列进行拼接62。


  合成法有两个系统:Illumina长片段合成平台(图5c) 与10X Genomics乳液系统(图5d)。Illumina系统(Moleculo)分割DNA到小板上而不需要特殊仪器。然而,10X Genomics乳液系统(GemCode与Chromium)使用乳液分隔DNA并且需要微流体平台(microfluidic instrument)来进行测序前的准备工作。在其实浓度低至1ng的情况下,10X Genomics乳液系统可以任意切割长的DNA片段(最大达到100kb)到微粒(GEM)中,这种威力一般包含了≤0.3× 的基因组以及一个独特的barcode。


  单分子测序与合成法测序的比较

  人 们对长读长测序越来越感兴趣,每个系统都有其优劣(表一)。最近长读长测序最受欢迎的是PacBioRS II。该设备可以产生超过50kb长度的单个read,长链建库测序平均长度为10-15kb。这种特性使得在基因组拼接与大范围基因组结构的应用中大有 好处63,64。但是,长链的单个碱基错误率在15%左右65,使得人们对该仪器的使用有所顾虑66。不幸的是,这些错误随机分布每个reads,也因此 必须有足够高的覆盖度来消除单个碱基错误率的负面影响67。PacBio的环状模板有时候也会出现错误。单个碱基测序次数越多,结果就越可靠,其最高准确 率达到99.999%59,68。其高准确率与Sanger测序相似,使得该方法与Sanger测序一道成为SNPs的研究方法65。该设备的运行时间与 通量受测序读长的影响,长的模板需要更长的时间。举例来说,1kb的库运行1小时测序每个分子可以产生7500个碱基,平均大约重复8次;而运行4小时每 个分子可以产生大约30000个碱基(大约重复30次)。相反的是,10kb的库运行4小时产生30000个碱基只能重复3次左右。通量的限制以及高企的 成本(1000美元/G),加上较高的覆盖度使得PacBio RS II成为那些较小的实验室难以应用的技术。然而,考虑到这些问题,PacBio推出了Sequel系统,其通量与RS II相比高出了7倍,使得30×覆盖度的人类基因组测序成本大幅下降一半69。


  ONT MinION是一个小的(~3 cm× 10 cm)USB设备,并且可以在个人电脑上运行,使得其成为最小的测序平台。这使得MinION具有极高的便携性,并且在临床诊断中以及那些不容易到达的地 方有着广泛的应用前景。尽管周边设备依然只有在实验室中才有,如文库准备的恒温器,这依然可以大幅减少设备空间。与其他平台不同,MinION在片段大小 上是有限制的。理论上来讲,任意大小的DNA分子都可以在该设备上测序,但是实际情况是在对长片段进行测序过程中,是有所制约的70。作为ONT技术本身 的特性,ONT拥有超过1000种独立的信号,这使得ONT拥有巨大的错误率——1D read大约在30%左右(主要是indel)。有效的对核糖核酸复合物的测序也是ONT MinION面临的一大问题。当核糖核酸复合物超过k-mer长度,就很难准确鉴定前一个k-mer何时离开孔而下一个k-mer何时进入孔。因为修饰的 碱基会改变原有的k-mer设定的电压变化,所以碱基的修饰对MinION而言同样也是一大挑战。幸运的是,最近的一系列的对试剂以及算法的改进使得其准 确率提高不少71。


  应用

  WGS正在成为NGS中最广泛的应用。通过该技术并且结合生物学 应用,研究人员可以获得基因组信息中最值得注意的信息73。举例来说,2012年,Ellis等报道了基因与乳腺癌患者芳香酶抑制剂(aromatase inhibitor)治疗法之间的关联。他们指出突变,后果与诊断之间的关联,同样还有癌症相关基因的突变的富集。这提供了一个可能性,即:乳腺癌有不同 的突变造成不同的表型,具有复杂的病理学75。最近的NGS平台的改进使得研究人员发现了一些几年前难以想象的新观点与机会。在2010年,1000基因 组计划(1000 genomes project)开放了其从179个个体中获得的WGS原始数据以及697个个体的测序数据76。到2015年,研究人员已经构建了26个不同人群的 2504个人的基因组群体77,78。给人们从种群的角度来观察人类的变异。但这还不是该项目的终点,越来越多的人的基因组正在被得以测序79-81。种 群水平的测序已经成为人们更好的理解人类疾病的一个重要的工具,同样也得到了意想不到的结果。一个例子是,Sidore等82对2120个撒丁岛人 (Sardinians)的WGS研究发现了一些新的和脂肪相关的基因以及炎症的标志物,给人们对血液胆固醇的分子机制的研究提供了新思路。


  全 外显子组测序(Whole-exome and targeted sequencing)83同样也广泛应用于测序的研究中。受制于基因组材料大小的局限,很更多的个人样本可以在一个测序中实现,增加了基因组研究的宽度 以及深度。使用外显子测序,Iossifov84等对超过2500个单一的家庭进行测序,每个家庭都有一个小孩患有自闭症(autism spectrum disorder, ASD)。研究人员在30%的样本中发现了错意突变(missense mutations),基因干扰的突变(gene-disrupting mutations)以及拷贝数的变异。该工作与其他的工作一道鉴定到了ASD相关的基因突变85,86。其他证据表明,高覆盖度的WGS也可以解决复杂 的变异以及临床样本的分析。2015年,Griffith等认为可以使用一个完美的跨平台的方法(包含靶向测序)来鉴定肿瘤中高可信度的SNPs。该方法 中,作者认为10000×的覆盖度可以鉴定到稀有突变。由于10000×的覆盖度对于WGS而言实在过高,靶向测序便在临床中得到了广泛的应用。


  NGS 同样在基因的调控研究中有广泛的应用。蛋白-DNA互作可以通过染色质免疫共沉淀结合NGS测序(ChIP-seq)来得以研究41。利用NGS对修饰碱 基的研究也是可行的。举例来说,甲基化测序包含了甲基化DNA的捕获与富集88,对甲基化与非甲基化区段的选择性消化89,90,91。但是,尽管利用此 方法获得了很多重大的发现,修饰与捕获过程成为其最大的限制。2010年,Flusberg等92发表了一个概念性的研究方法,即:使用PacBio来区 分甲基化与非甲基化的碱基。由于聚合酶即便是甲基化的碱基也能够延伸,但在甲基化位点上会停留更多的时间,因此这里改变的信号可以认为含有甲基化修饰。与 之相同的是,nanopore平台也能够监测修饰的碱基,因为甲基化同样会影响鉴定到的电压的变化。这使得甲基化的测序可以在不需要化学操作的条件下进行 93。


  一个最近的NGS的范例是对长链DNA的测序。重复序列以及复合序列长久以来较难以拼接,短读长测序很难解决这个问题94-96。最 近,Chaisson等97对长读长测序的使用使得其能够在人类GRCh37数据库中提交超过1Mb的新的序列,这些序列弥补甚至跨越了曾经的沟。 Chaisson等还鉴定到了大于26000个超过50bp的indels,也因此,GRCh37数据库成为最有参考价值的几个基因组之一。除了简单的增 加基因组数据可靠性之外,长读长还能够提供更有效的临床诊断98-100。


  在对转录水平上的研究也因为NGS受益匪浅。今天,研究人员甚至 能够使用NGS的深度测序对单个转录本进行研究。2014年,Treutlein等101使用了组织发育过程中不同细胞类群的单细胞RNA测序发现了用于 鉴定细胞亚群的标志物。尽管长读长测序相对而言在对转录本的定量上不占优势,但是,长读长可以在研究转录组的结构上有所帮助51。举例来说,最近的人类长 读长转录组测序研究表明 >10%的reads是新的可变剪切体102。


  NGS最新的设备——nanopore测序仪,依然在寻找其 定位的过程中。然而,研究人员正在将其快速的文库制备,实时的数据生产以及小的体积的优势转变为资本过程中。最近,英国Stanley Royd Hospital的研究人员使用MinION用于监测沙门氏菌(Salmonella enterica)的爆发103。MinION测序仪最令人振奋的应用可能就是2014年的埃博拉病毒爆发104。在位于日内瓦的欧洲移动实验室的主持 下,作者对埃博拉病毒的传播以及进化历史进行了深入的研究。


  结尾

  我们正处在新的NGS技 术革命的顶端。NGS现在已经不仅仅只是一个新奇的事物,而已经成为了一个在生物学研究中广泛应用的技术。最新的超高通量测序仪已经将曾经认为不可能的事 情成为可能。这包含了首创的精准医疗(medicine initiatives)以及Illumina计划的对循环肿瘤DNA(circulating tumour DNA, ctDNA)进行测序。每个计划都对数万个基因组样本进行测序。所以,快速以及低成本的测序给予了内科医生强大的工具来翻译基因组信息成为有用的临床诊断 结果。


  这个革命也带来了新的挑战。由于NGS旨在广泛的应用于临床,时间就成为一个NGS首先需要面对的挑战。对于那些严重的神经性疾病或 者极为危险的癌症患者而言,数周的WGS分析的等待时间足以使的患者错过最佳的治疗时间。对于急性感染而言,这些事件已经下降到几天。尽管人们已经对时间 做出了巨大的改进,但是绝大多数现有的系统都不能完全满足快速模式下的足够产出。


  虽然临床诊断面临着数据量不够的问题,NGS其他方面的应 用却面临着生产力过剩的境地。目前,已有超过14000个基因组序列上传到US National Center for Biotechnology Information(NCBI)中。2013年,Schatz与Langmead报道了全世界每年可以生产超过15pb的数据量,并且数量与通量依然 在继续增加107。数据量的富余对分析以及其下游提出了严峻的挑战,这需要革命性的存储与生信解决方案108。将海量的数据量翻译成有生物学与遗传学内涵 的结果同样也是一个挑战87,109,110。在临床诊断方面,通过NGS分析的数据产生的假阳性或者假阴性同样也是需要慎重考虑的问题111,112。


  最 近,Illumina由于NGS与其周边产品获得了巨大的成功。其它生产商也在快速革新自身的产品113。Illumina的市场仍然在增长,以至于优势 巨大。BGISEQ-500以及Helicos technology的GenoCare114在亚洲也有所斩获。ONT PromethION115与Illumina HiSeq X系列则向着成本与产量的极限大步迈进。随着人们对临床诊断测序兴趣的增加,已有的NGS供应商正在提供各种快速的解决方案,如Ion Torrent S5以及Illumina的MiniSeq,还有新加入者Qiagen的GeneReader也来参与竞争。


  今后的几年里,更多的玩家也会 带着心得解决方案进入这个市场。GenapSys (Sigma-Aldrich)的electronic ‘lunchbox’-sized sequencer116; Genia (Roche)的新的nanopore测序方案117; 以及单通道CMOS技术118,都号称能够在临床应用上节约足够的时间。这些已有的和新的搅局者都有着科技革命的潜质,包括直接对RNA或者蛋白进行测序 等,这些最近和未来的进步使得今天成为NGS发展的黄金时期。


推荐
关闭