关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

RNA-seq综述(三)

2021.6.23

改良RNA-seq建库方法

RNA-seq最初用于分析多聚腺苷酸化的转录本,使用的方法源于早期的表达序列标签(expressed-sequence tag)和芯片研究。然而,下一代测序的使用指出了这些方法的局限性,而这些局限性在芯片数据中并不明显。因此,在RNA-seq首次报道后不久,就有研究报道了文库制备方法的一些重大进展。例如,在cDNA合成之前,对RNA进行片段化可以产生3ʹ:5ʹ偏倚,链特异性文库制备方法能够更好的区分正义链与反义链,这些改进都能够对转录本丰度进行更准确的估计。RNA片段化和链特异性文的制备很快就成了RNA-seq文库制备试剂盒中的标准方法。这里我们简要描述了其它RNA-seq方法的改良,使用这些改进方法的可以让研究者们根据他们的生物学问题以及特定样本进行选择。这些改进的方法包括在选择RNA进行测序时,取代dligo-dT富集的替代方法,或者是那些专门选择转录本的3ʹ或5ʹ末端的方法,或者是使用UMIs进行区分技术重复和生物重复的方法,以及针对RNA易降解特性改良的文库制备方法。这些方法的组合可以使研究者们阐明由可变poly(A)(alternative poly(A),APA),或替代启动子(alternative promoter)使用和可变剪接(alternative splicing)生成的复杂转录本。

Poly(A)富集的替代方法

大多数发表的RNA-seq数据都是基于oligo-dT富集的mRNA方法,这种方法会选择包含poly(A)尾的转录本,并将集中测序测序那些在转录组的蛋白质编码区上。不过这种方法除了产生3ʹ偏倚外,RNA中还有许多非编码RNA,例如miRNA和增强子RNA,这些RNA不含有poly(A),因此不能使用这种方法进行研究。如果不进行poly(A)富集也无法达到目的,因为这会导至高达95%的读长来源于rRNA。因此,研究者们可以选择使用oligo-dT用于mRNA-seq,或者是剔除rRNA后进行WTA。短的非编码RNAs无法被oligo-dT方法捕获,使用WTA也很难对其进行研究,因此在研究非编码短RNA时需要特定的小RNA方法,这些方法主要是通过顺序RNA连接(sequential RNA ligation)实现的(通常小RNA建库试剂盒中就有相应的说明)。

WTA生成的RNA-seq数据来源于编码和一些非编码RNA。RNA的部分降解也能使用这种方法进行测序,RNA的降解会导至一些poly(A)从转录的末端分离。rRNA的去除有两种方法,一种是将rRNAs从其它RNA中剔除掉(所谓的pull-out法),另一种就是使用RNAse H酶来对rRNA进行降解。这两种方法都是使用序列特异性和物种特异性寡核苷酸探索来实现的,这些探针能与细胞质rRNA(5S rRNA,5.8S rRNA,18S rRNA和28S rRNA)和线粒体rRNA(12S rRNA和16S rRNA)互补。为了简化人类,大鼠,小鼠或细菌(16S和23S rRNA)样本的处理,通常将预先混合的寡核苷酸添加到RNA中,然后让它们与rRNA进行杂交,以便进行下一步的清除。其它高丰度的转录本,例如珠蛋白(globin)或线粒体RNA也可以按照类似的方法去除。pull-out方法结合了生物素化的探针和链霉素包裹的磁珠,它们可以用于除去寡聚的rRNA复合物,留下剩余的RNA用于建库例如Ribo-Zero(Illumina,USA)和RiboMinus(Thermo Fisher,USA)。RNase H酶降解法可以降低那些生成的loigo-DNA:RNA复合物,例如,NEBNext RNA depletion(NEB,USA)和RiboErase(Kapa Biossystems,USA)。最近对这些方法的比较说明,在高质量的RNA中,这两种方法都可以将rRNA降低至后续RNA-seq读长的20%以下。但是,作者说明了,RNase H方法比pull-out法的稳定性要强,并且比较不同试剂盒时,最后得到的DGE长度的偏倚比较明显。作者还描述了另外一种类似于RNase H的方法,这种方法表现不错,并且以前没有报道过。ZapR方法是Takara Bio的一项专有技术,它使用一种酶来降解RNA-seq文中的rRNA片段。rRNA剔除方法的一个局限是,相比对oligo-dT RNA测序方法,rRNA剔除方法需要更高的测序深度,主要是因为里面还会存有一定的rRNA。

Oligo-dT和rRNA剔除法都可以用于后续实验的DGE分析,研究者们可能会默认使用以前在他们的实验室中使用的方法或最容易使用的方法。然而,对于这些方法的使用应该考虑一些因素,尤其是那些易降解的样本,另外,WTA方法会检测到更多的转录本,但是其实验成本要高于oligo-dT方法。

富集的RNA 3ʹ末端用于Tag RNA-seq以及可变多聚腺苷酸分析(Enriching RNA 3ʹends for Tag RNA- seq and alternative polyadenylation analysis.)

标准的短读长Illumina方法需要对每个样本生成1000万到3000万条(10M到30M条)读长用于高质量的DGE分析。对于那些专注于基因水平表达,并从事大型或高度重复实验的研究者们,或资源受限的研究者来说,可以选择使用3ʹtag计数。由于测序集中在转录本的3ʹ末端,因此需要的读长(reads)更少,这就降低了成本,并且一次测序的样本数目也可以更多。富集的3ʹ末端也可以用于确定单个转录本的poly(A)位点,而由于mRNA前体上存在的APA,其3‘末端可能会发生变化。(群主批注:目前单细胞转录组商业王者10X就是采用这种方法,仅仅是对3ʹ末端测序)

105346qc7x4ttbsfcc4fkt.png

3ʹ mRNA-seq方法会产生每个转录本的单个标签读长(tag read),这些读长来源于3ʹ末端,这个标签(tag)丰度与转录本的丰度是成正比的。标签测序法(tag-sequencing protocols),例如QuantSeq(Lexogen, Austria)通常比标准RNA-seq法流程更为简单。标签测序法已经进行了优化,这种方法使随机引物或锚定的oligo-dT-primed来进行cDNA合成,从而并不需要poly(A)富集这一步骤,并在cDNA合成后立即进行PCR,从而取代了接头连接步骤。这种方法可以在低测序深度上实现与标准RNA-seq类似的灵敏度水平,因此,这种方法可以使用多路复用的形式实现多个文库的同步测序。这种建库方法的数据分析也进行了简化,因为不需要外显子连接检测和基因长度测序读长的归一化。但是,3ʹ mRNA-seq方法可能会被受到转录本同聚区(homopolymeric regions0的影响,这会导至错误标签;这种方法只能提供非常有限的异构体分析,这就会抵消它们较低测序深度带来的任何成本收益,尤其是对于那些仅够一次使用的样本来说。

mRNAs的APA化会产生3ʹ UTR长度不等的异构体。对于一个特定的基因来说,它不仅产生了这个基因的多个亚型,而且由于3ʹUTR中存在着顺式调控元件,这也会影响该转录本的调控。这种方法可以使用那些研究APA的研究者们更详细地研究miRNA的调控作用,mRNA的稳定和定位,以及mRNA的翻译。APA法指在富集转录本的3ʹ末端,从而提升信号与灵敏度,而前面提到的标签测序法非常适合此目的。其它方法多聚腺苷酸位点测序(polyadenylation site sequencing,PAS-seq),这种方法可以将mRNA打断为150bp左右的片段,并且使用oligo-dT标记的模板转换来生成cDNA用于测序,其中的80%读长就来源于3ʹUTR。TAIL-seq方法能不使用oligo-dT,在对RNA进行打断之前,这种方法会剔除rRNA,并将3ʹ-RNA接头连到的poly(A)的尾部。当片段化后,再加上5ʹ-RNA接头就完成了RNA-seq文库的制备。在RNA-蛋白分析方法中也能评估APA,例如紫外交联免疫沉淀(cross- linking immunoprecipitation, CLIP)测序。

富集的RNA 5ʹ末端用于起始位点回贴(Enriching RNA 5ʹends for transcription start- site mapping)

使用富集7-甲基鸟苷5ʹ加帽RNA(7-methylguanosine 5ʹ-capped RNA)也可以进行DGE分析,这种方法可以用来鉴定启动子和转录起始位点(TSSs)。现存有几种方法都可以实现这个目的,但是这些方法很少作为常规手段来进行使用。在对基因表达的加帽分析(CAGE, cap analysis of gene expression),以及用于基因表达分析的启动子的RNA注释和定位(RAMPAGE, RNA annotation and mapping of promoters for analysis of gene expression)分析中,当使用随机引物生成第一链cDNA后,mRNA 5ʹ的帽子结构就被生物素化,这就可以将5ʹ cDNA通过链霉亲和素进行富集。CAGE使用II型限制性内切酶来生成短的cDNA标签,这种酶会从5ʹ端的接头下游切割21-27p的核核苷酸。相比之下,RAMPAGE操作则使用模板转换(template switching)来生成较长的cDNA,这个cDNAs随后被富集起来,用于测序。单细胞标签逆转录测序技术(single-cell-tagged reverse transcription sequencing, STRT-seq)能够在单细胞水平上实现TSS的回贴(mapping)。STRT-seq技术使用生物素化的模板转换oligos来生成cDNA,被磁珠捕获后,就在5ʹ末端进行片段化,产生短的cDNA标签。作为CAGE基础的5ʹ末端的加帽技术是由日本理化所(Riken)开发的,这种技术用于早期功能基因组学实验中,使全长cDNA克隆数量最大化。日本理化所主导的小鼠功能注释(FANTOM, Functional Annotation of the Mouse)协会通过阐明了1300多个人类和小鼠原代细胞,组织和细胞系的TSS,这充分显示了CAGE的强大。在最近一些方法比较中,CAGE也表示不俗。但是作者却报道说,仅使用5ʹ末端测序产生的假阳性TSS峰也是最多的,他们建议使用正交方法进一步来确认阳性,例如DNase I的回贴或H3K4me3染色质免疫沉淀测序(ChIP-seq)。

使用唯一分子标识符来检测PCR重复

RNA-seq数据通常具有较高的重复率(duplication rates),也就是说许多测序读长会回贴到转录组的相同位置。与全基因组测序不同的是,在全基因组测序中,重复的读长被以认为是PCR这一步中出现的技术偏倚导至的,它会被移除,而在RNA-seq中,这些重复的读长则被认为是真正的生物学信号并被保留。在一个样本中,数百万个起始RNA分子也许代表了高表达的转录本,当对cDNA进行测序时,就会发现很多片段是相同的。因此,在比对(alignment)过程中,并不建议通过计算去除那些不必要的重复,因为这些重复中很多是真正的生物信号。当使用单端测序(single-end sequencing)时更是如此,因为一对片段中只要一端相同,就可以被认为是一个重复(duplicate),至于双端测序(paired-end sequencing),两端必须在同一位置时才能被认为是一个重复,但这种情况很少。但是,由于PCR偏倚,在制备cDNA文库时,还会存在着某种程度上技术重复,并且PCR复制偏倚是一种质控问题,它有可能对RNA-seq实验结果造成影响时,很难区分出这些技术重复与生物重复的程度。

现在已经提到将UMIs作为一种解释扩增偏倚的方法。在扩增前将随机UMIs添加到cDNA分子中,使得能够确认PCR重复,并且可以在后续的数据分析中将其除去,同时保护真正的生物学重复,从而改善基因表达的量化和等位基因频率估计的效果。当一对测序读长被确认为一个技术重复时,它们应该包括相同的UMI,并且被回贴到转录组中相同的位置(一端或两端,这取决于使用的是单端测序还是双端测序)。

UMIs已经被证明能够降低变异和错误发现率来提升RNA-seq中的DGE数据分析,并且这种方法在单细胞数据分析方面也有着重要作用,单细胞数据中的扩增偏倚可能更为严重。当试图在RNA-seq数据中进行变异检测(variant calling)时,UMIs也非常有用。虽然高表达的转录本可以产生适合这种变异检测的高覆盖率,尤其是包含了了这种重复时,但UMIs可以用于去他可能导至第二位基因频率错误计算的扩增假象。UMIs正在成为单细胞RNA-seq(scRNA-seq)的文库制备试剂盒中的标准,同时它也日益频繁地用于常规RNA-seq。

提高降解RNA的分析

RNA-seq文库制备方法的发展也改进了低质量或降解RNA的分析,例如从临床相关获得的那些用福尔马林固定石蜡包埋(FFPE)块存储的样本中的RNA。低质量的RNA会导至不均匀的基因覆盖率,更高的DGE假阳性率和更高的重复率,它们与文库的复杂性呈负相关。但是,文库的制备方法已经被改良,改良后的方法能降低RNA降解的影响。这些方法可能在基于RNA-seq的诊断技术的发展中显得尤为重要,例如将来有可能出现的类似于OncotypeDX(目前并不是测序分析)的诊断,这种试剂盒基于21个基因RNA的标签来预测乳腺癌的复发。虽然现在有几种方法可以使用,但是比较后发现两种方法表现最好,即RNase H与RNA exome。我们前面提到,RNase H法使用核酸本科来降低RNA:DNA复合物中的rRNA,但是它却能阻止mRNA的降解。RNA exome方法使用类似于外显子测序(exome sequencing)那样的方法,使用寡核苷酸探针来捕获RNA-seq文库分子。这两种方法都能通过减少rRNA,同时不影响mRNA的手段来产生高质量和高度一致的基因表达数据。3ʹ末端标记测序技术与扩增子测序(在PCR扩增中能产生超过2万个外显子扩增子)方法也可以用于分析降低的RNA,但是这两种方法并没有RNase H方法使用广泛。


推荐
关闭