关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

RNA-seq综述(五)

2021.6.23

第1阶段-测序读长的比对(alignment)与组装(assembly)

测序完成后,分析的起点就是数据文件,这个数据文件包含了测序计数的碱基,这些数据文件通常是以FASTQ文件的格式存在。处理这些FASTQ文件最常见的第一步操作就是将测序读长回贴到已知的转录组上(或已经注释的基因组上),将每个测序读长转换为一个或多个基因组坐标。这一过程可以使用多个不同的比对工具,例如TopHat,STAR或HISAT,它们都依赖于一个参考基因组。由于测序的cDNA都源于RNA,而RNA有可能跨外显子边界,因此当与参考基因组(含有内含子与外显子)进行比对时,这些工具进行一个剪接比对后,测序读长之间会出现一些间隙。

如果测序的物种没有一个可用的高质量基因组注释(含有已经知的外显子边界),或者说如果希望将测序读长与转录本(而不是基因)关联起来,那么可以使用比对的读长进行转录组的组装。一些组装工具,例如StringTie,SOAPdenovo-Trans使用利用那些已经比对好的结果中的空隙来推测其外显子边界,以及可能的剪接位点。当参考基因组注释没有或者是不完整时,或者是你感兴趣的组织(例如在肿瘤组织)中转录本异常的情况下,这些从头组装转录本的工具尤其好用。当使用的是双端测序和/或更长的测序技术时,这种转录组组装方法效果更好,因为这些测序技术有更大的可能性跨越了剪接位点。但是,从RNA-seq数据中进行转录本的完整组装对于计算DGE来说,并不是一个必需的步骤。

最近,已经开发出了计算高效的“免比对”(alignment-free)工具,例如Sailfish,Kallisto与Salmon,这些工具可以直接将测序读长与转录本进行关联,从而无需单独的定量步骤(参考后面的第2阶段部分)。这些工具在那些表征更高丰度(以及更长的)转录本方面表现得非常良好;然后它们在那些定量低丰度或短转录本方面表现不佳。

用于将测序读长回贴到转录本的不同的工具在它们如何对测序的子集进行分配方面有着显著的差异,这会影响最终的表达估计值。当有来自一个不同基因,伪基因或转录本的多个读长时,这种效果尤为明显。一项比对12个基因表达估计方法的比较显示,一些比对方法低估了许多与临床相关的基因的表达,这主要是由于其并不精确的回贴读长所导至的。在RNA-seq数据的计算分析中,如何将多个回贴的读长合理进行分析仍然是一个值得研究的方向。通常的做法是将这些读长排除在下一步的分析之外,但这可能会使结果产生偏(参考阶段2-转录本丰度的量化)。其它的估计包括生成“合并“表达特征,这些特征包含了那些共同回贴后的读长的重叠区域,以及要在随后的置信度计算中,对每个估计的基因的回贴的不确定性进行估计。

第2阶段-转录本丰度的量化

一旦读长被回贴到基因组的位置或转录组的位置,接下来的步骤就是将这些读长分配到基因或转录本上,以确定它们的丰度。不同的比较研究表明,在量化步骤中采用的不同的方法对最终的结果影响最大,这种影响甚至超过了第1步中比对工具的选择。对每个基因(即该基因所有转录本的亚型)测序读长丰度的量化依赖于转录组注释来对那些重叠到已知基因上的测序读长进行量化。但是,使用短读长对测序读长进行特定异构体分配来说还需要一个估计步骤,因为许多读长并不能跨越剪接位点,因此它们无法精确地分配给特定的异构体。当一个基因的主要表达形式是在不同长度的转录本之间进行转换时,那么即使在仅研究基因层面的差异表达分析的前提下,对这些转录本进行定量则会产生一个更加精确的结果。例如,在一个样本中,一个主要的转录本也许只有另外一个样本中同样转录本的一半长度,但是前者的表达量是后者的2倍,那么单纯地基因基因定量的工具无法区分这个转录本的差异表达。

常用的量化工具包括RSEM,CuffLinks,MMSeq与HTSeq以及前面提到的那些免比对工具。一些基于读长计算的工具,例如HTSeq(或者是R equivalent,featureCounts)通常会丢弃许多比对好的读长,包括那些回贴到多个位置的读长,或者是重叠多个表达特征的读长。其结果就是,在随后的分析中清除了那些同源和重叠的转录本。RSEM会使用期望最大化的方法来分配那些比对不明的读长,Kallisto这个无参比对工具会将比对不明的读长包括在它们相应的转录本计数中,从而导至结果偏倚。使用tximport包可以将转录本丰度估计转化为读长计数值(read count equivalents)。量化步骤中产生的结果通常会合并为一个表达矩阵,在这个矩阵中,每一行是表达特征(基因或转录本),每一列是样本名,表达矩阵中的值要和是实际的读长值,要么是一种估计丰度。

第3阶段-过滤和归一化

通常来说,定量后的基因或转录本计数结果还需要过滤和归一化,从而用于解释读长深度,表达模式以及技术偏倚。过滤用于去除那些不均一的低读长丰度特征的值,从而提高对那些真正差异表达值的检测能力。而对表达矩阵进行归一化则更加复杂。直接转换可以调整丰度值,以便能更加说明GC含量的差异以及读长深度。早期用于归一化的方法就是RPKM,但这种方法现在已经淘汰,它已经被那些能够校正样本之间更细微差异的方法所取代,例如四分位数法或中位数归一法。

广泛的研究表明,归一化方法的选择会对最终的结果以及生物学结论产生重要的影响。大多数进行归一化的算法依赖于两个重要的假设:第一,大多数基因的表达水平在重复的样本组之间保持不变;第二,不同的样本组在总体的mRNA水平上不表现出显著差异。当这些基础假设不成立时,那么就需要慎重考虑是否进行归一化,以及如何进行归一化。例如,如果一些基因在一个样本中高表达,同时相同的基因,以及另外的一些基因在同一组中的另外一个样本里正常表达,如果对读长深度进行简单的归一化则明显不够,因为相同数目的测序读长会分配到第二个样本里更多的基因上面。归一化过程,例如截断均值化M值(The Trimmed Mean of M-values,TMM)方法(它已经整合到的edgeR包中)就能解决这个问题。选择一个合适的归一化方法或许很困难;一种做法就是深度使用多种方法进行分析,然后比较它们结果的一致性。如果结果对于归一化方法高度敏度,则应该对数据进行进一步的探索,以确定差异来源。但是,比较不同的归一化方法时,要谨慎确保这种归一化方法的比较不是为了选择与原始假设最兼容的归一化方法。

处理这些问题的一种方法的spike-in control RNAs,这种方法会引入一些外源已知的RNA序列,这些外源已知的RNA序列已知,浓度已知,在建库的过程中,将它们添加到样本中。RNA-seq中的Spike-ins方法包括外部RNA控制协会混合物(External RNA Controls Consortium  mix, ERCCs),spike-in RNA突变物(spike-in RNA variants, SIRVs)与测序spike-ins(sequencing spike-ins, Sequins)。由于预先知道spike-in的浓度,这些浓度直接与生成的读长数相关,因为就可以对这些来自样本转录的表达水平进行校正。也有人指出,如果不进行spike-in控制时,那么就不能对那些有强烈倍数变化基因的实验进行分析。然后在实践中,很难在预设水平上一致地整合spike-ins,并且它们在基因水平上对测序读长数目进行归一化比转录本更加可靠,因为在一个样本中,每个异构体的表达水平不同。目前,spike-in控制法并没有在发表RNA-seq DGE实验中得到广泛使用,如果这种方法被进一步改进,提高其一致性的话,则这种方法会得到广泛使用,但现在很多研究者们在他们的单细胞实验(这种实验里会更加广泛地使用spike-in)使用了这种方法。

第4阶段-差异表达的统计建模

一旦测序读长被处理为表达矩阵,那么就可以对实验进行统计建模,从而确定哪些转录本发生了改变。一些工具可以达到这些目的;其中一些工具会对基因水平的读长数目进行统计建模,而一些则依赖于转录本水平的估计。基因水平的工具通常依赖于比对好的读长数目,使用广义线性模型(Generalized Linear Models)处理这些数据,从而能够评估复杂的实验设计。这些工具包括edgeR,DESeq2以及limma+voom,这些工具能够进行有效地计算,并提供比较结果。对差异异构体表达进行统计建模的工具包括CuffDiff,MMSEQ与Ballgown,这些工具通常需要更多的算力(computational power),并且不同工具的结果中的信息量更大。但是,在进行选择差异表达工具之前做的那些工作,例如比对,定量或过滤以及归一化这些操作对最终结果的总体方差会产生更大的影响。

常规的RNA-seq分析流程,相信关注我们生信技能树的粉丝早就跟着一遍又一遍的学习了,这里就不再赘述,直接上视频,需要掌握下面3个视频课程的知识点,见:https://space.bilibili.com/338686099/#/

105346lpdkwad2osw5s2wk.jpg

常规RNA-seq进阶

源于整块组织和/或大量细胞的RNA-seq数据已经彻底改变了我们对生物学的理解,但是这种常规的RNA-seq无法轻易地分辨出特定的细胞类型,也无法保存空间信息,而这两个信息都是理解生物系统复杂性的关键因素。促进研究者们从常规的RNA-seq走出去的情形与常规RNA-seq当初出现的理由类似,但这种进阶能够能够解决很多不同的问题。单细胞测序让人们发现了,即使在被认为研究透彻的疾病背后,还存在着一些未知细胞类型,例如发现了离子细胞(ionocyte cell),这类细胞可能与囊性纤维化疾病有关。空间分辨RNA-seq则提示了在实体组织中细胞与细胞之间的相互作用,例如发现了成年心脏组织中一小群胎儿标记基因表达的细胞。虽然在可预见的未来,常规RNA-seq仍然是一个占据主导地位的工具。但是,单细胞测序与分析方法正在快速地被研究者利用,并且随着空间RNA-seq方法的成熟,它们有可能成为常规RNA-seq分析中的一部分。这两种方法都将提高我们对多细胞生物体复杂性的理解,它们都有可能与常规RNA-seq方法结合使用。在这里我们简单描述一下主要的单细胞测序以及空间RNA-seq方法,以及它们与常规RNA-seq的不同之处,以及新的研究者们如何着手。


推荐
关闭