Illumina mRNA测序数据分析结果-测序结果如何分析-上海伯豪生物技术有限公司

Illumina mRNA测序数据分析结果

咨询留言

非会员

诚信认证:

工商注册信息已核实！

扫一扫即可访问手机版展台

生化指标检测

转基因动物/动物模型/动物实验

伯豪生物

参考报价：	面议	型号：	Illumina mRNA测序数据分析结果
品牌：	伯豪生物	产地：	上海
关注度：	7	信息完整度：
样本：	暂无样本	典型用户：	暂无

咨询留言

400-6699-117转1000

产品简介

1. 数据预处理

测序得到Raw Reads中可能含有总体质量较低、含有测序引物、末端质量偏低等不合格的Reads，这些不合格的Reads很有可能对分析质量造成一定的影响，所以必须对其进行过滤，得到可用于数据分析的clean Reads，应用fastx（version:0.0.13）[1]进行过滤，主要步骤如下：

1) 去除总体质量偏低的reads，将质量大于20碱基所占比例小于50%的reads去除
2) 去除3’端质量Q低于10的碱基，即碱基错误率小于0.1，其中，Q=-10logerror_ratio
3) 去除reads中所含有的接头序列
4) 去除reads中含有的模糊的N碱基，是由于测序强度不够,机器无法识别的碱基
5) 去除长度小于20的reads
6) 去除所属物种的ribosome RNA reads

结果统计如下表：

表1 数据预处理结果统计

备注：Clean ratio=(Clean reads/Raw reads)%

数据量计算方法：33,578,010reads=34M reads=34*100/1000G bases=3.4G bases

2. 基因组比对（Mapping genome）
应用tophat（version:2.0.9）[2]的spliced mapping算法对预处理后的reads进行Genome mapping，这种算法允许将不能全长匹配的reads分割进行mapping，较适用于真核(有内含子间区)转录组测序数据。

Mapping统计如下表：

表2 基因组比对结果统计

Reads比对到基因各个区域的比例如下图所示：

图1 Regions distribution。展示了测到的reads比对到基因区、编码区、剪接位点、内含子和非编码区的比例。

备注：其中non-coding region包括5UTR、3UTR、non-coding RNA regions等总的非编码区域的统计。

各个样本的基因组覆盖情况如下图所示：

图2 基因组覆盖分布图。以1K的窗口得出基因组的一个覆盖分布，图中最外圈为基因组，里面每一个圈表示一个样本的染色体覆盖。

3. 饱合度分析

分析被测到的基因数目随着测序量的增加而增加的曲线。

图3 饱和度分析图。横坐标为测序的数据量；纵坐标为覆盖到的基因数目可以说明测序数量是否足够。

4. 基因表达分析
4.1 基因水平表达定量

在转录组测序中，我们可以通过mapping到基因区域的reads数目来估计基因表达的水平，但reads数除了与基因表达水平成正比外，还与基因本身的长度、测序的数据量有关。为了使不同基因、不同样本间的基因表达水平具有可比性，将reads转化成RPKM值进行基因表达量的标准化。我们应用cufflinks（version:2.1.1）对tophat的mapping结果进行基因表达定量。

基因表达定量分析结果如下：

表头说明：

4.2 表达相关性分析

根据基因表达定量的结果分析样本之间总体的相关性，包括PCA分析，相关性heatmap图。

图4基于基因表达的样本PCA图

图4 基因表达相关性heatmap图。颜色越深表明相关性越大，数值指相关性系数。

4.3 基因差异表达分析
应用cufflinks（version:2.1.1）中的Cuffdiff将归一化得到的FPKM值进行样本间差异基因分析。采用FoldChange(表达差异倍数)以及Fisher-test精确检验统计学方法对差异基因差异程度进行筛选，筛选条件如下：
1) FDR <= 0.05
2) Fold-change>=2

差异表达基因详细信息如下：