上海伯豪生物技术有限公司

400-6699-1171000

分析测试百科网 认证会员,请放心拨打!

热门搜索:
首页 > 产品展示 > 生信分析 > Illumina mRNA测序数据分析结果

Illumina mRNA测序数据分析结果

分享:
咨询留言
参考报价: 面议 型号: Illumina mRNA测序数据分析结果
品牌: 伯豪生物 产地: 上海
关注度: 7 信息完整度:
样本: 暂无样本 典型用户: 暂无
咨询留言

400-6699-1171000

1. 数据预处理

测序得到Raw Reads中可能含有总体质量较低、含有测序引物、末端质量偏低等不合格的Reads,这些不合格的Reads很有可能对分析质量造成一定的影响,所以必须对其进行过滤,得到可用于数据分析的clean Reads,应用fastx(version:0.0.13)[1]进行过滤,主要步骤如下:

1) 去除总体质量偏低的reads,将质量大于20碱基所占比例小于50%的reads去除
2) 去除3’端质量Q低于10的碱基,即碱基错误率小于0.1,其中,Q=-10logerror_ratio
3) 去除reads中所含有的接头序列
4) 去除reads中含有的模糊的N碱基,是由于测序强度不够,机器无法识别的碱基
5) 去除长度小于20的reads
6) 去除所属物种的ribosome RNA reads

结果统计如下表:

表1 数据预处理结果统计

备注:Clean ratio=(Clean reads/Raw reads)%

数据量计算方法:33,578,010reads=34M reads=34*100/1000G bases=3.4G bases



2. 基因组比对(Mapping genome)
应用tophat(version:2.0.9)[2]的spliced mapping算法对预处理后的reads进行Genome mapping,这种算法允许将不能全长匹配的reads分割进行mapping,较适用于真核(有内含子间区)转录组测序数据。

Mapping统计如下表:

表2 基因组比对结果统计


Reads比对到基因各个区域的比例如下图所示:



图1 Regions distribution。展示了测到的reads比对到基因区、编码区、剪接位点、内含子和非编码区的比例。

备注:其中non-coding region包括5UTR、3UTR、non-coding RNA regions等总的非编码区域的统计。


各个样本的基因组覆盖情况如下图所示:


图2 基因组覆盖分布图。以1K的窗口得出基因组的一个覆盖分布,图中最外圈为基因组,里面每一个圈表示一个样本的染色体覆盖。


3. 饱合度分析

分析被测到的基因数目随着测序量的增加而增加的曲线。


图3 饱和度分析图。横坐标为测序的数据量;纵坐标为覆盖到的基因数目可以说明测序数量是否足够。


4. 基因表达分析
4.1 基因水平表达定量

在转录组测序中,我们可以通过mapping到基因区域的reads数目来估计基因表达的水平,但reads数除了与基因表达水平成正比外,还与基因本身的长度、测序的数据量有关。为了使不同基因、不同样本间的基因表达水平具有可比性,将reads转化成RPKM值进行基因表达量的标准化。我们应用cufflinks(version:2.1.1)对tophat的mapping结果进行基因表达定量。

基因表达定量分析结果如下:



表头说明:



4.2 表达相关性分析

根据基因表达定量的结果分析样本之间总体的相关性,包括PCA分析,相关性heatmap图。

图4基于基因表达的样本PCA图


图4 基因表达相关性heatmap图。颜色越深表明相关性越大,数值指相关性系数。


4.3 基因差异表达分析
应用cufflinks(version:2.1.1)中的Cuffdiff将归一化得到的FPKM值进行样本间差异基因分析。采用FoldChange(表达差异倍数)以及Fisher-test精确检验统计学方法对差异基因差异程度进行筛选,筛选条件如下:
1) FDR <= 0.05
2) Fold-change>=2 

差异表达基因详细信息如下:


表头说明:



样本的表达分布图、样本间的表达相关性图,以及差异基因的火山图和Heatmap图如下:


图5表达分布图。可以观测出基因表达的分布情况以及高丰度基因、低丰度基因的一个构成,如果数据量足够,则表达分布图则出现两个较为明显的峰。



图6 表达相关性散点图。可以校验两个样本的相关性程度,如果相关性很低,则说明可能在建模或者实验方面存在问题,其中:红色表示上调差异基因,绿色表示下调差异基因。


图7火山图。红色表示上调显著性差异基因,绿色表示下调显著性基因,其中:两条竖蓝色表示表达差异倍数为2倍,一条横蓝色表示P=0.05。

图8Heatmap图。


5. 差异基因富集分析

5.1 差异表达基因的GO 富集分析

把所挑选的差异表达基因向Gene Ontology数据库的各个条目(term)映射,计算每个条目的基因数目,然后应用超几何检验,与整个基因组背景相比,筛选在差异表达基因中显著富集的GO条目。

差异基因GO富集分析结果如下:



表头说明:



差异基因GO富集分析图形化展示如下:



图9 差异表达基因GO富集柱状图


5.2 差异表达基因的KEGG 富集分析
应用GO富集原理同样可以得出具有富集功能的KEGG pathway。

差异基因KEGG富集分析结果如下:


表头说明:





差异基因KEGG富集分析图形化展示如下:


图10 差异表达基因KEGG富集柱状图


同时报告中会给出Pathway通路图,包括网页文件及静态JPG,单击可访问KEGG中相应的基因说明页面。



图11 差异表达基因KEGG富集柱状图


Illumina mRNA测序数据分析结果信息由上海伯豪生物技术有限公司为您提供,如您想了解更多关于Illumina mRNA测序数据分析结果报价、型号、参数等信息,欢迎来电或留言咨询。

注:该产品未在中华人民共和国食品药品监督管理部门申请医疗器械注册和备案,不可用于临床诊断或治疗等相关用途

移动版: 资讯 Webinar 服务谱

Copyright ©2007-2022 ANTPEDIA, All Rights Reserved

京ICP备07018254号 京公网安备1101085018 电信与信息服务业务经营许可证:京ICP证110310号