分析测试百科网 > 行业资讯 > 技术原理

核酸和蛋白质序列分析-2

2020.9.14

（2）输出：除了以文本形式外，还可以通过JalView显示和编辑结果。此外，还可以另外使用GeneDoc（常见于文献）及DNAStar软件等显示结果。多序列比对的结果还用于进一步绘制进化树。

3、ORF(Open Reading Frame)分析

从核酸序列翻译得到蛋白质序列，需要进行ORF分析，每个生物信息学分析软件包几乎都带有翻译功能。推荐使用NCBI的ORF Finder（http://www.ncbi.nlm.nih.gov/gorf/gorf.html）软件或EMBOSS中的 getorf（http://bioinfo.pbi.nrc.ca:8090/EMBOSS/）软件。ORF Finder 以图形方式，分为正链+1、＋2、＋3和反链＋1、＋2、＋3六个相位预测ORF；Getorf可指定预测ORF的长度下限和指定预测正反链。进行ORF 分析虽然比较简单，但应注意以下几点：

（1）序列的准确性：尤其是通过计算机拼接的序列，需要根据EST和基因组序列进行反复校正。

（2）ORF是否完整：看在ORF上游同一相位是否具有终止码，或者具有起始密码子。

（3）参考Kozak一致性规律，即起始密码子位点符合A/GCCATGG。

（4）不要忽略反义读框。

4、染色体定位

根据基因组图谱对序列进行染色体定位和浏览其基因组上下游基因。具体方法为：（1）进行Genomic BLAST搜索。（2）通过“Genome view”观察基因组结构。（3）点击相应染色体区域，通过表意图（ideogram）和相应区域上下游的基因进行精确定位。

5、基因结构分析

根据基因的mRNA序列及基因组序列，可以进行基因结构的分析。推荐使用BLAST或BLAT(http://genome.ucsc.edu/cgi-bin/hgBlat?command=start) 进行分析。由于真核生物转录后内含子将被剪切，因此将mRNA和基因组进行比对以后，会发现mRNA的每个外显子与基因组序列片断匹配，根据这些片段可以判断外显子的数目和大小。外显子和内含子具体边界的确定，可以参考GT/AG一致性规则。BLAT的结果直接显示外显子数目、大小及边界。

6、基因上游调控区分析

（1）启动子预测：推荐使用冷泉港开发的FIRSTEF程序（http://rulai.cshl.org/tools/FirstEF/）进行启动子预测。用RT-PCR等实验方法获得的mRNA往往缺少完整的 5’端，采用FirstEF 程序可以对第一外显子（尤其是非编码的第一外显子）和CpG相关启动子进行预测。

方法：以FastA格式输入起始密码子上游序列。

（2）转录因子结合位点分析：推荐使用TFSEARCH程序（http://www.cbrc.jp/research/db/TFSEARCH.html）及MATCH程序

（http://www.gene-regulation.com/pub /programs.html#match）对转录因子数据库TRANSFAC（http://transfac.gbf.de/TRANSFAC/）进行搜索，寻找可能的转录因子结合位点。

方法：输入起始密码子上游序列。结果将给出很多可能的转录因子结合位点，注意选择其中分值较高的位点。

（二）蛋白质序列分析

1、跨膜区预测

各个物种的膜蛋白的比例差别不大，约四分之一的人类已知蛋白为膜蛋白。由于膜蛋白不溶于水，分离纯化困难，不容易生长晶体，很难确定其结构。因此，对膜蛋白的跨膜螺旋进行预测是生物信息学的重要应用。

推荐使用TMHMM软件（http://www.cbs.dtu.dk/services/TMHMM/）对蛋白进行跨膜预测。TMHMM综合了跨膜区疏水性、电荷偏倚、螺旋长度和膜蛋白拓扑学限制等性质，采用隐马氏模型（Hidden Markov Models），对跨膜区及膜内外区进行整体的预测。TMHMM是目前最好的进行跨膜区预测的软件,它尤其长于区分可溶性蛋白和膜蛋白，因此首选它来判定一个蛋白是否为膜蛋白。所有跨膜区预测软件的准确性都不超过52％，但86％的跨膜区可以通过不同的软件进行正确预测。因此，综合分析不同的软件预测结果和疏水性图以获得更好的预测结果。

方法：输入待分析的蛋白序列即可。

2、信号肽预测

信号肽位于分泌蛋白的N端，当蛋白跨膜转移位置时被切掉。信号肽的特征是包括一个正电荷区域、一个疏水性区域和不带电荷但具有极性的区域。信号肽切割位点的-3和-1位为小而中性氨基酸。

推荐使用SignalP软件2.0版（http://www.cbs.dtu.dk /services/SignalP-2.0/）对PDCD5N端序列进行信号肽分析。SignalP2.0根据信号肽序列特征，采用神经网络方法或隐马氏模型方法，根据物种的不同，分别选择用真核和原核序列进行训练，对信号肽位置及切割位点进行预测。信号肽切割位点预测用Y-score maximum来判断，对是否分泌蛋白用mean S-score来判断：如果mean S-score大于0.5，则预测为分泌蛋白，存在信号肽，但II型跨膜蛋白的N端序列可能被错误预测为分泌蛋白的信号肽。

方法：输入待分析的蛋白序列，如为原核基因选择原核训练集，否则选择真核训练集。

3、亚细胞定位预测

亚细胞定位与蛋白质的功能存在着非常重要的联系。亚细胞定位预测基于如下原理：（1）不同的细胞器往往具有不同的理化环境,它根据蛋白质的结构及表面理化特征,选择性容纳蛋白。（2）蛋白质表面直接暴露于细胞器环境中,它由序列折叠过程决定,而后者取决于氨基酸组成。因此可以通过氨基酸组成进行亚细胞定位的预测。

推荐使用PSORT（http://psort.nibb.ac.jp/）II 软件对PDCD5蛋白的细胞内定位进行预测。PSORT将动物蛋白质定位于10个细胞器：（1）细胞浆，（2）细胞骨架，（3）内质网，（4）胞外，（5）高尔基体，（6）溶酶体，（7）线粒体，（8）胞核，（9）过氧化物酶体（peroxisome）和（10）细胞膜。