分析测试百科网 > 行业资讯 > 技术原理

Cystatin基因家族的生物信息学分析

2019.4.20

实验概要

半胱氨酸蛋白酶抑制剂(cystatin)基因广泛存在于植物物种中。该类基因能够起到抑制某些病原微生物和昆虫体内半耽氨酸蛋白酶的作用，在植物的防卫体系中起到重要作用。我们利用已经分离出植物cystatin基因的cystatin结构域为检索序列在基因组水平上对拟南芥和水稻中的cystatin基因家族的成员进行了鉴定和系统发生分析。

实验步骤

1. 数据库的搜索

植物中已经分离出的cystatin基因及其编码的蛋白质序列来自于对NCBI数据库的搜索。利用Pfam软件预测这些基因所编码的蛋白质序列的cystatin结构域。以所得到的这两个cystatin结构域序列为搜索对象，在TIGR中公布的国际水稻基因组计划的注释数据库(http://rice.tigr.org/tdb/e2k1 /osal /index. shtml)中搜索相似的蛋白序列，E值(expect value) ≤10^-10的序列被认为是候选蛋白。再利用Pfam软件预测这些候选蛋白的cystatin结构域，若存在cystatin结构域，则认为该候选蛋白属于cystatin蛋白家族，若Pfam未能检测出cystatin结构域，则认为其不属于该家族。利用水稻中获得的cystatin结构域序列为检索对象，在TIGR的拟南芥全基因组注释数(http://www.ti}r.org/tdb/e2k1/athl/)中检索拟南芥的cystatin候选蛋白序列，得到的候选序列同样再次利用Pfam鉴定出其cystatin结构域序列。新检出的cystatin基因继续作为检索序列，检索以上数据库，直至没有新的序列检出为止。获得拟南芥和水稻的cystatin基因信息后，从TGIR数据库中下载相应的核昔酸和氨基酸序列。

2. 序列分析

在得到拟南芥和水稻的cystatin蛋白家族的氨基酸序列后，利用ClustalX 1.83软件对该蛋白家族的氨基酸序列进行多序列联配，参数为默认。根据得到的多序列联配的保守区段，使用Bioedit对联配结果进行编辑。使用MEGA 4软件中的Neighbor-Joining方法进行系统发生树的构建，并利用Tree View 1.6.1软件显示系统发生树。利用MEME(multiple EM for motif elicitation)软件鉴定相关蛋白的基序(motif)，除发现基序的最多数目设置为50外，其余参数为默认。

3. 亚族间的功能性分歧分析

为评估该基因家族组间的功能性分歧，利用DIVERGE软件计算亚族间的I型功能性分歧系数B和似然比测验统计数。似然比测验统计数近似服从于1个自由度的卡方分布，并以此来进行统计显著性测验。显著高于0的B值表示在基因复制之后可变选择压力作用于一些氨基酸位点。

4. 适应性进化分析

本研究中利用两种方法对拟南芥和水稻cystatin基因家族的适应性进化进行分析。首先利用Creevey-McInerney的方法确定系统进化树中经历适应性进化的分枝，该分析是通过CRANK程序进行的。其次利用Yang和Nielsen的方法对系统发生树的每一分枝分别计算非同义替换率和同义替换率的比值(d_N/d_S)，d_N/d_S的计算通过两个模型来实现，分别是单个比值模型(one-ratio model)和分枝模型(free-ratio for branches，并经过似然比测验来确定适合的模型。

5. 基于EST的基因表达分析

拟南芥和水稻的EST数据来源于Genbank的EST数据库。通过对拟南芥和水稻的cystatin基因的编码序列(CDS)作为检索序列，检索NCBI的EST数据库，取匹配率大于95、长度大于160bp并且E≤10^-10。的结果作为对应的EST序列，对相匹配的EST的结果按组织器官的来源进行分类，从而获得拟南芥和水稻中的cystatin基因家族成员的表达信息。

基因

Everlab云端实验室

喜欢作者我要约稿