关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

TLP基因家族的系统发生分析

2019.4.20

实验概要

本实验分别从拟南芥、水稻和杨树基因组中鉴定出了11, 14和11个TLP基因。通过系统进化树分析了这三个植物物种中TLP基因的进化关系。通过分析TLP基因的染色体位置分析了在三个物种中的基因重复扩张的模式。利用针对进化距离的相关分析对F-box和TUB结构域的协同进化规律进行了分析。通过非同义替换率和同义替换率(Ka和Ks)的分析估计了重复基因在复制后经历的环境选择压力。

实验原理

类Tubby蛋白质(Tubby-like proteins TLP)在动物中是一个较小的基因家族,但是在动物生长发育中起到非常重要的作用,主要表现在对神经细胞的维持和功能等方面。该基因家族成员首先在肥胖的小鼠中通过图位克隆的方式分离出来的,并将该基因命名为TUB。此后,在人类和小鼠的基因组中,除了该基因之外,还各自发现了3个与该基因高度同源的基因,分别是TULP1, TULP2和TULP3。动物中类Tubby蛋白质的典型特征是在其C-末端具有一个高度保守的TUB结构域,该结构域具有大约270个氨基酸残基的长度,但是其N-末端的序列是高度分歧的。到目前为止在动植物等许多多细胞生物中发现了该基因家族成员。但是植物中的TLP基因编码的蛋白质序列大部分含有两个结构域,即除了在其C-末端具有高度保守的TUB结构域之外,在其中部偏N-末端的位置还具有高度保守的F-box结构域。植物基因所编码的蛋白质序列中很多是包含F-box结构域的,而大部分具有F-box结构域的植物蛋白质往往在其C-末端含有一个到几个蛋白质与蛋白质交互作用的结构域,如富含亮氨酸的重复区段(Leu-rich repeat,LRR), kelch重复、四肽重复(tetratricopeptide repeat, TPR)和WD40重复等虽然动物和植物的TLP蛋白质中的结构域结构有所不同,但是均具有高度保守的TUB结构域。TUB结构域在不同的物种中表现出高度保守性的特征表明其在多细胞生物中具有重要的生理功能。

实验步骤

1. 数据库搜索

为收集拟南芥、水稻和杨树三个物种基因组中所有的TLP基因,本研究通过相似性搜索对多个数据库进行了搜索。首先,利用TUB结构域的一致性序列,通过BLASTP对TIGR拟南芥数据库(The TIGR Arabidopsis thaliana database http://www.tigr.org/tdb/e2k1/athl/),TIGR水稻注释数据库(the TIGR rice annotation database http://www.tigr.org/tdb/e2k1/osal/),和JGI杨树基因组注释数据库(JGI Populus trichocarpa v1.1 Home http://genome.jgi-psf.org/Poptr1-1/Poptr1-1.home.html)进行了搜索。此外,利用Blastp和Blastn对NCBI和SWISS-PROT的数据库进行了搜索。若检索出的蛋白质序列符合E < 10-l0,则将其作为候选蛋白质序列。然后,利用Pfam工具对候选蛋白质序列进行检索,若存在TUB结构域,则将其作为该蛋白质家族成员。新检索出的蛋白质序列继续作为检索序列搜索以上数据库,直到没有新的序列检出为止。拟南芥和水稻的TLP基因的基本信息来自于TIGR数据库,并从该网站下载相应的序列;而杨树的TLP基因的信息来自于JGI Populus trichocarpa数据库,并从该网站下载相应的序列。

2. 序列分析

TLP蛋白质序列的多序列联配采用Clustal X 1.83软件进行,并利用Genedoc软件(http://www.nrbsc.org/gfx/genedoc/index.html)显示多序列联配的结果。将Clustal多序列联配的结果输出到MEGA 4.0软件中,并利用MEGA软件分别构建了邻接树(neighbor-oining, NJ)、最小进化树(minimum evolution, ME)和最大吝啬树(maximum parsimony, MP,并利用Bootstrapping方法对这些进化树进行了评估。通过MEME软件鉴定TLP蛋白质序列中保守性的基序(motif),除了发现基序的数目定义为10个和基序长度定义为6-200氨基酸之外,其余参数为默认。

3. 协同进化分析

植物的TLP同源蛋白质序列中大部分包含两个高度保守的结构域,分别是F-box结构域和TUB结构域,这两段结构域序列之间的连接序列也是高度保守的F-box和TUB结构域在大部分植物TLP家族成员中的保守性特征,说明这两段结构域序列在长期的进化过程中很可能是协同进化的。为了验证这一假设,本研究中对这两段结构域序列之间的进化距离进行了分析,并通过相关分析估计其协同进化的规律。首先将包含F-box和TUB结构域的蛋白质序列分成四段:N-末端、F-box结构域、结构域间的序列和TUB结构域。由于N-末端的序列比较短,而且分歧性较大,所以本研究中仅仅采用了后三段序列。所有蛋白质的F-box结构域、结构域间的序列和TUB结构域序列分别利用ClustalX进行多序列联配,并利用MEGA软件计算了多序列联配中两两之间的进化距离。得到了序列之间的进化距离之后,利用SAS软件计算了F-box结构域、结构域之间序列和TUB结构域三段序列之间两两的相关系数r。对0显著的正相关系数r表示结构域之间是正协同进化关系;对0不显著的相关系数表示结构域之间不存在协同进化关系;对0显著的负相关系数表示结构域之间是负的协同进化关系。

4. TLP基因的扩张模式分析

植物基因组中最重要的两种基因扩张模式为串联重复和长片段的重复。串联重复指的是同一家族的基因出现在染色体的同一区段或相邻区段。而片段重复通常表现为一大片段区域中所有基因的重复,而不是单个基因或少量几个基因的重复。本研究中利用Gramne对基因组注释的结果将拟南芥和水稻中获得的TLP基因定位在染色体上,而杨树中的TLP基因通过JGI Populus trichocarpa v1.1Home中的信息定位到染色体上。若在同一区段出现的TLP基因则被认为是通过串联重复形成的。对片段重复方式的研究,首先我们在系统发生树上鉴定出水稻的旁系同源基因。其次我们分别查找到这一对旁系同源基因上游和下游各10个编码蛋白质的基因,该项是根据Gramme和JGI数据库的注释结果进行的。最后,通过Blast查找这一对旁系同源基因的上游和下游是否存在其他的旁系同源基因,若还存在其他的旁系同源基因,则表明这对同源基因起源于片段重复事件。

5. Ka和Ks的计算及重复事件发生时间的估计

拟南芥、水稻和杨树中的的旁系同源的TLP基因推断来自于系统发生树。利用Clustal X软件对成对的旁系同源基因的编码序列进行多序列联配,以蛋白质的联配的序列作为联配的向导,将其中的空隙去除。然后利用K-estimator 6.1软件来计算同源基因的Ka和Ks。

为对植物中的TLP基因家族的物种特异性进化做进一步分析,本研究估计了与TLP基因相关的片段重复事件发生的时间。根据分子钟理论,重复基因间的同义替换率(Ks)在进化过程中随时间变化的规律是相似的,所以本研究中利用Ks来估算包含重复基因的片段重复事件发生的时间。计算方法为:T=Ks/2λ,其中,Ks采用的是一个片段重复中的所有同源基因的Ks的平均值,而分子替换速率(λ)则根据物种的不同而异,对拟南芥来说为1.5 x 10-8个替换/同义替换位点/年;对水稻来说是6.5 x 10-9,而杨树则是9.1 X 10-9


推荐
关闭