密码子使用偏好性

上一篇 / 下一篇  2012-10-30 16:12:52

密码子数据库及密码子偏好性分析

摘要: 转基因研究中经常要进行基因的异源表达,在翻译过程中,受体物种对外源基因密码子的翻译效率对表达有非常大的制约。因此,利用相应的生物信息学数据库及软件对目标序列进行受体物种的密码子偏好性分析将有助于完成对转基因效率的评价,适当选择合适的受体物种进行高效、可行的表达。在众多的分析工具中,用于密码子使用统计的Codon Usage Database数据库及用于密码子偏好性分析的Graphical codon usage analyse是最为常用的软件系统,本文将以二者为例对密码子数据库及密码子偏好性分析进行简要的介绍。
关键词:转基因 异源表达 密码子偏好性 生物信息学

一:密码子使用统计数据库
Codon Usage Database(http://www.kazusa.or.jp/codon/ 是由植物基因研究第一实验室(The First Laboratory for Plant Gene Research)Kazusa DNA Research Institute的Yasukazu Nakamura博士开发的生物密码子表的利用情况统计。数据来源于GenBank的DNA序列数据库,是GenBank的Codon Usage Tabulated数据库在WWW模式下的扩展和整合。每个物种的密码子使用情况都可以通过WWW方式以网页的形式进行分析查询。
在该数据库中29,311个物种的不同形式的密码子使用情况被统计,包含1,756,171 个全长编码区序列。该数据库的数据来源于NCBI GenBank的Flat File[December 19 2005]. 在数据库的编写过程中,GenBank中的pri (primate sequence entries), rod (rodent sequence entries), mam (other mammalian sequence entries), vrt (other vertebrate sequence entries), inv (invertebrate sequence entries), pln (plant sequence entries), bct (bacterial sequence entries), vrl (viral sequence entries) and phg (phage sequence entries) 文件类型所代表的数据被采用,而EST,pat (patent sequence entries), rna (Structural RNA sequence entries), sts (STS: sequence tagged site sequence entries), syn (synthetic and chimeric sequence entries) and una (unanotated sequence entries)文件类型所代表的数据被舍弃。另外,编码区序列(complete sequenced protein coding genes)被采用,但测序数据中包含的不明确碱基所代表的密码子被排除。
数据库的使用方法:
该数据库可以对物种的拉丁名进行密码子使用情况的搜索,但数据库的搜索是不支持英文别名的。比如对于酵母密码子的搜索,要用其拉丁名Saccharomyces cerevisiae,而”yeast”的搜索结果显示为零。另外,数据库对物种也进行了字母排序的统计,同样对酵母,进入S起始的“字典”里可以找到。对于线粒体、叶绿体的密码子使用情况,数据库同样给出了汇总整理。
以Saccharomyces cerevisiae的密码子使用统计搜索为例,返回结果为
Saccharomyces cerevisiae [gbpln]: 14288
Saccharomyces cerevisiae killer virus M1 [gbvrl]: 1
Saccharomyces cerevisiae var. diastaticus [gbpln]: 4
Saccharomyces cerevisiae virus L-A [gbvrl]: 4
Saccharomyces cerevisiae virus L-BC [gbvrl]: 1
mitochondrion Saccharomyces cerevisiae [gbpln]: 89
其中第一个为我们所要的酵母的密码子使用情况统计,它在统计过程中参考了14288个CDS,其链接如下:
Saccharomyces cerevisiae [gbpln]: 14288 CDS's (6465088 codons)
________________________________________
fields: [triplet] [frequency: per thousand] ([number])
________________________________________
UUU 26.1(168775) UCU 23.4(151438) UAU 18.8(121495) UGU 8.1( 52260)
UUC 18.4(119114) UCC 14.2( 91850) UAC 14.8( 95577) UGC 4.8( 30777)
UUA 26.2(169106) UCA 18.7(120621) UAA 1.0( 6722) UGA 0.7( 4290)
UUG 27.2(175659) UCG 8.6( 55453) UAG 0.5( 3261) UGG 10.4( 67292)

CUU 12.3( 79344) CCU 13.5( 87427) CAU 13.7( 88416) CGU 6.4( 41509)
CUC 5.4( 35146) CCC 6.8( 43975) CAC 7.8( 50319) CGC 2.6( 16766)
CUA 13.4( 86423) CCA 18.2(117957) CAA 27.3(176427) CGA 3.0( 19326)
CUG 10.5( 67725) CCG 5.3( 34258) CAG 12.1( 78500) CGG 1.7( 11280)
AUU 30.1(194778) ACU 20.2(130796) AAU 35.7(230875) AGU 14.2( 91537)
AUC 17.1(110835) ACC 12.7( 82141) AAC 24.9(160782) AGC 9.7( 62908)
AUA 17.8(115045) ACA 17.8(114774) AAA 41.9(270571) AGA 21.3(137700)
AUG 21.0(135823) ACG 8.0( 51640) AAG 30.8(199364) AGG 9.2( 59768)

GUU 22.0(142417) GCU 21.2(136804) GAU 37.6(242880) GGU 23.9(154471)
GUC 11.7( 75894) GCC 12.6( 81452) GAC 20.2(130681) GGC 9.8( 63318)
GUA 11.8( 76018) GCA 16.2(105001) GAA 45.6(294953) GGA 10.9( 70558)
GUG 10.8( 69512) GCG 6.2( 40093) GAG 19.2(124242) GGG 6.0( 38969)
________________________________________
Coding GC 39.78% 1st letter GC 44.58% 2nd letter GC 36.63% 3rd letter GC 38.12%
统计的是每1000个碱基中其特定密码子出现的频率,比如GCU 21.2(136804)代表GCU密码子在mRNA中出现频率为21.2‰,在所统计的14288CDS中共出现了136804次。在网页的下面显示List of codon usage for each CDS 的链接,是对每个CDS的密码子使用统计。
从数据的可读性考虑,PrimerX编写了Codon Usage Analyzer在线密码子统计表处理软件(http://bioinformatics.org/codon/cgi-bin/codon.cgi),它使得对密码子的统计用图表的形式显示出来,更加的直观可读。对于上例中的密码子使用情况统计表,处理后的形式为:
Amino Acids Codons
1 2 3 4 5 6
A Ala Alanine GCU (21.2) GCA (16.2) GCC (12.6) GCG (6.2)
C Cys Cysteine UGU (8.1) UGC (4.8)
D Asp Aspartic acid GAU (37.6) GAC (20.2)
E Glu Glutamic acid GAA (45.6) GAG (19.2)
F Phe Phenylalanine UUU (26.1) UUC (18.4)
G Gly Glycine GGU (23.9) GGA (10.9) GGC (9.8) GGG (6.0)
H His Histidine CAU (13.7) CAC (7.8)
I Ile Isoleucine AUU (30.1) AUA (17.8) AUC (17.1)
K Lys Lysine AAA (41.9) AAG (30.8)
L Leu Leucine UUG (27.2) UUA (26.2) CUA (13.4) CUU (12.3) CUG (10.5) CUC (5.4)
M Met Methionine AUG (21.0)
N Asn Asparagine AAU (35.7) AAC (24.9)
P Pro Proline CCA (18.2) CCU (13.5) CCC (6.8) CCG (5.3)
Q Gln Glutamine CAA (27.3) CAG (12.1)
R Arg Arginine AGA (21.3) AGG (9.2) CGU (6.4) CGA (3.0) CGC (2.6) CGG (1.7)
S Ser Serine UCU (23.4) UCA (18.7) UCC (14.2) AGU (14.2) AGC (9.7) UCG (8.6)
T Thr Threonine ACU (20.2) ACA (17.8) ACC (12.7) ACG (8.0)
V Val Valine GUU (22.0) GUA (11.8) GUC (11.7) GUG (10.8)
W Trp Tryptophan UGG (10.4)
Y Tyr Tyrosine UAU (18.8) UAC (14.8)
STOP UAA (1.0) UGA (0.7) UAG (0.5)
二:密码子偏好性分析
对于密码子偏好性的分析,有Correspondence Analysis of Codon Usage软件分析程序(http://codonw.sourceforge.net//)和graphical codon usage analyser在线分析软件(http://gcua.schoedl.de/faq/faq.php?on=cut)。而对于E. coli,由于其作为发酵工程表达蛋白的最主要的手段,因此Morris Maduro博士针对E. coli开发了E. coli Codon Usage Analyzer(http://www.faculty.ucr.edu/~mmaduro/codonusage/usage.htm),目前的版本为V2.1,它对于在E. coli中异源蛋白的表达效率给出了很好的建议。而由于graphical codon usage analyser的直观性和方便性,在密码子偏好性分析中得到了广泛的应用。下面就重点介绍以图形形式进行密码子偏好性分析的graphical codon usage analyser系统。
Graphical codon usage analyser是由***科学家Thomas Schödl开发设计的以图形形式对异源基因表达的密码子使用分析,用以帮助异源基因表达时对异源基因进行改造,以适应受体物种,避免由于翻译时密码子使用情况的限制使受体物种对外源基因表达产生负面影响。
Graphical codon usage analyser有三大方面的功能。它们完成了对特定序列的异源表达密码子使用情况的统计以及不同物种密码子使用情况间的比较。它与Codon Usage Database 联合使用,可以完成对Codon Usage Database 中已存在的所有物种的密码子偏好性的分析。
1. each triplet position vs. usage table的功能是针对输入的特定序列进行异源表达分析的。在交互式的选择界面中输入你分析序列的名称、其来源物种以及DNA序列,然后选择要进行异源表达的物种,系统即返回表达时针对每一个密码子进行翻译的效率。以GFP蛋白为例,其在A. victoria 的表达情况的部分图示如图一。


我们看到其翻译时密码子的使用效率非常的低,所以可以通过序列改造的方式对序列进行编辑。或者通过在高效表达受体中表达。上图即是该基因在C. reinhardtii中的表达情况,我们看到通过选用C. reinhardtii进行表达,其翻译的效率得到明显的提高。
2. each codon vs. usage table的功能是针对输入的特定序列,其不同的氨基酸所对应的密码子在来源物种及异源物种中出现的情况的比较。操作方式同上。同样对GFP蛋白来说,部分比较图如图三所示,可以看到针对Ala和Arg其在来源物种A. victoria及异源物种C. reinhardtii中不同密码子的使用频率统计。经统计分析,两物种密码子使用的差异为32.56。


3. compare two usage tables的功能则不是针对特定基因序列的,而是把两个不同物种的密码子使用频率进行对比,估计其总体翻译效率的差异。在交互式的选择中,只要指定两种想要比较的物种,即可得到其数据。例如对H. sapiens 和 E. coli之间的比较(见图四)我们看到其效果如each codon vs. usage table的结果。Ala的GCA密码子使用频率在H. sapiens为23%,而E. coli为21%。但与each codon vs. usage table不同的是这时对大量基因的统计的总体效果。
另外,Graphical codon usage analyser所提供的物种仅是最常用的物种,对于其他物种,可以利用Codon Usage Database进行其密码子使用情况统计的及时生成进行http添加。具体方式是利用Codon Usage Database找到你想用的物种的密码子表(例如Saccharomyces cerevisiae为http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=Saccharomyces+cerevisiae+[gbpln] 然后在Format:中选择1. Standard 并选择A style. like CodonFrequency output in GCG Wisconsin PackageTM 进行提交,对于得到的网页的链接(http://www.kazusa.or.jp/codon/cgi-bin/showcodon.cgi?species=Saccharomyces+cerevisiae +%5Bgbpln%5D&aa=1&style=GCG)复制到Graphical codon usage analyser的分析系统里originating organism的Not listed的空白框里即可。
三、使用心得
在实际的使用过程中发现利用Codon Usage Database和Graphical codon usage analyser连用,可达到非常强大的异源表达蛋白翻译效率的估算。经验上认为,对于以水稻为代表的单子叶植物,其GC含量高,较双子叶植物及细菌等物种来说,密码子偏好性强,更不容易进行针对非单子叶植物的异源表达。而相比之下,双子叶植物在该问题上则不存在翻译效率上的问题。由于单子叶植物组培体系的周期长、效果差,水稻功能基因的挖掘及其在双子叶植物中的表达以成为必然,然而对于表达过程中的效率以及表达鉴定等方面的问题的困扰,可以通过密码子偏好性分析并从中找到答案

TAG:

 

评分:0

我来说两句

显示全部

:loveliness::handshake:victory::funk::time::kiss::call::hug::lol:'(:Q:L;P:$:P:o:@:D:(:)

日历

« 2024-06-15  
      1
2345678
9101112131415
16171819202122
23242526272829
30      

数据统计

  • 访问量: 2524
  • 日志数: 62
  • 建立时间: 2011-08-27
  • 更新时间: 2015-11-02

RSS订阅

Open Toolbar