蛋白质组学研究的数据库和知识资源

上一篇 / 下一篇  2008-03-12 00:39:23/ 个人分类:蛋白质组相关技术

Matthew E. Crawford, Micahael E.Cusick, James I. Garrels
Proteomics: A Trends Guide,July, 2000
随着模型有机体和人类的基因组的完全测序,人们的注意力转向了蛋白质学-蛋白质的大规模识别和定性。蛋白质组学随着强有力的新技术的出现而进展快速。蛋白质组学的数据库发展成为知识资源,提供了不同于传统形式的信息资源库。

     尽管蛋白质组学技术增加了研究的蛋白质数目,单个蛋白质的识别和定性仍然是关键的。从物理证据(比如在凝胶上的迁移或者肽段的质量)识别蛋白质成分通常是起点。在此之后出现蛋白质的全序列,通常从已知的DNA序列推知,然后作出结构和功能推测。在模型有机体诸如酵母,超过一半的蛋白质已经被功能分析,大约10%已经在至少一个实验室中被研究。然而,即使对于这些蛋白质许多功能还有待发现。
       蛋白质组学技术与传统方法不同,能够从许多蛋白质立即收集数据,增加我们关于在生理改变和疾病的每个时期的蛋白质表达、修饰、定位、翻转和蛋白质-蛋白质相互作用的知识。这里我们综述现存数据库和知识资源,展示如何从物理数据识别蛋白质、蛋白质的识别如何获得序列以及如何从序列分析预测结构和功能。最后,我们讨论模型有机体数据库,它提供了蛋白质功能的更多线索,以及蛋白质组数据库,它帮助研究者根据发表的研究文献所含的知识积累分析蛋白质组数据。

从实验数据识别蛋白质

      今天的主要技术是二维凝胶电泳(2DE)和质谱(MS)。两种方法都是通过物理参数分辨蛋白质和肽段。在将来,更多的蛋白质可以通过蛋白质芯片上的亲和力因素直接识别,蛋白质芯片是一个与DNA 微阵列技术相似的方法,目前被用于定量mRNA表达。所有的蛋白质组分析的方法都需要数据库完成识别。

    2DE技术通过大小和电荷分析蛋白质。在仔细的标化条件下,单是凝胶上的位置就足够识别一些蛋白质。SWISS-2DPAGE,一个在ExPASy服务器上的数据库,为在2D凝胶上预测蛋白质迁移提供了许多标化的凝胶图象和工具。比较已知细胞类型或组织的凝胶和SWISS-2DPAGE的图象集可以帮助识别关键标志物,但是实际上详细的比对低到中等丰度的蛋白质有困难,除非凝胶在同一实验室中在严格控制的条件下跑胶。其难度是由于蛋白质样品本身的变化性、样品制备的不可重复性以及任何凝胶系统不能完全分辨样品中的所有蛋白质。MS有希望帮助排除凝胶对凝胶方式比对的需要。

       MS彻底改革了蛋白质组学。可以从凝胶分离的蛋白质酶解肽段获得高度精确的质量,在有有效的数据库情况下它们就足够进行蛋白质识别。通过肽段质量识别蛋白质的资源包括ExPASy的PeptIdent工具、PROWL的PepFrag、Protein Prospector的MS-FIT和MA-TAG以及SEQUEST。这些资源包括从已知和预测的蛋白质序列的理论摘要编辑的肽段数据库。通过肽质量识别蛋白质被证明足够有力来识别单一样本的多个蛋白质,有时能够直接分析纯化的蛋白质复合体。

       通过肽质量识别蛋白质需要进入一个蛋白质序列数据库.最常用的数据库是SWISS-PROT、TreEMBL和美国的国立生物技术信息中心(NCBI)的蛋白质序列非重复(nr)集合。SWISS-PROT是一个ExPASy服务器上的蛋白质序列的注解的集合;TrEMBL是一个给以自动注解的蛋白质预测序列的大集合,直到它们完全注解后并进入SWISS-PROT;NCBI nr数据库含有整个GenBank保存的DNA序列所翻译的蛋白质序列以及PDB、SWISS-PROT和PIR数据库里的蛋白质序列。蛋白质序列数据库也提供额外的信息,包括简要的功能描述(如果已知)、序列特征(比如修饰信号)的注解、二级和三级结构的预测、关键参考文献和与其它数据库的链接。

       蛋白质功能的探索起自序列。如果蛋白质已经充分了解的,它的功能通常可以从序列数据库的条目以及一些关键文献中确定。如果蛋白质没有充分了解或者是完全不了解,仍然可以从相关蛋白质的分析获得其功能的线索。BLAST分析生成了紧密相关蛋白质的列表,其中的一些可能已经被定性;如果序列比较扩展到全长,相似的功能能够被预测。比对的更短的区域可能显示保守的结构域,它们本身就提供了功能的线索。

       BLAST所新添的程序允许在更短区域进行更敏感的搜索。图谱反复搜索的BLAST(PSI-BLAST)允许从BLAST搜索结果衍生的蛋白质比对结果相互作用构建图谱。然而必须小心对待PSI-BLAST,因为即使加入一个不相关的序列到比对中也会产生图谱的偏移。模式命中诱导的BLAST(PHI-BLAST)允许使用使用者构建模式的数据库搜索。在ExPASy和在NCBI获得的工具允许灵活地应用BLAST和结构域分析,并链接到相关的数据库和文献。

从序列进行功能预测

       BLAST分析是序列比对的强有力工具但是应用到功能预测上可能不精确。BLAST结果从比对的长度和比对区域的相似性获得。必须注意不能将一个蛋白质的描述简单地转移到另外一个相关的蛋白质上,该蛋白质可能只是享有一个共同但是高度保守的结构域。DNA序列数据库中的功能注解有时是误导的,因为提交者拷贝了基于共享结构域的功能注释,而它们对全长蛋白质的功能是偶然的。如果反复拷贝到数据库中,这些错误会导致"注解灾难"。

       大多蛋白质含有多个结构域,而描述与这些结构域相关的功能对于蛋白质注解是关键的。幸运的是现在已经有了结构域分析有效的数据库和工具。最早的是PROSITE,是SWISS-PROT的伙伴数据库。这个数据库将结构域和基元做成序列一致模式的图表并提供了优秀的注解。其它结构域数据库包括Pfam、BLOCK、ProDOM、PRINT和SMART。它们提供不同的算法生成许多不同类型的图谱(隐藏的Markov模式、签名、指纹或者模块)用统计学定义结构域。

      为了增强这些结构域数据库的功能,一个叫做InterPro的协会将它们其中的一些结合成为一个统一的形式。InterPro允许所有成员数据库用关键词或者序列(用近来补充的InterProScan) 同时进行搜索并呈现统一的、非重复的注解。InterPro目前代表结构域分析最完全的资源,但是SMART也可以被推荐。SMART包含的结构域要少(与InterPro的3000个相比只有400个),但是这样能够将更多的注意力投到这些结构域的功能注解上。另外,SMART有InterPro或其它结构域数据库所没有的特点,诸如结构域的分类分布,通过结构域结构(按照一个固定的顺序排列结构域)以及结构域组成(含有同样的结构域而不管它们的次序)搜索。

       现在已经有了结构预测的可靠算法。尽管只从原始序列的预测仍然不可靠,但是蛋白质穿线方法(基于一个相关蛋白质的已知结构预测结构)经常证明在蛋白质定性中证明有帮助。相关蛋白质享有共同的结构因此当一个蛋白质家族中的一个成员的结构确定后它允许预测同一家族中其它蛋白质的结构。因为结构分析算法是计算机密集的,大多公共搜索网址依赖于储存的、预先计算好的搜索。一个这样的资源是蛋白质数据库的中间序列文库(PDB-ISL)。基于SCOP(蛋白质的结构分类)中的手工定义的结构分类,PDB-ISL使得研究者能够发现与那些与已经解决结构的蛋白质在结构上相关的蛋白质。结果是与查询序列的特殊区域相对应的折叠列表(一系列特殊排列以及有特殊关联的二级结构)。通过检测这个列表可以发现有关该蛋白质可能结构的线索。尽管蛋白质穿线方法在此综述范围之外,结果可能是印象深刻的、特别是查询和模板序列之间的相同程度高的时候。如果序列等同小于30%,结果就不可靠需要小心。

       3DCrunch网址含有来自SWISS-PROT和TreEMBL记录的理论模型。如果一个兴趣蛋白质不在SWISS-PROT或者3DCrunch中,在ExPASy的SWISS-MODEL网址提供基于符合PDB结构作为模板的结构基础上的建立蛋白质模型的工具。另外一个发现理论模型的有用的数据库是MODBASE,它含有对应于大约17000个蛋白质的模型,包括几近完整的酿酒酵母的蛋白质组。酵母蛋白质结构资源在酵母基因组数据库网址可以作为Sacch3D获得。3维模型突出强调对于结构和功能最为关键的氨基酸,通过聚焦这些关键残基允许蛋白质的比对。这些改进的比对允许评估那些仅仅用BLAST比较认为不显著的远处的相似。理论上和同源性为基础的蛋白质-结构模型的精确性因为正在进行的"结构基因组学"变得可行应该进一步增高。

      一个结构为基础搜索的特征是可以识别结构相似而不享有相同演化祖先的蛋白质。如果一个注解的蛋白质与兴趣蛋白质相似就值得检查是否是通过趋同进化各自独立演化而来。在NCBI上结构报告上的预先计算的载体比对搜索工具(VAST)比对允许快速链接到结构邻居,其方式类似于NCBI核酸或蛋白质报告所能获得的与蛋白质或核酸邻居的链接。到一个结构报告的最快的途径是在PDB数据库进行目的蛋白质的BlastP搜索并查看作为结构报告的结果。

     分析决定蛋白质最终亚细胞定位的分类信号能够辅助蛋白质功能的理解。PSORT II是最近版本的算法,它用统计学估计序列中一些模式的存在情况(诸如N末端信号序列、核定位信号、跨膜片断和卷曲结构)从而预测蛋白质的亚细胞定位并产生一个积分指示该预测的可靠性。

用模型有机体和文献数据库的功能分析

      模型有机体蛋白质的生物化学和遗传学定性已经提供了一些个体蛋白质、蛋白质复合体以及蛋白质通路功能的深入理解。因为出现了许多在模型有机体和人类之间存在保守蛋白质功能的例子,模型有机体诸如酵母、线虫和果蝇的功能被加强了。已经建立了这些模型有机体的完善的数据库支持不同科研团体的需要以及其它领域需要模型有机体信息的研究者的工作。

        酵母基因组数据库(SGD)、WormBase/AceDB (C.elegans)和FlyBase(黑腹果蝇)是杰出的例子。这些数据库将每个有机体详尽的突变分析分类变成目录,通常允许描述蛋白质功能细致到个别的氨基酸。这些数据库随着每个基因组计划的完成将逐渐提供功能基因组实验的检索和目录。可以获取系统的基因敲除、DNA微阵列研究和酵母大规模蛋白质相互作用研究的信息并注解扩展到其它有机体。尽管模型有机体数据库有不同的形式因而对于其它领域的研究者使用起来有困难,然而它们仍然是理解蛋白质功能的优秀资源。

        考虑到生物文献的巨大数目,一个(仍未意识到的)希望是从生物文本中知识的自动提取,其最终将使功能分析更加容易。除了机器判读文本所呈现的明显的困难外,存在的一个事实是机器搜索只有摘要和标题可以获得而没有全文。尽管电子出版的进步最终将使全文普遍而价廉地获得,而这一天目前还没到来。摘要由于它的体积小必然限制了其所传送的功能详细情况,许多主要杂志的长幅文章加重了该限制。另外还有一个"Babel塔"问题-相同的条件能够代表大量不同的生物概念以及相同的概念能够被众多不同的条件所描述。考虑到有经验的研究者在克服Babel塔所遇到的困难,对于机器来说前途似乎显得渺茫。

         数十年来遗传学、生物化学、细胞生物学和医学研究所积累的实验文献为数庞大。蛋白质组学研究者每个实验都获得几百个新蛋白质,没有时间对于每个蛋白质都作广泛的文献搜索。对已经测序的模型有机体的蛋白质文献详尽而综合的管理强调了这个问题。出芽酿酒酵母的酵母蛋白质组数据库(PombePDTM)、线虫的C.elegans蛋白质组数据库(WormPD TM)以及分裂酵母的裂殖酵母菌蛋白质组数据库(PombePD TM)以统一的形式从超过20000个研究文献中呈现全文实验结果。每个蛋白质报告都是含有做成表格形式的蛋白质性质(定位、功能分类等)以及载有更复杂实验结果的网页。在线工具和链接允许从每个蛋白质漫游到其它物种的同源物。这些数据库总称为BioKnowledgeTM文库延伸到其它模型有机体和人类将产生一个功能强大的知识资源,它将对解译来自众多物种的比较基因组、功能基因组和蛋白质组的结果有用。酵母的许多功能基因组研究已经能够在YPD范围内读出和解译。

结论

       蛋白质组学将最终产生远远超出DNA序列数据库所储存的数据。人类和模型有机体的蛋白质完全分类以及建立知识资源方便进入蛋白质功能的综合知识对于蛋白质组学的前进是至关重要的。因为蛋白质组学的目标是全面了解蛋白质以及因为每个细胞类型所表达的蛋白质不同,蛋白质组的探索将需要在很长的时间里建立数据以及知识管理的新的和创新性的资源。


TAG: proteome数据库知识资源蛋白质组

 

评分:0

我来说两句

显示全部

:loveliness::handshake:victory::funk::time::kiss::call::hug::lol:'(:Q:L;P:$:P:o:@:D:(:)

Open Toolbar