生化与细胞所等在生物学通路分析方法研究中取得新成果

2011-9-15 09:34 来源: 中国科学院
收藏到BLOG

  许多基因组学的工作常常涉及到这样的问题:哪些通路可能参与了所研究的生物学过程?近年来,围绕这一问题,已经发展出了大量的生物信息学分析方法,尤其是基于基因表达谱数据的生物学通路分析方法。

  相关工作常常是利用经典的通路数据库(如KEGG,Biocarta和Gene Ontology 等)对基因表达谱数据进行统计学分析,以得到在特定的生物学过程中发生显著变化的通路。在这些方法中,用于分析的生物学通路往往被简化成一系列基因的简单集合,而忽略了特定通路中不同基因之间潜在的功能联系。这种将复杂的生物学通路简化为简单的基因集合的处理对于生物信息学分析方法的建立是非常有利的,但忽略基因之间的功能联系显然不利于更加准确地评估相关通路的改变。

  9月6日,Cell Research在线发表了中科院上海生命科学研究院生化与细胞所季红斌研究组和复旦大学生命科学学院田卫东研究组合作完成的生物学通路分析方法上的最新研究成果。该工作是博士生方兆元在两位导师的共同指导下完成的。这一工作认为,在许多生物学通路中,基因之间的相对重要性是不完全均一的,而这种不均一性是“组成型”的。该工作通过整合蛋白质相互作用数据,基因共表达数据,以及Gene Ontology通路的数据库,构建了一个全基因组水平的基因功能关联网络,并设计了一个度量生物学通路中基因相对重要性的方法。

  通过对一些已知的生物学通路进行测试的结果表明,该方法计算得到的基因权重和生物学认识是相符的;同一个基因在不同的生物学通路的权重可以不同,因此这些权重是生物学通路特异的;对基因网络的随机干扰试验表明,该方法得到的权重可以对抗相当程度的网络干扰,因而是稳定的。这些权重实际上可以和许多以前发展出来的算法相结合,产生带有基因加权的算法。在该工作中,以两种算法(MeanAbs和 GSEA)为例得到了相应的加权版本。通过一系列测试数据表明,对于包含重要性有差异的基因或者基因亚群的生物学通路,加权算法能够更好地检验这些生物学通路的显著性。

  在生物学通路分析中另外一个常常被忽视的问题是,一些通路也包含多亚基(multiple-subunit)蛋白质,按基因命名惯例,每一个亚基都有一个单独的编码基因,相应的结果是,这些信号通路中的多亚基蛋白相对于单个基因编码的蛋白来说,权重被高估了。在该工作中,通过将多亚基蛋白质作为信号通路的单一组成单位来纠正这种偏差。改良后的方法在三个独立的乳腺癌基因表达谱数据中的测试结果表明,加权算法找出来的生物学通路具有更好的可重复性。因此,这一工作表明:加权算法将有助于在生物学通路水平上更好地研究基因表达谱数据,为该课题组目前正在进行的肺癌基因组学研究奠定了坚实的基础。

  尽管过去的研究已经建立了诸多的生物信息学方法,如何更加准确地利用基因表达谱数据来寻找特定生物学过程中的通路改变仍然是一个有待解决的难题。该工作通过建立基因功能相关网络并利用其给生物学通路内部的不同基因加权,是基因表达谱数据生物学通路分析的崭新尝试。当然,由于全基因组生物学网络的数据来源依然不够充分,而且在数据的整合方面确实还存在着很多需要改进和提高的地方,今后的研究将在这些方面进一步完善。

  该课题得到了国家科技部973课题、国家自然科学基金委、中科院以及上海市科委的经费支持。