关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

穿越蛋白组学数据丛林

2008.4.10

数据处理,验证,标准和蛋白质定量都是2007年10月在韩国举行的第六届人类蛋白质组组织(HUPO)世界年度会议的主题讨论内容。

HUPO成立于2001年2月,即人类基因组首张草图公布的同一周。现在,该组织的委员会有来自19个国家的48名成员,总部位于加拿大的麦吉尔大学以及蒙特利尔的基因组魁北克创新中心。HUPO有来自69个国家的2000名组成成员。

据布鲁克·道尔顿公司的生物信息学主任Herbert Thiele称:“我们已经从生物信息学中了解了很多,我们必须处理不同的蛋白组学工作流。蛋白质组非常复杂,因此需要不同的多步方法。”通常要求电泳和液相色谱 (LC)技术与不同的MS和MS/MS方法相组合。

Thiele称:“用于数据存储和分析的任何软件解决方案,都将以一种灵活的方式处理不同的工作流。”布鲁克的蛋白质评分(ProteinScape)平台,通过一种灵活的被分析物谱系概念,支持各种发现工作流,也满足科学家在生物标记描述和定量中的需求。Thiele指出,数据库解决方案是“互相比较实验,以及基于过去的实验抽取知识”的唯一方法。

Thiele认为,定量正变得越来越重要。“所有的供应商正在努力提供定量工具。”ProteinScape完全支持当前所有为蛋白质定量的标签化学,软件将处理未来的标签技术。目前,基于原始的LC/MS数据的蛋白质定量的交互式验证,既简单又直接。

最近在MS仪器方面的改良,使得一种基于MS的非标记定量方法成为可能。该技术有望成为当前定量方法(如基于MS的标签)的一种重要补充。非标记定量方法的高流通量兼容性,允许对大批量的样本进行处理。处理这些来自数据预处理的工作流,定量结果的统计验证是一个巨大的挑战。

脑蛋白质组计划

从HUPO 2007会议上了解到的一个重要的信息是,对标准化分析方法和结果验证技术的需求。人脑蛋白质组计划是HUPO全球9大计划之一,由德国Medizinisches蛋白质组中心的Helmut E. Meyer领导。目标是采用老鼠和人样本,绘制“大脑的蛋白质组蓝图”,深入洞察神经变性疾病,形成人类大脑中的蛋白质详细目录。

脑协会为蛋白质鉴别的数据处理制定了指导方针,Thiele 认为这是“向前迈出的非常重要的一步”,使得研究人员“在巨大的蛋白组学数据的丛林中,可以对产生的所有数据比较结果,并且统计关联性”。包括一个数据处理线的数据存储系统,强制性的进行数据比较和验证。

Thiele称:“蛋白质鉴定的基本问题是,你获得了蛋白质鉴定的潜在长名单,但是,没有人告诉你哪个蛋白质是实际正确的那个。”通过把人工的蛋白质序列混合到数据库中,圈套策略可以让研究人员测量出假阳性率,对于蛋白质鉴定和定性来说,ProteinScape可以作为补充工具。使用不同的检索引擎,在改善灵敏度的情况下(导致更多的蛋白质鉴定),可以提供鉴定的自动交叉生效结果。用ProteinScape工具对合成的胎段鉴定进行分析。这样可以将来自不同搜索引擎,不同实验(ESI and MALDI)的数据进行合并,产生一个整和的结果。用圈套策略可以将手工验证的需求降到最低。

Thiele认为,在不远的将来,所有的蛋白质鉴定必将具有统计学意义,这样每个人都能判断信息的有效性。“我们需要重复性和标准化方式,在产生的结果中建立可信度”。

与基因组学研究相类似,LC/MS质谱分析技术在蛋白组学中的多样性,正在产生大量的数据,提出了生物信息学的两个主要问题。第一,我们需要数据库中的所有原始数据吗?为了解决这个问题,处理流水线必须能够压缩数据,专用的软件工具必须能验证结果。Thiele 认为:“这些工具应该能显示出所挑选的原始数据,并且与结果相关。”尤其是应用定量算法时,访问MS原始数据,必须确保原始数据中所包含的信息不会受到处理过程的干扰。

其他的数据处理问题关注的是基于不同工作流的数据可视化软件,如凝胶成像和LC/MS数据集。“对于LC/MS数据的巨大图谱,整个大量的数据库需要一个用户友好型的导航系统。”Thiele说道。“你需要可视化工具,把数据的快速多分辨率可视化作为一种图像,确保从所有光谱的整体概述到选择的同位素峰巅的无缝转变。”实例包括Gene Bio公司的Msight,以及Bruker 的SurveyViewer。

机读实验

当然,生成的大量蛋白质名单不是蛋白组学的最终目的。为了能对结果进行评估和试验比较,实验的条件必须是简明的,可重现的,并且是机器可读的方式,这一工作由欧洲生物信息研究生的蛋白组学鉴定数据库(PRIDE)完成。

Thiele表示:“最终目标是处理,分类,并且把蛋白组学数据归档到数据库中,与科学杂志的出版商一起合作,设定专门的指导方针。过去,所有的制造商拥有他们自己的文件格式,软件只在销售商的机器上运行。现在,销售商与赞助商一起参与支持数据的标准化建设。”这将帮助研究人员在一台仪器上生成数据,再用专门的软件工具将数据转化成知识。

欧盟资助的ProDaC(蛋白组学数据收集)协会将完成数据的存储和标准制定,使转换工具生效,并且建立标准化的信息提交渠道,进入到中央数据库。例如,脑蛋白质组计划已经把ProteinScape数据库文件上传到PRIDE。

从这点来看,IT在计算机的群和计算机栅格技术中都具有重要作用。不远的将来,在一个分布式的计算环境中,大规模MS数据集的自动化平行处理,联合不同位点的计算机资源,执行特殊的任务——将是最大的挑战。

金标准

另一个与HUPO有关的数据是Invitrogen公司创造的,该公司正在发起HUPO Gold Mass Spectrometry蛋白质标准抽样计划。

作为首个商业化产品,为质谱仪提供的重组人蛋白质标准,HUPO Gold MS标准是一个人蛋白质已知的确定混合体,能作为一种基准去判定数据质量,并且让研究人员相互参照他们的结果。标准与所用的质谱仪类型无关。

HUPO 科学创新主席John Bergeron表示:“随着许多质谱仪工作流的发布,加上可用的大量设备和数据分析软件包,当前研究人员面临的主要挑战是对已发表的数据进行确认和比较。”在HUPO的培训协助下,新标准将让该领域产生的数据在准确性和可重复性上做的越来越好。

Invitrogen公司的研发副总裁表示,当前的质谱仪标准,以自然遗传变异为基础,在质量上可能包含污染物或者是轻微的变化。“我们已经设计了有价值的方法,帮助科学家在进行底物鉴定时更确定,并且允许他们在全球研究范围内参照他们的成果。”

HUPO Gold MS蛋白质标准样本将在2008年面世,供HUPO成员使用。

推荐
热点排行
一周推荐
关闭