关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

基因组数据分析的“金标准”

2015.5.25

  五月十八日,美国安大略癌症研究所、俄勒冈健康与科学大学、赛智生物网络(Sage Bionetworks)、分布式DREAM 团体(Dialog for Reverse Engineering Assessment and Methods)和加州大学圣克鲁兹分校的癌症研究人员,在《Nature Methods》发表了ICGC-TCGA-DREAM Somatic Mutation Calling (SMC) Challenge(The Challenge: https://www.synapse.org/#!Synapse:syn312572)的第一批结果。这些结果为研究人员提供了一个重要的新基准,有助于定义识别癌症基因组中体细胞突变的最准确的方法。这些结果可能是“创建一个新的国际标准,来确定如何很好地检测到癌症突变”的第一步。延伸阅读:两篇论文解析多个基因组数据的新型整合模型。

  Challenge开始于2013年十一月,公开选拔研究团体,解决对“从全基因组测序数据中识别肿瘤相关基因突变的精确方法”的需求。虽然肿瘤基因组测序是爆炸式的,但是根据数据分析的方式不同,在一个给定基因组中所确定的基因突变,可能相差多达50%。

  研究团队被要求分析三份虚拟(计算机模拟)的肿瘤样本,并公开分享他们的方法。248个独立分析是由世界各地的团队协助开展,并由Challenge组织者进行分析和比较。当这些分析组合在一起时,为我们提供了一种新的集成算法,优于目前用于基因组数据分析的任何一种算法。

  本文的作者也还报道了一种计算方法——BAMSurgeon(由共同第一作者Adam Ewing开发),能够产生肿瘤基因组的一个精确模拟。与来自真实组织样本的肿瘤基因组形成对比,Challenge组织者对于所模拟的肿瘤基因组内的所有突变有一个完整的认识,从而能对所有提交的方法所产生的误差、以及它们识别已知突变的精确度,进行综合评估。

  所提交的方法在精确度方面有显著差异,许多方法获得的精确度小于80%,而有些方法则可达到90%以上。也许更令人惊讶的是,25%的研究团队通过优化他们现有算法的参数,使其性能提高了至少20%。这表明,现有方法应用的差异,是至关重要的——也许比方法本身的选择更重要。

  该研究小组还表明,假阳性(预测有突变,但实际上并没有存在),并不是随机分布在基因组中,而处于非常具体的地点,而且更重要的是,误差实际上非常类似于以前被认为代表真实生物信号的一些突变模式。

  本文共同第一作者、安大略癌症研究所生物信息学家Kathleen Houlahan与Challenge 带头人Paul Boutros共同合作,他指出:“总的来说,这些研究结果表明,分析人类基因组的最佳方法是使用多种算法的集合,共同合作科研可获得很多的价值。世界各地的人们已经在使用我们研制的工具。这只是Challenge的第一个发现,随着我们数据的完成和分析结果,还有更多的发现与其他研究团体分享。”

  俄勒冈健康和科学大学计算生物学主任Adam Margolin博士说:“现在,科学是一项团队运动。作为一个研究团体,我们都处于对抗共同敌人的同一队伍中。作为一个全球团体,我们会赢的唯一途径是,解决全球最大、最具挑战性的问题,并快速发现和建立最好的创新技术。”

推荐
热点排行
一周推荐
关闭