关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

GEN:专家解析 大数据研究对于癌症治疗的焦点问题

2016.5.13

  在今年一月,美国副总统拜登在瑞士达沃斯世界经济论坛的科学家小组讨论中提出了一系列攻克癌症的具体要求。其中,怎样通过大数据的收集、分析与应用来研究、预防与治疗癌症成为了一个格外引人注目的话题。

  专家:

  Keith Perry:圣裘德儿童研究医院高级副总裁和首席信息官

  Narayan Desai:圣何塞通信公司爱立信计算机科学家

  Nevann Krogan:加州大学旧金山分校细胞和分子药理学教授

  Trey Ideker:Ph.D,UCSD计算生物学和生物信息中心创始人和UCSD医学部医学遗传学主任

  大数据的“大”意味着研究者所积累数据的巨大体量,以及这些数据的重要性与正确分析之后可能揭示的大量事实。不论哪种情况,大数据研究都能在实践中通过对大量数据集的分析来确定数据的变化趋势、找到数据间关联并发现数据的运作模式。

  大数据对于癌症研究具有不容忽视的积极作用,结合癌症研究过程中巨大的样本量,大数据分析可以发现在小样本量实验中通常遭到忽视的细节问题。然而除了数据的巨大体量之外,几位专家提出了大数据研究所具备的其他特点。

  当Keith Perry还在休斯顿安德森癌症中心工作的时候,他便提出了大数据不仅仅在于大,大数据研究还应该包含一下三个特征:数据类型的多样性,数据产出的速度以及数据集成的程度。“目前,由于具体研究项目与研究部门的不同,我们绝大多数的数据都是相对孤立的。”Perry认为相对孤立数据的集成将在极大程度上发挥这些数据的潜力。

  Narayan Desai在2015年的一篇Nature文章中指出基因组学将不得不解决到底需要生产多少数据的基本问题。全球数据的收集与分析能力有限,有限的能力需要以最高的效率加以利用。正因为测序技术的普及,大量的基因组研究机构如雨后春笋般以一种较为分散的方式兴起,正因为这些研究机构的分散性,上述问题变得更加难以解决。

  隐蔽的缺陷

  目前,一些科学家正致力于将分散的测序数据加以整合,创造性地利用已有数据对临床治疗进行指导。

  Nevann Krogan教授认为与大部分遗传学家所认识到的情况相比,基因组学已经在事实上使我们更加接近了癌症治疗的革命。

  “测序人员说只要我们投入更多的钱到测序中我们就能得到更加清晰的答案。”Krogan说,“我们对此表示否定,我们已经接近饱和的数据并不能给我们的研究带来多大进展。”

  尽管测序数据犹如潮水般上涨,基因检测在癌症治疗实践过程的突破仍然进展缓慢。这一现象存在的一大重要原因就是大量堆积的新数据仅仅能够证明癌症惊人的多样性,甚至仅仅是一种单一的肿瘤就包含着上千种基因突变。这种情况下便更需要研究人员准群分辨促使癌症发生的突变与那些对癌症的发生并没多少影响的突变。

  Krogan博士和他的同事们相信除了大量积累数据之外,研究人员需要对数据间既有的潜在联系投入更多的关注。

  与加州大学圣迭戈分校的研究人员一致,Krogan博士也于2015年3月在Molecular Cell上提出了癌细胞地图倡议(The Cancer Cell Map Initiative,CCMI)。

  CCMI致力于揭示癌症基因间复杂相互关系的系统性证据,阐明癌症与常规疾病及其他健康状况本质上的差异并据此绘制癌细胞中正常和突变基因及蛋白间的“线路图”。参与这一倡议的其他成员还包括旧金山的格莱斯顿研究所、加州大学旧金山、圣地亚哥分校临床和转化研究所以及赛默飞世尔科技公司。

  样本关联性分析

  CCMI结合了UCSD专家生物医学大数据方面的杰出知识与UCSD细胞结构与功能的领先研究方法。UCSD计算生物学和生物信息中心创始人和UCSD医学部医学遗传学主任Trey Ideker博士说“我们已经拥有的足够的数据,我们现在的项目瓶颈是如何解读这些癌症基因组数据。”

  在2015年的UCSD基因组学节上,Trey Ideker,博士指出对癌症基因组的大量测序已经证实了超过2万个癌症相关基因,但是由于基因相互作用网络相关知识的缺乏,这些癌症基因组信息的有效分析便显得十分困难。正如Ideker博士所说的“没有任何两个癌症病人的肿瘤在基因水平有着完全相同的组成。”

  Ideker博士及其同事认为生物信息学将会帮助解决这一难题。

  在2013年出版的Nature Methods上,Ideker博士及其同事指出癌症基因组图谱计划(The Cancer Genome Atlas ,TCGA)与国际癌症基因组协会(the International Cancer Genome Consortium ,ICGC)已经开始了对数千个肿瘤样本的基因组信息多层次系统性分析。具体包括mRNA与microRNA的表达,DNA拷贝数与甲基化分析以及DNA测序。文章的作者们指出诸如TCGA 与ICGC的工作可能会对某些更有野心的工作起到促进作用。

  基因表达子网络分析

  为了满足癌症大数据研究对数据集成方法的需求,UCSD团队与其他学者已经对已知的几种通路数据库与子网络相关蛋白编码基因进行了表达水平的集成分析。与以往简单罗列不同基因与蛋白的方式不同,这种方法揭示了不同基因与蛋白表达局部网络的聚集运作方式。

  正如该项目的研究人员所说,这类子表达网络分析工作可以鉴定各种临床病人的基因表达差异。基因表达子网络分析不同于常规的数据分析,具有解释相关信号网络内基因表达差异的能力。除了上述特点之外,基因表达子网络分析仍然需要大量的生物信息学、统计学和相关研究机构的支持,通过这种方式已有数据的潜在价值能够充分地体现。

  预后影响

  大量的实验证据表明基因表达网络分析对于预后有着重要的影响,UCSD研究人员在慢性淋巴细胞白血病领域的研究证实了上述基因表达子网络分析对于大量病人具有有效的预后能力,减少临床医师在慢性淋巴细胞白血病患者诊断过程中产生的分歧,有效提高疾病的诊断与治疗水平。这种预测性的基因表达子网络分析根据基因表达水平的不同产生一定的差异,直到治疗之前显示出一致性。

  UCSD研究人员认为他们的分析技术对于研究癌症的演变与临床慢性淋巴细胞白血病治疗策略的开发具有十分重要的作用。利用生物信息学的相关技术,研究人员能够准确地挖掘庞大数据具备的实际意义。

推荐
热点排行
一周推荐
关闭