近年来,生命科学进入了“大数据”时代,生命的整体性和疾病的复杂性使得信息化和大数据成为生命科学研究的必然。大数据平台给了研究者从系统层面全面认识生命的机会和机遇,使众多科技人员更有信心地应对复杂生命现象的挑战。然而,当前大数据对医学,特别是临床实践的指导作用显然未达预期。我将就大数据产生和挖掘过程中存在的问题进行探讨。

中国工程院院士 王红阳

  首先讨论数据质量。目前诸多研究和公共资源提供了海量数据,但是不同数据的科学价值参差不齐。高质量数据往往具备样本可靠、信息完整、数据结构清晰、系统性多组学多层次等特点,例如TCGA和ICG等。

  与此同时,大数据中也充斥着大量重复,缺乏必要注释和低质量数据,这些数据不仅科学价值有限,反而给研究者增添了数据甄别的负担和误用的风险。大数据的质量对于数据产生者,特别是对大型研究计划顶层设计和数据管理提出了更高的要求。