2014年3月,美国国家数据科学联盟(NCDS)发布了《从数据到发现:基因组到健康》白皮书,以便于解决基因组学面临的重大挑战。该白皮书是通过聚集数据科学领域与基因组学领域的领袖人物,共同探讨当前基因组学的挑战,并集思广益,就最为恰当且技术先进的建议达成的共识。

  基因组学能够为数据科学相关研究提供某些美好的承诺。但新发布的白皮书指出,基因组学领域还存在数据来源、收集和管理,界定表型,裁定基因组变异,生物统计学和生物信息学,数据共享和生物伦理与法律六大关键挑战。

  数据来源、收集和管理是在不知晓数据将如何被重新利用的情况下维护数据来源,为大数据集的收集和管理提出重大挑战。而由于缺乏标准化的数据元素与协调的数据集,同时缺乏从大型数据集中获取表型数据的相关技术,也使得界定表型问题进一步复杂化。

  由于缺乏表型和变异体数据的标准,对变异的界定也十分模糊。另外,由于统计模型和软件不够充分,计算机处理能力不足,运行复杂模型时不可接受的时间延迟以及在促进数据集成与共享时,采用有限的联合分布式数据系统等,都造成了生物统计学和生物信息学上的重大挑战。