数据体量方面,虽然当前数据给人“够大”的直观感觉,但具体项目实施过程中,公共数据资源仍显得“捉襟见肘”。我们呼唤更大体量、更多维度的高质量数据能够共享,包括特殊病患的样本资源以及新技术生成的数据,如ATAC-seq等,造福人类健康。

  大数据催生了计算机领域和医学领域的大合作,而两个领域学科特点与理念的差异阻碍了两者的高效融合。具体表现为计算机领域偏重医学问题建模而相对忽视医学研究进展,以癌症精准分型和标志物发现为例,典型的计算机研究偏爱从零开始的新算法开发,偏向“另起炉灶”,而医学研究者往往更关注在已有临床标志物的基础上的新发现和提升,而后者也更加贴近医学临床实践应用。生物信息学作为连接计算机和生物医学领域的桥梁,在关注两个领域最新进展的同时,更需要准确拿捏和填补两个领域“毫厘”之间的差异,使医学问题定位更加准确,算法更具应用性。

  生物医学大数据的规模和产生速度已经超出了传统计算模型处理能力,幸运的是,近年来深度学习算法得到快速发展,其在多维数据整合、特征提取、因果推断等多个应用场景下具有显著优势。

  近期的研究已将多种前沿机器学习算法应用于生物医学大数据挖掘,并取得了较好的效果。相信随着不同领域更深度的理解和交叉,新的数据分析技术的应用,大数据必将真正造福人类健康。未来医学研究可在学科交叉与实践迭代中,实现更高效的疾病防控和疾病管理,不断接近预防疾病和治愈疾病的最终目标。