关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

《科学通报》出版“大数据研究与应用”专辑

2015.2.14

  大数据带来的信息风暴正在改变世界,数据科学也随之产生和发展。为了对这一新兴科学进行深入探讨,《科学通报》于2015年第5-6期出版了“大数据研究与应用”专辑。该专辑由中国科学院计算技术研究所张云泉研究员、清华大学交叉信息研究院徐葳教授以及清华大学物理系龙桂鲁教授共同担任客座编辑,采用交叉学科的思路,邀请不同领域的科学家,就数据科学在自然科学、工程、社会科学、经济等各领域的应用,以及统计、计算等数据科学的核心技术进行了报道。

  专辑编者按摘录如下:

   在大数据应用技术需求的推动下, 大数据科学研究和应用已经成为科技领域中的热点。同时人们开始从这些工程实践中提炼出一些共性的思路、方法和工具, 开启了一门新科学——数据科学。

  数据科学研究继承了统计学的一些思想, 例如在大量数据上做统计性的搜索、比较、聚类或分类等分析归纳, 其结论是一种相关性, 而并非一定是某种因果关系。数据科学与计算机模拟不同, 是用大量数据的相关性取代了因果关系和严格的理论和模型, 并基于这些相关性获得新的“知识”。著名计算机科学家吉姆·格雷2007年就指出“数据密集型科学”已经成为继实验、理论、计算模拟之后的第4个科学研究范式,指出发展数据科学的主要阻力在于工具的缺乏, 以及开发这些工具的巨大成本。2010年, Science杂志在对1700多位科学家的调研后验证了这一观点: 技术的缺乏影响了科学家们分析、保存以及分享数据。

   专辑筹备中《科学通报》编辑部向国内2500名科学家发送了问卷, 回收276份。虽然调研的样本范围不同, 没有直接的可比性, 但是结果也揭示了数据科学总体的一些发展趋势:

  n 83%的样本都表示听说过大数据;

  n 与之前的调研相比, 科学家们使用了更大的数据集, 更多的人开始使用公共数据集;

  n 只有28%的样本认为自己体验过大数据技术, 同时经费和技术问题仍是影响数据科学发展的重要因素。

  这些变化一方面是国际科学界加大了对数据科学的投入, 同时也因为大数据和云计算技术本身的发展, 一定程度上降低了数据处理的成本和技术门槛。我们预期影响数据科学发展的客观因素会很快淡化, 而科学家的科研理念和专长等主观因素将会起到更为关键性的作用。

   数据科学是一个交叉学科的领域,其发展的第一推动力是人才。美国加州大学伯克利分校统计系的郁彬教授提出, 一个合格的数据科学家应具备的基本素质和技能可用SDC3来概括, 即统计(statistics)、领域知识(domain knowledge)、计算技术(computing)、合作能力(collaboration)以及与非本领域的人沟通的能力。这对科学家来说是非常高的要求。更为棘手的是, 目前数据科学家在评价体系和职业发展前景、经费获取方面都存在相当的障碍。2013年11月美国摩尔基金会和斯隆基金会共同资助了3780万美元的“数据科学学院”项目, 其重要目标之一, 是加强跨学科数据科学人才的培养, 以及探索适合数据科学家的职业发展规划。

   本专辑在组稿过程中采用了交叉学科的思路, 邀请了一批不同领域的科学家, 就数据科学在自然科学、工程、社会科学、经济等各领域的应用, 以及统计、计算等数据科学的核心技术进行了报道。各领域大数据在面临的问题、需要的系统、方法和工具上都是相通的,例如对于存储容量、带宽和经济性的要求、数据处理系统的弹性、灵活性和易用性的要求, 以及对于跨国家、跨研究组数据共享的需求, 成为了大数据对计算机系统领域需求的热点。从计算工具上看, 语义分析、复杂网络分析、不同模态数据特征的融合、多媒体数据的特征抽取等, 都是数据科学应用, 尤其是社会科学领域应用的热点。如何能更好地提炼、抽象这些方法和工具, 将之扩展到更多的领域, 让更多的科学家和工程技术人员一起探讨在科研中使用大数据的共性问题, 同时在科研中培养出进行跨领域数据科学研究的人才, 可能是数据科学资金、技术和人才匮乏问题的合理解决方法。

   “发现问题、提出问题、解决需求的价值在研究层面上远远大于精致计算、细致操作的价值”。希望本专辑能抛砖引玉, 让不同学科背景的研究者围绕数据科学这一题目, 进行跨学科的深入探讨, 拓展思路, 提出并解决对科学发展、国计民生至关重要的问题, 为促进我国数据科学的进一步发展做出贡献。

推荐
热点排行
一周推荐
关闭