关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

周勇教授:“分块集成算法为大数据分析提供可发展前景”

2021.12.15

  我们正处于数据呈现井喷式增长的时代,大数据已成为当前前沿研究和应用的热点问题,随着社会经济与科技活动变得日益互联多元,形成海量超高维的数据资源,这些资源与现代信息技术的结合极大地推动了大数据产业链的形成,科学技术的进步。在现代生活的各个领域,大数据的价值日益突显,例如,越来越多的机构收集存储并分析大数据,背后所蕴藏非常丰富的商业价值及科学价值。一般来说,大数据是指无法用一台机器进行数据处理与分析的数据集,因此传统的统计和计量分析方法,无论是计算方法还是统计理论,不再适用。为应对大数据计算上的挑战,有一些质朴而直观的算法先后被提出,如分块集成(Divide and Conquer )算法(下称 DC算法)与最优子抽样算法。DC算法指的是先将大数据集随机分为多个小数据集,并在多台子机器上分别进行运算,再将得到的运算中间结果在中心机器上整合,以构成最终的输出结果,参见图1。这个算法具有交互有效,运算速度快等优点。但是,算法的成功往往需要设计一个稳健且有效的整合多个中间结果的方法,而且还需要考虑数据传输的效率。

  华东师范大学周勇教授课题组在国家自然科学基金委员会主管、主办的Fundamental Research 第五期上发表了大数据下拟合Expectile风险度量回归模型的研究,该Expectile 模型被广泛应用在风险度量与管理领域。该研究重点关注大数据下的Expectile风险度量回归模型的高效算法及其统计推断问题。提出了一种交互有效的DC算法,并利用助置信分布法对来自多个子机器的运算结果进行聚合,从而获得一种稳健且通讯有效的数据整合大数据分析方法。同时,该研究系统地分析了子机器数量K与总样本量N之间的关系,并允许K随着N的增大而增大。并通过实现计算准确性与计算效率之间的平衡,给出了一种关于K有效的选取。作者相信,该论文所提出的算法不仅有理论支撑,而且在实际应用中可以有效地解决大数据所带来的计算挑战。

image.png

图1 Divide and Conquer 算法.

  以上内容节选自期刊Fundamental Research 2021年第5期发表的文章 S. Song, Y. Lin, Y. Zhou, et al., Linear expectile regression under massive data, Fundamental Research 1(5)(2021)574–585

  主要作者简介

image.png

  周 勇 华东师范大学经管学部教授,统计交叉科学研究院院长,国家杰出青年科学基金获得者,中国科学院百人计划入选者,国务院政府特殊津贴专家,“新世纪百千万人才工程”国家级人选,国务院学位委员会第七届统计学科评议组成员。现任教育部应用统计专业硕士教学指导委员会委员、中国统计学会副会长、中国优选法统筹法与经济数学研究会副理事长、中国管理科学学会常务理事。主要从事大数据分析与建模、金融计量、风险管理、计量经济学、统计理论和方法等科学研究工作。先后承担并完成国家杰出青年科学基金项目、国家自然科学基金委员会重点项目等项目10余项,曾获得省部级奖励2项。在 The Annals of Statistics、Journal of The American Statistical Association、Biometrika、Journal of Econometrics和Journal of Business & Economic Statistics 等期刊发表学术论文近200篇。

image.png

  宋珊珊 香港中文大学统计系博士后研究员。主要研究兴趣为大数据分布式计算、大数据子抽样技术、高维数据统计推断、变量选择、半监督学习。目前共发表SCI论文2篇。

Fundamental Research
推荐
关闭