关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

郑纬民院士解析超算、卡脖子、东数西算

2022.8.12

郑纬民<font class=

郑纬民院士  图片来源:CCF

有统计显示,算力规模前20的国家,有17个是全球排名前20的经济体。可见,数字经济发展水平与算力规模密切相关。有人说“得算力者得未来”,这话虽有些绝对,但不可否认,我们已进入算力时代。

当前科学发现的四个范式——实验验证、理论研究、计算科学、大数据分析和AI计算处理中,第三和第四范式都与算力密切相关。但是,这两种范式背后的算力不尽相同。

一般认为,算力可分为三大类:高性能计算的算力(HPC算力或超算)、人工智能计算的算力(AI算力或智算)、数据中心的算力(通用算力)。在回答“哪类算力更适合建在西部”这个问题之前,需要了解这些算力的特点以及发展中面临的难题。

超算:“花样”太多、应用移植和调优难度大

超算是“国之重器”,它们被制造出来应对世界上最富有挑战性的计算问题。我国超算发展很快,曾经有3台超级计算机占据世界最快超算500强榜单(TOP500)榜首——这个数据美国是4台、日本2台。可以说,过去十年,我国在顶尖超算系统的研制和部署数量方面都处于国际领先行列。

我国超算应用的情况也有很大进步。以高性能计算应用领域的国际最高奖“戈登贝尔奖”为例,过去十年,我国科学家依托国内顶尖超算系统,多次杀入戈登贝尔奖的评选,并在2016年首次摘奖。此后,2017年、2021年再次获奖(编者注:2020年的戈登贝尔奖由中美科学家联合团队摘得,这支8人团队中有7张中国面孔)。

超算的问题在哪儿?现在超级计算机非常快,但如何高效地将世界领先的计算能力高效转化为解决尖端科学与工程难题的能力,依然是挑战——这不是中国超算特有的问题,而是全世界都要面临的问题,而且目前许多大型超算的建构选择异构路线更加大了这一鸿沟。

怎么办?超算基础软件是提升转换能力的关键之一。然而,超算软件所面临的环境并不好。

目前,我国超算平台架构多样,应用移植和调优工作量大。目前国产超算有三类机器:神威、天河、曙光,都做得很好,但他们分属不同架构,一个超算软件,要从一台机器移植到其他机器上就非常难,移植成本非常高。

比如,社区大气模式CAM5在“神威·太湖之光”上的移植和优化成本在10 人年以上,中科院大气物理所高分辨率海洋模式LICOM3在某超算上的移植和优化成本也要 6-10人年。

这背后的问题就在于,我们的超算“花样”太多,种类太多。美国超算发展之初,也是百花齐放,现在基本上是CPU+GPU的异构高性能计算机。我们也要想办法,比如,有没有可能做一个跨平台编译优化平台?平台提供统一并行编程模型,程序员们可以在这个统一的并行编程模型和编译优化平台上编程、优化,降低开发复杂度的同时还可以跨平台高效运行。当然,这需要研究。

此外,国产超算平台支持复杂应用全流程计算的能力亟待改善。简单来讲,现在一般的HPC应用之前,必须得有大数据处理,而前处理的机器跟后处理的机器还不是做HPC应用的机器,前后可能需要三台机器。

智算:面临卡脖子风险

2020年4月国家发改委明确将人工智能纳入“新基建”范围。此后人工智能算力成为热门。AI计算机主要处理人工智能应用问题;发展也很快,国内也在建设很多智算中心。

智算大概有三类应用:图像检测和视频检索、博弈决策类、自然语言处理。其中前两类应用对国民经济和信息安全保障等方面发挥了很大作用,但我认为它们都不需要太大的计算机。不过现在有多地都在建设智算,目前已有20个城市投建了人工智能计算中心,规模很大、价格不菲。我想如果它们被用来做自然语言处理还可以,如果只是前两类应用,我认为不需要这么大的机器。

自然语言处理类应用有4种:基于模型的语言翻译、人机交互、文本生成摘要、关键词创作。目前,AI正快速向大模型方向发展,因为参数数量增长很快,大概每3~4月就需要机器算力翻倍。鹏城实验室的云脑二期,这台机器能很好处理人工智能问题。

我国人工智能产业快速发展,预计我国在2025年人工智能产业规模将超过4500亿元,带动产业规模超1.6万亿。据IDC数据统计,2017年到2021年,我国人工智能服务器市场规模每年翻倍增长。

但要注意的是,我国人工智能企业面临巨大卡脖子风险。2021年我国人工智能服务器芯片总出货量100万片,但国产芯片出货量只有5万片,95%依赖进口。此外,人工智能算法和深度学习框架,几乎90%以上由别国开发。特别地,中国99.5%的在校理工科大学生学习的是国外的人工智能技术,学习自主人工智能技术的仅占0.5%。

数据中心算力就不赘述了,科研的第四范式“数据分析”大部分由数据中心承载。

目前,三类算力是分开的:HPC一台、智能计算机一台、数据中心又是一个地方。我希望“HPC+AI+大数据”能够融整合。过去,高性能计算的程序从头到尾,基本上都是解方程这些“普通玩法”,但如今HPC面临的应用问题在中间可能会有AI计算需求。预计未来三五年后,计算机会把HPC、AI、大数据计算融合在一起。

短临天气预报就是一个FABS(Fused AI BigData and Science,融合AI、大数据、科学计算)场景案例。它需要大数据处理,又需要HPC、AI融合在一起。目前的处理相对麻烦,预处理需要一台机器,做高性能计算需要一台机器,后处理还要需要一台机器,因此融合是未来方向。

“东数西算”:并网和调度是两大难题

“东数西算”的出发点是把东部的数据流动到西部存储和计算。数据在东部产生比较多,都希望机器也在东部存储、计算,但计算机不能全在东部,这不利于“碳达峰”“碳中和”。西部有土地资源和清洁能源,所以想到把存储器建在西部。

问题来了:哪些数据适合放在东部算、哪些适合在西部?一般来讲,对实时性要求不高的可以到西部算,而对实时性要求高的,还得在东部,否则就做不了这件事。

在三大算力类型中,HPC、AI算力建在西部是合适的。HPC 做天气预报的计算,一算几个钟头,中间也不必数据交换;AI模型的训练一连几天,这些都可以放在西部。

但数据中心搬到西部可能不行,比如短视频、电子游戏、网络即时通讯等应用对实时性要求很高,无法忍受远距离网络传输带来的时延。我们调查过几个数据中心,它们80%~90%的机器在为这三类计算服务。

“东数西算”战略之下,算力网络建设是应有之义。“算力网络”就是把很多机器连在一起做事,但这件事做起来很费劲,主要有两大困难:并网和调度。

并网需要把算力连接起来,这不是简单的网,需要带宽高、延迟低——当然,只简单连起来也无用。如果可以做到在北京打电子游戏的客户,机器放在西部也能玩,满足带宽高、延迟低,能解决这个问题是可以的,但我认为很难。

做调度也很难,难在哪?调度不是房屋租赁中介,只需要对接供需信息就够了。打个比方,有个计算需求想用“神威·太湖之光”,但现在机器很忙,恰好中山大学的机器正空闲。把问题调度给中山大学超算上能不能行?有时候不行,这台机器可能运行不了专门针对“神威·太湖之光”写的软件。

类似的事情很麻烦。这些事并非无解,但要把并网和调度这两件事同时做好,非常难。建议支持成立一个类似于“链家”的公司专门做调度。这家公司可以没有计算机——就像链家没有房子一样,但可以专门做好调度。

总结一下我国算力发展面临三大问题。第一,国产超算平台架构多样,应用移植和调优工作难度大。第二,国产算力平台支持复杂应用全流程计算的能力亟待改善。第三,人工智能企业面临巨大卡脖子风险。

最后提出四个建议。第一,加强跨平台编译优化研究建设。第二,加强国产超算HPDA系统的软件研发,使计算与大数据处理能够融合在一起。第三,建议定义自主人工智能产品(如国产AI芯片和学习框架),出台措施鼓励行业加速使用。第四,加强HPC、AI、大数据三类计算系统的融合研究。

推荐
关闭