关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

“东数西算”的核“芯”问题:有待新技术突破

2022.6.10

随着“东数西算”国家战略在2022年2月启动,全国一体化算力网络国家枢纽节点的建设步伐进一步加速。算力网络基础设施的普及是智能时代标志之一,而高效的算力资源层就是算力网络这座大厦的根基,根基的牢靠程度将直接影响算力网络愿景是否能实现。

特别是在当前低能耗的要求下,算力网络的建设有低碳的约束,间接制约了通过直接扩大规模来换取算力增长的技术路线。软件生态可以逐步完善,运营模式可以调整,各个抽象层次的接口标准可以逐步规范。然而,核心问题是,现有的底层处理芯片、数据传输等物理层的产品和技术是否可以支撑“算力网络”这个构想?

笔者认为,算力网络建设的最大挑战除了资源整合、服务创新,可能还有待新核心技术的突破——本文主要从算力芯片视角试析,所涉内容不可能覆盖算力网络底层核心技术全貌。

现有算力资源尚难支撑算力网络愿景

直观的理解算力网络包含两个关键部分:一是“算力”,二是“网络”。然而,“算力网络”的效力不应该是二者的简单加和,而应该是“倍乘”,通过网络来对算力进行价值放大,承载更多的应用。缺乏算力的网络只能作为数据传输网,而缺乏网络的算力其使用价值也将大大降低。

根据著名的梅特卡夫定律,一个网络的价值等于该网络内的节点数的平方。对于算力网络,宏观来看“节点”包括的各种算力中心(如数据中心、超算中心、智算中心、边缘计算节点等)和服务的终端应用(如PC、智能手机等具有强交互性的设备,也包括摄像头、智能电表等弱交互性设备)。因特网的发展已经显示出了梅特卡夫定律的巨大威力,将人类带入了信息时代。如果算力网络的梅特卡夫定律能继续发挥作用,必将会把人类带入一个新的时代——也许就是智能时代。

然而,新酒还需新瓶装。现有的计算、网络、存储基础设施,可能还不能完全支撑算力网络的愿景成为现实。

研究表明,从1940年到2010年的60年中,我们看到计算能耗效率随时间呈现稳定的指数增长,大约每1.6年这个效率指标就会加倍——这得益于摩尔定律和登纳德缩放定律在此期间基本的有效性。计算效率的持续性指数级提升,使得通过线性计算节点的规模和能耗水平增长,即可获得指数级的算力。籍此,在这个世纪的前十年,我们得以将一台计算机的算力装在手机中,直接赋能了移动互联网的快速发展。

相比于算力增速而言,数据量的增速也毫不逊色,甚至已经形成赶超之势。从2005年开始至今,数据量大约每两年翻一番,IDC预测到2025年将达到175泽字节(ZettaBytes)。然而,摩尔定律从2015年开始放缓,单位能耗下的算力增速已经逐渐被数据量增速拉开差距。现有的网络化算力可以部分解决利用率不均衡的问题,但是并不能本质上解决算力增速放缓的局面。

应用层算力与基础层算力

为了便于分析算力相关的核心基础技术,我们把算力划分为两大类:应用层算力和基础层算力。其中应用层算力,顾名思义,指用于执行业务层应用的算力,例如视频解析、数据查询、路径规划、图像渲染等,大体对应到全系统分层架构SaaS和PaaS层;基础层算力指用来做资源池化、数据转发、压缩存储、加密解密、文件系统、网络功能虚拟化等基础层负载的算力,大体对应到IaaS层。预计应用算力的提升主要来自于专用服务器的采用,虽然局部来看,应用层算力一方面得益于更高性能CPU、GPU的采用,另一方面得益于计算从通用走向专用的过程中各种FPGA和ASIC芯片的引入。虽然引入了大量专用计算单元,但宏观来看,得益于CPU的核心地位,仍然可以维持算力的通用性。

基础层算力主要与网络、存储和安全相关,预计基础算力的提升将主要得益于DPU(数据处理单元)、5G移动边缘计算技术、超高速光电混合网络技术、NVMe-oF等技术的采用。网络和存储都比较依赖各种协议的处理,不同的物理层实现。基础层算力不仅需要帮助提升IO的带宽、降低延迟,还要维持访问方式的一致性、匹配应用的需求。这些复杂的需求非常依赖于更灵活的网络可编程性,更高效的硬件虚拟化技术来支持。

例如,对于窄带宽但低延迟的需求与带宽要求高但延迟不敏感的应用,显然应该适配不同的网络资源;对于突发性高并发、小数据量与稳定性低并发但大数据量的业务,也需要网络和IO配给不同的资源。按照算力网络“匹配应用需求”的角度来看,软件定义网络、软件定义存储、软件定义加速器等一系列“软件定义”技术路线还有很大提升空间。

算力网络底层的三大技术突破

从以上分析来看,预计算力网络的基础层将会有如下三方面的技术突破。

第一个方面,以专用架构延续算力的指数级提升。

简言之,如何增强应用算力。短期来看,专用体系结构的广泛采用有望维持2~3个数量级的算力提升潜力。这也是领域专用架构(DSA)技术路线得到重视的原因。

DSA技术的采用,必然导致算力源端的异构化。如何在现有的体系结构下,既发挥出DSA的能效优势,又对上屏蔽其差异性,是一个不小的挑战。

现在提出的一些“非-冯诺伊曼架构”,例如存内计算(In-Memory Computing)、网内计算(In-Network Computing)、类脑计算等,都在尝试用非传统计算架构来提升计算效能。从技术成熟度角度看,通用GPU(即GPGPU)、面向深度学习的训练和推理的通用AI芯片,最有可能在短期内发挥算力增强的作用。有报告预测,装备GPGPU和AI芯片的AI服务器预计到2025年将达到算力总支出的25%。

第二个方面的技术突破是,通过DPU释放应用层算力的同时,扩容基础算力的管道。

基础算力层的核心功能之一,是构建算力流通的“管道”。在传统系统架构中,网络与计算是分离的:计算的主体是服务器,网络的主体是网卡、路由器和交换机。随着DPU技术的逐渐成熟,我们看到大量原本在服务器上运行的基础层负载可以被卸载(offload)到与服务器CPU直连的DPU上,保持网络特性的功能将不在由服务器端的CPU来维护。

DPU的存在,将本地物理资源虚拟化,也将远程访问本地化。DPU开始承载基础算力的角色,并且是在不改变现有路由器和交换机的前提下。此外,DPU的出现,也使得网内计算的成熟度得到进一步提升。

第三个技术突破,通过数据面代理赋能无服务器(Serverless)服务和云原生应用。

随着云原生微服务架构的普及,“服务网格”作为微服务间通信的专用基础设施层,可在微服务架构中实现可靠、快速和安全的服务间调用,同时可提供出色的可观测性、流量控制能力和安全保障。但是,服务网格也存在一定的局限性,主要体现在其增加了网络的复杂性。

服务网格能力的发挥依赖于数据面代理,为了保持应用与服务的解耦,采用非侵入性的数据面代理“边车机制”,任意两个微服务间的通信都增加了两跳七层应用代理,而基于CPU软件实现的七层应用代理数据处理周期较长,微服务间通信的时延显著增加,限制了云原生应用的大规模部署。

针对当前云原生服务网格存在的这一问题,可以通过DPU实现服务网格数据面代理,进而解决CPU和内存的消耗和微服务间访问延迟的问题。

总结一下,算力网络是实现算力基础设施化的一个重要载体,是一整套从技术到运营的系统性技术综合的成果。如果成功落地,“新瓶装新酒”,必将会有力促进我国数字经济的跨越式发展。

目前我们在构建算力网络上有较好的基础,比如基建化程度、网络覆盖率、运营水平、业务整体容量等,光纤到户比率远高于国际平均水平,但是在技术层面也还面临一些关键挑战,特别是核心算力芯片的自主率过低,核心光电器件主要依赖进口。在“东算西数”、构建全国一体化算力基础设施等相关政策的引导下,突破算力网络底层的核“芯”问题,可以看到巨大的“盘活存量、优化增量”的机遇,早日让“算力”成为普惠大众的生产力。


推荐
热点排行
一周推荐
关闭