“东数西算”的核“芯”问题：有待新技术突破

分析测试百科网 > 行业资讯 > 焦点事件

“东数西算”的核“芯”问题：有待新技术突破

2022.6.10

随着“东数西算”国家战略在2022年2月启动，全国一体化算力网络国家枢纽节点的建设步伐进一步加速。算力网络基础设施的普及是智能时代标志之一，而高效的算力资源层就是算力网络这座大厦的根基，根基的牢靠程度将直接影响算力网络愿景是否能实现。

特别是在当前低能耗的要求下，算力网络的建设有低碳的约束，间接制约了通过直接扩大规模来换取算力增长的技术路线。软件生态可以逐步完善，运营模式可以调整，各个抽象层次的接口标准可以逐步规范。然而，核心问题是，现有的底层处理芯片、数据传输等物理层的产品和技术是否可以支撑“算力网络”这个构想？

笔者认为，算力网络建设的最大挑战除了资源整合、服务创新，可能还有待新核心技术的突破——本文主要从算力芯片视角试析，所涉内容不可能覆盖算力网络底层核心技术全貌。

现有算力资源尚难支撑算力网络愿景

直观的理解算力网络包含两个关键部分：一是“算力”，二是“网络”。然而，“算力网络”的效力不应该是二者的简单加和，而应该是“倍乘”，通过网络来对算力进行价值放大，承载更多的应用。缺乏算力的网络只能作为数据传输网，而缺乏网络的算力其使用价值也将大大降低。

根据著名的梅特卡夫定律，一个网络的价值等于该网络内的节点数的平方。对于算力网络，宏观来看“节点”包括的各种算力中心（如数据中心、超算中心、智算中心、边缘计算节点等）和服务的终端应用（如PC、智能手机等具有强交互性的设备，也包括摄像头、智能电表等弱交互性设备）。因特网的发展已经显示出了梅特卡夫定律的巨大威力，将人类带入了信息时代。如果算力网络的梅特卡夫定律能继续发挥作用，必将会把人类带入一个新的时代——也许就是智能时代。

然而，新酒还需新瓶装。现有的计算、网络、存储基础设施，可能还不能完全支撑算力网络的愿景成为现实。

研究表明，从1940年到2010年的60年中，我们看到计算能耗效率随时间呈现稳定的指数增长，大约每1.6年这个效率指标就会加倍——这得益于摩尔定律和登纳德缩放定律在此期间基本的有效性。计算效率的持续性指数级提升，使得通过线性计算节点的规模和能耗水平增长，即可获得指数级的算力。籍此，在这个世纪的前十年，我们得以将一台计算机的算力装在手机中，直接赋能了移动互联网的快速发展。

相比于算力增速而言，数据量的增速也毫不逊色，甚至已经形成赶超之势。从2005年开始至今，数据量大约每两年翻一番，IDC预测到2025年将达到175泽字节（ZettaBytes）。然而，摩尔定律从2015年开始放缓，单位能耗下的算力增速已经逐渐被数据量增速拉开差距。现有的网络化算力可以部分解决利用率不均衡的问题，但是并不能本质上解决算力增速放缓的局面。

应用层算力与基础层算力

为了便于分析算力相关的核心基础技术，我们把算力划分为两大类：应用层算力和基础层算力。其中应用层算力，顾名思义，指用于执行业务层应用的算力，例如视频解析、数据查询、路径规划、图像渲染等，大体对应到全系统分层架构SaaS和PaaS层；基础层算力指用来做资源池化、数据转发、压缩存储、加密解密、文件系统、网络功能虚拟化等基础层负载的算力，大体对应到IaaS层。预计应用算力的提升主要来自于专用服务器的采用，虽然局部来看，应用层算力一方面得益于更高性能CPU、GPU的采用，另一方面得益于计算从通用走向专用的过程中各种FPGA和ASIC芯片的引入。虽然引入了大量专用计算单元，但宏观来看，得益于CPU的核心地位，仍然可以维持算力的通用性。

基础层算力主要与网络、存储和安全相关，预计基础算力的提升将主要得益于DPU（数据处理单元）、5G移动边缘计算技术、超高速光电混合网络技术、NVMe-oF等技术的采用。网络和存储都比较依赖各种协议的处理，不同的物理层实现。基础层算力不仅需要帮助提升IO的带宽、降低延迟，还要维持访问方式的一致性、匹配应用的需求。这些复杂的需求非常依赖于更灵活的网络可编程性，更高效的硬件虚拟化技术来支持。

例如，对于窄带宽但低延迟的需求与带宽要求高但延迟不敏感的应用，显然应该适配不同的网络资源；对于突发性高并发、小数据量与稳定性低并发但大数据量的业务，也需要网络和IO配给不同的资源。按照算力网络“匹配应用需求”的角度来看，软件定义网络、软件定义存储、软件定义加速器等一系列“软件定义”技术路线还有很大提升空间。

算力网络底层的三大技术突破

从以上分析来看，预计算力网络的基础层将会有如下三方面的技术突破。

第一个方面，以专用架构延续算力的指数级提升。

简言之，如何增强应用算力。短期来看，专用体系结构的广泛采用有望维持2～3个数量级的算力提升潜力。这也是领域专用架构（DSA）技术路线得到重视的原因。

DSA技术的采用，必然导致算力源端的异构化。如何在现有的体系结构下，既发挥出DSA的能效优势，又对上屏蔽其差异性，是一个不小的挑战。

现在提出的一些“非-冯诺伊曼架构”，例如存内计算（In-Memory Computing）、网内计算（In-Network Computing）、类脑计算等，都在尝试用非传统计算架构来提升计算效能。从技术成熟度角度看，通用GPU（即GPGPU）、面向深度学习的训练和推理的通用AI芯片，最有可能在短期内发挥算力增强的作用。有报告预测，装备GPGPU和AI芯片的AI服务器预计到2025年将达到算力总支出的25%。

第二个方面的技术突破是，通过DPU释放应用层算力的同时，扩容基础算力的管道。

基础算力层的核心功能之一，是构建算力流通的“管道”。在传统系统架构中，网络与计算是分离的：计算的主体是服务器，网络的主体是网卡、路由器和交换机。随着DPU技术的逐渐成熟，我们看到大量原本在服务器上运行的基础层负载可以被卸载（offload）到与服务器CPU直连的DPU上，保持网络特性的功能将不在由服务器端的CPU来维护。

DPU的存在，将本地物理资源虚拟化，也将远程访问本地化。DPU开始承载基础算力的角色，并且是在不改变现有路由器和交换机的前提下。此外，DPU的出现，也使得网内计算的成熟度得到进一步提升。

第三个技术突破，通过数据面代理赋能无服务器（Serverless）服务和云原生应用。

随着云原生微服务架构的普及，“服务网格”作为微服务间通信的专用基础设施层，可在微服务架构中实现可靠、快速和安全的服务间调用，同时可提供出色的可观测性、流量控制能力和安全保障。但是，服务网格也存在一定的局限性，主要体现在其增加了网络的复杂性。

服务网格能力的发挥依赖于数据面代理，为了保持应用与服务的解耦，采用非侵入性的数据面代理“边车机制”，任意两个微服务间的通信都增加了两跳七层应用代理，而基于CPU软件实现的七层应用代理数据处理周期较长，微服务间通信的时延显著增加，限制了云原生应用的大规模部署。

针对当前云原生服务网格存在的这一问题，可以通过DPU实现服务网格数据面代理，进而解决CPU和内存的消耗和微服务间访问延迟的问题。

总结一下，算力网络是实现算力基础设施化的一个重要载体，是一整套从技术到运营的系统性技术综合的成果。如果成功落地，“新瓶装新酒”，必将会有力促进我国数字经济的跨越式发展。

目前我们在构建算力网络上有较好的基础，比如基建化程度、网络覆盖率、运营水平、业务整体容量等，光纤到户比率远高于国际平均水平，但是在技术层面也还面临一些关键挑战，特别是核心算力芯片的自主率过低，核心光电器件主要依赖进口。在“东算西数”、构建全国一体化算力基础设施等相关政策的引导下，突破算力网络底层的核“芯”问题，可以看到巨大的“盘活存量、优化增量”的机遇，早日让“算力”成为普惠大众的生产力。

中国科学报

喜欢作者我要约稿

喜欢作者

打赏方式

“东数西算”的核“芯”问题：有待新技术突破

周锦帆