分析测试百科网 > 行业资讯 > 其它新闻

大模型走出“象牙塔”，这项技术将扮演关键角色

2023.12.29

原文地址：http://news.sciencenet.cn/htmlnews/2023/12/515125.shtm

ChatGPT将AI带入了大模型时代，开启了IT技术新纪元。一时间，大模型领域的技术创新有如雨后春笋、不断涌现，其中关注度最高的当属大模型本身。

当下大模型领域上演的“百模大战”方兴未艾，其本质上是为了抢占大模型时代的入口，可以称之为“魔派”。次之为，模型的开发平台旨在为大模型时代提供训练、精调、优化，数据的清洗、知识库的生成等功能，它们意图成为大模型时代的“卖铲人”，可称之为“铲派”。此外，作为大模型训练的根基，GPU、NPU、DPU等各种芯片技术的研究自然也是热点，尤其是在英伟达一家独大之际，如何打破垄断，技术扎到根？这一派可称之为“根派”。

在“魔派”“铲派”和“根派”诸家争鸣、群雄逐鹿之时，我们也注意到更多人开始关注大模型的工程落地技术，如何让大模型走出“象牙塔”、走进千行百业，走出“吟诗作对”、走向工程实践？这其中，关于GPU的虚拟化技术研究最值得关注。近日，在中国开源大会上，上海交通大学推出GPU虚拟化统一框架openCoDA，呼吁产学研联合构建统一开放的国产 GPU 虚拟化生态，并率先在华为的训推超融合一体机 FusionCube A3000上进行了工程实践，给人留下了深刻的印象。虚拟化并非新兴技术，早在CPU算力时代就是解决IT技术从创新到工程落地的关键一环。那么在大模型时代，虚拟化技术又将扮演什么角色？发挥什么作用？要回答这些问题，我们首先要回顾一下虚拟化技术，以及虚拟化在CPU时代的精彩故事。

一．什么是虚拟化？CPU虚拟化是如何走向统一的？

提到虚拟化，首先自然想到的是CPU虚拟化。 20世纪70年代，微型计算机技术飞速发展，但在x86时代早期，市场并没有虚拟化需求。随着半导体技术的发展，大量的廉价硬件被推向市场，随之带来了诸如利用率不足、管理成本攀升、容易受到攻击等各种问题。为了解决上述问题，人们开始研究CPU虚拟化。 CPU虚拟化可以用单个CPU模拟多CPU并行，显著提高计算机工作效率。此外借助虚拟化技术可以扩大硬件容量、简化软件配置过程、提高系统可靠性。自20世纪90年代到2010年代的20年间，各厂商纷纷投入巨大的资源和人力，相继推出了不同的CPU虚拟化产品。在这个过程中，出现了资源重复投入的“乱象”。直到内核虚拟机(Kernel-based Virtual Machine, KVM)的出现，CPU虚拟化从百家争鸣逐渐走向统一开放。 KVM最初是由Qumranet公司开发, 于2007年被红帽收购。作为Linux内核的一个集成模块，其源码包含在Linux内核源代码树中，并在Linux社区以GPL许可协议开源。由于KVM直接融入Linux内核使其天然支持Linux, 且具有更简单、更轻量、更灵活的优点，IBM、红帽、惠普、Intel等厂商联合起来成立了虚拟化联盟，大力推动KVM市场化，使得KVM统一了CPU时代虚拟化。

图1. KVM终结了CPU x86时代百家争鸣、重复投入的“乱象”

二．AI大模型时代，虚拟化的需求再次迸发

智能时代，大模型横空出世，以GPU为代表的XPU硬件构成了各类大模型应用的底层算力。面对动辄上亿参数量的大模型训练和推理任务，传统的GPU独占的使用方式已无法满足如此大规模的算力需求，因此虚拟化的需求再次出现，人们开始将目光转向GPU虚拟化。

一项来自艾瑞咨询的调查报告显示，中国AIGC产业的规模逐年攀升，2023年中国AIGC产业规模约为143亿元，随后将进入大模型生态培育期。预计到2030年，中国AIGC产业规模有望突破万亿，达到11440亿元。

图2. 2022-2030年中国AIGC产业规模。图片来源：艾瑞咨询《2023年中国AIGC产业全景报告》

大模型的参数量日益增长甚至达到万亿级别，对算力的需求也与日俱增。《2022-2023中国人工智能计算力发展评估报告》显示，2021年中国智能算力规模达155.2 EFLOPS（FP16）, 预计到2026年中国智能算力规模将达1271.4 EFLOPS，年复合增长率预计高达52.3%。

图3. 我国智能算力发展状况。图片来源：国家信息中心《智能计算中心创新发展指南》

然而面对大模型对底层算力庞大需求的现状，以GPU为代表的XPU硬件算力却严重不足。其主要原因有三。一是GPU硬件昂贵，配备8张英伟达A100显卡的服务器价格高达上百万元；二是英伟达高算力GPU等硬件获取困难；三是现有的GPU资源利用率极低，在推理任务场景，大部分AI业务采用独占GPU的方式使用算力，导致GPU利用率只有10%~30%。因此，在当前GPU硬件获取困难且昂贵的情况下，通过GPU虚拟化技术提高GPU资源利用率是解决算力需求的有效手段。 GPU虚拟化技术演进路线大致可以分为三个阶段，第一阶段是传统“一虚多”虚拟化，指将物理GPU按照固定比例切分，例如按照2的指数次方切分为多个虚拟vGPU。第二阶段是内核劫持虚拟化，是指将物理GPU从算力和显存两个维度进行切分，相比传统虚拟化，内核劫持虚拟化可以按照1%的细粒度将物理GPU切分为多个vGPU。第三个阶段是GPU资源池化，用户可以通过网络远程调用GPU资源，从而在软件层面实现vGPU动态切分。

图4. GPU虚拟化的技术演进路线及典型技术示意图此外，当大模型普遍具有万亿规模的参数量，训练一个大模型的时间通常需要几十甚至上百天，如此长时间训练对系统可靠性提出了极高的要求。独占GPU的使用方式无法抵御突发的硬件故障，一旦GPU发生故障就会导致整个训练任务中断。但通过将物理GPU虚拟化成算力资源池，能够实现对底层硬件故障的隔离，可有效降低单个GPU故障导致模型训练及推理业务中断的风险，进而提高了大模型业务的稳定性和系统可靠性。 GPU虚拟化的另一个重要能力是支持无损热迁移。在对GPU服务器设备做维护时，传统直通式GPU上运行的AI业务进程必须中断；而且在对活跃的AI业务跨设备迁移到高性能GPU服务器时，也会面临大量的数据搬运工作。但通过GPU虚拟化提供的无损热迁移能力，在对物理GPU服务器下线维护前，可以将虚拟vGPU的运行状态保存下来，并快速将vGPU迁移到正常运行的服务器，实现业务不中断运行。管理员也可以根据实时AI负载，将正在活跃运行的vGPU实时不中断地迁移到更高性能的服务器上做业务加速，从而优化不同活跃度vGPU之间的资源分配。另外，借助无损热迁移能力，还可以动态调整分配到不同节点的硬件资源份额，从而均衡使用各节点算力。

图5.无损热迁移 (a)保障设备维护时业务不间断; (b)实现不同节点之间负载均衡此外，通过GPU虚拟化技术可以显著加快AI大模型训练及业务部署上线速度。通过GPU虚拟化技术，可以突破单节点GPU卡资源上限，整合碎片化算力资源，提供跨节点的多卡能力，进而大幅缩短模型训练周期。GPU虚拟化平台也可以创建标准化的虚拟vGPU配置模板，包含预定义的计算、内存和存储等资源，用户可以基于预设的模板一键式部署，快速在虚拟vGPU上部署并上线业务。在对资源扩缩容和异构算力兼容方面，相比传统直通式GPU，虚拟化GPU也有着明显优势。虚拟化技术可以动态添加或删除虚拟vGPU来支持弹性扩缩容需求，当需要增加AI业务时，可以简单地添加更多vGPU来扩展资源能力，无需购买新的物理GPU；当需求减少时，也可以动态回收vGPU以节省成本。其次，虚拟化技术也可以屏蔽底层异构GPU硬件的差异，给用户更多的硬件选择，避免形成厂商依赖，进而更好地平衡性能和成本。 三．终结GPU虚拟化乱象的利器 由于GPU虚拟化技术能有效解决大模型时代GPU资源利用率不足、系统可靠性、业务快速上线、资源弹性动态拓展和异构算力兼容等方面的众多问题，国内外相关厂商纷纷入局并投入大量的人力和资源，相继推出了自研的GPU虚拟化产品。在传统的“一虚多”GPU虚拟化方面，上海交通大学教授戚正伟团队与Intel合作在开源GPU虚拟化上面做了一系列相关成果（如gScale和gMig）；英伟达也提出了基于SR-IOV的Multi-Instance GPU(MIG) 闭源虚拟化方案。在虚拟化资源复用方面，当前业界的实现方式大致可以分为两类，其一是基于时间片调度的方式，典型的如阿里云的cGPU和腾讯云的qGPU方案；其二是基于空间复用的并行执行方案，如英伟达的MPS方案。然而，目前各厂商在GPU虚拟化上“各自为阵”，也导致了不同厂商的虚拟化产品对不同硬件的兼容性差，产生“七国八治”的适配问题。面对当前AI大模型时代GPU虚拟化“各自为阵、七国八治”的乱象，戚正伟团队在中国开源大会上提出的openCoDA统一框架是一个可行的解决方案。该框架包含统一标准化接口、虚拟化统一框架(UVF)、以及开放自主的协议栈, 其中UVF是其核心组件。

图6. openCoDA整体框架具体来讲，UVF提供算力切分、弹性收缩、资源聚合等虚拟化核心能力，向上提供统一的用户态驱动接口，实现国产南北向生态解耦；在软件上屏蔽异构硬件的差异，硬件厂商无需做额外软件适配的工作。各厂商可以根据开源框架，结合XPU硬件特点进行优化，挖掘各自硬件优势。

四．“工程派”崛起，大模型时代虚拟化技术再焕新生

大模型技术百花齐放的时代，以虚拟化为代表的、面向工程实践落地的“工程派”将又一次焕发出勃勃生机。当前中国硬件算力面临封锁的困难时期，产学研各界更应该联合起来，构建面向国产GPU虚拟化的开源生态，并通过核心组件开源，避免重复投入、避免厂商锁定，形成标准化统一接口，挖掘硬件性能形成差异化优势，真正解决大模型从技术创新到工程应用的最后一公里问题。

虚拟化,GPU,大模型

喜欢作者我要约稿