关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

大模型走出“象牙塔”,这项技术将扮演关键角色

2023.12.29

原文地址:http://news.sciencenet.cn/htmlnews/2023/12/515125.shtm

ChatGPT将AI带入了大模型时代,开启了IT技术新纪元。一时间,大模型领域的技术创新有如雨后春笋、不断涌现,其中关注度最高的当属大模型本身。

当下大模型领域上演的“百模大战”方兴未艾,其本质上是为了抢占大模型时代的入口,可以称之为“魔派”。次之为,模型的开发平台旨在为大模型时代提供训练、精调、优化,数据的清洗、知识库的生成等功能,它们意图成为大模型时代的“卖铲人”,可称之为“铲派”。此外,作为大模型训练的根基,GPU、NPU、DPU等各种芯片技术的研究自然也是热点,尤其是在英伟达一家独大之际,如何打破垄断,技术扎到根?这一派可称之为“根派”。

在“魔派”“铲派”和“根派”诸家争鸣、群雄逐鹿之时,我们也注意到更多人开始关注大模型的工程落地技术,如何让大模型走出“象牙塔”、走进千行百业,走出“吟诗作对”、走向工程实践?这其中,关于GPU的虚拟化技术研究最值得关注。 近日,在中国开源大会上,上海交通大学推出GPU虚拟化统一框架openCoDA,呼吁产学研联合构建统一开放的国产 GPU 虚拟化生态,并率先在华为的训推超融合一体机 FusionCube A3000上进行了工程实践,给人留下了深刻的印象。 虚拟化并非新兴技术,早在CPU算力时代就是解决IT技术从创新到工程落地的关键一环。那么在大模型时代,虚拟化技术又将扮演什么角色?发挥什么作用?要回答这些问题,我们首先要回顾一下虚拟化技术,以及虚拟化在CPU时代的精彩故事。

一.什么是虚拟化?CPU虚拟化是如何走向统一的?

提到虚拟化,首先自然想到的是CPU虚拟化。 20世纪70年代,微型计算机技术飞速发展,但在x86时代早期,市场并没有虚拟化需求。随着半导体技术的发展,大量的廉价硬件被推向市场,随之带来了诸如利用率不足、管理成本攀升、容易受到攻击等各种问题。为了解决上述问题,人们开始研究CPU虚拟化。 CPU虚拟化可以用单个CPU模拟多CPU并行,显著提高计算机工作效率。此外借助虚拟化技术可以扩大硬件容量、简化软件配置过程、提高系统可靠性。自20世纪90年代到2010年代的20年间,各厂商纷纷投入巨大的资源和人力,相继推出了不同的CPU虚拟化产品。在这个过程中,出现了资源重复投入的“乱象”。直到内核虚拟机(Kernel-based Virtual Machine, KVM)的出现,CPU虚拟化从百家争鸣逐渐走向统一开放。 KVM最初是由Qumranet公司开发, 于2007年被红帽收购。作为Linux内核的一个集成模块,其源码包含在Linux内核源代码树中,并在Linux社区以GPL许可协议开源。由于KVM直接融入Linux内核使其天然支持Linux, 且具有更简单、更轻量、更灵活的优点,IBM、红帽、惠普、Intel等厂商联合起来成立了虚拟化联盟,大力推动KVM市场化,使得KVM统一了CPU时代虚拟化。
658e3a11e4b03b5da6d063dd.jpg

  ?

图1. KVM终结了CPU x86时代百家争鸣、重复投入的“乱象”

二.AI大模型时代,虚拟化的需求再次迸发

智能时代,大模型横空出世,以GPU为代表的XPU硬件构成了各类大模型应用的底层算力。面对动辄上亿参数量的大模型训练和推理任务,传统的GPU独占的使用方式已无法满足如此大规模的算力需求,因此虚拟化的需求再次出现,人们开始将目光转向GPU虚拟化。

一项来自艾瑞咨询的调查报告显示,中国AIGC产业的规模逐年攀升,2023年中国AIGC产业规模约为143亿元,随后将进入大模型生态培育期。预计到2030年,中国AIGC产业规模有望突破万亿,达到11440亿元。 

658e3a5ce4b03b5da6d063df.jpg

  ?

图2. 2022-2030年中国AIGC产业规模。图片来源:艾瑞咨询《2023年中国AIGC产业全景报告》

大模型的参数量日益增长甚至达到万亿级别,对算力的需求也与日俱增。《2022-2023中国人工智能计算力发展评估报告》显示,2021年中国智能算力规模达155.2 EFLOPS(FP16), 预计到2026年中国智能算力规模将达1271.4 EFLOPS,年复合增长率预计高达52.3%。

658e3b1ae4b03b5da6d063e5.png

  ?

图3. 我国智能算力发展状况。图片来源:国家信息中心《智能计算中心创新发展指南》

然而面对大模型对底层算力庞大需求的现状,以GPU为代表的XPU硬件算力却严重不足。 其主要原因有三。一是GPU硬件昂贵,配备8张英伟达A100显卡的服务器价格高达上百万元;二是英伟达高算力GPU等硬件获取困难;三是现有的GPU资源利用率极低,在推理任务场景,大部分AI业务采用独占GPU的方式使用算力,导致GPU利用率只有10%~30%。 因此,在当前GPU硬件获取困难且昂贵的情况下,通过GPU虚拟化技术提高GPU资源利用率是解决算力需求的有效手段。 GPU虚拟化技术演进路线大致可以分为三个阶段,第一阶段是传统“一虚多”虚拟化,指将物理GPU按照固定比例切分,例如按照2的指数次方切分为多个虚拟vGPU。第二阶段是内核劫持虚拟化,是指将物理GPU从算力和显存两个维度进行切分,相比传统虚拟化,内核劫持虚拟化可以按照1%的细粒度将物理GPU切分为多个vGPU。第三个阶段是GPU资源池化,用户可以通过网络远程调用GPU资源,从而在软件层面实现vGPU动态切分。
658e3aa9e4b03b5da6d063e3.jpg

  ?

图4. GPU虚拟化的技术演进路线及典型技术示意图 此外,当大模型普遍具有万亿规模的参数量,训练一个大模型的时间通常需要几十甚至上百天,如此长时间训练对系统可靠性提出了极高的要求。独占GPU的使用方式无法抵御突发的硬件故障,一旦GPU发生故障就会导致整个训练任务中断。但通过将物理GPU虚拟化成算力资源池,能够实现对底层硬件故障的隔离,可有效降低单个GPU故障导致模型训练及推理业务中断的风险,进而提高了大模型业务的稳定性和系统可靠性。 GPU虚拟化的另一个重要能力是支持无损热迁移。 在对GPU服务器设备做维护时,传统直通式GPU上运行的AI业务进程必须中断;而且在对活跃的AI业务跨设备迁移到高性能GPU服务器时,也会面临大量的数据搬运工作。但通过GPU虚拟化提供的无损热迁移能力,在对物理GPU服务器下线维护前,可以将虚拟vGPU的运行状态保存下来,并快速将vGPU迁移到正常运行的服务器,实现业务不中断运行。管理员也可以根据实时AI负载,将正在活跃运行的vGPU实时不中断地迁移到更高性能的服务器上做业务加速,从而优化不同活跃度vGPU之间的资源分配。另外,借助无损热迁移能力,还可以动态调整分配到不同节点的硬件资源份额,从而均衡使用各节点算力。
658e3b47e4b03b5da6d063e7.jpg

  ?

图5.无损热迁移 (a)保障设备维护时业务不间断; (b)实现不同节点之间负载均衡 此外,通过GPU虚拟化技术可以显著加快AI大模型训练及业务部署上线速度。 通过GPU虚拟化技术,可以突破单节点GPU卡资源上限,整合碎片化算力资源,提供跨节点的多卡能力,进而大幅缩短模型训练周期。GPU虚拟化平台也可以创建标准化的虚拟vGPU配置模板,包含预定义的计算、内存和存储等资源,用户可以基于预设的模板一键式部署,快速在虚拟vGPU上部署并上线业务。 在对资源扩缩容和异构算力兼容方面,相比传统直通式GPU,虚拟化GPU也有着明显优势。 虚拟化技术可以动态添加或删除虚拟vGPU来支持弹性扩缩容需求,当需要增加AI业务时,可以简单地添加更多vGPU来扩展资源能力,无需购买新的物理GPU;当需求减少时,也可以动态回收vGPU以节省成本。其次,虚拟化技术也可以屏蔽底层异构GPU硬件的差异,给用户更多的硬件选择,避免形成厂商依赖,进而更好地平衡性能和成本。 三.终结GPU虚拟化乱象的利器 由于GPU虚拟化技术能有效解决大模型时代GPU资源利用率不足、系统可靠性、业务快速上线、资源弹性动态拓展和异构算力兼容等方面的众多问题,国内外相关厂商纷纷入局并投入大量的人力和资源,相继推出了自研的GPU虚拟化产品。 在传统的“一虚多”GPU虚拟化方面,上海交通大学教授戚正伟团队与Intel合作在开源GPU虚拟化上面做了一系列相关成果(如gScale和gMig);英伟达也提出了基于SR-IOV的Multi-Instance GPU(MIG) 闭源虚拟化方案。在虚拟化资源复用方面,当前业界的实现方式大致可以分为两类,其一是基于时间片调度的方式,典型的如阿里云的cGPU和腾讯云的qGPU方案;其二是基于空间复用的并行执行方案,如英伟达的MPS方案。 然而,目前各厂商在GPU虚拟化上“各自为阵”,也导致了不同厂商的虚拟化产品对不同硬件的兼容性差,产生“七国八治”的适配问题。 面对当前AI大模型时代GPU虚拟化“各自为阵、七国八治”的乱象,戚正伟团队在中国开源大会上提出的openCoDA统一框架是一个可行的解决方案。该框架包含统一标准化接口、虚拟化统一框架(UVF)、以及开放自主的协议栈, 其中UVF是其核心组件。
658e3b68e4b03b5da6d063e9.jpg

  ?

图6. openCoDA整体框架 具体来讲,UVF提供算力切分、弹性收缩、资源聚合等虚拟化核心能力,向上提供统一的用户态驱动接口,实现国产南北向生态解耦;在软件上屏蔽异构硬件的差异,硬件厂商无需做额外软件适配的工作。各厂商可以根据开源框架,结合XPU硬件特点进行优化,挖掘各自硬件优势。

四.“工程派”崛起,大模型时代虚拟化技术再焕新生

大模型技术百花齐放的时代,以虚拟化为代表的、面向工程实践落地的“工程派”将又一次焕发出勃勃生机。 当前中国硬件算力面临封锁的困难时期,产学研各界更应该联合起来,构建面向国产GPU虚拟化的开源生态,并通过核心组件开源,避免重复投入、避免厂商锁定,形成标准化统一接口,挖掘硬件性能形成差异化优势,真正解决大模型从技术创新到工程应用的最后一公里问题。
推荐
关闭