分析测试百科网 > 行业资讯 > 焦点事件

Sora很惊艳，但“实现AGI”言之过早

2024.2.21

　　2月15日，一手缔造了ChatGPT的OpenAI再放“大招”，发布了其第一个文生视频大模型Sora。在官方分享的演示视频中，该模型可以根据用户输入的提示词，生成长达一分钟连贯稳定的高清视频。

　　虽然Sora还未公开应用，但已引发大量关注。原因无他，OpenAI发布的演示视频一度让人们无法分辨这是人为摄制的还是人工智能（AI）生成的作品，以至于许多人评价它们“毫无AI感”。

　　国内外的圈内“大佬”纷纷下场对Sora给出肯定的回应。2月16日，360公司创始人周鸿祎发表千字长文点赞，指出Sora展现的是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破……这就离AGI（通用人工智能）真的不远了，不是10年或20年的问题，可能一两年就可以实现。埃隆·马斯克则在一条分享Sora生成视频的帖子下回复：“gg humans（人类完蛋了）。”

　　媒体纷纷引用这些评价，并将Sora与“世界模型”“通用人工智能”等词语联系起来，大有Sora已扫清通往AGI障碍之势。

　　笔者翻看了OpenAI发布的Sora生成的48个演示视频，被其逼真的画面、富有想象力的场景、多视角的流畅切换等所震撼。相比2023年Runway、Pika等发布的AI视频，Sora在时长、精细度、真实性等方面均取得了长足进步。

　　但这就是“世界模型”乃至AGI的终章吗？笔者认为言之尚早。

　　首先，尽管Sora能够生成真假难辨的视频内容，但这并不能证明AI已经掌握物理规律、理解运动中的物理世界。换言之，Sora的出色仅体现在它作为文生视频工具的能力方面，并不代表它具备了实现AGI的潜力。

　　根据OpenAI官网介绍，Sora的成功，在于OpenAI团队对如何在视频数据上进行大规模生成模型训练进行了探索。团队从大语言模型（LLM）中汲取了灵感——将各种类型的视觉数据转化为统一的表示方法“patch”（类似于LLM中的token），以便进行大规模生成模型的训练。

　　这种工程技术上的进步，使得大模型能够输出让人眼前一亮的结果。但这并不能证明Sora在视觉数据训练中掌握了人类世界的全部知识，更无法佐证其“炼成”了“世界模型”。

　　细心的网友肯定发现了Sora演示视频中一些有违常理的画面，如动物无缘无故增加或消失、物体反重力上升等，这正符合其作为生成式AI工具“不会对发现知识、生成数据中的错误风险负责”的预期。

　　OpenAI也称，Sora模型还存在许多不足，比如它无法准确模拟诸如玻璃碎裂、人们吃东西等许多基本交互的物理效应。显然，Sora并没有掌握世界的运转规律，比如动量守恒、摩擦作用、不同材料的密度不同、物质不可瞬移等，可见它并非“世界模型”。事实上，目前学界对“世界模型”的定义众说纷纭，更不要提“炼成”了。

　　其次，Sora的生成效果和效率有待商榷。目前，出于多方面的考虑，Sora仅面向少数艺术家和开发者开放，并未面向公众开放应用。当前OpenAI发布的演示视频大概率是精挑细选出来的“优品”，并不能代表Sora的真实表现。

　　一类工具或一种生产方式是否可用、好用，并不取决于它是否产生了令人眼前一亮的效果，而是取决于它能否给出消灭不确定性的保证、降低工作产出的方差。人们往往更愿意为了保证稳定性而换取一些效果的下降。而以Sora为代表的AI工具是否能够持续减少不确定性，目前还存在巨大疑问。从这个角度来说，Sora尽管表现亮眼，但我们仍应观其后效。

　　AGI是AI领域科学家为之奋斗的最高目标。北京通用人工智能研究院院长朱松纯这样描述AGI：它需要在复杂动态的物理和社会环境中满足3个关键要求——处理无限任务、具备自主性、具备价值系统（由价值驱动完成各类任务）。这背后的核心是AI系统要具备相当的“认知架构”，即人类所熟知的常识、共同的行动规范和价值观。

　　从这些描述中可知，当下实现AGI的难度巨大。事实上，OpenAI在提及AGI时的用词十分考究：“Sora是理解和模拟现实世界模型的基础，而这一能力将是实现AGI的重要里程碑。”

　　对AI技术的阶段性突破表示高度赞赏是人之常情，但动辄言及“实现AGI”“人类gg”这类溢美之词，反而可能产生副作用，稍不留神就会造成误读。AI的确是非常开放的空间，人们对通过这一技术路线开发出的产品充满想象，但是如今AI已经与人类的经济、政治、文化、伦理等系统深度融合，因此对AI技术突破的评价，还是严谨为宜。

OpenAI sora chatgpt openai 文生视频大模型

中国科学报

喜欢作者我要约稿