关注公众号

关注公众号

手机扫码查看

手机查看

喜欢作者

打赏方式

微信支付微信支付
支付宝支付支付宝支付
×

Sora很惊艳,但“实现AGI”言之过早

2024.2.21

  2月15日,一手缔造了ChatGPT的OpenAI再放“大招”,发布了其第一个文生视频大模型Sora。在官方分享的演示视频中,该模型可以根据用户输入的提示词,生成长达一分钟连贯稳定的高清视频。

  虽然Sora还未公开应用,但已引发大量关注。原因无他,OpenAI发布的演示视频一度让人们无法分辨这是人为摄制的还是人工智能(AI)生成的作品,以至于许多人评价它们“毫无AI感”。

  国内外的圈内“大佬”纷纷下场对Sora给出肯定的回应。2月16日,360公司创始人周鸿祎发表千字长文点赞,指出Sora展现的是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破……这就离AGI(通用人工智能)真的不远了,不是10年或20年的问题,可能一两年就可以实现。埃隆·马斯克则在一条分享Sora生成视频的帖子下回复:“gg humans(人类完蛋了)。”

  媒体纷纷引用这些评价,并将Sora与“世界模型”“通用人工智能”等词语联系起来,大有Sora已扫清通往AGI障碍之势。

  笔者翻看了OpenAI发布的Sora生成的48个演示视频,被其逼真的画面、富有想象力的场景、多视角的流畅切换等所震撼。相比2023年Runway、Pika等发布的AI视频,Sora在时长、精细度、真实性等方面均取得了长足进步。

  但这就是“世界模型”乃至AGI的终章吗?笔者认为言之尚早。

  首先,尽管Sora能够生成真假难辨的视频内容,但这并不能证明AI已经掌握物理规律、理解运动中的物理世界。换言之,Sora的出色仅体现在它作为文生视频工具的能力方面,并不代表它具备了实现AGI的潜力。

  根据OpenAI官网介绍,Sora的成功,在于OpenAI团队对如何在视频数据上进行大规模生成模型训练进行了探索。团队从大语言模型(LLM)中汲取了灵感——将各种类型的视觉数据转化为统一的表示方法“patch”(类似于LLM中的token),以便进行大规模生成模型的训练。

  这种工程技术上的进步,使得大模型能够输出让人眼前一亮的结果。但这并不能证明Sora在视觉数据训练中掌握了人类世界的全部知识,更无法佐证其“炼成”了“世界模型”。

  细心的网友肯定发现了Sora演示视频中一些有违常理的画面,如动物无缘无故增加或消失、物体反重力上升等,这正符合其作为生成式AI工具“不会对发现知识、生成数据中的错误风险负责”的预期。

  OpenAI也称,Sora模型还存在许多不足,比如它无法准确模拟诸如玻璃碎裂、人们吃东西等许多基本交互的物理效应。显然,Sora并没有掌握世界的运转规律,比如动量守恒、摩擦作用、不同材料的密度不同、物质不可瞬移等,可见它并非“世界模型”。事实上,目前学界对“世界模型”的定义众说纷纭,更不要提“炼成”了。

  其次,Sora的生成效果和效率有待商榷。目前,出于多方面的考虑,Sora仅面向少数艺术家和开发者开放,并未面向公众开放应用。当前OpenAI发布的演示视频大概率是精挑细选出来的“优品”,并不能代表Sora的真实表现。

  一类工具或一种生产方式是否可用、好用,并不取决于它是否产生了令人眼前一亮的效果,而是取决于它能否给出消灭不确定性的保证、降低工作产出的方差。人们往往更愿意为了保证稳定性而换取一些效果的下降。而以Sora为代表的AI工具是否能够持续减少不确定性,目前还存在巨大疑问。从这个角度来说,Sora尽管表现亮眼,但我们仍应观其后效。

  AGI是AI领域科学家为之奋斗的最高目标。北京通用人工智能研究院院长朱松纯这样描述AGI:它需要在复杂动态的物理和社会环境中满足3个关键要求——处理无限任务、具备自主性、具备价值系统(由价值驱动完成各类任务)。这背后的核心是AI系统要具备相当的“认知架构”,即人类所熟知的常识、共同的行动规范和价值观。

  从这些描述中可知,当下实现AGI的难度巨大。事实上,OpenAI在提及AGI时的用词十分考究:“Sora是理解和模拟现实世界模型的基础,而这一能力将是实现AGI的重要里程碑。”

  对AI技术的阶段性突破表示高度赞赏是人之常情,但动辄言及“实现AGI”“人类gg”这类溢美之词,反而可能产生副作用,稍不留神就会造成误读。AI的确是非常开放的空间,人们对通过这一技术路线开发出的产品充满想象,但是如今AI已经与人类的经济、政治、文化、伦理等系统深度融合,因此对AI技术突破的评价,还是严谨为宜。

推荐
关闭