• Sora 是 OpenAI 发布的视频生成模型,能够根据输入的文本提示生成逼真的视频,引发了广泛的关注和讨论。
  • 虽然 Sora 代表了人工智能领域的重大里程碑,但彻底取代人类或颠覆现实的想法仍为时过早,关键挑战在于构建精确且可泛化的世界模型。
  • AI 是一种工具,是人类为辅助解决问题而创造的技术。就目前而言,只要 AI 缺乏自我意识,它就不会拥有“原创性”,仅仅是对人类现有知识进行整理。

OpenAI 于 2 月 16 日凌晨发布了文本转视频模型 Sora,在科技和媒体圈引起了一系列震惊和感叹。一时间,OpenAI 官网上发布的 Sora 生成的爆炸性视频在网上广泛流传。利用 Sora,只需输入文字提示,即可获得长达 60 秒的视频,其中包含细致复杂的场景、生动的人物表情和复杂的镜头运动,几乎与现实无异。网友们惊呼 AI 将颠覆影视、短视频、游戏等行业,甚至有人夸张地说“现实世界已不复存在!”人类被 AI 取代的远景似乎更加接近。

这一事件让我们惊叹于 Sora 引发的技术革命新浪潮,或许很快将降低普通人制作视频的门槛,复杂的拍摄和剪辑工作将被忽略,人们的想象力和创意成为视频内容竞争力最根本的来源。因此,“一人公司”和极小规模团队也能完成以前需要巨大人力和成本的电影和视频内容。技术浪潮既带来了赞叹与期待,也带来了被取代和被粉碎的担忧。

推荐阅读: 20 家科技巨头签署协议打击 AI 干预选举

Sora 不理解物理世界,缺乏“世界模型”

然而,近日我观察到,站在技术前沿的科学家和许多业内人士仍在重点讨论 Sora 的“世界模型”问题。Sora 生成的视频具有极其逼真的视觉效果和连贯性,有些几乎与人类创作的视频难以区分。这并不简单;它要求机器理解现实世界的结构、细节、运动轨迹以及光影变化,同时不违背人类认知。一些人认为 Sora 理解了物理世界,具备了“世界模型”的雏形。AI 的世界模型可以看作是它的心智模型,反映了人工智能系统对自身和外部世界的理解与预期。以人类世界模型为例,“模型”一词意味着我们理解的所有知识并非存储为一堆事实,而是组织成一个反映世界及其内容的结构。我们不会记住关于每件物品的一系列事实,而是在大脑中构建无数模型,比如“城门”模型和“髋骨轴”模型,每个模型都有各自的形状、排列方式,以及各部分如何移动和协同工作。为了识别某物,我们了解其外观和质地;为了达成目标,我们理解事物在与人交互时的典型行为,比如苹果被咬一口后会留下什么样的咬痕。然而,许多科学家认为 Sora 并不理解物理世界,也缺乏“世界模型”。

图灵奖得主 Yann LeCun 认为,仅仅根据提示生成逼真的视频,并不一定表明模型理解了物理世界;视频生成的过程与基于世界模型的因果预测完全不同。

深度学习框架“Keras”的作者、谷歌人工智能研究员 Francois Chollet 认为,类似 Sora 的模型可能确实嵌入了“物理模型”,但问题在于:这个物理模型准确吗?它能否泛化到新场景,而不仅仅是对训练数据进行插值?

Sora 生成的视频确实存在一些瑕疵,例如蚂蚁在巢穴中爬行的主观视角镜头,仔细看只能看到四条腿;一个人在跑步机上跑步的视频方向是反的;以及“一只大鸭子走过波士顿街道”的视频中,鸭子踩到了一个人。

英伟达高级研究科学家 Jim Fan 对这一问题给出了两种可能的解释:(1) 模型可能缺乏对物理的理解,只是随机组合图像像素;或者 (2) 模型试图构建一个内部物理引擎,但性能欠佳。

业内人士认为,Sora 采用了“暴力”方法,利用大量数据、大模型和巨大算力,底层使用已在游戏、自动驾驶和机器人领域验证的世界模型来构建文本转视频模型,使其能够模拟世界。

然而,这类似于通过大量“读图”来学习世界规律,这种方式虽然合理,但无法学到可以通过物理学推导出的世界定律,比如牛顿定律。

归根结底,人类发明飞机并非通过模仿鸟类,而是通过理解空气动力学。Sora 确实标志着人工智能的又一个里程碑,有望极大地简化人类劳动,减少人类的“工具属性”,并帮助或部分承担某些任务。然而,真正的取代人类或颠覆现实似乎为时过早。

推荐阅读: AI 聊天机器人能做 700 人的工作吗?


小测验

Sora 生成的视频最长可以达到多久?

A. 60 秒

B. 2 分钟

C. 4 分钟

D. 10 分钟

正确答案在文章底部。


AIGC 可能成为强原创内容创作者的利器

AIGC(包括但不限于 Sora)的进一步发展,将推动洗牌过程朝着更有利于多样性的方向演进。我们可以用一个高度简化的分析模型,将互联网原生内容创作者的能力分为两个方向。第一,热点敏感度,指追逐热点话题和趋势的能力。无疑,在任何时刻,大部分社交媒体流量都集中在极少数热点上。把握这些热点的能力决定了创作者的短期爆发力,用更时髦的话说,就是“病毒式传播潜力”。第二,内容调性,指内容的独特性和不可替代性。有些创作者的内容令人过目难忘,带有鲜明的个人印记,竞争对手无法模仿。他们是否拥有足够的不可替代的调性,决定了创作者的持久力,或者我们所说的“可持续性”或“粉丝粘性”。

AIGC 将有利于那些擅长内容调性并逐渐积累人气的小众内容创作者,而不利于那些依靠追逐热点获得短暂热度的人。在 AIGC 时代,追逐热点将不再是内容创作者的核心竞争优势,因为做这件事的门槛降低了。因此,内容调性的重要性将进一步上升,可能成为唯一的制胜法宝。

热点话题的及时报道将主要成为 AI 的任务,主要竞争在于 AIGC 的效率,因此任何人都很难脱颖而出。然而,对于核心竞争力在于调性的内容创作者来说,AIGC 可以成为一种强有力的新武器。互联网用户仍然有追逐热点的天然倾向,但他们将越来越需要的不是及时的内容,而是独特的解读或深入的分析。

就像足球爱好者已将注意力从快速、全面的新闻报道转向深入的比赛分析和互动娱乐节目一样。优质的小众创作者可以与 AI 合作:前者专注于调性,即所谓的“灵感闪现”;后者处理重复性任务,在内容行业被称为“苦力活”。

AI 还有很长的路要走

Sora 是一个游戏规则改变者。了解好莱坞的运作方式后,他们肯定会试图用它来取代工作。但它是一个工具,有些人会抓住它并充分利用,有些人则不会。我还没有见过任何充满人类情感的 AI;目前看来都相当令人毛骨悚然。直到它能让人类感受到情感,它才会成为真正的威胁。

Lee Romaire,创意制作人,艾美奖得主

AI 是一种工具,是人类为解决问题而创造的技术手段。就目前而言,只要 AI 没有发展出自我意识,它就不会拥有“原创性”,而只是收集和整理人类现有的知识。即使是像 ChatGPT 这样先进的生成式 AI 也不例外。

艾美奖得主 Lee Romaire 分享了他的观点,他说:“Sora 是一个游戏规则改变者。了解好莱坞的运作方式后,他们肯定会试图用它来取代工作。但它是一个工具,有些人会抓住它并充分利用,有些人则不会。我还没有见过任何充满人类情感的 AI;目前看来都相当令人毛骨悚然。直到它能让人类感受到情感,它才会成为真正的威胁。”

OpenAI 已经披露了 Sora 的技术细节,透露其技术路线图继承自之前发布的文本转图像模型。虽然有一些创新,但并非革命性的。至少在当前环境下,Sora 不太可能产生真正的“原创性”,其生成视频的效率和说服力仍然严重依赖用户的“训练”。


正确答案是 A。