OpenAI 预告了惊人的全新生成视频模型 Sora,该模型基于之前对 DALL-E 和 GPT 模型的研究;Sora 能够根据文本指令生成长达 60 秒的视频,并能提供包含多个角色、特定动作类型和详细背景细节的场景;Sora 还可以在生成的视频中创建多个镜头。全球人工智能模型领导者 OpenAI 推出了一款名为 Sora 的模型,可以根据文本指令即时生成短视频。早在 2023 年,在竞争激烈的多模态 AI 模型竞赛中,谷歌、Meta 等公司以及 Runway 和 Pika Labs 等初创公司也曾发布过类似模型。然而,OpenAI 展示的视频因其高质量而持续受到关注。另请阅读:OpenAI 通过新更新治愈 GPT-4“懒惰”。Sora 可以与现实世界互动。目前,OpenAI 官网上关于 Sora 的信息有限。OpenAI 已公开记录了训练模型源材料的背景信息,仅表示:‘我们正在教导 AI 理解和模拟运动中的物理世界,旨在训练模型帮助人们解决需要与现实世界互动的问题。’ OpenAI 声称,Sora 可以根据文本描述生成长达 60 秒的视频,并能提供包含多个角色、特定动作类型和详细背景细节的场景。Sora 还可以在生成的视频中创建多个镜头,展示角色和视觉风格。此外,Sora 可以一次生成整个视频或延长生成的视频以使其更长。OpenAI 表示:‘通过让模型一次生成多个帧,我们解决了一个具有挑战性的问题:确保主体即使暂时不可见也能保持一致。’ OpenAI 也承认当前的 Sora

模型存在弱点。它可能难以准确模拟复杂场景中的物理现象,并可能无法理解特定的因果关系。例如,一个人咬了一口饼干,但咬后饼干上可能没有痕迹。该模型还可能混淆所提及的空间细节,例如左右,并可能难以准确描述随时间发生的事件,例如遵循特定的相机轨迹。安全方面无需担忧。关于 OpenAI 首席执行官 Sam Altman 一直致力解决的 AI 安全问题,OpenAI 表示:‘目前,Sora 已提供给‘红队成员’(那些对 AI 大模型的潜在有害输出进行‘红队测试’的人),以评估关键领域的危害或风险。我们还允许一些视觉艺术家、设计师和电影制作人访问,以收集关于如何改进模型的反馈,使其对创意专业人士最有帮助。’ OpenAI 指出,Sora 建立在过去对 DALL-E 和 GPT 模型的研究基础上。它采用了 DALL·E 3 的技术,使其能够在生成的视频中更忠实地遵循用户的文本指令。除了从头生成视频外,该模型还可以根据现有的静态图像生成视频,并准确、精细地为图像内容制作动画。该模型还可以提取现有视频并延长或填充缺失的帧。目前,OpenAI 网站已更新了 48 个由 Sora 生成的演示视频,色彩鲜艳,效果逼真。