OpenAI 预告惊人的全新生成视频模型 Sora

OpenAI 预告了惊人的全新生成视频模型 Sora，该模型基于之前对 DALL-E 和 GPT 模型的研究；Sora 能够根据文本指令生成长达 60 秒的视频，并能提供包含多个角色、特定动作类型和详细背景细节的场景；Sora 还可以在生成的视频中创建多个镜头。全球人工智能模型领导者 OpenAI 推出了一款名为 Sora 的模型，可以根据文本指令即时生成短视频。早在 2023 年，在竞争激烈的多模态 AI 模型竞赛中，谷歌、Meta 等公司以及 Runway 和 Pika Labs 等初创公司也曾发布过类似模型。然而，OpenAI 展示的视频因其高质量而持续受到关注。另请阅读：OpenAI 通过新更新治愈 GPT-4“懒惰”。Sora 可以与现实世界互动。目前，OpenAI 官网上关于 Sora 的信息有限。OpenAI 已公开记录了训练模型源材料的背景信息，仅表示：‘我们正在教导 AI 理解和模拟运动中的物理世界，旨在训练模型帮助人们解决需要与现实世界互动的问题。’ OpenAI 声称，Sora 可以根据文本描述生成长达 60 秒的视频，并能提供包含多个角色、特定动作类型和详细背景细节的场景。Sora 还可以在生成的视频中创建多个镜头，展示角色和视觉风格。此外，Sora 可以一次生成整个视频或延长生成的视频以使其更长。OpenAI 表示：‘通过让模型一次生成多个帧，我们解决了一个具有挑战性的问题：确保主体即使暂时不可见也能保持一致。’ OpenAI 也承认当前的 Sora

模型存在弱点。它可能难以准确模拟复杂场景中的物理现象，并可能无法理解特定的因果关系。例如，一个人咬了一口饼干，但咬后饼干上可能没有痕迹。该模型还可能混淆所提及的空间细节，例如左右，并可能难以准确描述随时间发生的事件，例如遵循特定的相机轨迹。安全方面无需担忧。关于 OpenAI 首席执行官 Sam Altman 一直致力解决的 AI 安全问题，OpenAI 表示：‘目前，Sora 已提供给‘红队成员’（那些对 AI 大模型的潜在有害输出进行‘红队测试’的人），以评估关键领域的危害或风险。我们还允许一些视觉艺术家、设计师和电影制作人访问，以收集关于如何改进模型的反馈，使其对创意专业人士最有帮助。’ OpenAI 指出，Sora 建立在过去对 DALL-E 和 GPT 模型的研究基础上。它采用了 DALL·E 3 的技术，使其能够在生成的视频中更忠实地遵循用户的文本指令。除了从头生成视频外，该模型还可以根据现有的静态图像生成视频，并准确、精细地为图像内容制作动画。该模型还可以提取现有视频并延长或填充缺失的帧。目前，OpenAI 网站已更新了 48 个由 Sora 生成的演示视频，色彩鲜艳，效果逼真。

OpenAI 预告惊人的全新生成视频模型 Sora

运营领域

时间线

概要

功能说明

重要性

关注事项

深度档案背景

战略圈

领导联盟

战略圈简报

领导联盟简报

公开视角

观察点

限制说明

常见问题

为什么收录 OpenAI 预告惊人的全新生成视频模型 Sora？

这个档案的公开部分是什么？

读者接下来应关注什么？