• OpenAI 选择将 Sora 提供给独立安全测试人员,体现了他们致力于解决逼真假视频潜在滥用问题的决心。
  • 结合 OpenAI 的旗舰文本到图像模型和 transformer 神经网络,Sora 团队引入了一种从文本输入生成视频的新颖方法。

OpenAI 最近发布了一款名为 Sora 的开创性生成视频模型,展示了其将简短文本描述转换为长达一分钟的详细高清视频片段的能力。这项创新技术标志着文本到视频生成领域的重大进步,体现了 OpenAI 致力于开发能够理解我们世界中复杂交互的 AI 系统的承诺。

OpenAI 在发布尖端技术时的谨慎态度

Tim Brooks,OpenAI 的一位科学家,强调了构建能够理解视频内容的模型的重要性,突出了对未来 AI 发展的潜在影响。该公司在严格保密条件下发布 Sora 的决定,彰显了他们在发布这项尖端技术时的谨慎态度。

尽管先前的生成视频模型通常会产生故障和颗粒感,但 Sora 以其高清输出和对细节的关注脱颖而出。OpenAI 演示了 Sora 创建具有 3D 物体交互和无缝场景过渡的视频的能力,展示了在处理遮挡(现有模型中的一个常见挑战)方面的进步。

另请阅读:OpenAI 通过新更新解决 GPT-4 “懒惰” 问题

提升 Sora 的长期连贯性

尽管 Sora 功能强大,但它并非没有局限性。Brooks 承认在长期连贯性方面有待改进,即当物体长时间离开画面时,模型可能难以保持一致性。OpenAI 决定与第三方安全测试人员共享 Sora,体现了他们致力于应对逼真假视频潜在滥用问题的决心。

DALL·E 3 是 OpenAI 开发的文本到图像模型,利用深度学习方法从自然语言描述生成数字图像。通过将 DALL-E 3(OpenAI 的旗舰文本到图像模型)的元素与 transformer 神经网络相结合,Sora 团队引入了一种从文本输入生成视频的新颖方法。这种独特的方法允许 Sora 以分段块的形式处理视频数据,从而能够在分辨率、持续时间和方向等多种视频类型上进行训练。

另请阅读:OpenAI 发布 ChatGPT 语音功能,拿 CEO 风波开玩笑,同时有信件表达对 AGI 的担忧

在创新与负责任使用之间取得平衡

Witness 的执行董事 Sam Gregory 称赞了 Sora 背后的技术创新,但警告了与生成视频技术相关的风险。他强调了在操控逼真视频内容方面可能存在的错误信息和滥用风险,强调了在内容创作和传播中采取主动保护措施的重要性。

在 OpenAI 应对确保 Sora 负责任部署的挑战过程中,该公司已经实施了过滤器来阻止不当内容的请求,并计划将假图像检测机制和行业标准元数据标签集成到模型输出中。尽管有这些措施,合成内容创作的不断演变格局为维护内容完整性和减轻滥用风险带来了持续挑战。