- Veo 能够生成超过 60 秒的高质量 1080p 视频,风格涵盖逼真、超现实和动画等。
- Veo 提供无与伦比的创意控制,能够解读电影术语,从而根据文本实现精确的视频编辑,并能编辑 AI 生成的视频。
- 谷歌通过将全面描述融入训练数据集并利用高保真技术,提升了性能。
谷歌于周三在年度 I/O 开发者大会上推出了 Veo,这是由 DeepMind AI 部门开发的先进生成式 AI 视频模型。Veo 在 AI 生成动态影像的真实感和质量方面,旨在与 OpenAI 的 Sora 竞争。
高质量视频生成
Veo 能够创建超过 60 秒的高质量 1080p 视频片段。根据 DeepMind 在社交网络 X 上发布的帖子,Veo 能够处理从逼真到超现实和动画等各种电影风格。该模型支持文本转视频、视频转视频以及图像转视频,使视频制作对所有人开放,无论是经验丰富的电影制作人、有抱负的创作者还是教育工作者。
另请阅读:谷歌推出速度提升五倍的 Trillium AI 芯片
另请阅读:谷歌与惠普将推出 3D 视频会议平台 Project Starline
在一次引人注目的合作中,博学多才的艺术家唐纳德·格洛弗(亦名 Childish Gambino)通过其创意工作室 Gilga 测试了 Veo 的能力。这一合作凸显了该模型从文本提示生成惊人、几乎难辨真伪视频的潜力。例子包括逼真的水母游动和霓虹城市景观,展示了 Veo 制作高质量、栩栩如生视频的能力。
前所未有的创意控制
谷歌产品管理副总裁 Eli Collins 和高级研究总监 Douglas Eck 强调了 Veo 前所未有的创意控制水平。该模型能够理解“延时摄影”和“航拍镜头”等电影术语,从而根据文本提示实现精确、高质量的视频编辑。Veo 可以编辑 AI 生成的视频或用户上传的片段,利用先进的潜在扩散变换器保持帧间一致性。这项技术减少了不一致性,使角色、物体和风格保持稳定。
为了提高性能,谷歌在训练数据中添加了详细描述,并使用了高质量压缩视频表示。这些改进提升了整体视频质量并缩短了生成时间。此外,所有 Veo 视频都嵌入了谷歌的内容凭证追踪水印 SynthID,确保它们能被检测为 AI 生成。

