• Veo puede crear videos de alta calidad en 1080p de más de 60 segundos en varios estilos, desde fotorrealistas hasta surrealistas y animados.
  • Veo ofrece un control creativo sin precedentes, interpretando términos cinematográficos para ediciones de video precisas a partir de texto y puede editar videos generados por IA.
  • Google mejoró el rendimiento al incorporar descripciones completas en el conjunto de datos de entrenamiento y aprovechar la alta fidelidad.

Google presentó Veo el miércoles, su avanzado modelo de IA generativa de video desarrollado por la división de IA DeepMind, en la conferencia anual de desarrolladores I/O. Veo busca competir con Sora de OpenAI en términos de realismo y calidad de imágenes en movimiento generadas por IA.

Generación de video de alta calidad

Veo es capaz de crear clips de video de alta calidad en 1080p de más de 60 segundos. Según una publicación de DeepMind en la red social X, Veo puede manejar varios estilos cinematográficos, desde fotorrealismo hasta surrealismo y animación. Este modelo admite transformaciones de texto a video, video a video e imagen a video, lo que hace que la producción de video sea accesible para todos, ya sean cineastas experimentados, creadores aspirantes o educadores.

Leer también: Google lanza el chip de IA Trillium que es cinco veces más rápido

Leer también: Google y HP lanzarán la plataforma de videoconferencia 3D Project Starline

En una colaboración notable, el artista polifacético Donald Glover, también conocido como Childish Gambino, probó las capacidades de Veo a través de su estudio creativo, Gilga. Esta asociación subraya el potencial del modelo para generar videos sorprendentes, casi indistinguibles, a partir de indicaciones de texto. Los ejemplos incluyen medusas realistas nadando y paisajes urbanos de neón, mostrando la capacidad de Veo para producir videos de alta calidad y realistas.

Control creativo sin precedentes

El vicepresidente de gestión de productos de Google, Eli Collins, y el director senior de investigación, Douglas Eck, destacaron el nivel sin precedentes de control creativo de Veo. El modelo comprende términos cinematográficos como “timelapse” y “tomas aéreas”, lo que permite ediciones de video precisas y de alta calidad a partir de indicaciones de texto. Veo puede editar videos generados por IA o clips subidos por el usuario, manteniendo la consistencia entre fotogramas mediante el uso avanzado de transformadores de difusión latente. Esta tecnología reduce las inconsistencias y mantiene estables los personajes, objetos y estilos.

Para mejorar el rendimiento, Google agregó descripciones detalladas a los datos de entrenamiento y utilizó representaciones de video comprimido de alta calidad. Estas mejoras aumentan la calidad general del video y reducen el tiempo de generación. Además, todos los videos de Veo están integrados con SynthID, la marca de agua de seguimiento de credenciales de contenido de Google, lo que garantiza que puedan detectarse como generados por IA.