- Veo peut créer des vidéos 1080p de haute qualité de plus de 60 secondes dans divers styles, du photoréalisme au surréalisme et à l'animation.
- Veo offre un contrôle créatif inégalé, en interprétant les termes cinématographiques pour des montages vidéo précis à partir de texte et il peut éditer des vidéos générées par IA.
- Google a amélioré les performances en intégrant des légendes complètes dans l'ensemble de données d'entraînement et en exploitant la haute fidélité.
Google a présenté Veo mercredi, son modèle avancé d’IA générative vidéo développé par la division IA DeepMind, lors de la conférence annuelle des développeurs I/O. Veo vise à rivaliser avec Sora d’OpenAI en termes de réalisme et de qualité des visuels animés générés par IA.
Génération de vidéos de haute qualité
Veo est capable de créer des clips vidéo 1080p de haute qualité dépassant 60 secondes. Selon une publication de DeepMind sur le réseau social X, Veo peut gérer divers styles cinématographiques, du photoréalisme au surréalisme et à l'animation. Ce modèle prend en charge les transformations texte-vers-vidéo, vidéo-vers-vidéo et image-vers-vidéo, rendant la production vidéo accessible à tous, qu'il s'agisse de cinéastes expérimentés, de créateurs en herbe ou d'éducateurs.
Lire aussi: Google lance la puce IA Trillium, cinq fois plus rapide
Lire aussi: Google et HP lancent la plateforme de visioconférence 3D Project Starline
Dans une collaboration notable, l'artiste polymathe Donald Glover, également connu sous le nom de Childish Gambino, a testé les capacités de Veo via son studio créatif, Gilga. Ce partenariat souligne le potentiel du modèle à générer des vidéos époustouflantes, quasi impossibles à distinguer de la réalité, à partir de descriptions textuelles. Parmi les exemples, on trouve des méduses nageant de manière réaliste et des paysages urbains au néon, démontrant la capacité de Veo à produire des vidéos de haute qualité et réalistes.
Un contrôle créatif sans précédent
Le vice-président de la gestion des produits de Google, Eli Collins, et le directeur principal de la recherche, Douglas Eck, ont souligné le niveau de contrôle créatif sans précédent de Veo. Le modèle comprend des termes cinématographiques tels que « accéléré » et « plans aériens », permettant des montages vidéo précis et de haute qualité à partir de descriptions textuelles. Veo peut éditer des vidéos générées par IA ou des clips téléchargés par les utilisateurs, en maintenant la cohérence entre les images grâce à des transformateurs de diffusion latente avancés.
Cette technologie réduit les incohérences et maintient la stabilité des personnages, des objets et des styles.
Pour améliorer les performances, Google a ajouté des légendes détaillées aux données d'entraînement et utilisé des représentations vidéo compressées de haute qualité. Ces améliorations augmentent la qualité vidéo globale et réduisent le temps de génération. De plus, toutes les vidéos Veo sont intégrées avec SynthID, le filigrane de suivi des informations d'identification de contenu de Google, garantissant qu'elles peuvent être détectées comme générées par IA.

