- Tencent a publié une nouvelle version de son modèle de génération vidéo open source, DynamiCrafter, sur GitHub.
- Cette mise à jour se concentre principalement sur l'animation de scènes naturelles avec des dynamiques stochastiques (telles que les nuages et les fluides) ou des mouvements spécifiques à un domaine.
- Après la génération de texte et d'images, la génération de vidéos devrait être le prochain enjeu de la course à l'intelligence artificielle.
Certaines des plus grandes entreprises technologiques chinoises intensifient discrètement leurs efforts pour prendre pied dans l'espace texte-et-image-vers-vidéo. Le 5 février, le géant chinois de l'Internet Tencent, surtout connu pour son empire des jeux vidéo et son application de messagerie WeChat,a publié une nouvelle versionde son modèle de génération vidéo open source DynamiCrafter sur GitHub.
Comment ça marche
Comme d'autres outils de génération vidéo sur le marché, DynamiCrafter utilise une méthode de diffusion pour convertir des légendes et des images fixes en vidéos de quelques secondes. Inspirés par les phénomènes de diffusion naturels en physique, les modèles de diffusion en apprentissage automatique peuvent transformer des données simples en données plus complexes et réalistes, de la même manière que les particules se déplacent d'une région de haute concentration vers une région de basse concentration.
À lire aussi: La recherche alimentée par l'IA de Google génère désormais des images
La deuxième génération de DynamiCrafter produit des vidéos à une résolution de 640 x 1024 pixels, une amélioration par rapport à la vidéo 320 x 512 publiée pour la première fois en octobre. Un article académique publié par l'équipe derrière DynamiCrafter note que sa technique diffère de ses concurrents en ce qu'elle élargit l'applicabilité des techniques d'animation d'images à du « contenu visuel plus général ».
« L'idée clé est d'exploiter les a priori de mouvement des modèles de diffusion texte-vers-vidéo en incorporant des images dans le processus de génération comme guide », indique l'article. En revanche, les techniques « traditionnelles » se concentrent principalement sur l'animation descènes naturelles avec des dynamiques aléatoires(par exemple, les nuages et les fluides) ou des mouvements spécifiques à un domaine (par exemple, les cheveux ou les mouvements du corps humain). »
Dans une démonstration comparant DynamiCrafter, Stable Video Diffusion (publié en novembre) et le récent Pika Labs, les résultats du modèle de Tencent semblent plus robustes que les autres. Inévitablement, l'échantillon choisi penchera en faveur de DynamiCrafter. »

Une nouvelle guerre sans armes entre entreprises
Il est indéniable qu'après la génération de texte et d'images, la génération de vidéos devrait être le prochain enjeu de la course à l'intelligence artificielle. En conséquence, les startups et les entreprises technologiques devraient investir des ressources importantes dans ce domaine. La Chine ne fait pas exception. Outre Tencent et la société mère de TikTok, ByteDance, Baidu et Alibaba ont également publié leurs propres modèles de diffusion vidéo.
MagicVideo de ByteDance et UniVG de Baidu ont tous deux publié des démos sur GitHub, mais aucune ne semble être accessible au public. Comme Tencent, Alibaba a ouvert le code source de son modèle de génération vidéo, VGen, une stratégie de plus en plus populaire parmi les entreprises technologiques chinoises cherchant à atteindre une communauté de développeurs mondiale.

