OpenAI présente un étonnant nouveau modèle de vidéo générative, Sora, basé sur des recherches antérieures sur les modèles DALL-E et GPT; Sora est capable de générer jusqu’à 60 secondes de vidéo à partir d’instructions textuelles, en fournissant des scènes avec plusieurs personnages, des types d’actions spécifiques et des détails d’arrière-plan détaillés; Sora peut également créer plusieurs plans dans une même vidéo générée. Le leader mondial des modèles d’intelligence artificielle, OpenAI, a lancé un modèle nommé Sora, capable de générer instantanément de courtes vidéos à partir d’instructions textuelles.
Plus tôt en 2023, lors de la compétition très disputée des modèles d’IA multimodaux, des entreprises comme Google, Meta et des startups telles que Runway et Pika Labs avaient également publié des modèles similaires. Cependant, les vidéos démontrées par OpenAI continuent d’attirer l’attention en raison de leur haute qualité. À lire aussi: OpenAI guérit la « paresse » de GPT-4 avec de nouvelles mises à jour. Sora peut interagir avec le monde réel. Actuellement, les informations sur Sora sont limitées sur le site officiel d’OpenAI.
OpenAI a documenté publiquement le contexte des données sources pour l’entraînement du modèle, en déclarant seulement: « Nous apprenons à l’IA à comprendre et à simuler le monde physique en mouvement, dans le but de former des modèles qui aident les gens à résoudre des problèmes nécessitant une interaction avec le monde réel. » OpenAI affirme que Sora peut générer des vidéos d’une durée maximale de 60 secondes à partir de descriptions textuelles, en fournissant des scènes avec plusieurs personnages, des types d’actions spécifiques et des détails d’arrière-plan précis.
Sora peut également créer plusieurs plans au sein d’une vidéo générée, mettant en valeur les personnages et les styles visuels. De plus, Sora peut générer des vidéos entières en une seule fois ou prolonger des vidéos générées pour les allonger. OpenAI déclare: « En faisant générer plusieurs images au modèle à la fois, nous résolvons un problème difficile: garantir que le sujet reste cohérent même lorsqu’il est temporairement hors de vue. » OpenAI reconnaît également que le modèle Sora actuel présente des faiblesses.
Il peut avoir du mal à simuler avec précision des phénomènes physiques dans des scènes complexes et peut ne pas comprendre certaines relations causales spécifiques. Par exemple, une personne pourrait prendre une bouchée d’un biscuit, mais après la morsure, il pourrait n’y avoir aucune marque sur le biscuit. Le modèle peut également confondre des détails spatiaux mentionnés, comme la gauche et la droite, et peut avoir du mal à décrire avec précision des événements se produisant dans le temps, comme suivre une trajectoire de caméra spécifique. Pas d’inquiétude concernant la sécurité.
En ce qui concerne les problèmes de sécurité de l’IA, que le PDG d’OpenAI, Sam Altman, n’a cessé d’aborder, OpenAI déclare: « Actuellement, Sora a été mis à disposition des ‘red teamers’ (ceux qui effectuent des ‘tests d’équipe rouge’ sur les sorties potentiellement nuisibles des grands modèles d’IA) pour évaluer les préjudices ou les risques dans des domaines critiques. Nous permettons également à certains artistes visuels, designers et cinéastes d’y accéder afin de recueillir des commentaires sur la façon d’améliorer le modèle, pour le rendre le plus utile possible aux professionnels de la création.
» OpenAI indique que Sora s’appuie sur des recherches antérieures sur les modèles DALL-E et GPT. Il adopte les techniques de DALL·E 3, ce qui lui permet de suivre plus fidèlement les instructions textuelles des utilisateurs dans les vidéos générées. En plus de générer des vidéos à partir de zéro, le modèle peut également générer des vidéos à partir d’images statiques existantes et animer le contenu des images de manière précise et minutieuse. Le modèle peut également extraire des vidéos existantes et prolonger ou remplir les images manquantes.
Actuellement, le site Web d’OpenAI a été mis à jour avec 48 vidéos de démonstration générées par Sora, présentant des couleurs vives et des effets réalistes.

