OpenAI renforce sa présence dans le domaine de la création vidéo générée par l’IA avec Sora, un outil capable de transformer des descriptions textuelles en vidéos réalistes. Jusqu’ici moins mis en avant que ChatGPT ou DALL·E, la start-up propose désormais une solution permettant de créer des animations d’une durée maximale d’une minute, avec une résolution allant jusqu’à 1080p.
Sora repose sur des modèles de diffusion conditionnelle entraînés conjointement sur des images et des vidéos de différentes durées et résolutions. La technologie utilise des transformeurs similaires à ceux des grands modèles de langage pour traiter les éléments spatiaux et temporels des séquences vidéo. Résultat : l’outil peut générer des scènes complexes, avec plusieurs personnages, mouvements spécifiques, et des arrière-plans détaillés, tout en respectant la logique physique des objets.
Malgré ces prouesses, OpenAI reconnaît certaines limites. Sora peut confondre des positions spatiales (gauche/droite), rencontrer des difficultés dans le suivi temporel des actions, ou ne pas toujours reproduire parfaitement les propriétés de scènes complexes. L’accès au modèle reste pour l’instant restreint : il est testé par la « red team » d’OpenAI, ainsi que par des artistes, designers et cinéastes pour affiner son potentiel. Avec Sora, OpenAI ambitionne de s’imposer dans un marché déjà concurrentiel, où figurent des acteurs tels que Meta, Microsoft ou Runway.
Référence : Le Monde Informatique

