Yann LeCun affirme que l’extraordinaire générateur de vidéos Sora est voué à l’échec

Pour Yann LeCun, un des parrains de l’IA, la méthode mise au point par OpenAI pour Sora afin de modéliser le monde réel est vouée à l’échec. Explications.

au sommaire

Chez OpenAI, les premières vidéos générées par l'IA de Sora sont tellement bluffantes qu'elles suscitent à la fois l'émerveillement et l'inquiétude. Plus que de savoir ce qui pourra différencier le vrai du faux dans l'avenir, l'un des papes de l'intelligence artificielle, le Français Yann LeCun, vient d'émettre des critiques incisives sur la technologie employée par OpenAI. Le responsable de l'IA chez Meta estime que l'approche menée par OpenAI est mauvaise. En premier lieu, il conteste l'ambition qu'a l'éditeur de ChatGPTChatGPT de pouvoir créer à partir de ses algorithmes des jumeaux numériques du monde réel. Sur X (TwitterTwitter), il explique que la méthode qui consiste à générer des pixels à partir de variables latentes est vouée à l'échec, car inefficace. Les modèles d'OpenAI cherchent à déduire trop de détails qui ne sont pas pertinents, selon lui. Ce déploiement d'énergieénergie pour y parvenir est louable pour générer des vidéos à partir de texte, mais lorsqu'il s'agit de modéliser le monde, ce n'est pas du tout efficace.

Trop de détails tuent le modèle

Pour LeCun, qui travaille depuis 30 ans sur le machine learning et le deep learning, si l'approche générative avec ChatGPT a bien fonctionné, c'est parce que le texte dispose d'un nombre défini de symboles. En revanche, pour simuler le monde, on tombe dans un domaine bien plus étendu et complexe. Si les recherches de Meta en matièrematière d'IA passent sous les radars en raison de la notoriété d'OpenAI et de sa déferlante d'outils génératifs, la maison mère de FacebookFacebook planche également sur son propre modèle d'IA capable de créer des vidéos.

Baptisée Video Joint Embedding Predictive Architecture (V-JEPA), la méthode mise au point par Yann LeCun et son équipe est effectivement très différente. L'algorithme ne cherche pas à déduire des pixels, mais d'aller à l'essentiel en supprimant tout ce qui est imprévisible. Ce système permettrait d'améliorer l'entraînement avec un facteur allant de 1,5 et 6. L'avenir nous dira si les critiques de Yann LeCun et son modèle viendront orienter les décisions des sociétés concurrentes.

par Sylvain Biget

Journaliste

le 23 février 2024