Des chercheurs de chez Microsoft ont publié Visual ChatGPT, une version plus évoluée du chatbot capable de comprendre le contenu des images, ainsi que de générer ou d’éditer des images à la demande.
[EN VIDÉO] Comment définir la pertinence de l'intelligence artificielle ? L’intelligence artificielle (IA), de plus en plus présente dans notre monde, permet aux machines d’imiter...
L'un des principaux points faibles de l'intelligence artificielle conversationnelle ChatGPTChatGPT est qu'elle est limitée au texte uniquement. Pour résoudre ce problème, des chercheurs de chez MicrosoftMicrosoft viennent de publier une nouvelle version de ChatGPT baptisée Visual ChatGPT. Dans l’article associé, ils expliquent comment ils ont réussi à intégrer la prise en charge des images dans ChatGPT sans toucher à l'IA elle-même.
Plutôt que de reconstruire complètement ChatGPT pour prendre en charge différentes modalités (audio, images, vidéos...), ils ont décidé de s'appuyer sur les modèles de fondation visuels (VFM) préexistants, comme Stable Diffusion, BLIP, Transformers, Maskformer et ControlNet. Autrement dit, des IA déjà capables de comprendre ou de générer des images.

Un gestionnaire de requêtes
Le module central de Visual ChatGPT est le gestionnaire de requêtes (Prompt Manager). Celui-ci s'occupe de traduire les requêtes de l'utilisateur et de les transférer vers ChatGPT ou une VFM, avec un processus qui peut se dérouler en de multiples étapes internes avant d'aboutir à une réponse. Le résultat est très surprenant. Après avoir envoyé au chatbot une photo, vous pouvez lui demander d'identifier un élément qui s'y trouve (« quelle est la couleurcouleur de la motomoto ? ») ou encore d'éditer l'image (« supprime la moto »). Dans un des exemples, un utilisateur envoie un schéma très basique d'une pomme et d'un verre, et demande à l'IA de l'améliorer. Visual ChatGPT répond avec une image photoréaliste d'une pomme et d'un verre sur une table, placés de la même manière que sur le schéma.
Selon les chercheurs, l'avantage de cette approche est qu'il est très facile d'intégrer de nouveaux modèles visuels. Ils ont partagé leur code sur GitHub, mais il n'existe pas pour l'instant d'interface Web. Pour pouvoir le tester, il faut donc être en mesure de le compiler soi-même...
Comparatifs et bons plans

Tech
Télécoms
Forfait 160 Go à 15,99 €/mois : le bon plan du jour signé RED by SFR

Maison
Maison
Tondeuse thermique en promotion : ne manquez pas la SCHEPPACH à prix cassé sur Cdiscount

Maison
Jardin
La tondeuse à gazon sans fil Bosch est à prix sacrifié sur Amazon !

Tech
routeur wifi
routeurs wifi - nos gagnants 2022

Tech
stabilisateur smartphone
Les stabilisateurs smartphone en test 2022

Tech
souris gamer
souris gamer - notre comparateur

Tech
cdiscount mobile
Profitez des meilleurs forfaits Cdiscount Mobile