Proposer une recette de cuisine à partir de la photo d’un réfrigérateur, écrire un programme Python à partir d’un croquis… L’analyse d’image de ChatGPT apporte un réel bonus à ce chatbot.


au sommaire


    Depuis l'automneautomne 2023, le chatbot de OpenAIchatbot de OpenAI peut analyser des photographiesphotographies ou des images et appliquer ses algorithmes d'intelligence artificielle à ce qu'il perçoit. Et cela améliore singulièrement ses possibilités.

    Comment accéder à la reconnaissance d’image

    Sur téléphone ou tablette

    Si vous utilisez ChatGPT sur smartphone ou tablette, il est aisé d'utiliser les services d'image : des icônes explicites apparaissent au bas de l'écran, mais uniquement en mode GPT-4 et donc dans la version payante.

    Si vous ne voyez pas apparaître lesdites icônes, assurez-vous, lorsque vous cliquez sur GPT-4GPT-4, que le mode Default est bien est sélectionné. Vous pouvez à présent ajouter des photos ou images du smartphone. Si vous prenez une photo, il est demandé de confirmer que vous souhaitez l'utiliser dans ChatGPT.

    Sur smartphone ou tablette, les icônes d’accès à l’appareil photo, à des images ou à des fichiers apparaissent de façon explicite. © OpenAI
    Sur smartphone ou tablette, les icônes d’accès à l’appareil photo, à des images ou à des fichiers apparaissent de façon explicite. © OpenAI

    Si vous ne disposez pas de la version payante de ChatGPT avec GPT-4, une alternative consiste à télécharger l’application Bing. Au sein de celle-ci, activez Conversation. Il peut être nécessaire d'activer GPT-4 plutôt que GPT-3.5.

    Au bas de l'écran, à droite du cadre de conversation, vous voyez apparaître une icône, juste avant celle d'un microphone. En cliquant dessus, vous accédez à l'appareil photo de l'appareil, mais aussi, juste à gauche, à un bouton donnant accès aux images stockées.

    La fonction d’accès aux images est accessible depuis l’application Bing, laquelle intègre ChatGPT. © Microsoft
    La fonction d’accès aux images est accessible depuis l’application Bing, laquelle intègre ChatGPT. © Microsoft

    Sur ordinateur

    Sur ordinateur Mac ou PC, dans la version GPT-4 de ChatGPT, vous voyez apparaître à gauche de l'interface de conversion une icône : Joindre des images. En cliquant dessus, vous pouvez accéder à des images présentes sur l'ordinateur.

    L’icône pour joindre des images sur ChatGPT en version PC. © OpenAI
    L’icône pour joindre des images sur ChatGPT en version PC. © OpenAI

    1 - Reconnaître ce qui se trouve sur une photographie

    ChatGPT est en mesure de soumettre ce qu'il a analysé d'une image au crible de son intelligence artificielle.

    Proposer une recette à partir des ingrédients d’un réfrigérateur

    À partir de la photo d'un réfrigérateur grand ouvert et présentant ses victuailles, il nous a proposé une recette tout à fait exploitable :

    « Poêlée de quinoaquinoa à la mexicaine avec riz et sauce crémeuse.

    Ingrédients : trio de quinoa à la mexicaine + riz de la poêle + yaourtyaourt 100 % végétal + Épices et herbes (si disponibles) »

    Il a ensuite indiqué la recette correspondante. Le seul point original a été de se servir du yaourt végétal assorti de condiments pour créer la sauce crémeuse.

    À partir de cette photo, ChatGPT a proposé une recette de cuisine. © D. Ichbiah
    À partir de cette photo, ChatGPT a proposé une recette de cuisine. © D. Ichbiah

    Identifier des billets de divers pays

    Nous avons demandé d'identifier 12 billets de banques de pays très divers. Il a reconnu onze d'entre d'eux :

    « Billet de 100 livres turques (Turquie) -- Billet de 10 riyals saoudiens (Arabie saoudite) -- Billet de 100 dollars américains (États-Unis) Billet de 10 dollars canadiens (Canada)... »

    ChatGPT a également fait remarquer que deux de ces billets n'avaient plus cours, soit les pesetas d'Espagne et les lei de Roumanie. In fine, il a estimé que l'ensemble avait une valeur équivalente à 110 euros.

    ChatGPT a estimé que ce tableau de billets de banques correspondait à la valeur de 110 euros. © D. Ichbiah
    ChatGPT a estimé que ce tableau de billets de banques correspondait à la valeur de 110 euros. © D. Ichbiah

    2 - Identifier un lieu

    Autre cas de figure : vous disposez d'un cliché et souhaitez identifier le lieu.

    Musée londonien

    Nous avons soumis à ChatGPT une photo d'intérieur d'un musée de Londres. Il a reconnu le Natural History Museum de Londres tout en ajoutant qu'il ne pouvait en être sûr à 100 %.

    ChatGPT a su identifier le musée londonien présent dans cette image. © lelondonien.com
    ChatGPT a su identifier le musée londonien présent dans cette image. © lelondonien.com

    Des éléphants se baignant dans une rivière

    Plus étonnant, nous avons proposé à ChatGPT le cliché d'éléphants se baignant dans une rivière du Sri Lanka. Voici ce qu'il a répondu :

    « L'image montre un groupe d'éléphants se baignant dans une rivière avec une forêt tropicaleforêt tropicale en arrière-plan. Cela ressemble fortement à la scène typique de l'orphelinat des éléphants de Pinnawala au Sri Lanka. »

    ChatGPT a su identifier la rivière où se baignent ces éléphants. © source inconnue
    ChatGPT a su identifier la rivière où se baignent ces éléphants. © source inconnue

    Les côtes de granit rose de Bretagne

    Sur une photographie d'une côte de granit rose près de Perros-Guirec, ChatGPT a commencé par dire que cela pourrait être n'importe où dans le monde. Nous lui avons précisé que ce lieu était en France et il a alors pu répondre :

    « Cela pourrait être dans des endroits comme la Bretagne, la Côte d'Azur, ou d'autres régions côtières de France. La Bretagne, en particulier, est connue pour ses formations rocheuses impressionnantes le long de la côte. » Voilà une aide appréciable pour le jour où vous souhaitez vous souvenir du lieu où vous avez pris une photo particulière.

    ChatGPT a su reconnaître que ces reliefs étaient probablement propres à la Bretagne. © D. Ichbiah
    ChatGPT a su reconnaître que ces reliefs étaient probablement propres à la Bretagne. © D. Ichbiah

     3 - Identifier des personnages

    ChatGPT s'est montré moins smart sur la reconnaissance de célébrités.

    Un personnage de dessin animé

    Si nous soumettons à ChatGPT des personnages de dessin animé, il les identifie plutôt bien, comme dans le cas de Shrek. Hélas, il s'est montré moins à l'aise avec des héros moins connus comme FireStar de la série Spiderman de 1981.

    ChatGPT peut identifier les personnages de fiction tels que Shrek. © Dreamworks
    ChatGPT peut identifier les personnages de fiction tels que Shrek. © Dreamworks

    Un véto sur les personnalités publiques

    Curieusement, lorsque nous demandons à ChatGPT d'identifier LisaLisa Marie Presley ou toute autre célébrité, il se contente de répondre en anglais :

    « Sorry, I cannot help with that. » ChatGPT refuse, purement et simplement, d'identifier des personnes réelles, ce qu'il justifie ouvertement. On peine à comprendre le pourquoi d'une telle pudeur dès lors qu'il s'agit de personnalités publiques.

    ChatGPT s’est refusé à identifier la compagne de Michael Jackson dans le clip <em>You are not alone.</em> © Sony
    ChatGPT s’est refusé à identifier la compagne de Michael Jackson dans le clip You are not alone. © Sony

    Plus curieux, lorsque nous lui avons soumis la photographie de l'album Thriller, nous avons eu droit à ce dialogue savoureux :

    Futura :

    « Saurais-tu de quel disque il s'agit ? »

    ChatGPT :

    « Il s'agit de la pochette de l'album "Thriller" de Michael Jackson, l'un des albums les plus vendus au monde. »

    Futura :

    « Qui est le personnage sur la pochette ? »

    ChatGPT :

    « Sorry, I cannot help with that. »

    ChatGPT identifie cette image comme celle de l’album <em>Thriller</em> de Michael Jackson mais se refuse ensuite à dire qui est le chanteur ! © Sony
    ChatGPT identifie cette image comme celle de l’album Thriller de Michael Jackson mais se refuse ensuite à dire qui est le chanteur ! © Sony

    4 - Identifier un groupe de rock

    Animals de Pink Floyd

    ChatGPT identifie aisément les pochettes de disque « anonymes » que nous lui soumettons. Ainsi, il a aisément repéré celle de Animals des Pink Floyd, mais aussi des albums moins connus comme Enema of the State par Blink-182.

    ChatGPT a identifié cette pochette d’album comme <em>Animals</em> des Pink Floyd. © Warner Bros
    ChatGPT a identifié cette pochette d’album comme Animals des Pink Floyd. © Warner Bros

    Le symbole de Led Zeppelin

    Plus fort, ChatGPT a su associer une série de symboles au groupe de rock LedLed Zeppelin. Cela ouvre bien des portesportes à ceux qui souhaiteraient en savoir plus sur des signes cabalistiques divers.

    ChatGPT a su identifier ce symbole comme appartenant au groupe Led Zeppelin. © Atlantic
    ChatGPT a su identifier ce symbole comme appartenant au groupe Led Zeppelin. © Atlantic

    5 – Humour

    Parodie d’un épisode de la série Friends

    Nous avons soumis ChatGPT à une photographie dans laquelle un individu porte de nombreux vêtements superposés -- une parodie d'une scène de la série Friends -- et lui avons demandé ce qu'il y avait de drôle. Il a répondu de façon très académique :

    « L'humour peut provenir du mélange inattendu d'éléments vestimentaires et de son apparence générale qui sort de l'ordinaire. » En revanche, ChatGPT n'a pas su repérer qu'il s'agissait d'une parodie de Friends.

    ChatGPT a trouvé qu’il y avait du comique dans le mélange de vêtements mais n’a pas su identifier qu’il s’agissait d’une parodie de <em>Friends</em>. © D. Ichbiah
    ChatGPT a trouvé qu’il y avait du comique dans le mélange de vêtements mais n’a pas su identifier qu’il s’agissait d’une parodie de Friends. © D. Ichbiah

    Même constat lorsque nous soumettons à ChatGPT une image cartoonesque. Voici ce qu'il nous dit.

    « L'humour de ce dessin repose sur un retournement de situation. Au début, un personnage suggère que les hommes âgés sont trop vieux pour écouter un groupe de rock des années 60. Cependant, la chute est que ces hommes âgés révèlent qu'ils sont en fait les membres du groupe de rock. Le public s'attend à ce que les rockeurs soient jeunes, mais ici, ce sont les vieux qui sont les rockeurs ! » S'il repère bien quel est le comique de la situation, on peut s'étonner de la façon « fade » dont il l'énonce.

    ChatGPT a su repérer où était l’humour dans ce dessin mais il l’énonce d’une façon terne. © raeseldecartoon.com
    ChatGPT a su repérer où était l’humour dans ce dessin mais il l’énonce d’une façon terne. © raeseldecartoon.com

    6 - Écrire un programme à partir d’un diagramme de décision

    Nous avons fourni un croquis simple illustrant des instructions et lui avons demandé d'écrire le programme correspondant. Il s'est fort bien acquitté de la tâche :

    « Il s'agit d'un diagramme de décision ou d'un organigramme en français. En commençant par le haut :

    1. L'utilisateur est invité à entrer une date, séparée par jour (jour), mois (mois) et année (année).
    2. La date saisie est ensuite comparée à une date spécifique : « 1er Juillet 2019 ».
    3. Si la date est avant ou le 1er Juillet 2019, le résultat est « afficher 'stock' épuisé », ce qui signifie « afficher 'En rupture de stock' ».
    4. Si la date est après le 1er Juillet 2019, le résultat est « afficher 'produit' en stock », ce qui signifie « afficher 'Produit disponible' » »

    À partir de cette analyse, ChatGPT a su produire le code PythonPython correspondant.

    À partir de ce simple croquis, ChatGPT a été en mesure d’écrire le programme Python correspondant. © D. Ichbiah
    À partir de ce simple croquis, ChatGPT a été en mesure d’écrire le programme Python correspondant. © D. Ichbiah

    Une avancée notable

    En conclusion, il est clair que l'analyse d'images est un bonus pour ChatGPT qui peut appliquer son intelligence sur des clichés pris sur le vif comme sur des images anciennes que l'on souhaite identifier. Cette capacité étend considérablement les potentiels du chatbot.