Amazon travaille actuellement sur une intelligence artificielle capable de comprendre le contenu des images pour guider son raisonnement. Une telle approche réduit les hallucinations et lui permettrait de battre ChatGPT…


au sommaire


    AmazonAmazon a été étrangement silencieux dans la guerre des chatbots, alors que la firme dépend beaucoup des intelligences artificielles pour tous ses services. Contrairement à GoogleGoogle et MicrosoftMicrosoft, le géant du Web a décidé d'abord de résoudre le problème des « hallucinationshallucinations », autrement dit quand l'IA donne des réponses plausibles mais complètement erronées.

    Des chercheurs d'Amazon viennent de mettre en ligne un article et le code source d'un nouveau modèle de langage. Ils se sont intéressés à un type de raisonnement appelé « chain-of-thought » (CoT) que l'on pourrait traduire par « fil de pensée », une manière de poser des questions en ajoutant des étapes au raisonnement grâce à l'utilisation d'exemples ou de démonstrations. Ce n'est pas complètement nouveau, mais cette fois ils ont utilisé une approche multimodale (Multimodal-CoT). Autrement dit, leur IA était capable de comprendre les exemples en images en plus du texte, comme le ferait un enfant.

    Une IA qui bat les humains sur un questionnaire scientifique

    Ils ont testé leur modèle sur le nouveau test ScienceQA, une batterie de 21 208 questions scientifiques multimodales à choix multiples. Ils ont comparé les résultats à d'autres modèles de langage, comme GPT 3.5 que l'on retrouve dans ChatGPT. L'IA d'Amazon a obtenu un score de 91,68 %, battant ainsi le score de référence pour les humains de 88,40 % et réduisant de manière significative les hallucinations. Et surtout, avec seulement 738 millions de paramètres, il a battu GPT 3.5 qui n'a obtenu que 73,97 % malgré ses 175 milliards de paramètres.

    Les chercheurs ont même testé une version simplifiée de leur modèle, avec seulement 223 millions de paramètres, qui a obtenu tout de même près de 85 % de bonnes réponses, battant GPT 3.5 alors qu'il est presque 1 000 fois moins complexe. Reste à voir si Microsoft et Google peuvent intégrer l'approche multimodal-CoT dans leurs intelligences artificielles pour éviter les erreurs embarrassantes à l'avenir...