Amazon travaille actuellement sur une intelligence artificielle capable de comprendre le contenu des images pour guider son raisonnement. Une telle approche réduit les hallucinations et lui permettrait de battre ChatGPT…
Amazon a été étrangement silencieux dans la guerre des chatbots, alors que la firme dépend beaucoup des intelligences artificielles pour tous ses services. Contrairement à GoogleGoogle et MicrosoftMicrosoft, le géant du Web a décidé d'abord de résoudre le problème des « hallucinationshallucinations », autrement dit quand l'IA donne des réponses plausibles mais complètement erronées.
Des chercheurs d'Amazon viennent de mettre en ligne un article et le code source d'un nouveau modèle de langage. Ils se sont intéressés à un type de raisonnement appelé « chain-of-thought » (CoT) que l'on pourrait traduire par « fil de pensée », une manière de poser des questions en ajoutant des étapes au raisonnement grâce à l'utilisation d'exemples ou de démonstrations. Ce n'est pas complètement nouveau, mais cette fois ils ont utilisé une approche multimodale (Multimodal-CoT). Autrement dit, leur IA était capable de comprendre les exemples en images en plus du texte, comme le ferait un enfant.
Une IA qui bat les humains sur un questionnaire scientifique
Ils ont testé leur modèle sur le nouveau test ScienceQA, une batterie de 21 208 questions scientifiques multimodales à choix multiples. Ils ont comparé les résultats à d'autres modèles de langage, comme GPT 3.5 que l'on retrouve dans ChatGPT. L'IA d'Amazon a obtenu un score de 91,68 %, battant ainsi le score de référence pour les humains de 88,40 % et réduisant de manière significative les hallucinations. Et surtout, avec seulement 738 millions de paramètres, il a battu GPT 3.5 qui n'a obtenu que 73,97 % malgré ses 175 milliards de paramètres.
Les chercheurs ont même testé une version simplifiée de leur modèle, avec seulement 223 millions de paramètres, qui a obtenu tout de même près de 85 % de bonnes réponses, battant GPT 3.5 alors qu'il est presque 1 000 fois moins complexe. Reste à voir si Microsoft et Google peuvent intégrer l'approche multimodal-CoT dans leurs intelligences artificielles pour éviter les erreurs embarrassantes à l'avenir...
Comparatifs et bons plans

Santé
Santé
Offrez-vous la montre connectée Garmin Instinct Solar Surf à prix cassé sur Cdiscount

Tech
Télécoms
SFR Box : la fibre avec un débit jusqu’à 500 Mb/s est à seulement 19,99 €/mois

Tech
Tech
Découvrez la meilleure sélection des sacs à dos Amazon Basics

Tech
tablette 8 pouces
tablettes 8 pouces - notre sélection 2022

Tech
manette PC
Nouvelles manettes PC ? Notre avis

Tech
ruban LED
Le meilleur ruban LED 2022

Tech
B and you
Les meilleurs forfaits mobiles B&You