La startup américaine Anthropic vient d’annoncer Claude 3, la nouvelle version de son chatbot qui dépasserait GPT-4 et Google Gemini 1.0 sur de nombreux tests. Cependant, l’IA n’est toujours pas disponible en Europe.


au sommaire


    Un peu moins d'un an après le lancement de sa première version, Anthropic vient d’annoncer la troisième génération de son intelligence artificielle Claude. Si ce nom ne vous dit rien, cette startup américaine a été fondée par d'anciens employés d'OpenAI, et Claude est donc en concurrence directe avec ChatGPTChatGPT.

    En avril 2023, Elon Musk a annoncé son ambition de créer TruthGPT, une IA qui ne dirait que la vérité. Ou en tout cas... la vérité telle que la définit le millionaire. Décryptage avec Emma Hollen dans cet épisode de Vitamine Tech. © Futura

    Tout comme GoogleGoogle avec Gemini, Anthropic a décidé de créer trois versions, nommés Haïku, Sonnet et Opus. Haïku est la plus rapide et la moins chère, tandis qu'Opus est la plus intelligente. Cette dernière battrait même Gemini 1.0 et GPT-4GPT-4. Les IA sont soumises à une batterie de tests, comme la compréhension (MMLU), le raisonnement (GPQA, Diamond), les mathématiques (GSM8K, MATH, MGSM), la programmation (HumanEval) et bien d'autres. Claude 3 Opus sort en tête sur tous les tests, et les deux autres versions sont bien classées. À noter que ce tableau n'inclut pas GPT-4 Turbo ni Gemini 1.5.

    Le tableau des scores aux différents tests, avec Claude 3 Opus qui obtient les meilleurs scores. © Anthropic
    Le tableau des scores aux différents tests, avec Claude 3 Opus qui obtient les meilleurs scores. © Anthropic

    Une IA qui sait quand on la teste !

    Claude 3 débutera avec une fenêtrefenêtre contextuelle de 200 000 jetons, ou tokens. Autrement dit, il est possible de lui donner des documents contenant un total d'environ 150 000 mots et lui poser des questions dessus. Toutefois, Anthropic indique qu'il peut dépasser un million de tokens. C'est similaire à Gemini 1.5, mais beaucoup plus que GPT-4 Turbo (128 000 tokens). Claude 3 peut également analyser photos, graphiques et schémas, une fonctionnalité plutôt orientée vers les entreprises.

    Enfin, un des chercheurs a partagé une anecdote sur X (anciennement TwitterTwitter) lors d'un test « aiguille dans une botte de foin », qui consiste insérer dans une pile de documents une phrase sans rapport, et poser une question dessus afin de s'assurer que l'IA traite correctement toute l'information. En l'occurrence, il s'agissait d'une phrase parlant de pizza, dans des documents en rapport avec la programmation. Claude 3 a non seulement répondu à la question, mais a indiqué qu'il soupçonnait une blague ou un test car la phrase était sans rapport avec le reste.

    Claude 3 est disponible à l'adresse https://claude.ai. Toutefois, il n'est pas accessible en Europe, il faudra donc utiliser un VPN pour le tester.