Databricks vient d’annoncer Dolly 2.0, un nouveau chatbot de type ChatGPT. L’entreprise a publié sous licence libre le code source de l’intelligence artificielle, ainsi que le jeu de données utilisé pour son entraînement.


au sommaire


    Si ChatGPTChatGPT est le chatbot de référence, il existe un nombre croissant de compétiteurs. Cela inclut par exemple Bard de Google, basé sur le grand modèle de langage (LLM) LaMDA, ou encore LLaMA de Méta. Un nouveau concurrent est Dolly 2.0 de Databricks. Selon le développeur, il s'agit du premier grand modèle de langage (LLM) entièrement libre, entraîné sur une base de données qui est également libre.

    Avec 12 milliards de paramètres, Dolly 2.0 est un peu plus petit que ses rivaux ChatGPT (175 milliards), LaMDA (137 milliards) ou LLaMA (65 milliards). Cette nouvelle IA est basée sur pythia-12b, un modèle libre de 12 millions de paramètres développée par EleutherAI. Dolly 1.0 a été publié il y a seulement deux semaines, mais cette première mouture était entraînée sur un jeu de données créé pour le modèle Alpaca de l'université de Stanford, qui contient des données issues de ChatGPT. Or, OpenAI interdit tout usage des données produites par son IA pour créer un service rival, ce qui empêche tout usage commercial.

    Une base de données créée à la main

    Pour pouvoir rendre leur intelligence artificielle entièrement libre, les développeurs ont créé leur propre jeu de données pour l'entraîner, baptisé databricks-dolly-15k et composé de 15 000 questions avec leurs réponses originales. Pour ce faire, ils ont tout simplement monté un concours ouvert aux 5 000 employés de Databricks, ce qui a nécessité une semaine. Cela rend l'IA plus performante que d'autres modèles de langage publiés récemment (comme Alpaca, KoalaKoala, GPT4All ou Vicuna) et entraînés sur des réponses de ChatGPT qui incluent des erreurs et hallucinationshallucinations.

    Grâce au code sourcecode source et à la base de données en libre accès, les entreprises et organisations peuvent créer leur propre chatbot spécialisé dans un domaine précis, sans pour autant devoir partager des données sensibles avec des tiers. Selon Databricks, Dolly n'est pas conçu pour être à la pointe de la technologie (autrement dit aussi performant que ChatGPT). La firme espère plutôt contribuer à diversifier et démocratiser les grands modèles de langage.