Un logiciel Google capable de décrire une image en langage naturel

Internet

Intelligence artificielle

Google

actualité

• 2 Min

Google a développé un logiciel expérimental qui sait décrire avec précision une image dès la première analyse. Cet outil basé sur une double interface neuronale pourrait servir à générer des sous-titres vocaux pour aider les personnes non voyantes, mais également servir à transmettre les données dans des régions où les connexions mobiles sont trop lentes en remplaçant les images par du texte.

au sommaire

« Deux pizzas posées au-dessus du four de la cuisinière ». Voilà le sous-titre généré automatiquement par le logiciel Google après avoir analysé cette image. Le système combine deux interfaces neuronales, l’une analysant la photo pour en produire une description mathématique ensuite transmise à la seconde qui la traduira sous forme de texte. © Google

« Une image peut valoir mille mots, mais parfois, les mots sont plus utiles. » C'est ce que pensent des chercheurs travaillant pour Google, qui ont créé un logiciel capable de décrire avec précision une image en langage naturel. Encore au stade expérimental, ce système obtient déjà des résultats prometteurs et laisse entrevoir plusieurs sortes d'applicationsapplications concrètes. Il pourrait notamment aider les personnes déficientes visuelles à comprendre une photo grâce à des sous-titres énoncés à voix haute. Il pourrait aussi servir dans certaines régions du globe où les connexions mobilesmobiles sont trop lentes pour afficher des images à l'écran en les remplaçant par du texte.

Enfin, cette technologie pourrait fonctionner dans le sens inverse et faciliter la recherche d'images en langage naturel via GoogleGoogle. Le système de Google combine deux interfaces neuronales qui, à l'origine, ont été développées séparément. L'une d'elles est un « réseau neuronal profondément convolutif » que le géant américain utilise déjà dans son service Street View pour reconnaître les numéros de rues. Ce système est conçu pour générer la représentation mathématique d'une image afin de pouvoir identifier des objets. Le second réseau neuronal a été développé pour faire de la traduction automatique.

Quelques exemples des résultats obtenus par le logiciel de description d’images de Google lors de différents tests. Les colonnes de gauche à droite classent les descriptions en allant de la plus exacte au hors-sujet complet. © Google

Un niveau de précision déjà élevé

Une fois les deux réseaux associés, le premier va en quelque sorte détailler une image et transmettre une description mathématique de ce qu'il voit au second, qui s'en sert pour produire une phrase en langage naturel. Google a entraîné le système en le nourrissant de milliers d'images avec des descriptions rédigées par des humains. Puis la technique a été mise à l'épreuve avec plusieurs bases de données d'images dont Flickr, SBU et Pascal.

Dans l'article scientifique qui décrit ce projet (Show and Tell: A Neural Image Caption Generator), les ingénieurs Google livrent les résultats des différents tests qui atteignent, pour certains, le score de 59 % alors que ce taux est de 69 % pour les humains. Si les premiers chiffres témoignent déjà d'un haut niveau d'efficacité et de précision, la marge de progression du système est encore importante. Le perfectionnement de cette double interface neuronale dépend de la quantité et de la qualité de la matièrematière qu'on lui fournit pour apprendre. « À mesure que les bases de données adaptées à l'apprentissage des descriptions d'images vont croître et mûrir, il en sera de même pour les performances de ce genre d'approche », conclut Google.

par Marc Zaffagni

Journaliste

le 20 novembre 2014

Nos articles

à lire aussi

Avec la fonction Similar Images, quelques clics ont suffi pour trouver ces images qui montrent toutes du corail et au moins un poisson coloré.

Tech

Internet

Nouveautés Google : recherche d'images et historique des actualités

actualité

• 23/04/2009

Le Colisée, reconstruit à partir de 2.106 images. © Graphics and Imaging Laboratory/U. of Washington

Tech

Internet

En vidéo : Rome reconstituée grâce à des milliers de photos touristiques

actualité

• 16/09/2009

La nouvelle version de Google Maps affiche la carte ou des images sur tout l'écran, celui d'un ordinateur ou celui d'un smartphone. Sur les sites célèbres, comme ici New York, un carrousel peut présenter une collection de photographies. © Google

Tech

Informatique

Google Maps fait peau neuve avec une carte en plein écran

actualité

• 22/02/2014

Les explications de Google (en anglais) sur le fonctionnement de Knowledge Graph : en tapant « da vinci » (de Vinci), on obtient des informations sur Léonard et la Joconde mais aussi sur l'Italie et Michel-Ange. © Google

Tech

Informatique

Le Knowledge Graph de Google veut répondre aux questions

actualité

• 10/08/2012

Tech

Informatique

De Google Earth à Géoportail 3D

dossier

• 03/07/2006

Tech

Internet

Comment faire une recherche Google à partir d'une image ?

question réponse

• 23/07/2023

Tech

Intelligence artificielle

Intelligence artificielle : ces pionniers qui ont révolutionné l'IA

question réponse

• 21/02/2024

Tech

Internet

Le référencement naturel sur Google : tout ce qu’il faut savoir

question réponse

• 27/08/2018

Comment installer Google Wifi ? © Google

Tech

Internet

Google Wi-Fi : comment installer le routeur en 7 questions

question réponse

• 22/07/2017

Internet 2, le Web de demain. © Geralt - Domaine public - Markus Angermeier - CC BY-SA 3.0

Tech

Télécoms

Internet 2, le Web de demain

dossier

• 20/11/2005

Tech

Robotique

Introduction à la vie artificielle

dossier

• 30/08/2001

Tech

Télécoms

Quand YouTube remplacera Google

dossier

• 31/03/2009

En publiant le code de son API d’intelligence artificielle, Google espère sans doute bénéficier des travaux de la communauté open source. © Geralt, CC0 DP, Pixabay

Tech

Technologie

Intelligence artificielle : Google libère le code source de TensorFlow

actualité

• 14/11/2015

Google fait appel à l’intelligence artificielle pour lutter plus efficacement contre le spam dans GMail. Un réseau neuronal artificiel veille sur les contenus et détecte les courriels indésirables en tenant compte des centres d’intérêt de chaque utilisateur. © Indolences via Wikimedia Commons

Tech

Internet

GMail : un réseau neuronal artificiel contre le spam

actualité

• 11/07/2015

Tech

Intelligence artificielle

Intelligence artificielle, voiture autonome... : une année 2017 intense en high-tech !

actualité

• 06/01/2018

La sélection de la

Rédaction

Avec son réseau de voisins-relais, Pickme permet de réduire les 20 % d’échecs à la première livraison. © Pickme

Tech

Jeunes Pousses

Les voisins-relais, la bonne idée pour réduire les échecs de livraison

Article

Dernier jour : une réduction de -250 € sur les suites Microsoft Office et Windows sur Godeal24 !

Tech

Bureautique

Dernier jour : une réduction de -250 € sur les suites Microsoft Office et Windows sur Godeal24 !

Article

40 % des aides ne sont pas réclamées en France ! Klaro a créé une application destinée à faciliter l’accès aux aides. © peopleimages.com, Adobe Stock

Tech

Jeunes Pousses

Ne passez plus à côté des aides auxquelles vous avez droit grâce à cette appli

Article

L’intelligence organoïde, promesse ou utopie ?

Tech

Intelligence artificielle

L’intelligence organoïde, promesse ou utopie ?

Article

Tech

Voiture

Renault Group accélère sur les pièces reconditionnées pour les voitures électriques

Article

100 millions de lunettes dorment au fond des tiroirs des Français. © Vecstock, Freepik

Tech

Jeunes Pousses

Cette startup française change la vision du monde avec des lunettes recyclées à petits prix !

Article

À l'horizon 2050, 100 % du gaz circulant dans le réseau de distribution pourrait être du gaz vert. © Wirestock, Freepik

Tech

Jeunes Pousses

Décarbonation : 20 % des gaz qui circuleront dans les réseaux en 2030 seront verts

Article

Quelque 600 000 décès par an en Europe sont liés à la pollution de l'air. © Nikitabuida, Freepik

Tech

Jeunes Pousses

Des purificateurs d’air pour tous les logements des athlètes aux Jeux olympiques

Article

Liens externes

<em>A picture is worth a thousand (coherent) words: building a natural description of images</em>

À voir aussi

reseau neuronal

intelligence artificielle

ia intelligence artificielle

origine du langage

langage culture

tpe intelligence artificielle

langage

pic langage

i2c langage

langage pic

Mots Clés

Photographie

Réseau neuronal

Langage naturel