au sommaire
Street View, le service de visite virtuelle à 360° de Google lancé en 2007, permet de se promener dans une ville en vue subjective grâce à des photos prises en rafale. On passe d'une image à l'autre pour changer de point de vue ou de direction. Si la sensation d'immersion est bien présente, les déplacements image par image manquent de naturel. Mais peut-être qu'un jour la navigation Street View sera aussi fluide qu'une vidéo grâce à un nouvel algorithme développé par les ingénieurs informaticiens de GoogleGoogle.
Baptisé DeepStereo, il est capable de transformer n'importe quelle séquence d'images en film en interpolant les trames manquantes. Par exemple, si l'algorithme dispose de deux clichés montrant seulement les façades droite et gauche d'une maison, il saura reconstituer la partie centrale de la demeure. Si on lui procure seulement cinq photos d'une pièce, DeepStereo peut restituer des vues sous d'autres angles en « imaginant » ce qui devrait s'y trouver. Comment cela fonctionne-t-il au juste ?
DeepStereo s'appuie sur l'intelligence artificielle de Google. Il s'agit d'un réseau neuronal constitué de plusieurs couches. Les ingénieurs ont entraîné leur algorithme en utilisant le deep learning, une technique d'apprentissage automatique. Le système a été abreuvé avec 100.000 séquences tirées de Google Street View contenant des images de scènes de rue saisies depuis un véhicule en mouvementmouvement. Pour éprouver les capacités du réseau profond, les techniciens ont ensuite retiré une image dans chaque séquence et demandé à DeepStereo de la reconstituer en se basant seulement sur les autres images disponibles dans ladite séquence.
L’algorithme DeepStereo est capable de reconstituer l'image d'une maison de face (C) à partir de deux clichés pris à gauche (V1) et à droite (V2). © Google
Douze minutes pour générer une image de synthèse
L'algorithme va alors déterminer la profondeur et la couleurcouleur de chaque pixel des images dont il dispose puis créer un espace en 3D en se servant des images 2D existantes comme plan de référence. Il va ensuite combler les vides en se basant sur les couleurs et les profondeurs des photos d'origine. Actuellement, DeepStereo peut travailler sur 96 plans de profondeur. Les résultats sont impressionnants. Le système parvient à reproduire des objets complexes comme de l'herbe, des arbresarbres ou des sujets en mouvement. Toutefois le système est encore loin d'être parfait.
Tout d'abord, le travail d'interpolation est extrêmement gourmand en ressources. Malgré la puissance de calcul dont dispose Google, il faut 12 minutes pour produire une image de synthèse de 512 x 512 pixels. Autant dire que le système ne peut pas encore travailler à la volée. Par ailleurs, des artefacts sont tout de même visibles avec des pertes de résolution par endroit et la disparition de quelques éléments de structure au premier plan. Cela tient au fait que, pour le moment, DeepStereo ne peut pas traiter plus de cinq images de référence à la fois, ce qui limite la précision et la résolution.
Au-delà de Street View, un tel algorithme pourrait aussi servir à générer du contenu dans des applicationsapplications de réalité virtuelle ou de téléconférence. Mais les performances exigées sont trop élevées pour qu'un système puisse être déployé à grande échelle et gratuitement. Il faut plus y voir une nouvelle démonstration de la maîtrise de Google en matièrematière d'intelligence artificielle, domaine dans lequel la concurrence est de plus en plus rude, notamment avec Facebook qui travaille lui aussi sur des projets très ambitieux.