Tech

DeepStereo, l'algorithme Google qui crée des vidéos avec quelques images

ActualitéClassé sous :technologie , intelligence artificielle , Google

DeepStereo est un algorithme prédictif capable de produire une animation vidéo à partir de photos en recréant lui-même les images et les perspectives manquantes. Techniquement très performant, il est cependant encore trop exigeant en ressources système pour envisager une mise en service à brève échéance.

DeepStereo crée une vidéo à partir de simples photos  Un peu comme l'application Hyperlapse, DeepStereo, un nouvel algorithme développé par Google, est capable de combler les images manquantes entre deux photos afin de générer une vidéo fluide. En voici une démonstration. 

Street View, le service de visite virtuelle à 360° de Google lancé en 2007, permet de se promener dans une ville en vue subjective grâce à des photos prises en rafale. On passe d'une image à l'autre pour changer de point de vue ou de direction. Si la sensation d'immersion est bien présente, les déplacements image par image manquent de naturel. Mais peut-être qu'un jour la navigation Street View sera aussi fluide qu'une vidéo grâce à un nouvel algorithme développé par les ingénieurs informaticiens de Google.

Baptisé DeepStereo, il est capable de transformer n'importe quelle séquence d'images en film en interpolant les trames manquantes. Par exemple, si l'algorithme dispose de deux clichés montrant seulement les façades droite et gauche d'une maison, il saura reconstituer la partie centrale de la demeure. Si on lui procure seulement cinq photos d'une pièce, DeepStereo peut restituer des vues sous d'autres angles en « imaginant » ce qui devrait s'y trouver. Comment cela fonctionne-t-il au juste ?

DeepStereo s'appuie sur l'intelligence artificielle de Google. Il s'agit d'un réseau neuronal constitué de plusieurs couches. Les ingénieurs ont entraîné leur algorithme en utilisant le deep learning, une technique d'apprentissage automatique. Le système a été abreuvé avec 100.000 séquences tirées de Google Street View contenant des images de scènes de rue saisies depuis un véhicule en mouvement. Pour éprouver les capacités du réseau profond, les techniciens ont ensuite retiré une image dans chaque séquence et demandé à DeepStereo de la reconstituer en se basant seulement sur les autres images disponibles dans ladite séquence.

L’algorithme DeepStereo est capable de reconstituer l'image d'une maison de face (C) à partir de deux clichés pris à gauche (V1) et à droite (V2). © Google

Douze minutes pour générer une image de synthèse

L'algorithme va alors déterminer la profondeur et la couleur de chaque pixel des images dont il dispose puis créer un espace en 3D en se servant des images 2D existantes comme plan de référence. Il va ensuite combler les vides en se basant sur les couleurs et les profondeurs des photos d'origine. Actuellement, DeepStereo peut travailler sur 96 plans de profondeur. Les résultats sont impressionnants. Le système parvient à reproduire des objets complexes comme de l'herbe, des arbres ou des sujets en mouvement. Toutefois le système est encore loin d'être parfait.

Tout d'abord, le travail d'interpolation est extrêmement gourmand en ressources. Malgré la puissance de calcul dont dispose Google, il faut 12 minutes pour produire une image de synthèse de 512 x 512 pixels. Autant dire que le système ne peut pas encore travailler à la volée. Par ailleurs, des artefacts sont tout de même visibles avec des pertes de résolution par endroit et la disparition de quelques éléments de structure au premier plan. Cela tient au fait que, pour le moment, DeepStereo ne peut pas traiter plus de cinq images de référence à la fois, ce qui limite la précision et la résolution.

Au-delà de Street View, un tel algorithme pourrait aussi servir à générer du contenu dans des applications de réalité virtuelle ou de téléconférence. Mais les performances exigées sont trop élevées pour qu'un système puisse être déployé à grande échelle et gratuitement. Il faut plus y voir une nouvelle démonstration de la maîtrise de Google en matière d'intelligence artificielle, domaine dans lequel la concurrence est de plus en plus rude, notamment avec Facebook qui travaille lui aussi sur des projets très ambitieux.

Abonnez-vous à la lettre d'information La quotidienne : nos dernières actualités du jour.

!

Merci pour votre inscription.
Heureux de vous compter parmi nos lecteurs !

DeepStereo est un bel exemple d’auto-apprentissage : c'est ainsi qu'il devient capable de reconstituer une séquence vidéo en s’appuyant sur des photos pour générer les images manquantes. © Google