Une recherche en cours de validation met en avant un projet original : reconstruire des vidéos de qualité à partir de données d’imagerie cérébrale basées sur l’intelligence artificielle. « MinD-Video » permet de mieux comprendre notre processus cognitif.

Cela vous intéressera aussi

[EN VIDÉO] Une intelligence artificielle qui ajuste l'angle de prise de la photo Manipulation interactive basée sur des points du collecteur d'images génératives. © Projet DraGAN

Afin de mieux comprendre nos mécanismes cognitifs, les chercheurs tentent de reconstruire la vision humaine à partir des activités de notre cerveau. Bien que la recherche récente ait déjà connu un grand succès dans la reconstruction d'images statiques à partir d'enregistrements cérébraux non invasifs, il manquait des travaux sur la récupération d'expériences visuelles continues sous forme de vidéos.

Le projet « MinD-Video » permet la reconstruction vidéo de haute qualité à partir d'enregistrements cérébraux. L'étude en cours de validation par les pairs se trouve sur la plateforme de prépublication Arxiv. Basé sur l’IA, le nouveau modèle apprend progressivement des informations spatio-temporelles de vidéos, et ce à partir des signaux cérébraux (issus de données scanner IRMf continues grâce à la modélisationmodélisation masquée du cerveau).

Décodage du cerveau et reconstruction vidéo du projet. © Chen, Qing and Zhou, 2023
Décodage du cerveau et reconstruction vidéo du projet. © Chen, Qing and Zhou, 2023

Un modèle biologiquement plausible et interprétable

Le résultat offre des images vidéo très proches de la réalité, montrant une fois de plus les impressionnantes capacités de l’IA. « L'analyse de l'attention a révélé une correspondance avec le cortex visuel et les réseaux cognitifs supérieurs, ce qui suggère que notre modèle est biologiquement plausible et interprétable », notent les chercheurs.

Leur analyse met notamment en lumièrelumière le rôle essentiel du cortex visuel dans le traitement des informations visuelles spatio-temporelles. De plus, leur encodeurencodeur fonctionne par couches hiérarchiques : les couches initiales se concentrent sur les informations structurelles, tandis que les couches plus profondes s'orientent vers l'apprentissage de caractéristiques visuelles plus abstraites.