C’est la plus grosse panne qu’a pu connaître un réseau social et ses services. © Facebook
Tech

Facebook, Instagram, WhatsApp... Les dessous d'une panne historique

ActualitéClassé sous :technologie , Facebook , serveur DNS

-

Pendant six heures, Facebook et ses filiales ont été inaccessibles. Du jamais vu ! Futura fait l'autopsie de cette mésaventure.

---

Découvrez TechPod, le résumé bimensuel de l'actualité de la tech et de la mobilité !

---

Cela vous intéressera aussi

4 octobre, 15 h 40 UTC. Cloudflare, une des plus grosses sociétés permettant d'optimiser et sécuriser le trafic sur Internet, constate que Facebook a cessé d'associer son nom de domaine à ses adresses IP. Sur les ordinateurs du monde entier, une page blanche affichant une erreur de connexion apparait et les applications Facebook, Instagram, WhatsApp, Facebook Messenger se figent sur les smartphones.

Facebook et ses divers services ont totalement disparu de la surface du Web. Un bol d'air pour certains, fustigeant l'ambiance anxiogène du réseau en raison de sa tendance à laisser filer la désinformation et ceux qui la font. Une catastrophe, pour des centaines de millions d'utilisateurs démunis sans les outils et services du réseau social.

Pour les internautes, c'est alors la ruée vers les autres réseaux sociaux et, en premier lieu, Twitter pour savoir ce qu'il s'est passé. Des réseaux qui ont brusquement croulés sur les connexions au point de saturer. C'est d'ailleurs via Twitter que Facebook a annoncé qu'un vrai problème était en cours de traitement. Et cette panne mondiale a duré six heures ! Un record. Une cyberattaque géante ? Non, plutôt une erreur de manipulation lors d'une opération de configuration des serveurs. Alors, que s'est-il vraiment passé ?

Les serveurs DNS accusés à tort

DNS, IP, BGP... Ces acronymes ont été massivement employés dans la soirée pour décrire la source du souci rencontrée par Facebook. Chacun d'eux fait effectivement partie du scénario catastrophe mais celui qui a été le premier incriminé, à tort, a été le DNS. Le DNS, Domain Name Service, c'est ce qui permet d'associer une adresse Web, par exemple facebook.com, à une page internet. Cette page est identifiée par une adresse IP, une suite de chiffres que l'on peut comparer à un numéro de téléphone unique. Pour prendre une image, c'est l'équivalent de passer un appel depuis un mobile en saisissant simplement le nom du correspondant dans le carnet d'adresses. Le nom est relié à un numéro de téléphone que le réseau saura gérer. Étant donné sa taille, le réseau social dispose de ses propres serveurs DNS. Mais, durant la panne d'hier, ils fonctionnaient toujours, même s'ils tournaient dans le vide et ne dialoguaient plus avec le reste du réseau. Le souci ne venait donc pas d'eux.

Un duo BGP et AS qui ne se parle plus

Le vrai trublion, ce ne sont pas ces serveurs DNS, mais un protocole baptisé BGP, pour Border Gateway Protocol. Lors de la transmission de données, c'est lui qui va évaluer les meilleures routes pour acheminer à destination les paquets de données sur la totalité du réseau. Au lieu de devoir parcourir l'ensemble des serveurs DNS pour faire correspondre une adresse à un numéro pour la livraison des données, ce protocole se contente d'interroger de gros serveurs appelés AS (Autonomous Systems) qui sont gérés par les opérateurs Internet. Ce sont eux qui disposent des plus gros annuaires d'adresses IP. Ils viennent donner la cartographie du réseau au protocole BGP pour qu'il fasse aboutir les paquets de données rapidement. Les serveur DNS font partie des adresses IP qui dialoguent avec ces serveur AS.

Chez les gros serveurs AS, la mise à jour de la cartographie du réseau est très rare. Vers 15 h 40, on peut constater la présence d’un gros pic qui montre que la base d’adresses IP pour le protocole BGP a été effacée. © Cloudflare

Et là, encore Facebook dispose de ses propres serveurs AS mémorisant l'adresse IP de tous les services et également celles de ses serveurs DNS. Et c'est justement sur ces serveurs que s'est porté le souci. Lors d'une opération de mise à jour, les techniciens ont supprimé la base de données d'adresses IP du protocole BGP de façon accidentelle. À partir de ce moment, les serveurs AS n'avaient plus aucune instruction pour envoyer les paquets de données. Plus de route, plus de trafic, Facebook et l'ensemble de ses services se sont retrouvés débranchés.

Et, comme les ennuis volent bien souvent en escadrille, la panne s'est éternisée en raison de plusieurs facteurs supplémentaires. Les adresses IP de Facebook étant coupées du réseau, par conséquent, le personnel de la firme ne pouvait plus accéder aux serveurs à distance pour rétablir le réseau. Un phénomène accentué par la mise en place massive du télétravail depuis le début de la pandémie. Pire encore, sur le lieu physique des datacenters, les employés restaient bloqués aux portes car leurs badges d'accès ne fonctionnaient pas en raison de cette panne. Enfin, dès lors que les « câbles ont été rebranchés », il fallait également compter sur un tsunami de requêtes provenant des utilisateurs tentant tous de se connecter au même moment.

Finalement, cette grosse mésaventure montre encore qu'Internet est d'une complexité incroyable et qu'une petite erreur peut avoir des conséquences mondiales.

Abonnez-vous à la lettre d'information La quotidienne : nos dernières actualités du jour. Toutes nos lettres d’information

!

Merci pour votre inscription.
Heureux de vous compter parmi nos lecteurs !