Hier, bon nombre de sites web étaient ralentis voire inaccessibles. Spotify, Reddit, le New York Times, Twitch, LeMonde.fr ou encore les sites de la Maison Blanche et du gouvernement britannique... tous affichaient une erreur 503. Une attaque ? Non, une simple panne chez Fastly, un CDN américain.
Hier mardi 8 juin, en fin de matinĂ©e, une panne est venue mettre le Web en Ă©moi. De Reddit au site de la Maison Blanche, de Twitch Ă Spotify, en passant par les sites Web de plusieurs mĂ©dias (Le Monde, le Guardian, le New York Times) ou encore Paypal, tous ont renvoyĂ© pendant parfois plusieurs heures Ă une âError 503â. TrĂšs vite, le responsable sâest fait connaĂźtre : Fastly, un CDN (Content Delivery Network) amĂ©ricain.
Certains ont dans un premier temps cru Ă une attaque. Le contexte rĂ©cent, avec la multiplication des attaques visant des infrastructures critiques amĂ©ricaines, pouvaient leur donner raison, dâautant que Fastly est une cible bien plus vulnĂ©rable quâun Akamai ou un Cloudflare. Toutefois lâentreprise a rapidement balayĂ© ces soupçons, expliquant quâil sâagissait dâun problĂšme technique.
Bug
En cause, une mise Ă jour logicielle dĂ©ployĂ©e mi-mai. Celle-ci contenait un bug qui pouvait ĂȘtre dĂ©clenchĂ© si, et seulement si, un des clients du CDN implĂ©mentait une configuration spĂ©cifique, bien que valide selon les rĂšgles de la solution. Manque de chance, câest ce quâil sâest produit le 8 juin : un des utilisateurs âa poussĂ© un changement de configuration valide qui incluait les circonstances spĂ©cifiques qui ont dĂ©clenchĂ© le bug, ce qui a fait que 85% de notre rĂ©seau renvoie des erreursâ explique lâentreprise dans un post de blog.
MalgrĂ© lâĂ©tendue de la panne, les dĂ©gĂąts ont Ă©tĂ© limitĂ©s. âNous avons dĂ©tectĂ© la perturbation en une minute, puis identifiĂ© et isolĂ© la cause et dĂ©sactivĂ© la configuration. En 49 minutes, 95 % de notre rĂ©seau fonctionnait normalementâ explique Fastly. Peu avant 15 heures (heure de Paris), le CDN signalait avoir rĂ©tabli lâensemble des services, quoique certains clients pouvaient encore connaĂźtre quelques soucis.
Le dĂ©ploiement du correctif pour ce terrible bug a dĂ©butĂ© en fin de journĂ©e. Fastly explique tirer des leçons de cette panne, menant dans un premier temps un post-mortem complet du problĂšme et se penchant sur les raisons qui ont fait que ce bug nâait pas Ă©tĂ© dĂ©tectĂ© avant la mise en production de la mise Ă jour.