Une panne chez Amazon a révélé les dangers d’une mauvaise utilisation du nuage.

Avec 5 694 mots, rarement une lettre d’excuse destinée à des clients n’aura été aussi longue. Amazon Web Services (AWS) a voulu jouer la transparence et expliquer en détail les raisons techniques de l’énorme panne qui a affecté l’un de ses centres de données aux Etats-Unis, le 21 avril dernier. Celle-ci a généré des dysfonctionnements chez des milliers de clients pendant cinq jours, essentiellement dans des sociétés de la région Est des Etats-Unis, dont de nombreuses start up du web comme Foursquare, Reddit, Dotcloud, Hootsuite, etc.

Que s’est-il passé ? L’équivalent d’un énorme bouchon en plein centre-ville. Lors d’une mise à jour de l’infrastructure, une erreur de routage a provoqué la surcharge d’un réseau de secours du service de stockage Elastic Block Storage (EBS), déclenchant à son tour l’arrêt de machines virtuelles EC2 et de bases de données RDS. Les flux de contrôle, censés assurer sécurité et persistance des données, ont aussi été surchargés, amplifiant le désastre. Le cloisonnement intrinsèque de l’infra-structure n’a pas fonctionné non plus : par effet de domino, les clients situés en voisinage des systèmes défectueux ont été également affectés. Au final, 0,07 % de leurs données n’ont jamais pu être récupérées.

Si l’impact a été aussi fort, c’est aussi parce qu’AWS est devenu, au cours des dernières années, un fournisseur de référence en matière d’infrastructure. Simple et pas cher, son cloud public est utilisé aussi bien pour des tests ponctuels que pour fournir l’infrastructure principale d’un service en ligne. « C’est une particularité du marché américain, souligne Sébastien Lucas, directeur associé d’Oxalide, un hébergeur français. Si le cloud d’Amazon a tellement percé outre-Atlantique, c’est parce que l’hébergement classique y est beaucoup plus cher. »

Répartir ses calculs

L’enseignement à tirer de cette histoire est qu’il ne faut pas se laisser berner par le mirage de l’hyperdisponibilité que les fournisseurs du cloud essayent parfois de vendre. Rien n’empêche d’utiliser le nuage informatique pour des applications critiques, mais il faut alors s’assurer que l’architecture est assez redondante et qu’il n’existe pas de point unique de défaillance. Les clients d’Amazon qui ont le moins pâti de la panne sont ceux qui avaient une copie locale de leurs instances de calcul, ou qui ont réparti leurs instances Amazon sur différentes zones ou régions. Ce type de dispositif a un coût, mais c’est la seule solution car les services cloud ne seront jamais sans défaut. La preuve : quelques heures après le rétablissement du service d’Amazon, Cloudfoundry, le nuage de VMware, est tombé en panne à son tour…