Rapport d’incident NFS du 6 aout 2020

État des lieux :

Certains client d’Octopuce disposent d’un accès via le protocole réseau NFS à des stockages en masse de données. Ces serveurs NFS utillisent un système de stockage basé sur des couches de stockages complexes : Raid MD Linux (redondance), Luks (chiffrement), LVM (Volumes logiques), DRBD (redondance réseau entre 2 serveurs croisés), EXT4 (système de fichiers), et enfin NFS (partage via le réseau)

Déroulement :

ce 5 aout, à 14h45, la synchronisation DRBD du serveur NFS2 vers NFS1 a des hoquets, suffisamment rares pour ne pas être détecté par la supervision de notre côté. (message drbd sock_sendmsg time expired). De très légères lenteur d’I/O arrivent, à peine visible sur les grafana client.
à 21h00, la synchronisation DRBD des mêmes serveurs plante complètement, et ne redémarre pas automatiquement, DRBD passe dans un mode spécial (WFBitMapS) de réparation automatique, qui nécessite de renvoyer de gros volumes sur le réseau, et bloque certaines écritures pendant ce temps. Les clients concernés par ces volumes sont impactés. Les entrées/sorties NFS sont lentes à très lente. L’astreinte Octopuce est alertée.
à 21h07, la tentative automatique de réparation du DRBD plante et les écritures sur les volumes impactés sont bloquées. Notre ingénieur d’astreinte entame une réparation.
à 21h14, la personne d’astreinte à Octopuce a coupé la synchronisation DRBD automatique, et les partitions concernées sont remontées, et reexportées en NFS, le service est revenu à la normale chez les clients impactés. Le service est cependant non redondé.
La synchronisation est remise en place le 6 aout au matin, les partitions concernées seront dans un état nominal de réplication le 6 aout au soir.

Corrections envisagées :

Ce cluster de serveurs NFS SSD (machines nfs1 et nfs2) utilise une couche de stockage complexe que nous avons abandonnée pour les nouveaux serveurs NFS utilisés par les clients d’Octopuce, au profit d’une infrastructure basée sur le système de stockage ZFS. Il n’avait pas encore été migré mais devait l’être dans les mois àvenir. Cette panne nous impose de migrer plus rapidement cet ancien cluster vers notre nouveau système de stockage.

Nous tiendrons au courant les clients concernés de leur migration sur le nouveau cluster dans les jours à venir.