Les exercices, c’est bon pour la santé

Divulgâchage : Pour vendre des systèmes de sauvegarde, on prétend que le monde est divisé en deux, ceux qui ont perdu des données, et ceux qui vont en perdre. C’est aussi oublier qu’il y a ceux qui prennent soin de leur santé et les autres qui s’exposent aux problèmes… Comme pour la santé en général, il faut passer du stade « ça serait bien de le faire » à celui « on le fait ». Et donc de planifier ces séances d’entraînement et d’exercices. Non seulement ça ne coûte pas grand chose, mais les bénéfices sont réels.

C’est sûrement parce qu’on nous appelle surtout après les sinistres, on entend très trop souvent cette même plainte :

Si seulement j’avais vérifié que ça marchait !

Une victime

Vous n’imaginez probablement pas la colère et la frustration qu’on rencontre lorsque nos clients ont consacré un certain budget à l’installation d’une boite magique sensée les protéger, puis qu’ils constatent qu’une erreur quelque part, a rendu cette solution inopérante et qu’ils ont finalement tout perdu…

Alors, pour ceux qui n’ont pas encore eu la (mal)chance de vivre ce deuil, on vous proposes de petites histoires pour se faire peur. Et comme on ne va pas vous laisser dans l’angoisse, on vous propose aussi une solution pour reprendre confiance.

© vlanka @ pixabay

Si on considère une infrastructure réseau comme un ensemble de « machins connectés », on peut parler d’un problème d’entretien ou de contrôle technique. Comme pour une voiture où les fabriquant incitent au premier (sinon la garantie saute) et où l‘État oblige le second (sinon c’est 135€ d’amende et la voiture peut être immobilisée).

Personnellement, sûrement notre petit côté démiurges, on préfère voir notre infrastructure comme un être vivant qu’on a créé, qui vit et qui évolue. Du coup, on parle de manque d’entraînements et d’exercices.

Petites histoires pour se faire peur

Comme toujours, ces histoires sont tirées de nos expériences et, secret professionnel oblige, nous les avons anonymisées et adaptées pour respecter les participants, les entreprises (et leur réputation).

Un ransomware troue les défenses

Sylvain est administrateur système et s’occupe depuis quelques années des sauvegardes des données de son entreprise lorsque sa direction lui propose une promotion vers le nouveau poste de RSSI (Responsable de la Sécurité). Avant de prendre officiellement ses fonctions, il est déchargé de ses tâches actuelles (le flambeau des sauvegardes est passé à un collègue) et il commence une formation en alternance pendant un an.

En plein apprentissage de ses nouvelles missions, son entreprise est soudain victime d’un ransomware… Toutes les données de l’entreprise sont chiffrées et tant que le système informatique ne sera pas reconstruit et les données restaurées, les salariés vont devoir se débrouiller et travailler à l’ancienne. Sylvain doit mettre sa formation en pause pour sauver ce qui peut encore l’être et reconstruire ce qui a été détruit.

Malheureusement, alors qu’il termine enfin l’installation d’un nouveau serveurs de fichier, il se rend compte que les sauvegardes sur lesquelles il comptait n’ont pas été faites depuis le passage de flambeau… Son successeur, déjà très occupé par ses tâches, n’avait pas jugé la chose prioritaire et l’avait remise à plus tard. Ce sont ainsi six mois de production qui sont partis en fumée.

Après avoir remis le système informatique sur les rails, Sylvain est licencié pour faute grave. Ça ne fera pas revenir les données ou rembourser la rançon éventuelle, mais ça permet de sauver la face : c’était donc la faute du RSSI, pas celle de l’entreprise, malheureuse victime des circonstances.

Problèmes en cascade

Charlène est une architecte réputée dans la région, au point d’avoir monté son propre cabinet et d’avoir embauché d’autres architectes pour traiter les nombreux chantiers qui lui sont confié. Comme elle ne se considère pas compétente en informatique et n’a pas les budgets pour embaucher un administrateur à demeure, elle a fait appel à une société spécialisée pour gérer, entre autre, son serveur de fichier (avec deux disques en RAID1, miroir l’un de l’autre) et ses deux boîtiers de sauvegarde (dont un chez elle).

Pendant plusieurs années, tout s’est bien passé : Charlène a payé la maintenance et la société a configuré toutes ses machines, s’est occupée d’un déménagement dans des nouveaux locaux et lors d’une défaillance d’un des disques du serveur de fichier, l’a remplacé rapidement.

Jusqu’à ce que le nouveau disque lâche lui aussi et que Charlène découvre que, malgré tous ses efforts, elle ne pourra pas récupérer ses données…

Bien sûr, le technicien qui a effectué ces opérations ne travaille plus pour la société d’infogérance depuis cette époque et c’est avec autant de surprise que son gérant découvre le champ de mine qu’il avait laissé derrière lui et qui a finalement explosé au nez de son client.

L’affaire est maintenant dans les mains des avocats et des experts informatiques (avec la participation d’assurances invitées pour l’occasion). Dans quelques années, un juge pourra déterminer les responsabilités et le montant du préjudice remboursé à l’un ou l’autre. Mais en attendant, ça ne fera pas revenir les trois années de fichiers perdus.

Faire des exercices

On aurait pu vous en raconter encore d’autres du même genre. À chaque fois vous vous seriez rendu compte qu’après avoir installé un système de sauvegarde, les vaillants héros ont tendance à le laisser sans surveillance dans son coin. Les entreprises se considèrent alors à l’abri des problèmes grâce à ce système infaillible (après tout, c’est ce que les white hats leur ont promis).

Planifier

Dans tous nos exemple, les dégâts auraient pu être évités si quelqu’un avait pris la peine de vérifier que tout marchait bien. Mais comme souvent cette tâche, considérée comme accessoire, est repoussée ad vitam aeternam

Et on peut le comprendre. Pris dans le flux ininterrompu des tâches à faire, on ne voit pas comment leur dégager du temps. Et comme on considère ces exercices rébarbatif, notre cerveau trouve plein d’autres tâches à faire à la place et fini par les oublier.

© audeCD @ pixabay

Si vous avez des difficultés à prendre cette habitude, à vous astreindre à faire ces exercices, le plus efficace est encore de les planifier formellement. Que ce soit via votre agenda ou votre gestionnaire de tickets, il est facile d’y créer des tâches récurrente (e.g. avec kanboard (qu’on utilise) mais aussi Nextcloud ou encore thunderbird).

Vous pouvez bien sûr adapter la fréquence à la densité d’activité dans votre infrastructure. Plus ça bouge, plus il faut vérifier souvent que tout continue de fonctionner.

Vu autrement, pour la sauvegarde des données, le dernier exercice correspond aux données les plus récentes récupérables en cas de scénario catastrophe. Ne tardez donc pas trop.

Procéder

Lors d’un exercice, le but est de simuler un problème pour vérifier que les mécanismes de protections (automatiques ou manuels) sont efficaces. Voici quelques exemples :

Et comme on parle surtout de redondance, vérifiez aussi la redondance humaine ; si un administrateur a mis en place une solution, l’exercice doit être effectué par une autre personne.

Même si l’administrateur est présent pour gérer les problèmes éventuels, l’exercice doit être mené comme s’il était absent.

D’où l’intérêt de rédiger des procédures formelles, mises à jours pendant chaque exercice. En cas d’indisponibilité de l’administrateur, ce document permettra à n’importe qui de résoudre ces problèmes. Tout le monde y gagne ; les salariés en compétences et l’entreprise en résilience.

Évoluer

Dans l’idéal, chaque exercice se déroule sans problème ; les mécanismes fonctionnent comme prévu, la procédure est adaptée et tout se passe bien.

Dans la réalité, ces exercices pointent presque toujours un problème quelque part. Et c’est bien là tout leur intérêt. Une fois un problème rencontré, quel qu’il soit, vous pouvez appliquer ces deux règles de gestion GTD :

Certaines corrections seront urgente (« l’exercice a tout cassé ») et donc faite immédiatement. D’autres moins (« la protection n’est pas aussi efficace que prévu ») et planifiées à un moment ultérieur.

Dans tous les cas, à l’issue de chaque exercice, vous gagnez une meilleure vision de la résilience de votre infrastructure et l’opportunité de l’améliorer toujours un peu plus.

Une fois devenue routinière, cette amélioration continue prend un côté zen.

Au début, je trouvais ça pénible. Et puis, de fois en fois, j’ai fini par y prendre goût, maintenant, je suis running addict.

Un coureur de fond

© 12019 @ pixabay

Chez les arsouyes

Pour nous organiser, nous synchroniser et éviter d’oublier des tâches importantes, nous utilisons Kanboard et créons des tickets pour tout ce qu’on doit ou veut faire.

Et au milieu de toutes ces tâches, nous avons créé une tâche récurrente « Test PRA », que nous effectuons une fois par mois et qui comprend, entre autres, les sous-tâches suivantes :

Et depuis le temps, ces exercices nous ont permis de détecter et corriger quelques problèmes…

Pour avoir une idée du « coût » de ces exercices, nous chronométrons chacune des sous-tâches (kanban s’en charge automatiquement lorsqu’on coche la case). Le mois dernier, ça nous a coûté 0,44 heures (soit 26 minutes, dont 15 à attendre que duplicati liste les fichiers distants).

Et maintenant ?

Sur une année, nos exercices mensuels nous coûtent moins de 2 jours (de 7 heures), ou 1% d’un temps plein (de 218 jours), je vous laisse faire les calculs en euros.

C’est relativement peu. Surtout comparé aux bénéfices en termes d’expérience gagnées et de réduction des conséquences en cas de panne. Il faudra bien plus de deux jours pour reconstruire ce qui peut l’être, et faire le deuil du reste.

JillWellington @ pixabay

En échange de ces quelques heures, on est beaucoup plus sereins sur notre capacité à résister et survivre à une grosse panne.