Outils pour utilisateurs

Outils du site


admin:travail_termine

Définition d'un travail terminé

Rappel : Charte du Groupe Administration Système

De manière générale, les demandes énoncées ci-dessous visent à maximiser la continuité des services :

  • par la minimisation du coût de maintenance ultérieure ;
  • par la minimisation de l'impact de chaque élément sur l'ensemble de l'infra ;
  • par la maximisation de la diffusion de la connaissance nécessaire à la maintenance du service.

Nouvelle machine

Nouveau service

  • Documenté ;
  • Monitoré ;
  • Backupé (en particulier, écrire un hook si nécessaire) ;
  • Au moins deux admins savent intervenir dessus ;

Par ailleurs :

  • Dans l'hypothèse ou le service est installable via apt, il faut motiver dans la doc le choix éventuel de ne pas passer par cette procédure.
  • Dans l'hypothèse où le service est installé sur plusieurs machines, il faut motiver le choix de ne pas passer par un paquet déployé par apt depuis l'infrastructure chapril.

Enfin, il faut veiller aux recommandations de mise en production des services.

Réparation d'une panne

Dans l'idéal, une panne est réparée lorsqu'elle est :

  • diagnostiquée
  • associée a un ticket dans redmine
  • assignée a quelqu'un
  • un correctif est décrit dans le ticket
  • une alerte de monitoring (nouvelle si besoin) correspond au problème
  • le correctif est appliqué
  • l'alerte de monitoring valide que le problème est corrigé

Lorsque c'est pertinent, il faut encourager la remontée upstream du correctif.

admin/travail_termine.txt · Dernière modification : 2017/07/13 16:47 de fpoulain