admin:procedures:redemarrer-korat
Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
admin:procedures:redemarrer-korat [2024/03/09 20:40] – supprimée - modification externe (Unknown date) 127.0.0.1 | admin:procedures:redemarrer-korat [2025/01/01 23:40] (Version actuelle) – [Prévenir les usagers] ajout de la VM bd, suppression de la VM libreoffice pilou | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
+ | ====== Rebooter Korat ====== | ||
+ | ===== Actions préalables ===== | ||
+ | |||
+ | ==== Vérifier si un fsck va être déclencher ==== | ||
+ | |||
+ | Une vérification de disque peut rallonger énormément la durée du redémarrage. Vérifier : | ||
+ | < | ||
+ | df | awk '/ | ||
+ | </ | ||
+ | |||
+ | ==== Prévenir les usagers ==== | ||
+ | |||
+ | === Sur status.chapril.org === | ||
+ | Ouvrir une action de maintenance sur https:// | ||
+ | * utiliser le modèle '' | ||
+ | * renseigner '' | ||
+ | * ne pas remplir '' | ||
+ | * cocher '' | ||
+ | |||
+ | === Sur chapril@april.org puis sur admins@chapril.org === | ||
+ | |||
+ | Envoyer deux courriels séparés aux listes : chapril@april.org puis admins@chapril.org | ||
+ | |||
+ | < | ||
+ | From: François Poulain < | ||
+ | To: chapril@april.org | ||
+ | Subject: [Chapril] Redémarrage du cluster | ||
+ | |||
+ | Coucou, | ||
+ | |||
+ | Je vais rebooter le cluster pour tenir compte du dernier upgrade | ||
+ | noyal de sécurité. | ||
+ | |||
+ | François | ||
+ | |||
+ | -- | ||
+ | François Poulain < | ||
+ | </ | ||
+ | |||
+ | === Sur pouet.chapril.org === | ||
+ | |||
+ | À l'aide du compte https:// | ||
+ | e | ||
+ | < | ||
+ | Nous allons redémarrer les serveurs de notre Chapril https:// | ||
+ | |||
+ | L' | ||
+ | </ | ||
+ | |||
+ | === Sur les machines === | ||
+ | |||
+ | Vérifier qui est présent sur les vm : | ||
+ | < | ||
+ | cluster_guests=' | ||
+ | for guest in $cluster_guests ; | ||
+ | do | ||
+ | echo "===== $guest =====" | ||
+ | cmd=' | ||
+ | ssh root@$guest.cluster.chapril.org " | ||
+ | done | ||
+ | |||
+ | </ | ||
+ | |||
+ | Pour le cas où un animateur travaillerait sur sa vm sans avoir vu ni le courriel ni status.chapril.org, | ||
+ | < | ||
+ | ./do.sh "wall ' | ||
+ | </ | ||
+ | |||
+ | === Sur IRC et XMPP === | ||
+ | |||
+ | * IRC : salon ''# | ||
+ | * XMPP : '' | ||
+ | ==== Couper le monitoring ==== | ||
+ | |||
+ | * Mettre les hosts concernés en downtime | ||
+ | * Propager les downtimes en questions sur les services des hosts. | ||
+ | |||
+ | Le script suivant peut être utilisé pour couper le monitoring sur les hôtes et propager les downtimes sur les services hébergés. Les identifiants sont définis dans le fichier ''/ | ||
+ | < | ||
+ | curl -k -s -S -i -u ${ICINGA_USER}: | ||
+ | -X POST ' | ||
+ | -d "$(jo -p \ | ||
+ | pretty=true \ | ||
+ | type=Host \ | ||
+ | filter=" | ||
+ | all_services=true \ | ||
+ | author=" | ||
+ | comment=" | ||
+ | fixed=true \ | ||
+ | start_time=$(date +%s -d "+0 hour") \ | ||
+ | end_time=$(date +%s -d "+1 hour" | ||
+ | </ | ||
+ | ==== Lister les VM actives ==== | ||
+ | Noter la liste des VM actives pour comparer avec après le redémarrage. | ||
+ | < | ||
+ | # virsh list | ||
+ | </ | ||
+ | |||
+ | ===== Arrêt de Korat ===== | ||
+ | |||
+ | Arrêter les VMs avant de redémarrer Korat: | ||
+ | |||
+ | ====== Arrêter les VM ======= | ||
+ | < | ||
+ | cd / | ||
+ | virsh list --state-running --name | xargs -I{} virsh shutdown {}; watch virsh list | ||
+ | </ | ||
+ | |||
+ | ======= redémarrage de Korat ======= | ||
+ | < | ||
+ | reboot | ||
+ | </ | ||
+ | |||
+ | |||
+ | ===== Remise en marche de Korat ===== | ||
+ | |||
+ | Attendre que le système ait fini de démarrer (état à // | ||
+ | < | ||
+ | watch " | ||
+ | </ | ||
+ | |||
+ | Démarrer les VM (⚠️ne pas redémarrer la VM '' | ||
+ | < | ||
+ | virsh list --state-shutoff --name | ||
+ | </ | ||
+ | ==== Lister les VM actives ==== | ||
+ | |||
+ | virsh list | ||
+ | |||
+ | Et comparer à la liste avant reboot. | ||
+ | |||
+ | ==== Vérifier le bon démarrage des vm ==== | ||
+ | |||
+ | Parfois les vm démarre mais en statut « degraded ». Il convient de vérifier par un : | ||
+ | < | ||
+ | ./do.sh " | ||
+ | </ | ||
+ | |||
+ | Et pour les vm n' | ||
+ | faire la commande suivante pour identifier le service en souffrance : | ||
+ | < | ||
+ | systemctl list-units | ||
+ | </ | ||
+ | |||
+ | ==== Vérifier les sondes dans Icinga ==== | ||
+ | |||
+ | Si un problème subsiste alors les sondes devraient le faire apparaître dans Icinga. | ||
+ | Vérifier que les alertes actives sont acceptables. | ||
+ | |||
+ | ==== Clôturer l' | ||
+ | |||
+ | Éditer l' | ||
+ | * Status : sélectionner '' | ||
+ | * When did this maintenance complete? : mettre la date et horaire de fin. |