admin:procedures:redemarrer-korat
Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
| admin:procedures:redemarrer-korat [2024/03/09 20:40] – supprimée - modification externe (Unknown date) 127.0.0.1 | admin:procedures:redemarrer-korat [2025/11/21 18:03] (Version actuelle) – the max conntrack issue is now solved \o/ pitchum | ||
|---|---|---|---|
| Ligne 1: | Ligne 1: | ||
| + | ====== Rebooter Korat ====== | ||
| + | ===== Actions préalables ===== | ||
| + | |||
| + | ==== Vérifier si un fsck va être déclencher ==== | ||
| + | |||
| + | Une vérification de disque peut rallonger énormément la durée du redémarrage. Vérifier : | ||
| + | < | ||
| + | df | awk '/ | ||
| + | </ | ||
| + | |||
| + | ==== Prévenir les usagers ==== | ||
| + | |||
| + | === Sur status.chapril.org === | ||
| + | Ouvrir une action de maintenance sur https:// | ||
| + | * utiliser le modèle '' | ||
| + | * renseigner '' | ||
| + | * ne pas remplir '' | ||
| + | * cocher '' | ||
| + | |||
| + | === Sur chapril@april.org puis sur admins@chapril.org === | ||
| + | |||
| + | Envoyer deux courriels séparés aux listes : chapril@april.org puis admins@chapril.org | ||
| + | |||
| + | < | ||
| + | From: François Poulain < | ||
| + | To: chapril@april.org | ||
| + | Subject: [Chapril] Redémarrage du cluster | ||
| + | |||
| + | Coucou, | ||
| + | |||
| + | Je vais rebooter le cluster pour tenir compte du dernier upgrade | ||
| + | noyal de sécurité. | ||
| + | |||
| + | François | ||
| + | |||
| + | -- | ||
| + | François Poulain < | ||
| + | </ | ||
| + | |||
| + | === Sur pouet.chapril.org === | ||
| + | |||
| + | À l'aide du compte https:// | ||
| + | e | ||
| + | < | ||
| + | Nous allons redémarrer les serveurs de notre Chapril https:// | ||
| + | |||
| + | L' | ||
| + | </ | ||
| + | |||
| + | === Sur les machines === | ||
| + | |||
| + | Vérifier qui est présent sur les vm : | ||
| + | < | ||
| + | cluster_guests=$(ssh root@persan.chapril.org "virsh list --name"; | ||
| + | for guest in $cluster_guests ; | ||
| + | do | ||
| + | echo "===== $guest =====" | ||
| + | cmd=' | ||
| + | ssh root@$guest.cluster.chapril.org " | ||
| + | done | ||
| + | |||
| + | </ | ||
| + | |||
| + | Pour le cas où un animateur travaillerait sur sa vm sans avoir vu ni le courriel ni status.chapril.org, | ||
| + | < | ||
| + | ./do.sh "wall ' | ||
| + | </ | ||
| + | |||
| + | === Sur IRC et XMPP === | ||
| + | |||
| + | * IRC : salon ''# | ||
| + | * XMPP : '' | ||
| + | ==== Couper le monitoring ==== | ||
| + | |||
| + | * Mettre les hosts concernés en downtime | ||
| + | * Propager les downtimes en questions sur les services des hosts. | ||
| + | |||
| + | Le script suivant peut être utilisé pour couper le monitoring sur les hôtes et propager les downtimes sur les services hébergés. Les identifiants sont définis dans le fichier ''/ | ||
| + | < | ||
| + | curl -k -s -S -i -u ${ICINGA_USER}: | ||
| + | -X POST ' | ||
| + | -d "$(jo -p \ | ||
| + | pretty=true \ | ||
| + | type=Host \ | ||
| + | filter=" | ||
| + | all_services=true \ | ||
| + | author=" | ||
| + | comment=" | ||
| + | fixed=true \ | ||
| + | start_time=$(date +%s -d "+0 hour") \ | ||
| + | end_time=$(date +%s -d "+1 hour" | ||
| + | </ | ||
| + | ==== Lister les VM actives ==== | ||
| + | Noter la liste des VM actives pour comparer avec après le redémarrage. | ||
| + | < | ||
| + | # virsh list | ||
| + | </ | ||
| + | |||
| + | ===== Arrêt de Korat ===== | ||
| + | |||
| + | Arrêter les VMs avant de redémarrer Korat: | ||
| + | |||
| + | ====== Arrêter les VM ======= | ||
| + | < | ||
| + | cd / | ||
| + | virsh list --state-running --name | xargs -I{} virsh shutdown {}; watch virsh list | ||
| + | </ | ||
| + | |||
| + | ======= redémarrage de Korat ======= | ||
| + | < | ||
| + | reboot | ||
| + | </ | ||
| + | |||
| + | |||
| + | ===== Remise en marche de Korat ===== | ||
| + | |||
| + | Attendre que le système ait fini de démarrer (état à // | ||
| + | < | ||
| + | watch " | ||
| + | </ | ||
| + | |||
| + | Démarrer les VM (⚠️ne pas redémarrer la VM '' | ||
| + | < | ||
| + | virsh list --state-shutoff --name | ||
| + | </ | ||
| + | ==== Lister les VM actives ==== | ||
| + | |||
| + | virsh list | ||
| + | |||
| + | Et comparer à la liste avant reboot. | ||
| + | |||
| + | ==== Vérifier le bon démarrage des vm ==== | ||
| + | |||
| + | Parfois les vm démarre mais en statut « degraded ». Il convient de vérifier par un : | ||
| + | < | ||
| + | ./do.sh " | ||
| + | </ | ||
| + | |||
| + | Et pour les vm n' | ||
| + | faire la commande suivante pour identifier le service en souffrance : | ||
| + | < | ||
| + | systemctl list-units | ||
| + | </ | ||
| + | |||
| + | ==== Vérifier les sondes dans Icinga ==== | ||
| + | |||
| + | Si un problème subsiste alors les sondes devraient le faire apparaître dans Icinga. | ||
| + | Vérifier que les alertes actives sont acceptables. | ||
| + | |||
| + | |||
| + | |||
| + | ==== Clôturer l' | ||
| + | |||
| + | Éditer l' | ||
| + | * Status : sélectionner '' | ||
| + | * When did this maintenance complete? : mettre la date et horaire de fin. | ||
