Différences

Ci-dessous, les différences entre deux révisions de la page.

--- admin:procedures:redemarrer-korat [2024/03/09 20:40] – supprimée - modification externe (Unknown date) 127.0.0.1
+++ admin:procedures:redemarrer-korat [2026/03/03 10:16] (Version actuelle) – fhenry2
@@ Ligne 1: / Ligne 1: @@
+====== Rebooter Korat ======
+===== Actions préalables =====
+==== Vérifier si un fsck va être déclenché ====
+Une vérification de disque peut rallonger énormément la durée du redémarrage.
+Vérifier :
+<code bash>
+df | awk '/^\/dev\/mapper/ {print $1}' | xargs -I {} sh -c 'echo {}; tune2fs -l {}' | awk '/^\/dev/ {print $1} /^Filesystem state/ {print $3, " ",$4}'
+</code>
+==== Prévenir les usagers ====
+=== Sur status.chapril.org ===
+Ouvrir une action de maintenance sur https://status.chapril.org/ :
+  * Utiliser le modèle ''reboot cluster'' ;
+  * Renseigner ''When is this maintenance scheduled for?'' ;
+  * Ne pas remplir ''When did this maintenance complete?'' ;
+  * Cocher ''Notifier les abonnés ?''.
+=== Sur chapril@april.org puis sur admins@chapril.org ===
+Envoyer deux courriels séparés aux listes : [[chapril@april.org]] puis [[admins@chapril.org]].
+<code>
+From: François Poulain <fpoulain@metrodore.fr>
+To: chapril@april.org
+Subject: [Chapril] Redémarrage du cluster
+Coucou,
+Je vais rebooter le cluster pour tenir compte du dernier upgrade
+noyal de sécurité.
+François
+--
+François Poulain <fpoulain@metrodore.fr>
+</code>
+=== Sur pouet.chapril.org ===
+À l'aide du compte https://pouet.chapril.org/@chapriladmin :
+<code>
+Nous allons redémarrer les serveurs de notre Chapril https://chapril.org pour tenir compte des mises à jour.
+L'opération prendra environ 30 minutes, durée pendant laquelle les services seront indisponibles.
+</code>
+=== Sur les machines ===
+Vérifier qui est présent sur les VM :
+<code bash>
+cluster_guests=$(ssh root@persan.chapril.org "virsh list --name"; ssh root@korat.chapril.org "virsh list --name")
+for guest in $cluster_guests ;
+do
+    echo "===== $guest ====="
+    cmd='for i in $(ps auxwww|grep "\-bash" | awk '\''{ print $2 }'\'' ); do cat "/proc/$i/environ" ; done 2>/dev/null |strings |grep GIT_AUTHOR_NAME | sort | uniq'
+    ssh root@$guest.cluster.chapril.org "$cmd"
+done
+</code>
+Pour le cas où un animateur travaillerait sur sa VM sans avoir vu ni le courriel ni ''status.chapril.org'', envoyer un avertissement sur chaque machine.
+<code bash>
+./do.sh "wall 'Bonjour. Reboot SI Chapril à 13h15. Cpm.'"
+</code>
+=== Sur IRC et XMPP ===
+  * IRC : salon ''#chapril'' sur ''irc.libera.chat:6697'' ([[https://webchat.april.org/|webchat]]) ;
+  * XMPP : ''chapril@muc.chapril.org''.
+==== Couper le monitoring ====
+  * Mettre les //hosts// concernés en //downtime// ;
+  * Propager les //downtimes// en questions sur les services des //hosts//.
+Le script suivant peut être utilisé pour couper le monitoring sur les hôtes et propager les //downtimes// sur les services hébergés.
+Les identifiants sont définis dans le fichier ''/etc/icinga2/conf.d/api-users.conf'' sur la machine ''admin.cluster.chapril.org''.
+L'utilitaire ''[[https://github.com/jpmens/jo|jo]]'' ([[https://packages.debian.org/stable/jo|paquet Debian]]) est requis.
+<code bash>
+curl -k -s -S -i -u ${ICINGA_USER}:${ICINGA_PASSWORD} -H 'Accept: application/json' \
+ -X POST 'https://icinga.chapril.org:5665/v1/actions/schedule-downtime' \
+ -d "$(jo -p \
+        pretty=true \
+        type=Host \
+        filter="match(\"korat*\", host.vars.hote)" \
+        all_services=true \
+        author="${GIT_AUTHOR_NAME}" \
+        comment="Korat upgrade maintenance" \
+        fixed=true \
+        start_time=$(date +%s -d "+0 hour") \
+        end_time=$(date +%s -d "+1 hour"))"
+</code>
+==== Lister les VM actives ====
+Noter la liste des VM actives pour comparer avec après le redémarrage.
+<code bash>
+virsh list
+</code>
+===== Arrêt de Korat =====
+Arrêter les VM avant de redémarrer Korat:
+==== Arrêter les VM ====
+<code bash>
+cd /etc/libvirt/qemu
+virsh list --state-running --name | xargs -I{} virsh shutdown {}; watch virsh list
+</code>
+===== Redémarrage de Korat =====
+<code bash>
+reboot
+</code>
+==== Remise en marche de Korat ====
+Attendre que le système ait fini de démarrer (état à //running//) :
+<code bash>
+watch "systemctl status | grep State | head -1"
+</code>
+Démarrer les VM :
+<note warning>Ne pas redémarrer la VM ''template''.</note>
+<code bash>
+virsh list --state-shutoff --name  | grep -v template | xargs -I{} virsh start {}; watch virsh list
+</code>
+==== Lister les VM actives ====
+<code bash>
+virsh list
+</code>
+Et comparer à la liste avant ''reboot''.
+==== Vérifier le bon démarrage des VM ====
+Parfois les VM démarrent mais en statut //degraded//.
+Il convient de vérifier par une commande :
+<code bash>
+./do.sh "systemctl status | head -2"
+</code>
+Et pour les VM n'ayant pas un statut //running//, faire la commande suivante pour identifier le service en souffrance :
+<code bash>
+systemctl list-units
+</code>
+==== Vérifier les sondes dans Icinga ====
+Si un problème subsiste alors les sondes devraient le faire apparaître dans Icinga.
+Vérifier que les alertes actives sont acceptables.
+==== Clôturer l'action de maintenance status.chapril.org ====
+Éditer l'action de maintenance :
+  * //Status// : sélectionner ''complete'' ;
+  * //When did this maintenance complete?// : mettre la date et l’horaire de fin.