Différences

Ci-dessous, les différences entre deux révisions de la page.

--- admin:procedures:redemarrer-korat [2025/11/21 18:03] – the max conntrack issue is now solved \o/ pitchum
+++ admin:procedures:redemarrer-korat [2026/03/03 10:16] (Version actuelle) – fhenry2
@@ Ligne 3: / Ligne 3: @@
 ===== Actions préalables =====
-==== Vérifier si un fsck va être déclencher ====
+==== Vérifier si un fsck va être déclenché ====
-Une vérification de disque peut rallonger énormément la durée du redémarrage. Vérifier :
+Une vérification de disque peut rallonger énormément la durée du redémarrage.
-<code>
+Vérifier :
+<code bash>
 df | awk '/^\/dev\/mapper/ {print $1}' | xargs -I {} sh -c 'echo {}; tune2fs -l {}' | awk '/^\/dev/ {print $1} /^Filesystem state/ {print $3, " ",$4}'
 </code>
@@ Ligne 13: / Ligne 14: @@
 === Sur status.chapril.org ===
 Ouvrir une action de maintenance sur https://status.chapril.org/ :
-  * utiliser le modèle ''reboot cluster'' ;
+  * Utiliser le modèle ''reboot cluster'' ;
-  * renseigner ''When is this maintenance scheduled for?'' ;
+  * Renseigner ''When is this maintenance scheduled for?'' ;
-  * ne pas remplir ''When did this maintenance complete?'' ;
+  * Ne pas remplir ''When did this maintenance complete?'' ;
-  * cocher ''Notifier les abonnés ?''.
+  * Cocher ''Notifier les abonnés ?''.
 === Sur chapril@april.org puis sur admins@chapril.org ===
-Envoyer deux courriels séparés aux listes : chapril@april.org puis admins@chapril.org
+Envoyer deux courriels séparés aux listes : [[chapril@april.org]] puis [[admins@chapril.org]].
 <code>
@@ Ligne 42: / Ligne 44: @@
 À l'aide du compte https://pouet.chapril.org/@chapriladmin :
-e
 <code>
 Nous allons redémarrer les serveurs de notre Chapril https://chapril.org pour tenir compte des mises à jour.
@@ Ligne 51: / Ligne 52: @@
 === Sur les machines ===
-Vérifier qui est présent sur les vm :
+Vérifier qui est présent sur les VM :
-<code>
+<code bash>
 cluster_guests=$(ssh root@persan.chapril.org "virsh list --name"; ssh root@korat.chapril.org "virsh list --name")
 for guest in $cluster_guests ;
@@ Ligne 63: / Ligne 64: @@
 </code>
-Pour le cas où un animateur travaillerait sur sa vm sans avoir vu ni le courriel ni status.chapril.org, envoyer un avertissement sur chaque machine.
+Pour le cas où un animateur travaillerait sur sa VM sans avoir vu ni le courriel ni ''status.chapril.org'', envoyer un avertissement sur chaque machine.
-<code>
+<code bash>
 ./do.sh "wall 'Bonjour. Reboot SI Chapril à 13h15. Cpm.'"
 </code>
@@ Ligne 70: / Ligne 71: @@
 === Sur IRC et XMPP ===
-  * IRC : salon ''#chapril'' sur ''irc.libera.chat:6697'' ([[https://webchat.april.org/|webchat]])
+  * IRC : salon ''#chapril'' sur ''irc.libera.chat:6697'' ([[https://webchat.april.org/|webchat]]) ;
-  * XMPP : ''chapril@muc.chapril.org''
+  * XMPP : ''chapril@muc.chapril.org''.
 ==== Couper le monitoring ====
-  * Mettre les hosts concernés en downtime
+  * Mettre les //hosts// concernés en //downtime// ;
-  * Propager les downtimes en questions sur les services des hosts.
+  * Propager les //downtimes// en questions sur les services des //hosts//.
-Le script suivant peut être utilisé pour couper le monitoring sur les hôtes et propager les downtimes sur les services hébergés. Les identifiants sont définis dans le fichier ''/etc/icinga2/conf.d/api-users.conf'' sur la machine ''admin.cluster.chapril.org'', l'utilitaire ''[[https://github.com/jpmens/jo|jo]]'' ([[https://packages.debian.org/stable/jo|paquet Debian]]) est requis.
+Le script suivant peut être utilisé pour couper le monitoring sur les hôtes et propager les //downtimes// sur les services hébergés.
-<code>
+Les identifiants sont définis dans le fichier ''/etc/icinga2/conf.d/api-users.conf'' sur la machine ''admin.cluster.chapril.org''.
+L'utilitaire ''[[https://github.com/jpmens/jo|jo]]'' ([[https://packages.debian.org/stable/jo|paquet Debian]]) est requis.
+<code bash>
 curl -k -s -S -i -u ${ICINGA_USER}:${ICINGA_PASSWORD} -H 'Accept: application/json' \
  -X POST 'https://icinga.chapril.org:5665/v1/actions/schedule-downtime' \
@@ Ligne 92: / Ligne 97: @@
         end_time=$(date +%s -d "+1 hour"))"
 </code>
 ==== Lister les VM actives ====
 Noter la liste des VM actives pour comparer avec après le redémarrage.
-<code>
-# virsh list
+<code bash>
+virsh list
 </code>
 ===== Arrêt de Korat =====
-Arrêter les VMs avant de redémarrer Korat:
+Arrêter les VM avant de redémarrer Korat:
-====== Arrêter les VM =======
+==== Arrêter les VM ====
-<code>
+<code bash>
 cd /etc/libvirt/qemu
 virsh list --state-running --name | xargs -I{} virsh shutdown {}; watch virsh list
 </code>
-======= redémarrage de Korat =======
+===== Redémarrage de Korat =====
-<code>
+<code bash>
 reboot
 </code>
+==== Remise en marche de Korat ====
-===== Remise en marche de Korat =====
 Attendre que le système ait fini de démarrer (état à //running//) :
-<code>
+<code bash>
 watch "systemctl status | grep State | head -1"
 </code>
-Démarrer les VM (⚠️ne pas redémarrer la VM ''template''⚠️):
+Démarrer les VM :
-<code>
+<note warning>Ne pas redémarrer la VM ''template''.</note>
+<code bash>
 virsh list --state-shutoff --name  | grep -v template | xargs -I{} virsh start {}; watch virsh list
 </code>
 ==== Lister les VM actives ====
-  virsh list
+<code bash>
+virsh list
+</code>
-Et comparer à la liste avant reboot.
+Et comparer à la liste avant ''reboot''.
-==== Vérifier le bon démarrage des vm ====
+==== Vérifier le bon démarrage des VM ====
-Parfois les vm démarre mais en statut « degraded ». Il convient de vérifier par un :
+Parfois les VM démarrent mais en statut //degraded//.
-<code>
+Il convient de vérifier par une commande :
+<code bash>
 ./do.sh "systemctl status | head -2"
 </code>
-Et pour les vm n'ayant pas un statut « running »,
+Et pour les VM n'ayant pas un statut //running//, faire la commande suivante pour identifier le service en souffrance :
-faire la commande suivante pour identifier le service en souffrance :
+<code bash>
-<code>
 systemctl list-units
 </code>
@@ Ligne 148: / Ligne 161: @@
 Si un problème subsiste alors les sondes devraient le faire apparaître dans Icinga.
 Vérifier que les alertes actives sont acceptables.
 ==== Clôturer l'action de maintenance status.chapril.org ====
 Éditer l'action de maintenance :
-  * Status : sélectionner ''complete'' ;
+  * //Status// : sélectionner ''complete'' ;
-  * When did this maintenance complete? : mettre la date et horaire de fin.
+  * //When did this maintenance complete?// : mettre la date et l’horaire de fin.