Nous avons subi une courte (2h) coupure (2h30) ce matin dû au système de fichiers du serveur principal qui a soudainement décidé de devenir en lecture seule. Le service de courriel fut la principale victime du phénomène, qui a été rapidement (en 1h) mis sous contrôle par l'équipe technique. Un bref timeline:

  • 08:01: erreur du système de fichier
  • 08:30: premier personne qui le remarque sur IRC
  • 09:00: mathieu se connecte à IRC et commence l'intervention (umount/sync de /var/alternc)
  • 09:25: mathieu réveille antoine
  • 09:50: on enlève /var/alternc du fstab et on reboot homere par le PDU
  • 09:53: homere back, ping, on a remonté /var/alternc sans problème, tout ok
  • 10:01: tout est de retour à la normale

Toutes les heures sont dans le fuseau horaire EDT/HAE (-0400). Notez que ce genre de problème pourra être plus rapidement résolu avec le système de redondance, que nous prévoyons toujours déployer fin août.

Updates:

  • nouveau crash du filesystem, un fsck complet est lancé. (11:02)
  • fsck fini, tout devrait être de retour (11:39)