Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

mardi 3 juin 2008

Coupure dûe à un problème de système de fichiers

Nous avons subi une courte (2h) coupure (2h30) ce matin dû au système de fichiers du serveur principal qui a soudainement décidé de devenir en lecture seule. Le service de courriel fut la principale victime du phénomène, qui a été rapidement (en 1h) mis sous contrôle par l'équipe technique. Un bref timeline:

  • 08:01: erreur du système de fichier
  • 08:30: premier personne qui le remarque sur IRC
  • 09:00: mathieu se connecte à IRC et commence l'intervention (umount/sync de /var/alternc)
  • 09:25: mathieu réveille antoine
  • 09:50: on enlève /var/alternc du fstab et on reboot homere par le PDU
  • 09:53: homere back, ping, on a remonté /var/alternc sans problème, tout ok
  • 10:01: tout est de retour à la normale

Toutes les heures sont dans le fuseau horaire EDT/HAE (-0400). Notez que ce genre de problème pourra être plus rapidement résolu avec le système de redondance, que nous prévoyons toujours déployer fin août.

Updates:

  • nouveau crash du filesystem, un fsck complet est lancé. (11:02)
  • fsck fini, tout devrait être de retour (11:39)

vendredi 7 mars 2008

Vérification du disque en cours sur Homere (HAG), apache/courrier hors-ligne

Une erreur système survenue vers 9h, vendredi le 7 mars 2008, nous oblige à intervenir d'urgence pour nous assurer de l'intégrité des données du disque dur sur Homere (le principal serveur web du système d'hébergement auto-géré, HAG). Pendant cette opération (fsck), les serveurs web (apache et apache-ssl), ainsi que les serveurs de courrier ne seront pas disponibles.

Le service devrait être de retour en ligne d'ici 15 minutes. Nous nous excusons pour les inconvénients.

samedi 16 février 2008

Panne du serveur auto-géré (Homere) samedi le 16 février 2008 de 9h30 à 10h30

Le matin du samedi 16 février 2008, de 9h30 à 10h30, les services web, ftp et courriel étaient inaccessibles suite à une panne du principal serveur auto-géré (homere). La cause de la panne est inconnue pour l'instant. Un technicien a dû se rendre sur place pour redémarrer le serveur.

Nous nous excusons pour les inconvénients et nous vous remercions de votre compréhension.

lundi 11 février 2008

Redémarrage de homere pour mise à jour de sécurité majeure

Une mise à jour de sécurité forcera un reboot d'urgence de homere dans les 10 prochaines minutes.

Cette vulnérabilité affecte toutes les plateformes Linux, voir cette annonce de Debian pour plus d'informations.

Mise-à-jour: romulus, marius et chronos ont également été redémarrés.