Coupure dûe à un problème de système de fichiers
Par anarcat le mardi 3 juin 2008, 10:14 - fr - Lien permanent
Nous avons subi une courte (2h) coupure (2h30) ce matin dû au
système de fichiers du serveur principal qui a soudainement décidé de devenir
en lecture seule. Le service de courriel fut la principale victime du
phénomène, qui a été rapidement (en 1h) mis sous contrôle par l'équipe
technique. Un bref timeline:
- 08:01: erreur du système de fichier
- 08:30: premier personne qui le remarque sur IRC
- 09:00: mathieu se connecte à IRC et commence l'intervention (umount/sync de /var/alternc)
- 09:25: mathieu réveille antoine
- 09:50: on enlève /var/alternc du fstab et on reboot homere par le PDU
- 09:53: homere back, ping, on a remonté /var/alternc sans problème, tout ok
- 10:01: tout est de retour à la normale
Toutes les heures sont dans le fuseau horaire EDT/HAE (-0400). Notez que ce genre de problème pourra être plus rapidement résolu avec le système de redondance, que nous prévoyons toujours déployer fin août.
Updates:
- nouveau crash du filesystem, un fsck complet est lancé. (11:02)
- fsck fini, tout devrait être de retour (11:39)
Commentaires
Le service de courriel ne fonctionne toujours pas (La tâche «Recherche de nouveaux messages dans les dossiers auxquels vous êtes abonnés sur mail.fqppu.org.» a signalé une erreur (0x8004DF0B) : «Impossible de télécharger le dossier (null) sur le serveur de messagerie IMAP pour le compte mail.fqppu.org. Erreur : La connexion au serveur est indisponible. Outlook doit être en ligne pour effectuer cette action. Si ce problème persiste, contactez l'administrateur du serveur ou votre fournisseur de services Internet.») et notre site Web ne fonctionne plus. Il est 10h55 donc, à ma connaissance, rien n'est réglé...
Tout devrait maintenant être rentré dans l'ordre. Nous faisons cependant une copie des fichiers sur demeter par mesure de sécurité. Si le problème vient à se répéter, nous pourrons alors utiliser le nouveau serveur comme serveur de fichier.