(English follows)
Lundi le 9 mai 2008, entre 4h et 5h30 (UCT-4), le serveur MySQL a eu des
problèmes de performance importants. Ceci a affecté de nombreux services de
Koumbit, incluant les sites web hébergés sur le principal serveur d'hébergement
auto-géré (HAG), les courriels, FTP, etc.
Le problème a été causé par un manque d'espace disque pour la partition /tmp
lorsque MySQL écrit sa cache de jointures de tables temporaires sur disque.
Ceci avait pour effet de faire «planter» le serveur MySQL avec un mystérieux
message d'erreur («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to
repair it»).
Ce nouveau serveur MySQL a eu une série de petites pannes depuis sa mise en
ligne la semaine dernière. Cependant, la configuration de MySQL est maintenant
redondante et, une fois la configuration du serveur stabilisée, devrait nous
aider à réduire les pannes (nous devons également améliorer la redondance
d'Apache).
Par ailleurs, la panne étant survenue à 4h durant la nuit, cet incident fut
une bonne démonstration d'une nouvelle fonction du système automatisé de veille
(nagios), mise en ligne il y a 3 semaines. Nagios téléphone automatiquement le
téléphone cellulaire de l'administrateur de veille lorsqu'une panne n'est pas
résolue dans les 5 minutes.
Merci de votre compréhension,
Le comité sysadmin de Koumbit
English
On Monday the 9th of May 2008, between 4h and 5h30 (UCT-4), the MySQL server
had major performance problems. This affected many Koumbit services, including
the websites on the main self-managed server (HAG), e-mail, FTP, etc.
The problem was caused by a lack of free disk space in the /tmp directory
when MySQL was writing to disk its cache of large table joins. This was causing
MySQL to crash with a mysterious error message («Incorrect key file for table
'/tmp/#sql_12fd_1.MYI'; try to repair it»).
This new MySQL server has had a series of minor incidents since it has been
put online last week. However, the MySQL configuration is now redudant and,
once its configuration is stabilised, it should help us to greatly reduce
downtime (we also need to improve the redundancy of the Apache web server).
Furthermore, this incident was a good demonstration of a feature in our
automated monitoring system (nagios), which now automatically calls the cell
phone of the on-call sysadmin if an incident is not acknowledged within 5
minutes. It was therefore possible to wake up a sysadmin within a few minutes
of the incident, at 4 AM.
Thank you for your understanding,
The sysadmin committee of Koumbit