Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

fr

Envois en français.

Fil des billets - Fil des commentaires

dimanche 9 novembre 2008

Coupure dans la nuit du samedi 8 novembre 2008: problème d'ampérage, problème de date sur mysql1

Un disjoncteur du cabinet, où sont hébergés les principaux serveurs d'hébergement de Koumbit, a sauté dans la nuit du samedi 8 novembre 2008 en raison d'une surcharge. Une partie des serveurs étaient inaccessibles entre 23h15 et 0h30, suivi de quelques petites coupures entre 0h30 et 2h15.

De plus, suite à cette panne, le principal serveur web de l'hébergement partagé n'a pas correctement retrouvé la bonne heure et affichait 1970. Ceci a causé quelques problèmes sur des sites de gestion de contenu (Spip et Drupal). Le problème a été remarqué et résolu dimanche vers 11h00.

Koumbit est sur le point d'ouvrir un second cabinet dans un nouveau point de présence. Ceci fait partie du plan architectural 2008 pour augmenter la redondance et gérer la croissance. Ceci permettra, entre autres, d'éviter ce type de panne, puisque les serveurs d'hébergement partagés seront redondants entre les deux cabinets.

Pour toute question ou commentaire, vous pouvez commenter sur le blogue des administrateurs systèmes (offline.koumbit.net) ou nous écrire à support@koumbit.org.

Merci de votre compréhension.

Mise à jour, 16:47HNE: c'est le serveur web et non le serveur de bases de données qui avait une heure erronée.

dimanche 2 novembre 2008

Remplacement d'un disque défectueux sur le serveur MySQL

Qui est affecté

Tous les serveurs virtuels ainsi que les sites hébergés sur le serveur mutualisé qui utilisent mysql. Donc la plupart des personnes qui sont hébergé chez Koumbit.

Quand
* DATE DE DÉBUT: dimanche 2 novembre 2008 16:00:00 EST
* DATE DE FIN: dimanche 2 novembre 2008 17:00:00 EST
Ce qui va arriver

Le serveur de base de données sera temporairement éteint pour pouvoir remplacer un disque défectueux.

Pourquoi

Une des composantes de la matrice RAID a montré une défectuosité la nuit dernière. Aucune donnée n'a été perdue, mais nous préférons remplacer préventivement la composante fautive.

Comment

Un technicien (Antoine) se rendra au centre de donnée pour faire le remplacement.

mercredi 15 octobre 2008

Nouveau serveur web prêt aux tests, AlternC 0.9.9 en ligne

Qui est affecté

Dès maintenant, cet avis concerne les développeurs web qui maintiennent des sites sur l'hébergement mutualisé.

À partir de la semaine prochaine, tous les utilisateurs de l'hébergement sont concernés.

Quand

Lundi 20 octobre à 13h.

Ce qui va arriver

Un nouveau serveur web a été mis en ligne et a passé avec succès la phase de tests interne. Nous invitons maintenant les développeurs web et autres personnes techniquement capables de faire des tests sur le serveur pour la fin de la semaine.

Lundi prochain, le nouveau serveur sera mis en ligne dans le setup de redondance.

Pourquoi

Le nouveau serveur va assurer une meilleure continuité de service et une plus grande rapidité à répondre aux requêtes.

Comment

Quand une coupure surviendra sur un serveur à cause d'une surcharge, le second serveur prendra rapidement le relai (le délai est présentement réglé à 5 secondes). Même s'il n'Y a pas de surcharge, les serveurs vont se distribuer la charge, améliorant de beaucoup la performance générale.

Afin de tester immédiatement le nouveau serveur, les testeurs intéressés peuvent modifier leur fichier "hosts" en suivant les instructions à cette page:

https://wiki.koumbit.net/DnsWithHostsFile

L'adresse du nouveau serveur est la suivante: 209.44.112.96

Signalez tout problème à support@koumbit.org en précisant que vous croyez le problème relié au nouveau serveur et votre configuration ci-haut.

Autres annonces

Nous voulons profiter de cette annonce pour souligner la sortie de AlternC 0.9.9, qui règle plusieurs bugs dans l'interface d'administration et permet le déploiement sur plusieurs serveurs plus facilement.

De plus, notez que les annonces envoyées sur la liste de discussion hag@ sont maintenant marqués avec la langue du message. Vous pouvez filtrer les annonces que vous voulez recevoir sur cette page:

https://listes.koumbit.net/cgi-bin/mailman/options/hag-koumbit.org

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

lundi 6 octobre 2008

Coupure réseau ce matin

Nous avons eu une coupure réseau durant la matinée, entre 7:43 et 8:43 (HAE). Les symptômes étaient des coupures réseau complètes, des ralentissements, des pertes de paquets. Il n'y avait pas grand chose à faire de notre côté, et la situation est revenue à la normale vers 9:30. Le problème était dû à un déni de service distribué (DDOS).

jeudi 25 septembre 2008

Redémarrages de sécurité et nouveau serveur web le 30 septembre

Quand

Le 30 septembre entre 14h30 et 15h00, HAE (-0400).

Ce qui va arriver

Les serveurs seront redémarrés pour une mise à jour de sécurité. De plus, un nouveau serveur physique sera ajouté à la configuration du répartiteur de charge.

Pourquoi

Le noyau Linux a vu plusieurs vulnérabilités publiées récemment et nous allons mettre à jour les machines.

Pour ce qui est du répartiteur de charge, il s'agit de régler les problèmes de fiabilité du service web et permettre une maintenance plus facile du serveur.

Comment

Voir le RapportsIntervention/2008-09-30 complet. Les serveurs seront redémarrés à tour de rôle entre 14:30 et 15:00. Ceci va affecter tous les serveurs virtuels ainsi que l'hébergement mutualisé, chaque coupure durant environ 90 secondes.

Le nouveau serveur (hesiode.koumbit.net) sera mis en ligne mais ne sera pas activé avant une nouvelle période de test, car il est possible que sa mise en ligne brise quelques sites ayant des besoins particuliers.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

mardi 16 septembre 2008

Coupure d'un serveur DNS récursif aujourd'hui

Qui est affecté

Les serveurs hébergés en colocation, y compris, sans se limiter à: remus.koumbit.net, hesiode.koumbit.net, alexandria.koumbit.net et metis.koumbit.net.

Quand

Aujourd'hui 16 septembre, entre 17:45 et 18:15, HAE (-0400).

Ce qui va arriver

Le serveur hébergeant un des serveurs virtuel résolvant les noms de domaines pour le cabinet (209.44.112.71, recurse2.koumbit.net) sera remplacé, occasionnant une coupure d'environ 30 minutes de ce service. L'autre serveur DNS (209.44.112.70, recurse.koumbit.net) devrait continuer à effectuer le service normalement et nous croyons que ceci ne devrait pas occasionner de problème majeurs.

Pourquoi

Le serveur (remus.koumbit.net) est en fin de vie et doit être remplacé. Il sera transformé en serveur de sauvegarde massif (alexandria.koumbit.net).

Comment

Voir les détails du rapport d'intervention. À noter que remus.koumbit.net va maintenant s'appeler metis.koumbit.net. Nous allons également mettre en ligne un nouveau serveur, hesiode.koumbit.net.

jeudi 11 septembre 2008

Panne du serveur mysql

Le serveur mysql principal (demeter) de l'hébergement auto-géré est présentement hors-service. Nous travaillons présentement à son rétablissement.

Désolé pour les inconvénients reliés à cette coupure inhabituelle.

Update: la coupure a duré de 13:23 à 14:08. Tous les services web et mails ont été affectés, mais aucun mail ne devrait avoir été perdu. Le problème est relié à un autre crash serveur. Les membres de Koumbit peuvent consulter le rapport complet.

jeudi 28 août 2008

Nouveau serveur DNS: ns3.koumbit.net

Quoi

Dès aujourd'hui, nous ajoutons un nouveau serveur DNS à notre rotation principale. Le nouveau serveur est dès maintenant fonctionnel pour les domaines sur l'hébergement mutualisé.

La nouvelle adresse du serveur est la suivante: 209.172.53.230

Qui est affecté

Tous les utilisateurs gérant eux-mêmes leurs domaine (en tant que contact technique) doivent ajouter NS3.KOUMBIT.NET. Ceci vous assurera de ne subir aucune coupure durant l'année prochaine, alors que le serveur NS2.KOUMBIT.NET sera migré vers un autre fournisseur.

Les domaines gérés par Koumbit ont été correctement modifiés aujourd'hui. Si nous sommes le contact technique pour votre domaine, vous n'avez donc aucune action à entreprendre ici.

Vous pouvez vérifier qui sont les contacts pour votre domaine par cette interface:

http://www.gandi.net/whois

Quand

Les changements ont déjà commencé. Le serveur est en production depuis aujourd'hui. Les "Glue Records" ont également été mis à jour aujourd'hui, tout comme les domaines pour lesquels nous sommes le contact technique.

Dans environ 6 mois, le serveur ns2 sera migré vers un autre fournisseur. D'autres annonces suivront à ce sujet.

Pourquoi

Le serveur DNS secondaire NS2.KOUMBIT.NET est hébergé sur un lien réseau ayant une latence un peu moins désirable que le serveur principal, ce qui dégrade un peu la qualité du service. Nous voulons donc migrer ce serveur, mais une telle migration pourrait provoquer des coupures. Nous créons donc un nouveau serveur DNS, qui de plus nous fournira un niveau de redondance supplémentaire.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

mercredi 27 août 2008

nouveau serveur web dans le répartiteur de charge

Je viens d'ajouter un nouveau serveur dans le répartiteur de charge. Il est présentement configuré pour ne répondre seulement quand le serveur principal plante (contrairement à être configuré pour partager la charge). Ceci devrait nous débarrasser des erreurs "503 Service non-disponible" que nous voyons souvent sur le serveur ces temps-ci (les fameuses "micro-coupures").

Il est possible que cette nouvelle configuration créée des problèmes. Nous avons tests plusieurs sites (un Drupal et un Tikiwiki) et tout semble en ordre, mais si vous voyez des comportements bizarres, indiquez-nous l'heure exact à laquelle il s'est produit pour que nous puissions diagnostiquer le problème.

Notez que ce changement n'améliore pas encore la performance générale du service mais ne fait qu'améliorer la fiabilité. Nous allons bientôt déployer un nouveau serveur dédié qui devrait également améliorer la performance.

remplacement matériel terminé, nouveaux URLs

L'intervention d'hier est maintenant terminée et la nouvelle switch est en place. Votre machine a très probablement changé de port. Vous pouvez consulter les statistiques à cette adresse:

http://log.koumbit.net/mrtg/

La plupart d'entre vous devraient être sur un port après le port 36.

Les anciennes statistiques sont disponibles ici:

http://log.koumbit.net/mrtg.pre-sw3/

Désolé des inconvénients que cette intervention ont pu causer.

mercredi 20 août 2008

Intervention le 26 août

Qui est affecté

Toutes les machines, serveurs virtuels ou nons, et services hébergés dans le cabinet principal. Ceci inclus les services d'hébergement et de courriel.

Quand

Le 26 août 2008, entre 19h00 et 21h00, HAE (-0400). Les coupures décrites auront lieu entre 20h00 et 21h00, HAE. Nous espérons cependant limiter les coupures à 30 minutes (donc entre 20h et 20h30).

Ce qui va arriver

La "switch" principale sera remplacé. Ceci va provoquer des courtes coupures pour chacun des serveurs hébergés.

Pourquoi

La switch actuelle est pleine et montre des signes de faiblesse. Nous préfèrons la remplacer avant une coupure totale.

Comment

Voir le rapport d'intervention. Notez que la coupure commencera par une coupure généralisée, lorsque le router sera rebranché. Ensuite, chaque machine sera rebranchée une à une, ce qui provoquera une coupure de quelques minutes maximum par machine. Il est également possible que cette procédure itérative échoue et que nous fessions une procédure rapide avec coupure totale sur tous les serveurs.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

Notez également que le blog sysadmin sera mis à jour si l'intervention sera modifiée ou si nous avons des problèmes particuliers.

Début de l'utilisation des catégories pour classifier les articles par langue

Nous commençons dès maintenant à utiliser les catégories de dotclear pour isoler le contenu par langue dans ce blog. La page principale va contenir le contenu des deux langues. Pour voir le contenu dans votre langue, utilisez:

Ceci s'applique également aux fils RSS:

lundi 28 juillet 2008

Maintenance mercredi 30

English follows

Il y aura quelques coupures mercredi prochain (le 30 juillet) entre 15:30 et 16:00 (HAE) alors que nous allons redémarrer tous les serveurs physiques et virtuels pour mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.

L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.

Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 15:30 au centre de données mais devront avoir terminé et quitté à 16:00.

English

There will be short outages next wednesday (july 30th) between 15:30 and 16:00 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.

Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.

People interested in visiting the datacenter or their hardware are welcome to show up at 15:30 at the datacenter but should have finished and left by 16:00.

samedi 5 juillet 2008

Coupure sur le serveur principal cette nuit

Le serveur web principal (homere) de l'hébergement auto-géré a planté ce matin à 1h (heure locale). Le crash n'a pas été détecté par nagios à cause du nouveau répartisseur de charge qui a pris le relai pour afficher une page d'erreur. La personne sur appel a été contactée à 6h (heure locale) et le serveur a été redémarré.

Le système de surveillance a depuis été corrigé pour mieux gérer ce genre de situations. Désolé pour les inconvénients reliés à cette coupure inhabituelle, affectant particulièrement nos hébergés en europe.

jeudi 3 juillet 2008

Serveur de répartition de charge en ligne

Le serveur de répartition de charge (rtr1-canix2.koumbit.net) a finalement été mis en ligne correctement. Il s'agissait d'une simple erreur de syntaxe qui le rendait non fonctionnel. Depuis ce soir, donc, le serveur principal (homere) est surveillé. Si une coupure survient, le système va rediriger les utilisateurs vers une page d'erreur plus instructive au lieu de boucler ou de refuser la connexion. Éventuellement, les serveurs secondaires prendront le dessus, mais ceux-ci doivent encore être configurés, ce qui devrait être testé au cours du mois.

Il est possible que cette nouvelle configuration occasionne certains problèmes, si vous voyez des nouveaux problèmes avec le service, n'hésitez pas à nous contacter.

lundi 16 juin 2008

Coupure sur le réseau

La connectivité a été rompue dans le cabinet principal à 19:07 heure locale. Nous investiguons le problème. Nous avons repris contact avec les serveurs autour de 19:19 mais des problèmes subsistent.

Update: les services semblent être revenus vers 19:30. Nous nous informons à notre fournisseur d'accès pour obtenir des détails sur la coupure.

lundi 9 juin 2008

MySQL: problème de performance résolu / performance problems solved

(English follows)

Lundi le 9 mai 2008, entre 4h et 5h30 (UCT-4), le serveur MySQL a eu des problèmes de performance importants. Ceci a affecté de nombreux services de Koumbit, incluant les sites web hébergés sur le principal serveur d'hébergement auto-géré (HAG), les courriels, FTP, etc.

Le problème a été causé par un manque d'espace disque pour la partition /tmp lorsque MySQL écrit sa cache de jointures de tables temporaires sur disque. Ceci avait pour effet de faire «planter» le serveur MySQL avec un mystérieux message d'erreur («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).

Ce nouveau serveur MySQL a eu une série de petites pannes depuis sa mise en ligne la semaine dernière. Cependant, la configuration de MySQL est maintenant redondante et, une fois la configuration du serveur stabilisée, devrait nous aider à réduire les pannes (nous devons également améliorer la redondance d'Apache).

Par ailleurs, la panne étant survenue à 4h durant la nuit, cet incident fut une bonne démonstration d'une nouvelle fonction du système automatisé de veille (nagios), mise en ligne il y a 3 semaines. Nagios téléphone automatiquement le téléphone cellulaire de l'administrateur de veille lorsqu'une panne n'est pas résolue dans les 5 minutes.

Merci de votre compréhension,
Le comité sysadmin de Koumbit

English

On Monday the 9th of May 2008, between 4h and 5h30 (UCT-4), the MySQL server had major performance problems. This affected many Koumbit services, including the websites on the main self-managed server (HAG), e-mail, FTP, etc.

The problem was caused by a lack of free disk space in the /tmp directory when MySQL was writing to disk its cache of large table joins. This was causing MySQL to crash with a mysterious error message («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).

This new MySQL server has had a series of minor incidents since it has been put online last week. However, the MySQL configuration is now redudant and, once its configuration is stabilised, it should help us to greatly reduce downtime (we also need to improve the redundancy of the Apache web server).

Furthermore, this incident was a good demonstration of a feature in our automated monitoring system (nagios), which now automatically calls the cell phone of the on-call sysadmin if an incident is not acknowledged within 5 minutes. It was therefore possible to wake up a sysadmin within a few minutes of the incident, at 4 AM.

Thank you for your understanding,
The sysadmin committee of Koumbit

jeudi 5 juin 2008

Nouveau serveur MySQL en ligne

Le nouveau serveur est maintenant en production comme nouveau serveur MySQL. Ceci devrait améliorer la performance de l'hébergement sensiblement, mais il reste encore de l'optimisation à faire sur le serveur afin de s'assurer qu'il utilise le maximum de la nouvelle puissance...

Mise à jour du roadmap de load balancing

J'ai mis à jour le roadmap de la répartition de charge, qui encourt certains délais. Voir ce commentaire pour plus de détails. Nous continuerons à mettre à jour le billet ainsi que la page wiki.

mardi 3 juin 2008

Coupure dûe à un problème de système de fichiers

Nous avons subi une courte (2h) coupure (2h30) ce matin dû au système de fichiers du serveur principal qui a soudainement décidé de devenir en lecture seule. Le service de courriel fut la principale victime du phénomène, qui a été rapidement (en 1h) mis sous contrôle par l'équipe technique. Un bref timeline:

  • 08:01: erreur du système de fichier
  • 08:30: premier personne qui le remarque sur IRC
  • 09:00: mathieu se connecte à IRC et commence l'intervention (umount/sync de /var/alternc)
  • 09:25: mathieu réveille antoine
  • 09:50: on enlève /var/alternc du fstab et on reboot homere par le PDU
  • 09:53: homere back, ping, on a remonté /var/alternc sans problème, tout ok
  • 10:01: tout est de retour à la normale

Toutes les heures sont dans le fuseau horaire EDT/HAE (-0400). Notez que ce genre de problème pourra être plus rapidement résolu avec le système de redondance, que nous prévoyons toujours déployer fin août.

Updates:

  • nouveau crash du filesystem, un fsck complet est lancé. (11:02)
  • fsck fini, tout devrait être de retour (11:39)

- page 1 de 3