Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

Tag - intervention

Fil des billets - Fil des commentaires

dimanche 9 novembre 2008

Coupure dans la nuit du samedi 8 novembre 2008: problème d'ampérage, problème de date sur mysql1

Un disjoncteur du cabinet, où sont hébergés les principaux serveurs d'hébergement de Koumbit, a sauté dans la nuit du samedi 8 novembre 2008 en raison d'une surcharge. Une partie des serveurs étaient inaccessibles entre 23h15 et 0h30, suivi de quelques petites coupures entre 0h30 et 2h15.

De plus, suite à cette panne, le principal serveur web de l'hébergement partagé n'a pas correctement retrouvé la bonne heure et affichait 1970. Ceci a causé quelques problèmes sur des sites de gestion de contenu (Spip et Drupal). Le problème a été remarqué et résolu dimanche vers 11h00.

Koumbit est sur le point d'ouvrir un second cabinet dans un nouveau point de présence. Ceci fait partie du plan architectural 2008 pour augmenter la redondance et gérer la croissance. Ceci permettra, entre autres, d'éviter ce type de panne, puisque les serveurs d'hébergement partagés seront redondants entre les deux cabinets.

Pour toute question ou commentaire, vous pouvez commenter sur le blogue des administrateurs systèmes (offline.koumbit.net) ou nous écrire à support@koumbit.org.

Merci de votre compréhension.

Mise à jour, 16:47HNE: c'est le serveur web et non le serveur de bases de données qui avait une heure erronée.

Hosting outage Saturday November 8, 2008: electric problem, database time problem

A fuse in the cabinet, where most of the Koumbit hosting servers are located, was overloaded and failed, in the night of November 8, 2008. Part of the servers were not available between 23h15 and 0h30, followed by other minor disruptions between 0h30 and 2h15.

Following this, the main web server of the shared hosting accounts did not recover correctly its time and was displaying 1970. This caused a few problems on some sites running content management content systems (sush as Spip and Drupal). The problem was noticed and fixed Sunday around 11h00.

Koumbit is about to open a second cabinet in a new point of presence. This is part of our 2008 architectural plan to increase redundancy and to deal with the growth of the demand. This will allow us, amongst other benefits, to avoid this type of outage, since the main shared hosting servers will be redundant between the two cabinets.

For questions or comments, you can comment on the sysadmin blog (offline.koumbit.net) or write to us at support@koumbit.org.

Thank you for your understanding.

Update, 16:47EST: it's the webserver and not the database server that had a clock problem.

mercredi 27 août 2008

remplacement matériel terminé, nouveaux URLs

L'intervention d'hier est maintenant terminée et la nouvelle switch est en place. Votre machine a très probablement changé de port. Vous pouvez consulter les statistiques à cette adresse:

http://log.koumbit.net/mrtg/

La plupart d'entre vous devraient être sur un port après le port 36.

Les anciennes statistiques sont disponibles ici:

http://log.koumbit.net/mrtg.pre-sw3/

Désolé des inconvénients que cette intervention ont pu causer.

switch replacement complete, new statistics URLs

The maintenance yesterday is now complete and the new switch is in place. You machine has very likely changed ports. You can see the new configuration on the MRTG page:

http://log.koumbit.net/mrtg/

Most of you should be at ports above 36.

The statistics from the old switch are still available here:

http://log.koumbit.net/mrtg.pre-sw3/

Sorry for the trouble.

mercredi 20 août 2008

Intervention le 26 août

Qui est affecté

Toutes les machines, serveurs virtuels ou nons, et services hébergés dans le cabinet principal. Ceci inclus les services d'hébergement et de courriel.

Quand

Le 26 août 2008, entre 19h00 et 21h00, HAE (-0400). Les coupures décrites auront lieu entre 20h00 et 21h00, HAE. Nous espérons cependant limiter les coupures à 30 minutes (donc entre 20h et 20h30).

Ce qui va arriver

La "switch" principale sera remplacé. Ceci va provoquer des courtes coupures pour chacun des serveurs hébergés.

Pourquoi

La switch actuelle est pleine et montre des signes de faiblesse. Nous préfèrons la remplacer avant une coupure totale.

Comment

Voir le rapport d'intervention. Notez que la coupure commencera par une coupure généralisée, lorsque le router sera rebranché. Ensuite, chaque machine sera rebranchée une à une, ce qui provoquera une coupure de quelques minutes maximum par machine. Il est également possible que cette procédure itérative échoue et que nous fessions une procédure rapide avec coupure totale sur tous les serveurs.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

Notez également que le blog sysadmin sera mis à jour si l'intervention sera modifiée ou si nous avons des problèmes particuliers.

Intervention on august 26th

Who is affected

All the machines, virtual servers or not, and services hosted in the main cabinet. This includes hosting and email services.

When

August 26th 2008, between 19h00 and 21h00 EDT (-0400). Outages described below will occur between 20h00 and 21h00, EDT. However, we hope to limit those outages to 30 minutes (so between 20h00 and 20h30).

What will happen

The main switch will be replaced. This will provoque short network outages for each of the hosted servers.

Why

The current switch is full and show signs of weaknesses. We prefer to replace it before a complete outage.

How

See the rapport d'intervention (fr). Note that this outage will begin with a general outage affecting all servers when the core router will be replugged. Then every machine will be replugged one by one, which should provoke a few minutes of outage for each machine. It is also possible that this procedure fails to function properly and that we go forward with a quick and dirty unplugging and replugging of everything.

I object!

If this intervention is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.

Also not that the sysadmin blog will be updated if the intervention is changed in any way or if we experience problems or delays.

jeudi 22 mai 2008

Maintenance jeudi le 29

English follows.

Il y aura quelques coupures jeudi prochain (le 29 mai) entre 15:00 et 15:30 (HAE) alors que nous alons redémarrer tous les serveurs physiques et virtuels pour être mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.

L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.

Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 14:00 au centre de données.

Notez finalement que cette opération nous permettera de mettre en place le nouveau serveur de bases de données qui sera bientôt complètement fonctionnel. Nous enverrons une autre annonce à ce moment.

English

There will be short cascading outages next thursday (may 29th) between 15:00 and 15:30 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.

Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.

People interested in visiting the datacenter or their hardware are welcome to show up at 14:00 at the datacenter.

Note that this operation will also provide us with a new database server, which will be racked but not yet fully operationnal. We'll send another announcement when ready.

mardi 1 avril 2008

Rapport d'intervention d'hier et intervention lundi

English follows.

L'intervention d'hier soir n'a pas donné les résultats escomptés. Nous sommes toujours à capacité réduite sur le serveur principal. La carte mère sera remplacée lundi à 15h00EDT (-0400). Il y aura donc coupure complète de services sur le serveur principal de 15h05 à 15h45, le temps de remplacer la carte maîtresse du serveur.

Le rapport d'intervention est disponible aux membres de Koumbit dans le wiki.


Yesterdays operations didn't yield the expected results. We are still in a reduced capacity on the main server. The motherboard will be replaced on monday at 15h00EDT (-0400). There will therefore be a complete service outage between 15h05 and 15h45, time during which the motherboard will be replaced.

mardi 18 mars 2008

Retour sur l'intervention

L'intervention d'hier soir ne s'est pas exactement passée comme prévu. Plusieurs problèmes se sont manifestés:

  • la RAM n'était en fait pas défectueuse, c'est la carte mère qui ne porte plus la RAM correctement
  • le routeur principal (rtr1-canix2) crashe lorsqu'on déplace homere (qui est juste en dessous)

Le premier problème fait que nous devrons probablement remplacer le serveur homere en entier. Nous allons discuter avec notre fournisseur et vous annoncer la suite des évènements sous peu. Nous avons quand même réussi à améliorer la situation au niveau de la mémoire, amenant celle-ci à 3GB des 4GB originalement disponibles (soit 1GB de plus que le 2GB que nous avions depuis le 16 février). Ceci devrait améliorer la performance et la stabilité du service à court terme.

Le second problème est plus délicat: il faudra peut-être remplacer le serveur à nouveau, peut-être par une machine plus légère et simple en matériel (par exemple pas de pièces mobiles), moins coûteuse et moins gourmande en courant (pas évident!). En attendant, le routeur est considéré comme stable dans qu'on ne joue pas dans le cabinet.

Les coupures ont donc dûré environ 90 minutes de plus que prévu et nous avons dû rester au centre de données 3h30 au lieu du 2h original.

Le rapport d'intervention complet est disponible aux membres de Koumbit.

vendredi 1 février 2008

Intervention au centre de données le 8 février

Coupures sporadiques prévues de 15h00 à 17h00. Au menu:

Les membres de Koumbit peuvent consulter le plan d'intervention complet dans le wiki à RapportsIntervention/2008-02-08