Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

jeudi 8 janvier 2009

période d'entretien 9 janvier entre 14:00 et 16:00

Qui est affecté

Tous les services d'hébergement seront temporairement hors d'usage pendant que les serveurs seront redémarrés. Ceci affecte aussi les utilisateurs des serveurs virtuels.

Quand

L'intervention aura lieu le 9 janvier 2009, entre 14:00 et 16:00. Le redémarrage des serveurs devrait être limité à la période entre 14:00 et 14:30.

Timeline complet:

  • 2009-01-09 13:00:00 EST - départ du bureau avec demeter2
  • 2009-01-09 13:45:00 EST - arrivée au centre de données, installation d'une console et révision de la procédure
  • 2009-01-09 14:00:00 EST - début des reboot de sécurité en cascade
  • 2009-01-09 14:00:00 EST - racking de la nouvelle switch et de l'APC
  • 2009-01-09 14:30:00 EST - fin du racking switch et APC
  • 2009-01-09 14:30:00 EST - fin des reboot de sécurité en cascade
  • 2009-01-09 14:30:00 EST - déracking de hesiode
  • 2009-01-09 14:30:00 EST - début du racking de lgm.koumbit.net
  • 2009-01-09 16:00:00 EST - fin de la fenêtre d'intervention

Ce qui va arriver

Les serveurs suivants seront redémarrés: homere.koumbit.net, metis.koumbit.net, alexandria.koumbit.net, demeter.koumbit.net, marius.koumbit.net, romulus.koumbit.net et raymond.fqccl.org

Le serveur suivant sera retiré: hesiode.koumbit.net.

Les machines suivantes sera mis en ligne: lgm.koumbit.net, sw4-canix2.koumbit.net

Pourquoi

Certains serveurs seront redémarrés pour appliquer des mises à jour de sécurité au noyau Linux. Le serveur secondaire (hesiode.koumbit.net) sera retiré du cabinet pour être remplacé car il est défectueux. Un nouveau serveur sera installé pour un client (lgm.koumbit.net). De l'équipement sera installé dans le nouveau cabinet afin de le rendre "habitable" pour les nouveaux serveurs.

Le nouveau cabinet est nécessaire afin de répondre à la croissance des serveurs.

Comment

Les détails du rapport d'intervention sont disponibles aux membres de Koumbit dans la page: https://wiki.koumbit.net/RapportsIntervention/2009-01-09

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

maintenance window jan 9th between 14:00 and 16:00

Who is affected

All hosting services will be temporarly turned off as the servers will be rebooted. This will also affected virtual server users.

When

The operations will take place on january 9th 2009, between 14:00 and 16:00 EST. The server reboots should be limited to the period between 14:00 et 14:30 EST.

What will happen

The following servers will be rebooted: homere.koumbit.net, metis.koumbit.net, alexandria.koumbit.net, demeter.koumbit.net, marius.koumbit.net, romulus.koumbit.net et raymond.fqccl.org

The following server will be removed: hesiode.koumbit.net.

The following servers will be put online: lgm.koumbit.net, sw4-canix2.koumbit.net

Why

Some servers will be rebooted to apply security upgrades to the Linux kernel. The secondary web server (hesiode.koumbit.net) will be removed from the cabinet to be replaced because it has been damaged by the january 1st power failure. A new server will also be put online for a client (lgm.koumbit.net). Finally, new equipment will be put into place to make the new cabinet able to welcome new servers.

That new cabinet is necessary to respond properly to our growth.

How

Details of the operations are available to Koumbit members in the page: https://wiki.koumbit.net/RapportsIntervention/2009-01-09

I object!

If this intervention is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.

jeudi 25 septembre 2008

Redémarrages de sécurité et nouveau serveur web le 30 septembre

Quand

Le 30 septembre entre 14h30 et 15h00, HAE (-0400).

Ce qui va arriver

Les serveurs seront redémarrés pour une mise à jour de sécurité. De plus, un nouveau serveur physique sera ajouté à la configuration du répartiteur de charge.

Pourquoi

Le noyau Linux a vu plusieurs vulnérabilités publiées récemment et nous allons mettre à jour les machines.

Pour ce qui est du répartiteur de charge, il s'agit de régler les problèmes de fiabilité du service web et permettre une maintenance plus facile du serveur.

Comment

Voir le RapportsIntervention/2008-09-30 complet. Les serveurs seront redémarrés à tour de rôle entre 14:30 et 15:00. Ceci va affecter tous les serveurs virtuels ainsi que l'hébergement mutualisé, chaque coupure durant environ 90 secondes.

Le nouveau serveur (hesiode.koumbit.net) sera mis en ligne mais ne sera pas activé avant une nouvelle période de test, car il est possible que sa mise en ligne brise quelques sites ayant des besoins particuliers.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

Security reboots and new webserver online on september 30th

When

September 30th between 14:40 and 15:00, EDT (-0400).

What will happen

The servers will be rebooted for a security update. Furthermore, a new physical server will be added to the LoadBalancing configuration.

Why

The linux kernel has suffered multiple security vulnerabilities recently and we therefore need to upgrade with the newer kernels.

As for the load balancer, the goal is to resolve the recent reliability problems and allow for an easier maintenance of the services.

How

See the complete report (fr). Servers will be rebooted one after the other between 14:30 and 15:00. This will affect all virtual servers as the shared hosting, each outage lasting around 90 seconds.

The new server (hesiode.koumbit.net) will be put online but will not be activated before a new test period, as it is possible the new server breaks when displaying certain sites.

I object!

If this operation is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.

lundi 28 juillet 2008

Maintenance mercredi 30

English follows

Il y aura quelques coupures mercredi prochain (le 30 juillet) entre 15:30 et 16:00 (HAE) alors que nous allons redémarrer tous les serveurs physiques et virtuels pour mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.

L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.

Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 15:30 au centre de données mais devront avoir terminé et quitté à 16:00.

English

There will be short outages next wednesday (july 30th) between 15:30 and 16:00 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.

Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.

People interested in visiting the datacenter or their hardware are welcome to show up at 15:30 at the datacenter but should have finished and left by 16:00.

mardi 3 juin 2008

Coupure dûe à un problème de système de fichiers

Nous avons subi une courte (2h) coupure (2h30) ce matin dû au système de fichiers du serveur principal qui a soudainement décidé de devenir en lecture seule. Le service de courriel fut la principale victime du phénomène, qui a été rapidement (en 1h) mis sous contrôle par l'équipe technique. Un bref timeline:

  • 08:01: erreur du système de fichier
  • 08:30: premier personne qui le remarque sur IRC
  • 09:00: mathieu se connecte à IRC et commence l'intervention (umount/sync de /var/alternc)
  • 09:25: mathieu réveille antoine
  • 09:50: on enlève /var/alternc du fstab et on reboot homere par le PDU
  • 09:53: homere back, ping, on a remonté /var/alternc sans problème, tout ok
  • 10:01: tout est de retour à la normale

Toutes les heures sont dans le fuseau horaire EDT/HAE (-0400). Notez que ce genre de problème pourra être plus rapidement résolu avec le système de redondance, que nous prévoyons toujours déployer fin août.

Updates:

  • nouveau crash du filesystem, un fsck complet est lancé. (11:02)
  • fsck fini, tout devrait être de retour (11:39)

jeudi 22 mai 2008

Maintenance jeudi le 29

English follows.

Il y aura quelques coupures jeudi prochain (le 29 mai) entre 15:00 et 15:30 (HAE) alors que nous alons redémarrer tous les serveurs physiques et virtuels pour être mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.

L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.

Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 14:00 au centre de données.

Notez finalement que cette opération nous permettera de mettre en place le nouveau serveur de bases de données qui sera bientôt complètement fonctionnel. Nous enverrons une autre annonce à ce moment.

English

There will be short cascading outages next thursday (may 29th) between 15:00 and 15:30 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.

Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.

People interested in visiting the datacenter or their hardware are welcome to show up at 14:00 at the datacenter.

Note that this operation will also provide us with a new database server, which will be racked but not yet fully operationnal. We'll send another announcement when ready.

samedi 16 février 2008

Panne du serveur auto-géré (Homere) samedi le 16 février 2008 de 9h30 à 10h30

Le matin du samedi 16 février 2008, de 9h30 à 10h30, les services web, ftp et courriel étaient inaccessibles suite à une panne du principal serveur auto-géré (homere). La cause de la panne est inconnue pour l'instant. Un technicien a dû se rendre sur place pour redémarrer le serveur.

Nous nous excusons pour les inconvénients et nous vous remercions de votre compréhension.

lundi 11 février 2008

Redémarrage de homere pour mise à jour de sécurité majeure

Une mise à jour de sécurité forcera un reboot d'urgence de homere dans les 10 prochaines minutes.

Cette vulnérabilité affecte toutes les plateformes Linux, voir cette annonce de Debian pour plus d'informations.

Mise-à-jour: romulus, marius et chronos ont également été redémarrés.

vendredi 1 février 2008

Intervention au centre de données le 8 février

Coupures sporadiques prévues de 15h00 à 17h00. Au menu:

Les membres de Koumbit peuvent consulter le plan d'intervention complet dans le wiki à RapportsIntervention/2008-02-08