Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

lundi 13 juillet 2009

Maintenance notice, 2009-07-14 14:00

Who is affected

Users of the serial console server (normally: no one) or people needing physical maintenance on their colocated servers.

When this will happen

Tuesday July 14th, 14:00 (UTC-4).

What will happen

We will be doing various operations on the serial console switch to try to resolve its quirky behavior before putting it in production.

Why

We have recently acquired a serial console (cs0-canix2.koumbit.net) but it is showing packet loss issues and loss of SSH connectivity.

We also wish to announce our visits to the datacenter more systematically.

How

We will try various configurations on the switch and if none works, will try to flash with a development version of the firmware from Lantronix.

I object!

If this intervention is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.

jeudi 8 janvier 2009

période d'entretien 9 janvier entre 14:00 et 16:00

Qui est affecté

Tous les services d'hébergement seront temporairement hors d'usage pendant que les serveurs seront redémarrés. Ceci affecte aussi les utilisateurs des serveurs virtuels.

Quand

L'intervention aura lieu le 9 janvier 2009, entre 14:00 et 16:00. Le redémarrage des serveurs devrait être limité à la période entre 14:00 et 14:30.

Timeline complet:

  • 2009-01-09 13:00:00 EST - départ du bureau avec demeter2
  • 2009-01-09 13:45:00 EST - arrivée au centre de données, installation d'une console et révision de la procédure
  • 2009-01-09 14:00:00 EST - début des reboot de sécurité en cascade
  • 2009-01-09 14:00:00 EST - racking de la nouvelle switch et de l'APC
  • 2009-01-09 14:30:00 EST - fin du racking switch et APC
  • 2009-01-09 14:30:00 EST - fin des reboot de sécurité en cascade
  • 2009-01-09 14:30:00 EST - déracking de hesiode
  • 2009-01-09 14:30:00 EST - début du racking de lgm.koumbit.net
  • 2009-01-09 16:00:00 EST - fin de la fenêtre d'intervention

Ce qui va arriver

Les serveurs suivants seront redémarrés: homere.koumbit.net, metis.koumbit.net, alexandria.koumbit.net, demeter.koumbit.net, marius.koumbit.net, romulus.koumbit.net et raymond.fqccl.org

Le serveur suivant sera retiré: hesiode.koumbit.net.

Les machines suivantes sera mis en ligne: lgm.koumbit.net, sw4-canix2.koumbit.net

Pourquoi

Certains serveurs seront redémarrés pour appliquer des mises à jour de sécurité au noyau Linux. Le serveur secondaire (hesiode.koumbit.net) sera retiré du cabinet pour être remplacé car il est défectueux. Un nouveau serveur sera installé pour un client (lgm.koumbit.net). De l'équipement sera installé dans le nouveau cabinet afin de le rendre "habitable" pour les nouveaux serveurs.

Le nouveau cabinet est nécessaire afin de répondre à la croissance des serveurs.

Comment

Les détails du rapport d'intervention sont disponibles aux membres de Koumbit dans la page: https://wiki.koumbit.net/RapportsIntervention/2009-01-09

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

maintenance window jan 9th between 14:00 and 16:00

Who is affected

All hosting services will be temporarly turned off as the servers will be rebooted. This will also affected virtual server users.

When

The operations will take place on january 9th 2009, between 14:00 and 16:00 EST. The server reboots should be limited to the period between 14:00 et 14:30 EST.

What will happen

The following servers will be rebooted: homere.koumbit.net, metis.koumbit.net, alexandria.koumbit.net, demeter.koumbit.net, marius.koumbit.net, romulus.koumbit.net et raymond.fqccl.org

The following server will be removed: hesiode.koumbit.net.

The following servers will be put online: lgm.koumbit.net, sw4-canix2.koumbit.net

Why

Some servers will be rebooted to apply security upgrades to the Linux kernel. The secondary web server (hesiode.koumbit.net) will be removed from the cabinet to be replaced because it has been damaged by the january 1st power failure. A new server will also be put online for a client (lgm.koumbit.net). Finally, new equipment will be put into place to make the new cabinet able to welcome new servers.

That new cabinet is necessary to respond properly to our growth.

How

Details of the operations are available to Koumbit members in the page: https://wiki.koumbit.net/RapportsIntervention/2009-01-09

I object!

If this intervention is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.

300ième compte et nouveau cabinet!

Comptes par mois

Nous venons tout juste d'accueillir notre 300ième compte aujourd'hui! Cette étape symbolique arrive à un point tournant de l'histoire de nos services d'hébergement alors que nous nous apprêtons à ouvrir un deuxième cabinet pour déployer de nouveaux serveurs. Nous avons encore quelques retards dans le déploiement du système de redondance, mais nous allons bientôt engager du nouveau personnel pour nous permettre de faire avancer le tout plus rapidement.

300th account and new cabinet

Accounts per month

We have just welcome our 300th account today! This symbolic step comes at a turning point in the history of our hosting services as we are getting ready to open our second cabinet to deploy new servers. We're still having some delays in the deployment of our redundant infrastructure roadmap, but we're soon going to hire more personnel that should help further this faster.

dimanche 9 novembre 2008

Coupure dans la nuit du samedi 8 novembre 2008: problème d'ampérage, problème de date sur mysql1

Un disjoncteur du cabinet, où sont hébergés les principaux serveurs d'hébergement de Koumbit, a sauté dans la nuit du samedi 8 novembre 2008 en raison d'une surcharge. Une partie des serveurs étaient inaccessibles entre 23h15 et 0h30, suivi de quelques petites coupures entre 0h30 et 2h15.

De plus, suite à cette panne, le principal serveur web de l'hébergement partagé n'a pas correctement retrouvé la bonne heure et affichait 1970. Ceci a causé quelques problèmes sur des sites de gestion de contenu (Spip et Drupal). Le problème a été remarqué et résolu dimanche vers 11h00.

Koumbit est sur le point d'ouvrir un second cabinet dans un nouveau point de présence. Ceci fait partie du plan architectural 2008 pour augmenter la redondance et gérer la croissance. Ceci permettra, entre autres, d'éviter ce type de panne, puisque les serveurs d'hébergement partagés seront redondants entre les deux cabinets.

Pour toute question ou commentaire, vous pouvez commenter sur le blogue des administrateurs systèmes (offline.koumbit.net) ou nous écrire à support@koumbit.org.

Merci de votre compréhension.

Mise à jour, 16:47HNE: c'est le serveur web et non le serveur de bases de données qui avait une heure erronée.

Hosting outage Saturday November 8, 2008: electric problem, database time problem

A fuse in the cabinet, where most of the Koumbit hosting servers are located, was overloaded and failed, in the night of November 8, 2008. Part of the servers were not available between 23h15 and 0h30, followed by other minor disruptions between 0h30 and 2h15.

Following this, the main web server of the shared hosting accounts did not recover correctly its time and was displaying 1970. This caused a few problems on some sites running content management content systems (sush as Spip and Drupal). The problem was noticed and fixed Sunday around 11h00.

Koumbit is about to open a second cabinet in a new point of presence. This is part of our 2008 architectural plan to increase redundancy and to deal with the growth of the demand. This will allow us, amongst other benefits, to avoid this type of outage, since the main shared hosting servers will be redundant between the two cabinets.

For questions or comments, you can comment on the sysadmin blog (offline.koumbit.net) or write to us at support@koumbit.org.

Thank you for your understanding.

Update, 16:47EST: it's the webserver and not the database server that had a clock problem.

lundi 6 octobre 2008

Coupure réseau ce matin

Nous avons eu une coupure réseau durant la matinée, entre 7:43 et 8:43 (HAE). Les symptômes étaient des coupures réseau complètes, des ralentissements, des pertes de paquets. Il n'y avait pas grand chose à faire de notre côté, et la situation est revenue à la normale vers 9:30. Le problème était dû à un déni de service distribué (DDOS).

Network outage at main datacenter

We had a complete outage between 7:43 and 7:52. Between 7:56 and 8:43, we had around 50% packet loss, and that situation has now returned again. There isn't much we can do as we depend on our upstream provider to resolve the situation.

Update (9:19): situation back to normal again. It seems that our provider had stopped announcing its addresses to teleglobe, its main bandwidth provider.

Update (12:00): situation has returned to normal during the morning. It seems our upstream provider was victim of a large-scale distributed denial of service attack.

mardi 16 septembre 2008

Coupure d'un serveur DNS récursif aujourd'hui

Qui est affecté

Les serveurs hébergés en colocation, y compris, sans se limiter à: remus.koumbit.net, hesiode.koumbit.net, alexandria.koumbit.net et metis.koumbit.net.

Quand

Aujourd'hui 16 septembre, entre 17:45 et 18:15, HAE (-0400).

Ce qui va arriver

Le serveur hébergeant un des serveurs virtuel résolvant les noms de domaines pour le cabinet (209.44.112.71, recurse2.koumbit.net) sera remplacé, occasionnant une coupure d'environ 30 minutes de ce service. L'autre serveur DNS (209.44.112.70, recurse.koumbit.net) devrait continuer à effectuer le service normalement et nous croyons que ceci ne devrait pas occasionner de problème majeurs.

Pourquoi

Le serveur (remus.koumbit.net) est en fin de vie et doit être remplacé. Il sera transformé en serveur de sauvegarde massif (alexandria.koumbit.net).

Comment

Voir les détails du rapport d'intervention. À noter que remus.koumbit.net va maintenant s'appeler metis.koumbit.net. Nous allons également mettre en ligne un nouveau serveur, hesiode.koumbit.net.

recursive DNS service outage today

When

Today september 16th, between 17:45 and 18:15, EDT (-0400).

What will happen

The server hosting one the virtual servers resolving DNS for the cabinet (209.44.112.71, recurse2.koumbit.net) will be replaced, provoking a short outage of around 30 minutes of this service. The other server (209.44.112.70, recurse.koumbit.net) should continue to perform regular service and we therefore believe that this will have minimal impact on the infrastructure.

Why

The server (remus.koumbit.net) is approaching end of life and needs to be replaced. It will be transformed into a massive backup server (alexandria.koumbit.net).

How

Koumbit members can read the details of the operational report. Note that remus.koumbit.net will now be named metis.koumbit.net. We will also put a new web node online name, hesiode.koumbit.net.

mercredi 27 août 2008

remplacement matériel terminé, nouveaux URLs

L'intervention d'hier est maintenant terminée et la nouvelle switch est en place. Votre machine a très probablement changé de port. Vous pouvez consulter les statistiques à cette adresse:

http://log.koumbit.net/mrtg/

La plupart d'entre vous devraient être sur un port après le port 36.

Les anciennes statistiques sont disponibles ici:

http://log.koumbit.net/mrtg.pre-sw3/

Désolé des inconvénients que cette intervention ont pu causer.

switch replacement complete, new statistics URLs

The maintenance yesterday is now complete and the new switch is in place. You machine has very likely changed ports. You can see the new configuration on the MRTG page:

http://log.koumbit.net/mrtg/

Most of you should be at ports above 36.

The statistics from the old switch are still available here:

http://log.koumbit.net/mrtg.pre-sw3/

Sorry for the trouble.

mercredi 20 août 2008

Intervention le 26 août

Qui est affecté

Toutes les machines, serveurs virtuels ou nons, et services hébergés dans le cabinet principal. Ceci inclus les services d'hébergement et de courriel.

Quand

Le 26 août 2008, entre 19h00 et 21h00, HAE (-0400). Les coupures décrites auront lieu entre 20h00 et 21h00, HAE. Nous espérons cependant limiter les coupures à 30 minutes (donc entre 20h et 20h30).

Ce qui va arriver

La "switch" principale sera remplacé. Ceci va provoquer des courtes coupures pour chacun des serveurs hébergés.

Pourquoi

La switch actuelle est pleine et montre des signes de faiblesse. Nous préfèrons la remplacer avant une coupure totale.

Comment

Voir le rapport d'intervention. Notez que la coupure commencera par une coupure généralisée, lorsque le router sera rebranché. Ensuite, chaque machine sera rebranchée une à une, ce qui provoquera une coupure de quelques minutes maximum par machine. Il est également possible que cette procédure itérative échoue et que nous fessions une procédure rapide avec coupure totale sur tous les serveurs.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

Notez également que le blog sysadmin sera mis à jour si l'intervention sera modifiée ou si nous avons des problèmes particuliers.

Intervention on august 26th

Who is affected

All the machines, virtual servers or not, and services hosted in the main cabinet. This includes hosting and email services.

When

August 26th 2008, between 19h00 and 21h00 EDT (-0400). Outages described below will occur between 20h00 and 21h00, EDT. However, we hope to limit those outages to 30 minutes (so between 20h00 and 20h30).

What will happen

The main switch will be replaced. This will provoque short network outages for each of the hosted servers.

Why

The current switch is full and show signs of weaknesses. We prefer to replace it before a complete outage.

How

See the rapport d'intervention (fr). Note that this outage will begin with a general outage affecting all servers when the core router will be replugged. Then every machine will be replugged one by one, which should provoke a few minutes of outage for each machine. It is also possible that this procedure fails to function properly and that we go forward with a quick and dirty unplugging and replugging of everything.

I object!

If this intervention is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.

Also not that the sysadmin blog will be updated if the intervention is changed in any way or if we experience problems or delays.

lundi 28 juillet 2008

Maintenance mercredi 30

English follows

Il y aura quelques coupures mercredi prochain (le 30 juillet) entre 15:30 et 16:00 (HAE) alors que nous allons redémarrer tous les serveurs physiques et virtuels pour mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.

L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.

Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 15:30 au centre de données mais devront avoir terminé et quitté à 16:00.

English

There will be short outages next wednesday (july 30th) between 15:30 and 16:00 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.

Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.

People interested in visiting the datacenter or their hardware are welcome to show up at 15:30 at the datacenter but should have finished and left by 16:00.

lundi 16 juin 2008

Coupure sur le réseau

La connectivité a été rompue dans le cabinet principal à 19:07 heure locale. Nous investiguons le problème. Nous avons repris contact avec les serveurs autour de 19:19 mais des problèmes subsistent.

Update: les services semblent être revenus vers 19:30. Nous nous informons à notre fournisseur d'accès pour obtenir des détails sur la coupure.

jeudi 5 juin 2008

Mise à jour du roadmap de load balancing

J'ai mis à jour le roadmap de la répartition de charge, qui encourt certains délais. Voir ce commentaire pour plus de détails. Nous continuerons à mettre à jour le billet ainsi que la page wiki.

jeudi 22 mai 2008

Maintenance jeudi le 29

English follows.

Il y aura quelques coupures jeudi prochain (le 29 mai) entre 15:00 et 15:30 (HAE) alors que nous alons redémarrer tous les serveurs physiques et virtuels pour être mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.

L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.

Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 14:00 au centre de données.

Notez finalement que cette opération nous permettera de mettre en place le nouveau serveur de bases de données qui sera bientôt complètement fonctionnel. Nous enverrons une autre annonce à ce moment.

English

There will be short cascading outages next thursday (may 29th) between 15:00 and 15:30 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.

Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.

People interested in visiting the datacenter or their hardware are welcome to show up at 14:00 at the datacenter.

Note that this operation will also provide us with a new database server, which will be racked but not yet fully operationnal. We'll send another announcement when ready.

vendredi 11 avril 2008

Roadmap de la répartition de charge

Hier, le comité sysadmin a élaboré un roadmap de l'élaboration du "load balancing" (répartition de charge) dans l'année à venir. Voici ce que nous prévoyons présentement:

  • mars-avril et avant: réflexion et recherche(./)
  • avril:premiers test du répartisseur de charge "hoststated" (./)
    • 17 avril: activation du parefeu au centre de données
    • fin (avril) mai: serveur secondaire de test
    • 7 juillet: hoststated fonctionnel sur le routeur. depuis ce moment, on voit des "microcoupures" apparaître quand homere plante
  • (juillet) début juin: server de base de données dédié(./) (demeter)
  • (quelque part en route) peu de temps après: deuxième serveur de base de données en redondance. (./)on peut maintenant perdre un serveur de bases de données et ramener les services dans les minutes qui suivent.
  • fin (mai) juin: serveur secondaire en test (www1)(./)
  • fin juillet: serveur secondaire en beta (ceci mettra fin aux micro-coupures)
  • mi août: serveur secondaire en production (ceci permettera une amélioration de la performance du service)
  • début (juin) (juillet) septembre: serveur de fichiers dédié (ceci permettera de perdre un serveur web en gardant les services actifs)
  • (août) fin septembre: deuxième répartisseur de charge en redondance (on peut maintenant perdre un répartisseur de charge)
  • 2008-2009:
    • deuxième lien réseau dans le cabinet
    • AS
    • deuxième serveur de fichiers

Donc à l'été, Koumbit sera pratiquement complètement redondant pour les services d'hébergement. La seule chose qui ne sera pas redondante sera la connexion réseau dans le cabinet (la connexion jusqu'au cabinet, dans le centre de données, est évidemment redondante) et le serveur de fichiers (ce qui sera fait après le mois d'août 2008.

Notez aussi que le roadmap est en constante évolution, tout comme le plan architectural plus général, dans le wiki de Koumbit.

- page 1 de 2