Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

jeudi 1 janvier 2009

Coupure de notre fournisseur de bande passante en amont le 1er janvier 2009 8h45-10h10 / Upstream bw blackout, January 1st 2009, 8h45-10h10

Il y a une coupure imprévue en cours de la part de notre fournisseur de bande passante en amont (netelligent). Le fournisseur est en train d'enquêter le problème et nous donnera un estimé pour le temps de récupération d'ici peu. Meric de votre compréhension. -- Mathieu L, 9h15

Le problème a été résolu vers 10h10. Nous attendons toujours de nouvelles sur les détails de la panne. -- Mathieu L., 10h15

There is an ongoing unplanned interruption on behalf of our upstream bandwidth provider (netelligent). They are investigating the problem and will soon give us an estimated time to recuperation. Thank you for your understanding. -- Mathieu L, 9h15

The problem has been resolved around 10h10. We are still waiting for more information regarding the outage. -- Mathieu L,, 10h15

mardi 16 décembre 2008

Coupure de l'air climatisé 16 nov 2008

À 7:15 ce matin, tous les services ont cessé dû à une coupure de l'air climatisé dans le centre de données. Cette unité a cessé de fonctionné il y a environ une heure, ce qui a progressivement fait monter la température de tous les serveurs et causé une coupure généralisée. Notre fournisseur a été mis au courant de la panne et travaille au rétablissement présentement, d'autres mises à jour suivront.

Mise à jour (7:57): je viens d'être informé d'un ETA de 30 minutes de l'équipe en place, tenez bon.

Mise à jour (8:03): tous les services sont de retour, désolé des inconvénients.

Air conditionning failure in main cabinet nov 16 2008

At 7:15 this morning, all core services went down due to a air conditionning unit failure in the datacenter. That unit failed about an hour ago, which raised the temperature of all server units in the datacenter and caused a cascading outage. Our provider is aware of the issue and is working on it right now, more updates to follow.

Update (7:57): I have just been informed of a "30 minutes" ETA from the remote team, hang in there.

Update (8:03): all services have been brought back up, sorry for the inconvenience.

dimanche 9 novembre 2008

Coupure dans la nuit du samedi 8 novembre 2008: problème d'ampérage, problème de date sur mysql1

Un disjoncteur du cabinet, où sont hébergés les principaux serveurs d'hébergement de Koumbit, a sauté dans la nuit du samedi 8 novembre 2008 en raison d'une surcharge. Une partie des serveurs étaient inaccessibles entre 23h15 et 0h30, suivi de quelques petites coupures entre 0h30 et 2h15.

De plus, suite à cette panne, le principal serveur web de l'hébergement partagé n'a pas correctement retrouvé la bonne heure et affichait 1970. Ceci a causé quelques problèmes sur des sites de gestion de contenu (Spip et Drupal). Le problème a été remarqué et résolu dimanche vers 11h00.

Koumbit est sur le point d'ouvrir un second cabinet dans un nouveau point de présence. Ceci fait partie du plan architectural 2008 pour augmenter la redondance et gérer la croissance. Ceci permettra, entre autres, d'éviter ce type de panne, puisque les serveurs d'hébergement partagés seront redondants entre les deux cabinets.

Pour toute question ou commentaire, vous pouvez commenter sur le blogue des administrateurs systèmes (offline.koumbit.net) ou nous écrire à support@koumbit.org.

Merci de votre compréhension.

Mise à jour, 16:47HNE: c'est le serveur web et non le serveur de bases de données qui avait une heure erronée.

Hosting outage Saturday November 8, 2008: electric problem, database time problem

A fuse in the cabinet, where most of the Koumbit hosting servers are located, was overloaded and failed, in the night of November 8, 2008. Part of the servers were not available between 23h15 and 0h30, followed by other minor disruptions between 0h30 and 2h15.

Following this, the main web server of the shared hosting accounts did not recover correctly its time and was displaying 1970. This caused a few problems on some sites running content management content systems (sush as Spip and Drupal). The problem was noticed and fixed Sunday around 11h00.

Koumbit is about to open a second cabinet in a new point of presence. This is part of our 2008 architectural plan to increase redundancy and to deal with the growth of the demand. This will allow us, amongst other benefits, to avoid this type of outage, since the main shared hosting servers will be redundant between the two cabinets.

For questions or comments, you can comment on the sysadmin blog (offline.koumbit.net) or write to us at support@koumbit.org.

Thank you for your understanding.

Update, 16:47EST: it's the webserver and not the database server that had a clock problem.

lundi 6 octobre 2008

Coupure réseau ce matin

Nous avons eu une coupure réseau durant la matinée, entre 7:43 et 8:43 (HAE). Les symptômes étaient des coupures réseau complètes, des ralentissements, des pertes de paquets. Il n'y avait pas grand chose à faire de notre côté, et la situation est revenue à la normale vers 9:30. Le problème était dû à un déni de service distribué (DDOS).

Network outage at main datacenter

We had a complete outage between 7:43 and 7:52. Between 7:56 and 8:43, we had around 50% packet loss, and that situation has now returned again. There isn't much we can do as we depend on our upstream provider to resolve the situation.

Update (9:19): situation back to normal again. It seems that our provider had stopped announcing its addresses to teleglobe, its main bandwidth provider.

Update (12:00): situation has returned to normal during the morning. It seems our upstream provider was victim of a large-scale distributed denial of service attack.

mardi 16 septembre 2008

Coupure d'un serveur DNS récursif aujourd'hui

Qui est affecté

Les serveurs hébergés en colocation, y compris, sans se limiter à: remus.koumbit.net, hesiode.koumbit.net, alexandria.koumbit.net et metis.koumbit.net.

Quand

Aujourd'hui 16 septembre, entre 17:45 et 18:15, HAE (-0400).

Ce qui va arriver

Le serveur hébergeant un des serveurs virtuel résolvant les noms de domaines pour le cabinet (209.44.112.71, recurse2.koumbit.net) sera remplacé, occasionnant une coupure d'environ 30 minutes de ce service. L'autre serveur DNS (209.44.112.70, recurse.koumbit.net) devrait continuer à effectuer le service normalement et nous croyons que ceci ne devrait pas occasionner de problème majeurs.

Pourquoi

Le serveur (remus.koumbit.net) est en fin de vie et doit être remplacé. Il sera transformé en serveur de sauvegarde massif (alexandria.koumbit.net).

Comment

Voir les détails du rapport d'intervention. À noter que remus.koumbit.net va maintenant s'appeler metis.koumbit.net. Nous allons également mettre en ligne un nouveau serveur, hesiode.koumbit.net.

recursive DNS service outage today

When

Today september 16th, between 17:45 and 18:15, EDT (-0400).

What will happen

The server hosting one the virtual servers resolving DNS for the cabinet (209.44.112.71, recurse2.koumbit.net) will be replaced, provoking a short outage of around 30 minutes of this service. The other server (209.44.112.70, recurse.koumbit.net) should continue to perform regular service and we therefore believe that this will have minimal impact on the infrastructure.

Why

The server (remus.koumbit.net) is approaching end of life and needs to be replaced. It will be transformed into a massive backup server (alexandria.koumbit.net).

How

Koumbit members can read the details of the operational report. Note that remus.koumbit.net will now be named metis.koumbit.net. We will also put a new web node online name, hesiode.koumbit.net.

mercredi 27 août 2008

remplacement matériel terminé, nouveaux URLs

L'intervention d'hier est maintenant terminée et la nouvelle switch est en place. Votre machine a très probablement changé de port. Vous pouvez consulter les statistiques à cette adresse:

http://log.koumbit.net/mrtg/

La plupart d'entre vous devraient être sur un port après le port 36.

Les anciennes statistiques sont disponibles ici:

http://log.koumbit.net/mrtg.pre-sw3/

Désolé des inconvénients que cette intervention ont pu causer.

switch replacement complete, new statistics URLs

The maintenance yesterday is now complete and the new switch is in place. You machine has very likely changed ports. You can see the new configuration on the MRTG page:

http://log.koumbit.net/mrtg/

Most of you should be at ports above 36.

The statistics from the old switch are still available here:

http://log.koumbit.net/mrtg.pre-sw3/

Sorry for the trouble.

lundi 28 juillet 2008

Maintenance mercredi 30

English follows

Il y aura quelques coupures mercredi prochain (le 30 juillet) entre 15:30 et 16:00 (HAE) alors que nous allons redémarrer tous les serveurs physiques et virtuels pour mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.

L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.

Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 15:30 au centre de données mais devront avoir terminé et quitté à 16:00.

English

There will be short outages next wednesday (july 30th) between 15:30 and 16:00 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.

Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.

People interested in visiting the datacenter or their hardware are welcome to show up at 15:30 at the datacenter but should have finished and left by 16:00.

mardi 3 juin 2008

Coupure dûe à un problème de système de fichiers

Nous avons subi une courte (2h) coupure (2h30) ce matin dû au système de fichiers du serveur principal qui a soudainement décidé de devenir en lecture seule. Le service de courriel fut la principale victime du phénomène, qui a été rapidement (en 1h) mis sous contrôle par l'équipe technique. Un bref timeline:

  • 08:01: erreur du système de fichier
  • 08:30: premier personne qui le remarque sur IRC
  • 09:00: mathieu se connecte à IRC et commence l'intervention (umount/sync de /var/alternc)
  • 09:25: mathieu réveille antoine
  • 09:50: on enlève /var/alternc du fstab et on reboot homere par le PDU
  • 09:53: homere back, ping, on a remonté /var/alternc sans problème, tout ok
  • 10:01: tout est de retour à la normale

Toutes les heures sont dans le fuseau horaire EDT/HAE (-0400). Notez que ce genre de problème pourra être plus rapidement résolu avec le système de redondance, que nous prévoyons toujours déployer fin août.

Updates:

  • nouveau crash du filesystem, un fsck complet est lancé. (11:02)
  • fsck fini, tout devrait être de retour (11:39)

jeudi 22 mai 2008

Maintenance jeudi le 29

English follows.

Il y aura quelques coupures jeudi prochain (le 29 mai) entre 15:00 et 15:30 (HAE) alors que nous alons redémarrer tous les serveurs physiques et virtuels pour être mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.

L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.

Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 14:00 au centre de données.

Notez finalement que cette opération nous permettera de mettre en place le nouveau serveur de bases de données qui sera bientôt complètement fonctionnel. Nous enverrons une autre annonce à ce moment.

English

There will be short cascading outages next thursday (may 29th) between 15:00 and 15:30 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.

Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.

People interested in visiting the datacenter or their hardware are welcome to show up at 14:00 at the datacenter.

Note that this operation will also provide us with a new database server, which will be racked but not yet fully operationnal. We'll send another announcement when ready.

jeudi 15 mai 2008

Déni de service en cours

Nous subissons présentement une attaque d'environ de 60mbps sur le réseau et sommes en discussions avec notre fournisseur de service upstream pour diagnostiquer et régler le problème. Le routage dans le cabinet principal est affecté.

Mise à jour: la situation est redevenue sous contrôle. La coupure aura duré de 17:44EDT à 18:21EDT pour l'ensemble du point de présence Canix2. Homere a été bloqué par erreur chez notre fournisseur jusqu'à 18:41EDT.

mardi 18 mars 2008

Retour sur l'intervention

L'intervention d'hier soir ne s'est pas exactement passée comme prévu. Plusieurs problèmes se sont manifestés:

  • la RAM n'était en fait pas défectueuse, c'est la carte mère qui ne porte plus la RAM correctement
  • le routeur principal (rtr1-canix2) crashe lorsqu'on déplace homere (qui est juste en dessous)

Le premier problème fait que nous devrons probablement remplacer le serveur homere en entier. Nous allons discuter avec notre fournisseur et vous annoncer la suite des évènements sous peu. Nous avons quand même réussi à améliorer la situation au niveau de la mémoire, amenant celle-ci à 3GB des 4GB originalement disponibles (soit 1GB de plus que le 2GB que nous avions depuis le 16 février). Ceci devrait améliorer la performance et la stabilité du service à court terme.

Le second problème est plus délicat: il faudra peut-être remplacer le serveur à nouveau, peut-être par une machine plus légère et simple en matériel (par exemple pas de pièces mobiles), moins coûteuse et moins gourmande en courant (pas évident!). En attendant, le routeur est considéré comme stable dans qu'on ne joue pas dans le cabinet.

Les coupures ont donc dûré environ 90 minutes de plus que prévu et nous avons dû rester au centre de données 3h30 au lieu du 2h original.

Le rapport d'intervention complet est disponible aux membres de Koumbit.

vendredi 1 février 2008

Intervention au centre de données le 8 février

Coupures sporadiques prévues de 15h00 à 17h00. Au menu:

Les membres de Koumbit peuvent consulter le plan d'intervention complet dans le wiki à RapportsIntervention/2008-02-08