Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

jeudi 1 janvier 2009

Coupure de notre fournisseur de bande passante en amont le 1er janvier 2009 8h45-10h10 / Upstream bw blackout, January 1st 2009, 8h45-10h10

Il y a une coupure imprévue en cours de la part de notre fournisseur de bande passante en amont (netelligent). Le fournisseur est en train d'enquêter le problème et nous donnera un estimé pour le temps de récupération d'ici peu. Meric de votre compréhension. -- Mathieu L, 9h15

Le problème a été résolu vers 10h10. Nous attendons toujours de nouvelles sur les détails de la panne. -- Mathieu L., 10h15

There is an ongoing unplanned interruption on behalf of our upstream bandwidth provider (netelligent). They are investigating the problem and will soon give us an estimated time to recuperation. Thank you for your understanding. -- Mathieu L, 9h15

The problem has been resolved around 10h10. We are still waiting for more information regarding the outage. -- Mathieu L,, 10h15

mardi 16 décembre 2008

Coupure de l'air climatisé 16 nov 2008

À 7:15 ce matin, tous les services ont cessé dû à une coupure de l'air climatisé dans le centre de données. Cette unité a cessé de fonctionné il y a environ une heure, ce qui a progressivement fait monter la température de tous les serveurs et causé une coupure généralisée. Notre fournisseur a été mis au courant de la panne et travaille au rétablissement présentement, d'autres mises à jour suivront.

Mise à jour (7:57): je viens d'être informé d'un ETA de 30 minutes de l'équipe en place, tenez bon.

Mise à jour (8:03): tous les services sont de retour, désolé des inconvénients.

Air conditionning failure in main cabinet nov 16 2008

At 7:15 this morning, all core services went down due to a air conditionning unit failure in the datacenter. That unit failed about an hour ago, which raised the temperature of all server units in the datacenter and caused a cascading outage. Our provider is aware of the issue and is working on it right now, more updates to follow.

Update (7:57): I have just been informed of a "30 minutes" ETA from the remote team, hang in there.

Update (8:03): all services have been brought back up, sorry for the inconvenience.

dimanche 9 novembre 2008

Coupure dans la nuit du samedi 8 novembre 2008: problème d'ampérage, problème de date sur mysql1

Un disjoncteur du cabinet, où sont hébergés les principaux serveurs d'hébergement de Koumbit, a sauté dans la nuit du samedi 8 novembre 2008 en raison d'une surcharge. Une partie des serveurs étaient inaccessibles entre 23h15 et 0h30, suivi de quelques petites coupures entre 0h30 et 2h15.

De plus, suite à cette panne, le principal serveur web de l'hébergement partagé n'a pas correctement retrouvé la bonne heure et affichait 1970. Ceci a causé quelques problèmes sur des sites de gestion de contenu (Spip et Drupal). Le problème a été remarqué et résolu dimanche vers 11h00.

Koumbit est sur le point d'ouvrir un second cabinet dans un nouveau point de présence. Ceci fait partie du plan architectural 2008 pour augmenter la redondance et gérer la croissance. Ceci permettra, entre autres, d'éviter ce type de panne, puisque les serveurs d'hébergement partagés seront redondants entre les deux cabinets.

Pour toute question ou commentaire, vous pouvez commenter sur le blogue des administrateurs systèmes (offline.koumbit.net) ou nous écrire à support@koumbit.org.

Merci de votre compréhension.

Mise à jour, 16:47HNE: c'est le serveur web et non le serveur de bases de données qui avait une heure erronée.

Hosting outage Saturday November 8, 2008: electric problem, database time problem

A fuse in the cabinet, where most of the Koumbit hosting servers are located, was overloaded and failed, in the night of November 8, 2008. Part of the servers were not available between 23h15 and 0h30, followed by other minor disruptions between 0h30 and 2h15.

Following this, the main web server of the shared hosting accounts did not recover correctly its time and was displaying 1970. This caused a few problems on some sites running content management content systems (sush as Spip and Drupal). The problem was noticed and fixed Sunday around 11h00.

Koumbit is about to open a second cabinet in a new point of presence. This is part of our 2008 architectural plan to increase redundancy and to deal with the growth of the demand. This will allow us, amongst other benefits, to avoid this type of outage, since the main shared hosting servers will be redundant between the two cabinets.

For questions or comments, you can comment on the sysadmin blog (offline.koumbit.net) or write to us at support@koumbit.org.

Thank you for your understanding.

Update, 16:47EST: it's the webserver and not the database server that had a clock problem.

lundi 6 octobre 2008

Coupure réseau ce matin

Nous avons eu une coupure réseau durant la matinée, entre 7:43 et 8:43 (HAE). Les symptômes étaient des coupures réseau complètes, des ralentissements, des pertes de paquets. Il n'y avait pas grand chose à faire de notre côté, et la situation est revenue à la normale vers 9:30. Le problème était dû à un déni de service distribué (DDOS).

Network outage at main datacenter

We had a complete outage between 7:43 and 7:52. Between 7:56 and 8:43, we had around 50% packet loss, and that situation has now returned again. There isn't much we can do as we depend on our upstream provider to resolve the situation.

Update (9:19): situation back to normal again. It seems that our provider had stopped announcing its addresses to teleglobe, its main bandwidth provider.

Update (12:00): situation has returned to normal during the morning. It seems our upstream provider was victim of a large-scale distributed denial of service attack.

samedi 5 juillet 2008

Coupure sur le serveur principal cette nuit

Le serveur web principal (homere) de l'hébergement auto-géré a planté ce matin à 1h (heure locale). Le crash n'a pas été détecté par nagios à cause du nouveau répartisseur de charge qui a pris le relai pour afficher une page d'erreur. La personne sur appel a été contactée à 6h (heure locale) et le serveur a été redémarré.

Le système de surveillance a depuis été corrigé pour mieux gérer ce genre de situations. Désolé pour les inconvénients reliés à cette coupure inhabituelle, affectant particulièrement nos hébergés en europe.

lundi 16 juin 2008

Coupure sur le réseau

La connectivité a été rompue dans le cabinet principal à 19:07 heure locale. Nous investiguons le problème. Nous avons repris contact avec les serveurs autour de 19:19 mais des problèmes subsistent.

Update: les services semblent être revenus vers 19:30. Nous nous informons à notre fournisseur d'accès pour obtenir des détails sur la coupure.

mardi 3 juin 2008

Coupure dûe à un problème de système de fichiers

Nous avons subi une courte (2h) coupure (2h30) ce matin dû au système de fichiers du serveur principal qui a soudainement décidé de devenir en lecture seule. Le service de courriel fut la principale victime du phénomène, qui a été rapidement (en 1h) mis sous contrôle par l'équipe technique. Un bref timeline:

  • 08:01: erreur du système de fichier
  • 08:30: premier personne qui le remarque sur IRC
  • 09:00: mathieu se connecte à IRC et commence l'intervention (umount/sync de /var/alternc)
  • 09:25: mathieu réveille antoine
  • 09:50: on enlève /var/alternc du fstab et on reboot homere par le PDU
  • 09:53: homere back, ping, on a remonté /var/alternc sans problème, tout ok
  • 10:01: tout est de retour à la normale

Toutes les heures sont dans le fuseau horaire EDT/HAE (-0400). Notez que ce genre de problème pourra être plus rapidement résolu avec le système de redondance, que nous prévoyons toujours déployer fin août.

Updates:

  • nouveau crash du filesystem, un fsck complet est lancé. (11:02)
  • fsck fini, tout devrait être de retour (11:39)

jeudi 8 mai 2008

Mise à jour des quotas et quelques correctifs

Nous avons fait des tests aujourd'hui sur le système de quotas. Certains d'entre vous auront peut-être remarqué que certains courriels et sites ont eu des messages d'erreurs ce matin. Ces problèmes ont été causés par des tests effectués sur le système de quota qui a été activé par erreur. Ceux d'entre vous qui dépassaient leur quota on vu leur courriels rebondir (et dans certains cas leurs sites planter) durant quelques minutes, le temps que l'on désactive les quotas disques à nouveaux.

Sachez cependant que nous sommes maintenant en mesure de remettre les quotas en ligne et que certains sites dépassent largement ces quotas. Nous allons bientôt envoyer une annonce formelle à ce sujet.

Par ailleurs, certains correctifs ont été apportés récemment qu'il vaut la peine de souligner:

  • Les liens de l'interface web pour les listes de discussions ont été uniformisés à https://listes.koumbit.net/ pour tous les hébergés. Ceci règle plusieurs problèmes avec cette interface, en particulier au niveau des nouveaux contrôles SSL de Firefox 3 ainsi que des listes hébergées sur des domaines ayant leur site web sur un autre serveur que Koumbit ou sur le wiki (http://upam.info/ pour un exemple)
  • Certains crashes plus ou moins réguliers du serveur web sont maintenant chose du passé. Nous avions enregistrés 272 tels crashes, automatiquement réparés, entre le 7 décembre et le premier mai, date à laquelle le correctif (une simple correction à la limite de mémoire d'Apache) a été posée.
  • La configuration MySQL a été à nouveau optimisée afin de parer à certains problèmes de performance qui ont affecté le serveur aujourd'hui.

Notez qu'il demeure certains problèmes de performance avec le serveur que nous tentons présentement d'adresser, principalement par le déploiement du système de répartition de charge précédemment annoncé. À ce sujet, nous en sommes encore aux tests du répartiteur de charge qui ne fonctionne pas comme prévu.

Notez aussi que nous allons bientôt nous doter d'un nouveau serveur de bases de données, le serveur actuel approchant de sa capacité maximale suite à un pic inexpliqué qui s'est amorcé il y a quelques semaines et ne s'est pas encore résorbé.

mardi 18 mars 2008

Retour sur l'intervention

L'intervention d'hier soir ne s'est pas exactement passée comme prévu. Plusieurs problèmes se sont manifestés:

  • la RAM n'était en fait pas défectueuse, c'est la carte mère qui ne porte plus la RAM correctement
  • le routeur principal (rtr1-canix2) crashe lorsqu'on déplace homere (qui est juste en dessous)

Le premier problème fait que nous devrons probablement remplacer le serveur homere en entier. Nous allons discuter avec notre fournisseur et vous annoncer la suite des évènements sous peu. Nous avons quand même réussi à améliorer la situation au niveau de la mémoire, amenant celle-ci à 3GB des 4GB originalement disponibles (soit 1GB de plus que le 2GB que nous avions depuis le 16 février). Ceci devrait améliorer la performance et la stabilité du service à court terme.

Le second problème est plus délicat: il faudra peut-être remplacer le serveur à nouveau, peut-être par une machine plus légère et simple en matériel (par exemple pas de pièces mobiles), moins coûteuse et moins gourmande en courant (pas évident!). En attendant, le routeur est considéré comme stable dans qu'on ne joue pas dans le cabinet.

Les coupures ont donc dûré environ 90 minutes de plus que prévu et nous avons dû rester au centre de données 3h30 au lieu du 2h original.

Le rapport d'intervention complet est disponible aux membres de Koumbit.

vendredi 7 mars 2008

Vérification du disque en cours sur Homere (HAG), apache/courrier hors-ligne

Une erreur système survenue vers 9h, vendredi le 7 mars 2008, nous oblige à intervenir d'urgence pour nous assurer de l'intégrité des données du disque dur sur Homere (le principal serveur web du système d'hébergement auto-géré, HAG). Pendant cette opération (fsck), les serveurs web (apache et apache-ssl), ainsi que les serveurs de courrier ne seront pas disponibles.

Le service devrait être de retour en ligne d'ici 15 minutes. Nous nous excusons pour les inconvénients.

samedi 23 février 2008

Panne du serveur de surveillance

Une panne est survenue sur le serveur de surveillance Nagios aujourd'hui. Le problème est relié à une mise à jour du noyau qui doit être opéré sur le serveur. Cette opération ne pouvant être faite à distance de manière sécuritaire, il a été décidé que le serveur serait redémarré mardi prochain à 16h, date à laquelle le serveur sera de retour en ligne.

Les services affectés sont:

  • la page http://status.koumbit.net/
  • Nagios: http://nagios.koumbit.net/
  • la page d'état sur Koumbit.org

Ironiquement, la panne est survenue en tentant d'installer un nouveau service de notification d'urgence visant à mieux répondre aux besoins de nos usagers outre-mer.

samedi 16 février 2008

Panne du serveur auto-géré (Homere) samedi le 16 février 2008 de 9h30 à 10h30

Le matin du samedi 16 février 2008, de 9h30 à 10h30, les services web, ftp et courriel étaient inaccessibles suite à une panne du principal serveur auto-géré (homere). La cause de la panne est inconnue pour l'instant. Un technicien a dû se rendre sur place pour redémarrer le serveur.

Nous nous excusons pour les inconvénients et nous vous remercions de votre compréhension.

samedi 9 février 2008

Coupure sur remus.koumbit.net

Suite à un redémarrage visant à régler les problèmes avec la carte réseau, le serveur n'est pas revenu en ligne. Un technicien est sur place pour diagnostiquer le problème.

Ce problème affecte les courriels, les services web et tout ce qui nécessite l'accès au serveur de bases de données.

Mise-à-jour: le serveur est de retour depuis 00:46 (-0500). D'autres redémarrages sont prévus pour stabiliser la situation, qui devraient occasionner des coupures d'un maximum de 90 secondes durant la nuit.

Mise-à-jour: l'intervention est terminée, tout devrait être rentré dans l'ordre depuis 01:30 (-0500).

vendredi 8 février 2008

Courte coupure sur lethe

Entre 5:00 et 9:00 EST ce matin (maj: 7 février), un disque trop plein a causé des problèmes avec les wiki et le service de support technique RT. Certains courriels ont donc été perdus durant ce temps. La coupure a affecté seulement le serveur lethe.

Mise à jour: une autre coupure ce matin, nous regardons pour régler le problème définitivement.