Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

Tag - load balancing

Fil des billets - Fil des commentaires

vendredi 16 janvier 2009

serveur secondaire en ligne, retour aux performances nominales

Qui est affecté

Utilisateurs de l'hébergement auto-géré.

Quand

15 janvier 2009 19:39EST

Ce qui est arrivé

Le serveur secondaire a été remis en ligne.

Pourquoi

Le premier janvier, ce serveur (hesiode.koumbit.net) a complètement été mis hors combat par une coupure de courant. Bien que le serveur principal a pris le relai et que le système de répartition de charge a dissimulé la panne, ceci a grandement affecté la performance des sites web et de l'hébergement en général.

Comment

Le serveur a été retourné au manufacturier, qui l'a réparé avant de nous le rendre.

secondary server online, returning to regular performances

Who's affected

Users of the shared hosting service.

When

Jan 15th 2009 19:39EST

What happened

The secondary server was put back online.

Why

On january first, that server (hesiode.koumbit.net) was completely put offline by a power surge following a power outage. While the main server took over and the load balancing service hid the outage, this greatly affected the performance of websites and hosting services in general.

How

The server was return to our provider, which repaired the problem and returned the server.

jeudi 8 janvier 2009

300ième compte et nouveau cabinet!

Comptes par mois

Nous venons tout juste d'accueillir notre 300ième compte aujourd'hui! Cette étape symbolique arrive à un point tournant de l'histoire de nos services d'hébergement alors que nous nous apprêtons à ouvrir un deuxième cabinet pour déployer de nouveaux serveurs. Nous avons encore quelques retards dans le déploiement du système de redondance, mais nous allons bientôt engager du nouveau personnel pour nous permettre de faire avancer le tout plus rapidement.

300th account and new cabinet

Accounts per month

We have just welcome our 300th account today! This symbolic step comes at a turning point in the history of our hosting services as we are getting ready to open our second cabinet to deploy new servers. We're still having some delays in the deployment of our redundant infrastructure roadmap, but we're soon going to hire more personnel that should help further this faster.

mercredi 15 octobre 2008

Nouveau serveur web prêt aux tests, AlternC 0.9.9 en ligne

Qui est affecté

Dès maintenant, cet avis concerne les développeurs web qui maintiennent des sites sur l'hébergement mutualisé.

À partir de la semaine prochaine, tous les utilisateurs de l'hébergement sont concernés.

Quand

Lundi 20 octobre à 13h.

Ce qui va arriver

Un nouveau serveur web a été mis en ligne et a passé avec succès la phase de tests interne. Nous invitons maintenant les développeurs web et autres personnes techniquement capables de faire des tests sur le serveur pour la fin de la semaine.

Lundi prochain, le nouveau serveur sera mis en ligne dans le setup de redondance.

Pourquoi

Le nouveau serveur va assurer une meilleure continuité de service et une plus grande rapidité à répondre aux requêtes.

Comment

Quand une coupure surviendra sur un serveur à cause d'une surcharge, le second serveur prendra rapidement le relai (le délai est présentement réglé à 5 secondes). Même s'il n'Y a pas de surcharge, les serveurs vont se distribuer la charge, améliorant de beaucoup la performance générale.

Afin de tester immédiatement le nouveau serveur, les testeurs intéressés peuvent modifier leur fichier "hosts" en suivant les instructions à cette page:

https://wiki.koumbit.net/DnsWithHostsFile

L'adresse du nouveau serveur est la suivante: 209.44.112.96

Signalez tout problème à support@koumbit.org en précisant que vous croyez le problème relié au nouveau serveur et votre configuration ci-haut.

Autres annonces

Nous voulons profiter de cette annonce pour souligner la sortie de AlternC 0.9.9, qui règle plusieurs bugs dans l'interface d'administration et permet le déploiement sur plusieurs serveurs plus facilement.

De plus, notez que les annonces envoyées sur la liste de discussion hag@ sont maintenant marqués avec la langue du message. Vous pouvez filtrer les annonces que vous voulez recevoir sur cette page:

https://listes.koumbit.net/cgi-bin/mailman/options/hag-koumbit.org

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

New webserver ready for testing, alternc 0.9.9 online

Who's affected

This notice affects all web developers maintaining sites on the shared hosting services.

Staring next week, all the users are also affected.

When

Monday october 20th at 13h.

What will happen

A new web server has been put online and has successfully passed a serie of internal tests. We now welcome all web developpers and other technically capable people to test the new webserver during the week.

Next monday, the new server will be added to the load balancing setup.

Why

The new server will ensure a better service continuity and a faster response.

How

When an outage will occur on a server, because of an overload or other, the second server will take over (the delay is currently set to 5 seconds). Even when not during an overload, both servers will share the load, greatly improving overall performance.

To test the new server immediatly, all interested testers should modify their "hosts" files by following the instructions in the page below:

https://wiki.koumbit.net/DnsWithHostsFile

The IP address of the new server is the following: 209.44.112.96

Please notify us of any anomaly at support@koumbit.org, mentionning that you believe the problem is related to the new server and your configuration below.

Other announcements

We want to profit from this announcement to emphasize on the release of AlternC 0.9.9, which fixes many bugs in the control panel and allows for deployment on multiple servers easily.

Additionnaly, note that the announcements sent to the mailing list are now marked with the language of the message. You can therefore filter the announcements you want to receive on the following page:

https://listes.koumbit.net/cgi-bin/mailman/options/hag-koumbit.org

I object!

If this intervention is too problematic for your or your organisation, please let us know within 24h to see if we can make other arrangements.

jeudi 25 septembre 2008

Redémarrages de sécurité et nouveau serveur web le 30 septembre

Quand

Le 30 septembre entre 14h30 et 15h00, HAE (-0400).

Ce qui va arriver

Les serveurs seront redémarrés pour une mise à jour de sécurité. De plus, un nouveau serveur physique sera ajouté à la configuration du répartiteur de charge.

Pourquoi

Le noyau Linux a vu plusieurs vulnérabilités publiées récemment et nous allons mettre à jour les machines.

Pour ce qui est du répartiteur de charge, il s'agit de régler les problèmes de fiabilité du service web et permettre une maintenance plus facile du serveur.

Comment

Voir le RapportsIntervention/2008-09-30 complet. Les serveurs seront redémarrés à tour de rôle entre 14:30 et 15:00. Ceci va affecter tous les serveurs virtuels ainsi que l'hébergement mutualisé, chaque coupure durant environ 90 secondes.

Le nouveau serveur (hesiode.koumbit.net) sera mis en ligne mais ne sera pas activé avant une nouvelle période de test, car il est possible que sa mise en ligne brise quelques sites ayant des besoins particuliers.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

Security reboots and new webserver online on september 30th

When

September 30th between 14:40 and 15:00, EDT (-0400).

What will happen

The servers will be rebooted for a security update. Furthermore, a new physical server will be added to the LoadBalancing configuration.

Why

The linux kernel has suffered multiple security vulnerabilities recently and we therefore need to upgrade with the newer kernels.

As for the load balancer, the goal is to resolve the recent reliability problems and allow for an easier maintenance of the services.

How

See the complete report (fr). Servers will be rebooted one after the other between 14:30 and 15:00. This will affect all virtual servers as the shared hosting, each outage lasting around 90 seconds.

The new server (hesiode.koumbit.net) will be put online but will not be activated before a new test period, as it is possible the new server breaks when displaying certain sites.

I object!

If this operation is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.

mardi 16 septembre 2008

Coupure d'un serveur DNS récursif aujourd'hui

Qui est affecté

Les serveurs hébergés en colocation, y compris, sans se limiter à: remus.koumbit.net, hesiode.koumbit.net, alexandria.koumbit.net et metis.koumbit.net.

Quand

Aujourd'hui 16 septembre, entre 17:45 et 18:15, HAE (-0400).

Ce qui va arriver

Le serveur hébergeant un des serveurs virtuel résolvant les noms de domaines pour le cabinet (209.44.112.71, recurse2.koumbit.net) sera remplacé, occasionnant une coupure d'environ 30 minutes de ce service. L'autre serveur DNS (209.44.112.70, recurse.koumbit.net) devrait continuer à effectuer le service normalement et nous croyons que ceci ne devrait pas occasionner de problème majeurs.

Pourquoi

Le serveur (remus.koumbit.net) est en fin de vie et doit être remplacé. Il sera transformé en serveur de sauvegarde massif (alexandria.koumbit.net).

Comment

Voir les détails du rapport d'intervention. À noter que remus.koumbit.net va maintenant s'appeler metis.koumbit.net. Nous allons également mettre en ligne un nouveau serveur, hesiode.koumbit.net.

recursive DNS service outage today

When

Today september 16th, between 17:45 and 18:15, EDT (-0400).

What will happen

The server hosting one the virtual servers resolving DNS for the cabinet (209.44.112.71, recurse2.koumbit.net) will be replaced, provoking a short outage of around 30 minutes of this service. The other server (209.44.112.70, recurse.koumbit.net) should continue to perform regular service and we therefore believe that this will have minimal impact on the infrastructure.

Why

The server (remus.koumbit.net) is approaching end of life and needs to be replaced. It will be transformed into a massive backup server (alexandria.koumbit.net).

How

Koumbit members can read the details of the operational report. Note that remus.koumbit.net will now be named metis.koumbit.net. We will also put a new web node online name, hesiode.koumbit.net.

mercredi 27 août 2008

nouveau serveur web dans le répartiteur de charge

Je viens d'ajouter un nouveau serveur dans le répartiteur de charge. Il est présentement configuré pour ne répondre seulement quand le serveur principal plante (contrairement à être configuré pour partager la charge). Ceci devrait nous débarrasser des erreurs "503 Service non-disponible" que nous voyons souvent sur le serveur ces temps-ci (les fameuses "micro-coupures").

Il est possible que cette nouvelle configuration créée des problèmes. Nous avons tests plusieurs sites (un Drupal et un Tikiwiki) et tout semble en ordre, mais si vous voyez des comportements bizarres, indiquez-nous l'heure exact à laquelle il s'est produit pour que nous puissions diagnostiquer le problème.

Notez que ce changement n'améliore pas encore la performance générale du service mais ne fait qu'améliorer la fiabilité. Nous allons bientôt déployer un nouveau serveur dédié qui devrait également améliorer la performance.

new webserver in the cluster

I have just added a new web server to the load balancing setup. It is currently configured to answer only when the main server goes down (as opposed to sharing the load with it). This should get rid of the "503 Service unavailable" messages that we were regularly seeing on the web server these days.

There may be issues with some sites related to that change. We have tested a few sites (a Drupal and a Tikiwiki) and things seem to be running fine, but if you see weird behaviour, please tell us the exact time at which it was encountered so we can diagnose the problem.

Note that this does not yet improve performance in the cluster, but merely improves reliability. We will shortly deploy a dedicated server that should improve performance as well.

samedi 5 juillet 2008

Coupure sur le serveur principal cette nuit

Le serveur web principal (homere) de l'hébergement auto-géré a planté ce matin à 1h (heure locale). Le crash n'a pas été détecté par nagios à cause du nouveau répartisseur de charge qui a pris le relai pour afficher une page d'erreur. La personne sur appel a été contactée à 6h (heure locale) et le serveur a été redémarré.

Le système de surveillance a depuis été corrigé pour mieux gérer ce genre de situations. Désolé pour les inconvénients reliés à cette coupure inhabituelle, affectant particulièrement nos hébergés en europe.

jeudi 3 juillet 2008

Serveur de répartition de charge en ligne

Le serveur de répartition de charge (rtr1-canix2.koumbit.net) a finalement été mis en ligne correctement. Il s'agissait d'une simple erreur de syntaxe qui le rendait non fonctionnel. Depuis ce soir, donc, le serveur principal (homere) est surveillé. Si une coupure survient, le système va rediriger les utilisateurs vers une page d'erreur plus instructive au lieu de boucler ou de refuser la connexion. Éventuellement, les serveurs secondaires prendront le dessus, mais ceux-ci doivent encore être configurés, ce qui devrait être testé au cours du mois.

Il est possible que cette nouvelle configuration occasionne certains problèmes, si vous voyez des nouveaux problèmes avec le service, n'hésitez pas à nous contacter.

jeudi 5 juin 2008

Nouveau serveur MySQL en ligne

Le nouveau serveur est maintenant en production comme nouveau serveur MySQL. Ceci devrait améliorer la performance de l'hébergement sensiblement, mais il reste encore de l'optimisation à faire sur le serveur afin de s'assurer qu'il utilise le maximum de la nouvelle puissance...

Mise à jour du roadmap de load balancing

J'ai mis à jour le roadmap de la répartition de charge, qui encourt certains délais. Voir ce commentaire pour plus de détails. Nous continuerons à mettre à jour le billet ainsi que la page wiki.

jeudi 8 mai 2008

Mise à jour des quotas et quelques correctifs

Nous avons fait des tests aujourd'hui sur le système de quotas. Certains d'entre vous auront peut-être remarqué que certains courriels et sites ont eu des messages d'erreurs ce matin. Ces problèmes ont été causés par des tests effectués sur le système de quota qui a été activé par erreur. Ceux d'entre vous qui dépassaient leur quota on vu leur courriels rebondir (et dans certains cas leurs sites planter) durant quelques minutes, le temps que l'on désactive les quotas disques à nouveaux.

Sachez cependant que nous sommes maintenant en mesure de remettre les quotas en ligne et que certains sites dépassent largement ces quotas. Nous allons bientôt envoyer une annonce formelle à ce sujet.

Par ailleurs, certains correctifs ont été apportés récemment qu'il vaut la peine de souligner:

  • Les liens de l'interface web pour les listes de discussions ont été uniformisés à https://listes.koumbit.net/ pour tous les hébergés. Ceci règle plusieurs problèmes avec cette interface, en particulier au niveau des nouveaux contrôles SSL de Firefox 3 ainsi que des listes hébergées sur des domaines ayant leur site web sur un autre serveur que Koumbit ou sur le wiki (http://upam.info/ pour un exemple)
  • Certains crashes plus ou moins réguliers du serveur web sont maintenant chose du passé. Nous avions enregistrés 272 tels crashes, automatiquement réparés, entre le 7 décembre et le premier mai, date à laquelle le correctif (une simple correction à la limite de mémoire d'Apache) a été posée.
  • La configuration MySQL a été à nouveau optimisée afin de parer à certains problèmes de performance qui ont affecté le serveur aujourd'hui.

Notez qu'il demeure certains problèmes de performance avec le serveur que nous tentons présentement d'adresser, principalement par le déploiement du système de répartition de charge précédemment annoncé. À ce sujet, nous en sommes encore aux tests du répartiteur de charge qui ne fonctionne pas comme prévu.

Notez aussi que nous allons bientôt nous doter d'un nouveau serveur de bases de données, le serveur actuel approchant de sa capacité maximale suite à un pic inexpliqué qui s'est amorcé il y a quelques semaines et ne s'est pas encore résorbé.

vendredi 11 avril 2008

Roadmap de la répartition de charge

Hier, le comité sysadmin a élaboré un roadmap de l'élaboration du "load balancing" (répartition de charge) dans l'année à venir. Voici ce que nous prévoyons présentement:

  • mars-avril et avant: réflexion et recherche(./)
  • avril:premiers test du répartisseur de charge "hoststated" (./)
    • 17 avril: activation du parefeu au centre de données
    • fin (avril) mai: serveur secondaire de test
    • 7 juillet: hoststated fonctionnel sur le routeur. depuis ce moment, on voit des "microcoupures" apparaître quand homere plante
  • (juillet) début juin: server de base de données dédié(./) (demeter)
  • (quelque part en route) peu de temps après: deuxième serveur de base de données en redondance. (./)on peut maintenant perdre un serveur de bases de données et ramener les services dans les minutes qui suivent.
  • fin (mai) juin: serveur secondaire en test (www1)(./)
  • fin juillet: serveur secondaire en beta (ceci mettra fin aux micro-coupures)
  • mi août: serveur secondaire en production (ceci permettera une amélioration de la performance du service)
  • début (juin) (juillet) septembre: serveur de fichiers dédié (ceci permettera de perdre un serveur web en gardant les services actifs)
  • (août) fin septembre: deuxième répartisseur de charge en redondance (on peut maintenant perdre un répartisseur de charge)
  • 2008-2009:
    • deuxième lien réseau dans le cabinet
    • AS
    • deuxième serveur de fichiers

Donc à l'été, Koumbit sera pratiquement complètement redondant pour les services d'hébergement. La seule chose qui ne sera pas redondante sera la connexion réseau dans le cabinet (la connexion jusqu'au cabinet, dans le centre de données, est évidemment redondante) et le serveur de fichiers (ce qui sera fait après le mois d'août 2008.

Notez aussi que le roadmap est en constante évolution, tout comme le plan architectural plus général, dans le wiki de Koumbit.