Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

mercredi 20 mai 2009

Maintenance, 20-5-2009 13:00-0400

Qui est affecté

Tous les utilisateurs de l'hébergement partagé, autant des courriels que des sites webs.

Quand

Le mercredi 20 mai, entre 13:00 et 14:00 HAE (UTC-4).

Ce qui va arriver

Le serveur de base de données sera remplacé par une machine plus puissante.

Un nouveau serveur de fichiers sera mis en ligne.

Pourquoi

Le serveur de bases de données est le goulot d'étranglement principal depuis février et nous avons tenté à plusieurs reprises de le remplacer pour améliorer la performance de l'hébergement. Nous espérons que ceci est la dernière tentative requise pour au moins 6 à 12 mois.

Le nouveau serveur de fichiers pour sa part vise à réduire la dépendance envers le serveur principal qui assume présentement toutes les fonctions excepté le rendu des pages web, et donc incluant le service de fichiers. En déplaçant ce service vers un serveur dédié, nous nous assurons à long terme d'une plus grande redondance et extensibilité. Puisque le nouveau serveur supporte le changement des disques "à chaud" (sans redémarrer le serveur), les remplacements matériaux seront également plus rapides et ne demanderont pas de coupure de service.

Comment

Nous fermerons toute la grappe de serveur principale pour environ 30 minutes, entre 13h et 13h30 (UTC-4). Nous espérons faire les deux opérations en 30 minutes, mais il est possible que nous dépassions cet estimé si des problèmes se manifestent. Les services sont donc garantis de revenir à la normale (et plus rapides!) autour de 14h00 (UTC-4).

Si une modification est prévue à cet échéancier, une mise à jour sera, comme d'habitude, postée sur http://offline.koumbit.net/.

Les membres de Koumbit peuvent voir les détails de l'opération sur: https://wiki.koumbit.net/RapportsIntervention/2009-05-20

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir à l'avance pour voir si nous pouvons prendre des arrangements.

Maintenance window, 20-5-2009 13:00-0400

Who is affected

All the users of the shared hosting service, emails and websites alike.

When this will happen

May 20th, between 13:00 and 14:00 EDT (UTC-4).

What will happen

The main database server will be replaced with a more powerful machine.

A new file server will be put on line.

Why

The current database server has been the main performance bottleneck since February and we have tried numerous times to replace it to improve performance of the hosting cluster. We are hoping this will be the final operation required for at least a few months.

The new file server aims to reduce the dependency on the main server which currently assumes all functions except web page service, which includes file service. By moving this to a dedicated server, we will ensure better redundancy and scalability. Since the new server also supports hotswapping hard drives, hardware replacements will be easier and will not require any downtime.

How

We will take the whole cluster down for at least 30 minutes, between 13h00 and 13h30 (UTC-4). We hope to do both operations in 30 minutes, but we may go beyond that timeline and extend the operations if we have problems, to a maximum of 1h. Therefore all services should be back to normal (and faster!) at 14h00 (UTC-4).

If there's any modification to that timeline, an update will be posted, as usual, on http://offline.koumbit.net/.

Koumbit members can see the details here: https://wiki.koumbit.net/RapportsIntervention/2009-05-20

I object!

If this intervention is too problematic for you or your organisation, please let us know beforehand to see if we can arrange otherwise.

samedi 28 février 2009

Maintenance sur le serveur MySQL mercredi soir

Qui est affecté

Tous les sites hébergés sur les serveurs d'hébergement partagés de Koumbit.

Quand

Fenêtre de maintenance:

  • Début: 2009-03-04 23:59:59 EST
  • Fin: 2009-03-05 00:30:00 EST

Ce qui va arriver

Durant la période de maintenance prévue, les services SQL seront au ralenti pendant que le serveur SQL secondaire prendra le relai du serveur principal. Ceci affectera principalement les sites webs, qui verront tous un ralentissement voir une coupure de service complète.

Pourquoi

L'objectif principal de l'intervention est de tester la capacité du serveur principal "à froid", sans aucun traffic, afin de pouvoir la comparer au nouveau serveur que nous sommes en train de configurer comme remplacement.

Nous désirons également tester la capacité du serveur secondaire à prendre le relai du serveur principal ainsi que la capacité de l'équipe à rapidement faire un tel changement.

Comment

Pour faire ces tests, il faut fermer le serveur principal et rediriger tout le traffic vers le serveur secondaire. Puisque ce serveur est de moindre capacité matérielle, une diminution de performance substancielle sera observable sur nos services principaux.

Les détails de l'intervention sont disponibles sur cette page:

https://wiki.koumbit.net/RapportsIntervention/2009-02-04

Si l'intervention se prolonge, nous allons l'annoncer sur http://offline.koumbit.net/

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

MySQL maintenance window wednesday night

Who is affected

All the sites hosted on our shared hosting servers.

When

Maintenance window:

  • Begins: 2009-03-04 23:59:59 EST
  • Ends: 2009-03-05 00:30:00 EST

What will happen

During the planned maintenance window, MySQL services will be slower than usual while the secondary server takes over the primary one. This will mainly affect websites, which will all see a slowdown, maybe even complete outages.

Why

The main objective of the intervention is to test the capacity of the main server when idle, without any traffic, to compare it against the new server we are in the process of configuring as a replacement.

We also wish to test the capacity of the secondary server and the abilities of the sysadmin team to be able to proceed quickly with such an intervention, without being pressed by an actual emergency.

How

To proceed with those tests, we will turn off the main server and redirect all traffic to the secondary server. Since that server is of lesser capacity, substantial performance hit will be observable on our main servers.

The details of the operation are available on this page:

https://wiki.koumbit.net/RapportsIntervention/2009-02-04

If the operation takes longer than expected, we will announce it on http://offline.koumbit.net/

I object!

If this operation is too problematic for you or your organisation, please let us know within 24h to see if we can take appropriate workarounds.

jeudi 26 février 2009

Optimisation MySQL

J'ai opéré quelques modifications à la configuration du serveur MySQL qui devraient nous donner un peu plus de performance avec le serveur. J'ai utilisé le script MySQL Tuner afin de déterminer les goulots d'étranglement du serveur. J'ai également configuré une tâche hedbomadaire qui optimizera toutes les tables du serveur chaque lundi matin à 3:00HNE. Une première optimisation manuelle est présentement en cours.

Finalement, un correctif a été appliqué à AlternC afin que son démarrage soit plus rapide. Vous pouvez tester cette amélioration sur le Bureau. Une reconfiguration similaire a été appliquée sur phpMyAdmin.

Notez que ces démarches sont préalables à la mise en ligne d'un nouveau serveur MySQL qui devrait (on le souhaite et c'est la raison des tests et optimisations) améliorer la performance générale de l'hébergement partagé.

Nous considérons aussi mettre le serveur SQL hors ligne pour quelques minutes la semaine prochaine afin de comparer sa performance à nu avec le nouceau serveur que nous souhaitons mettre en ligne.

lundi 9 juin 2008

MySQL: problème de performance résolu / performance problems solved

(English follows)

Lundi le 9 mai 2008, entre 4h et 5h30 (UCT-4), le serveur MySQL a eu des problèmes de performance importants. Ceci a affecté de nombreux services de Koumbit, incluant les sites web hébergés sur le principal serveur d'hébergement auto-géré (HAG), les courriels, FTP, etc.

Le problème a été causé par un manque d'espace disque pour la partition /tmp lorsque MySQL écrit sa cache de jointures de tables temporaires sur disque. Ceci avait pour effet de faire «planter» le serveur MySQL avec un mystérieux message d'erreur («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).

Ce nouveau serveur MySQL a eu une série de petites pannes depuis sa mise en ligne la semaine dernière. Cependant, la configuration de MySQL est maintenant redondante et, une fois la configuration du serveur stabilisée, devrait nous aider à réduire les pannes (nous devons également améliorer la redondance d'Apache).

Par ailleurs, la panne étant survenue à 4h durant la nuit, cet incident fut une bonne démonstration d'une nouvelle fonction du système automatisé de veille (nagios), mise en ligne il y a 3 semaines. Nagios téléphone automatiquement le téléphone cellulaire de l'administrateur de veille lorsqu'une panne n'est pas résolue dans les 5 minutes.

Merci de votre compréhension,
Le comité sysadmin de Koumbit

English

On Monday the 9th of May 2008, between 4h and 5h30 (UCT-4), the MySQL server had major performance problems. This affected many Koumbit services, including the websites on the main self-managed server (HAG), e-mail, FTP, etc.

The problem was caused by a lack of free disk space in the /tmp directory when MySQL was writing to disk its cache of large table joins. This was causing MySQL to crash with a mysterious error message («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).

This new MySQL server has had a series of minor incidents since it has been put online last week. However, the MySQL configuration is now redudant and, once its configuration is stabilised, it should help us to greatly reduce downtime (we also need to improve the redundancy of the Apache web server).

Furthermore, this incident was a good demonstration of a feature in our automated monitoring system (nagios), which now automatically calls the cell phone of the on-call sysadmin if an incident is not acknowledged within 5 minutes. It was therefore possible to wake up a sysadmin within a few minutes of the incident, at 4 AM.

Thank you for your understanding,
The sysadmin committee of Koumbit

jeudi 5 juin 2008

Nouveau serveur MySQL en ligne

Le nouveau serveur est maintenant en production comme nouveau serveur MySQL. Ceci devrait améliorer la performance de l'hébergement sensiblement, mais il reste encore de l'optimisation à faire sur le serveur afin de s'assurer qu'il utilise le maximum de la nouvelle puissance...

vendredi 11 avril 2008

Roadmap de la répartition de charge

Hier, le comité sysadmin a élaboré un roadmap de l'élaboration du "load balancing" (répartition de charge) dans l'année à venir. Voici ce que nous prévoyons présentement:

  • mars-avril et avant: réflexion et recherche(./)
  • avril:premiers test du répartisseur de charge "hoststated" (./)
    • 17 avril: activation du parefeu au centre de données
    • fin (avril) mai: serveur secondaire de test
    • 7 juillet: hoststated fonctionnel sur le routeur. depuis ce moment, on voit des "microcoupures" apparaître quand homere plante
  • (juillet) début juin: server de base de données dédié(./) (demeter)
  • (quelque part en route) peu de temps après: deuxième serveur de base de données en redondance. (./)on peut maintenant perdre un serveur de bases de données et ramener les services dans les minutes qui suivent.
  • fin (mai) juin: serveur secondaire en test (www1)(./)
  • fin juillet: serveur secondaire en beta (ceci mettra fin aux micro-coupures)
  • mi août: serveur secondaire en production (ceci permettera une amélioration de la performance du service)
  • début (juin) (juillet) septembre: serveur de fichiers dédié (ceci permettera de perdre un serveur web en gardant les services actifs)
  • (août) fin septembre: deuxième répartisseur de charge en redondance (on peut maintenant perdre un répartisseur de charge)
  • 2008-2009:
    • deuxième lien réseau dans le cabinet
    • AS
    • deuxième serveur de fichiers

Donc à l'été, Koumbit sera pratiquement complètement redondant pour les services d'hébergement. La seule chose qui ne sera pas redondante sera la connexion réseau dans le cabinet (la connexion jusqu'au cabinet, dans le centre de données, est évidemment redondante) et le serveur de fichiers (ce qui sera fait après le mois d'août 2008.

Notez aussi que le roadmap est en constante évolution, tout comme le plan architectural plus général, dans le wiki de Koumbit.