Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

mercredi 20 mai 2009

Maintenance, 20-5-2009 13:00-0400

Qui est affecté

Tous les utilisateurs de l'hébergement partagé, autant des courriels que des sites webs.

Quand

Le mercredi 20 mai, entre 13:00 et 14:00 HAE (UTC-4).

Ce qui va arriver

Le serveur de base de données sera remplacé par une machine plus puissante.

Un nouveau serveur de fichiers sera mis en ligne.

Pourquoi

Le serveur de bases de données est le goulot d'étranglement principal depuis février et nous avons tenté à plusieurs reprises de le remplacer pour améliorer la performance de l'hébergement. Nous espérons que ceci est la dernière tentative requise pour au moins 6 à 12 mois.

Le nouveau serveur de fichiers pour sa part vise à réduire la dépendance envers le serveur principal qui assume présentement toutes les fonctions excepté le rendu des pages web, et donc incluant le service de fichiers. En déplaçant ce service vers un serveur dédié, nous nous assurons à long terme d'une plus grande redondance et extensibilité. Puisque le nouveau serveur supporte le changement des disques "à chaud" (sans redémarrer le serveur), les remplacements matériaux seront également plus rapides et ne demanderont pas de coupure de service.

Comment

Nous fermerons toute la grappe de serveur principale pour environ 30 minutes, entre 13h et 13h30 (UTC-4). Nous espérons faire les deux opérations en 30 minutes, mais il est possible que nous dépassions cet estimé si des problèmes se manifestent. Les services sont donc garantis de revenir à la normale (et plus rapides!) autour de 14h00 (UTC-4).

Si une modification est prévue à cet échéancier, une mise à jour sera, comme d'habitude, postée sur http://offline.koumbit.net/.

Les membres de Koumbit peuvent voir les détails de l'opération sur: https://wiki.koumbit.net/RapportsIntervention/2009-05-20

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir à l'avance pour voir si nous pouvons prendre des arrangements.

Maintenance window, 20-5-2009 13:00-0400

Who is affected

All the users of the shared hosting service, emails and websites alike.

When this will happen

May 20th, between 13:00 and 14:00 EDT (UTC-4).

What will happen

The main database server will be replaced with a more powerful machine.

A new file server will be put on line.

Why

The current database server has been the main performance bottleneck since February and we have tried numerous times to replace it to improve performance of the hosting cluster. We are hoping this will be the final operation required for at least a few months.

The new file server aims to reduce the dependency on the main server which currently assumes all functions except web page service, which includes file service. By moving this to a dedicated server, we will ensure better redundancy and scalability. Since the new server also supports hotswapping hard drives, hardware replacements will be easier and will not require any downtime.

How

We will take the whole cluster down for at least 30 minutes, between 13h00 and 13h30 (UTC-4). We hope to do both operations in 30 minutes, but we may go beyond that timeline and extend the operations if we have problems, to a maximum of 1h. Therefore all services should be back to normal (and faster!) at 14h00 (UTC-4).

If there's any modification to that timeline, an update will be posted, as usual, on http://offline.koumbit.net/.

Koumbit members can see the details here: https://wiki.koumbit.net/RapportsIntervention/2009-05-20

I object!

If this intervention is too problematic for you or your organisation, please let us know beforehand to see if we can arrange otherwise.

samedi 28 février 2009

Maintenance sur le serveur MySQL mercredi soir

Qui est affecté

Tous les sites hébergés sur les serveurs d'hébergement partagés de Koumbit.

Quand

Fenêtre de maintenance:

  • Début: 2009-03-04 23:59:59 EST
  • Fin: 2009-03-05 00:30:00 EST

Ce qui va arriver

Durant la période de maintenance prévue, les services SQL seront au ralenti pendant que le serveur SQL secondaire prendra le relai du serveur principal. Ceci affectera principalement les sites webs, qui verront tous un ralentissement voir une coupure de service complète.

Pourquoi

L'objectif principal de l'intervention est de tester la capacité du serveur principal "à froid", sans aucun traffic, afin de pouvoir la comparer au nouveau serveur que nous sommes en train de configurer comme remplacement.

Nous désirons également tester la capacité du serveur secondaire à prendre le relai du serveur principal ainsi que la capacité de l'équipe à rapidement faire un tel changement.

Comment

Pour faire ces tests, il faut fermer le serveur principal et rediriger tout le traffic vers le serveur secondaire. Puisque ce serveur est de moindre capacité matérielle, une diminution de performance substancielle sera observable sur nos services principaux.

Les détails de l'intervention sont disponibles sur cette page:

https://wiki.koumbit.net/RapportsIntervention/2009-02-04

Si l'intervention se prolonge, nous allons l'annoncer sur http://offline.koumbit.net/

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

MySQL maintenance window wednesday night

Who is affected

All the sites hosted on our shared hosting servers.

When

Maintenance window:

  • Begins: 2009-03-04 23:59:59 EST
  • Ends: 2009-03-05 00:30:00 EST

What will happen

During the planned maintenance window, MySQL services will be slower than usual while the secondary server takes over the primary one. This will mainly affect websites, which will all see a slowdown, maybe even complete outages.

Why

The main objective of the intervention is to test the capacity of the main server when idle, without any traffic, to compare it against the new server we are in the process of configuring as a replacement.

We also wish to test the capacity of the secondary server and the abilities of the sysadmin team to be able to proceed quickly with such an intervention, without being pressed by an actual emergency.

How

To proceed with those tests, we will turn off the main server and redirect all traffic to the secondary server. Since that server is of lesser capacity, substantial performance hit will be observable on our main servers.

The details of the operation are available on this page:

https://wiki.koumbit.net/RapportsIntervention/2009-02-04

If the operation takes longer than expected, we will announce it on http://offline.koumbit.net/

I object!

If this operation is too problematic for you or your organisation, please let us know within 24h to see if we can take appropriate workarounds.

jeudi 26 février 2009

Optimisation MySQL

J'ai opéré quelques modifications à la configuration du serveur MySQL qui devraient nous donner un peu plus de performance avec le serveur. J'ai utilisé le script MySQL Tuner afin de déterminer les goulots d'étranglement du serveur. J'ai également configuré une tâche hedbomadaire qui optimizera toutes les tables du serveur chaque lundi matin à 3:00HNE. Une première optimisation manuelle est présentement en cours.

Finalement, un correctif a été appliqué à AlternC afin que son démarrage soit plus rapide. Vous pouvez tester cette amélioration sur le Bureau. Une reconfiguration similaire a été appliquée sur phpMyAdmin.

Notez que ces démarches sont préalables à la mise en ligne d'un nouveau serveur MySQL qui devrait (on le souhaite et c'est la raison des tests et optimisations) améliorer la performance générale de l'hébergement partagé.

Nous considérons aussi mettre le serveur SQL hors ligne pour quelques minutes la semaine prochaine afin de comparer sa performance à nu avec le nouceau serveur que nous souhaitons mettre en ligne.

lundi 9 juin 2008

MySQL: problème de performance résolu / performance problems solved

(English follows)

Lundi le 9 mai 2008, entre 4h et 5h30 (UCT-4), le serveur MySQL a eu des problèmes de performance importants. Ceci a affecté de nombreux services de Koumbit, incluant les sites web hébergés sur le principal serveur d'hébergement auto-géré (HAG), les courriels, FTP, etc.

Le problème a été causé par un manque d'espace disque pour la partition /tmp lorsque MySQL écrit sa cache de jointures de tables temporaires sur disque. Ceci avait pour effet de faire «planter» le serveur MySQL avec un mystérieux message d'erreur («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).

Ce nouveau serveur MySQL a eu une série de petites pannes depuis sa mise en ligne la semaine dernière. Cependant, la configuration de MySQL est maintenant redondante et, une fois la configuration du serveur stabilisée, devrait nous aider à réduire les pannes (nous devons également améliorer la redondance d'Apache).

Par ailleurs, la panne étant survenue à 4h durant la nuit, cet incident fut une bonne démonstration d'une nouvelle fonction du système automatisé de veille (nagios), mise en ligne il y a 3 semaines. Nagios téléphone automatiquement le téléphone cellulaire de l'administrateur de veille lorsqu'une panne n'est pas résolue dans les 5 minutes.

Merci de votre compréhension,
Le comité sysadmin de Koumbit

English

On Monday the 9th of May 2008, between 4h and 5h30 (UCT-4), the MySQL server had major performance problems. This affected many Koumbit services, including the websites on the main self-managed server (HAG), e-mail, FTP, etc.

The problem was caused by a lack of free disk space in the /tmp directory when MySQL was writing to disk its cache of large table joins. This was causing MySQL to crash with a mysterious error message («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).

This new MySQL server has had a series of minor incidents since it has been put online last week. However, the MySQL configuration is now redudant and, once its configuration is stabilised, it should help us to greatly reduce downtime (we also need to improve the redundancy of the Apache web server).

Furthermore, this incident was a good demonstration of a feature in our automated monitoring system (nagios), which now automatically calls the cell phone of the on-call sysadmin if an incident is not acknowledged within 5 minutes. It was therefore possible to wake up a sysadmin within a few minutes of the incident, at 4 AM.

Thank you for your understanding,
The sysadmin committee of Koumbit

jeudi 5 juin 2008

Nouveau serveur MySQL en ligne

Le nouveau serveur est maintenant en production comme nouveau serveur MySQL. Ceci devrait améliorer la performance de l'hébergement sensiblement, mais il reste encore de l'optimisation à faire sur le serveur afin de s'assurer qu'il utilise le maximum de la nouvelle puissance...

Mise à jour du roadmap de load balancing

J'ai mis à jour le roadmap de la répartition de charge, qui encourt certains délais. Voir ce commentaire pour plus de détails. Nous continuerons à mettre à jour le billet ainsi que la page wiki.

jeudi 22 mai 2008

Maintenance jeudi le 29

English follows.

Il y aura quelques coupures jeudi prochain (le 29 mai) entre 15:00 et 15:30 (HAE) alors que nous alons redémarrer tous les serveurs physiques et virtuels pour être mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.

L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.

Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 14:00 au centre de données.

Notez finalement que cette opération nous permettera de mettre en place le nouveau serveur de bases de données qui sera bientôt complètement fonctionnel. Nous enverrons une autre annonce à ce moment.

English

There will be short cascading outages next thursday (may 29th) between 15:00 and 15:30 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.

Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.

People interested in visiting the datacenter or their hardware are welcome to show up at 14:00 at the datacenter.

Note that this operation will also provide us with a new database server, which will be racked but not yet fully operationnal. We'll send another announcement when ready.

mercredi 14 mai 2008

Ralentissement MySQL réglé, mise à jour du matériel prévue fin-mai 2008

Du 10 au 13 mai 2008, le principal serveur de l'hébergement auto-géré (HAG) a subi quelques problèmes de performance. Ceci était causé par le serveur de bases de données MySQL qui ne pouvait plus répondre à la demande. Le problème a été identifié et réglé le 13 mai vers minuit par un de nos administrateurs (merci Sébas!).

Le problème en question était causé par un site HAG qui avait été fortement bombardé de spam. Nous avons depuis nettoyé la base de données en question et aussi optimisé plusieurs autres paramètres techniques.

Ce graphe donne une petite idée de l'ampleur du problème:

Source: Statistiques Munin de Koumbit

Ceci coïncide également avec le moment du remplacement prévu du remplacement du matériel pour le serveur de bases de données. Le nouveau serveur doublera sa performance et nous permettra de travailler à la création d'un serveur de base de données redondant afin d'améliorer la fiabilité du service. Nous prévoyons sa mise en ligne d'ici la fin-mai 2008.

Merci de votre compréhension,

Le comité sysadmin Réseau Koumbit, Inc.

vendredi 11 avril 2008

Roadmap de la répartition de charge

Hier, le comité sysadmin a élaboré un roadmap de l'élaboration du "load balancing" (répartition de charge) dans l'année à venir. Voici ce que nous prévoyons présentement:

  • mars-avril et avant: réflexion et recherche(./)
  • avril:premiers test du répartisseur de charge "hoststated" (./)
    • 17 avril: activation du parefeu au centre de données
    • fin (avril) mai: serveur secondaire de test
    • 7 juillet: hoststated fonctionnel sur le routeur. depuis ce moment, on voit des "microcoupures" apparaître quand homere plante
  • (juillet) début juin: server de base de données dédié(./) (demeter)
  • (quelque part en route) peu de temps après: deuxième serveur de base de données en redondance. (./)on peut maintenant perdre un serveur de bases de données et ramener les services dans les minutes qui suivent.
  • fin (mai) juin: serveur secondaire en test (www1)(./)
  • fin juillet: serveur secondaire en beta (ceci mettra fin aux micro-coupures)
  • mi août: serveur secondaire en production (ceci permettera une amélioration de la performance du service)
  • début (juin) (juillet) septembre: serveur de fichiers dédié (ceci permettera de perdre un serveur web en gardant les services actifs)
  • (août) fin septembre: deuxième répartisseur de charge en redondance (on peut maintenant perdre un répartisseur de charge)
  • 2008-2009:
    • deuxième lien réseau dans le cabinet
    • AS
    • deuxième serveur de fichiers

Donc à l'été, Koumbit sera pratiquement complètement redondant pour les services d'hébergement. La seule chose qui ne sera pas redondante sera la connexion réseau dans le cabinet (la connexion jusqu'au cabinet, dans le centre de données, est évidemment redondante) et le serveur de fichiers (ce qui sera fait après le mois d'août 2008.

Notez aussi que le roadmap est en constante évolution, tout comme le plan architectural plus général, dans le wiki de Koumbit.

mardi 11 mars 2008

Réparation du serveur principal et autres interventions le 17 mars

La mémoire du serveur principal de Koumbit (homere) sera remplacée le 17 mars prochain. Une nouvelle carte gigabit sera également installée dans le serveur de base de données (mysql0 AKA mysql AKA remus) afin de régler un vieux problème de compatibilité. Cette intervention de maintenance vise à corriger les problèmes récents avec les serveurs qui affectent encore le service au niveau de la performance. Cette intervention aura lieu entre 20:00 et 20:10 et imposera une coupure totale des services de courriel et web.

Nous prévoyons également l'installation d'un nouveau PDU (pdu2-canix2) afin que les prochains serveurs installés bénéficient également de reboots à distance.

Finalement, nous allons terminer la configuration du routeur principal (rtr1-canix2), entre 20:30 et 21:00, ce qui pourra occasionner des coupures sporadiques sur tout le réseau.

Un rapport d'intervention détaillé est disponible sur le wiki de Koumbit: RapportsIntervention/2008-03-17 (accessible seulement aux membres de Koumbit). Voir aussi les annonces envoyées à hag et colo.

samedi 9 février 2008

Coupure sur remus.koumbit.net

Suite à un redémarrage visant à régler les problèmes avec la carte réseau, le serveur n'est pas revenu en ligne. Un technicien est sur place pour diagnostiquer le problème.

Ce problème affecte les courriels, les services web et tout ce qui nécessite l'accès au serveur de bases de données.

Mise-à-jour: le serveur est de retour depuis 00:46 (-0500). D'autres redémarrages sont prévus pour stabiliser la situation, qui devraient occasionner des coupures d'un maximum de 90 secondes durant la nuit.

Mise-à-jour: l'intervention est terminée, tout devrait être rentré dans l'ordre depuis 01:30 (-0500).

vendredi 1 février 2008

Intervention au centre de données le 8 février

Coupures sporadiques prévues de 15h00 à 17h00. Au menu:

Les membres de Koumbit peuvent consulter le plan d'intervention complet dans le wiki à RapportsIntervention/2008-02-08