Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

mardi 16 septembre 2008

Coupure d'un serveur DNS récursif aujourd'hui

Qui est affecté

Les serveurs hébergés en colocation, y compris, sans se limiter à: remus.koumbit.net, hesiode.koumbit.net, alexandria.koumbit.net et metis.koumbit.net.

Quand

Aujourd'hui 16 septembre, entre 17:45 et 18:15, HAE (-0400).

Ce qui va arriver

Le serveur hébergeant un des serveurs virtuel résolvant les noms de domaines pour le cabinet (209.44.112.71, recurse2.koumbit.net) sera remplacé, occasionnant une coupure d'environ 30 minutes de ce service. L'autre serveur DNS (209.44.112.70, recurse.koumbit.net) devrait continuer à effectuer le service normalement et nous croyons que ceci ne devrait pas occasionner de problème majeurs.

Pourquoi

Le serveur (remus.koumbit.net) est en fin de vie et doit être remplacé. Il sera transformé en serveur de sauvegarde massif (alexandria.koumbit.net).

Comment

Voir les détails du rapport d'intervention. À noter que remus.koumbit.net va maintenant s'appeler metis.koumbit.net. Nous allons également mettre en ligne un nouveau serveur, hesiode.koumbit.net.

recursive DNS service outage today

When

Today september 16th, between 17:45 and 18:15, EDT (-0400).

What will happen

The server hosting one the virtual servers resolving DNS for the cabinet (209.44.112.71, recurse2.koumbit.net) will be replaced, provoking a short outage of around 30 minutes of this service. The other server (209.44.112.70, recurse.koumbit.net) should continue to perform regular service and we therefore believe that this will have minimal impact on the infrastructure.

Why

The server (remus.koumbit.net) is approaching end of life and needs to be replaced. It will be transformed into a massive backup server (alexandria.koumbit.net).

How

Koumbit members can read the details of the operational report. Note that remus.koumbit.net will now be named metis.koumbit.net. We will also put a new web node online name, hesiode.koumbit.net.

jeudi 5 juin 2008

Nouveau serveur MySQL en ligne

Le nouveau serveur est maintenant en production comme nouveau serveur MySQL. Ceci devrait améliorer la performance de l'hébergement sensiblement, mais il reste encore de l'optimisation à faire sur le serveur afin de s'assurer qu'il utilise le maximum de la nouvelle puissance...

mercredi 14 mai 2008

Ralentissement MySQL réglé, mise à jour du matériel prévue fin-mai 2008

Du 10 au 13 mai 2008, le principal serveur de l'hébergement auto-géré (HAG) a subi quelques problèmes de performance. Ceci était causé par le serveur de bases de données MySQL qui ne pouvait plus répondre à la demande. Le problème a été identifié et réglé le 13 mai vers minuit par un de nos administrateurs (merci Sébas!).

Le problème en question était causé par un site HAG qui avait été fortement bombardé de spam. Nous avons depuis nettoyé la base de données en question et aussi optimisé plusieurs autres paramètres techniques.

Ce graphe donne une petite idée de l'ampleur du problème:

Source: Statistiques Munin de Koumbit

Ceci coïncide également avec le moment du remplacement prévu du remplacement du matériel pour le serveur de bases de données. Le nouveau serveur doublera sa performance et nous permettra de travailler à la création d'un serveur de base de données redondant afin d'améliorer la fiabilité du service. Nous prévoyons sa mise en ligne d'ici la fin-mai 2008.

Merci de votre compréhension,

Le comité sysadmin Réseau Koumbit, Inc.

jeudi 8 mai 2008

Mise à jour des quotas et quelques correctifs

Nous avons fait des tests aujourd'hui sur le système de quotas. Certains d'entre vous auront peut-être remarqué que certains courriels et sites ont eu des messages d'erreurs ce matin. Ces problèmes ont été causés par des tests effectués sur le système de quota qui a été activé par erreur. Ceux d'entre vous qui dépassaient leur quota on vu leur courriels rebondir (et dans certains cas leurs sites planter) durant quelques minutes, le temps que l'on désactive les quotas disques à nouveaux.

Sachez cependant que nous sommes maintenant en mesure de remettre les quotas en ligne et que certains sites dépassent largement ces quotas. Nous allons bientôt envoyer une annonce formelle à ce sujet.

Par ailleurs, certains correctifs ont été apportés récemment qu'il vaut la peine de souligner:

  • Les liens de l'interface web pour les listes de discussions ont été uniformisés à https://listes.koumbit.net/ pour tous les hébergés. Ceci règle plusieurs problèmes avec cette interface, en particulier au niveau des nouveaux contrôles SSL de Firefox 3 ainsi que des listes hébergées sur des domaines ayant leur site web sur un autre serveur que Koumbit ou sur le wiki (http://upam.info/ pour un exemple)
  • Certains crashes plus ou moins réguliers du serveur web sont maintenant chose du passé. Nous avions enregistrés 272 tels crashes, automatiquement réparés, entre le 7 décembre et le premier mai, date à laquelle le correctif (une simple correction à la limite de mémoire d'Apache) a été posée.
  • La configuration MySQL a été à nouveau optimisée afin de parer à certains problèmes de performance qui ont affecté le serveur aujourd'hui.

Notez qu'il demeure certains problèmes de performance avec le serveur que nous tentons présentement d'adresser, principalement par le déploiement du système de répartition de charge précédemment annoncé. À ce sujet, nous en sommes encore aux tests du répartiteur de charge qui ne fonctionne pas comme prévu.

Notez aussi que nous allons bientôt nous doter d'un nouveau serveur de bases de données, le serveur actuel approchant de sa capacité maximale suite à un pic inexpliqué qui s'est amorcé il y a quelques semaines et ne s'est pas encore résorbé.

mardi 11 mars 2008

Réparation du serveur principal et autres interventions le 17 mars

La mémoire du serveur principal de Koumbit (homere) sera remplacée le 17 mars prochain. Une nouvelle carte gigabit sera également installée dans le serveur de base de données (mysql0 AKA mysql AKA remus) afin de régler un vieux problème de compatibilité. Cette intervention de maintenance vise à corriger les problèmes récents avec les serveurs qui affectent encore le service au niveau de la performance. Cette intervention aura lieu entre 20:00 et 20:10 et imposera une coupure totale des services de courriel et web.

Nous prévoyons également l'installation d'un nouveau PDU (pdu2-canix2) afin que les prochains serveurs installés bénéficient également de reboots à distance.

Finalement, nous allons terminer la configuration du routeur principal (rtr1-canix2), entre 20:30 et 21:00, ce qui pourra occasionner des coupures sporadiques sur tout le réseau.

Un rapport d'intervention détaillé est disponible sur le wiki de Koumbit: RapportsIntervention/2008-03-17 (accessible seulement aux membres de Koumbit). Voir aussi les annonces envoyées à hag et colo.

samedi 9 février 2008

Coupure sur remus.koumbit.net

Suite à un redémarrage visant à régler les problèmes avec la carte réseau, le serveur n'est pas revenu en ligne. Un technicien est sur place pour diagnostiquer le problème.

Ce problème affecte les courriels, les services web et tout ce qui nécessite l'accès au serveur de bases de données.

Mise-à-jour: le serveur est de retour depuis 00:46 (-0500). D'autres redémarrages sont prévus pour stabiliser la situation, qui devraient occasionner des coupures d'un maximum de 90 secondes durant la nuit.

Mise-à-jour: l'intervention est terminée, tout devrait être rentré dans l'ordre depuis 01:30 (-0500).

vendredi 1 février 2008

Intervention au centre de données le 8 février

Coupures sporadiques prévues de 15h00 à 17h00. Au menu:

Les membres de Koumbit peuvent consulter le plan d'intervention complet dans le wiki à RapportsIntervention/2008-02-08