Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

jeudi 28 août 2008

Nouveau serveur DNS: ns3.koumbit.net

Quoi

Dès aujourd'hui, nous ajoutons un nouveau serveur DNS à notre rotation principale. Le nouveau serveur est dès maintenant fonctionnel pour les domaines sur l'hébergement mutualisé.

La nouvelle adresse du serveur est la suivante: 209.172.53.230

Qui est affecté

Tous les utilisateurs gérant eux-mêmes leurs domaine (en tant que contact technique) doivent ajouter NS3.KOUMBIT.NET. Ceci vous assurera de ne subir aucune coupure durant l'année prochaine, alors que le serveur NS2.KOUMBIT.NET sera migré vers un autre fournisseur.

Les domaines gérés par Koumbit ont été correctement modifiés aujourd'hui. Si nous sommes le contact technique pour votre domaine, vous n'avez donc aucune action à entreprendre ici.

Vous pouvez vérifier qui sont les contacts pour votre domaine par cette interface:

http://www.gandi.net/whois

Quand

Les changements ont déjà commencé. Le serveur est en production depuis aujourd'hui. Les "Glue Records" ont également été mis à jour aujourd'hui, tout comme les domaines pour lesquels nous sommes le contact technique.

Dans environ 6 mois, le serveur ns2 sera migré vers un autre fournisseur. D'autres annonces suivront à ce sujet.

Pourquoi

Le serveur DNS secondaire NS2.KOUMBIT.NET est hébergé sur un lien réseau ayant une latence un peu moins désirable que le serveur principal, ce qui dégrade un peu la qualité du service. Nous voulons donc migrer ce serveur, mais une telle migration pourrait provoquer des coupures. Nous créons donc un nouveau serveur DNS, qui de plus nous fournira un niveau de redondance supplémentaire.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

New DNS server: ns3.koumbit.net

What is happening

We are adding a new server to our list of DNS servers. The new server is already functional for all the shared hosting domains.

The new address of the server is: 209.172.53.230

Who is affected

All the users managing their domains themselves (as technical contact) have to add NS3.KOUMBIT.NET to their DNS configuration. This will ensure that you will not suffer any outage when we switch NS2.KOUMBIT.NET providers.

All domains managed by Koumbit have been properly modified today. If we are the technical contact for your domain, you do not have any action to take today.

You can verify the contacts for your domains through this web page:

http://www.gandi.net/whois

When

The changes have already started. The server has been in production since today. The "Glue Records" have been updated today, as all the domains for which we are the technical contact.

Why

The secondary DNS server NS2.KOUMBIT.NET is hosted on a network link with less than desirable latency, which degrades our quality of service. We therefore want to migrate this server to another provider, but this move may create an outage. We are therefore creating a new DNS server that will provide us with another redundancy layer.

I object

If this intervention is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.

mercredi 20 août 2008

Intervention le 26 août

Qui est affecté

Toutes les machines, serveurs virtuels ou nons, et services hébergés dans le cabinet principal. Ceci inclus les services d'hébergement et de courriel.

Quand

Le 26 août 2008, entre 19h00 et 21h00, HAE (-0400). Les coupures décrites auront lieu entre 20h00 et 21h00, HAE. Nous espérons cependant limiter les coupures à 30 minutes (donc entre 20h et 20h30).

Ce qui va arriver

La "switch" principale sera remplacé. Ceci va provoquer des courtes coupures pour chacun des serveurs hébergés.

Pourquoi

La switch actuelle est pleine et montre des signes de faiblesse. Nous préfèrons la remplacer avant une coupure totale.

Comment

Voir le rapport d'intervention. Notez que la coupure commencera par une coupure généralisée, lorsque le router sera rebranché. Ensuite, chaque machine sera rebranchée une à une, ce qui provoquera une coupure de quelques minutes maximum par machine. Il est également possible que cette procédure itérative échoue et que nous fessions une procédure rapide avec coupure totale sur tous les serveurs.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

Notez également que le blog sysadmin sera mis à jour si l'intervention sera modifiée ou si nous avons des problèmes particuliers.

Intervention on august 26th

Who is affected

All the machines, virtual servers or not, and services hosted in the main cabinet. This includes hosting and email services.

When

August 26th 2008, between 19h00 and 21h00 EDT (-0400). Outages described below will occur between 20h00 and 21h00, EDT. However, we hope to limit those outages to 30 minutes (so between 20h00 and 20h30).

What will happen

The main switch will be replaced. This will provoque short network outages for each of the hosted servers.

Why

The current switch is full and show signs of weaknesses. We prefer to replace it before a complete outage.

How

See the rapport d'intervention (fr). Note that this outage will begin with a general outage affecting all servers when the core router will be replugged. Then every machine will be replugged one by one, which should provoke a few minutes of outage for each machine. It is also possible that this procedure fails to function properly and that we go forward with a quick and dirty unplugging and replugging of everything.

I object!

If this intervention is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.

Also not that the sysadmin blog will be updated if the intervention is changed in any way or if we experience problems or delays.

lundi 28 juillet 2008

Maintenance mercredi 30

English follows

Il y aura quelques coupures mercredi prochain (le 30 juillet) entre 15:30 et 16:00 (HAE) alors que nous allons redémarrer tous les serveurs physiques et virtuels pour mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.

L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.

Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 15:30 au centre de données mais devront avoir terminé et quitté à 16:00.

English

There will be short outages next wednesday (july 30th) between 15:30 and 16:00 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.

Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.

People interested in visiting the datacenter or their hardware are welcome to show up at 15:30 at the datacenter but should have finished and left by 16:00.

samedi 5 juillet 2008

Coupure sur le serveur principal cette nuit

Le serveur web principal (homere) de l'hébergement auto-géré a planté ce matin à 1h (heure locale). Le crash n'a pas été détecté par nagios à cause du nouveau répartisseur de charge qui a pris le relai pour afficher une page d'erreur. La personne sur appel a été contactée à 6h (heure locale) et le serveur a été redémarré.

Le système de surveillance a depuis été corrigé pour mieux gérer ce genre de situations. Désolé pour les inconvénients reliés à cette coupure inhabituelle, affectant particulièrement nos hébergés en europe.

jeudi 3 juillet 2008

Serveur de répartition de charge en ligne

Le serveur de répartition de charge (rtr1-canix2.koumbit.net) a finalement été mis en ligne correctement. Il s'agissait d'une simple erreur de syntaxe qui le rendait non fonctionnel. Depuis ce soir, donc, le serveur principal (homere) est surveillé. Si une coupure survient, le système va rediriger les utilisateurs vers une page d'erreur plus instructive au lieu de boucler ou de refuser la connexion. Éventuellement, les serveurs secondaires prendront le dessus, mais ceux-ci doivent encore être configurés, ce qui devrait être testé au cours du mois.

Il est possible que cette nouvelle configuration occasionne certains problèmes, si vous voyez des nouveaux problèmes avec le service, n'hésitez pas à nous contacter.

lundi 16 juin 2008

Coupure sur le réseau

La connectivité a été rompue dans le cabinet principal à 19:07 heure locale. Nous investiguons le problème. Nous avons repris contact avec les serveurs autour de 19:19 mais des problèmes subsistent.

Update: les services semblent être revenus vers 19:30. Nous nous informons à notre fournisseur d'accès pour obtenir des détails sur la coupure.

lundi 9 juin 2008

MySQL: problème de performance résolu / performance problems solved

(English follows)

Lundi le 9 mai 2008, entre 4h et 5h30 (UCT-4), le serveur MySQL a eu des problèmes de performance importants. Ceci a affecté de nombreux services de Koumbit, incluant les sites web hébergés sur le principal serveur d'hébergement auto-géré (HAG), les courriels, FTP, etc.

Le problème a été causé par un manque d'espace disque pour la partition /tmp lorsque MySQL écrit sa cache de jointures de tables temporaires sur disque. Ceci avait pour effet de faire «planter» le serveur MySQL avec un mystérieux message d'erreur («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).

Ce nouveau serveur MySQL a eu une série de petites pannes depuis sa mise en ligne la semaine dernière. Cependant, la configuration de MySQL est maintenant redondante et, une fois la configuration du serveur stabilisée, devrait nous aider à réduire les pannes (nous devons également améliorer la redondance d'Apache).

Par ailleurs, la panne étant survenue à 4h durant la nuit, cet incident fut une bonne démonstration d'une nouvelle fonction du système automatisé de veille (nagios), mise en ligne il y a 3 semaines. Nagios téléphone automatiquement le téléphone cellulaire de l'administrateur de veille lorsqu'une panne n'est pas résolue dans les 5 minutes.

Merci de votre compréhension,
Le comité sysadmin de Koumbit

English

On Monday the 9th of May 2008, between 4h and 5h30 (UCT-4), the MySQL server had major performance problems. This affected many Koumbit services, including the websites on the main self-managed server (HAG), e-mail, FTP, etc.

The problem was caused by a lack of free disk space in the /tmp directory when MySQL was writing to disk its cache of large table joins. This was causing MySQL to crash with a mysterious error message («Incorrect key file for table '/tmp/#sql_12fd_1.MYI'; try to repair it»).

This new MySQL server has had a series of minor incidents since it has been put online last week. However, the MySQL configuration is now redudant and, once its configuration is stabilised, it should help us to greatly reduce downtime (we also need to improve the redundancy of the Apache web server).

Furthermore, this incident was a good demonstration of a feature in our automated monitoring system (nagios), which now automatically calls the cell phone of the on-call sysadmin if an incident is not acknowledged within 5 minutes. It was therefore possible to wake up a sysadmin within a few minutes of the incident, at 4 AM.

Thank you for your understanding,
The sysadmin committee of Koumbit

jeudi 5 juin 2008

Nouveau serveur MySQL en ligne

Le nouveau serveur est maintenant en production comme nouveau serveur MySQL. Ceci devrait améliorer la performance de l'hébergement sensiblement, mais il reste encore de l'optimisation à faire sur le serveur afin de s'assurer qu'il utilise le maximum de la nouvelle puissance...

Mise à jour du roadmap de load balancing

J'ai mis à jour le roadmap de la répartition de charge, qui encourt certains délais. Voir ce commentaire pour plus de détails. Nous continuerons à mettre à jour le billet ainsi que la page wiki.

mardi 3 juin 2008

Coupure dûe à un problème de système de fichiers

Nous avons subi une courte (2h) coupure (2h30) ce matin dû au système de fichiers du serveur principal qui a soudainement décidé de devenir en lecture seule. Le service de courriel fut la principale victime du phénomène, qui a été rapidement (en 1h) mis sous contrôle par l'équipe technique. Un bref timeline:

  • 08:01: erreur du système de fichier
  • 08:30: premier personne qui le remarque sur IRC
  • 09:00: mathieu se connecte à IRC et commence l'intervention (umount/sync de /var/alternc)
  • 09:25: mathieu réveille antoine
  • 09:50: on enlève /var/alternc du fstab et on reboot homere par le PDU
  • 09:53: homere back, ping, on a remonté /var/alternc sans problème, tout ok
  • 10:01: tout est de retour à la normale

Toutes les heures sont dans le fuseau horaire EDT/HAE (-0400). Notez que ce genre de problème pourra être plus rapidement résolu avec le système de redondance, que nous prévoyons toujours déployer fin août.

Updates:

  • nouveau crash du filesystem, un fsck complet est lancé. (11:02)
  • fsck fini, tout devrait être de retour (11:39)

jeudi 22 mai 2008

Maintenance jeudi le 29

English follows.

Il y aura quelques coupures jeudi prochain (le 29 mai) entre 15:00 et 15:30 (HAE) alors que nous alons redémarrer tous les serveurs physiques et virtuels pour être mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.

L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.

Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 14:00 au centre de données.

Notez finalement que cette opération nous permettera de mettre en place le nouveau serveur de bases de données qui sera bientôt complètement fonctionnel. Nous enverrons une autre annonce à ce moment.

English

There will be short cascading outages next thursday (may 29th) between 15:00 and 15:30 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.

Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.

People interested in visiting the datacenter or their hardware are welcome to show up at 14:00 at the datacenter.

Note that this operation will also provide us with a new database server, which will be racked but not yet fully operationnal. We'll send another announcement when ready.

vendredi 16 mai 2008

Problème de login à phpmyadmin résolu

Depuis mardi une erreur technique survenait lorsque l'on essayait de se connecter à phpmyadmin par AlternC (RtTicket:15398). Le problème est maintenant résolu. Désolé pour les inconvénients!

mercredi 14 mai 2008

Ralentissement MySQL réglé, mise à jour du matériel prévue fin-mai 2008

Du 10 au 13 mai 2008, le principal serveur de l'hébergement auto-géré (HAG) a subi quelques problèmes de performance. Ceci était causé par le serveur de bases de données MySQL qui ne pouvait plus répondre à la demande. Le problème a été identifié et réglé le 13 mai vers minuit par un de nos administrateurs (merci Sébas!).

Le problème en question était causé par un site HAG qui avait été fortement bombardé de spam. Nous avons depuis nettoyé la base de données en question et aussi optimisé plusieurs autres paramètres techniques.

Ce graphe donne une petite idée de l'ampleur du problème:

Source: Statistiques Munin de Koumbit

Ceci coïncide également avec le moment du remplacement prévu du remplacement du matériel pour le serveur de bases de données. Le nouveau serveur doublera sa performance et nous permettra de travailler à la création d'un serveur de base de données redondant afin d'améliorer la fiabilité du service. Nous prévoyons sa mise en ligne d'ici la fin-mai 2008.

Merci de votre compréhension,

Le comité sysadmin Réseau Koumbit, Inc.

jeudi 8 mai 2008

Mise à jour des quotas et quelques correctifs

Nous avons fait des tests aujourd'hui sur le système de quotas. Certains d'entre vous auront peut-être remarqué que certains courriels et sites ont eu des messages d'erreurs ce matin. Ces problèmes ont été causés par des tests effectués sur le système de quota qui a été activé par erreur. Ceux d'entre vous qui dépassaient leur quota on vu leur courriels rebondir (et dans certains cas leurs sites planter) durant quelques minutes, le temps que l'on désactive les quotas disques à nouveaux.

Sachez cependant que nous sommes maintenant en mesure de remettre les quotas en ligne et que certains sites dépassent largement ces quotas. Nous allons bientôt envoyer une annonce formelle à ce sujet.

Par ailleurs, certains correctifs ont été apportés récemment qu'il vaut la peine de souligner:

  • Les liens de l'interface web pour les listes de discussions ont été uniformisés à https://listes.koumbit.net/ pour tous les hébergés. Ceci règle plusieurs problèmes avec cette interface, en particulier au niveau des nouveaux contrôles SSL de Firefox 3 ainsi que des listes hébergées sur des domaines ayant leur site web sur un autre serveur que Koumbit ou sur le wiki (http://upam.info/ pour un exemple)
  • Certains crashes plus ou moins réguliers du serveur web sont maintenant chose du passé. Nous avions enregistrés 272 tels crashes, automatiquement réparés, entre le 7 décembre et le premier mai, date à laquelle le correctif (une simple correction à la limite de mémoire d'Apache) a été posée.
  • La configuration MySQL a été à nouveau optimisée afin de parer à certains problèmes de performance qui ont affecté le serveur aujourd'hui.

Notez qu'il demeure certains problèmes de performance avec le serveur que nous tentons présentement d'adresser, principalement par le déploiement du système de répartition de charge précédemment annoncé. À ce sujet, nous en sommes encore aux tests du répartiteur de charge qui ne fonctionne pas comme prévu.

Notez aussi que nous allons bientôt nous doter d'un nouveau serveur de bases de données, le serveur actuel approchant de sa capacité maximale suite à un pic inexpliqué qui s'est amorcé il y a quelques semaines et ne s'est pas encore résorbé.

jeudi 1 mai 2008

Mise à jour à PHP5

Comme il a été annoncé plus tôt, Koumbit migre ses serveurs à PHP5 aujourd'hui. Voir cette annonce pour les détails. Voir cette annonce et la page Php5 pour plus d'informations.

État de la situation: petit délai, un site est encore en migration. PHP5 en ligne.

lundi 14 avril 2008

Amélioration à l'interface graphique du bureau - Control panel visual gets an upgrade

(english follows)

Le dimanche 13 avril 2008, à 22h00, le logiciel de gestion du bureau de Koumbit (AlternC) a été mis à jour à la version 0.9.8. Cette version répare plusieurs bogues du côté administratif, mais offre également une amélioration au visuel (thème) du logiciel. Il y a également une nouvelle fonction pour les utilisateurs de Drupal 6: il est maintenant possible de facilement changer le mode du fichier settings.php lorsque ce dernier est placé en mode «lecture seule» (dans le gestionnaire de fichiers, cliquer sur la boîte associée au fichier, puis cliquer sur le bouton «permissions»). Plusieurs de ces améliorations ont été commanditées par le Réseau Koumbit.

AlternC est un outil de gestion web pour facilement gérer des services d'hébergement tels que les noms de domaines, les comptes FTP, les bases de données MySQL, les listes de diffusion Mailman et autres. Le logiciel a initialement été développé par des personnes issues de structures associatives ou d'entreprises telles L'Autre Net, Eitic, Koumbit, Octopuce, Neuronnexion et bien d'autres. AlternC est un logiciel libre distribué sous la licence GNU GPL. Pour plus d'information, consulter http://alternc.org.

English

On Sunday the 13th of April 2008, 22h00, the Koumbit web control panel (AlternC) has been upgraded to version 0.9.8. This version mainly fixes many administrative bugs, but also offers the user an improved visual presentation (theme). It also provides a new function for users of Drupal 6: when the settings.php becomes read-only, you may now go to the file manager and change the mode of the file back to read+write (check the box associated with the file, then click on the "permissions" button). Many of these changes were sponsored by Koumbit.

AlternC is a web control panel to easily manage services such as domain names, FTP accounts, MySQL databases, Mailman mailing-lists and more. The software was initially written by developers from groups and companies such as L'autre Net, Eitic, Koumbit, Octopuce, Neuronnexion and many others. It is distributed as Free Software under the GNU GPL license. For more information, visit http://alternc.org.

vendredi 11 avril 2008

Roadmap de la répartition de charge

Hier, le comité sysadmin a élaboré un roadmap de l'élaboration du "load balancing" (répartition de charge) dans l'année à venir. Voici ce que nous prévoyons présentement:

  • mars-avril et avant: réflexion et recherche(./)
  • avril:premiers test du répartisseur de charge "hoststated" (./)
    • 17 avril: activation du parefeu au centre de données
    • fin (avril) mai: serveur secondaire de test
    • 7 juillet: hoststated fonctionnel sur le routeur. depuis ce moment, on voit des "microcoupures" apparaître quand homere plante
  • (juillet) début juin: server de base de données dédié(./) (demeter)
  • (quelque part en route) peu de temps après: deuxième serveur de base de données en redondance. (./)on peut maintenant perdre un serveur de bases de données et ramener les services dans les minutes qui suivent.
  • fin (mai) juin: serveur secondaire en test (www1)(./)
  • fin juillet: serveur secondaire en beta (ceci mettra fin aux micro-coupures)
  • mi août: serveur secondaire en production (ceci permettera une amélioration de la performance du service)
  • début (juin) (juillet) septembre: serveur de fichiers dédié (ceci permettera de perdre un serveur web en gardant les services actifs)
  • (août) fin septembre: deuxième répartisseur de charge en redondance (on peut maintenant perdre un répartisseur de charge)
  • 2008-2009:
    • deuxième lien réseau dans le cabinet
    • AS
    • deuxième serveur de fichiers

Donc à l'été, Koumbit sera pratiquement complètement redondant pour les services d'hébergement. La seule chose qui ne sera pas redondante sera la connexion réseau dans le cabinet (la connexion jusqu'au cabinet, dans le centre de données, est évidemment redondante) et le serveur de fichiers (ce qui sera fait après le mois d'août 2008.

Notez aussi que le roadmap est en constante évolution, tout comme le plan architectural plus général, dans le wiki de Koumbit.

jeudi 27 mars 2008

Nouveaux certificats SSL | New SSL certificates

-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Bonjour,

English follows.

Nous avons finalement cédé au "racket" des certificats SSL et avons
acheté un certificat chez RapidSSL. C'est un certificat "wildcard" pour
*.koumbit.net et a donc été installé sur tous les services SSL déjà
existants. Ceci couvre le bureau (bureau.koumbit.net) mais aussi les
services de courriel.

Voici les empreintes du certificat:

MD5 Fingerprint=D7:F4:EA:C9:55:17:F6:6F:79:48:29:A5:22:B8:56:68
SHA1 Fingerprint=D6:B4:BD:B0:F3:D2:09:4C:DD:7E:AC:55:E7:AC:52:1D:0B:13:73:DC
Issuer: C=US, O=Equifax Secure Inc., CN=Equifax Secure Global eBusiness CA-1

Nous allons également bientot passer koumbit.org sous SSL, ce qui devra
vous donner des services SSL, sur demande.

%%%%

Hi,

We have finally conceded to the SSL certificate racket and we have
bought a "real" certificate from RapidSSL. It's a wildcard certificate
for *.koumbit.net and have therefore been installed on all the existing
SSL services. This covers AlternC (bureau.koumbit.net) but also email
services.

Here are the fingerprints of the certificate:

MD5 Fingerprint=D7:F4:EA:C9:55:17:F6:6F:79:48:29:A5:22:B8:56:68
SHA1 Fingerprint=D6:B4:BD:B0:F3:D2:09:4C:DD:7E:AC:55:E7:AC:52:1D:0B:13:73:DC
Issuer: C=US, O=Equifax Secure Inc., CN=Equifax Secure Global eBusiness CA-1

We will also switch koumbit.org itself to SSL, which should eventually
provide everyone with hosted SSL services, upon demand.

Stay tuned!
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.6 (GNU/Linux)

iD8DBQFH7A41WGBzs0AjcC8RAvosAJ9/l21IbsdFCd8ckS6IIy97cTKhAwCeLCQv
hbAE6dz1oxREpPewsmRh+P8=
=M3Jb
-----END PGP SIGNATURE-----

- page 1 de 2