Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

mercredi 20 mai 2009

Maintenance, 20-5-2009 13:00-0400

Qui est affecté

Tous les utilisateurs de l'hébergement partagé, autant des courriels que des sites webs.

Quand

Le mercredi 20 mai, entre 13:00 et 14:00 HAE (UTC-4).

Ce qui va arriver

Le serveur de base de données sera remplacé par une machine plus puissante.

Un nouveau serveur de fichiers sera mis en ligne.

Pourquoi

Le serveur de bases de données est le goulot d'étranglement principal depuis février et nous avons tenté à plusieurs reprises de le remplacer pour améliorer la performance de l'hébergement. Nous espérons que ceci est la dernière tentative requise pour au moins 6 à 12 mois.

Le nouveau serveur de fichiers pour sa part vise à réduire la dépendance envers le serveur principal qui assume présentement toutes les fonctions excepté le rendu des pages web, et donc incluant le service de fichiers. En déplaçant ce service vers un serveur dédié, nous nous assurons à long terme d'une plus grande redondance et extensibilité. Puisque le nouveau serveur supporte le changement des disques "à chaud" (sans redémarrer le serveur), les remplacements matériaux seront également plus rapides et ne demanderont pas de coupure de service.

Comment

Nous fermerons toute la grappe de serveur principale pour environ 30 minutes, entre 13h et 13h30 (UTC-4). Nous espérons faire les deux opérations en 30 minutes, mais il est possible que nous dépassions cet estimé si des problèmes se manifestent. Les services sont donc garantis de revenir à la normale (et plus rapides!) autour de 14h00 (UTC-4).

Si une modification est prévue à cet échéancier, une mise à jour sera, comme d'habitude, postée sur http://offline.koumbit.net/.

Les membres de Koumbit peuvent voir les détails de l'opération sur: https://wiki.koumbit.net/RapportsIntervention/2009-05-20

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir à l'avance pour voir si nous pouvons prendre des arrangements.

Maintenance window, 20-5-2009 13:00-0400

Who is affected

All the users of the shared hosting service, emails and websites alike.

When this will happen

May 20th, between 13:00 and 14:00 EDT (UTC-4).

What will happen

The main database server will be replaced with a more powerful machine.

A new file server will be put on line.

Why

The current database server has been the main performance bottleneck since February and we have tried numerous times to replace it to improve performance of the hosting cluster. We are hoping this will be the final operation required for at least a few months.

The new file server aims to reduce the dependency on the main server which currently assumes all functions except web page service, which includes file service. By moving this to a dedicated server, we will ensure better redundancy and scalability. Since the new server also supports hotswapping hard drives, hardware replacements will be easier and will not require any downtime.

How

We will take the whole cluster down for at least 30 minutes, between 13h00 and 13h30 (UTC-4). We hope to do both operations in 30 minutes, but we may go beyond that timeline and extend the operations if we have problems, to a maximum of 1h. Therefore all services should be back to normal (and faster!) at 14h00 (UTC-4).

If there's any modification to that timeline, an update will be posted, as usual, on http://offline.koumbit.net/.

Koumbit members can see the details here: https://wiki.koumbit.net/RapportsIntervention/2009-05-20

I object!

If this intervention is too problematic for you or your organisation, please let us know beforehand to see if we can arrange otherwise.

mercredi 3 décembre 2008

Mise à jour à phpMyAdmin 3.1.0

Nous avons mis à jour le logiciel phpMyAdmin à la version 3.1.0, réglant les bugs "mbstring" rapportés à maintes reprises. Signalez tout problème à support@koumbit.org.

phpMyadmin upgraded to 3.1.0

We have upgraded phpMyAdmin to the 3.1.0 version which fixes the "mbstring" issues that you have reported many times. Please report any problem to support@koumbit.org.

samedi 5 juillet 2008

Coupure sur le serveur principal cette nuit

Le serveur web principal (homere) de l'hébergement auto-géré a planté ce matin à 1h (heure locale). Le crash n'a pas été détecté par nagios à cause du nouveau répartisseur de charge qui a pris le relai pour afficher une page d'erreur. La personne sur appel a été contactée à 6h (heure locale) et le serveur a été redémarré.

Le système de surveillance a depuis été corrigé pour mieux gérer ce genre de situations. Désolé pour les inconvénients reliés à cette coupure inhabituelle, affectant particulièrement nos hébergés en europe.

jeudi 3 juillet 2008

Serveur de répartition de charge en ligne

Le serveur de répartition de charge (rtr1-canix2.koumbit.net) a finalement été mis en ligne correctement. Il s'agissait d'une simple erreur de syntaxe qui le rendait non fonctionnel. Depuis ce soir, donc, le serveur principal (homere) est surveillé. Si une coupure survient, le système va rediriger les utilisateurs vers une page d'erreur plus instructive au lieu de boucler ou de refuser la connexion. Éventuellement, les serveurs secondaires prendront le dessus, mais ceux-ci doivent encore être configurés, ce qui devrait être testé au cours du mois.

Il est possible que cette nouvelle configuration occasionne certains problèmes, si vous voyez des nouveaux problèmes avec le service, n'hésitez pas à nous contacter.

jeudi 5 juin 2008

Mise à jour du roadmap de load balancing

J'ai mis à jour le roadmap de la répartition de charge, qui encourt certains délais. Voir ce commentaire pour plus de détails. Nous continuerons à mettre à jour le billet ainsi que la page wiki.

mardi 3 juin 2008

Coupure dûe à un problème de système de fichiers

Nous avons subi une courte (2h) coupure (2h30) ce matin dû au système de fichiers du serveur principal qui a soudainement décidé de devenir en lecture seule. Le service de courriel fut la principale victime du phénomène, qui a été rapidement (en 1h) mis sous contrôle par l'équipe technique. Un bref timeline:

  • 08:01: erreur du système de fichier
  • 08:30: premier personne qui le remarque sur IRC
  • 09:00: mathieu se connecte à IRC et commence l'intervention (umount/sync de /var/alternc)
  • 09:25: mathieu réveille antoine
  • 09:50: on enlève /var/alternc du fstab et on reboot homere par le PDU
  • 09:53: homere back, ping, on a remonté /var/alternc sans problème, tout ok
  • 10:01: tout est de retour à la normale

Toutes les heures sont dans le fuseau horaire EDT/HAE (-0400). Notez que ce genre de problème pourra être plus rapidement résolu avec le système de redondance, que nous prévoyons toujours déployer fin août.

Updates:

  • nouveau crash du filesystem, un fsck complet est lancé. (11:02)
  • fsck fini, tout devrait être de retour (11:39)

jeudi 22 mai 2008

Maintenance jeudi le 29

English follows.

Il y aura quelques coupures jeudi prochain (le 29 mai) entre 15:00 et 15:30 (HAE) alors que nous alons redémarrer tous les serveurs physiques et virtuels pour être mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.

L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.

Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 14:00 au centre de données.

Notez finalement que cette opération nous permettera de mettre en place le nouveau serveur de bases de données qui sera bientôt complètement fonctionnel. Nous enverrons une autre annonce à ce moment.

English

There will be short cascading outages next thursday (may 29th) between 15:00 and 15:30 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.

Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.

People interested in visiting the datacenter or their hardware are welcome to show up at 14:00 at the datacenter.

Note that this operation will also provide us with a new database server, which will be racked but not yet fully operationnal. We'll send another announcement when ready.

jeudi 8 mai 2008

Mise à jour des quotas et quelques correctifs

Nous avons fait des tests aujourd'hui sur le système de quotas. Certains d'entre vous auront peut-être remarqué que certains courriels et sites ont eu des messages d'erreurs ce matin. Ces problèmes ont été causés par des tests effectués sur le système de quota qui a été activé par erreur. Ceux d'entre vous qui dépassaient leur quota on vu leur courriels rebondir (et dans certains cas leurs sites planter) durant quelques minutes, le temps que l'on désactive les quotas disques à nouveaux.

Sachez cependant que nous sommes maintenant en mesure de remettre les quotas en ligne et que certains sites dépassent largement ces quotas. Nous allons bientôt envoyer une annonce formelle à ce sujet.

Par ailleurs, certains correctifs ont été apportés récemment qu'il vaut la peine de souligner:

  • Les liens de l'interface web pour les listes de discussions ont été uniformisés à https://listes.koumbit.net/ pour tous les hébergés. Ceci règle plusieurs problèmes avec cette interface, en particulier au niveau des nouveaux contrôles SSL de Firefox 3 ainsi que des listes hébergées sur des domaines ayant leur site web sur un autre serveur que Koumbit ou sur le wiki (http://upam.info/ pour un exemple)
  • Certains crashes plus ou moins réguliers du serveur web sont maintenant chose du passé. Nous avions enregistrés 272 tels crashes, automatiquement réparés, entre le 7 décembre et le premier mai, date à laquelle le correctif (une simple correction à la limite de mémoire d'Apache) a été posée.
  • La configuration MySQL a été à nouveau optimisée afin de parer à certains problèmes de performance qui ont affecté le serveur aujourd'hui.

Notez qu'il demeure certains problèmes de performance avec le serveur que nous tentons présentement d'adresser, principalement par le déploiement du système de répartition de charge précédemment annoncé. À ce sujet, nous en sommes encore aux tests du répartiteur de charge qui ne fonctionne pas comme prévu.

Notez aussi que nous allons bientôt nous doter d'un nouveau serveur de bases de données, le serveur actuel approchant de sa capacité maximale suite à un pic inexpliqué qui s'est amorcé il y a quelques semaines et ne s'est pas encore résorbé.

jeudi 1 mai 2008

Mise à jour à PHP5

Comme il a été annoncé plus tôt, Koumbit migre ses serveurs à PHP5 aujourd'hui. Voir cette annonce pour les détails. Voir cette annonce et la page Php5 pour plus d'informations.

État de la situation: petit délai, un site est encore en migration. PHP5 en ligne.

vendredi 11 avril 2008

Roadmap de la répartition de charge

Hier, le comité sysadmin a élaboré un roadmap de l'élaboration du "load balancing" (répartition de charge) dans l'année à venir. Voici ce que nous prévoyons présentement:

  • mars-avril et avant: réflexion et recherche(./)
  • avril:premiers test du répartisseur de charge "hoststated" (./)
    • 17 avril: activation du parefeu au centre de données
    • fin (avril) mai: serveur secondaire de test
    • 7 juillet: hoststated fonctionnel sur le routeur. depuis ce moment, on voit des "microcoupures" apparaître quand homere plante
  • (juillet) début juin: server de base de données dédié(./) (demeter)
  • (quelque part en route) peu de temps après: deuxième serveur de base de données en redondance. (./)on peut maintenant perdre un serveur de bases de données et ramener les services dans les minutes qui suivent.
  • fin (mai) juin: serveur secondaire en test (www1)(./)
  • fin juillet: serveur secondaire en beta (ceci mettra fin aux micro-coupures)
  • mi août: serveur secondaire en production (ceci permettera une amélioration de la performance du service)
  • début (juin) (juillet) septembre: serveur de fichiers dédié (ceci permettera de perdre un serveur web en gardant les services actifs)
  • (août) fin septembre: deuxième répartisseur de charge en redondance (on peut maintenant perdre un répartisseur de charge)
  • 2008-2009:
    • deuxième lien réseau dans le cabinet
    • AS
    • deuxième serveur de fichiers

Donc à l'été, Koumbit sera pratiquement complètement redondant pour les services d'hébergement. La seule chose qui ne sera pas redondante sera la connexion réseau dans le cabinet (la connexion jusqu'au cabinet, dans le centre de données, est évidemment redondante) et le serveur de fichiers (ce qui sera fait après le mois d'août 2008.

Notez aussi que le roadmap est en constante évolution, tout comme le plan architectural plus général, dans le wiki de Koumbit.

mardi 1 avril 2008

Rapport d'intervention d'hier et intervention lundi

English follows.

L'intervention d'hier soir n'a pas donné les résultats escomptés. Nous sommes toujours à capacité réduite sur le serveur principal. La carte mère sera remplacée lundi à 15h00EDT (-0400). Il y aura donc coupure complète de services sur le serveur principal de 15h05 à 15h45, le temps de remplacer la carte maîtresse du serveur.

Le rapport d'intervention est disponible aux membres de Koumbit dans le wiki.


Yesterdays operations didn't yield the expected results. We are still in a reduced capacity on the main server. The motherboard will be replaced on monday at 15h00EDT (-0400). There will therefore be a complete service outage between 15h05 and 15h45, time during which the motherboard will be replaced.

jeudi 27 mars 2008

Nouveaux certificats SSL | New SSL certificates

-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Bonjour,

English follows.

Nous avons finalement cédé au "racket" des certificats SSL et avons
acheté un certificat chez RapidSSL. C'est un certificat "wildcard" pour
*.koumbit.net et a donc été installé sur tous les services SSL déjà
existants. Ceci couvre le bureau (bureau.koumbit.net) mais aussi les
services de courriel.

Voici les empreintes du certificat:

MD5 Fingerprint=D7:F4:EA:C9:55:17:F6:6F:79:48:29:A5:22:B8:56:68
SHA1 Fingerprint=D6:B4:BD:B0:F3:D2:09:4C:DD:7E:AC:55:E7:AC:52:1D:0B:13:73:DC
Issuer: C=US, O=Equifax Secure Inc., CN=Equifax Secure Global eBusiness CA-1

Nous allons également bientot passer koumbit.org sous SSL, ce qui devra
vous donner des services SSL, sur demande.

%%%%

Hi,

We have finally conceded to the SSL certificate racket and we have
bought a "real" certificate from RapidSSL. It's a wildcard certificate
for *.koumbit.net and have therefore been installed on all the existing
SSL services. This covers AlternC (bureau.koumbit.net) but also email
services.

Here are the fingerprints of the certificate:

MD5 Fingerprint=D7:F4:EA:C9:55:17:F6:6F:79:48:29:A5:22:B8:56:68
SHA1 Fingerprint=D6:B4:BD:B0:F3:D2:09:4C:DD:7E:AC:55:E7:AC:52:1D:0B:13:73:DC
Issuer: C=US, O=Equifax Secure Inc., CN=Equifax Secure Global eBusiness CA-1

We will also switch koumbit.org itself to SSL, which should eventually
provide everyone with hosted SSL services, upon demand.

Stay tuned!
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.6 (GNU/Linux)

iD8DBQFH7A41WGBzs0AjcC8RAvosAJ9/l21IbsdFCd8ckS6IIy97cTKhAwCeLCQv
hbAE6dz1oxREpPewsmRh+P8=
=M3Jb
-----END PGP SIGNATURE-----

mardi 18 mars 2008

Retour sur l'intervention

L'intervention d'hier soir ne s'est pas exactement passée comme prévu. Plusieurs problèmes se sont manifestés:

  • la RAM n'était en fait pas défectueuse, c'est la carte mère qui ne porte plus la RAM correctement
  • le routeur principal (rtr1-canix2) crashe lorsqu'on déplace homere (qui est juste en dessous)

Le premier problème fait que nous devrons probablement remplacer le serveur homere en entier. Nous allons discuter avec notre fournisseur et vous annoncer la suite des évènements sous peu. Nous avons quand même réussi à améliorer la situation au niveau de la mémoire, amenant celle-ci à 3GB des 4GB originalement disponibles (soit 1GB de plus que le 2GB que nous avions depuis le 16 février). Ceci devrait améliorer la performance et la stabilité du service à court terme.

Le second problème est plus délicat: il faudra peut-être remplacer le serveur à nouveau, peut-être par une machine plus légère et simple en matériel (par exemple pas de pièces mobiles), moins coûteuse et moins gourmande en courant (pas évident!). En attendant, le routeur est considéré comme stable dans qu'on ne joue pas dans le cabinet.

Les coupures ont donc dûré environ 90 minutes de plus que prévu et nous avons dû rester au centre de données 3h30 au lieu du 2h original.

Le rapport d'intervention complet est disponible aux membres de Koumbit.

mardi 11 mars 2008

Réparation du serveur principal et autres interventions le 17 mars

La mémoire du serveur principal de Koumbit (homere) sera remplacée le 17 mars prochain. Une nouvelle carte gigabit sera également installée dans le serveur de base de données (mysql0 AKA mysql AKA remus) afin de régler un vieux problème de compatibilité. Cette intervention de maintenance vise à corriger les problèmes récents avec les serveurs qui affectent encore le service au niveau de la performance. Cette intervention aura lieu entre 20:00 et 20:10 et imposera une coupure totale des services de courriel et web.

Nous prévoyons également l'installation d'un nouveau PDU (pdu2-canix2) afin que les prochains serveurs installés bénéficient également de reboots à distance.

Finalement, nous allons terminer la configuration du routeur principal (rtr1-canix2), entre 20:30 et 21:00, ce qui pourra occasionner des coupures sporadiques sur tout le réseau.

Un rapport d'intervention détaillé est disponible sur le wiki de Koumbit: RapportsIntervention/2008-03-17 (accessible seulement aux membres de Koumbit). Voir aussi les annonces envoyées à hag et colo.

vendredi 7 mars 2008

Les services de Homere (HAG), apache et courrier, sont de retour à la normale

La vérification du disque sur Homere est maintenant terminée. Nous avons redémarré tous les services (apache, apache-ssl, ftp, courrier, etc.) et tout devrait être de retour à la normale. Un rapport d'intervention détaillé est disponible sur le wiki de Koumbit: RapportsIntervention/2008-03-07 (accès restreint aux membres de Koumbit).

Nous devrons intervenir physiquement au centre de données pour vérifier l'intégrité de la mémoire (RAM). Ceci se fera probablement dimanche soir et pourrait durer une heure.

Vérification du disque en cours sur Homere (HAG), apache/courrier hors-ligne

Une erreur système survenue vers 9h, vendredi le 7 mars 2008, nous oblige à intervenir d'urgence pour nous assurer de l'intégrité des données du disque dur sur Homere (le principal serveur web du système d'hébergement auto-géré, HAG). Pendant cette opération (fsck), les serveurs web (apache et apache-ssl), ainsi que les serveurs de courrier ne seront pas disponibles.

Le service devrait être de retour en ligne d'ici 15 minutes. Nous nous excusons pour les inconvénients.

mardi 19 février 2008

Augmentation de la limite de mémoire par défaut pour mod_php

La limite de mémoire par défaut a été augmentée de 16 mégaoctets à 24 mégaoctets suite aux besoins de mémoire accrus de Drupal 6 et autres systèmes de gestion de contenu. Vous pouvez toujours demander une exception supplémentaire en écrivant à support@koumbit.org.

samedi 16 février 2008

Panne du serveur auto-géré (Homere) samedi le 16 février 2008 de 9h30 à 10h30

Le matin du samedi 16 février 2008, de 9h30 à 10h30, les services web, ftp et courriel étaient inaccessibles suite à une panne du principal serveur auto-géré (homere). La cause de la panne est inconnue pour l'instant. Un technicien a dû se rendre sur place pour redémarrer le serveur.

Nous nous excusons pour les inconvénients et nous vous remercions de votre compréhension.

- page 1 de 2