Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

mardi 3 juin 2008

Coupure dûe à un problème de système de fichiers

Nous avons subi une courte (2h) coupure (2h30) ce matin dû au système de fichiers du serveur principal qui a soudainement décidé de devenir en lecture seule. Le service de courriel fut la principale victime du phénomène, qui a été rapidement (en 1h) mis sous contrôle par l'équipe technique. Un bref timeline:

  • 08:01: erreur du système de fichier
  • 08:30: premier personne qui le remarque sur IRC
  • 09:00: mathieu se connecte à IRC et commence l'intervention (umount/sync de /var/alternc)
  • 09:25: mathieu réveille antoine
  • 09:50: on enlève /var/alternc du fstab et on reboot homere par le PDU
  • 09:53: homere back, ping, on a remonté /var/alternc sans problème, tout ok
  • 10:01: tout est de retour à la normale

Toutes les heures sont dans le fuseau horaire EDT/HAE (-0400). Notez que ce genre de problème pourra être plus rapidement résolu avec le système de redondance, que nous prévoyons toujours déployer fin août.

Updates:

  • nouveau crash du filesystem, un fsck complet est lancé. (11:02)
  • fsck fini, tout devrait être de retour (11:39)

jeudi 22 mai 2008

Maintenance jeudi le 29

English follows.

Il y aura quelques coupures jeudi prochain (le 29 mai) entre 15:00 et 15:30 (HAE) alors que nous alons redémarrer tous les serveurs physiques et virtuels pour être mettre à jour les noyaux Linux suites à la publication de problèmes de sécurité récents.

L'hébergement principal et les serveurs virtuels verront des courtes coupures (~3 minutes) durant la fenêtre de maintenance. Le routage et les machines en colocation ne devraient pas être affectées mais si vous voulez redémarrer vos serveurs, c'est un bon moment car nous aurons du personnel en place.

Les gens intéressés à visiter le centre de données ou leur matériel sont invités à se présenter à 14:00 au centre de données.

Notez finalement que cette opération nous permettera de mettre en place le nouveau serveur de bases de données qui sera bientôt complètement fonctionnel. Nous enverrons une autre annonce à ce moment.

English

There will be short cascading outages next thursday (may 29th) between 15:00 and 15:30 (EDT) as we reboot all servers and virtual servers to follow Linux security upgrades.

Main hosting and vservers should have short outages during the maintenance window (~3 minutes). Routing should not be affected in the main cabinet so colocated machines should not be affected, although it would be a good time for colocated machines to be rebooted as we'll have people on site.

People interested in visiting the datacenter or their hardware are welcome to show up at 14:00 at the datacenter.

Note that this operation will also provide us with a new database server, which will be racked but not yet fully operationnal. We'll send another announcement when ready.

vendredi 16 mai 2008

Problème de login à phpmyadmin résolu

Depuis mardi une erreur technique survenait lorsque l'on essayait de se connecter à phpmyadmin par AlternC (RtTicket:15398). Le problème est maintenant résolu. Désolé pour les inconvénients!

jeudi 15 mai 2008

Déni de service en cours

Nous subissons présentement une attaque d'environ de 60mbps sur le réseau et sommes en discussions avec notre fournisseur de service upstream pour diagnostiquer et régler le problème. Le routage dans le cabinet principal est affecté.

Mise à jour: la situation est redevenue sous contrôle. La coupure aura duré de 17:44EDT à 18:21EDT pour l'ensemble du point de présence Canix2. Homere a été bloqué par erreur chez notre fournisseur jusqu'à 18:41EDT.

mercredi 14 mai 2008

Ralentissement MySQL réglé, mise à jour du matériel prévue fin-mai 2008

Du 10 au 13 mai 2008, le principal serveur de l'hébergement auto-géré (HAG) a subi quelques problèmes de performance. Ceci était causé par le serveur de bases de données MySQL qui ne pouvait plus répondre à la demande. Le problème a été identifié et réglé le 13 mai vers minuit par un de nos administrateurs (merci Sébas!).

Le problème en question était causé par un site HAG qui avait été fortement bombardé de spam. Nous avons depuis nettoyé la base de données en question et aussi optimisé plusieurs autres paramètres techniques.

Ce graphe donne une petite idée de l'ampleur du problème:

Source: Statistiques Munin de Koumbit

Ceci coïncide également avec le moment du remplacement prévu du remplacement du matériel pour le serveur de bases de données. Le nouveau serveur doublera sa performance et nous permettra de travailler à la création d'un serveur de base de données redondant afin d'améliorer la fiabilité du service. Nous prévoyons sa mise en ligne d'ici la fin-mai 2008.

Merci de votre compréhension,

Le comité sysadmin Réseau Koumbit, Inc.

jeudi 8 mai 2008

Mise à jour des quotas et quelques correctifs

Nous avons fait des tests aujourd'hui sur le système de quotas. Certains d'entre vous auront peut-être remarqué que certains courriels et sites ont eu des messages d'erreurs ce matin. Ces problèmes ont été causés par des tests effectués sur le système de quota qui a été activé par erreur. Ceux d'entre vous qui dépassaient leur quota on vu leur courriels rebondir (et dans certains cas leurs sites planter) durant quelques minutes, le temps que l'on désactive les quotas disques à nouveaux.

Sachez cependant que nous sommes maintenant en mesure de remettre les quotas en ligne et que certains sites dépassent largement ces quotas. Nous allons bientôt envoyer une annonce formelle à ce sujet.

Par ailleurs, certains correctifs ont été apportés récemment qu'il vaut la peine de souligner:

  • Les liens de l'interface web pour les listes de discussions ont été uniformisés à https://listes.koumbit.net/ pour tous les hébergés. Ceci règle plusieurs problèmes avec cette interface, en particulier au niveau des nouveaux contrôles SSL de Firefox 3 ainsi que des listes hébergées sur des domaines ayant leur site web sur un autre serveur que Koumbit ou sur le wiki (http://upam.info/ pour un exemple)
  • Certains crashes plus ou moins réguliers du serveur web sont maintenant chose du passé. Nous avions enregistrés 272 tels crashes, automatiquement réparés, entre le 7 décembre et le premier mai, date à laquelle le correctif (une simple correction à la limite de mémoire d'Apache) a été posée.
  • La configuration MySQL a été à nouveau optimisée afin de parer à certains problèmes de performance qui ont affecté le serveur aujourd'hui.

Notez qu'il demeure certains problèmes de performance avec le serveur que nous tentons présentement d'adresser, principalement par le déploiement du système de répartition de charge précédemment annoncé. À ce sujet, nous en sommes encore aux tests du répartiteur de charge qui ne fonctionne pas comme prévu.

Notez aussi que nous allons bientôt nous doter d'un nouveau serveur de bases de données, le serveur actuel approchant de sa capacité maximale suite à un pic inexpliqué qui s'est amorcé il y a quelques semaines et ne s'est pas encore résorbé.

jeudi 1 mai 2008

Mise à jour à PHP5

Comme il a été annoncé plus tôt, Koumbit migre ses serveurs à PHP5 aujourd'hui. Voir cette annonce pour les détails. Voir cette annonce et la page Php5 pour plus d'informations.

État de la situation: petit délai, un site est encore en migration. PHP5 en ligne.

lundi 14 avril 2008

Amélioration à l'interface graphique du bureau - Control panel visual gets an upgrade

(english follows)

Le dimanche 13 avril 2008, à 22h00, le logiciel de gestion du bureau de Koumbit (AlternC) a été mis à jour à la version 0.9.8. Cette version répare plusieurs bogues du côté administratif, mais offre également une amélioration au visuel (thème) du logiciel. Il y a également une nouvelle fonction pour les utilisateurs de Drupal 6: il est maintenant possible de facilement changer le mode du fichier settings.php lorsque ce dernier est placé en mode «lecture seule» (dans le gestionnaire de fichiers, cliquer sur la boîte associée au fichier, puis cliquer sur le bouton «permissions»). Plusieurs de ces améliorations ont été commanditées par le Réseau Koumbit.

AlternC est un outil de gestion web pour facilement gérer des services d'hébergement tels que les noms de domaines, les comptes FTP, les bases de données MySQL, les listes de diffusion Mailman et autres. Le logiciel a initialement été développé par des personnes issues de structures associatives ou d'entreprises telles L'Autre Net, Eitic, Koumbit, Octopuce, Neuronnexion et bien d'autres. AlternC est un logiciel libre distribué sous la licence GNU GPL. Pour plus d'information, consulter http://alternc.org.

English

On Sunday the 13th of April 2008, 22h00, the Koumbit web control panel (AlternC) has been upgraded to version 0.9.8. This version mainly fixes many administrative bugs, but also offers the user an improved visual presentation (theme). It also provides a new function for users of Drupal 6: when the settings.php becomes read-only, you may now go to the file manager and change the mode of the file back to read+write (check the box associated with the file, then click on the "permissions" button). Many of these changes were sponsored by Koumbit.

AlternC is a web control panel to easily manage services such as domain names, FTP accounts, MySQL databases, Mailman mailing-lists and more. The software was initially written by developers from groups and companies such as L'autre Net, Eitic, Koumbit, Octopuce, Neuronnexion and many others. It is distributed as Free Software under the GNU GPL license. For more information, visit http://alternc.org.

vendredi 11 avril 2008

Roadmap de la répartition de charge

Hier, le comité sysadmin a élaboré un roadmap de l'élaboration du "load balancing" (répartition de charge) dans l'année à venir. Voici ce que nous prévoyons présentement:

  • mars-avril et avant: réflexion et recherche(./)
  • avril:premiers test du répartisseur de charge "hoststated" (./)
    • 17 avril: activation du parefeu au centre de données
    • fin (avril) mai: serveur secondaire de test
    • 7 juillet: hoststated fonctionnel sur le routeur. depuis ce moment, on voit des "microcoupures" apparaître quand homere plante
  • (juillet) début juin: server de base de données dédié(./) (demeter)
  • (quelque part en route) peu de temps après: deuxième serveur de base de données en redondance. (./)on peut maintenant perdre un serveur de bases de données et ramener les services dans les minutes qui suivent.
  • fin (mai) juin: serveur secondaire en test (www1)(./)
  • fin juillet: serveur secondaire en beta (ceci mettra fin aux micro-coupures)
  • mi août: serveur secondaire en production (ceci permettera une amélioration de la performance du service)
  • début (juin) (juillet) septembre: serveur de fichiers dédié (ceci permettera de perdre un serveur web en gardant les services actifs)
  • (août) fin septembre: deuxième répartisseur de charge en redondance (on peut maintenant perdre un répartisseur de charge)
  • 2008-2009:
    • deuxième lien réseau dans le cabinet
    • AS
    • deuxième serveur de fichiers

Donc à l'été, Koumbit sera pratiquement complètement redondant pour les services d'hébergement. La seule chose qui ne sera pas redondante sera la connexion réseau dans le cabinet (la connexion jusqu'au cabinet, dans le centre de données, est évidemment redondante) et le serveur de fichiers (ce qui sera fait après le mois d'août 2008.

Notez aussi que le roadmap est en constante évolution, tout comme le plan architectural plus général, dans le wiki de Koumbit.

mardi 1 avril 2008

Rapport d'intervention d'hier et intervention lundi

English follows.

L'intervention d'hier soir n'a pas donné les résultats escomptés. Nous sommes toujours à capacité réduite sur le serveur principal. La carte mère sera remplacée lundi à 15h00EDT (-0400). Il y aura donc coupure complète de services sur le serveur principal de 15h05 à 15h45, le temps de remplacer la carte maîtresse du serveur.

Le rapport d'intervention est disponible aux membres de Koumbit dans le wiki.


Yesterdays operations didn't yield the expected results. We are still in a reduced capacity on the main server. The motherboard will be replaced on monday at 15h00EDT (-0400). There will therefore be a complete service outage between 15h05 and 15h45, time during which the motherboard will be replaced.

jeudi 27 mars 2008

Nouveaux certificats SSL | New SSL certificates

-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

Bonjour,

English follows.

Nous avons finalement cédé au "racket" des certificats SSL et avons
acheté un certificat chez RapidSSL. C'est un certificat "wildcard" pour
*.koumbit.net et a donc été installé sur tous les services SSL déjà
existants. Ceci couvre le bureau (bureau.koumbit.net) mais aussi les
services de courriel.

Voici les empreintes du certificat:

MD5 Fingerprint=D7:F4:EA:C9:55:17:F6:6F:79:48:29:A5:22:B8:56:68
SHA1 Fingerprint=D6:B4:BD:B0:F3:D2:09:4C:DD:7E:AC:55:E7:AC:52:1D:0B:13:73:DC
Issuer: C=US, O=Equifax Secure Inc., CN=Equifax Secure Global eBusiness CA-1

Nous allons également bientot passer koumbit.org sous SSL, ce qui devra
vous donner des services SSL, sur demande.

%%%%

Hi,

We have finally conceded to the SSL certificate racket and we have
bought a "real" certificate from RapidSSL. It's a wildcard certificate
for *.koumbit.net and have therefore been installed on all the existing
SSL services. This covers AlternC (bureau.koumbit.net) but also email
services.

Here are the fingerprints of the certificate:

MD5 Fingerprint=D7:F4:EA:C9:55:17:F6:6F:79:48:29:A5:22:B8:56:68
SHA1 Fingerprint=D6:B4:BD:B0:F3:D2:09:4C:DD:7E:AC:55:E7:AC:52:1D:0B:13:73:DC
Issuer: C=US, O=Equifax Secure Inc., CN=Equifax Secure Global eBusiness CA-1

We will also switch koumbit.org itself to SSL, which should eventually
provide everyone with hosted SSL services, upon demand.

Stay tuned!
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.6 (GNU/Linux)

iD8DBQFH7A41WGBzs0AjcC8RAvosAJ9/l21IbsdFCd8ckS6IIy97cTKhAwCeLCQv
hbAE6dz1oxREpPewsmRh+P8=
=M3Jb
-----END PGP SIGNATURE-----

mardi 18 mars 2008

Retour sur l'intervention

L'intervention d'hier soir ne s'est pas exactement passée comme prévu. Plusieurs problèmes se sont manifestés:

  • la RAM n'était en fait pas défectueuse, c'est la carte mère qui ne porte plus la RAM correctement
  • le routeur principal (rtr1-canix2) crashe lorsqu'on déplace homere (qui est juste en dessous)

Le premier problème fait que nous devrons probablement remplacer le serveur homere en entier. Nous allons discuter avec notre fournisseur et vous annoncer la suite des évènements sous peu. Nous avons quand même réussi à améliorer la situation au niveau de la mémoire, amenant celle-ci à 3GB des 4GB originalement disponibles (soit 1GB de plus que le 2GB que nous avions depuis le 16 février). Ceci devrait améliorer la performance et la stabilité du service à court terme.

Le second problème est plus délicat: il faudra peut-être remplacer le serveur à nouveau, peut-être par une machine plus légère et simple en matériel (par exemple pas de pièces mobiles), moins coûteuse et moins gourmande en courant (pas évident!). En attendant, le routeur est considéré comme stable dans qu'on ne joue pas dans le cabinet.

Les coupures ont donc dûré environ 90 minutes de plus que prévu et nous avons dû rester au centre de données 3h30 au lieu du 2h original.

Le rapport d'intervention complet est disponible aux membres de Koumbit.

mardi 11 mars 2008

Réparation du serveur principal et autres interventions le 17 mars

La mémoire du serveur principal de Koumbit (homere) sera remplacée le 17 mars prochain. Une nouvelle carte gigabit sera également installée dans le serveur de base de données (mysql0 AKA mysql AKA remus) afin de régler un vieux problème de compatibilité. Cette intervention de maintenance vise à corriger les problèmes récents avec les serveurs qui affectent encore le service au niveau de la performance. Cette intervention aura lieu entre 20:00 et 20:10 et imposera une coupure totale des services de courriel et web.

Nous prévoyons également l'installation d'un nouveau PDU (pdu2-canix2) afin que les prochains serveurs installés bénéficient également de reboots à distance.

Finalement, nous allons terminer la configuration du routeur principal (rtr1-canix2), entre 20:30 et 21:00, ce qui pourra occasionner des coupures sporadiques sur tout le réseau.

Un rapport d'intervention détaillé est disponible sur le wiki de Koumbit: RapportsIntervention/2008-03-17 (accessible seulement aux membres de Koumbit). Voir aussi les annonces envoyées à hag et colo.

vendredi 7 mars 2008

Les services de Homere (HAG), apache et courrier, sont de retour à la normale

La vérification du disque sur Homere est maintenant terminée. Nous avons redémarré tous les services (apache, apache-ssl, ftp, courrier, etc.) et tout devrait être de retour à la normale. Un rapport d'intervention détaillé est disponible sur le wiki de Koumbit: RapportsIntervention/2008-03-07 (accès restreint aux membres de Koumbit).

Nous devrons intervenir physiquement au centre de données pour vérifier l'intégrité de la mémoire (RAM). Ceci se fera probablement dimanche soir et pourrait durer une heure.

Vérification du disque en cours sur Homere (HAG), apache/courrier hors-ligne

Une erreur système survenue vers 9h, vendredi le 7 mars 2008, nous oblige à intervenir d'urgence pour nous assurer de l'intégrité des données du disque dur sur Homere (le principal serveur web du système d'hébergement auto-géré, HAG). Pendant cette opération (fsck), les serveurs web (apache et apache-ssl), ainsi que les serveurs de courrier ne seront pas disponibles.

Le service devrait être de retour en ligne d'ici 15 minutes. Nous nous excusons pour les inconvénients.

samedi 23 février 2008

Panne du serveur de surveillance

Une panne est survenue sur le serveur de surveillance Nagios aujourd'hui. Le problème est relié à une mise à jour du noyau qui doit être opéré sur le serveur. Cette opération ne pouvant être faite à distance de manière sécuritaire, il a été décidé que le serveur serait redémarré mardi prochain à 16h, date à laquelle le serveur sera de retour en ligne.

Les services affectés sont:

  • la page http://status.koumbit.net/
  • Nagios: http://nagios.koumbit.net/
  • la page d'état sur Koumbit.org

Ironiquement, la panne est survenue en tentant d'installer un nouveau service de notification d'urgence visant à mieux répondre aux besoins de nos usagers outre-mer.

mardi 19 février 2008

Augmentation de la limite de mémoire par défaut pour mod_php

La limite de mémoire par défaut a été augmentée de 16 mégaoctets à 24 mégaoctets suite aux besoins de mémoire accrus de Drupal 6 et autres systèmes de gestion de contenu. Vous pouvez toujours demander une exception supplémentaire en écrivant à support@koumbit.org.

samedi 16 février 2008

Panne du serveur auto-géré (Homere) samedi le 16 février 2008 de 9h30 à 10h30

Le matin du samedi 16 février 2008, de 9h30 à 10h30, les services web, ftp et courriel étaient inaccessibles suite à une panne du principal serveur auto-géré (homere). La cause de la panne est inconnue pour l'instant. Un technicien a dû se rendre sur place pour redémarrer le serveur.

Nous nous excusons pour les inconvénients et nous vous remercions de votre compréhension.

lundi 11 février 2008

Koumbit migre à PHP5 le premier mai 2008!

Comme le détaille cette annonce, c'est le premier mai 2008, fête internationale des travailleurs, que Koumbit migrera finalement à PHP5. Voir cette annonce et la page Php5 pour plus d'informations.

Redémarrage de homere pour mise à jour de sécurité majeure

Une mise à jour de sécurité forcera un reboot d'urgence de homere dans les 10 prochaines minutes.

Cette vulnérabilité affecte toutes les plateformes Linux, voir cette annonce de Debian pour plus d'informations.

Mise-à-jour: romulus, marius et chronos ont également été redémarrés.

- page 3 de 4 -