Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

fr

Envois en français.

Fil des billets - Fil des commentaires

lundi 13 juillet 2009

Maintenance prévue, 2009-07-14 14:00

Qui sera affecté

Les utilisateurs de la console série (personne, en théorie) ou les gens ayant besoin de maintenance physique sur leurs serveurs en colocation.

Quand ceci va arriver

Mardi 14 juillet, 14:00 (UTC-4).

Ce qui va arriver

Nous allons essayer plusieurs opérations sur la console série afin de résoudre les bugs étranges dont elle est victime avant de la mettre en production.

Pourquoi

Nous avons récemment acquis une console série (cs0-canix2.koumbit.net) mais elle perd des paquets et la connexions SSH.

Nous souhaitons également annoncer plus systématiquement nos visites au centre de données sur cette liste.

Comment

Nous allons essayer plusieurs configurations sur la switch et si aucune fonctionne, tenter une mise à jour du "firmware" en utilisant une version de développement fournie par Lantronix.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, laissez-le nous savoir d'ici 24h pour trouver un autre arrangement.

mercredi 20 mai 2009

Maintenance, 20-5-2009 13:00-0400

Qui est affecté

Tous les utilisateurs de l'hébergement partagé, autant des courriels que des sites webs.

Quand

Le mercredi 20 mai, entre 13:00 et 14:00 HAE (UTC-4).

Ce qui va arriver

Le serveur de base de données sera remplacé par une machine plus puissante.

Un nouveau serveur de fichiers sera mis en ligne.

Pourquoi

Le serveur de bases de données est le goulot d'étranglement principal depuis février et nous avons tenté à plusieurs reprises de le remplacer pour améliorer la performance de l'hébergement. Nous espérons que ceci est la dernière tentative requise pour au moins 6 à 12 mois.

Le nouveau serveur de fichiers pour sa part vise à réduire la dépendance envers le serveur principal qui assume présentement toutes les fonctions excepté le rendu des pages web, et donc incluant le service de fichiers. En déplaçant ce service vers un serveur dédié, nous nous assurons à long terme d'une plus grande redondance et extensibilité. Puisque le nouveau serveur supporte le changement des disques "à chaud" (sans redémarrer le serveur), les remplacements matériaux seront également plus rapides et ne demanderont pas de coupure de service.

Comment

Nous fermerons toute la grappe de serveur principale pour environ 30 minutes, entre 13h et 13h30 (UTC-4). Nous espérons faire les deux opérations en 30 minutes, mais il est possible que nous dépassions cet estimé si des problèmes se manifestent. Les services sont donc garantis de revenir à la normale (et plus rapides!) autour de 14h00 (UTC-4).

Si une modification est prévue à cet échéancier, une mise à jour sera, comme d'habitude, postée sur http://offline.koumbit.net/.

Les membres de Koumbit peuvent voir les détails de l'opération sur: https://wiki.koumbit.net/RapportsIntervention/2009-05-20

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir à l'avance pour voir si nous pouvons prendre des arrangements.

lundi 13 avril 2009

Maintenance prévue mercredi 15 avril à 20h00

Qui est affecté

Tous les utilisateurs de l'hébergement partagé, autant des courriels que des sites webs.

Quand

Le 15 avril 2009, entre 20h00 et 20h30 HAE (UTC-4).

Ce qui va arriver

Durant la période de maintenance, le serveur principal sera fermé pour une courte période (10 minutes) afin de procéder au remplacement d'un disque dur ayant montré des signes de faiblesse.

Un nouveau serveur de base de données sera également mis en ligne.

Pourquoi

Nous voulons agir de façon proactive afin d'éviter une intervention d'urgence sur le serveur principal.

Le nouveau serveur de bases de données va améliorer la performance de l'hébergement en général.

Comment

Le serveur principal sera éteint pour remplacer le disque, ce qui devrait prendre un maximum de 10 minutes. De la nouvelle mémoire et un deuxième CPU seront installé dans le nouveau serveur de bases de données, qui sera mis en ligne durant la soirée, ce qui provoquera une très courte coupure qui ne devrait pas être remarquée.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

lundi 30 mars 2009

Renouvellement des certificats SSL et mise à jour du serveur MySQL

Changement des certificats SSL et problèmes

Nous avons récemment eu à renouveler nos certificats SSL pour le domaine koumbit.net puisque ça fait déjà un an que nous avons acheté le certificat. Puisque cette portion de l'infrastructure n'est pas complètement automatisée (ie. par Puppet), nous avons oublié certains services, principalement les courriels qui ont été configurés seulement samedi le 28 mars. L'impact est que vous avez peut-être vu un avertissement dans votre client de courriel ce jour et ce jour seulement.

Autrement toutes les connexions vers les domaines et sous-domaines *.koumbit.net ne devraient pas générer d'avertissement dans les applications que vous utilisez. Je répète: si votre navigateur génère une erreur sur une connexion sécurisée vers un de nos domaines, vous êtes peut-être victime d'une attaque "man in the middle".

Si vous avez besoin de vérifier le certificat, vous pouvez vous fier sur ces empreintes, signées avec ma clef PGP personnelle.

-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

SHA1 Fingerprint=91:D5:7D:CA:5C:24:84:E6:F9:EC:8F:E3:55:19:A4:A4:E9:50:3E:D1
MD5 Fingerprint=60:D0:AD:42:EC:5C:CD:75:BA:77:9C:63:B8:F2:7C:06
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.9 (GNU/Linux)

iEYEARECAAYFAknRCZcACgkQWGBzs0AjcC+7iQCgjaRdDaIMoIgrVURTR0x8FwQ9
CFgAn0q7Buo19n3EGjUPVSqNs5qfW0rh
=pwsu
-----END PGP SIGNATURE-----

Mise à jour du serveur SQL et performance de l'hébergement

D'autres nouvelles: nous avons noté un ralentissement de nos services d'hébergement et nous travaillons à rétablir notre niveau de service habituel. Nous allons donc installer un nouveau serveur de bases de données durant les semaines à venir comportant 12GB de mémoire vive et deux processeurs dual core. Puisque le CPU n'est pas en stock chez notre fournisseur, cela prend un peu plus de temps que prévu. Nous enverrons une nouvelle annonce lorsque le serveur sera mis en production, car ceci provoquera une courte coupure dans les services SQL.

mardi 17 mars 2009

Problèmes mineurs de courriel et de messagerie vocales réglés

Nous avons eu des problèmes avec la messagerie vocale récemment. Si vous avez eu un message de "boîte pleine" lors d'un appel au bureau récemment, ceci devrait être réglé.

Nous avons également eu un crash d'un serveur de courriel non-surveillé qui a provoqué des délais (5-14 jours) dans la livraison de courriels sur les serveurs web dans le répartiteur de charge. Il y a environ 3 000 messages du genre actuellement en train d'être livrés.

Le système de surveillance sera corrigé afin de nous avertir des crash de la sorte à l'avenir.

samedi 28 février 2009

Maintenance sur le serveur MySQL mercredi soir

Qui est affecté

Tous les sites hébergés sur les serveurs d'hébergement partagés de Koumbit.

Quand

Fenêtre de maintenance:

  • Début: 2009-03-04 23:59:59 EST
  • Fin: 2009-03-05 00:30:00 EST

Ce qui va arriver

Durant la période de maintenance prévue, les services SQL seront au ralenti pendant que le serveur SQL secondaire prendra le relai du serveur principal. Ceci affectera principalement les sites webs, qui verront tous un ralentissement voir une coupure de service complète.

Pourquoi

L'objectif principal de l'intervention est de tester la capacité du serveur principal "à froid", sans aucun traffic, afin de pouvoir la comparer au nouveau serveur que nous sommes en train de configurer comme remplacement.

Nous désirons également tester la capacité du serveur secondaire à prendre le relai du serveur principal ainsi que la capacité de l'équipe à rapidement faire un tel changement.

Comment

Pour faire ces tests, il faut fermer le serveur principal et rediriger tout le traffic vers le serveur secondaire. Puisque ce serveur est de moindre capacité matérielle, une diminution de performance substancielle sera observable sur nos services principaux.

Les détails de l'intervention sont disponibles sur cette page:

https://wiki.koumbit.net/RapportsIntervention/2009-02-04

Si l'intervention se prolonge, nous allons l'annoncer sur http://offline.koumbit.net/

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

vendredi 16 janvier 2009

serveur secondaire en ligne, retour aux performances nominales

Qui est affecté

Utilisateurs de l'hébergement auto-géré.

Quand

15 janvier 2009 19:39EST

Ce qui est arrivé

Le serveur secondaire a été remis en ligne.

Pourquoi

Le premier janvier, ce serveur (hesiode.koumbit.net) a complètement été mis hors combat par une coupure de courant. Bien que le serveur principal a pris le relai et que le système de répartition de charge a dissimulé la panne, ceci a grandement affecté la performance des sites web et de l'hébergement en général.

Comment

Le serveur a été retourné au manufacturier, qui l'a réparé avant de nous le rendre.

jeudi 8 janvier 2009

période d'entretien 9 janvier entre 14:00 et 16:00

Qui est affecté

Tous les services d'hébergement seront temporairement hors d'usage pendant que les serveurs seront redémarrés. Ceci affecte aussi les utilisateurs des serveurs virtuels.

Quand

L'intervention aura lieu le 9 janvier 2009, entre 14:00 et 16:00. Le redémarrage des serveurs devrait être limité à la période entre 14:00 et 14:30.

Timeline complet:

  • 2009-01-09 13:00:00 EST - départ du bureau avec demeter2
  • 2009-01-09 13:45:00 EST - arrivée au centre de données, installation d'une console et révision de la procédure
  • 2009-01-09 14:00:00 EST - début des reboot de sécurité en cascade
  • 2009-01-09 14:00:00 EST - racking de la nouvelle switch et de l'APC
  • 2009-01-09 14:30:00 EST - fin du racking switch et APC
  • 2009-01-09 14:30:00 EST - fin des reboot de sécurité en cascade
  • 2009-01-09 14:30:00 EST - déracking de hesiode
  • 2009-01-09 14:30:00 EST - début du racking de lgm.koumbit.net
  • 2009-01-09 16:00:00 EST - fin de la fenêtre d'intervention

Ce qui va arriver

Les serveurs suivants seront redémarrés: homere.koumbit.net, metis.koumbit.net, alexandria.koumbit.net, demeter.koumbit.net, marius.koumbit.net, romulus.koumbit.net et raymond.fqccl.org

Le serveur suivant sera retiré: hesiode.koumbit.net.

Les machines suivantes sera mis en ligne: lgm.koumbit.net, sw4-canix2.koumbit.net

Pourquoi

Certains serveurs seront redémarrés pour appliquer des mises à jour de sécurité au noyau Linux. Le serveur secondaire (hesiode.koumbit.net) sera retiré du cabinet pour être remplacé car il est défectueux. Un nouveau serveur sera installé pour un client (lgm.koumbit.net). De l'équipement sera installé dans le nouveau cabinet afin de le rendre "habitable" pour les nouveaux serveurs.

Le nouveau cabinet est nécessaire afin de répondre à la croissance des serveurs.

Comment

Les détails du rapport d'intervention sont disponibles aux membres de Koumbit dans la page: https://wiki.koumbit.net/RapportsIntervention/2009-01-09

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

300ième compte et nouveau cabinet!

Comptes par mois

Nous venons tout juste d'accueillir notre 300ième compte aujourd'hui! Cette étape symbolique arrive à un point tournant de l'histoire de nos services d'hébergement alors que nous nous apprêtons à ouvrir un deuxième cabinet pour déployer de nouveaux serveurs. Nous avons encore quelques retards dans le déploiement du système de redondance, mais nous allons bientôt engager du nouveau personnel pour nous permettre de faire avancer le tout plus rapidement.

mardi 16 décembre 2008

Coupure de l'air climatisé 16 nov 2008

À 7:15 ce matin, tous les services ont cessé dû à une coupure de l'air climatisé dans le centre de données. Cette unité a cessé de fonctionné il y a environ une heure, ce qui a progressivement fait monter la température de tous les serveurs et causé une coupure généralisée. Notre fournisseur a été mis au courant de la panne et travaille au rétablissement présentement, d'autres mises à jour suivront.

Mise à jour (7:57): je viens d'être informé d'un ETA de 30 minutes de l'équipe en place, tenez bon.

Mise à jour (8:03): tous les services sont de retour, désolé des inconvénients.

mercredi 3 décembre 2008

Mise à jour à phpMyAdmin 3.1.0

Nous avons mis à jour le logiciel phpMyAdmin à la version 3.1.0, réglant les bugs "mbstring" rapportés à maintes reprises. Signalez tout problème à support@koumbit.org.

dimanche 9 novembre 2008

Coupure dans la nuit du samedi 8 novembre 2008: problème d'ampérage, problème de date sur mysql1

Un disjoncteur du cabinet, où sont hébergés les principaux serveurs d'hébergement de Koumbit, a sauté dans la nuit du samedi 8 novembre 2008 en raison d'une surcharge. Une partie des serveurs étaient inaccessibles entre 23h15 et 0h30, suivi de quelques petites coupures entre 0h30 et 2h15.

De plus, suite à cette panne, le principal serveur web de l'hébergement partagé n'a pas correctement retrouvé la bonne heure et affichait 1970. Ceci a causé quelques problèmes sur des sites de gestion de contenu (Spip et Drupal). Le problème a été remarqué et résolu dimanche vers 11h00.

Koumbit est sur le point d'ouvrir un second cabinet dans un nouveau point de présence. Ceci fait partie du plan architectural 2008 pour augmenter la redondance et gérer la croissance. Ceci permettra, entre autres, d'éviter ce type de panne, puisque les serveurs d'hébergement partagés seront redondants entre les deux cabinets.

Pour toute question ou commentaire, vous pouvez commenter sur le blogue des administrateurs systèmes (offline.koumbit.net) ou nous écrire à support@koumbit.org.

Merci de votre compréhension.

Mise à jour, 16:47HNE: c'est le serveur web et non le serveur de bases de données qui avait une heure erronée.

dimanche 2 novembre 2008

Remplacement d'un disque défectueux sur le serveur MySQL

Qui est affecté

Tous les serveurs virtuels ainsi que les sites hébergés sur le serveur mutualisé qui utilisent mysql. Donc la plupart des personnes qui sont hébergé chez Koumbit.

Quand
* DATE DE DÉBUT: dimanche 2 novembre 2008 16:00:00 EST
* DATE DE FIN: dimanche 2 novembre 2008 17:00:00 EST
Ce qui va arriver

Le serveur de base de données sera temporairement éteint pour pouvoir remplacer un disque défectueux.

Pourquoi

Une des composantes de la matrice RAID a montré une défectuosité la nuit dernière. Aucune donnée n'a été perdue, mais nous préférons remplacer préventivement la composante fautive.

Comment

Un technicien (Antoine) se rendra au centre de donnée pour faire le remplacement.

mercredi 15 octobre 2008

Nouveau serveur web prêt aux tests, AlternC 0.9.9 en ligne

Qui est affecté

Dès maintenant, cet avis concerne les développeurs web qui maintiennent des sites sur l'hébergement mutualisé.

À partir de la semaine prochaine, tous les utilisateurs de l'hébergement sont concernés.

Quand

Lundi 20 octobre à 13h.

Ce qui va arriver

Un nouveau serveur web a été mis en ligne et a passé avec succès la phase de tests interne. Nous invitons maintenant les développeurs web et autres personnes techniquement capables de faire des tests sur le serveur pour la fin de la semaine.

Lundi prochain, le nouveau serveur sera mis en ligne dans le setup de redondance.

Pourquoi

Le nouveau serveur va assurer une meilleure continuité de service et une plus grande rapidité à répondre aux requêtes.

Comment

Quand une coupure surviendra sur un serveur à cause d'une surcharge, le second serveur prendra rapidement le relai (le délai est présentement réglé à 5 secondes). Même s'il n'Y a pas de surcharge, les serveurs vont se distribuer la charge, améliorant de beaucoup la performance générale.

Afin de tester immédiatement le nouveau serveur, les testeurs intéressés peuvent modifier leur fichier "hosts" en suivant les instructions à cette page:

https://wiki.koumbit.net/DnsWithHostsFile

L'adresse du nouveau serveur est la suivante: 209.44.112.96

Signalez tout problème à support@koumbit.org en précisant que vous croyez le problème relié au nouveau serveur et votre configuration ci-haut.

Autres annonces

Nous voulons profiter de cette annonce pour souligner la sortie de AlternC 0.9.9, qui règle plusieurs bugs dans l'interface d'administration et permet le déploiement sur plusieurs serveurs plus facilement.

De plus, notez que les annonces envoyées sur la liste de discussion hag@ sont maintenant marqués avec la langue du message. Vous pouvez filtrer les annonces que vous voulez recevoir sur cette page:

https://listes.koumbit.net/cgi-bin/mailman/options/hag-koumbit.org

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

lundi 6 octobre 2008

Coupure réseau ce matin

Nous avons eu une coupure réseau durant la matinée, entre 7:43 et 8:43 (HAE). Les symptômes étaient des coupures réseau complètes, des ralentissements, des pertes de paquets. Il n'y avait pas grand chose à faire de notre côté, et la situation est revenue à la normale vers 9:30. Le problème était dû à un déni de service distribué (DDOS).

jeudi 25 septembre 2008

Redémarrages de sécurité et nouveau serveur web le 30 septembre

Quand

Le 30 septembre entre 14h30 et 15h00, HAE (-0400).

Ce qui va arriver

Les serveurs seront redémarrés pour une mise à jour de sécurité. De plus, un nouveau serveur physique sera ajouté à la configuration du répartiteur de charge.

Pourquoi

Le noyau Linux a vu plusieurs vulnérabilités publiées récemment et nous allons mettre à jour les machines.

Pour ce qui est du répartiteur de charge, il s'agit de régler les problèmes de fiabilité du service web et permettre une maintenance plus facile du serveur.

Comment

Voir le RapportsIntervention/2008-09-30 complet. Les serveurs seront redémarrés à tour de rôle entre 14:30 et 15:00. Ceci va affecter tous les serveurs virtuels ainsi que l'hébergement mutualisé, chaque coupure durant environ 90 secondes.

Le nouveau serveur (hesiode.koumbit.net) sera mis en ligne mais ne sera pas activé avant une nouvelle période de test, car il est possible que sa mise en ligne brise quelques sites ayant des besoins particuliers.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

mardi 16 septembre 2008

Coupure d'un serveur DNS récursif aujourd'hui

Qui est affecté

Les serveurs hébergés en colocation, y compris, sans se limiter à: remus.koumbit.net, hesiode.koumbit.net, alexandria.koumbit.net et metis.koumbit.net.

Quand

Aujourd'hui 16 septembre, entre 17:45 et 18:15, HAE (-0400).

Ce qui va arriver

Le serveur hébergeant un des serveurs virtuel résolvant les noms de domaines pour le cabinet (209.44.112.71, recurse2.koumbit.net) sera remplacé, occasionnant une coupure d'environ 30 minutes de ce service. L'autre serveur DNS (209.44.112.70, recurse.koumbit.net) devrait continuer à effectuer le service normalement et nous croyons que ceci ne devrait pas occasionner de problème majeurs.

Pourquoi

Le serveur (remus.koumbit.net) est en fin de vie et doit être remplacé. Il sera transformé en serveur de sauvegarde massif (alexandria.koumbit.net).

Comment

Voir les détails du rapport d'intervention. À noter que remus.koumbit.net va maintenant s'appeler metis.koumbit.net. Nous allons également mettre en ligne un nouveau serveur, hesiode.koumbit.net.

jeudi 11 septembre 2008

Panne du serveur mysql

Le serveur mysql principal (demeter) de l'hébergement auto-géré est présentement hors-service. Nous travaillons présentement à son rétablissement.

Désolé pour les inconvénients reliés à cette coupure inhabituelle.

Update: la coupure a duré de 13:23 à 14:08. Tous les services web et mails ont été affectés, mais aucun mail ne devrait avoir été perdu. Le problème est relié à un autre crash serveur. Les membres de Koumbit peuvent consulter le rapport complet.

jeudi 28 août 2008

Nouveau serveur DNS: ns3.koumbit.net

Quoi

Dès aujourd'hui, nous ajoutons un nouveau serveur DNS à notre rotation principale. Le nouveau serveur est dès maintenant fonctionnel pour les domaines sur l'hébergement mutualisé.

La nouvelle adresse du serveur est la suivante: 209.172.53.230

Qui est affecté

Tous les utilisateurs gérant eux-mêmes leurs domaine (en tant que contact technique) doivent ajouter NS3.KOUMBIT.NET. Ceci vous assurera de ne subir aucune coupure durant l'année prochaine, alors que le serveur NS2.KOUMBIT.NET sera migré vers un autre fournisseur.

Les domaines gérés par Koumbit ont été correctement modifiés aujourd'hui. Si nous sommes le contact technique pour votre domaine, vous n'avez donc aucune action à entreprendre ici.

Vous pouvez vérifier qui sont les contacts pour votre domaine par cette interface:

http://www.gandi.net/whois

Quand

Les changements ont déjà commencé. Le serveur est en production depuis aujourd'hui. Les "Glue Records" ont également été mis à jour aujourd'hui, tout comme les domaines pour lesquels nous sommes le contact technique.

Dans environ 6 mois, le serveur ns2 sera migré vers un autre fournisseur. D'autres annonces suivront à ce sujet.

Pourquoi

Le serveur DNS secondaire NS2.KOUMBIT.NET est hébergé sur un lien réseau ayant une latence un peu moins désirable que le serveur principal, ce qui dégrade un peu la qualité du service. Nous voulons donc migrer ce serveur, mais une telle migration pourrait provoquer des coupures. Nous créons donc un nouveau serveur DNS, qui de plus nous fournira un niveau de redondance supplémentaire.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

mercredi 27 août 2008

nouveau serveur web dans le répartiteur de charge

Je viens d'ajouter un nouveau serveur dans le répartiteur de charge. Il est présentement configuré pour ne répondre seulement quand le serveur principal plante (contrairement à être configuré pour partager la charge). Ceci devrait nous débarrasser des erreurs "503 Service non-disponible" que nous voyons souvent sur le serveur ces temps-ci (les fameuses "micro-coupures").

Il est possible que cette nouvelle configuration créée des problèmes. Nous avons tests plusieurs sites (un Drupal et un Tikiwiki) et tout semble en ordre, mais si vous voyez des comportements bizarres, indiquez-nous l'heure exact à laquelle il s'est produit pour que nous puissions diagnostiquer le problème.

Notez que ce changement n'améliore pas encore la performance générale du service mais ne fait qu'améliorer la fiabilité. Nous allons bientôt déployer un nouveau serveur dédié qui devrait également améliorer la performance.

- page 1 de 3