Koumbit Network Status

Aller au contenu | Aller au menu | Aller à la recherche

jeudi 3 septembre 2009

Déménagé à aegir.koumbit.net et identi.ca / Moved to aegir.koumbit.net and identi.ca

(english follows)

Le blogue des annonces a été déménagé à http://aegir.koumbit.net, la future plateforme d'hébergement web de Koumbit. Merci de mettre à jour vos fils RSS (https://aegir.koumbit.net/fr/rss.xml). En plus des annonces officielles, nous avons commencé à annoncer les interruptions d'urgences ou des notices plus courtes sur Identica, sur le groupe Koumbit Sysadmin.

-EN-

The announcements blog has been moved to http://aegir.koumbit.net, Koumbit's next web hosting platform. Please update your RSS feeds if necessary (http://aegir.koumbit.net/en/rss.xml). On top of that, we also announce short outages and emergency maintenance on the Identica Koumbit Sysadmin group.

lundi 13 juillet 2009

Maintenance prévue, 2009-07-14 14:00

Qui sera affecté

Les utilisateurs de la console série (personne, en théorie) ou les gens ayant besoin de maintenance physique sur leurs serveurs en colocation.

Quand ceci va arriver

Mardi 14 juillet, 14:00 (UTC-4).

Ce qui va arriver

Nous allons essayer plusieurs opérations sur la console série afin de résoudre les bugs étranges dont elle est victime avant de la mettre en production.

Pourquoi

Nous avons récemment acquis une console série (cs0-canix2.koumbit.net) mais elle perd des paquets et la connexions SSH.

Nous souhaitons également annoncer plus systématiquement nos visites au centre de données sur cette liste.

Comment

Nous allons essayer plusieurs configurations sur la switch et si aucune fonctionne, tenter une mise à jour du "firmware" en utilisant une version de développement fournie par Lantronix.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, laissez-le nous savoir d'ici 24h pour trouver un autre arrangement.

Maintenance notice, 2009-07-14 14:00

Who is affected

Users of the serial console server (normally: no one) or people needing physical maintenance on their colocated servers.

When this will happen

Tuesday July 14th, 14:00 (UTC-4).

What will happen

We will be doing various operations on the serial console switch to try to resolve its quirky behavior before putting it in production.

Why

We have recently acquired a serial console (cs0-canix2.koumbit.net) but it is showing packet loss issues and loss of SSH connectivity.

We also wish to announce our visits to the datacenter more systematically.

How

We will try various configurations on the switch and if none works, will try to flash with a development version of the firmware from Lantronix.

I object!

If this intervention is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.

jeudi 21 mai 2009

Maintenance window, 21-5-2009 15:30-0400

Who is affected

All the users of the shared hosting service, emails and websites alike.

When this will happen

May 21th, between 15:30 and 16:30 EDT (UTC -4).

What will happen

A new hard drive will be added to the file server.

A new hard drive will be added to the new database server.

The new database server will be activated (3rd attempt!)

Why

General server performance has decreased after installation of the new database and file servers. This intervention aims at restoring initial server parameters.

We also aim at launching a new and more powerful database server, in order to boost performances.

How

There will be sporadic outages of the main server for about 30 minutes, between 15:30 and 16:30 (UTC -4), but we may need more time if unexpected problems arise.

If a modification to this time frame is required, we'll post an update on http://offline.koumbit.net/.

Koumbit members can access a detailed report at: https://wiki.koumbit.net/RapportsIntervention/2009-05-21

I object!

If this intervention is too problematic for you or your organisation, please let us know beforehand to see if we can arrange otherwise (support@koumbit.org, 514-387-6262).

Maintenance, 21-5-2009 15:30-0400

Qui est affecté

Tous les utilisateurs de l'hébergement partagé, autant des courriels que des sites webs.

Quand

Le jeudi 21 mai, entre 15h30 et 16h30 HAE (UTC -4).

Ce qui va arriver

Un nouveau disque dur sera ajouté dans le serveur de fichiers.

Un nouveau disque dur sera ajouté au nouveau serveur de base de données.

Nous mettrons en ligne le nouveau serveur de base de données (3e tentative!).

Pourquoi

Suite à la mise en ligne du nouveau serveur de bases de données et du serveur de fichiers, les performances se dégradent au lieu de s'améliorer. L'intervention vise donc à remettre les services dans leur état original et améliorer leurs performances.

De plus, nous tenterons de mettre en ligne le nouveau serveur de base de données, beaucoup plus puissant que le serveur actuel.

Comment

Il y aura des coupures sporadiques du serveur principal entre 15h30 et 16h30 (UTC-4), cependant il est possible que nous dépassions cet estimé si des problèmes se manifestent.

Si une modification est prévue à cet échéancier, une mise à jour sera, comme d'habitude, publiée sur http://offline.koumbit.net/.

Les membres de Koumbit peuvent voir les détails de l'opération sur: https://wiki.koumbit.net/RapportsIntervention/2009-05-21

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir à l'avance, pour voir si nous pouvons prendre des arrangements.

mercredi 20 mai 2009

Maintenance, 20-5-2009 13:00-0400

Qui est affecté

Tous les utilisateurs de l'hébergement partagé, autant des courriels que des sites webs.

Quand

Le mercredi 20 mai, entre 13:00 et 14:00 HAE (UTC-4).

Ce qui va arriver

Le serveur de base de données sera remplacé par une machine plus puissante.

Un nouveau serveur de fichiers sera mis en ligne.

Pourquoi

Le serveur de bases de données est le goulot d'étranglement principal depuis février et nous avons tenté à plusieurs reprises de le remplacer pour améliorer la performance de l'hébergement. Nous espérons que ceci est la dernière tentative requise pour au moins 6 à 12 mois.

Le nouveau serveur de fichiers pour sa part vise à réduire la dépendance envers le serveur principal qui assume présentement toutes les fonctions excepté le rendu des pages web, et donc incluant le service de fichiers. En déplaçant ce service vers un serveur dédié, nous nous assurons à long terme d'une plus grande redondance et extensibilité. Puisque le nouveau serveur supporte le changement des disques "à chaud" (sans redémarrer le serveur), les remplacements matériaux seront également plus rapides et ne demanderont pas de coupure de service.

Comment

Nous fermerons toute la grappe de serveur principale pour environ 30 minutes, entre 13h et 13h30 (UTC-4). Nous espérons faire les deux opérations en 30 minutes, mais il est possible que nous dépassions cet estimé si des problèmes se manifestent. Les services sont donc garantis de revenir à la normale (et plus rapides!) autour de 14h00 (UTC-4).

Si une modification est prévue à cet échéancier, une mise à jour sera, comme d'habitude, postée sur http://offline.koumbit.net/.

Les membres de Koumbit peuvent voir les détails de l'opération sur: https://wiki.koumbit.net/RapportsIntervention/2009-05-20

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir à l'avance pour voir si nous pouvons prendre des arrangements.

Maintenance window, 20-5-2009 13:00-0400

Who is affected

All the users of the shared hosting service, emails and websites alike.

When this will happen

May 20th, between 13:00 and 14:00 EDT (UTC-4).

What will happen

The main database server will be replaced with a more powerful machine.

A new file server will be put on line.

Why

The current database server has been the main performance bottleneck since February and we have tried numerous times to replace it to improve performance of the hosting cluster. We are hoping this will be the final operation required for at least a few months.

The new file server aims to reduce the dependency on the main server which currently assumes all functions except web page service, which includes file service. By moving this to a dedicated server, we will ensure better redundancy and scalability. Since the new server also supports hotswapping hard drives, hardware replacements will be easier and will not require any downtime.

How

We will take the whole cluster down for at least 30 minutes, between 13h00 and 13h30 (UTC-4). We hope to do both operations in 30 minutes, but we may go beyond that timeline and extend the operations if we have problems, to a maximum of 1h. Therefore all services should be back to normal (and faster!) at 14h00 (UTC-4).

If there's any modification to that timeline, an update will be posted, as usual, on http://offline.koumbit.net/.

Koumbit members can see the details here: https://wiki.koumbit.net/RapportsIntervention/2009-05-20

I object!

If this intervention is too problematic for you or your organisation, please let us know beforehand to see if we can arrange otherwise.

lundi 13 avril 2009

Maintenance window wed apr 15 at 20:00

Who is affected

All the users of the shared hosting service, emails and websites alike.

When

April 15th 2009, between 20h00 and 20h30 EDT (UTC-4).

What will happen

During the maintenance window, the main server will be closed down for a short period of time (10 minutes) to proceed with the replacement of a hard drive showing weaknesses.

A new database server will also be put online later during the night.

Why

We want to act proactively to remove any chance of a disk failure requiring an emergency intervention.

Additionally, the new database server will improve general performance.

How

The main server will be shutdown to replace the drive, which should provoke a 10 minute downtime. New memory and a second CPU will be installed in the new database server, which will then be put online during the remaining of the night, which should provoke only a minor outage which should be limited.

I object!

If this operation is too problematic for you or your organisation, please let us know within 24 so that we can arrange a workaround.

Maintenance prévue mercredi 15 avril à 20h00

Qui est affecté

Tous les utilisateurs de l'hébergement partagé, autant des courriels que des sites webs.

Quand

Le 15 avril 2009, entre 20h00 et 20h30 HAE (UTC-4).

Ce qui va arriver

Durant la période de maintenance, le serveur principal sera fermé pour une courte période (10 minutes) afin de procéder au remplacement d'un disque dur ayant montré des signes de faiblesse.

Un nouveau serveur de base de données sera également mis en ligne.

Pourquoi

Nous voulons agir de façon proactive afin d'éviter une intervention d'urgence sur le serveur principal.

Le nouveau serveur de bases de données va améliorer la performance de l'hébergement en général.

Comment

Le serveur principal sera éteint pour remplacer le disque, ce qui devrait prendre un maximum de 10 minutes. De la nouvelle mémoire et un deuxième CPU seront installé dans le nouveau serveur de bases de données, qui sera mis en ligne durant la soirée, ce qui provoquera une très courte coupure qui ne devrait pas être remarquée.

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

lundi 30 mars 2009

Renouvellement des certificats SSL et mise à jour du serveur MySQL

Changement des certificats SSL et problèmes

Nous avons récemment eu à renouveler nos certificats SSL pour le domaine koumbit.net puisque ça fait déjà un an que nous avons acheté le certificat. Puisque cette portion de l'infrastructure n'est pas complètement automatisée (ie. par Puppet), nous avons oublié certains services, principalement les courriels qui ont été configurés seulement samedi le 28 mars. L'impact est que vous avez peut-être vu un avertissement dans votre client de courriel ce jour et ce jour seulement.

Autrement toutes les connexions vers les domaines et sous-domaines *.koumbit.net ne devraient pas générer d'avertissement dans les applications que vous utilisez. Je répète: si votre navigateur génère une erreur sur une connexion sécurisée vers un de nos domaines, vous êtes peut-être victime d'une attaque "man in the middle".

Si vous avez besoin de vérifier le certificat, vous pouvez vous fier sur ces empreintes, signées avec ma clef PGP personnelle.

-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

SHA1 Fingerprint=91:D5:7D:CA:5C:24:84:E6:F9:EC:8F:E3:55:19:A4:A4:E9:50:3E:D1
MD5 Fingerprint=60:D0:AD:42:EC:5C:CD:75:BA:77:9C:63:B8:F2:7C:06
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.9 (GNU/Linux)

iEYEARECAAYFAknRCZcACgkQWGBzs0AjcC+7iQCgjaRdDaIMoIgrVURTR0x8FwQ9
CFgAn0q7Buo19n3EGjUPVSqNs5qfW0rh
=pwsu
-----END PGP SIGNATURE-----

Mise à jour du serveur SQL et performance de l'hébergement

D'autres nouvelles: nous avons noté un ralentissement de nos services d'hébergement et nous travaillons à rétablir notre niveau de service habituel. Nous allons donc installer un nouveau serveur de bases de données durant les semaines à venir comportant 12GB de mémoire vive et deux processeurs dual core. Puisque le CPU n'est pas en stock chez notre fournisseur, cela prend un peu plus de temps que prévu. Nous enverrons une nouvelle annonce lorsque le serveur sera mis en production, car ceci provoquera une courte coupure dans les services SQL.

SSL certificates renewal and MySQL server upgrade

SSL certificate changes and problems

We recently had to renew our SSL certificates for the Koumbit.net domain since it's already been a year since we bought the wildcard on *koumbit.net. Since that portion of the infrastructure is not completely automated (ie. not provisioned through Puppet, we forgot to configure some services, mainly email, which were only configured on Saturday March 28th. The impact of that is that you may have gotten a warning on that day and that day only.

Otherwise all connexions to the *.koumbit.net domains should not generate a warning in most modern browsers. I repeat: if your browser is generating an error on an SSL-encrypted connexion to our domains, it is likely to be a man in the middle attack.

If you need to verify the certificate, you can rely on those fingerprints, signed with my personnal PGP key.

-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA1

SHA1 Fingerprint=91:D5:7D:CA:5C:24:84:E6:F9:EC:8F:E3:55:19:A4:A4:E9:50:3E:D1
MD5 Fingerprint=60:D0:AD:42:EC:5C:CD:75:BA:77:9C:63:B8:F2:7C:06
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.9 (GNU/Linux)

iEYEARECAAYFAknRCZcACgkQWGBzs0AjcC+7iQCgjaRdDaIMoIgrVURTR0x8FwQ9
CFgAn0q7Buo19n3EGjUPVSqNs5qfW0rh
=pwsu
-----END PGP SIGNATURE-----

MySQL server upgrade

In other news, we have also noticed the recent slowdown of our shared hosting services and we are working on it. We will install a new database server during the following weeks which will boast 12GB of ram and two dual core processors. Since the CPU is back order, there are additional delays in the delivery of the hardware. We will send another announcement when the server will be put in production, as this will create a small outage.

mardi 17 mars 2009

Problèmes mineurs de courriel et de messagerie vocales réglés

Nous avons eu des problèmes avec la messagerie vocale récemment. Si vous avez eu un message de "boîte pleine" lors d'un appel au bureau récemment, ceci devrait être réglé.

Nous avons également eu un crash d'un serveur de courriel non-surveillé qui a provoqué des délais (5-14 jours) dans la livraison de courriels sur les serveurs web dans le répartiteur de charge. Il y a environ 3 000 messages du genre actuellement en train d'être livrés.

Le système de surveillance sera corrigé afin de nous avertir des crash de la sorte à l'avenir.

Minor problems fixed (voicemail and mails from web)

We have had some problems with voicemail recently so if you people have been hitting "voicemail full" messages when calling the office, those should be fixed.

We also had a crash on a unmonitored mail server that provoked serious delays (5-14 days) in the delivery of emails sent from one of the web servers in the load balancer. There are around 3 thousand such messages that are slowly being delivered as we speak.

The monitoring system will be fixed to warn us properly of those crashes in the future.

samedi 28 février 2009

Maintenance sur le serveur MySQL mercredi soir

Qui est affecté

Tous les sites hébergés sur les serveurs d'hébergement partagés de Koumbit.

Quand

Fenêtre de maintenance:

  • Début: 2009-03-04 23:59:59 EST
  • Fin: 2009-03-05 00:30:00 EST

Ce qui va arriver

Durant la période de maintenance prévue, les services SQL seront au ralenti pendant que le serveur SQL secondaire prendra le relai du serveur principal. Ceci affectera principalement les sites webs, qui verront tous un ralentissement voir une coupure de service complète.

Pourquoi

L'objectif principal de l'intervention est de tester la capacité du serveur principal "à froid", sans aucun traffic, afin de pouvoir la comparer au nouveau serveur que nous sommes en train de configurer comme remplacement.

Nous désirons également tester la capacité du serveur secondaire à prendre le relai du serveur principal ainsi que la capacité de l'équipe à rapidement faire un tel changement.

Comment

Pour faire ces tests, il faut fermer le serveur principal et rediriger tout le traffic vers le serveur secondaire. Puisque ce serveur est de moindre capacité matérielle, une diminution de performance substancielle sera observable sur nos services principaux.

Les détails de l'intervention sont disponibles sur cette page:

https://wiki.koumbit.net/RapportsIntervention/2009-02-04

Si l'intervention se prolonge, nous allons l'annoncer sur http://offline.koumbit.net/

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

MySQL maintenance window wednesday night

Who is affected

All the sites hosted on our shared hosting servers.

When

Maintenance window:

  • Begins: 2009-03-04 23:59:59 EST
  • Ends: 2009-03-05 00:30:00 EST

What will happen

During the planned maintenance window, MySQL services will be slower than usual while the secondary server takes over the primary one. This will mainly affect websites, which will all see a slowdown, maybe even complete outages.

Why

The main objective of the intervention is to test the capacity of the main server when idle, without any traffic, to compare it against the new server we are in the process of configuring as a replacement.

We also wish to test the capacity of the secondary server and the abilities of the sysadmin team to be able to proceed quickly with such an intervention, without being pressed by an actual emergency.

How

To proceed with those tests, we will turn off the main server and redirect all traffic to the secondary server. Since that server is of lesser capacity, substantial performance hit will be observable on our main servers.

The details of the operation are available on this page:

https://wiki.koumbit.net/RapportsIntervention/2009-02-04

If the operation takes longer than expected, we will announce it on http://offline.koumbit.net/

I object!

If this operation is too problematic for you or your organisation, please let us know within 24h to see if we can take appropriate workarounds.

jeudi 26 février 2009

Optimisation MySQL

J'ai opéré quelques modifications à la configuration du serveur MySQL qui devraient nous donner un peu plus de performance avec le serveur. J'ai utilisé le script MySQL Tuner afin de déterminer les goulots d'étranglement du serveur. J'ai également configuré une tâche hedbomadaire qui optimizera toutes les tables du serveur chaque lundi matin à 3:00HNE. Une première optimisation manuelle est présentement en cours.

Finalement, un correctif a été appliqué à AlternC afin que son démarrage soit plus rapide. Vous pouvez tester cette amélioration sur le Bureau. Une reconfiguration similaire a été appliquée sur phpMyAdmin.

Notez que ces démarches sont préalables à la mise en ligne d'un nouveau serveur MySQL qui devrait (on le souhaite et c'est la raison des tests et optimisations) améliorer la performance générale de l'hébergement partagé.

Nous considérons aussi mettre le serveur SQL hors ligne pour quelques minutes la semaine prochaine afin de comparer sa performance à nu avec le nouceau serveur que nous souhaitons mettre en ligne.

vendredi 16 janvier 2009

serveur secondaire en ligne, retour aux performances nominales

Qui est affecté

Utilisateurs de l'hébergement auto-géré.

Quand

15 janvier 2009 19:39EST

Ce qui est arrivé

Le serveur secondaire a été remis en ligne.

Pourquoi

Le premier janvier, ce serveur (hesiode.koumbit.net) a complètement été mis hors combat par une coupure de courant. Bien que le serveur principal a pris le relai et que le système de répartition de charge a dissimulé la panne, ceci a grandement affecté la performance des sites web et de l'hébergement en général.

Comment

Le serveur a été retourné au manufacturier, qui l'a réparé avant de nous le rendre.

secondary server online, returning to regular performances

Who's affected

Users of the shared hosting service.

When

Jan 15th 2009 19:39EST

What happened

The secondary server was put back online.

Why

On january first, that server (hesiode.koumbit.net) was completely put offline by a power surge following a power outage. While the main server took over and the load balancing service hid the outage, this greatly affected the performance of websites and hosting services in general.

How

The server was return to our provider, which repaired the problem and returned the server.

jeudi 8 janvier 2009

maintenance window jan 9th between 14:00 and 16:00

Who is affected

All hosting services will be temporarly turned off as the servers will be rebooted. This will also affected virtual server users.

When

The operations will take place on january 9th 2009, between 14:00 and 16:00 EST. The server reboots should be limited to the period between 14:00 et 14:30 EST.

What will happen

The following servers will be rebooted: homere.koumbit.net, metis.koumbit.net, alexandria.koumbit.net, demeter.koumbit.net, marius.koumbit.net, romulus.koumbit.net et raymond.fqccl.org

The following server will be removed: hesiode.koumbit.net.

The following servers will be put online: lgm.koumbit.net, sw4-canix2.koumbit.net

Why

Some servers will be rebooted to apply security upgrades to the Linux kernel. The secondary web server (hesiode.koumbit.net) will be removed from the cabinet to be replaced because it has been damaged by the january 1st power failure. A new server will also be put online for a client (lgm.koumbit.net). Finally, new equipment will be put into place to make the new cabinet able to welcome new servers.

That new cabinet is necessary to respond properly to our growth.

How

Details of the operations are available to Koumbit members in the page: https://wiki.koumbit.net/RapportsIntervention/2009-01-09

I object!

If this intervention is too problematic for you or your organisation, please let us know within 24h to see if we can arrange otherwise.

période d'entretien 9 janvier entre 14:00 et 16:00

Qui est affecté

Tous les services d'hébergement seront temporairement hors d'usage pendant que les serveurs seront redémarrés. Ceci affecte aussi les utilisateurs des serveurs virtuels.

Quand

L'intervention aura lieu le 9 janvier 2009, entre 14:00 et 16:00. Le redémarrage des serveurs devrait être limité à la période entre 14:00 et 14:30.

Timeline complet:

  • 2009-01-09 13:00:00 EST - départ du bureau avec demeter2
  • 2009-01-09 13:45:00 EST - arrivée au centre de données, installation d'une console et révision de la procédure
  • 2009-01-09 14:00:00 EST - début des reboot de sécurité en cascade
  • 2009-01-09 14:00:00 EST - racking de la nouvelle switch et de l'APC
  • 2009-01-09 14:30:00 EST - fin du racking switch et APC
  • 2009-01-09 14:30:00 EST - fin des reboot de sécurité en cascade
  • 2009-01-09 14:30:00 EST - déracking de hesiode
  • 2009-01-09 14:30:00 EST - début du racking de lgm.koumbit.net
  • 2009-01-09 16:00:00 EST - fin de la fenêtre d'intervention

Ce qui va arriver

Les serveurs suivants seront redémarrés: homere.koumbit.net, metis.koumbit.net, alexandria.koumbit.net, demeter.koumbit.net, marius.koumbit.net, romulus.koumbit.net et raymond.fqccl.org

Le serveur suivant sera retiré: hesiode.koumbit.net.

Les machines suivantes sera mis en ligne: lgm.koumbit.net, sw4-canix2.koumbit.net

Pourquoi

Certains serveurs seront redémarrés pour appliquer des mises à jour de sécurité au noyau Linux. Le serveur secondaire (hesiode.koumbit.net) sera retiré du cabinet pour être remplacé car il est défectueux. Un nouveau serveur sera installé pour un client (lgm.koumbit.net). De l'équipement sera installé dans le nouveau cabinet afin de le rendre "habitable" pour les nouveaux serveurs.

Le nouveau cabinet est nécessaire afin de répondre à la croissance des serveurs.

Comment

Les détails du rapport d'intervention sont disponibles aux membres de Koumbit dans la page: https://wiki.koumbit.net/RapportsIntervention/2009-01-09

Je suis contre!

Si cette intervention est trop problématique pour vous ou votre organisation, veuillez nous le laisser savoir dans les 24h pour voir si nous pouvons prendre des arrangements.

- page 1 de 5