Date: 2014-03-27 14:14:21 UTC L'ensemble des comptes ont été migrés.
Date: 2014-03-05 08:15:15 UTC 99% des comptes ont été migrés.
Nous effectuons un contrôle sur les comptes restant.
Date: 2014-03-03 16:02:55 UTC 80% des sites ont été migrés vers un nouveau filer en read write avec les données du backups. Les migrations devraient se terminer cette nuit.
En parrallèle nous travaillons toujours sur la récupération des données du filer d'origine.
Date: 2014-02-27 13:35:26 UTC Nous avons eu une serie de problemes hardware sur le serveur
qui ont créé une corruption dans le filesystem ZFS. Les données
sont lisibles mais le serveur étant instable (le systeme
plante tous les 30 minutes). On cherche un moyen de rstabiliser
le systeme et commencer à recuperer les données sur un nouveau
filer. Mais il faut trouver un moyen de bloquer toutes les
operations automatiques du ZFS, rendre le pool en read-only sans
que ça ne fasse replanter le tout.
En parallele, nous descendons le dernier backup stocké à Roubaix
L'operation prendrait 24 heures mais pour aller plus vite nous
avons recuperé les disques du backup directement à Roubaix et
on va aller directement avec ces disques à Paris. Ca sera plus
rapide.
Donc, dans 3-4 heures on devrait avoir le nouveau filer et les
données qui viennt du backup UP. Cela rendre vie aux 1209 sites web
impactés par la panne. On espere rafraichir ce backup avec les
données du filer instalbe qu'on pense recuperer dans quelques
dizaines d'heures. Il faut chercher, voir patcher le code ZFS
pour rendre le filer stable au moins en read-only.
Nous sommes désolés pour cette panne. C'est très très rare mais
la panne complete d'un filer peut arriver. Dans ce cas là le
backup est là, nous l'avons, pas soucis. Et nos ingenieurs bosse
sur les dernieres données fraiches qui sont sur le filer.
Date: 2014-02-27 06:28:32 UTC Le filer a de nouveau des instabilités, nous intervenons
Date: 2014-02-26 11:01:22 UTC Le service est toujours instable pour ce filer, nous sommes contraint de le désactiver
nous activons un cluster qui sera dédié au filerz55
Date: 2014-02-26 08:30:40 UTC Nous avons doublé la redondance des disques de logs, et lancé une vérification de tout le pool de données.
Le service est fonctionnel mais reste perturbé par l'opération en cours qui devrait prendre plus de 6 heures.
Date: 2014-02-26 08:02:09 UTC Le système n'est pas stable.
Nous changeons la configuration du pool de données.
Date: 2014-02-26 07:29:40 UTC Nous gardons une surveillance sur le filerz pour vérifier que le problème ne se reproduit pas.
Date: 2014-02-26 06:58:32 UTC Le serveur est de nouveau fonctionnel.
Date: 2014-02-26 06:39:49 UTC Nous transférons les disques de data dans le nouveau système.
Date: 2014-02-26 06:06:33 UTC Tout le cluster est impacté par le filer
Date: 2014-02-26 05:56:00 UTC Nous changeons le serveur par un spare.
Date: 2014-02-26 05:42:07 UTC Le serveur est de nouveau fonctionnel.
Date: 2014-02-26 05:29:55 UTC Nous avons détecté un défaut sur le serveur.
Nous effectuons une verification materiel.
Date: 2014-02-26 05:07:23 UTC Le serveur est revenu.
Posted Feb 26, 2014 - 05:00 UTC
This incident affected: Web Hosting || Datacenter GRA (Cluster002, Cluster003, Cluster006, Cluster007, Cluster011, Cluster012, Cluster013, Cluster014, Cluster015, Cluster017, Cluster020, Cluster021, Cluster023, Cluster024, Cluster025, Cluster026, Cluster027, Cluster028, Cluster029, Cluster030, Cluster031).