filerz55.240

Incident Report for Web Cloud

Resolved

Le serveur ne repond plus.
Nous le redemarrons.

Update(s):

Date: 2014-03-27 14:14:21 UTC
L'ensemble des comptes ont été migrés.

Date: 2014-03-05 08:15:15 UTC
99% des comptes ont été migrés.
Nous effectuons un contrôle sur les comptes restant.

Date: 2014-03-03 16:02:55 UTC
80% des sites ont été migrés vers un nouveau filer en read write avec les données du backups. Les migrations devraient se terminer cette nuit.

En parrallèle nous travaillons toujours sur la récupération des données du filer d'origine.

Date: 2014-02-27 13:35:26 UTC
Nous avons eu une serie de problemes hardware sur le serveur
qui ont créé une corruption dans le filesystem ZFS. Les données
sont lisibles mais le serveur étant instable (le systeme
plante tous les 30 minutes). On cherche un moyen de rstabiliser
le systeme et commencer à recuperer les données sur un nouveau
filer. Mais il faut trouver un moyen de bloquer toutes les
operations automatiques du ZFS, rendre le pool en read-only sans
que ça ne fasse replanter le tout.

En parallele, nous descendons le dernier backup stocké à Roubaix
L'operation prendrait 24 heures mais pour aller plus vite nous
avons recuperé les disques du backup directement à Roubaix et
on va aller directement avec ces disques à Paris. Ca sera plus
rapide.

Donc, dans 3-4 heures on devrait avoir le nouveau filer et les
données qui viennt du backup UP. Cela rendre vie aux 1209 sites web
impactés par la panne. On espere rafraichir ce backup avec les
données du filer instalbe qu'on pense recuperer dans quelques
dizaines d'heures. Il faut chercher, voir patcher le code ZFS
pour rendre le filer stable au moins en read-only.

Nous sommes désolés pour cette panne. C'est très très rare mais
la panne complete d'un filer peut arriver. Dans ce cas là le
backup est là, nous l'avons, pas soucis. Et nos ingenieurs bosse
sur les dernieres données fraiches qui sont sur le filer.

Date: 2014-02-27 06:28:32 UTC
Le filer a de nouveau des instabilités, nous intervenons

Date: 2014-02-26 11:01:22 UTC
Le service est toujours instable pour ce filer, nous sommes contraint de le désactiver
nous activons un cluster qui sera dédié au filerz55

Date: 2014-02-26 08:30:40 UTC
Nous avons doublé la redondance des disques de logs, et lancé une vérification de tout le pool de données.

Le service est fonctionnel mais reste perturbé par l'opération en cours qui devrait prendre plus de 6 heures.

Date: 2014-02-26 08:02:09 UTC
Le système n'est pas stable.
Nous changeons la configuration du pool de données.

Date: 2014-02-26 07:29:40 UTC
Nous gardons une surveillance sur le filerz pour vérifier que le problème ne se reproduit pas.

Date: 2014-02-26 06:58:32 UTC
Le serveur est de nouveau fonctionnel.

Date: 2014-02-26 06:39:49 UTC
Nous transférons les disques de data dans le nouveau système.

Date: 2014-02-26 06:06:33 UTC
Tout le cluster est impacté par le filer

Date: 2014-02-26 05:56:00 UTC
Nous changeons le serveur par un spare.

Date: 2014-02-26 05:42:07 UTC
Le serveur est de nouveau fonctionnel.

Date: 2014-02-26 05:29:55 UTC
Nous avons détecté un défaut sur le serveur.
Nous effectuons une verification materiel.

Date: 2014-02-26 05:07:23 UTC
Le serveur est revenu.

Posted Feb 26, 2014 - 05:00 UTC