Ce matin (vendredi 11 septembre 2020), nous avons subi une interruption de plus de 2 heures. Les utilisateurs n'ont pas pu accéder aux pages de réservation et à l'interface connectée de CozyCal.
Le problème a été corrigé, et nous nous excusons pour la perturbation causée à nos clients, en particulier ceux en Europe qui ont été les plus touchés.
Ce qui s'est passé :
- Récemment, nous avons mis à niveau nos serveurs pour utiliser une distribution Linux différente. Nous sommes passés d'Ubuntu à Debian.
- Un élément que nous avons négligé lors de la migration est que Debian Server a une limite de descripteurs de fichiers par défaut basse de 1024.
- Vendredi matin, il y a eu une augmentation du trafic, et notre serveur proxy Caddy est tombé en panne en raison de l'atteinte de la limite de descripteurs de fichiers.
- Nous aurions pu être alertés plus tôt, cependant notre service de surveillance de site web (Varys.io) avait cessé ses activités sans que nous le sachions 🥺.
- Remarque : nous surveillons de nombreuses choses, comme l'utilisation élevée du processeur ou de la mémoire, les sauvegardes quotidiennes et les mises à jour système. Cependant, aucune d'entre elles n'a été déclenchée par l'absence de réponse de notre serveur proxy.
Ce que nous avons fait pour corriger :
- Nous avons augmenté notre ulimit de 1024 (par défaut) à 16384.
- Nous sommes passés à Uptime Robot pour notre service de surveillance de site web. Il est en activité depuis longtemps, nous espérons qu'il continuera de l'être encore longtemps.
