Esta mañana (viernes, 11 de septiembre de 2020) sufrimos un tiempo de inactividad de más de 2 horas. Los usuarios no podían acceder a las páginas de reservas de CozyCal ni a la interfaz de sesión iniciada.
Ya ha sido solucionado, y lamentamos la interrupción causada a nuestros clientes, especialmente a aquellos en Europa que fueron los más afectados.
Qué pasó:
- Recientemente, actualizamos nuestros servidores para usar una distribución de Linux diferente. Cambiamos de Ubuntu a Debian.
- Algo que pasamos por alto durante la migración es que el servidor Debian tiene un límite predeterminado bajo de descriptores de archivo de 1024.
- El viernes por la mañana, hubo un aumento en el tráfico, y nuestro servidor proxy Caddy se apagó debido a que alcanzó el límite de descriptores de archivo.
- Podríamos haber sido alertados sobre esto antes, sin embargo, nuestro servicio de monitoreo del sitio web (Varys.io) había cerrado sin que nos diéramos cuenta 🥺.
- Nota: monitoreamos muchas cosas, como uso alto de CPU o memoria, copias de seguridad diarias y actualizaciones del sistema. Sin embargo, ninguno de ellos fue activado por la falta de respuesta de nuestro servidor proxy.
Qué hicimos para solucionarlo:
- Aumentamos nuestro ulimit del predeterminado de 1024 a 16384.
- Cambiamos a Uptime Robot para nuestro servicio de monitoreo del sitio web. Ha estado en funcionamiento durante mucho tiempo, esperemos que continúe durante mucho más tiempo.
