Esta manhã (sexta-feira, 11 de setembro de 2020) sofremos tempo de inatividade por mais de 2 horas. As pessoas não conseguiam acessar as páginas de agendamento e a interface logada do CozyCal.
Foi corrigido agora, e pedimos desculpas pelo transtorno causado aos nossos clientes, especialmente para aqueles na Europa que foram mais afetados.
O que aconteceu:
- Recentemente, atualizamos nossos servidores para usar uma distribuição Linux diferente. Mudamos de Ubuntu para Debian.
- Uma coisa que negligenciamos durante a migração é que o Debian Server tem um limite padrão baixo de descritores de arquivo de 1024.
- Na sexta-feira de manhã, houve um aumento no tráfego, e nosso servidor proxy Caddy falhou devido ao limite máximo de descritores de arquivo.
- Poderíamos ter sido alertados sobre isso mais cedo, no entanto nosso serviço de monitoramento de site (Varys.io) saiu do mercado sem que soubéssemos 🥺.
- Nota: monitoramos muitas coisas, como uso alto de CPU ou memória, backups diários e atualizações do sistema. No entanto, nenhum deles foi acionado pelo servidor proxy não estar respondendo.
O que fizemos para corrigir:
- Aumentamos nosso ulimit do padrão 1024 para 16384.
- Mudamos para Uptime Robot para nosso serviço de monitoramento de site. Ele está no mercado há muito tempo, esperamos que continue por muito mais tempo.
