Heute Morgen (Freitag, 11. September 2020) hatten wir über 2 Stunden Ausfallzeit. Benutzer konnten nicht auf die Buchungsseiten und die angemeldete Schnittstelle von CozyCal zugreifen.
Es wurde jetzt behoben, und es tut uns leid für die Unterbrechung, die wir unseren Kunden verursacht haben, besonders für diejenigen in Europa, die am meisten betroffen waren.
Was ist passiert:
- Kürzlich haben wir unsere Server aktualisiert, um eine andere Linux-Distribution zu verwenden. Wir sind von Ubuntu zu Debian gewechselt.
- Eine Sache, die wir während der Migration übersehen haben, ist, dass der Debian-Server eine niedrige Standard-Datei-Deskriptor-Grenze von 1024 hat.
- Am Freitagmorgen gab es einen Anstieg des Datenverkehrs, und unser Caddy-Proxy-Server fiel aus, da die Datei-Deskriptor-Grenze erreicht wurde.
- Wir hätten über dieses Problem früher benachrichtigt werden können, aber unser Website-Monitoring-Service (Varys.io) wurde ohne unser Wissen eingestellt 🥺.
- Hinweis: Wir überwachen viele Dinge, wie hohe CPU- oder Speichernutzung, tägliche Sicherungen und Systemaktualisierungen. Jedoch wurde keines von ihnen durch unseren Proxy-Server ausgelöst, der nicht reagierte.
Was wir dagegen getan haben:
- Wir haben unseren ulimit vom Standard 1024 auf 16384 erhöht.
- Wir wechselten zu Uptime Robot für unseren Website-Monitoring-Service. Es ist schon lange in Betrieb, hoffentlich wird es noch viel länger so bleiben.
