Komplettausfall der Dienste am 25. und 26.04.2024

DSGVO-konformes Hosting, in unseren Rechenzentren Stuttgart und Karlsruhe

Komplettausfall der Dienste am 25. und 26.04.2024

3. Mai 2024 Störungsmeldung 0

Management Summary / vorläufiges Fazit:

Durch die parallele geplante Downtime unseres Backup-Rechenzentrums und dem fehlenden Wissen, dass Arbeiten an der elektrischen Zuleitung im Haus stattfinden, ergab sich eine Verkettung von Ereignissen, die in Summe zu einer Ausfallzeit von 14h bei eMails und bis zu 18h für die letzten Dienste ergaben. Der Vorfall ereignete sich am 25.04.2024 gegen 16 Uhr.

 

Der Fehler stellte sich zuletzt in einer defekten Charge an neuen Zählern heraus, welche zu einem Kurzschluss zwischen zwei Phasen in einem der Zähler geführt hat. Dadurch traten zeitweise Spannungen deutlich oberhalb der erlaubten 253V auf und führten zum Defekt diverser Geräte wie den Stromzählern selbst, dem Breitbandkabel sowie mehreren Netzteilen von Kleingeräten und Sensoren.

Die Notstrom-versorgten Systeme haben aufgrund des vorgeschalteten Überspanungsschutzes keine Schäden davongetragen. Als Lessons-Learned werden konsequent alle Geräte nun mit Überspannungsschutz ausgestattet sowie zusätzliche Backup-Server beschafft, die auch stromnetzunabhängig gestartet werden können, um die Downtime zu verkürzen. Darüber hinaus wird künftig die Netzspannung aktiv mitgeloggt durch das Monitoringsystem überwacht.

 

 


 

Der Ablauf im Einzelnen:

 

Freitag, 12.04.

Unser Rechenzentrum in Karlsruhe geht planmäßig vom Netz, um für den Umzug zum neuen Standort vorbereitet zu werden.

 

Mittwoch, 17.04.

Mehrere Stromzähler im Haus werden durch einen Unterauftragnehmer der Netze BW ausgetauscht.

(Unsere nicht – Wir wurden darüber auch nicht benachrichtigt)

 

Woche vom 17.04. bis 23.04.

Ca. zwei Mal pro Tag treten Symptome wie flackerndes Licht und Mikrostromausfälle von unter einer Sekunde auf. Da es immer wieder sehr stürmisch ist, gehen wir zunächst noch von Problemen in der Netzregelung des Energieversorgers aus.

Die kurzen Ausfälle werden von unseren USVs überbrückt – es gibt keine sichtbaren Auswirkungen für unsere Kunden.

 

Mittwoch, 24.04.

  • ~ 9 Uhr

Ein erster längerer Ausfall im Bereich 10s tritt auf.

 

  • ~ 12 und 12:30 Uhr

Weitere Ausfälle im Bereich um 10s ereignen sich.

 

  • ~ 15:30 Uhr

Ein Ausfall im Bereich um 30s.
Wir werden skeptisch und schauen in die Störungskarte der Netze BW: nichts ist verzeichnet.

 

  • ~ 16:45 Uhr

Wir schauen uns das erste Mal die Spannungsmessungen an unseren Klimaanlagen an und trauen unseren Augen kaum. Wir gehen zunächst noch von einem Messfehler aus, da solche Werte im Stromnetz völlig unüblich sind und auch die Sensoren selbst eigentlich nicht zur genauen Messung von Spannung vorgesehen sind.

(Bild Phase 1 und Phase 3)

 

  • 17:00 Uhr

Die Spannungen normalisieren sich wieder und bleiben bis zum nächsten Tag auch so.

 

Donnerstag, 25.04.

  • 15:28 Uhr

Das Licht flackert. Ein Leitungsschutzschalter und ein Fehlerstromschalter schalten ab, lassen sich aber wiedereinsetzen.

Später stellt sich heraus, dass einer unserer Außentemperatursensoren Überspannung abbekommen hat und zerstört wurde.

 

  • 15:45 Uhr

Unsere USVs fangen an im ein-Sekunden-Takt laufend zwischen Netzbezug und Akkubetrieb umzuschalten. Da wir einen Defekt an einer der USVs vermuten, fahren wir diese abwechselnd herunter und schalten auf permanenten Akkubetrieb.

Wir sehen stark schwankende Netzspannungen auf allen Phasen im Bereich von 80V bis fast 300V und das Trennen der USVs hat daran nichts geändert.

Zum Bauteilschutz schalten wir alle Lüftungs- und Klimasysteme aus – trennen diese vom Netz. Dieser Betrieb ist nur kurze Zeit aufrecht zu erhalten, da die Temperatur in den Serverracks schnell steigt.

 

  • ~ 16:00 Uhr

Phase 3 fällt komplett aus. Phasen 1 und 2 schwanken sehr stark.

Wir rechnen mit einem größeren Störfall im Stromnetz und gehen von einer längeren Behebungsdauer aus. Wir entscheiden alles auszuschalten.

 

  • 16:09 Uhr

Die letzte eMail verlässt unser Haus.

 

  • ~ 16:30 Uhr

Einige Server brauchen noch Updates beim Herunterfahren, welche wir auf Akkubetrieb noch laufen lassen bis schließlich alles aus ist.

 

  • ~17:00 Uhr

Wir schauen das erste Mal in die Zählerkästen im Keller. Schon beim Öffnen der Kellertür tritt Rauch aus und in kurzer Zeit riecht es im ganzen Haus nach verbranntem Plastik.

 

  • 17:12 Uhr

Die Feuerwehr wird alarmiert und rückt innerhalb weniger Minuten an. Sie löscht die drei beschädigten Stromzähler.

Brand 1 – Freiwillige Feuerwehr STADT OSTFILDERN (ff-ostfildern.de)

Der Zählerraum muss anschließend mit Gebläsen ausführlich gelüftet werden, bis sich der Rauch und potentiell giftige Gase ausreichend verdünnt haben.

Parallel dazu trifft der Notdienst der Netze BW ein und schaltet den zentralen Anschluss am entsprechenden Gebäudetrafo ab.

(Zunächst wurde von einer größeren Beschädigung an einem Gebäudetrafo ausgegangen, da der Brand der Stromzähler sich so nicht erklären ließ.)

 

  • ~ 17:30 Uhr

Wir nehmen alle Geräte in den Firmenräumen vom Netz durch Ausschalten aller Leitungsschutzschalter und Fehlerstromschalter. Zusätzlichen wurden alle Stecker von Geräten gezogen, wo möglich, da der Techniker der Netze BW und die Feuerwehr von einer Nullpunktverschiebung und ebenfalls möglicher hoher Spannung auf dem Neutralleiter sprach.

Parallel dazu informieren wir die Kollegen in Karlsruhe, dass sie schnellstmöglich alle Server wieder ans Netz bringen sollen, die noch da sind.

 

  • 18:15 Uhr

Die Feuerwehr rückt wieder ab und der Notdienst der Netze BW übernimmt.

  • 18:25 Uhr

Unser Hauselektriker entfernt zusammen mit dem Techniker der Netze BW die Abdeckungen im Sicherungskasten, um zu schauen, ob es neben den Stromzählern noch weitere Schäden gibt.

  • ~ 20 Uhr

Das Rechenzentrum in Karlsruhe ist für den Notbetrieb wieder aufgerüstet und geht intern ans Netz, um den späteren Cold Start in Stuttgart zu beschleunigen. Kundenserver konnten leider nicht bereitgestellt werden.

 

  • ~ 22 Uhr

Die beschädigten Zähler werden ausgebaut und mit Kabeln provisorisch überbrückt. Die restliche Installation wird geprüft.

  • ~ 23 Uhr

Der Strom ist wiederhergestellt und die Diagnose der Schäden läuft an.

Zunächst werden die FI-Schalter und eine Sicherung nach der anderen in den Firmenräumen wieder aktiv geschalten. Zunächst lassen wir die USVs noch vom Netz getrennt.

 

Freitag, 26.04.

  • ~ 00 Uhr

Die Clusterhardware wird eingeschaltet und die Selbstdiagnose gestartet.

 

  • ~ 01 Uhr

Die Diagnose ist abgeschlossen und die Raids gehen in den Rebuild.

 

  • ~ 03 Uhr

Die Rebuilds sind abgeschlossen und das Cluster bereit zum Starten. Wir fahren es nochmals herunter und starten mit der Diagnose der USVs.

 

  • ~ 05 Uhr

Die USVs sind alle in Ordnung und zwischenzeitlich wieder gut nachgeladen.

Das Cluster wird hochgefahren und anschließend ein Dienst nach dem anderen wieder bereitgestellt.

  • ~ 05:30 Uhr

Beim Prüfen der vielen Rot-Meldungen im Monitoring-System fällt auf, dass die Hauptleitung ins Internet von Vodafone nicht mehr verfügbar ist. Wir machen einen manuellen Shift auf die Backupleitung bei der Telekom.

 

  • 05:58 Uhr

Die Root-Server sind über die Backup-Leitung wieder online.

 

  • 06:17 Uhr

Die ersten eMails von außen treffen wieder ein.

  • 06:15 Uhr

Wir hängen uns in die Warteschleife von Vodafone, in der Hoffnung, dass wir gleich die ersten sind, wenn Arbeitsbeginn um 6:30 Uhr ist. Wir haben Glück und erreichen sogar vorzeitig schon jemand. Der externe Dienstleister wird benachrichtigt und der Techniker rückt gleich als erstes zu uns aus.

  • ~ 10:30 Uhr

Die Hauptleitungen funktionieren wieder und die fehlenden Dienste starten.

  • 10:45 Uhr

Die WordPress-Seiten sind nun auch wieder erreichbar.

 

  • ~ 11:30 Uhr

Das Failback-Routing wird deaktiviert und alles läuft wieder normal.

 

Der Stromzähler ist weiterhin gebrückt und muss in den kommenden Tagen getauscht werden.

 

Dienstag, 30.04.

  • ~ 9:00 Uhr

Das Stromnetz wird planmäßig getrennt, um die neuen Stromzähler einzusetzen. Unsere Systeme laufen auf Notstrom.

  • ~ 9:30 Uhr

Das Stromnetz wird wieder angekoppelt. Durch die Stromunterbrechung gab eine keine Kundenbeeinträchtigungen.

 

 

Disclaimer:

Die angegebenen Zeiten und Arbeitsschritte sind teilweise aus dem Gedächtnis aufgenommen, da nicht zu allen Events konkrete Zeitstempel aufgenommen wurden.