Störung in einem unserer Rechenzentren

Steffen
23.06.2022 68 4:45 min

Es gab am gestrigen 22. Juni einen Ausfall, der dafür gesorgt hat, dass unsere Telefonie und unsere Logins in weiten Teilen eingeschränkt waren. Der Grund: Nachdem die Stromversorgung eines der von uns genutzten Rechenzentren per Baggerschaufel gekappt wurde, ist das Rechenzentrum nach einer Pannenserie offline gegangen. Und mit ihm auch unsere Telefonie. Natürlich hat sich unser sipgate Notfall-Team sofort an die Arbeit gemacht. Doch es hat von etwa 16 Uhr nachmittags bis kurz nach Mitternacht gedauert, ehe alle Systeme wieder korrekt liefen.

Was ist am Rechenzentrum passiert?

Unsere Notfallpläne sehen einen unterbrechungsfreien Betrieb in den Rechenzentren, die wir nutzen, vor. Durch eine Verkettung unglücklicher Umstände wurden aber genau diese Pläne über den Haufen geworfen. Um 16.18 Uhr war bei uns klar, dass Dinge nicht stimmen und das Rechenzentrum ohne Strom ist. Etwa eine Stunde zuvor wurde das Stromkabel von einem Bagger gekappt. Ist der Strom weg, springt die Unterbrechungsfreie Stromversorgung (USV) zur Überbrückung per Batteriestrom in die Bresche. Dann übernimmt am Rechenzentrum ein Dieselgenerator. Der erhitzte sich aber so stark, dass er nach rund einer Stunde in Betrieb Feueralarm auslöste und sich anschließend notfallmäßig ganz abschaltete. Warum das passieren konnte, findet unser Dienstleister des Rechenzentrums aktuell heraus.

Unser Notfall- und Redundanzsystem

Jedes der beiden von uns genutzten Rechenzentren trägt ungefähr die Hälfte der sipgate Telefonielast. Als das eine ausfiel und dorthin geroutete Gespräche nicht mehr durchgestellt werden konnten, war das andere nicht wie geplant in der Lage, den ganzen Traffic aufzufangen. Wir haben für Notfälle eine Vielzahl an Failovermechanismen, die leider nicht alle gegriffen haben.

Was haben wir getan?

Unser Notfall-Team hat sofort und an vielen verschiedenen Stellen umgeroutet, Lasten und Traffic auf die Proxyserver umverteilt, das Deployment umgestellt und bis tief in die Nacht und unter Hochdruck getan, was von unserer Seite getan werden konnte. Dazu haben wir in unserem Statusblog unsere Kund:innen ständig auf dem Laufenden gehalten. Gegen 17.30 Uhr sah es bei der VoIP-Telefonie schon wieder besser aus und die Telefonate kamen zu einem Großteil zustande. Das Problem hier: Unsere Anbindung an das Telekom-Netz war offline. Aber ausgehende Calls konnten wir nach und nach auf andere Carrier umrouten. Anders lief das bei den eingehenden Anrufen, die alle über weiterhin gestörtes Equipment liefen und daher nicht funktionierten. Trotzdem: Bei der VoIP-Telefonie sah es relativ zügig wieder besser aus. Ganz im Gegenteil zum Mobilfunk, wo wir über insgesamt sechs Stunden Probleme hatten, weil die Netzeinbuchung, bzw. der switch over zum zweiten Rechenzentrum, nicht wie gewünscht funktionierte.

Gegen Mitternacht waren alle unsere Komponenten im zuvor stromlosen Rechenzentrum wieder mit Strom versorgt. Um 1.23 Uhr war das Rechenzentrum komplett online und unsere Telefonie zu großen Teilen wieder hergestellt.

Was haben wir gelernt?

Für den Auslöser dieser gestrigen Ausnahmesituation konnten wir nichts. Aber: Unser Notfall- und Redundanzsystem war der Situation nicht gewachsen und muss verbessert werden. Wir schauen uns jetzt an, was genau an welcher Stelle nicht gut geklappt hat, wo wir Engpässe, Sackgassen und fehlende Redundanzen ausfindig gemacht haben. Und dann werden wir Konsequenzen daraus ziehen. Sprich: Wir werden uns noch ausfallsicherer aufstellen, werden mehr Maschinen aufbieten, werden zusätzliche Verbindungen ziehen. Es tut uns leid, dass der gestrige Nachmittag für unsere Kund:innen so gelaufen ist, wie er gelaufen ist. Danke für euer Verständnis!
Mehr Informationen zum gestrigen Ausfall und generell zu Störungen bei sipgate findet ihr in unserem Statusblog.

Update vom 23.6, 14.30 Uhr: In der Folge des plötzlichen, massiven Ausfalls sind natürlich Dinge kaputt gegangen. Die reparieren wir aktuell. Noch funktionieren nicht alle Dienste so, wie wir uns das vorstellen. Unter anderem haben wir noch Probleme im Account mit den Ansagen, Wartefeld, Ereignisliste, Fax und Benachrichtigungen per E-Mail.

Update vom 24.6, 15.30 Uhr: Wir haben festgestellt, dass ein kleiner Teil der personalisierten Ansagen aktuell nicht zur Verfügung steht, da diese nicht vom Server abgerufen werden können. In diesem Fall würde bei eingehenden Anrufen die Standardansage unseres Systems abgespielt. Personalisierte Ansagen folgender Funktionen können betroffen sein: Sprachmenü (IVR), Wartefeld, Call Recorder, Gruppen-Voicemail, Voicemail-Ansagen. Natürlich arbeiten wir an einer automatischen Lösung, können aber derzeit noch nicht absehen, wann diese ausgespielt werden kann. Wenn es schnell gehen soll: Die Ansagen können neu hochgeladen werden, um den gewünschten Zustand wiederherzustellen. Eine Anleitung für die jeweilige Funktion haben wir in unserem Hilfecenter bereitgestellt.

Update vom 16.8, 13.45 Uhr: Wir haben ein Interview mit unserem Product Lead Markus Monka zur Telefoniestörung vom 22. Juni geführt. Was ist wo passiert? Was haben wir für Fehler gemacht? Was haben wir gelernt?

Update vom 3.5.23, 11.30 Uhr: Auch wenn wir ein ziemlich großes Problem schnell fixen konnten, war uns immer klar, dass wir unser Redundanzkonzept überarbeiten werden. Das haben wir in den vergangenen Monaten getan und nun erfolgreich abgeschlossen. Unsere Entwickler haben viel am Netzwerk, an Datenbanken und an den Telefoniesystemen geschraubt. Monitoring und Alerting sind massiv verbessert worden. Und nicht zuletzt haben wir ein zukunftssicheres Object-Storage-System, welches für mehrere Terabyte Kundendaten ausgelegt ist, aufgesetzt. Wir sind überzeugt, nun deutlich besser auf etwaige, zukünftige Störungen vorbereitet zu sein.

68 Kommentare


steffen:

Für alle, die es interessiert: Es gibt ein Update zum Thema und wir haben ein Interview mit unserem Product Lead Markus Monka geführt. Was ist wo passiert? Was haben wir für Fehler gemacht? Was haben wir gelernt? Zum Lesen hier lang: https://www.sipgate.de/blog/was-wir-gelernt-haben

antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert