Störung in einem unserer Rechenzentren

Steffen
23.06.2022 68 4:45 min

Es gab am gestrigen 22. Juni einen Ausfall, der dafür gesorgt hat, dass unsere Telefonie und unsere Logins in weiten Teilen eingeschränkt waren. Der Grund: Nachdem die Stromversorgung eines der von uns genutzten Rechenzentren per Baggerschaufel gekappt wurde, ist das Rechenzentrum nach einer Pannenserie offline gegangen. Und mit ihm auch unsere Telefonie. Natürlich hat sich unser sipgate Notfall-Team sofort an die Arbeit gemacht. Doch es hat von etwa 16 Uhr nachmittags bis kurz nach Mitternacht gedauert, ehe alle Systeme wieder korrekt liefen.

Was ist am Rechenzentrum passiert?

Unsere Notfallpläne sehen einen unterbrechungsfreien Betrieb in den Rechenzentren, die wir nutzen, vor. Durch eine Verkettung unglücklicher Umstände wurden aber genau diese Pläne über den Haufen geworfen. Um 16.18 Uhr war bei uns klar, dass Dinge nicht stimmen und das Rechenzentrum ohne Strom ist. Etwa eine Stunde zuvor wurde das Stromkabel von einem Bagger gekappt. Ist der Strom weg, springt die Unterbrechungsfreie Stromversorgung (USV) zur Überbrückung per Batteriestrom in die Bresche. Dann übernimmt am Rechenzentrum ein Dieselgenerator. Der erhitzte sich aber so stark, dass er nach rund einer Stunde in Betrieb Feueralarm auslöste und sich anschließend notfallmäßig ganz abschaltete. Warum das passieren konnte, findet unser Dienstleister des Rechenzentrums aktuell heraus.

Unser Notfall- und Redundanzsystem

Jedes der beiden von uns genutzten Rechenzentren trägt ungefähr die Hälfte der sipgate Telefonielast. Als das eine ausfiel und dorthin geroutete Gespräche nicht mehr durchgestellt werden konnten, war das andere nicht wie geplant in der Lage, den ganzen Traffic aufzufangen. Wir haben für Notfälle eine Vielzahl an Failovermechanismen, die leider nicht alle gegriffen haben.

Was haben wir getan?

Unser Notfall-Team hat sofort und an vielen verschiedenen Stellen umgeroutet, Lasten und Traffic auf die Proxyserver umverteilt, das Deployment umgestellt und bis tief in die Nacht und unter Hochdruck getan, was von unserer Seite getan werden konnte. Dazu haben wir in unserem Statusblog unsere Kund:innen ständig auf dem Laufenden gehalten. Gegen 17.30 Uhr sah es bei der VoIP-Telefonie schon wieder besser aus und die Telefonate kamen zu einem Großteil zustande. Das Problem hier: Unsere Anbindung an das Telekom-Netz war offline. Aber ausgehende Calls konnten wir nach und nach auf andere Carrier umrouten. Anders lief das bei den eingehenden Anrufen, die alle über weiterhin gestörtes Equipment liefen und daher nicht funktionierten. Trotzdem: Bei der VoIP-Telefonie sah es relativ zügig wieder besser aus. Ganz im Gegenteil zum Mobilfunk, wo wir über insgesamt sechs Stunden Probleme hatten, weil die Netzeinbuchung, bzw. der switch over zum zweiten Rechenzentrum, nicht wie gewünscht funktionierte.

Gegen Mitternacht waren alle unsere Komponenten im zuvor stromlosen Rechenzentrum wieder mit Strom versorgt. Um 1.23 Uhr war das Rechenzentrum komplett online und unsere Telefonie zu großen Teilen wieder hergestellt.

Was haben wir gelernt?

Für den Auslöser dieser gestrigen Ausnahmesituation konnten wir nichts. Aber: Unser Notfall- und Redundanzsystem war der Situation nicht gewachsen und muss verbessert werden. Wir schauen uns jetzt an, was genau an welcher Stelle nicht gut geklappt hat, wo wir Engpässe, Sackgassen und fehlende Redundanzen ausfindig gemacht haben. Und dann werden wir Konsequenzen daraus ziehen. Sprich: Wir werden uns noch ausfallsicherer aufstellen, werden mehr Maschinen aufbieten, werden zusätzliche Verbindungen ziehen. Es tut uns leid, dass der gestrige Nachmittag für unsere Kund:innen so gelaufen ist, wie er gelaufen ist. Danke für euer Verständnis!
Mehr Informationen zum gestrigen Ausfall und generell zu Störungen bei sipgate findet ihr in unserem Statusblog.

Update vom 23.6, 14.30 Uhr: In der Folge des plötzlichen, massiven Ausfalls sind natürlich Dinge kaputt gegangen. Die reparieren wir aktuell. Noch funktionieren nicht alle Dienste so, wie wir uns das vorstellen. Unter anderem haben wir noch Probleme im Account mit den Ansagen, Wartefeld, Ereignisliste, Fax und Benachrichtigungen per E-Mail.

Update vom 24.6, 15.30 Uhr: Wir haben festgestellt, dass ein kleiner Teil der personalisierten Ansagen aktuell nicht zur Verfügung steht, da diese nicht vom Server abgerufen werden können. In diesem Fall würde bei eingehenden Anrufen die Standardansage unseres Systems abgespielt. Personalisierte Ansagen folgender Funktionen können betroffen sein: Sprachmenü (IVR), Wartefeld, Call Recorder, Gruppen-Voicemail, Voicemail-Ansagen. Natürlich arbeiten wir an einer automatischen Lösung, können aber derzeit noch nicht absehen, wann diese ausgespielt werden kann. Wenn es schnell gehen soll: Die Ansagen können neu hochgeladen werden, um den gewünschten Zustand wiederherzustellen. Eine Anleitung für die jeweilige Funktion haben wir in unserem Hilfecenter bereitgestellt.

Update vom 16.8, 13.45 Uhr: Wir haben ein Interview mit unserem Product Lead Markus Monka zur Telefoniestörung vom 22. Juni geführt. Was ist wo passiert? Was haben wir für Fehler gemacht? Was haben wir gelernt?

Update vom 3.5.23, 11.30 Uhr: Auch wenn wir ein ziemlich großes Problem schnell fixen konnten, war uns immer klar, dass wir unser Redundanzkonzept überarbeiten werden. Das haben wir in den vergangenen Monaten getan und nun erfolgreich abgeschlossen. Unsere Entwickler haben viel am Netzwerk, an Datenbanken und an den Telefoniesystemen geschraubt. Monitoring und Alerting sind massiv verbessert worden. Und nicht zuletzt haben wir ein zukunftssicheres Object-Storage-System, welches für mehrere Terabyte Kundendaten ausgelegt ist, aufgesetzt. Wir sind überzeugt, nun deutlich besser auf etwaige, zukünftige Störungen vorbereitet zu sein.

68 Kommentare


Werner:

Notfall Plan

Betrieb mit Notstromaggregat &
vorübergehend Nutzung einer Satelliten Verbindung

Bitte um Bestätigung

antworten

    steffen:

    Hallo Werner.
    Das Notstromaggregat war ja ein großer Teil/Mitauslöser des Problems. Wie schon geschrieben, wir arbeiten daran, uns da weitergehend und besser abzusichern.
    Grüße
    Steffen

    antworten

Roger Schmidt:

Hallo,
ein Lob für die offene und ausführliche Kommunikation.
Fehler passieren und dienen dazu Sachen besser zu machen und etwas daraus zu lernen.
Ich persönlich weiß eine ehrliche und offene Kommunkation sehr zu schätzen. Macht weiter so.
Gruß aus Hessen
Roger Schmidt

antworten

    steffen:

    Das werden wir und das tut gut in harten Situationen wie diesen, Danke Roger!
    Gruß
    Steffen

    antworten

projecta:

Auch von unserer Seite großes Lob für die ausführliche, ehrliche und zugleich auch interessante Kommunikation!

Viele Grüße aus Dortmund vom Team der projecta GmbH

antworten

    steffen:

    Danke! Grüße zurück aus Düsseldorf nach Dortmund!

    antworten

xier hen Longjohn:

Ein Lob für die offene Fehlerkultur. Tipp: Genderbeauftragte*innen einsparen und Spezialist*innen für Hochverfügbarkeit einstellen. BG

antworten

    Philipp:

    Vielen Dank! Wir werden jede Möglichkeit in Betracht ziehen, um die Hochverfügbarkeit sicherzustellen. Wäre das denn auch ok, wenn wir neue Spezialist:innen einstellen und trotzdem gendergerecht kommunizieren? :)

    antworten

Michael:

Eure offene und ehrliche Kommunikation ist ein weiterer guter Grund warum wir mit unserer Firma so gerne bei Sipgate ein zufriedener Kunde sind. Für das Ausmaß der Störung war das eine sehr beachtliche Leistung.

antworten

    Philipp:

    Vielen Dank!

    antworten

Tim P.:

Respekt für diese authentische Kommunikation. Das erlebt man selten und festigt meine Meinung von Sipgate, die sehr positiv ist.

Einen derartigen Ausfall gab es mindestens in den letzten 1,5 Jahren nicht, das kann ich bezeugen.

Glück im Unglück war die Uhrzeit. Wäre es früher am Tag passiert, hätte mein Unternehmen einen größeren Schaden genommen als die immerhin kleine 4-stellige Summe, die letztendlich durch diesen Ausfall entstanden ist, weil ein halbes Dutzend Mitarbeiter nicht arbeiten konnte.

antworten

    Philipp:

    viele Dank für euer Verständnis! Das ist wirklich nicht selbstverständlich.

    antworten

harfes:

Die Kommunikation von euch ist gut und informativ! Ich konnte aufgrund der Statusseite mehreren Kunden Bescheid geben – da können sich andere Provider geren mal dran orientieren.
Allerdings solltet ihr dem Betreiber des Rechenzentrums deutlich auf die Füsse steigen, denn ein Notstromaggregat gehört regelmässig unter Last getestet (und auch nicht fünf Minuten…wie jetzt ja ersichtlich wurde). Zum „Glück“ war der Ausfall erst am späten Nachmittag, so dass der Schaden wohl erträglich sein wird.

antworten

    Philipp:

    Vielen Dank! Wir sind jedoch ziemlich überzeugt von unseren Dienstleistern und überzeugt davon, dass wir es mit einer Verkettung von doofen Zufällen zu tun hatten. Viel wichtiger ist uns: Wir hinterfragen jetzt unser eigenes Konzept für solche Fälle und werden nachbessern, umrüsten, aufrüsten. Versprochen!

    antworten

Uwe Stache:

Hallo,
Baggerfrass kennen wir (bisher) nur aus der Geschichte. Eine Zuführung? Oder hat der Bagger beide Zuführungen gefressen?
Und: USV ging und Netzersatzanlage kam nicht hoch? Beileid.
Ihr habt professionell kommuniziert, danke dafür, macht weiter so! Wir bleiben Euch treu (trotz der falschen Rheinseite).
Liebe Grüsse aus Berlin
Uwe Stache

antworten

    Philipp:

    Vielen Dank! Wir hielten das mit dem Bagger auch immer für ein Klischee. Ob es beide Zuführungen waren, weiß ich grad leider nicht. Aber ich bin mir ziemlich sicher, dass Berlin auf der selben Rheinseite wie Düsseldorf liegt ;) Viele Grüße.

    antworten

      Uwe Stache:

      Hallo Philipp,
      stimmt schon: wir beide liegen auf der selben Seite. Was Du nicht wissen kannst: ich komme aus Worringen.
      Gratuliere zu den Kundenreaktionen. Ich müsst wohl einiges richtig gemacht haben.

      antworten

Thomas Schillo:

Wir kennen solche Situationen leider nur zu gut aus eigener Erfahrung. Wir mussten auch lernen, dass nur eines wirklich sicher ist: Nichts ist sicher.
Danke und Kompliment für die offene Kommunikation. Wer die paar Stunden ohne Telefon nicht auskommt, auch als Firma nicht, hat ganz andere Probleme. Also, nicht beirren lassen, ihr macht einen hervorragenden Job!

antworten

    steffen:

    Danke Thomas! Eure Kommentare tun alle sehr gut gerade!

    antworten

Andreas:

So muss Krisenmanagement und Kommunikation sein. Vielen Dank dafür!

antworten

Bernd Neumann:

Danke für die offene Kommunikation.

antworten

Manu:

Vielleicht die Redundanz an einen anderen Standort mit separaten Netzanbieter und diesen als Failover nutzen :)
Hier läuft alles prima. Viel Erfolg mit der Reparatur etc. !!

antworten

Lesley Beck:

Es war ganz schön, dass die Telefone einmal nicht geklingelt haben.
Endlich Ruhe :-)
Ich finde euren offenen Umgang mit Problemen super. Macht weiter so.

antworten

    steffen:

    Eine per Bagger erzwungene Pause – gibt es auch nicht alle Tage (-: Danke fürs Verständnis!

    antworten

Manfred:

Ja mei…. Passiert ?‍♂️. Bin seit fast 10 Jahren bei euch, das ist meines Wissens nach das erste Mal dass das passiert ist.

antworten

Johann:

Danke für die Erläuterung. Gute Kommunikation mit den Kunden (geht noch besser ohne Doppelpunkt).
Viele Grüße
Johann

antworten

Thorsten:

Fehler können trotz aller Vorkehrungen passieren. Für uns der erste seit nunmehr fast 11 Jahren, in denen wir zufriedener Kunde von Euch sind. Und dann noch vorbildlich kommuniziert.

Ahoi aus Hamburg
Thorsten

antworten

    steffen:

    Danke!

    antworten

Norman Dombo:

Es ist gut, zu erfahren, warum wir nicht telefonieren konnten. Wir sind im Gesundheitswesen tätig und hatten natürlich große Probleme. Unsere Patienten konnten uns nicht erreichen. Heute durften wir uns von genervten Menschen eine „Frustrations-Welle“ anhören. Hilft alles nichts. Passiert ist passiert. Allen Verantwortlichen bei Sipgate sei Dank. Den besten Notfallplan kann man nicht üben. Ihr habt das menschenmögliche getan! Eine Verkettung unglücklicher Umstände führte dazu, dass die Ausfallzeit länger gedauert hat. Sind wir doch alle froh, dass unsere Wohnung/Häuser nicht durch Krieg zerstört oder durch Erdbeben unbewohnbar wurden. Da ist der Ausfall der Telefonie doch zu verkraften! Wir nutzen seit vielen Jahren Sipgate Team und bleiben trotz der Widrigkeiten gestern zufrieden Kunden!

antworten

    steffen:

    Super gut, dass ihr es so seht, wie ihr es seht. Danke dafür! Und ein dickes Entschuldigung für die Frustrations-Welle, für die ihr ja wahrlich nichts könnt!

    antworten

Bodo:

Wir sind vom Fach (IT Security) und solche Dinge passieren, auch wenn sie es eben nicht sollten. Da mag der Notfallplan nicht oft genug oder „umfassend“ genug getestet sein, aber es ist eben so und Euer RZ Betreiber hat hoffentlich genauso gelernt, wie Ihr und zu Euch ebenso offen kommuniziert, wie Ihr zu uns. Wer hat das Dilemma bei den Kartenzahlungen in den letzten Wochen nicht mitbekommen. Es passiert, auch wenn es nicht soll und ich bin mir sicher, dass Ihr noch in den SLAs gewesen seid und nun besser als vorgestern!

Wir sind von „Anfang an“ dabei und haben noch nie wirklich Probleme gehabt! Danke für die Kommunikation. Einige Beispiele davon sind toll bei Kunden zu verwenden. Wer denkt denn daran, dass der Diesel so heiss wird. Haben die das nicht getestet? (#LOL)

Danke und ich vertraue Euch!

antworten

Aleks:

Passiert. Davon geht die Welt nicht unter.
Am 29.6. werde ich komplett von vf mit meinen Mobilgeräten weg sein und bin froh dass es euch gibt.
Danke für die offene Kommunikation

antworten

Berlin Büro:

Danke für die Infos.
Unser Büro hat Mittwochs keine telefonischen Sprechzeiten, daher ist die Fehlfunktion überhaupt nicht aufgefallen – jetzt verstehe ich aber die gestrigen teilweise komischen Anrufbeantworter-Nachrichten ;)

antworten

Schreibe einen Kommentar zu Uwe Stache Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert