Störung in einem unserer Rechenzentren

Steffen
23.06.2022 68 4:45 min

Es gab am gestrigen 22. Juni einen Ausfall, der dafür gesorgt hat, dass unsere Telefonie und unsere Logins in weiten Teilen eingeschränkt waren. Der Grund: Nachdem die Stromversorgung eines der von uns genutzten Rechenzentren per Baggerschaufel gekappt wurde, ist das Rechenzentrum nach einer Pannenserie offline gegangen. Und mit ihm auch unsere Telefonie. Natürlich hat sich unser sipgate Notfall-Team sofort an die Arbeit gemacht. Doch es hat von etwa 16 Uhr nachmittags bis kurz nach Mitternacht gedauert, ehe alle Systeme wieder korrekt liefen.

Was ist am Rechenzentrum passiert?

Unsere Notfallpläne sehen einen unterbrechungsfreien Betrieb in den Rechenzentren, die wir nutzen, vor. Durch eine Verkettung unglücklicher Umstände wurden aber genau diese Pläne über den Haufen geworfen. Um 16.18 Uhr war bei uns klar, dass Dinge nicht stimmen und das Rechenzentrum ohne Strom ist. Etwa eine Stunde zuvor wurde das Stromkabel von einem Bagger gekappt. Ist der Strom weg, springt die Unterbrechungsfreie Stromversorgung (USV) zur Überbrückung per Batteriestrom in die Bresche. Dann übernimmt am Rechenzentrum ein Dieselgenerator. Der erhitzte sich aber so stark, dass er nach rund einer Stunde in Betrieb Feueralarm auslöste und sich anschließend notfallmäßig ganz abschaltete. Warum das passieren konnte, findet unser Dienstleister des Rechenzentrums aktuell heraus.

Unser Notfall- und Redundanzsystem

Jedes der beiden von uns genutzten Rechenzentren trägt ungefähr die Hälfte der sipgate Telefonielast. Als das eine ausfiel und dorthin geroutete Gespräche nicht mehr durchgestellt werden konnten, war das andere nicht wie geplant in der Lage, den ganzen Traffic aufzufangen. Wir haben für Notfälle eine Vielzahl an Failovermechanismen, die leider nicht alle gegriffen haben.

Was haben wir getan?

Unser Notfall-Team hat sofort und an vielen verschiedenen Stellen umgeroutet, Lasten und Traffic auf die Proxyserver umverteilt, das Deployment umgestellt und bis tief in die Nacht und unter Hochdruck getan, was von unserer Seite getan werden konnte. Dazu haben wir in unserem Statusblog unsere Kund:innen ständig auf dem Laufenden gehalten. Gegen 17.30 Uhr sah es bei der VoIP-Telefonie schon wieder besser aus und die Telefonate kamen zu einem Großteil zustande. Das Problem hier: Unsere Anbindung an das Telekom-Netz war offline. Aber ausgehende Calls konnten wir nach und nach auf andere Carrier umrouten. Anders lief das bei den eingehenden Anrufen, die alle über weiterhin gestörtes Equipment liefen und daher nicht funktionierten. Trotzdem: Bei der VoIP-Telefonie sah es relativ zügig wieder besser aus. Ganz im Gegenteil zum Mobilfunk, wo wir über insgesamt sechs Stunden Probleme hatten, weil die Netzeinbuchung, bzw. der switch over zum zweiten Rechenzentrum, nicht wie gewünscht funktionierte.

Gegen Mitternacht waren alle unsere Komponenten im zuvor stromlosen Rechenzentrum wieder mit Strom versorgt. Um 1.23 Uhr war das Rechenzentrum komplett online und unsere Telefonie zu großen Teilen wieder hergestellt.

Was haben wir gelernt?

Für den Auslöser dieser gestrigen Ausnahmesituation konnten wir nichts. Aber: Unser Notfall- und Redundanzsystem war der Situation nicht gewachsen und muss verbessert werden. Wir schauen uns jetzt an, was genau an welcher Stelle nicht gut geklappt hat, wo wir Engpässe, Sackgassen und fehlende Redundanzen ausfindig gemacht haben. Und dann werden wir Konsequenzen daraus ziehen. Sprich: Wir werden uns noch ausfallsicherer aufstellen, werden mehr Maschinen aufbieten, werden zusätzliche Verbindungen ziehen. Es tut uns leid, dass der gestrige Nachmittag für unsere Kund:innen so gelaufen ist, wie er gelaufen ist. Danke für euer Verständnis!
Mehr Informationen zum gestrigen Ausfall und generell zu Störungen bei sipgate findet ihr in unserem Statusblog.

Update vom 23.6, 14.30 Uhr: In der Folge des plötzlichen, massiven Ausfalls sind natürlich Dinge kaputt gegangen. Die reparieren wir aktuell. Noch funktionieren nicht alle Dienste so, wie wir uns das vorstellen. Unter anderem haben wir noch Probleme im Account mit den Ansagen, Wartefeld, Ereignisliste, Fax und Benachrichtigungen per E-Mail.

Update vom 24.6, 15.30 Uhr: Wir haben festgestellt, dass ein kleiner Teil der personalisierten Ansagen aktuell nicht zur Verfügung steht, da diese nicht vom Server abgerufen werden können. In diesem Fall würde bei eingehenden Anrufen die Standardansage unseres Systems abgespielt. Personalisierte Ansagen folgender Funktionen können betroffen sein: Sprachmenü (IVR), Wartefeld, Call Recorder, Gruppen-Voicemail, Voicemail-Ansagen. Natürlich arbeiten wir an einer automatischen Lösung, können aber derzeit noch nicht absehen, wann diese ausgespielt werden kann. Wenn es schnell gehen soll: Die Ansagen können neu hochgeladen werden, um den gewünschten Zustand wiederherzustellen. Eine Anleitung für die jeweilige Funktion haben wir in unserem Hilfecenter bereitgestellt.

Update vom 16.8, 13.45 Uhr: Wir haben ein Interview mit unserem Product Lead Markus Monka zur Telefoniestörung vom 22. Juni geführt. Was ist wo passiert? Was haben wir für Fehler gemacht? Was haben wir gelernt?

Update vom 3.5.23, 11.30 Uhr: Auch wenn wir ein ziemlich großes Problem schnell fixen konnten, war uns immer klar, dass wir unser Redundanzkonzept überarbeiten werden. Das haben wir in den vergangenen Monaten getan und nun erfolgreich abgeschlossen. Unsere Entwickler haben viel am Netzwerk, an Datenbanken und an den Telefoniesystemen geschraubt. Monitoring und Alerting sind massiv verbessert worden. Und nicht zuletzt haben wir ein zukunftssicheres Object-Storage-System, welches für mehrere Terabyte Kundendaten ausgelegt ist, aufgesetzt. Wir sind überzeugt, nun deutlich besser auf etwaige, zukünftige Störungen vorbereitet zu sein.

68 Kommentare


www.restplatzshop.de:

Hervorragende, transparente Kommunikation.
Ein klassisches Beispiel – wie die Großen von den Kleinen lernen können.

http://www.restplatzshop.de

antworten

Kalin:

Respekt. Ich als Taxiunternehmer habe enorme Probleme gehabt gestern, jedoch muss ich hier zu sagen dass die Kommunikation von euch sehr gut und für mich verständlich war. Seit mehreren Jahren bei euch nicht einmal vorgekommen. Ich denke das wir alle jetzt ein wenig aus diesen Problemen lernen können. Ein Wechsel ist hier nicht gemeint, denn alle hatten und könnten ausfälle haben. Wichtig ist aus den Problemen zu lernen und immer besser zu werden. LG und weiter so sehr Stark.

antworten

    Philipp:

    Vielen Dank für das Verständnis! Lernen ist das Stichwort. Ich kann jetzt leider keine Details nennen, aber unsere Techniker haben bereits heute Nacht bei der Reparatur viel gelernt und Ideen gesammelt, wie wir uns zukünftig sicherer aufstellen.

    antworten

Vincent Rammelt:

Tolle Kommunikation. So wünscht man sich das.

Zur Ursache: Ja, diese Gefahren werden leider immer wieder unterschätzt… Datenbackup auf externer Festplatte, die auf dem PC liegt uvm. Auch beim Thema Websites braucht es entsprechende Konzepte, wenn diese jederzeit erreichbar sein müssen.

antworten

Franka:

Ich schließe mich den Vorkommentierern an, eine klare Kommunikation ist derzeit die härteste Währung im (auch an Versprechungen aller Art) inflationären Umfeld…, danke für Euren Einsatz.

antworten

Andreas:

Eine sehr gute und transparente Analyse. Ich bin selbst am Betrieb von Rechenzentren beteiligt, und würde mir wünschen, daß solche Vorkommnisse immer so transparent kommuniziert würden. So können andere daraus lernen.

antworten

Maximilian:

Die Aussage das Ihr für den Auslöser nichts könnt stimmt zwar, aber wenn Backupsysteme die in einem solchen Fall greifen sollen nicht greifen, ist das ganz klar auf eurer Seite ein Fehler.

Auch kann ich die hier gelobte Kommunikation nicht bejubeln. Auf eurer Webseite war null Hinweis auf die Störung. Ich habe googeln müssen um zu erfahren das Ihr ne Statusseite habt.

Hier wäre ein prominenter Hinweis auf der Startseite ein guter Weg.

Alles in allem hat mich der Ausfall viele Nerven gekostet.

antworten

    Philipp:

    Hallo Maximilian, das mit den Nerven tut uns wirklich leid. Aber genau das was du sagst, wollten wir im Post vermitteln: Auslöser: Der Bagger. Konzept für den Notfall ging nicht auf: Unser Versäumnis. Wir arbeiten auf Hochtouren an einem neuen Konzept. Aber: Vielleicht hätten wir das noch besser kommunizieren können. Auch vielen Dank für deine Anmerkung, dass unsere Status-Seite nicht hinreichend bekannt ist. Ich werde das weitergeben.

    antworten

      Thorsten:

      Eure Kommunikation finde auch ich sehr gut. Ich habe die Status Seite auch nur über eine Google Suche gefunden.
      Ich bin der Meinung, da gehört ein Link auf die Startseite!

      antworten

Anja Spahr:

Vielen Dank für die Ehrlichkeit. Das schätzen wir sehr.

antworten

Frank Schmelcher:

Ich nehme es mit Humor:
Nächstes mal bitte morgens. Kurz vor Feierabend macht das keinen Sinn mehr! ?
An alle die keinen Humor haben: Echte Katastrophen sehen anders aus!

Danke an Euer Team für die Nachtschicht und die transparente Kommunikation.

antworten

    Philipp:

    Hallo Frank, auch Humor sei an dieser Stelle erlaubt :) Und man kann natürlich alles relativieren. Wir wissen aber auch, dass für viele unserer Kund:innen ein Ausfall der Telefonie wirklich nicht lustig ist.

    antworten

Rainer Bethscheider:

Wenn das mal alle so kommunizieren würden. Ich hatte vom 20.05 bis 12.06 einen Komplettausfall Internet über Vodafone Kabel und weiss bis heute nicht, trotz mehrfacher Nachfrage, was das Problem war. Danke für euer Krisenmanagement. Ich weiss warum ich bei Sipgate bin.

antworten

    Philipp:

    Hallo Rainer, vielen Dank und freut uns sehr, dass du gerne bei uns bist. Und zu deinem Internet-Ausfall: Vielleicht können Bagger auch Telekommunikations-Riesen ins Wanken bringen :)

    antworten

Peter Koch:

Die Kommunikation war fast gut. Ich hätte eine Email an die Administratorrn erwartet. Und zwar um 17:00 Uhr.

Die Aussage, nachts lief wieder fast alles , ist relativ. Ich bin auf die Telefonie Inbound und Outbound angewiesen. Das lief heute Vormittag nicht. Meine Umsatzausfälle sind signifikant.

Dann: Was ist eigentlich mit ITSCM? Das muss vorliegen und im Jahr 2x getestet werden. Das eine RZ Seite ausfällt und die andere übernehmen muss, gehört zum Standard Test.

Ich hoffe, dass diese Lücken auch geprüft und darüber berichtet wird.

antworten

    Peter Koch:

    ITSCM IT Service Continuity Management ist für kritische Infrastrukturen vorgeschrieben. Es muss ein Konzept für die Ausfallsicherheit existieren UND regelmäßig getestet werden.

    antworten

    Philipp:

    Hallo Peter, vielen Dank fürs Feedback. Das Konzept wird mehr als gründlich geprüft und wir werden berichten.

    antworten

Jonas:

Hallo,
ja, es ist sehr lobenswert, dass ihr transparent kommuniziert. Und, es ist natürlich wirklich doof gelaufen, wenn das Rechenzentrum komplett vom Stromnetz getrennt wird und dann der Diesel nicht funktioniert.
Trotzdem scheint es, dass ihr nicht wirklich mit dem Ausfall eines Rechenzentrums gerechnet habt, was mich etwas wundert.

Letztlich ärgert man sich als Kunde natürlich im Moment der Störung, aber ist es ist, bei uns jedenfalls, nichts kaputt gegangen. Es zeigt sich mal wieder, dass man Ernstfälle wirklich testen muss, siehe Diesel:)

Auch wir werden wohl über ein Telefonbackup nachdenken…

antworten

    Philipp:

    Hallo Jonas, wir hatten tatsächlich einen Plan für genau diesen Notfall: Die gesamte Telefonie ist auf mehrere Rechenzentren, bei verschiedenen Dienstleistern, verteilt. Fällt eins aus, wird die Telefonie auf ein anderes umgeleitet. So war der Plan… Aber genau das hat nicht funktioniert und genau das war der Fehler, der ganz klar bei uns liegt. Das Ganze ist jetzt etwas vereinfacht erklärt (Ich bin selbst kein VoIP Engineer). Freut uns natürlich, dass bei euch nichts ausgefallen ist.

    antworten

      Jonas:

      Hallo Philipp, wir hatten auch einen kompletten Ausfall der Telefonie, der natürlich Geld gekostet hat. Aber es hat eben keine geschäftskritischen Auswirkungen gehabt.

      antworten

Daniel:

Danke für die tolle Kommunikation! Ich bin froh, dass Ihr Ausfälle nicht verschweigt und für Transparenz zu den Ursachen sorgt.

Mein Unternehmen war zum Glück nicht betroffen bzw. war der Ausfall nicht zu merken (nachmittags kein Telefon mehr benötigt).

Ohne eure E-Mail heute wäre das nicht aufgefallen.

antworten

Jürgen:

Großes Lob an die Admins, die es in dieser Situation nicht einfach hatten und an der Lösung gearbeitet haben.
Ich denke für andere wäre auch gut zu erfahren, warum Ausfalltests und Notfall-Szenarien nicht ausreichend waren, um daraus zu prüfen, welche Annahmen im eigen Umfeld nicht ausreichend sind.

antworten

Ralf:

Hallo,
ich fand die Kommunikation auch ganz in Ordnung. Ich nutze fast nur die Mobiltechnologie…diese wurde allerdings auf der Statusseite nicht so direkt erwähnt. Und ich schließe mich voll und ganz meinem Vorredner an: wenn eine so massive Störung vorliegt sollte das direkt auf sipgate.de zu sehen sein, gerne mit Link zum Status oder Blog oder sonstwas. Aber ohne Recherche für mich. Oder gerne per Mail an mich. Würde ich sicher nicht als nervenden Spam abtun :)
SOnst aber alles wunderbar hier!

antworten

Jürgen:

Ich bin privat Euer Kunde. In der europaweit tätigen Firma in der ich arbeite haben wir mehrmals im Jahr unsere Dieselaggregate im Testbetrieb laufen, und die laufen dann über mehrere Stunden. Alleine an unserem kleinsten RZ sind das schon zwei Stück in verschiedenen Gebäuden. Beide versorgen aber das gleiche RZ. Ebenfalls hat unser RZ zwei Stromanbindungen ans externe Stromnetz, quasi einmal von links und einmal von rechts um es einfach auszudrücken. Ein solcher Stromausfall kann dadurch gar nicht vorkommen, Baggerbiss hin oder her. Zudem haben wir ein großes RZ in FRA direkt am DCIX und alles nochmal georedundant in Rüsselsheim. Das nenne ich Redundanz. Der Switch von FRA nach Rüsselsheim wird zwei mal pro Jahr getestet und hat bisher immer reibungslos funktioniert. Es gibt also wohl noch einiges zu tun.

antworten

    Philipp:

    Hallo Jürgen und vielen Dank für diesen Einblick. Euer Konzept klingt rund und wirklich redundant.

    antworten

Ludger Wilde:

1.
Was stört mich bei vielen Anbietern mittlerweile fast am meisten? Richtig: Mangelnde intransparente Kommunikation.

Fehler passieren, Dinge können „kaputt“ gehen. Viele komplexe Systeme die ineinander greifen können kaum in allen Situationen überblickt werden.

Dafür habe ich und wie man ja sieht viele Verständnis.

Wenn hier jedoch versucht wird, diese vor den Kunden zu vertuschen, man nichts über geschehenes erfährt und alles intransparent gehalten wird, dann stört nicht nur mich das sehr.

Ein dickes Lob, das Sipgate hier einen anderen Weg geht !!!

2.
Konsequenzen aus geschehenen ziehen.

Die Aufbereitung/Analyse und daraus resultierende Vermeidung von geschehenem sind fast noch wichtiger!
Auch hier gilt, das dies Kunden gegenüber transparent und nachvollziehbar vermittelt wird.
Nur so entsteht ein „wir“ Gefühl und sogar ein wenig Stolz, wenn ich dann sagen kann „Hey guck mal, sipgate hat gelernt“ – Und wie sieht es bei deinem (anderen) Anbieter aus?
Wie da läuft nur eine Ansage an der Hotline, das es eine Großstörung gibt ?!? – Warum nur muss ich gerade an Regen denken? ;)

antworten

    Philipp:

    Hallo Ludger und vielen Dank. Wir werden über das neue Konzept berichten.

    antworten

Thomas W.:

Zunächst mal: Ausfälle nerven und sie kommen immer im unpassendesten Moment. So auch dieser. Der Ausfall hatte auch hier unschöne Auswirkungen.
Aber: Störungen können passieren. Auch die großen Mobilfunkanbieter hatten in der Vergangenheit schon unschöne Ausfälle.

In diesem Fall finde ich den Transparenten Umgang und die zeitnahe Kommunikation über die Statusseite sehr gut und professionell.

Das ihr jetzt einiges an Hausaufgaben habt, um daraus zu lernen und anzupassen ist klar. Dabei wünsche ich viel Spaß und es wäre schön, wenn darüber auch transparent berichtet werden würde.

antworten

Leo:

Als mobile Tierarztpraxis mit Notdienst war der Ausfall für mich eine enorme nervliche Belastung. Vor allem als ich um 17 Uhr eine Mail einer verzweifelten Kundin erhielt, die mich seit einer Stunde nicht erreichen konnte und ich erst da gemerkt habe dass ich offline bin (vorher habe ich mich nur über den ruhigen Nachmittag gewundert).
Hier wäre evtl. ein Informationsservice für Störungen (Email-Newsletter? SMS auf alternative Handynr.? ) hilfreich gewesen um den Schock abzufangen und proaktiv tätig zu werden.
Ich habe dann gleich eine Rundmail an meine Kunden geschrieben. Trotzdem, ein halber Tagesumsatz ist weg und ich versuche immer noch rauszufinden, ob erkrankte Tiere unbehandelt geblieben sind oder Kollegen aus Nachbarpraxen eingesprungen sind.
Danke für die transparente Kommunikation und zügige Aufarbeitung des Problems sowie die selbstkritische Reflexion im Nachgang. Hoffentlich arbeiten bald alle Systeme wieder reibungsfrei. Noch haben wir Probleme mit den Weiterleitungen und Mailboxansagen.

antworten

    Philipp:

    Hallo Leo, vielen Dank für das Feedback. Das Beispiel deiner Tierarztpraxis zeigt deutlich, wie schwerwiegend ein Ausfall der Telefonie sein kann. Und zu deinem Einwand mit dem Informationsservice: uns ist bewusst geworden, dass wir auch dieses Konzept überdenken müssen.

    antworten

Schäfer:

Hallo, *lol*, also das ist doch der Klassiker. Der Motor wurde nicht regelmäßig laufen gelassen. Mit der zeit bilden sich Ablagerungen die dann beim Start eine Rauchwolke auslösen die dann den Feueralarm auslöst.

antworten

    Philipp:

    Hallo und vielen Dank für die Einschätzung. Das können wir so aber nicht ganz bestätigen. Der Motor lief ja auch über eine Stunde reibungslos – ohne Rauch. Wir werden das aber natürlich analysieren.

    antworten

Ulrich Blankenhorn:

Hallo Sipgate Team, wir als zertifiziertes Unternehmen und nicht nur ISO sondern auch DAkkS müssen solche Fälle schon vorab recht tief durchdenken und dafür gewappnet sein. Und trotzdem passieren diese! Kommunikation prima, als Tipp, das was eine großer Rechenzentrumbetreiber macht: Dieser hat ein Wartungsvertrag mit der Feuerwehr für den Brandfall, der eine Antwortzeit von <30 min. vorschreibt. In diesem Vertrag ist vereinbart, dass einmal im Jahr zu einem beliebigem Zeitpunkt der Rechenzentrumbetreiber einen Alarm auslösen darf und die vertraglichen Zusagen müssen gehalten werden. Für die Feuerwehrleute war der Einsatz 5 min nach Sylvester zwar hart, aber sie waren <30 min da. Bedeutet: macht einfach mal einen Probeausfall, vielleicht mit Ankündigung? Grüße

antworten

    Werner 1:

    Sehr gute Idee, als ehemaliger Feuerwehrmann hätte ich da eigentlich auch dran denken können.

    antworten

Schreibe einen Kommentar zu Philipp Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert