Hintergrund zum Ausfall vom Freitag, den 08.10.10

Bastian
12.10.2010 27 2:37 min

Am Freitag lag von nachts bis 14:40 Uhr eine gravierende Störung im sipgate-Netz vor. Die häufigsten Fragen dazu haben wir hier beantwortet.

Welche Services waren betroffen?

Betroffen waren alle eingehenden Gespräche auf deutschen Rufnummern (Ortsnetznummern und Mehrwertnummern) und ausgehender Faxverkehr. Der
Zeitraum der Störung erstreckte sich von den frühen Morgenstunden bis 14:40 Uhr am letzten Freitag (8. Oktober 2010).

Wie ist der Ausfall zustande gekommen?

Ausgefallen ist ein Telefonieswitch eines externen Dienstleisters an unserem Standort in Frankfurt. Während einer Routinearbeit, in der eine neue Softwarekonfiguration eingespielt wurde, ist es nach dem notwendigen Neustart der Plattform zu einem Fehler gekommen. Dieser hat dazu geführt, dass der Neustart nicht abgeschlossen werden konnte. Grund war eine defekte Speicherkarte, von der das Betriebssystem geladen wird.

Sollte solch ein wichtiges Teil nicht redundant sein?

Generell sind alle Komponenten und Anschlüsse dieses Switches redundant ausgelegt. Ausnahme ist die zentrale Steuereinheit, die allerdings als sog. „Cold-Spare“ vorliegt. Das bedeutet, dass ein Ersatzteil zwar nicht automatisch einspringt, aber immer griffbereit ist. Dies ist in der Regel ausreichend, da solche Teile normalerweise nur dann ausfallen, wenn ein Umbau vorgenommen wird oder der Switch komplett ausgeschaltet wird. Solche Arbeiten finden sehr selten statt, und wenn dann nachts. Dabei ist ausnahmslos immer Fachpersonal vor Ort. Sollte dann die Steuereinheit ausfallen, wird das Cold-Spare eingesetzt. In diesem Falle ist das Ersatzteil zum Einsatz gekommen, allerdings lag auf dem Speichermedium des Ersatzteils der gleiche Fehler vor, der durch ein Backup übertragen wurde.

Warum ließ sich das Problem nicht schneller beheben?

Das Betriebssystem des Switches ist auf die Hardwarekomponenten, die verwendet werden, abgestimmt. Daher lässt sich ein – hier notwendiges – neues Betriebssystem nur vom Hersteller erzeugen. Das Erzeugen ist langwierig, da die Abstimmung auf die Hardware aufwendig ist. Darüber hinaus ist dieser Fall bisher als so unwahrscheinlich bewertet worden, dass hier keine Abläufe für ein besonders schnelles „Erzeugen“ vorlagen. Normalerweise lassen sich solche System aus der Ferne bearbeiten, auch in diesem Falle war das erfolgreich. Während der Arbeiten wurde dann gleichzeitig als Fallback ein neues Speichermedium beim Hersteller vorbereitet, für dessen Transport quer durch die Republik wir bereits ein Kurierflugzeug gechartert hatten. Bevor das gestartet ist, war aber bereits ein neues Betriebssystem eingespielt und der Switch erfolgreich wieder gestartet.

Wie wurde der Ausfall kommuniziert?

Am Freitag wurde um 08:05 der Ausfall bei twitter gepostet. Parallel wurden auf den Startseiten www.sipgate.de und www.sipgate.de/team und hier im Blog aktuelle Informationen zu der Störung veröffentlicht.

Und: woran wir arbeiten, um dieses Problem für die Zukunft auszuschließen.

Seit ca. einem Jahr arbeiten wir daran, die parallele Übergabe eingehender Gespräche über mehrere Dienstleister an verschiedenen Standorten zu realisieren, um dadurch Ausfälle auch ganzer Standorte abfedern zu können. Das Projekt ist weit fortgeschritten und soll im Sommer 2011 unser bisheriges Netz ergänzen.

Weitere interessante Beiträge

27 Kommentare


Steffen:

Hallo,

zu dem Punkt der Redundanz, ich hatte da auch schon mal auf Twitter nachgefragt, aber da wurde ich ja ignoriert. Wenn man sich auf einen Switch, an einem Standort verlässt, hat man immer einen SPF. Mich hat es ehrlich gesagt wirklich überrascht, das Ihr euch bei eurer Größe die Gespräche nur über einen Standort zuführen lasst, so ziemlich jeder große Zulieferer bietet Redundanzen. Klar das kostet dann natürlich einen Euro mehr.

Interessant wäre natürlich auch der Namen des Zuliefer, so aus reiner neugierde.

Aber zumindest schön, dass das Problem relativ schnell gelöst wurde, da hatten andere schon ganz andere Probleme.

antworten

Martin:

Vielen Dank für diesen Blog Post. Fehler können passieren und ich finde es gut, dass so offen damit umgegangen wird.

antworten

Benjamin:

„immer Fachpersonal vor Ort“?

Wirklich vom Fach scheinen sie allerdings nicht gewesen zu sein, wenn man die Spare Komponente ebenfalls einem Betriebssystem Update unterzieht bevor man sie einsetzt, kurz nach dem man feststellt, dass beim Produktivsystem eben genau nach diesem Update Probleme aufgetreten sind. Ich bezweifle (da sich das System danach nicht booten ließ), dass zu diesem Zeitpunkt schon von einer defekten Speicherkarte ausgegangen werden konnte.

antworten

ben schwarz:

was genau ist ein telefonswitch?

antworten

Stefan:

Welcome to the Business of „Five Nines“ (99.999% Verfügbarkeit). Die Art und weise wie hier transparent und offen mit dem Thema umgegangen wird find ich jedoch beachtenswert, im positiven Sinne. Trotzdem: ein Ausfall von mehreren Stunden ist
schlichtweg inakzeptabel, und Sie können vermutlich nicht darauf hoffen beim nächsten Ausfall auf ebensoviel Verständnis zu treffen.

antworten

Alex:

Das auf dem Backup das selbe OS drauf war wie auf dem Haupt-Ding war sicher kein Fehler der beim Tausch gemacht wurde. Ist doch klar das man auf beiden Systemen das selbe OS darauf haben muss. Denke mal, dass beide das Update bekommen haben und sich der Fehler aber erst durch den Reboot der für die Konfigänderung nötig war gezeigt hat. Sicher hätte man ein Reboot mit der neuen OS-Version mal auf einem Test-System testen können – aber was soll’s – beim nächsten Mal ist man schlauer – aber deswegen anzuzweifeln das es Experten waren finde ich etwas unverhältnismäßig.
Jeder macht mal Fehler – wichtig ist doch was daraus an neuen Erkenntnissen gewonnen wurde und das es nicht nochmal passiert.

Ich finde die Stellungnahme hier im Blog sehr gut, danke dafür! Wobei ich auch interessiert wäre, was das für ein Zulieferer war ;-)

Gruß, Alex

antworten

ts:

Ich denke sowas kann immer mal passieren. Selbst bei den ganz großen Anbietern ist man vor sowas nicht geschützt. Wie oft bei uns ISDN schon ausgefallen ist…
Und auch die Informationen sind diesmal gut gelaufen. Hier gabs beim letzten Ausfall noch einiges zu bemängeln. Auf titter und im Blog stand sofort, dass es ein Problem gibt. Das hilft einem zwar gerade nicht aber man weiß wenigstens gleich was los ist und kann entsprechend reagieren. Auch war ich dankbar das wenigstens ein Besetztzeichen kam und keine ansage aller „dieser Anschluss ist nicht bekannt“ oder ähnliches…

antworten

Henning:

Schönes aufklärendes Posting! Auch die Berichterstattung während des Vorfalls via twitter war gut, zeitnah und informativ!

Bei solch wichtigen Services wie Telefonie sollte natürlich versucht werden immer available zu bleiben – funktioniert aber bei sämtlichen Dingen auf der Welt nicht. Wer sich von den vorherigen Kommentatoren selbst nur auf eine Telefonleitung verlässt – und dann noch via Internet (sic!) – ist selbst Schuld und darf dann nicht über den Ausfall/Länge und die evtl. fehlende Redundanz meckern. Erst an die eigene Nase fassen wenn man selbst nur über einen Kanal erreichbar ist ;)

Fehler passieren – auch bei größter Vorsicht. Kennen wir das nicht alle? Seien wir froh das offen und zeitnah kommuniziert wird – das ganze zu sehr guten Preisen verfügbar ist – und die Leute von sipgate auch noch freundlich sind :)

antworten

Hauke:

Dem Gesagten ist nicht viel hinzuzufügen:
– Ein Tag praktisch telefonisch nicht erreichbar bei einer Business-Lösung = nicht akzeptable!
– Kommunikation gut, mir wär hier aber ne vorgeschaltete Ansage bzw. ne E-Mail lieber gewesen. Habs erst nicht gemerkt, da ausgehende Gespräche ja funktionierten.
– Und ich muss korrigieren, der Ausfall bestand bereits am 07.10.2010 um 23:49 Uhr!
– Ne Benachrichtigung, wenn Faxe nicht zugestellt werden konnten, wär mal ne gute Sache. Kann wegen dem nicht durchgekommenen Fax und den Ferien jetzt 2 Wochen auf Bezahlung meiner Rechnung warten … *grml*

antworten

Uwe Klaus:

Klar, die Nichterreichbarkeit jener, die im Vertrauen auf die technische Kompetenz von Sipgate darüber ihre herkömmliche Telekommunikation substituiert haben, war ärgerlich … etwas „erleichterte“ das am Samstag herrschende wunderbare Wetter die Situation … die offene Kommunikation von Sipgate erleichterte den Umgang mit dem Phänomen. Ich denke, aus der Abfolge technischer und organisatorischer Anforderungen resultierte (hoffentlich) ein nachhaltiger Lerneffekt der Verantwortlichen mit dem Ergebnis zukünftig deutlich besserer Zuverlässigkeit für alle Sipgate-Nutzer. Meine langjährigen „berührungen“ mit Sipgate stimmen mich da zuversichtlich.

antworten

fwolf:

Also von all dem „offenen“ Kommunikationsblabla hab ich gar nichts mitbekommen.

Ein dezenter Hinweis hierauf, ABER über das HAUPTkommunikationsmittel im Internet, nämlich die sog. E-Mail, wäre daher VIEL SINNVOLLER gewesen.

So bin ich mir ehrlich gesagt etwas verarscht vorgekommen, denn per Mail erfolgte nur der Hinweis: „… wird in einer seperaten Mail nochmals Stellung genommen ..“ – unter GUTER Kommunikation stelle ich mir da etwas anderes vor. Zu diesem Zeitpunkt war ich auch bereits am Grübeln, ob ich nicht wieder zur Konkurrenz zurückwechsle.

Ergo: Die „Öffentlichkeitsoffensive“ ging eher daneben.

cu, w0lf.

antworten

Hilmar Bunjes:

Danke für den offenen Bericht. Ich kann meinen Vorrednern zustimmen, dass die Benachrichtigung per Blog und Twitter gut war. Ich hätte mir aber doch eine E-Mail Nachricht gewünscht. Vielleicht solltet ihr das für ein mögliches nächstes Mal vorsehen.

antworten

Lorenz Rings:

Die offene Aufklärung find ich gut. Würde allerdings auch eine Benachrichtigung per Email vorziehen.

antworten

Christoph:

Die Variante alle Kunden per E-Mail zu informieren, wäre natürlich die gewesen, die die meisten Kunden erreicht hätte. Das war am letzten Freitag auch unser Wunsch. Leider ist der technische Aufwand eines Versandes von mehreren hunderttausend E-Mails sehr groß und konnte von uns in der kurzen Zeit nicht realisiert werden. Wir arbeiten aber dran, dass der Versand so zahlreicher E-Mails in Zukunft kurzfristig realisiert werden kann. – CB sipgate –

antworten

Kurz:

Fehler passieren und sind letztlich da um gemacht zu werden. Mich hat hestört das der Hinweis zur Störung auf sipgate.de kaum zu finden gewesen sein muss. Ich habe natürlich selber geschaut und nichts gefunden.

antworten

Tim:

Hallo Steffen,

sorry für die fehlende Antwort auf twitter, wir waren da gerade etwas beschäftigt ;-) Kernproblem hier ist eigentlich, dass die DTAG nicht via IP zu uns übergibt, sondern auf SS7-Technik besteht, die in wenigen Jahren schon wieder obsolet sein wird. Nachdem wir da nach langen Jahren des Hinhaltens die Hoffnung aufgegeben haben, sind wir wie gesagt seit ca. einem Jahr dabei, die Standorte auf alter Technik zu erweitern, im Sommer wird es soweit sein.

antworten

Julia:

Wir müssen uns auch denjenigen anschließen, die sich beschweren. Eine umgehende Information via Email hätte uns bei der Fehlersuche sehr viel Zeit erspart. Wir sind sehr enttäuscht, dass die Problemlösung so lange gedauert hat. Unsere Geschäftskunden konnten uns fast einen ganzen Tag nicht erreichen. In so einem Fall muss es doch möglich sein, die eingehenden Anrufe dann wenigstens auf eine andere Telefonnummer umzuleiten!!?

antworten

Christoph:

Hallo Frau Thiele,

leider wurden uns am letzten Freitag gar keine Gespräche angeliefert. Daher konnten wir diese leider nicht umleiten, bzw. eine Ansage schalten. An einer schnelleren Kommunikation per E-Mail arbeiten wir aber bereits. – CB sipgate –

antworten

spheghdd:

super. danke für die ausführliche informationspolitik.
wichtig ist für mich vor allem der letzte absatz: weitere redundanz ist geplant.

antworten

Hauke:

Ihr konntet nicht so viele E-Mails auf einmal versenden? Da komm ich mir grad etwas *** vor. Sorry, irgendwie wird ja auch euer Newsletter zugestellt. Alle auf einmal ist schwierig, aber man hätt‘ das Ganze ja stückeln können. Zwischen Ausfall und Bürozeit (8/9 Uhr) wären ja einige Stunden Zeit dafür gewesen. *grml*
Bin ansonsten überzeugter Sipgate-Kunde und empfehle es auch gerne weiter, aber der Ausfall, die Kommunikation, mein daraus resultierendes Problem und die Ausreden verärgert mich grad doch ziemlich.

Was haben die Anrufer überhaupt gehört? Ein Besetztzeichen? Ein „Anschluss nicht vorhanden“? – Was tödlich gewesen wär – Oder was genau?

antworten

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.