Hintergrund zum Ausfall vom Freitag, den 08.10.10

Bastian
12.10.2010 27 2:37 min

Am Freitag lag von nachts bis 14:40 Uhr eine gravierende Störung im sipgate-Netz vor. Die häufigsten Fragen dazu haben wir hier beantwortet.

Welche Services waren betroffen?

Betroffen waren alle eingehenden Gespräche auf deutschen Rufnummern (Ortsnetznummern und Mehrwertnummern) und ausgehender Faxverkehr. Der
Zeitraum der Störung erstreckte sich von den frühen Morgenstunden bis 14:40 Uhr am letzten Freitag (8. Oktober 2010).

Wie ist der Ausfall zustande gekommen?

Ausgefallen ist ein Telefonieswitch eines externen Dienstleisters an unserem Standort in Frankfurt. Während einer Routinearbeit, in der eine neue Softwarekonfiguration eingespielt wurde, ist es nach dem notwendigen Neustart der Plattform zu einem Fehler gekommen. Dieser hat dazu geführt, dass der Neustart nicht abgeschlossen werden konnte. Grund war eine defekte Speicherkarte, von der das Betriebssystem geladen wird.

Sollte solch ein wichtiges Teil nicht redundant sein?

Generell sind alle Komponenten und Anschlüsse dieses Switches redundant ausgelegt. Ausnahme ist die zentrale Steuereinheit, die allerdings als sog. „Cold-Spare“ vorliegt. Das bedeutet, dass ein Ersatzteil zwar nicht automatisch einspringt, aber immer griffbereit ist. Dies ist in der Regel ausreichend, da solche Teile normalerweise nur dann ausfallen, wenn ein Umbau vorgenommen wird oder der Switch komplett ausgeschaltet wird. Solche Arbeiten finden sehr selten statt, und wenn dann nachts. Dabei ist ausnahmslos immer Fachpersonal vor Ort. Sollte dann die Steuereinheit ausfallen, wird das Cold-Spare eingesetzt. In diesem Falle ist das Ersatzteil zum Einsatz gekommen, allerdings lag auf dem Speichermedium des Ersatzteils der gleiche Fehler vor, der durch ein Backup übertragen wurde.

Warum ließ sich das Problem nicht schneller beheben?

Das Betriebssystem des Switches ist auf die Hardwarekomponenten, die verwendet werden, abgestimmt. Daher lässt sich ein – hier notwendiges – neues Betriebssystem nur vom Hersteller erzeugen. Das Erzeugen ist langwierig, da die Abstimmung auf die Hardware aufwendig ist. Darüber hinaus ist dieser Fall bisher als so unwahrscheinlich bewertet worden, dass hier keine Abläufe für ein besonders schnelles „Erzeugen“ vorlagen. Normalerweise lassen sich solche System aus der Ferne bearbeiten, auch in diesem Falle war das erfolgreich. Während der Arbeiten wurde dann gleichzeitig als Fallback ein neues Speichermedium beim Hersteller vorbereitet, für dessen Transport quer durch die Republik wir bereits ein Kurierflugzeug gechartert hatten. Bevor das gestartet ist, war aber bereits ein neues Betriebssystem eingespielt und der Switch erfolgreich wieder gestartet.

Wie wurde der Ausfall kommuniziert?

Am Freitag wurde um 08:05 der Ausfall bei twitter gepostet. Parallel wurden auf den Startseiten www.sipgate.de und www.sipgate.de/team und hier im Blog aktuelle Informationen zu der Störung veröffentlicht.

Und: woran wir arbeiten, um dieses Problem für die Zukunft auszuschließen.

Seit ca. einem Jahr arbeiten wir daran, die parallele Übergabe eingehender Gespräche über mehrere Dienstleister an verschiedenen Standorten zu realisieren, um dadurch Ausfälle auch ganzer Standorte abfedern zu können. Das Projekt ist weit fortgeschritten und soll im Sommer 2011 unser bisheriges Netz ergänzen.

27 Kommentare


riordian:

@Hauke: Mein Telefon zeigte ein „Netzabschnitt besetzt“, dazu war das in Deutschland übliche Besetzt-Zeichen zu vernehmen.

Ich konnte schon gegen 2:00am keine Telefonate mehr entgegen nehmen. Zu dieser Zeit war überhaupt keine Information zu finden dass dies eventuell an sipgate liegen könnte.

antworten

Frank Drews:

Ich bin noch kein Kunde, wir überlegen aber gerade zu Wechseln. Das Fehler passieren können, ist klar. Unsere Telefonleitung von der Telekom ist letztes Jahr auf Grund eines Wasserschadens 3 Tage ausgefallen.
Was mit nicht gefällt ist die Sache mit der E-Mail Benachrichtigung. Für so einen Fall sollte man einen Notfallplan haben. Da war wohl auch ein kleiner Fehler im Notfallplan. Naja, die Verbesserungsmaßnahmen, besonders die redundante Anbindung hören sich ja ganz gut an.
Und generell finde ich es sehr gut, dass bei so einem Thema offen mit Kommentaren, etc kommuniziert wird.

antworten

jan:

Wäre es nicht möglich, um einen erneuten vorfall auszuschließen, ein 2. gerät gleicher bauart als mirror zu betreiben – wenn a auswällt könnteman dann binnen weniger minuten auf b umstellen… dachte eigendlich das es so läuft…

naja shit happens bin weiterhin von euch überzeugt ;)

antworten

fwolf:

Zwecks eurem E-Mail-Problem: Prinzipiell spricht nichts gegen die Nutzung von EC2 oder etwa Mailchimp. Alternativ tuts auch verteiles Senden, wie hier in den Kommentaren bereits vorgeschlagen.

Ich habe vor Ende 2008für meinen damaligen Arbeitgeber und später nochmals für mich selbst einen passablen Newsletter-Generator geschrieben, der explizit zeitlich verteiltes Versenden unterstützt.

Bei einer angenommenen Menge von 300k E-Mail-Adressen und halbwegs passablem Mailserver sollten 4000 – 5000 Mails pro Minute locker durchgehen. Mit gescheiter Optimierung sind sicherlich 10 – 20k pro Minute zu erreichen.

Selbst mit nur 4k die Minute hättet ihr dann sämtliche Kunden innert einer Zeitspanne von 75 Minuten = 1 1/4 Stunden benachrichtigt.

Ist definitiv kein Problem der Resourcen, eher schon der Umsetzungsbereitschaft.

cu, w0lf.

antworten

leeredose:

@21 riordian:

Falls Du den Teilnehmer Besetzt-Code meinst, der kam nicht. – Es kam Gasse Besetzt.
Das tute bedeutend schneller. ;)

antworten

Calor:

Ich wurde irgendwann gegen 12 Uhr von Kunden darauf aufmerksam gemacht, dass wir nicht erreichbar sind.

Beim nächsten mal bitte eine Benachrichtigung per E-Mail. Twitter nutze ich kaum und auf Ihre Seite schaue ich so selten wie möglich da die Geschwindigkeit ins Netz von QSC erbärmlich ist. 10 bis 20 Sekunden warten bis die Seite vollständig da ist, ist keine Seltenheit sondern eher die Regel.
(eben nochmal mitgezählt: sipgate.de 13 Sekunden, spiegel.de 2 Sekunden bis der Aufbau vollständig war)

antworten

Patrick:

Hallo :-) wollte mal fragen wie weit ihr denn seid mit dem letzen Punkt (paralelle Übertragung eingehender Anrufe)? Wir haben derzeit massiv Probleme mit Toplink und überlegen daher zu wechseln. Ist bei uns halt so ein 30er Sip-Trunk. Da wir was Ausfälle angeht ein gebranntes Kind sind achten wir darauf nun etwas genauer.

Viele Grüße aus Krefeld :-)

ps. hat das u.U. etwas mit Yate zu tun? :-)

antworten

Schreibe einen Kommentar zu Frank Drews Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert