Zwei Tage Probleme mit dem Login – Was war passiert?

Philipp
13.09.2018 1 2:07 min

Für viele unserer Kunden ist die Telefonie elementarer Bestandteil ihres Geschäfts. Teil davon ist, jederzeit im Account Einstellungen vornehmen zu können. Das war zahlreichen Kunden durch ein Problem beim Login vom Morgen des 6. Septembers 2018 bis zum Abend des darauffolgenden Tages zu bestimmten Zeiten nicht möglich. Die Telefonie selbst und alle verbundenen Services waren von der Störung nicht betroffen, so dass alle Kunden durchgehend wie gewohnt telefonieren konnten. Im Folgenden erklären wir, was geschehen ist und wie wir in Zukunft sicherstellen, dass so etwas nicht noch mal passiert.

Warum kam es zu dem Vorfall?

Ein Notfall-Team, das sich umgehend nach dem Auftreten der ersten Störungen gebildet hatte, konnte die Ursache schnell ausfindig machen: Eine ungewöhnlich hohe Last auf unseren Login-Servern führte zu Performance-Problemen, die ein Einloggen für Kunden teilweise unmöglich machten. Die Login-Server prüfen bei jeder Aktion, z. B. beim Einrichten einer Weiterleitung, beim Login selbst oder beim Hinzufügen eines neuen Kontakts, ob der Nutzer noch eingeloggt ist. Ein einzelner Klick im Account kann mehrere Abfragen auslösen, die die Rechenleistung der Server beanspruchen. Für gewöhnlich ist das kein Problem. Durch einen vorab jedoch schwer einzuschätzenden Anstieg der Nutzeraktivität, kam es im genannten Zeitraum immer wieder zu einer Überlastung der Server und somit zu den Störungen beim Login.

Wie steht es um die Sicherheit meiner Daten?

Zu keinem Zeitpunkt waren Nutzerdaten gefährdet. Nachdem wir die Lastprobleme als Ursache identifizieren konnten, haben wir den gesamten Login-Prozess analysiert. Das ist ein standardmäßiger Ablauf, um jeglichen Eventualitäten vorzubeugen.

Was unternehmt ihr, um solche Vorfälle in Zukunft zu verhindern?

Aus diesem sehr ärgerlichen Vorfall haben wir einiges gelernt: Wir müssen und wollen noch mehr Energie darauf verwenden, unsere Systeme zu überwachen, damit wir früher erkennen, ob etwas auszufallen droht. Wir haben mehrere Maßnahmen ergriffen, damit ein weiterer Vorfall in Zukunft ausbleibt. Zum einen sind die Kapazitäten der Login-Server jetzt deutlich größer, so dass die Lastgrenze höher liegt. Zum anderen haben wir einen neuen, automatisierten Dienst implementiert, der einen externen Blick auf die Last des Logins hat. Wir erfahren ab sofort also direkt, wenn die Last überproportional stark zunimmt und können handeln, bevor etwas in die falsche Richtung läuft.

Ein Kommentar


Volker Löschhorn:

Ich finde euren transparenten Umgang mit Problemen gut. Oft ist es gar nicht das Problem das ärgert, sondern die mangelnde Information darüber.

antworten

Schreibe einen Kommentar zu Volker Löschhorn Antworten abbrechen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert