Die cloudbasierten Dienste wie Microsoft-Teams und Microsoft-Office sind in vielen Unternehmen und selbst bei vielen privaten Nutzern längst eine Selbstverständlichkeit. Entsprechend groß war die Verwunderung, als es am frühen Morgen des 25. Januar zu globalen Problemen bei der Nutzung der unterschiedlichen Dienste kam. Da gerade durch die verstärkte Remote-Nutzung eine 100%-Verfügbarkeit der Dienste für Unternehmen während der normalen Geschäftszeiten von großer Bedeutung ist, kam es auch zu entsprechenden Beschwerden. Nach einer vorläufigen Erklärung, wonach es zu einem Problem bei einem Netzwerk-Change kam, hat man nun eine tiefere Ursachenforschung betrieben.

Der Ablauf des Ausfalls der Microsoft-Dienste

Erste Meldungen über Probleme mit den Diensten waren ab 08:05 auf unterschiedlichen Plattformen zu lesen und besonders auf Twitter und in an den sozialen Netzwerken entstand schnell ein reger Austausch. Dabei waren die Probleme der Nutzer anfänglich auf ganz unterschiedliche Weise vorhanden: Während die einen Nutzer grundsätzlich keine Konnektivität mit den Diensten mehr hatten, schienen bei anderen partielle Ausfälle einiger Funktionen zu erfolgen. Besonders hohe Latenzen machten die Dienste selbst bei jenen, die noch eine Verbindung herstellen konnten, quasi unbenutzbar. Dieser Zustand hielt bis etwa 13:45 an und machte damit die Arbeit für viele Unternehmen und Behörden für den gesamten Vormittag unmöglich.

Recht schnell wurde den ersten Nutzern klar, dass es sich um ein Problem in der Azure Cloud Umgebung von Microsoft handelte, die die Basis für diese Dienste zur Verfügung stellt. Bereits wenige Minuten, nachdem die ersten Ausfälle bei den Benutzern bemerkt wurden, gab es Nachrichten von Microsoft. Diese haben dabei auch auf den inzwischen so wichtigen Social Media Plattformen die Benutzer über den Fortschritt bei der Fehlerbehebung mitgenommen. Nachdem ein Netzwerk-Change ursprünglich als Ursache angenommen wurde - und eine Behebung einfach dadurch in die Wege geleitet wurde, dass die letzten Änderungen rückgängig gemacht worden sind - hat man sich einige Tage später ein wenig detaillierter zu den Problemen geäußert.

Probleme bei der Qualitätssicherung bei komplexen Prozessen?

Laut den Berichten, die von Microsoft und den verbundenen Partnern zur Verfügung gestellt wurden, war ein WAN-Change innerhalb der Infrastruktur von Azure angedacht. Der Befehl zum IP-Wechsel, der eigentlich nur an einen Router geleitet werden sollte, wurde aber an alle Router weitergeleitet, woraufhin es zu Problemen in den entsprechenden Weiterleitungs-Tabellen der Serverstruktur kam. Genauere Informationen, ob es sich um ein komplett falsches Routing oder nur um einen falsch ausgeführten Befehl handelte, stehen bisher noch nicht zur Verfügung, dürften allerdings dem detaillierten Report von Microsoft zu entnehmen sein, der in etwa zwei Wochen zur Verfügung stehen soll.

Nachdem diese erste Ursachenbeschreibung vorhanden war, wunderten sich einige Experten über die konkrete Ausführung innerhalb des Netzwerks. Hier wurde angemerkt, dass der Fehler eigentlich schon lange vorher hätte bemerkt werden müssen - nämlich bei den Tests an den entsprechenden Systemen. Tatsächlich scheint es so zu sein, als würde hier ein klarer Fehler in der Qualitätskontrolle von Azure oder Microsoft aufgedeckt. Auf der anderen Seite wurde allerdings auch gelobt, wie schnell das Unternehmen auf den entsprechenden Fehler reagiert hat. Letztlich wurde binnen von wenigen Minuten der Fehler erkannt und ein Prozess in die Wege geleitet, um die technischen Probleme zu beheben. Leider dauerte das Zurücksetzen der Systeme auf den alten Stand dann doch mehrere Stunden und konnte daher erst gegen Mittag erfolgreich abgeschlossen werden.

Debatten über die Verlässlichkeit bei der Nutzung von Cloud-basierten Diensten

Während solche Fehler mit Sicherheit passieren können und am Ende vermutlich dafür gesorgt haben, dass manch einer im Homeoffice einen ruhigen Vormittag hatte, hat es auch wieder die Debatte rund um die verstärkte Nutzung von Diensten in der Cloud angeregt. Sowohl in kleinen- und mittelständischen Unternehmen als auch bei Konzernen, Behörden und immer mehr Freelancern ist die Nutzung von solchen Diensten längst zu einer Selbstverständlichkeit geworden. Immerhin soll die dezentrale Infrastruktur nicht nur für eine maximale Flexibilität sorgen, sondern bietet in der Regel auch deutliche Vorteile bei den Kosten, wenn man es in den Vergleich mit einer eigenen Software-Lösung setzt.

Diese Vorteile sind aber natürlich nur dann wirklich vorhanden, wenn man sicher gehen kann, dass die Systeme eine beinahe 100%-ige Ausfallsicherheit haben. In den letzten Jahren gab es zwar wenige Ausfälle bei den besonders beliebten Systemen und Cloud-Anbietern - wenn es aber dazu kam, hat es stets auch die Verletzlichkeit der Systeme gezeigt. Indem man sich vollständig auf externe Dienste verlässt, kann es im Zweifel dazu kommen, dass der eigene Betrieb stillsteht und es nichts gibt, was man dagegen machen kann. Entsprechend gilt auch hier wieder die Frage, wie man die eigene Infrastruktur aufbaut, um genau das richtige Maß zwischen maximaler Funktionsweise und höchster Ausfallsicherheit zu haben. Es sollte daher in jedem Unternehmen zumindest ein grober Plan vorhanden sein, wie man damit umgeht, wenn die Fremdsysteme für eine bestimmte Zeit nicht zur Verfügung stehen.

Wie es mit dem kleinen Fehler bei Microsoft-Teams und den anderen Diensten weitergeht, wird man wohl in etwa 14 Tagen herausfinden. Dann will Microsoft einen umfassenderen Bericht darüber herausgeben, was genau passiert ist und wie man solche Fehler in der Zukunft vermeiden möchte.

Cookie-Einwilligung mit Real Cookie Banner