Google Cloud Status: Stromausfall führt zu 12-Stunden Ausfall in Frankfurt

Am 23. Oktober 2024 kam es zu einem schwerwiegenden Ausfall der Google Cloud-Dienste in der Region europe-west3, die sich in Frankfurt, Deutschland, befindet. Der Vorfall begann um 02:30 Uhr Ortszeit und dauerte insgesamt 12 Stunden und 39 Minuten (The Register, 25.10.2024).

Stromausfall und Kühlprobleme: Google Cloud-Dienste in Europa zeitweise lahmgelegt

Die Ursache für den Ausfall war ein Stromausfall in Verbindung mit Kühlungsproblemen, die dazu führten, dass Teile einer der drei Zonen der Region, europe-west3-c, heruntergefahren wurden. Dies hatte zur Folge, dass zahlreiche Google Cloud-Dienste beeinträchtigt waren.

Stromausfall in Googles Cloud-Region Frankfurt: 12-stündige Störung wichtiger Dienste am 23.10.2024 zeigt die Bedeutung von Redundanz.

Nutzer erlebten eine Reihe von Problemen bei verschiedenen Google Cloud-Diensten. Bei der Google Compute Engine kam es zu Fehlern bei der Erstellung von virtuellen Maschinen, Verzögerungen bei der Verarbeitung von Löschvorgängen und einige Instanzen in der betroffenen Zone waren für Operationen nicht verfügbar. Im Google Kubernetes Engine waren Knoten am betroffenen Standort nicht erreichbar, und einige Versuche, neue Knoten zu erstellen, schlugen fehl.

Google-Ingenieure implementierten eine Lösung, um das Rechenzentrum wieder in den Vollbetrieb zu versetzen und das Problem zu beheben. Während des Ausfalls empfahl Google den betroffenen Nutzern, Workloads in andere Regionen oder Zonen zu verlagern.

Ursachen und technische Details

Der Ausfall der Google Cloud-Dienste in Frankfurt wurde durch einen Stromausfall in Verbindung mit Kühlungsproblemen verursacht. Dies führte dazu, dass Teile der Zone europe-west3-c heruntergefahren werden mussten. Google-Ingenieure arbeiteten intensiv an einer Lösung, um das Rechenzentrum wieder in den Vollbetrieb zu versetzen und das Problem zu beheben.

Die Auswirkungen des Ausfalls waren weitreichend und betrafen verschiedene Google Cloud-Dienste. Bei der Google Compute Engine kam es zu Fehlern bei der Erstellung virtueller Maschinen und Verzögerungen bei Löschvorgängen. Einige Instanzen in der betroffenen Zone waren für Operationen nicht verfügbar. Im Google Kubernetes Engine waren Knoten am betroffenen Standort nicht erreichbar, und Versuche, neue Knoten zu erstellen, schlugen teilweise fehl.

Weitere betroffene Dienste umfassten Cloud Build, Cloud Developer Tools, Cloud Machine Learning, Google Cloud Dataflow, Google Cloud Dataproc, Google Cloud Pub/Sub, Persistent Disk und Vertex AI Batch Prediction. Bei Google Cloud Dataflow gab es Verzögerungen beim Skalieren von Workern für Batch-Jobs, und einige Streaming-Jobs konnten nicht ordnungsgemäß fortgesetzt oder skaliert werden.

Google reagierte auf den Vorfall, indem es betroffenen Nutzern empfahl, Workloads in andere Regionen oder Zonen zu verlagern. Für Nutzer mit beeinträchtigten regionalen persistenten Festplatten wurde empfohlen, regelmäßige Snapshots zu erstellen.

Dieser Vorfall unterstreicht die Bedeutung von Redundanz und Disaster Recovery-Plänen in der Cloud-Infrastruktur. Er zeigt auch, wie wichtig es ist, dass Cloud-Anbieter wie Google robuste Systeme zur Erkennung und Behebung von Störungen haben, um die Auswirkungen auf Kunden zu minimieren.

Auswirkungen auf Kunden und Unternehmen

Der 12-stündige Ausfall der Google Cloud in Frankfurt hatte weitreichende Folgen für Kunden und Unternehmen. Viele Nutzer erlebten eine Reihe von Problemen bei verschiedenen Google Cloud-Diensten. Bei der Google Compute Engine kam es zu Fehlern bei der Erstellung von virtuellen Maschinen und Verzögerungen bei der Verarbeitung von Löschvorgängen. Einige Instanzen in der betroffenen Zone waren für Operationen nicht verfügbar, was die Arbeit vieler Unternehmen erheblich beeinträchtigte.

Im Google Kubernetes Engine waren Knoten am betroffenen Standort nicht erreichbar, und einige Versuche, neue Knoten zu erstellen, schlugen fehl. Dies führte zu Problemen bei der Skalierung und Verwaltung von Containeranwendungen. Persistent Disk-Instanzen waren ebenfalls nicht erreichbar, was Operationen auf diesen Speichermedien verhinderte und möglicherweise zu Datenzugriffsproblemen führte.

Nutzer von Google Cloud Dataflow sahen sich mit Verzögerungen beim Skalieren von Workern für Batch-Jobs konfrontiert, und einige Streaming-Jobs konnten nicht ordnungsgemäß fortgesetzt oder skaliert werden. Dies hatte direkte Auswirkungen auf die Datenverarbeitung und -analyse vieler Unternehmen.

Der Ausfall unterstreicht die Bedeutung von Redundanz und Disaster Recovery-Plänen in der Cloud-Infrastruktur. Unternehmen, die stark von Google Cloud-Diensten abhängig sind, erlebten möglicherweise erhebliche finanzielle Einbußen und Mehrkosten aufgrund des Ausfalls. Dies zeigt, wie wichtig es ist, dass Cloud-Anbieter wie Google robuste Systeme zur Erkennung und Behebung von Störungen haben, um die Auswirkungen auf Kunden zu minimieren. Der Ausfall von Cloud Systemen wird mittlerweile als eines der Top Risiken für Unternehmen. Der 12 Stündige Ausfall zeigt die massiven Auswirkungen eines einfachen Stromausfalls.

Lesen Sie auch: