Gute Incident-Kommunikation lindert den Schmerz

Am 1. April war den Ops-Kollegen der Amazon Web Services wohl nicht nach Scherzen zumute. Jedenfalls nicht mehr nach 3 Stunden Teilausfall im Amazon-Rechenzentrum an der amerikanischen Ostküste. Ich bin durch einen Bericht auf SearchCloudComputing auf diesen Fall aufmerksam geworden.

Bemerkenswert finde ich dabei zwei Dinge:

Erstens hatte Amazon die Krisenkommunikation, anders als bei vorhergehenden Störungen, offensichtlich sehr gut im Griff. Auf Blog und Statusseite gab Amazon ausführlich Einblick in den Ausfall und seine Hintergründe. Man gab dabei auch unumwunden zu, dass ein vorher nicht getesteter Rollout zu der Störung führte. Dem Artikel auf SearchCloudComputing ist zu entnehmen, dass diese Transparenz durchaus Lob auch bei den betroffenen Kunden fand.

Zweitens finde ich es interessant, wie spät der Auslöser korrekt diagnostiziert wurde. Zunächst vermutete das Ops-Team von Amazon nämlich einen Kapazitätsengpass und versuchte, durch zusätzliche IT-Ressourcen Abhilfe zu schaffen. Erst als schließlich klar wurde, dass auf jeden Fall genug Leistung zur Verfügung steht, verwarf man die Hypothese und suchte erneut nach der wahren Ursache. Diesen zeitraubenden Irrweg will Amazon durch genaue Analyse des Falls und eine geeignete Anpassung des Monitorings in Zukunft vermeiden.

If you have any questions or would like to discuss a topic, tweet me @geewiz or join the chat on my Discord server!