Warum RZs ausfallen und was man daraus lernen sollte

Grosse RZ-Crashes in der zweiten Hälfte des letztesn Jahres. Quelle: 451 Research.
Viele grosse RZ-Crashes im letzten Jahr haben gemeinsame Züge, sagt eine Studie.
 
Das IT-Beratungsunternehmen 451 Research hat die grössten und folgenreichsten Ausfälle der IT- und anderer Infrastruktur in Rechenzentren im letzten Jahr analysiert und versucht, daraus allgemeingültige Lehren zu ziehen. Die aufgelisteten Vorfälle stammen zwar alle aus den USA und Grossbritannien, die Infrastrukturspezialisten von 451 Research glauben aber, dass die gewonnenen Erkenntnisse durchaus Allgemeingültigkeit haben.
 
Auch wenn man diesen Eindruck aufgrund der gehäuften Medienberichte haben könnte: Ausfälle in Rechenzentren, so betonen die Fachleute, sind heutzutage, wenn man Ausfallzeiten ins Verhältnis zu den zusammengezählten Laufzeiten setzt, viel seltener als früher. Aber weil unsere ganze Gesellschaft immer abhängiger von IT-Systemen wird, und gleichzeitig diese IT-Systeme immer stärker untereinander vernetzt sind, haben Ausfälle heute gleichzeitig deutlich weitergehende Auswirkungen.
 
Das wiederum verstärkt auch den Druck auf die Verantwortlichen, auch wenn diese gar nicht direkt involviert sind. Sowohl bei Delta als auch Southwest Airlines gab es beispielsweise nach den Ausfällen in ihren RZs Forderungen nach dem Rücktritt der CEOs.
 
Die Lehren
In einer kurzen Zusammenfassung der Erkenntnisse (PDF) umreisst 451 Research die gewonnenen Lehren. Hier einige davon:
 
Verkettung der Umstände
Die Ausfälle des letzten Jahres haben auffallend oft mit Problemen bei der Stromversorgung oder -Verteilung begonnen. Aber Ausfälle in Rechenzentren, betont 451 Research weiter, hätten fast nie nur eine Ursache. Bei Delta sei beispielsweise ein kurzes Problem mit der Stromversorgung dadurch verschärft worden, weil einige Server nur an eine der beiden redundanten Stromversorgungen angeschlossen waren. Dies wurde weiter kompliziert, weil einige Recovery-Systeme den Neustart von Services nicht korrekt durchführten, und dadurch wiederum Datenbanken
korrumpiert wurden.
 
Man kann nie alles vorhersehen (sollte es aber versuchen)
Es gibt immer unvorhergesehene Probleme. Bei ING legte beispielsweise der Lärm des Feuerbekämpfungssystems einige Harddisks lahm. Dies hatte man sogar vorhergesehen und Gegenmassnahmen vorgenommen, aber dabei nicht damit gerechnet, dass moderne Harddisks noch empfindlicher sind, als ältere Modelle.
 
Ausfälle sind nicht mehr "binär"
Ausfälle sind nicht mehr "binär". Früher lief ein Service entweder, oder er lief nicht. Heutzutage sind Applikationen aber oft verteilt, auch auf mehrere Rechenzentren, und sind ihrerseits mit anderen RZ-Services verbunden. Ausfälle sind daher oft partiell, einige Komponenten funktionieren gut, andere schlecht oder gar nicht, einige Systeme fallen als Folge davon aus, anderen fehlen wichtige Daten. Dies macht die Diagnose und Problemlösung viel schwieriger. Ausserdem können nach dem Motto "Wer ist nun wirklich schuld" Vertragsstreitereien ausgelöst werden. (Hans Jörg Maron)