Cloudflare zum zweiten Mal innert einer Woche down (Update)

Und inside-it.ch und inside-channels.ch deshalb auch.
 
Wie einige unserer Leser bemerkt haben, waren wir von ca 15.45 Uhr bis 16.20 Uhr down. Der Grund war, dass Cloudflare, der global tätige Provider der uns vor DDoS-Angriffen schützt, technische Probleme hatte.
 
Zunächst gab Cloudflare auf seiner Statusseite zu diesem Vorfall lediglich an, dass es sich um "Network Performance Issues" gehandelt habe. Betroffen waren Cloudflare-Instanzen rund um die Welt, darunter auch die in Zürich und Genf. Mittlerweile habe man eine Lösung für das Problem gefunden und implementiert.
 
Als Grund hat Cloudflare mittlerweile eine Spitze bei der Belastung der CPUs angegeben, die sowohl Primär- als auch Sekundärsysteme dazu gebracht habe, ihren Dienst zu verweigern. Den Prozess, der die Spitze verursacht habe, habe man daraufhin geschlossen, so dass die Systeme nach 30 Minuten wieder normal arbeiteten.
 
(Update 3.7.2019): Die Belastungsspitze wurde, wie Cloudflare mittlerweile präzisiert hat, durch einen fehlerhaften Firewall-Prozess verursacht. Dies habe zunächst ausgesehen, als ob eine DDoS-Attacke im Gange sei. Dieser Verdacht habe sich aber nach kurzer Zeit verflüchtigt. "Das war ganz klar ein Fehler von Cloudflare selbst", wie CEO Matthew Prince erklärte.
 
Cloudflare hatte schon am 24. Juni Probleme, die Kunden auf der ganzen Welt betrafen. inside-it.ch und inside-channels.ch waren damals nur schwer zu erreichen, viele andere Kundensites weltweit gar nicht. Cloudflare gab zuerst genau wie heute generell Netzwerk-Probleme als Ursache an. Später identifizierte Cloudflare dann ein "BGP Routing Leak" als Grund für die Störung. Es sei aber nicht nur Cloudflare betroffen gewesen, sondern auch andere Internetunternehmen.
 
Und Matthew Prince gab damals in einem Tweet dem Border Gateway Protocol (BGP) sowie zwei grossen Carriern die Schuld: "Die Teams bei Verizon und Noction sollten unglaublich beschämt sein über ihre Fehler heute morgen, die Cloudflare und weitere grosse Teile des Internet betrafen. Es ist absurd, dass BGP so anfällig ist. Und es ist noch absurder, dass Verizon blind Routen akzeptiert ohne grundlegende Filter einzusetzen."
 
Das BGP wurde 1989 entwickelt. Im Prinzip sagt es, welchen Weg Daten vom Sender zum Empfänger nehmen sollen. Gewisse ISPs und andere grosse Organisationen veröffentlichen und aktualisieren diese Routen für den Bereich, für den sie zuständig sind. Diese Information wird dann von anderen übernommen. Ein Routing Leak bedeutet, dass eine Fehlinformation veröffentlicht wurde und sich im Internet ausgebreitet hat. Eine Fehlinformation kann beispielsweise durch einen schlichten Tippfehler entstehen. Dies ist einer der Gründe für die Anfälligkeit des BGP. (Hans Jörg Maron)