Cloudflare incidens
2024. június 20-án, csütörtökön két egymástól független esemény 114 percig tartó késleltetési és hibaarány-növekedést okozott az internetes tulajdonságok és a Cloudflare-szolgáltatások esetében. A hatás 30 perces csúcsidőszakában azt tapasztalta a Cloudflare, hogy a CDN-ünkhöz érkező HTTP-kérések 1,4-2,1%-a kapott általános hibát, és a 99. percentilis Time To First Byte (TTFB) késleltetési idejének 3x-os növekedését figyelték meg.
Ezek az események azért következtek be, mert:
Az automatizált hálózatfigyelés teljesítményromlást észlelt, a forgalmat szuboptimálisan átirányította, és a gerinchálózat túlterheltségét okozta 17:33 és 17:50 UTC között.
A 14:14 és 17:06 UTC között bevezetett új elosztott szolgáltatásmegtagadási (DDoS) védelmi mechanizmus egy látens hibát idézett elő a sebességkorlátozó rendszerünkben, amely lehetővé tette, hogy a HTTP-kérés egy bizonyos formája végtelen ciklusba juttassa az azt kezelő folyamatot 17:47 és 19:27 UTC között.
Ezen események hatását a világ számos Cloudflare adatközpontjában észlelték.
Az első a hálózati gerinctorlódás volt, amelyet a Cloudflare rendszerei automatikusan javítottak. A másodikat a hibás szolgáltatás rendszeres újraindításával enyhítették, miközben azonosították és deaktiválták a hibát kiváltó DDoS-szabályt.
A Cloudflare elnézést kért az esetleges fennakadásokért, amelyeket ez okozott ügyfeleiknek és a szolgáltatásokhoz hozzáférni próbáló végfelhasználóknak.
A hibás szolgáltatás látens hibájának aktiválásához szükséges feltételek éles környezetükben már nem lehetségesek, ezért a lehető leghamarabb további javításokat és észleléseket tesznek.