Penyebab Gangguan Besar yang Melumpuhkan Banyak Situs Internet
Cloudflare akhirnya mengungkap penyebab gangguan besar yang sempat membuat banyak situs internet tidak bisa diakses. Dalam laporan yang diterbitkan, CEO Cloudflare, Matthew Prince, menjelaskan bahwa masalah utama berasal dari kesalahan instruksi yang diberikan ke Basis Data ClickHouse, tempat perusahaan menyimpan berbagai data operasional.
Kesalahan instruksi tersebut memengaruhi sistem manajemen bot, yang bertugas mengatur program otomatis. Instruksi yang salah menyebabkan ClickHouse menggandakan aturan kerja sistem berkali-kali, sehingga beban data melonjak dan membuat sistem manajemen bot mengalami kegagalan.
Gagalnya sistem manajemen bot berdampak signifikan pada sistem proksi inti Cloudflare. Sistem ini secara otomatis menutup koneksi sebagai langkah keamanan. Akibatnya, banyak situs yang menggunakan layanan Cloudflare menjadi tidak bisa diakses, bahkan oleh pengguna yang sah.
Sebelumnya, Cloudflare menyatakan bahwa sekitar 20 persen situs web global berjalan melalui jaringannya. Jaringan ini dirancang untuk menjaga situs tetap aktif meskipun menghadapi lonjakan trafik atau serangan DDoS. Namun, gangguan kali ini menyebabkan berbagai layanan berhenti beroperasi, termasuk X, ChatGPT, serta layanan pelacak gangguan Downdetector.
Situasi ini mirip dengan gangguan sebelumnya yang disebabkan oleh masalah pada Microsoft Azure dan Amazon Web Services. Untuk mencegah kejadian serupa di masa depan, Cloudflare telah menyiapkan empat langkah perbaikan.
Berikut adalah langkah-langkah yang diambil oleh Cloudflare:
Penguatan sistem penerimaan data baru
Tujuannya adalah agar tidak terjadi penggandaan aturan kerja yang dapat menyebabkan beban data meningkat tajam.Pemasangan tombol darurat tambahan
Tombol ini akan memungkinkan tim teknis untuk segera mengambil tindakan jika terjadi gangguan mendadak.Pemeriksaan ulang seluruh komponen sistem penting
Setiap komponen kritis akan diperiksa ulang untuk memastikan stabilitas dan keandalan sistem.Peningkatan sistem pemantauan real-time
Sistem pemantauan akan ditingkatkan untuk memberikan informasi lebih cepat tentang potensi gangguan sebelum terjadi.
Dengan langkah-langkah ini, Cloudflare berharap dapat menghindari kejadian serupa di masa depan dan tetap menjaga keandalan layanannya bagi pengguna di seluruh dunia.



