Postmortem: Kenapa Dalang.io Down Kemarin?
Transparansi penuh tentang insiden downtime 5-6 Februari 2026. Apa yang terjadi, kenapa bisa terjadi, dan langkah kami ke depan untuk mencegah hal serupa.

Postmortem: Insiden Downtime 5-6 Februari 2026
Kepada seluruh pengguna Dalang.io,
Kami ingin menyampaikan permohonan maaf atas gangguan layanan yang terjadi sejak kemarin. Sebagai bentuk transparansi, berikut penjelasan lengkap tentang apa yang terjadi.
Timeline Kejadian
| Waktu | Kejadian |
|---|---|
| 31 Jan 2026 | Release fitur Dalang CLI - memungkinkan pembuatan VPS via command line |
| 5 Feb 2026 pagi | Lonjakan permintaan pembuatan VM yang tidak biasa |
| 5 Feb 2026 siang | Node cluster mulai overload, beberapa VM tidak responsif |
| 5 Feb 2026 malam | Beberapa node hang, layanan terganggu |
| 6 Feb 2026 | Tim melakukan investigasi dan recovery |
Apa yang Terjadi?
Release Dalang CLI yang Viral
Minggu lalu (31 Januari), kami merilis Dalang CLI - tool command line yang memungkinkan pembuatan dan manajemen VPS langsung dari terminal.
# Contoh penggunaan Dalang CLI
dalang service create --name my-server --cpu 2 --ram 4G --storage 20G Fitur ini ternyata sangat populer di kalangan AI agent dan automation tools. Kemudahan CLI membuat proses provisioning VPS bisa dilakukan secara programmatic - dan banyak yang memanfaatkannya.
Lonjakan Permintaan yang Tidak Terduga
Dalam 24 jam setelah release:
- Permintaan pembuatan VM melonjak drastis
- Banyak request datang dari automated scripts dan AI agents
- Pattern penggunaan sangat berbeda dari manual user biasa
Infrastruktur Kewalahan
Cluster Incus kami yang terdiri dari 3 node aktif tidak siap menghadapi lonjakan ini:
- CPU dan memory usage mencapai limit
- OVN network mulai tidak responsif
- Beberapa VM mengalami kernel panic
- Node cluster hang dan memerlukan restart
Dampak ke Pengguna
- VM tidak bisa diakses - beberapa VM tidak responsif
- Pembuatan VM gagal - request timeout atau error
- Dashboard lambat - response time meningkat drastis
- Konektivitas terputus - beberapa VM kehilangan network access
Tindakan Segera yang Kami Lakukan
1. Penambahan Node Cluster
Kami telah menambahkan 2 node baru ke cluster, masing-masing dengan 24 core dan 128GB RAM.
Total kapasitas cluster sekarang: 5 node, 120 CPU cores, 640GB RAM
2. Perbaikan Network Routing
- Fixed OVN gateway routing issues
- Updated bridge configurations
- Improved network redundancy
3. Recovery VM yang Terdampak
- Restart VM yang hang
- Perbaikan boot configuration
- Sinkronisasi status database
Rencana Jangka Panjang: Hyperscale Scaling
Insiden ini menunjukkan bahwa Dalang CLI sangat powerful - dan itu hal yang bagus! Tapi infrastruktur kami perlu mengikuti.
Yang Akan Kami Implementasi:
| Fitur | Deskripsi |
|---|---|
| Auto-scaling Cluster | Node baru otomatis ditambahkan saat load tinggi |
| Rate Limiting | Pembatasan request untuk mencegah abuse |
| Queue System | Request provisioning masuk antrian untuk distribusi beban |
| Multi-Region | Distribusi ke beberapa datacenter untuk redundancy |
| Resource Reservation | Pre-allocated resources untuk response time lebih cepat |
Timeline Implementasi
- Minggu ini: Rate limiting dan queue system
- Februari 2026: Auto-scaling dasar
- Q3 2026: Hyperscale architecture
- Q4 2026: Multi-region deployment
Pelajaran yang Kami Ambil
- Viral features butuh persiapan khusus - CLI yang mudah digunakan oleh AI/automation perlu antisipasi scaling
- Monitoring perlu ditingkatkan - Alert lebih awal saat pattern usage berubah drastis
- Capacity planning harus proaktif - Tidak menunggu overload untuk menambah kapasitas
Terima Kasih
Terima kasih atas kesabaran dan pengertian selama insiden ini. Feedback dari kalian sangat berharga untuk kami terus berkembang.
Jika ada pertanyaan atau mengalami masalah yang belum teratasi, silakan hubungi kami di:
- Email: [email protected]
Tim Dalang.io
“Dari setiap insiden, kami belajar untuk menjadi lebih baik.”
