Set up a meeting
ARTICLE

Postmortem: Kenapa Dalang.io Down Kemarin?

Transparansi penuh tentang insiden downtime 5-6 Februari 2026. Apa yang terjadi, kenapa bisa terjadi, dan langkah kami ke depan untuk mencegah hal serupa.

February 6, 2026
Postmortem: Kenapa Dalang.io Down Kemarin?

Postmortem: Insiden Downtime 5-6 Februari 2026

Kepada seluruh pengguna Dalang.io,

Kami ingin menyampaikan permohonan maaf atas gangguan layanan yang terjadi sejak kemarin. Sebagai bentuk transparansi, berikut penjelasan lengkap tentang apa yang terjadi.


Timeline Kejadian

WaktuKejadian
31 Jan 2026Release fitur Dalang CLI - memungkinkan pembuatan VPS via command line
5 Feb 2026 pagiLonjakan permintaan pembuatan VM yang tidak biasa
5 Feb 2026 siangNode cluster mulai overload, beberapa VM tidak responsif
5 Feb 2026 malamBeberapa node hang, layanan terganggu
6 Feb 2026Tim melakukan investigasi dan recovery

Apa yang Terjadi?

Release Dalang CLI yang Viral

Minggu lalu (31 Januari), kami merilis Dalang CLI - tool command line yang memungkinkan pembuatan dan manajemen VPS langsung dari terminal.

# Contoh penggunaan Dalang CLI
dalang service create --name my-server --cpu 2 --ram 4G --storage 20G

Fitur ini ternyata sangat populer di kalangan AI agent dan automation tools. Kemudahan CLI membuat proses provisioning VPS bisa dilakukan secara programmatic - dan banyak yang memanfaatkannya.

Lonjakan Permintaan yang Tidak Terduga

Dalam 24 jam setelah release:

  • Permintaan pembuatan VM melonjak drastis
  • Banyak request datang dari automated scripts dan AI agents
  • Pattern penggunaan sangat berbeda dari manual user biasa

Infrastruktur Kewalahan

Cluster Incus kami yang terdiri dari 3 node aktif tidak siap menghadapi lonjakan ini:

  • CPU dan memory usage mencapai limit
  • OVN network mulai tidak responsif
  • Beberapa VM mengalami kernel panic
  • Node cluster hang dan memerlukan restart

Dampak ke Pengguna

  • VM tidak bisa diakses - beberapa VM tidak responsif
  • Pembuatan VM gagal - request timeout atau error
  • Dashboard lambat - response time meningkat drastis
  • Konektivitas terputus - beberapa VM kehilangan network access

Tindakan Segera yang Kami Lakukan

1. Penambahan Node Cluster

Kami telah menambahkan 2 node baru ke cluster, masing-masing dengan 24 core dan 128GB RAM.

Total kapasitas cluster sekarang: 5 node, 120 CPU cores, 640GB RAM

2. Perbaikan Network Routing

  • Fixed OVN gateway routing issues
  • Updated bridge configurations
  • Improved network redundancy

3. Recovery VM yang Terdampak

  • Restart VM yang hang
  • Perbaikan boot configuration
  • Sinkronisasi status database

Rencana Jangka Panjang: Hyperscale Scaling

Insiden ini menunjukkan bahwa Dalang CLI sangat powerful - dan itu hal yang bagus! Tapi infrastruktur kami perlu mengikuti.

Yang Akan Kami Implementasi:

FiturDeskripsi
Auto-scaling ClusterNode baru otomatis ditambahkan saat load tinggi
Rate LimitingPembatasan request untuk mencegah abuse
Queue SystemRequest provisioning masuk antrian untuk distribusi beban
Multi-RegionDistribusi ke beberapa datacenter untuk redundancy
Resource ReservationPre-allocated resources untuk response time lebih cepat

Timeline Implementasi

  • Minggu ini: Rate limiting dan queue system
  • Februari 2026: Auto-scaling dasar
  • Q3 2026: Hyperscale architecture
  • Q4 2026: Multi-region deployment

Pelajaran yang Kami Ambil

  1. Viral features butuh persiapan khusus - CLI yang mudah digunakan oleh AI/automation perlu antisipasi scaling
  2. Monitoring perlu ditingkatkan - Alert lebih awal saat pattern usage berubah drastis
  3. Capacity planning harus proaktif - Tidak menunggu overload untuk menambah kapasitas

Terima Kasih

Terima kasih atas kesabaran dan pengertian selama insiden ini. Feedback dari kalian sangat berharga untuk kami terus berkembang.

Jika ada pertanyaan atau mengalami masalah yang belum teratasi, silakan hubungi kami di:

Tim Dalang.io


“Dari setiap insiden, kami belajar untuk menjadi lebih baik.”