What about the normalization trap: when "proper" design becomes a performance nightmare?

Fresh out of university, I was obsessed with database normalization. Third normal form wasn't just a guideline—it was gospel. When I joined a logistics startup in 2013, I designed our shipment tracking system with religious adherence to normalization principles. Every piece of data had its own...

What about the uuid disaster: when "best practices" destroy your performance?

In 2016, I was building a social media analytics platform. We expected to scale globally, so I made what seemed like a smart decision: using UUIDs as primary keys instead of auto-incrementing integers. Every article I read recommended UUIDs for distributed systems. They're globally unique, they...

What about ignoring indexes: the $40,000 query?

This mistake happened during my time at a healthcare startup in 2017. We'd built a patient management system that worked beautifully during development and initial rollout. Then a large hospital network signed on, bringing 250,000 patient records into our system overnight. Suddenly, a report that...

What about the soft delete catastrophe: when "never delete anything" breaks everything?

In 2018, I was consulting for an e-commerce platform that had adopted a "soft delete" strategy for everything. Instead of actually deleting records, they added a deleted_at timestamp column and filtered it out in queries. The reasoning was sound: you never lose data, you can restore deleted items,...

What about premature sharding: the complexity that nearly killed us?

This is perhaps my most expensive mistake. In 2019, I was the lead architect for a new SaaS platform. We had ambitious growth projections—10 million users in the first year. I'd read about how Facebook and Twitter scaled with database sharding, so I designed our system to be sharded from day one....

Database Design Mistakes I Made So You Don't Have To \u2014 COD-AI.com [Bahasa]

💡 Key Takeaways

The Normalization Trap: When "Proper" Design Becomes a Performance Nightmare
The UUID Disaster: When "Best Practices" Destroy Your Performance
Ignoring Indexes: The $40,000 Query
The Soft Delete Catastrophe: When "Never Delete Anything" Breaks Everything

Tiga tahun yang lalu, saya menyaksikan database startup kami terhenti total saat peluncuran produk. Kami memiliki 50.000 pengguna yang mencoba mendaftar secara bersamaan, dan waktu respons kami membengkak dari 200ms menjadi 47 detik. Penyebabnya? Serangkaian kesalahan desain database yang saya buat enam bulan sebelumnya ketika kami hanya lima orang di sebuah garasi. Malam itu menghabiskan biaya $180.000 dalam pendapatan yang hilang dan hampir menghancurkan reputasi kami sebelum kami bahkan mulai.

💡 Poin Penting

Jebakan Normalisasi: Ketika Desain "Tepat" Menjadi Mimpi Buruk Kinerja
Bencana UUID: Ketika "Praktik Terbaik" Menghancurkan Kinerja Anda
Mengabaikan Indeks: Kuery $40,000
Bencana Soft Delete: Ketika "Jangan Pernah Menghapus Apa Pun" Menghancurkan Segalanya

Saya Marcus Chen, dan saya telah menghabiskan 12 tahun terakhir sebagai arsitek database, tujuh tahun terakhir khususnya membantu perusahaan SaaS berkembang dari nol hingga jutaan pengguna. Saya telah merancang sistem untuk platform fintech yang memproses 2 juta transaksi setiap hari, aplikasi kesehatan yang mengelola 15TB data pasien, dan situs e-commerce yang menangani lonjakan trafik pada Black Friday. Tetapi pendidikan paling berharga saya datang dari kesalahan yang saya buat di awal karier saya—kesalahan yang mengajarkan saya lebih banyak daripada sertifikasi atau buku teks mana pun.

Artikel ini bukan tentang praktik terbaik secara teoritis. Ini tentang kesalahan spesifik, menyakitkan, dan mahal yang saya buat di lingkungan produksi, dan pelajaran berharga yang dihasilkan. Jika Anda sedang membangun apa pun yang menyimpan data—apakah itu proyek akhir pekan atau unicorn berikutnya—pelajaran ini bisa menyelamatkan Anda dari berbulan-bulan refactoring dan banyak malam tanpa tidur.

Jebakan Normalisasi: Ketika Desain "Tepat" Menjadi Mimpi Buruk Kinerja

Baru lulus dari universitas, saya terpaku pada normalisasi database. Bentuk normal ketiga bukan hanya pedoman—itu adalah doktrin. Ketika saya bergabung dengan sebuah startup logistik pada tahun 2013, saya merancang sistem pelacakan pengiriman kami dengan kepatuhan yang sangat ketat terhadap prinsip-prinsip normalisasi. Setiap potongan data memiliki tabelnya sendiri, setiap hubungan dimodelkan dengan sempurna, dan tidak ada sedikit pun redundansi di mana pun.

Sistem ini secara akademis indah. Itu juga sangat lambat.

Untuk menampilkan rincian pengiriman tunggal—sesuatu yang dilakukan pengguna ribuan kali per jam—diperlukan penyatuan 11 tabel. Waktu kueri rata-rata kami adalah 3,2 detik. Untuk sebuah halaman pelacakan. Pengguna meninggalkan situs sebelum halaman bahkan dimuat. CEO kami memanggil saya ke kantornya dan mengajukan pertanyaan yang masih menghantui saya: "Mengapa FedEx memuat dengan instan tetapi halaman kami memerlukan waktu lebih lama daripada sebenarnya mengirim paket?"

Inilah yang saya pelajari: normalisasi adalah alat, bukan agama. Bentuk normal ketiga dirancang untuk mencegah anomali data dan mengurangi biaya penyimpanan—masalah yang masuk akal ketika ruang disk berharga $10,000 per gigabyte pada tahun 1985. Di tahun 2026, penyimpanan pada dasarnya gratis, tetapi rentang perhatian pengguna diukur dalam milidetik. Beberapa kilobyte data redundan adalah biaya sepele dibandingkan dengan kehilangan pengguna karena waktu muat yang lambat.

Pemecahannya memerlukan denormalisasi data yang paling sering diakses. Kami membuat tabel shipment_summary yang menggandakan informasi dari beberapa tabel normalisasi. Ya, itu melanggar bentuk normal ketiga. Ya, itu memerlukan logika tambahan untuk menjaga sinkronisasi. Tetapi waktu kueri turun dari 3,2 detik menjadi 180 milidetik—perbaikan 94%. Metode keterlibatan pengguna kami pulih dalam seminggu.

Pelajaran di sini bukan untuk sepenuhnya meninggalkan normalisasi. Ini untuk memahami bahwa desain database adalah tentang pertukaran. Normalisasi data transaksi Anda di mana konsistensi sangat penting. Denormalisasi data yang banyak dibaca di mana kinerja lebih penting. Dalam kasus kami, kami mempertahankan struktur normalisasi untuk entri data dan pembaruan, tetapi mempertahankan tampilan denormalisasi untuk kueri yang dihadapi pengguna. Pendekatan hibrida ini memberi kami integritas data dan kinerja.

Sekarang, ketika saya berkonsultasi dengan startup, saya melihat kesalahan yang sama berulang kali. Pengembang junior, baru lulus dari kursus database, terlalu banyak melakukan normalisasi pada segala hal. Mereka menciptakan sistem yang secara teoritis sempurna tetapi praktis tidak dapat digunakan. Aturan umum saya: jika kueri umum memerlukan lebih dari tiga joins, Anda mungkin terlalu banyak melakukan normalisasi untuk kasus penggunaan tersebut. Rancang untuk pola akses aktual Anda, bukan untuk kemurnian teoritis.

Bencana UUID: Ketika "Praktik Terbaik" Menghancurkan Kinerja Anda

Pada tahun 2016, saya sedang membangun platform analitik media sosial. Kami mengharapkan untuk berkembang secara global, jadi saya membuat keputusan yang tampaknya cerdas: menggunakan UUID sebagai kunci utama alih-alih bilangan bulat yang meningkat otomatis. Setiap artikel yang saya baca merekomendasikan UUID untuk sistem terdistribusi. Mereka unik secara global, mereka mencegah serangan enumerasi, dan mereka memungkinkan Anda menghasilkan ID di sisi klien. Apa yang bisa salah?

"Normalisasi adalah alat, bukan agama. Saat Anda memprioritaskan kemurnian teoretis di atas kinerja dunia nyata, Anda telah kehilangan pertempuran."

Semuanya, seperti yang ternyata.

Enam bulan setelah peluncuran, dengan 2 juta pengguna dan 500 juta rekaman, kinerja database kami menurun secara misterius. Kuery yang seharusnya cepat memerlukan waktu berdetik-detik. Ukuran database kami membengkak menjadi 340GB—jauh lebih besar daripada volume data kami yang dijelaskan. Yang paling mengkhawatirkan, kinerja pengisian kami turun 60% dibandingkan hari-hari awal kami, meskipun kami telah meningkatkan ke perangkat keras yang lebih kuat.

Masalahnya adalah fragmentasi indeks. UUID adalah acak, yang berarti setiap pengisian masuk ke lokasi acak dalam indeks B-tree. Dengan bilangan bulat yang meningkat otomatis, rekaman baru ditambahkan ke akhir indeks—operasi cepat. Dengan UUID, database terus membagi dan menyeimbangkan halaman indeks, menyebabkan fragmentasi yang besar. Indeks kami 3,2 kali lebih besar daripada seharusnya, dan setiap kueri harus melintasi struktur yang membengkak dan terfragmentasi ini.

Dampak kinerja sangat menghancurkan. Indeks kunci utama kami saja berukuran 47GB—untuk tabel di mana data sebenarnya hanya 12GB. Pemeliharaan indeks menghabiskan 40% dari waktu CPU database kami. Lebih buruk lagi, pola I/O acak berarti kami tidak bisa menggunakan caching dengan efektif. Dengan ID urut, rekaman yang baru disisipkan kemungkinan besar diakses bersama. Dengan UUID, setiap akses pada dasarnya acak, menghancurkan rasio hit cache kami.

Kami akhirnya bermigrasi ke pendekatan hibrida: ID urut secara internal, dengan kolom UUID terpisah untuk API eksternal. Migrasi ini memerlukan tiga minggu perencanaan dan pelaksanaan hati-hati, di mana kami harus memelihara kedua sistem secara bersamaan. Ini menghabiskan biaya sekitar $85,000 dalam waktu rekayasa dan biaya infrastruktur. Perbaikan kinerja sangat cepat dan dramatis—kinerja pengisian meningkat sebesar 240%, waktu kueri turun 55%, dan ukuran database kami menurun sebesar 30% setelah reindexing.

Pelajaran di sini terperinci. UUID tidak secara inheren buruk—mereka hanya mahal. Jika Anda benar-benar memerlukan generasi ID terdistribusi atau Anda sedang membangun sistem multi-penyewa di mana prediktabilitas ID adalah masalah keamanan, UUID mungkin sepadan dengan biayanya. Tetapi untuk sebagian besar aplikasi, terutama di tahap awal, ID urut jauh lebih efisien. Anda selalu bisa menambahkan kolom UUID nanti jika Anda memerlukan pengidentifikasi eksternal. Memulai dengan UUID karena itu adalah "praktek terbaik" adalah rekayasa kultus barang yang akan...