Big Data Sudah Mati
Siapa saya dan mengapa saya menulis ini?
- Selama lebih dari 10 tahun, saya telah menekankan pentingnya big data
- Sebagai engineer pendiri Google BigQuery, saya mempromosikan teknologi untuk menangani big data
- Melalui percakapan dengan pelanggan dan analisis produk, saya menyadari bahwa kebanyakan orang sebenarnya tidak menangani big data
Slide pengantar yang wajib ada
- Presentasi banyak produk big data menyampaikan pesan bahwa "big data sedang datang"
- Namun, kenyataannya sebagian besar aplikasi tidak perlu memproses data dalam skala besar
- Sistem basis data tradisional kembali populer
Kebanyakan orang tidak memiliki data sebanyak itu
- Sebagian besar pelanggan memiliki data 1TB atau kurang
- Bahkan pelanggan yang memiliki data dalam jumlah besar pada praktiknya hanya menggunakan sebagian kecil saja
- Ukuran data mengikuti hukum Pareto, dan sebagian besar data terkonsentrasi pada segelintir pelanggan
Bias penyimpanan dalam pemisahan storage dan compute
- Platform data cloud modern memisahkan storage dan compute
- Kapasitas storage tumbuh cepat, tetapi kebutuhan compute tidak banyak berubah
- Pemrosesan terdistribusi mungkin tidak diperlukan untuk menangani set data besar
Ukuran pekerjaan lebih kecil daripada ukuran total data
- Sebagian besar pekerjaan analitik memproses set data kecil
- Query yang memproses data besar jarang terjadi, dan terutama digunakan untuk membuat laporan
- Query kecil lebih disukai untuk menurunkan biaya pemrosesan data
Sebagian besar data hampir tidak pernah di-query
- Sebagian besar data hanya sering di-query dalam 24 jam setelah dibuat
- Data lama hampir tidak pernah di-query dan hanya memakan ruang penyimpanan
Batas big data terus mundur
- Definisi "big data" berubah seiring waktu
- Hardware modern dapat menangani data yang jauh lebih besar dibanding masa lalu
Data adalah tanggung jawab
- Biaya menyimpan data melampaui sekadar biaya storage
- Kepatuhan regulasi dan tanggung jawab hukum harus dipertimbangkan
- Data lama sulit dipelihara
Apakah Anda termasuk 1% big data?
- Kebanyakan orang tidak perlu menangani big data
- Perlu mempertimbangkan apakah data benar-benar besar, apakah bisa diringkas, dan sebagainya
Opini GN⁺
- Pentingnya manajemen data: Dibanding ukuran data, kualitas dan pengelolaan data lebih penting. Menghapus data yang tidak perlu dan berfokus pada data penting lebih efisien.
- Pendekatan yang realistis: Sebagian besar perusahaan tidak memerlukan teknologi big data. Penting untuk memilih alat yang sesuai dengan ukuran data dan kebutuhan nyata.
- Penghematan biaya: Di lingkungan cloud, biaya dapat dihemat dengan memisahkan storage dan compute. Mengurangi pemrosesan data yang tidak perlu lebih ekonomis.
- Tanggung jawab hukum: Penyimpanan data disertai tanggung jawab hukum. Kepatuhan regulasi dan keamanan data harus diperhatikan.
- Perkembangan teknologi: Kemajuan hardware dan software memungkinkan pemrosesan data yang dulu tidak mungkin dilakukan. Manfaatkan teknologi terbaru untuk meningkatkan efisiensi.
1 komentar
Opini Hacker News
Pengalaman merekrut data scientist: Dalam pertanyaan tentang arsitektur untuk menangani 6 TiB data, kandidat yang paling mengesankan adalah yang memahami bahwa ini bisa diselesaikan dengan smartphone atau HDD murah.
Perbandingan MongoDB dan PostgreSQL: MongoDB tidak punya keunggulan dibanding PostgreSQL, dan solusi big data umumnya menggunakan database kolumnar, Map/Reduce, Cassandra, dan sejenisnya.
Perencanaan untuk sukses: Sebagian besar bisnis tidak akan menjadi unicorn, tetapi tetap harus menargetkannya, dan sejak awal diperlukan arsitektur yang mempertimbangkan skalabilitas.
Ukuran data dan frekuensi kueri: Sebagian besar data tidak besar, dan sebagian besar kueri juga berskala kecil. Pada tahap awal, yang dibutuhkan adalah pekerjaan untuk mengurangi data.
Big data dan biaya regulasi: Biaya data meningkat karena regulasi.
Pengalaman analisis big data: Dari pengalaman di Large Hadron Collider, penyimpanan lokal yang cepat lebih unggul daripada jaringan superkomputer global.
Paradoks big data: Ada kecenderungan menghindari optimisasi perangkat lunak dasar demi memamerkan kebutuhan perangkat keras.
Kandungan informasi dalam data: Data meningkat secara eksponensial, tetapi kandungan informasinya tidak demikian. Di bidang keuangan, sebagian besar data bersifat duplikatif sehingga perlu reduksi dimensi.
Definisi big data: Big data bukan sekadar persoalan kapasitas penyimpanan atau kecepatan pemrosesan, melainkan masalah kemampuan kognitif untuk mengintegrasikan dan memahami data.
Overengineering pada alat big data: Dalam banyak kasus, data warehouse dan data lake pada skala gigabita atau terabita sudah cukup, dan arsitektur yang lebih sederhana memberikan kinerja yang lebih baik.
Tren big data: Tren big data sudah berakhir, dan ini adalah hasil yang umum dalam industri yang sensitif terhadap mode.
Big data dan ego pendiri: Pendorong utama big data adalah ego para pendiri, dan pada tahap awal satu database SQLite saja sudah cukup.
Masalah pemrosesan big data: Big data lebih merupakan masalah pemrosesan daripada penyimpanan, dan sebagian besar kueri hanya menangani data terbaru. Jika memproses seluruh data memang lebih mudah, patut dipertanyakan mengapa sebagian besar perusahaan masih hanya mengueri data yang kecil.