- Siapa saya dan mengapa saya peduli → insinyur awal BigQuery
- Slide pengantar wajib → grafik "data meledak seiring waktu" yang selalu dirujuk semua orang
- Kebanyakan orang tidak memiliki data sebanyak itu
- Storage dan komputasi terpisah, dengan kecenderungan ke storage
- Ukuran workload lebih kecil daripada ukuran total data
- Sebagian besar data hampir tidak pernah di-query
- Frontier big data terus mundur
- Data adalah liability
→ Definisi lain dari big data adalah "ketika biaya menyimpan data lebih rendah daripada biaya untuk mengetahui apa yang harus dibuang"
- Apakah Anda termasuk 1 persen big data?
- Apakah Anda benar-benar menghasilkan data dalam jumlah yang sangat besar?
- Jika ya, apakah Anda benar-benar perlu menggunakan data dalam jumlah sangat besar itu sekaligus?
- Jika ya, apakah data itu terlalu besar sehingga tidak muat dalam satu sistem?
- Jika ya, apakah Anda yakin bukan sekadar pengumpul data (hoarder)?
- Jika ya, bukankah lebih baik membuat ringkasannya?
- Jika Anda menjawab tidak pada salah satu pertanyaan di daftar di atas,
alih-alih "big data berskala menakutkan" yang entah kapan mungkin akan Anda miliki,
mungkin lebih baik menggunakan "alat data generasi berikutnya yang memungkinkan Anda menangani skala data yang benar-benar Anda miliki"
1 komentar
Perlu dibaca dengan mempertimbangkan bahwa perusahaan yang menulis artikel ini adalah MotherDuck, perusahaan pembuat "DuckDB".
DuckDB - Embedded OLAP DB open source
Slogan perusahaan ini adalah "Big Data is DEAD. Long live EASY DATA."
Mereka adalah perusahaan yang mempromosikan embedded DB mereka sendiri dengan kalimat, "Your laptop is faster than your data warehouse. Why wait for the Cloud?"
Tentu saja, bukan berarti artikelnya buruk. Secara keseluruhan tetap layak dibaca sekali, dan saya setuju dengan banyak isinya.
Terlalu banyak perusahaan yang bilang mereka melakukan "big data" padahal datanya tidak seberapa.