18 poin oleh GN⁺ 2025-01-02 | 3 komentar | Bagikan ke WhatsApp

Ulasan menyeluruh Andy Pavlo (profesor CMU) tentang industri database sepanjang 2024

Database saya, saya melisensikannya sesuka saya!

  • Dilema database dan open source:
    • DBMS open source sering dikembangkan oleh perusahaan menguntungkan yang didukung VC.
    • Muncul masalah ketika penyedia cloud menawarkan DBMS populer sebagai layanan dan meraup keuntungan lebih besar daripada perusahaan pengembangnya.
    • MongoDB beralih ke SSPL (Server Side Public License) pada 2018 untuk mencoba menyelesaikan masalah ini.
  • Perubahan lisensi Redis:
    • Redis Ltd. menyiapkan IPO pada 2024 dan beralih dari lisensi BSD-3 ke SSPL serta Redis Source Available License miliknya sendiri.
    • Pada Maret 2024, perusahaan mengumumkan perubahan lisensi bersamaan dengan akuisisi Speedb, fork dari RocksDB.
    • Penolakan dari komunitas:
      • Pada minggu yang sama, diumumkan proyek fork bernama Valkey dan Redict.
      • Valkey dimulai oleh Amazon, diikuti partisipasi Google, Oracle, dan lainnya, lalu diintegrasikan ke Linux Foundation.
    • Kemungkinan kembalinya pendiri Redis:
      • Pada Desember 2024, pendiri Redis mengumumkan bahwa ia akan bekerja sama dengan Redis Ltd. untuk mencari reunifikasi komunitas.
  • Kembalinya lisensi Elasticsearch:
    • Elastic N.V. beralih ke SSPL dan Elastic License pada 2021, lalu berselisih dengan Amazon.
    • Amazon merespons dengan fork OpenSearch.
    • Pada Agustus 2024, Elastic N.V. kembali ke AGPL sambil menyebut lagu Kendrick Lamar.
    • Pada September 2024, Amazon menyerahkan proyek OpenSearch ke Linux Foundation.
  • Pandangan Andy:
    • Kritik terhadap Redis:
      • Ia menyoroti performa yang rendah, transaksi palsu, dan bahasa query yang tidak efisien.
      • Karena Redis punya banyak alternatif, situasinya sulit untuk menahan penolakan komunitas.
    • Pola yang mirip dengan Elasticsearch:
      • Perubahan lisensi → muncul proyek fork → kembali ke lisensi open source.
    • Mengapa Redis dan Elasticsearch menerima lebih banyak penolakan:
      • Redis tidak didirikan oleh pembuat aslinya, dan sebagai sistem dengan banyak kontributor eksternal muncul kontroversi soal "kurang legitimasi".
      • Ini mirip dengan reaksi terhadap perubahan lisensi Terraform oleh HashiCorp pada 2023.
    • Pengaruh penyedia cloud:
      • Penyedia cloud melemahkan basis pendapatan ISV dengan mengintegrasikan protokol DBMS open source ke DBMS yang sudah ada atau melalui layanan mereka sendiri.
      • Contoh: AWS menambahkan protokol InfluxDB v2 ke DBMS Timestream dan mengumumkan layanan kompatibel Valkey yang 30% lebih murah daripada layanan kompatibel Redis.
  • Pembaruan tambahan:
    • AWS menyediakan layanan terkelola untuk DBMS InfluxDB v2 bekerja sama dengan Influx Data.
    • ScyllaDB menghentikan versi open source AGPL pada Desember 2024 dan mengalihkan versi enterprise menjadi "source-available".

Persaingan tanpa akhir antara Databricks dan Snowflake

  • Persaingan LLM terbuka:
    • Databricks:
      • Pada Maret 2024, mengumumkan LLM open source DBRX.
      • Dikembangkan oleh tim Mosaic dengan 132 miliar parameter; tim ini diakuisisi pada 2023 senilai $1,3 miliar.
      • Menginvestasikan $10 juta untuk pengembangan model.
    • Snowflake:
      • Pada April 2024, mengumumkan LLM open source Arctic.
      • Dengan 480 miliar parameter, Snowflake mengklaim model ini lebih unggul daripada DBRX dalam tugas "enterprise" seperti pembuatan SQL.
      • Menginvestasikan $2 juta untuk pengembangan model.
      • Pengumuman Snowflake lebih berfokus membandingkan dirinya dengan DBRX daripada LLM lain, memperjelas peta persaingan mereka.
  • Perang katalog metadata:
    • HCatalog milik Hive menjadi standar data lake pada 2010-an.
    • Iceberg dari Netflix dan Hudi dari Uber muncul pada akhir 2010-an dan tumbuh menjadi proyek Apache.
    • Databricks:
      • Menyediakan platform DeltaLake dan layanan katalog proprietari bernama Unity.
      • Pada Juni 2024, di hari yang sama saat CEO Snowflake mengumumkan layanan katalog Polaris, Databricks mengakuisisi Tabular, perusahaan pendukung Iceberg, senilai $2 miliar.
      • Minggu berikutnya, Databricks mengumumkan open-sourcing katalog Unity.
    • Snowflake:
      • Setelah mengumumkan dukungan Iceberg pada 2022, dukungannya diperluas secara bertahap.
      • Saat bernegosiasi untuk mengakuisisi Tabular, perusahaan didahului oleh Databricks.
  • Pandangan Andy:
    • Perbedaannya dengan persaingan tradisional:
      • Tidak seperti persaingan performa antara Oracle dan Informix di masa lalu, pertarungan Snowflake dan Databricks berfokus pada ekosistem dan alat manajemen data.
      • Mesin eksekusi tervectorisasi kini dianggap teknologi dasar.
      • Yang penting sekarang adalah kualitas tambahan seperti kemudahan penggunaan, kompatibilitas alat, dan integrasi AI/LLM.
    • Menguntungkan konsumen:
      • Persaingan sengit berarti produk dan teknologi yang lebih baik.
      • Polaris dari Snowflake beralih menjadi proyek Apache, memberi akses yang lebih baik terhadap teknologinya.
      • Hasilnya, ada harapan untuk kemajuan teknologi dan penurunan harga.
    • Perbandingan yang positif:
      • Berbeda dengan persaingan ego belaka antara CEO Oracle dan Salesforce, pertarungan Snowflake dan Databricks menghasilkan inovasi nyata dan penguatan daya saing.

Upaya mengintegrasikan DuckDB ke mana-mana

  • Pertumbuhan DuckDB:
    • DuckDB telah menjadi pilihan default baru untuk query analitik data.
    • Sebelumnya peran itu dipegang Pandas, tetapi DuckDB mengambil alih berkat portabilitas dan performanya yang unggul.
    • Semakin banyak DBMS mencoba mengintegrasikan DuckDB untuk memperkuat dukungan terhadap workload OLAP.
    • Pada 2024, diumumkan empat ekstensi baru yang mengintegrasikan Postgres dan DuckDB.
  • Pengumuman ekstensi Postgres-DuckDB:
    • Mei 2024 - Crunchy Data:
      • Mengumumkan bridge proprietari yang mengarahkan query OLAP dari Postgres ke DuckDB.
      • Juga menambahkan ekstensi untuk mempercepat query PostGIS dengan memanfaatkan kemampuan analisis geospasial DuckDB.
    • Juni 2024 - ParadeDB:
      • Mengumumkan ekstensi open source pg_analytics.
      • Sebelumnya menggunakan pg_lakehouse berbasis DataFusion, tetapi beralih ke DuckDB.
    • Agustus 2024 - pg_duck:
      • Ekstensi DuckDB yang didukung secara resmi di GitHub DuckDB Labs.
      • Dimulai sebagai kolaborasi antara MotherDuck, Hydra, Microsoft, dan Neon, tetapi Microsoft dan Neon dikeluarkan dari proyek karena sengketa kendali pengembangan.
      • Saat ini dikelola bersama oleh MotherDuck dan Hydra.
    • November 2024 - pg_mooncake:
      • Mengumumkan ekstensi yang memungkinkan penulisan data ke tabel Iceberg melalui Postgres dan mendukung transaksi.
  • Pandangan Andy:
    • Kelebihan DuckDB:
      • Sebagian besar query OLAP memindai data kurang dari 100MB, dan DuckDB dapat menanganinya dengan baik dalam satu instance.
      • Karena portabilitas dan kemudahannya yang luar biasa, DuckDB menyebar cepat di komunitas Postgres.
      • Beragam ekosistem data, termasuk akses ke data Iceberg dan S3, dapat disatukan dalam satu ekstensi.
      • Memberikan analitik berperforma tinggi sekaligus bisa menggantikan data warehouse yang mahal.
    • Ekstensibilitas Postgres:
      • Sejak dirancang pada 1980-an, Postgres memang menargetkan ekstensibilitas dan fleksibilitas.
      • Berkat API "hook" Postgres (diperkenalkan pada 2006), terbentuk ekosistem ekstensi yang paling luas dan beragam.
      • Namun, ada juga risiko interferensi antar ekstensi dan perilaku yang salah.
    • Integrasi DuckDB dengan Postgres:
      • Ekstensi Postgres yang sudah ada (Citus, Timescale) hanya menyediakan penyimpanan berbasis kolom sehingga hanya menyelesaikan sebagian masalah.
      • DuckDB menyediakan penyimpanan berbasis kolom sekaligus pemrosesan query tervectorisasi.
    • Penyebutan kiasan:
      • Ia menyebut kemungkinan lelucon turducken dengan gajah Postgres dan DuckDB, tetapi mengabaikannya demi menghindari sanksi kampus.

Random Happenings in the Database World

Rilis utama:

  • Amazon Aurora DSQL:
    • AWS mengumumkan DBMS baru yang "mirip Spanner".
    • Berbasis layanan log terdistribusi dan pengurutan stempel waktu (Time Sync).
    • Menggunakan nama Aurora, tetapi tidak berbagi kode dengan Aurora Postgres RDS yang sudah ada.
  • CedarDB:
    • DBMS komersial yang mem-fork kode Umbra.
    • Thomas Neumann, pendiri Umbra, tetap fokus pada riset dan mempertahankan posisi puncak Clickbench leaderboard.
  • Google Bigtable:
    • Bigtable, pelopor NoSQL, menambahkan dukungan SQL pada 2024.
  • Limbo:
    • Turso mengumumkan proyek penulisan ulang penuh SQLite dalam Rust.
    • Kekuatan SQLite bukan hanya pada kodenya, tetapi juga pada rekayasa pengujian yang menjamin ia berjalan tepat di semua lingkungan.
    • Mereka memperkenalkan deterministic testing bersama mantan engineer FoundationDB.
  • Microsoft Garnet:
    • Penyimpanan key-value kompatibel Redis, penerus FASTER.
    • Menyediakan paralelisme query, dukungan database out-of-memory, dan transaksi yang sesungguhnya.
  • MySQL v9:
    • Versi baru yang dirilis setelah 6 tahun.
    • Muncul masalah crash ketika database memiliki lebih dari 8.000 tabel.
    • Fitur penting masih kurang, dan Oracle lebih fokus pada layanan MySQL Heatwave.
  • Prometheus v3:
    • Pembaruan besar pertama setelah 7 tahun.
    • Karena banyak opsi pengganti, pemanfaatan OG Prometheus menurun.

Akuisisi utama:

  • Alteryx → Private Equity: jarang dipakai pengguna, tidak banyak komentar.
  • MariaDB → Private Equity: diharapkan bisa memperbaiki masalah manajemen.
  • OrioleDB → Supabase: memperbaiki arsitektur storage Postgres yang sudah tua.
  • PeerDB → ClickHouse: alat ETL untuk memindahkan data Postgres ke ClickHouse.
  • PopSQL → Timescale: akuisisi UI editor SQL tingkat lanjut.
  • Speedb → Redis Ltd.: fork RocksDB yang berpotensi menambahkan kemampuan penyimpanan data ke disk.
  • Rockset → OpenAI: layanan DBaaS dihentikan, September 2024.
  • Tabular → Databricks: diakuisisi untuk memperkuat ekosistem Iceberg.
  • Verta.ai → Cloudera: Cloudera ternyata masih bertahan.
  • Warpstream → Confluent: Kafka ditulis ulang dalam golang dan diintegrasikan dengan S3.

Investasi utama:

  • Databricks: $1 miliar Seri J.
  • DBOS: putaran seed $8,5 juta.
  • LanceDB: putaran seed $8 juta.
  • SDF: putaran seed $9 juta.
  • SpiceDB: Seri A $12 juta.
  • TigerBeetle: Seri A $24 juta.

Penutupan utama:

  • Amazon QLDB: bahkan Amazon pun gagal memonetisasinya.
  • OtterTune: perjalanan riset dan startup selama 10 tahun berakhir. Karena masalah dengan perusahaan tertentu, perekrutan mahasiswa CMU-DB dilarang.

Pandangan Andy:

  • Penggalangan dana besar Databricks:
    • Pada 2024, Seri J senilai $1 miliar memecahkan rekor penggalangan dana terbesar di industri database.
    • Dana tersebut digunakan untuk membeli saham karyawan dan mengatasi keluhan karyawan terkait penundaan IPO.
    • Setelah Databricks IPO, ada kemungkinan beberapa startup database lain juga bersiap untuk IPO.
  • Prospek tahun depan:
    • Penurunan suku bunga dapat membuka peluang pendanaan tambahan bagi perusahaan yang sudah mengumpulkan dana besar (CockroachDB, Starburst, Imply, dan lain-lain).
    • dbtLabs dinilai sudah berada di posisi yang mapan.

Larry Ellison yang tak berhenti: langkah mengejutkan di 2024

  • Pencapaian utama Larry Ellison pada 2024:
    • Memasuki ulang tahun ke-80 dan tetap melangkah berani.
    • Naik menjadi orang terkaya nomor 3 di dunia berkat kenaikan saham Oracle.
      • Pada Maret 2024, lonjakan saham Oracle membuatnya memperoleh $15 miliar hanya dalam satu hari.
    • Pada Juli, ia membeli Paramount Studio seharga $6 miliar sebagai hadiah untuk putranya (dari istri ketiganya).
    • Mengakuisisi resor di Palm Beach seharga $277 juta, menambah lagi aset mewahnya.
  • Dukungan untuk tim football University of Michigan:
    • Pada November 2024, ia menyumbang $12 juta untuk kampanye dukungan football University of Michigan.
      • Donasi ini berperan penting dalam merekrut quarterback top yang pindah dari LSU ke Michigan.
      • Siaran pers universitas menyebut jasa "Larry dan istrinya, Jolin".
    • Ini menjadi keterkaitan besar pertamanya dengan University of Michigan, meski Larry tidak punya riwayat lulus dari universitas.
  • Siapa "Jolin"?:
    • Laporan media mengungkap bahwa istri baru Larry adalah Jolin (Curran) Zhu.
      • Larry terlihat menonton pertandingan tenis, dan Jolin mengenakan topi Michigan.
      • Dua minggu kemudian, kabar pernikahan mereka muncul di berita pukul 5 pagi dan identitasnya pun terkonfirmasi.
  • Sudut pandang Andy:
    • Dukungan Larry terhadap University of Michigan punya makna khusus.
      • Seorang mantan mahasiswa CMU-DB Andy kini menjadi profesor di kelompok database University of Michigan.
    • Ia mengucapkan selamat atas cinta baru dan pernikahan Larry, sambil menekankan sulitnya menemukan cinta di masyarakat modern.
      • Meski pernah mengalami perceraian, Larry dinilai patut diapresiasi atas ketangguhan dan sikap positifnya dalam menemukan cinta lagi.
  • Pernikahan keenam Larry:
    • Setelah Melanie Craft (cerai 2010) dan Nikita Kahn (cerai 2020), ia kembali menikah dan mengejutkan semua orang.
    • Pernikahannya dengan Jolin Zhu kembali membuktikan tekadnya untuk mengejar kebahagiaan.

Penutup

  • Rencana tahun baru dan kondisi saat ini:
    • Untuk pertama kalinya dalam 3 tahun ia berharap menyambut tahun baru dalam keadaan sehat, tetapi tertular COVID dari putrinya dan melewati tahun baru di tempat tidur.
    • Berkat booster shot pada September 2024 dan pengobatan Paxlovid, ia pulih tanpa masalah besar.
  • Berakhirnya OtterTune:
    • Ia kecewa proyek OtterTune berakhir.
    • Ia belajar banyak sambil bekerja dengan banyak orang hebat.
    • Ia berterima kasih kepada Intel Capital dan Race Capital yang mendukung sampai akhir.
    • Ia sedang memikirkan startup baru (petunjuk: lagi-lagi terkait database).
  • Awal baru di CMU:
    • Kembali ke Carnegie Mellon University (CMU) dan melanjutkan riset penuh waktu.
    • Ia sedang menyiapkan proyek riset menarik bersama Jignesh Patel.
    • Semester ini ia berencana membuka kuliah baru tentang optimisasi query.
    • Pada September 2024, Wikipedia menghapus artikel tentang dirinya, sehingga ia sedang memikirkan cara meningkatkan jumlah sitasi makalah risetnya.
  • Dukungan untuk DJ Mooshoo:
    • Ia masih mendukung DJ Mooshoo, yang ditahan di Cook County.
    • Ia menunggu dengan harapan DJ Mooshoo akan dibebaskan pada 2025.
  • Penyebutan ByteBase:
    • Ia berterima kasih atas artikel ulasan alat database 2024 dari ByteBase (Database Tools in 2024: A Year in Review).
    • Sebelumnya ByteBase meminta izin untuk menerjemahkan artikel database akhir tahunnya ke bahasa Mandarin, tetapi tahun ini mereka tidak menunggu dan menulis artikel sendiri dengan tema dan judul serupa.

3 komentar

 
daumkakao 2025-01-04

Terima kasih untuk tulisan yang bagus.

 
xguru 2025-01-02

Saya melewatkan 2023. Saat itu tautannya ke OtterTune, tetapi karena sudah dihentikan, sekarang dipindahkan ke blog pribadi.

Ulasan database tahun 2022
Ulasan database tahun 2021

 
GN⁺ 2025-01-02
Opini Hacker News
  • Ada pendapat bahwa kritik Andy terhadap API perintah Redis di videonya kurang tajam. Kritik terhadap API Redis memang memungkinkan, tetapi perlu argumen yang lebih kuat. Ditekankan bahwa cara penggunaan dan keunggulan Redis perlu dipahami

  • Saat kode Greenplum ditutup, para pengembang aslinya membuat fork open source bernama Cloudberry, dan ini diterima sebagai proyek Apache. Cloudberry telah selaras dengan Postgres 14, tetapi Greenplum masih bertahan di Postgres 12

  • Ada pendapat yang mengkritik Redis secara pribadi. Redis diklaim lambat, memiliki transaksi palsu, dan sintaks kuerinya rumit. Disebutkan bahwa di CMU, Dragonfly menunjukkan performa yang lebih baik

  • Ada pendapat bahwa DuckDB adalah alat yang luar biasa. Dikatakan bahwa kuliah pendirinya di CMU yang menjelaskan mengapa data scientist tidak menggunakan RDBMS sangat mengesankan

  • Ada pendapat bahwa aneh karena SQL Server dan variannya di Azure tidak disebutkan. Keduanya dominan di bidang tertentu dan dinilai sebagai yang ketiga paling populer di DBEngines

  • Ada pendapat bahwa keluhan terhadap Elastic dan Redis berbeda dari MongoDB karena lisensi dan ukuran komunitas kontributornya. Lisensi restriktif seperti AGPL menyulitkan penggunaan tertanam, dan tanpa komunitas kontributor, fork menjadi sulit

  • Ada pendapat bahwa tidak adanya upaya fork atas perubahan lisensi MongoDB, Neo4j, Kafka, dan CockroachDB adalah karena orang-orang sebenarnya tidak terlalu peduli pada proyek-proyek itu

  • Ada pendapat bahwa meski Amazon bisa menyediakan database sebagai layanan, banyak orang tidak menginginkan layanan terkelola AWS. Banyak tim lebih memilih solusi berbasis k8s dan cenderung berpindah ke implementasi OSS arus utama

  • Menanggapi pendapat bahwa belum pernah bertemu orang yang menggunakan Alteryx, dijelaskan bahwa Alteryx adalah alat ELT+Analytics grafis yang hampir tidak memerlukan kode, dengan kompatibilitas sangat baik sehingga bisa digunakan bersama database atau file lain

  • Diungkapkan keterkejutan atas kabar bahwa startup database yang menggalang 12M gagal dalam tiga tahun. Ini disebut sebagai contoh betapa sulitnya startup database untuk berhasil. Meski ada ide meningkatkan performa DB dengan AI, dianggap aneh bahwa mereka tidak berhasil menemukan lebih banyak investor