3 poin oleh GN⁺ 2023-08-09 | 1 komentar | Bagikan ke WhatsApp
  • Artikel ini memperkenalkan WarpStream, platform streaming data kompatibel dengan protokol Kafka yang dibangun langsung di atas S3.
  • WarpStream disediakan sebagai satu biner Go stateless, sehingga menghilangkan kebutuhan akan pengelolaan disk lokal, rebalancing broker, dan pengoperasian ZooKeeper.
  • Dengan melakukan streaming data langsung ke S3, platform ini secara signifikan menurunkan biaya infrastruktur, dan di cloud 5-10 kali lebih murah dibanding Kafka.
  • Artikel ini mengkritik kesesuaian Kafka untuk beban kerja modern, sambil menyoroti tingginya biaya bandwidth antar-AZ dan overhead operasional.
  • Arsitektur WarpStream berbeda dari Kafka. Alih-alih broker, ada "agen" stateless yang dapat bertindak sebagai "leader" untuk topik apa pun, melakukan commit offset untuk grup konsumen mana pun, atau berperan sebagai koordinator klaster.
  • Di WarpStream, seluruh penyimpanan di-offload ke object storage seperti S3, sehingga memungkinkan penskalaan yang mudah dan pemulihan kegagalan yang cepat.
  • WarpStream memisahkan data dan metadata, serta menyimpan metadata semua "klaster virtual" di database metadata kustom.
  • Platform ini memangkas total biaya untuk sebagian besar beban kerja Kafka sebesar 5-10 kali, tetapi memiliki latensi yang lebih tinggi, dengan P99 untuk permintaan produksi sekitar 400 ms dan sekitar 1 detik dari produsen ke konsumen.
  • WarpStream saat ini masih dalam tahap pratinjau pengembang dan belum siap untuk penggunaan produksi.
  • Para pencipta WarpStream menilai UX pengembang Kafka sebagai masalah, khususnya abstraksi tingkat rendah pada partisi. Mereka berencana menanganinya dalam pembaruan WarpStream mendatang.
  • Artikel ini ditutup dengan ajakan kepada pembaca untuk mencoba WarpStream dan memberikan masukan.

1 komentar

 
GN⁺ 2023-08-09
Opini Hacker News
  • Artikel tentang sifat dikotomis Kafka sebagai teknologi data streaming
  • Perdebatan tentang apakah sebagian besar perusahaan teknologi menggunakan Kafka
  • Efisiensi biaya mendorong setiap pesan langsung ke S3 dan masalah menjalankan klaster Kafka di tiap AZ
  • Pengantar oleh Ryan Worl, salah satu pendiri dan CTO WarpStream, sistem streaming yang kompatibel dengan protokol Kafka dan dibangun langsung di atas S3
  • Penekanan pada efisiensi biaya WarpStream, tidak perlunya mengoperasikan disk/node yang stateful, tidak perlunya penyeimbangan ulang data atau ZooKeeper, serta berkurangnya biaya bandwidth lintas-AZ
  • Kritik terhadap biaya menjalankan Kafka pada VM terpisah di penyedia cloud
  • Diskusi tentang penggunaan adapter storage pada layanan Hadoop/Kafka terkelola di cloud yang dirancang dengan baik untuk memanfaatkan redundansi penyedia
  • Keluhan sebagian pengguna terhadap klaim artikel bahwa Kafka membutuhkan tim ahli dan anggaran besar
  • Penekanan pada fakta bahwa jumlah partisi di Kafka dapat diubah
  • Perdebatan tentang klaim artikel bahwa operasional Kafka membutuhkan tim engineering berskala besar
  • Pertanyaan tentang bagaimana WarpStream mengelola layanannya, apakah menggunakan penyedia cloud atau bare metal, dan apakah menggunakan FoundationDB untuk metadata store
  • Diskusi tentang potensi API Kafka dan kemungkinan mengabstraksikan kompleksitas pengelolaan klaster
  • Penghematan biaya dari memindahkan trafik ML berskala besar ke S3, dengan seorang pengguna melaporkan pengurangan biaya sekitar 90%
  • Usulan mengubah judul artikel menjadi "Kafka sudah mati. Hiduplah WarpStream, sang raja baru." untuk mencerminkan adopsi teknologi baru