10 poin oleh GN⁺ 2025-04-12 | 2 komentar | Bagikan ke WhatsApp

> "Protokol stateful Colossus" adalah bahan rahasia di balik performa tinggi Rapid Storage

  • Google Cloud Storage digunakan luas karena kesederhanaan dan skalabilitasnya
  • Protokol stateless berbasis REST yang lama mudah digunakan, tetapi untuk workload AI dan yang intensif data, latensi serta kurangnya fitur yang berpusat pada file menjadi masalah
  • Rapid Storage mengatasi masalah ini dengan memperkenalkan protokol streaming gRPC stateful, sambil tetap mempertahankan skalabilitas dan throughput dari object storage

Kekuatan arsitektur berbasis Colossus

  • Colossus adalah file system tingkat klaster internal Google, yang menjadi teknologi dasar untuk produk berperforma tinggi
  • Mendukung pembacaan/penulisan data berlatensi sangat rendah dengan menggunakan protokol stateful
  • Klien membuka file dan menerima handle, lalu dapat berkomunikasi langsung dengan disk melalui handle tersebut
  • Memungkinkan akses cepat dengan memanfaatkan protokol mirip RDMA, serta menerapkan optimasi SSD dan teknik penulisan paralel
  • Cocok untuk penulisan log yang membutuhkan durabilitas dan workload analitik streaming

Cara kerja protokol stateful Colossus

  • Saat file dibuka dalam mode append, Curator membuat handle dan memberikannya ke klien
  • Aplikasi menulis data log ke klien, lalu klien menggunakan handle untuk menulis secara paralel ke beberapa disk
  • Untuk menyimpan data secara durable, data direplikasi ke beberapa disk, dan penulisan berbasis kuorum meminimalkan latensi

Performa dan contoh penggunaan Rapid Storage

  • Klien Cloud Storage memproses lebih awal autentikasi dan akses metadata saat membuat stream gRPC
  • Setelah itu, operasi baca/tulis terhubung langsung ke Colossus sehingga latensi ultra-rendah tetap terjaga
  • Mampu menangani 20 juta request per detik per bucket — cocok untuk workload AI/ML berskala besar
  • Desain yang dioptimalkan untuk pelatihan AI/ML

    • Ideal untuk membaca file data besar yang berisi ratusan juta hingga miliaran token secara non-sekuensial
    • Dapat membuat stream saat pelatihan dimulai, lalu melakukan pembacaan range paralel dengan latensi ultra-rendah
    • Memungkinkan pasokan sampel data yang cepat tanpa latensi storage selama pelatihan
  • Penanganan append yang aman dan efisien

    • Mendukung append tanpa batas ke satu objek (selama masih dalam batas ukuran objek)
    • Melalui handle, baca/tulis dapat dilanjutkan setelah reconnect meski stream terputus
    • Hanya satu stream pada satu waktu yang dapat menulis ke objek — stream baru mengunci stream sebelumnya secara transaksional
    • Setiap append menyatakan offset penulisan untuk menjamin konsistensi data

Integrasi dan API Rapid Storage

  • SDK sedang diperbarui untuk mendukung fitur append berbasis gRPC
  • Terintegrasi dengan Cloud Storage FUSE sehingga bucket Cloud Storage dapat diakses seperti file system
  • Juga terhubung dengan Hierarchical Namespace untuk memperkuat performa dan konsistensi, serta mendukung API berbasis folder

Keunggulan gabungan Rapid Storage

  • Latensi ultra-rendah setingkat block storage
  • Throughput tinggi setingkat file system paralel
  • Sekaligus menawarkan skalabilitas dan kemudahan object storage

2 komentar

 
ethanhur 2025-04-14

Katanya Colossus sangat bagus, tapi saya penasaran bagaimana menurut orang-orang yang benar-benar pernah memakainya secara internal.

 
GN⁺ 2025-04-12
Komentar Hacker News
  • Google adalah satu-satunya cloud utama yang menyediakan object storage satu zona berlatensi rendah, object storage regional standar, dan object storage dua region yang direplikasi secara transparan dengan API yang sama
    • Di sistem infrastruktur, kode dapat ditulis menggunakan API GCS lalu pengguna bisa memilih keseimbangan biaya, latensi, dan durabilitas
  • Diumumkan di konferensi Google Next 2025, dan mereka merilis klien gRPC untuk Rapid Storage
    • Ini tampaknya merupakan wrapper tipis di atas Colossus itu sendiri, dan merupakan penyimpanan satu zona
  • Sepertinya ini benar-benar bisa meningkatkan kecepatan komputasi ilmiah
    • Pelokalan/non-pelokalan data merupakan bagian penting dari total waktu eksekusi instance
  • Saya jadi harus menonton ulang video microservices klasik
    • Saya yakin mereka menggunakan Colossus, tetapi ternyata sebenarnya Galactus & Omega Star
  • Tautan ini jauh lebih mudah dipahami dibanding tautan sebelumnya
  • Kecepatan random I/O SSD yang tinggi sangat berkontribusi pada keunggulannya
    • Kecepatan tulis 20m per detik tampaknya dimungkinkan karena didistribusikan ke seluruh jaringan drive
  • Senang melihat object storage satu zona berhasil mendapatkan tempat
    • Kecepatan bandwidth yang luar biasa akan mendefinisikan ulang analisis data
    • 99% dari semua kueri dapat dijalankan lebih cepat di satu node daripada komputasi terdistribusi
  • Saya ingin Chubby tersedia sebagai layanan
    • Saya bisa membuang etcd dan zookeeper
  • Mirip dengan S3 express one zone
  • Penasaran apakah ini ada kaitannya dengan anywhere caches yang khusus undangan pribadi
    • Atau mungkin sekarang sudah GA juga