Colossus untuk Penyimpanan Berkecepatan Tinggi
(cloud.google.com)> "Protokol stateful Colossus" adalah bahan rahasia di balik performa tinggi Rapid Storage
- Google Cloud Storage digunakan luas karena kesederhanaan dan skalabilitasnya
- Protokol stateless berbasis REST yang lama mudah digunakan, tetapi untuk workload AI dan yang intensif data, latensi serta kurangnya fitur yang berpusat pada file menjadi masalah
- Rapid Storage mengatasi masalah ini dengan memperkenalkan protokol streaming gRPC stateful, sambil tetap mempertahankan skalabilitas dan throughput dari object storage
Kekuatan arsitektur berbasis Colossus
- Colossus adalah file system tingkat klaster internal Google, yang menjadi teknologi dasar untuk produk berperforma tinggi
- Mendukung pembacaan/penulisan data berlatensi sangat rendah dengan menggunakan protokol stateful
- Klien membuka file dan menerima handle, lalu dapat berkomunikasi langsung dengan disk melalui handle tersebut
- Memungkinkan akses cepat dengan memanfaatkan protokol mirip RDMA, serta menerapkan optimasi SSD dan teknik penulisan paralel
- Cocok untuk penulisan log yang membutuhkan durabilitas dan workload analitik streaming
Cara kerja protokol stateful Colossus
- Saat file dibuka dalam mode append, Curator membuat handle dan memberikannya ke klien
- Aplikasi menulis data log ke klien, lalu klien menggunakan handle untuk menulis secara paralel ke beberapa disk
- Untuk menyimpan data secara durable, data direplikasi ke beberapa disk, dan penulisan berbasis kuorum meminimalkan latensi
Performa dan contoh penggunaan Rapid Storage
- Klien Cloud Storage memproses lebih awal autentikasi dan akses metadata saat membuat stream gRPC
- Setelah itu, operasi baca/tulis terhubung langsung ke Colossus sehingga latensi ultra-rendah tetap terjaga
- Mampu menangani 20 juta request per detik per bucket — cocok untuk workload AI/ML berskala besar
-
Desain yang dioptimalkan untuk pelatihan AI/ML
- Ideal untuk membaca file data besar yang berisi ratusan juta hingga miliaran token secara non-sekuensial
- Dapat membuat stream saat pelatihan dimulai, lalu melakukan pembacaan range paralel dengan latensi ultra-rendah
- Memungkinkan pasokan sampel data yang cepat tanpa latensi storage selama pelatihan
-
Penanganan append yang aman dan efisien
- Mendukung append tanpa batas ke satu objek (selama masih dalam batas ukuran objek)
- Melalui handle, baca/tulis dapat dilanjutkan setelah reconnect meski stream terputus
- Hanya satu stream pada satu waktu yang dapat menulis ke objek — stream baru mengunci stream sebelumnya secara transaksional
- Setiap append menyatakan offset penulisan untuk menjamin konsistensi data
Integrasi dan API Rapid Storage
- SDK sedang diperbarui untuk mendukung fitur append berbasis gRPC
- Terintegrasi dengan Cloud Storage FUSE sehingga bucket Cloud Storage dapat diakses seperti file system
- Juga terhubung dengan Hierarchical Namespace untuk memperkuat performa dan konsistensi, serta mendukung API berbasis folder
Keunggulan gabungan Rapid Storage
- Latensi ultra-rendah setingkat block storage
- Throughput tinggi setingkat file system paralel
- Sekaligus menawarkan skalabilitas dan kemudahan object storage
2 komentar
Katanya Colossus sangat bagus, tapi saya penasaran bagaimana menurut orang-orang yang benar-benar pernah memakainya secara internal.
Komentar Hacker News