- Dengan dukungan GPU yang kini resmi tersedia (GA) di Cloud Run, menjalankan beban kerja AI menjadi jauh lebih mudah
- GPU kini juga dapat digunakan di Cloud Run jobs, membuka kemungkinan baru untuk pemrosesan batch dan pekerjaan asinkron
- Lingkungan yang dioptimalkan untuk pekerjaan batch skala besar seperti pemrosesan gambar, analisis bahasa alami, dan transformasi media
Cloud Run GPU, tersedia resmi dan perubahan utama
Dukungan NVIDIA GPU mulai tersedia di Cloud Run jobs
- Fitur GPU di Cloud Run sebelumnya digunakan pada layanan berbasis permintaan seperti inferensi real-time
- Kini dukungan GPU juga resmi hadir di Cloud Run jobs, memungkinkan berbagai use case baru
- Fine-tuning model: model pra-latih dapat dengan mudah dilatih ulang agar sesuai dengan dataset tertentu
- Inferensi AI batch: cocok untuk pekerjaan berskala besar seperti menganalisis gambar, memproses bahasa alami, atau menghasilkan rekomendasi
- Pemrosesan media skala besar: transcoding video, pembuatan thumbnail, konversi gambar, dan lainnya dapat diproses lebih efisien dengan GPU
- Cloud Run job yang dilengkapi GPU akan otomatis mengurangi resource setelah pekerjaan selesai untuk meminimalkan beban pengelolaan
Pengalaman nyata dari perusahaan pengguna awal
- vivo: Cloud Run mempercepat siklus pengembangan berulang aplikasi AI dan sangat menghemat biaya operasional dan pemeliharaan. Fitur auto-scaling GPU mendorong pertumbuhan efisiensi penerapan AI secara signifikan di pasar luar negeri
- Wayfair: GPU L4 menghadirkan performa tinggi sekaligus harga yang masuk akal, dan ketika dipadukan dengan auto-scaling cepat dari Cloud Run, mereka mengalami pengurangan biaya sekitar 85%
- Midjourney: Cloud Run GPU sangat berguna untuk pemrosesan gambar dalam skala besar, dan berkat lingkungan pengembangan yang sederhana serta jelas, mereka bisa fokus pada inovasi tanpa beban pengelolaan infrastruktur. Skalabilitas GPU memudahkan analisis dan pemrosesan jutaan gambar
Panduan memulai dan resource
- Dukungan GPU di Cloud Run menghadirkan lingkungan yang cocok untuk pengembangan aplikasi generasi berikutnya
- Siapa pun dapat memulai dengan mudah melalui dokumentasi resmi, panduan mulai cepat, dan praktik terbaik optimasi
- Pendaftaran untuk ikut serta dalam private preview Cloud Run job dengan GPU juga tersedia
Kesimpulan
- Dukungan GPU resmi di Cloud Run menghadirkan potensi skalabilitas besar untuk berbagai beban kerja khusus seperti AI, pemrosesan batch skala besar, dan transformasi media
- Berbagai perusahaan nyata telah membuktikan manfaatnya dari sisi biaya, efisiensi operasional, dan skalabilitas
- Dengan konfigurasi yang sederhana dan beragam materi pembelajaran, siapa pun dapat dengan mudah memulai beban kerja GPU berbasis cloud
1 komentar
Komentar Hacker News
Saya benar-benar menyukai Google Cloud Run dan termasuk pihak yang sangat merekomendasikannya sebagai opsi terbaik. Namun, saya rasa Cloud Run GPU sulit untuk direkomendasikan. Penagihan berbasis instance tidak efisien, dan opsi GPU juga terbatas. Saat memuat/melepas model ke/dari memori GPU, ada penurunan performa sehingga terasa lambat untuk lingkungan serverless. Jika membandingkan biaya nyata, hitungannya menunjukkan bahwa bahkan dengan pemanfaatan hanya 30% per hari, kombinasi VM+GPU tetap lebih ekonomis. (tautan blog terkait)
VP Google. Terima kasih atas masukannya. Secara umum saya setuju bahwa dengan struktur harga saat ini, jika kapasitas layanan yang dibutuhkan nyaris tetap, melakukan pra-provisioning VM akan lebih efisien secara biaya. Sebaliknya, saya melihat Cloud Run GPU dioptimalkan untuk lingkungan seperti produk baru atau aplikasi AI dengan lonjakan permintaan mendadak, di mana biaya idle harus minimal, startup sangat cepat, dan traffic jarang serta tidak teratur
Kesan saya, Cloud Run memang layanan yang sangat hebat. Dari pengalaman saya, jauh lebih mudah ditangani dibanding AWS ECS/Fargate
Masalah terbesar adalah Anda tidak bisa benar-benar mengandalkan VM di GCP. Semua cloud besar punya isu seperti ini. Di AWS, sulit mendapatkan GPU 80GB tanpa reservasi jangka panjang, dan harganya konyol. GCP juga sama: mahal dan ketersediaannya rendah. Perusahaan besar bilang mereka ramah startup, tapi pengalaman nyatanya tidak begitu. Neocloud seperti runpod, nebius, lambda, dan lainnya memberikan layanan yang jauh lebih baik. Menurut saya, cloud besar terlalu nyaman dengan permintaan tetap dan tidak memedulikan startup, dan itu adalah kesalahan yang bisa sangat merugikan pertumbuhan jangka panjang mereka
Saya punya pengalaman yang berlawanan dengan Cloud Run. Karena scale-out/restart yang tak jelas penyebabnya, saya bahkan membeli layanan support berbayar untuk bertanya, tetapi tetap tidak menemukan jawabannya. Akhirnya saya pindah ke VM yang dikelola sendiri. Saya tidak tahu apakah sekarang sudah membaik
Soal pendapat bahwa Cloud Run itu yang terbaik, saya ingin melihat angkanya langsung. Untuk proyek main-main memang bagus, tetapi di pekerjaan nyata ini lubang biaya. Dalam salah satu proyek, masalah autoscaling terus terjadi;
scale to zeroterlihat bagus secara teori, tetapi dalam praktiknya saat warming up sering muncul beberapa container untuk satu request dan tetap hidup lama. Bahkan ada container misterius tanpa penggunaan CPU atau jaringan yang terlihat, tetapi biayanya tetap ditagihkan. Untuk proyek Java atau Python, cold start sangat lambat; untuk Go/C++/Rust saya belum punya pengalaman jadi kurang tahuSelain kompleksitas cloud besar, ada juga kekhawatiran soal tagihan YOLO tanpa batas yang bisa menguras kartu kredit semalaman. Kesimpulannya, saya akan tetap bertahan di Modal dan vast.ai
Dari sudut pandang pengguna proyek pribadi/kecil, tidak adanya batas biaya (CAP) adalah kelemahan besar GCP. Untuk Cloud Run, biaya setidaknya bisa dibatasi secara tidak langsung lewat batas concurrency dan batas jumlah instance. Tetap saja, itu belum setara dengan CAP yang sebenarnya
Saya pernah lupa mematikan instance di AWS dan akhirnya kena biaya besar, jadi
scale to zerodan billing per detik di Cloud Run adalah keunggulan besar. Kalau startup-nya benar-benar cepat, saya yakin ini akan sempurna untuk workload sayaDi Cloud Run, Anda bisa membatasi biaya maksimum secara tidak langsung dengan mengatur jumlah instance maksimum.
Hard cappada era App Engine justru punya efek samping layanan berhenti total tepat saat sedang naik daun, misalnya ketika masuk HN. Secara pribadi saya rasa pengelolaan anggaran berbasis notifikasi adalah pilihan yang lebih baikInilah juga alasan saya benar-benar membuang Datadog dari production. Saya ragu apakah sepadan bagi platform-platform ini untuk menanggung kesan negatif yang muncul saat pengguna terkena tagihan berlebih karena kesalahan sendiri
Saya kurang paham bagaimana Modal atau vast.ai mencegah tagihan YOLO. Apakah modelnya prabayar, atau memang menyediakan CAP secara langsung?
Setelah membandingkan harga sendiri, kesannya memang tidak terlalu menarik. Saya merangkum tarif per jam Google, runpod.io, dan vast.ai dalam tabel:
Harga Google terasa seperti diasumsikan berjalan 24/7 selama sebulan, sedangkan runpod.io dan vast.ai menagih per detik. Saya tidak bisa menemukan tarif spot untuk GPU Google
Anda bisa langsung melihat tarif spot di "Buat instance komputasi". Misalnya di GCP, 1xH100 spot adalah $2.55 per jam, dan ada diskon jika digunakan lebih lama. Untuk pelanggan perusahaan nyata, harga seperti ini juga masih bisa didiskon. Hanya pengguna biasa yang membayar harga katalog seperti ini
Saya penasaran sumber tarif vast.ai itu dari mana. Di situs resminya, opsi 8xH200 kebanyakan tampak di atas $21.65 per jam
Saya penasaran apa dasar anggapan bahwa harga Google ditetapkan dengan asumsi 24/7. Di halaman harga resmi Cloud Run tertulis bahwa penagihan berdasarkan penggunaan aktual per 100 milidetik, dan autoscaling juga dijelaskan akan mengecilkan instance idle secara otomatis setelah menunggu 15 menit (PM Cloud Run)
Bukankah di Cloud Run GPU hanya bisa memilih 1xL4?
Jika harga Google juga ditagih per detik, ada pendapat bahwa untuk penggunaan di bawah 20 menit justru Google bisa lebih menguntungkan
Saya penggemar berat Modal, dan sudah lama memakai serverless scale-to-zero GPU mereka. Sangat mudah menaikkan skala besar saat diperlukan, sambil secara signifikan mengurangi beban pengembangan. Menarik melihat penyedia besar masuk ke pasar ini. Alasan saya pindah ke Modal juga karena cloud besar sebelumnya tidak menawarkan fitur seperti ini (AWS Lambda tidak mendukung GPU). Jadi saya penasaran apakah sekarang semua cloud besar sedang bergerak ke arah layanan seperti ini
Modal memang luar biasa. Deep dive teknis mereka tentang solver LP (linear programming) yang mereka buka sendiri juga sangat mengesankan. Jika Anda developer Python, saya juga merekomendasikan Coiled. Memang tidak secepat Modal, tetapi mudah untuk menyalakan GPU VM, dan semuanya berjalan di akun cloud Anda sendiri. Mereka juga menyediakan manajemen paket yang nyaman, seperti sinkronisasi driver CUDA/perpustakaan Python. (Catatan: saya bekerja di Coiled, tetapi tetap merekomendasikannya dengan tulus)
Dukungan untuk workload yang patuh HIPAA juga merupakan kelebihan tak terduga
Untuk model berukuran lebih dari 10GB, kecepatan cold start Modal adalah yang tercepat
Dokumentasi Modal juga sangat rapi, itu cukup mengesankan
Alasan terbesar Cloud Run lebih baik daripada layanan lain adalah autoscaling dan
scale-to-zero. Saat benar-benar tidak ada penggunaan, biaya praktis menjadi 0, dan dengan menentukan jumlah instance maksimum, biaya maksimum juga bisa dikelola dengan stabil. Namun ini dengan asumsi hanya memakai versi CPU, dan layanannya sangat andal serta mudah digunakanscale-to-zeroPenyedia cloud GPU kecil asal Eropa, DataCrunch (tidak berafiliasi), menawarkan Nvidia GPU VM lebih murah dibanding RunPod dan lainnya
1x A100 80GB 1.37 euro/jam
1x H100 80GB 2.19 euro/jam
Di lambda.ai, VM 1x H100 80GB ditawarkan seharga $2.49 per jam. Dengan kurs saat ini, itu tepat 2.19 euro. Saya penasaran apakah ini kebetulan atau ada semacam batas atas tak terlihat di industri
Di Vast.ai, Anda bisa memakai 2x A100 dengan model P2P seharga $0.8/jam (artinya $0.4/jam per A100). Saya hanya pengguna puas biasa. Yang perlu diperhatikan adalah kecepatan jaringan. Beberapa host berbagi bandwidth, jadi kecepatan nyata bisa berbeda dari yang diiklankan. Perlu hati-hati saat memindahkan data besar
VP/GM yang menangani Cloud Run/GKE. Siap menjawab pertanyaan terkait ini. Terima kasih atas besarnya minat
Saya suka Cloud Run, dan fitur barunya juga terlihat menarik. Namun yang disayangkan, saya ingin menjalankan self hosted GitHub runners tetapi tidak didukung karena isu hak akses root. Selain itu, fitur worker pool yang baru juga di lapangan tetap mengharuskan menulis scaler sendiri, jadi sebenarnya bukan fitur bawaan yang lengkap
Setelah pernah menyalakan model untuk pengujian di vertex.ai lalu lupa mematikannya hingga ditagih $1000, kali ini Cloud Run tampaknya akan menjadi layanan andalan saya. Selama bertahun-tahun saya menjalankan microservice production dan proyek hobi di Cloud Run, dan puas baik dari sisi kesederhanaan maupun efisiensi biaya
Jika pemahaman saya benar, ini berarti kita bisa membuat API yang menjalankan model arbitrer seperti Hugging Face, dan walaupun tidak memakai skema biaya per token, operasionalnya bisa cukup murah jika bebannya rendah. Jika memang begitu, ini terobosan besar. Sebagian besar penyedia selama ini meminta biaya langganan bulanan untuk menjalankan model kustom
Penjelasannya pada dasarnya benar. Hanya saja, cold start bisa sangat lambat (30~60 detik). Itulah kelemahan
scale to zero. Selain itu, perlu diperhatikan juga ada beberapa biaya bulanan kecil seperti penyimpanan containerAda berbagai alternatif yang mendukung inferensi GPU serverless seperti Runpod, vast, coreweave, replicate, dan lainnya