- Fly.io sedang membangun public cloud yang menggunakan perangkat kerasnya sendiri, dan mengembangkan Fly GPU Machines dengan tujuan menyediakan inferensi AI/ML berbasis GPU
- Fly GPU Machines adalah VM yang menjalankan kontainer Docker/OCI, dirancang agar memungkinkan operasi CUDA yang cepat dengan memetakan GPU NVIDIA secara langsung
- Pentingnya AI/ML ternyata lebih besar dari perkiraan, tetapi produk GPU tampaknya tidak benar-benar mencerminkan kebutuhan pasar
Kesulitan teknis dalam mengadopsi GPU
- Fly GPU Machines dirancang menggunakan Intel Cloud Hypervisor alih-alih Firecracker agar mendukung PCI passthrough
- Ekosistem NVIDIA tidak mendukung hypervisor microVM, sehingga sulit mengoptimalkan keamanan dan performa GPU
- GPU menjadi perhatian tim keamanan karena memungkinkan transfer DMA (Direct Memory Access) multiarah dan operasi yang dikendalikan pengguna, sehingga menimbulkan risiko keamanan yang tinggi
- Untuk memisahkan workload GPU dan non-GPU, digunakan perangkat keras server terpisah, yang menghasilkan struktur biaya yang tidak efisien
- Untuk verifikasi keamanan, dilakukan evaluasi keamanan berskala besar bersama Atredis dan Tetrel, yang memakan biaya dan waktu besar
Trial and error teknis
- Tidak mengikuti pendekatan yang direkomendasikan NVIDIA (membangun klaster K8s atau menggunakan QEMU), dan mencoba mempertahankan kecepatan startup Fly Machines yang cepat
- Gagal saat mencoba menggunakan driver virtual GPU (vGPU) NVIDIA di Intel Cloud Hypervisor
- Karena lingkungan driver NVIDIA yang tertutup, sulit membangun arsitektur yang bisa memanfaatkan GPU secara efisien
- Optimalisasi pemuatan bobot model ke GPU diperlukan, tetapi sulit diselesaikan sambil tetap mempertahankan developer experience (DX)
- Banyak GPU telah dibeli, tetapi hasilnya tidak sebesar yang diharapkan
Penyebab kegagalan model bisnis GPU
- Developer pada umumnya lebih menginginkan LLM daripada GPU
- Dibanding mengoptimalkan model AI/ML, menggunakan API LLM seperti OpenAI dan Anthropic lebih praktis dan perbedaan performanya juga tidak terlalu besar
- Sebagian besar developer lebih mementingkan performa dalam satuan "tokens per second" daripada optimasi tingkat milidetik yang ditawarkan GPU
- Perusahaan yang menjalankan pekerjaan AI skala besar membutuhkan kapasitas komputasi GPU yang sangat besar, dan satu GPU A100 saja tidak cukup
- Laboratorium dan perusahaan AI skala besar menginginkan klaster H100 berbasis SXM
- Mungkin ada pasar GPU kecil untuk workload ML ringan, tetapi sulit memanfaatkan NVIDIA MIG dalam lingkungan yang tervirtualisasi penuh
- GPU L40S digunakan dengan cukup berguna, tetapi tidak berhasil menjadi pendorong pertumbuhan bisnis inti Fly.io
Pelajaran yang didapat
- Pada awalnya (2022), diperkirakan akan muncul beragam model AI, tetapi sekarang justru mengerucut pada sejumlah kecil model LLM seperti OpenAI dan Anthropic
- Fly.io mengikuti prinsip "merancang fitur untuk 10.000 developer"
- GPU hanyalah fitur untuk developer ke-10.001, sehingga sulit menjadi produk utama
- Startup belajar melalui banyak percobaan, dan adopsi GPU adalah salah satu taruhan yang gagal
- Investasi terkait GPU bukan sepenuhnya kerugian, karena sebagian perangkat keras masih bisa dijual nanti
- Dimungkinkan untuk menyesuaikan arah dengan mengurangi dukungan GPU sambil tetap mempertahankan keamanan dan developer experience Fly Machines
- Seperti halnya runtime edge computing JavaScript, produk awal Fly.io, yang juga tidak diinginkan pasar dan akhirnya beralih ke dukungan kontainer, GPU juga merupakan pilihan yang tidak sesuai dengan kebutuhan pasar
- Startup sering menemukan jawaban yang tepat melalui asumsi yang keliru, dan kasus GPU kali ini juga merupakan bagian dari proses tersebut
1 komentar
Komentar Hacker News
Para developer menginginkan LLM dibanding GPU atau model AI/ML. System engineer peduli pada CUDA dan GPU, tetapi software developer tidak demikian
git push, dan tidak ingin memahami hal-hal seperti DNS atau LinuxHukum Moore pada dasarnya telah berakhir sejak 2012. Eksekusi single-thread berhenti di 2GHz
Mesin GPU fly sangat cepat dan andal, serta tidak mahal dibanding alternatifnya
Saya membeli 4090, tetapi 24GB VRAM tidak cukup
Pelanggan yang memilih Fly kemungkinan akan menjadi kelompok terakhir yang menggunakan server GPU khusus dalam jangka panjang
Sangat disayangkan tidak ada GPU slice. Biaya $1,000 per bulan sulit untuk dibenarkan
"Kami salah" adalah salah satu ungkapan paling luhur dan indah dalam bahasa Inggris
Fly.io menarik developer yang mirip dengan platform Workers milik Cloudflare
Menyiapkan endpoint serverless di Runpod memakan waktu sebulan, mahal, dan tidak andal