Kesalahpahaman tentang GPU

(fly.io)

7 poin oleh GN⁺ 2025-02-15 | 1 komentar | Bagikan ke WhatsApp

Fly.io sedang membangun public cloud yang menggunakan perangkat kerasnya sendiri, dan mengembangkan Fly GPU Machines dengan tujuan menyediakan inferensi AI/ML berbasis GPU
Fly GPU Machines adalah VM yang menjalankan kontainer Docker/OCI, dirancang agar memungkinkan operasi CUDA yang cepat dengan memetakan GPU NVIDIA secara langsung
Pentingnya AI/ML ternyata lebih besar dari perkiraan, tetapi produk GPU tampaknya tidak benar-benar mencerminkan kebutuhan pasar

Kesulitan teknis dalam mengadopsi GPU

Fly GPU Machines dirancang menggunakan Intel Cloud Hypervisor alih-alih Firecracker agar mendukung PCI passthrough
Ekosistem NVIDIA tidak mendukung hypervisor microVM, sehingga sulit mengoptimalkan keamanan dan performa GPU
GPU menjadi perhatian tim keamanan karena memungkinkan transfer DMA (Direct Memory Access) multiarah dan operasi yang dikendalikan pengguna, sehingga menimbulkan risiko keamanan yang tinggi
Untuk memisahkan workload GPU dan non-GPU, digunakan perangkat keras server terpisah, yang menghasilkan struktur biaya yang tidak efisien
Untuk verifikasi keamanan, dilakukan evaluasi keamanan berskala besar bersama Atredis dan Tetrel, yang memakan biaya dan waktu besar

Trial and error teknis

Tidak mengikuti pendekatan yang direkomendasikan NVIDIA (membangun klaster K8s atau menggunakan QEMU), dan mencoba mempertahankan kecepatan startup Fly Machines yang cepat
Gagal saat mencoba menggunakan driver virtual GPU (vGPU) NVIDIA di Intel Cloud Hypervisor
Karena lingkungan driver NVIDIA yang tertutup, sulit membangun arsitektur yang bisa memanfaatkan GPU secara efisien
Optimalisasi pemuatan bobot model ke GPU diperlukan, tetapi sulit diselesaikan sambil tetap mempertahankan developer experience (DX)
Banyak GPU telah dibeli, tetapi hasilnya tidak sebesar yang diharapkan

Penyebab kegagalan model bisnis GPU

Developer pada umumnya lebih menginginkan LLM daripada GPU
- Dibanding mengoptimalkan model AI/ML, menggunakan API LLM seperti OpenAI dan Anthropic lebih praktis dan perbedaan performanya juga tidak terlalu besar
- Sebagian besar developer lebih mementingkan performa dalam satuan "tokens per second" daripada optimasi tingkat milidetik yang ditawarkan GPU
Perusahaan yang menjalankan pekerjaan AI skala besar membutuhkan kapasitas komputasi GPU yang sangat besar, dan satu GPU A100 saja tidak cukup
- Laboratorium dan perusahaan AI skala besar menginginkan klaster H100 berbasis SXM
Mungkin ada pasar GPU kecil untuk workload ML ringan, tetapi sulit memanfaatkan NVIDIA MIG dalam lingkungan yang tervirtualisasi penuh
GPU L40S digunakan dengan cukup berguna, tetapi tidak berhasil menjadi pendorong pertumbuhan bisnis inti Fly.io

Pelajaran yang didapat

Pada awalnya (2022), diperkirakan akan muncul beragam model AI, tetapi sekarang justru mengerucut pada sejumlah kecil model LLM seperti OpenAI dan Anthropic
Fly.io mengikuti prinsip "merancang fitur untuk 10.000 developer"
- GPU hanyalah fitur untuk developer ke-10.001, sehingga sulit menjadi produk utama
Startup belajar melalui banyak percobaan, dan adopsi GPU adalah salah satu taruhan yang gagal
Investasi terkait GPU bukan sepenuhnya kerugian, karena sebagian perangkat keras masih bisa dijual nanti
Dimungkinkan untuk menyesuaikan arah dengan mengurangi dukungan GPU sambil tetap mempertahankan keamanan dan developer experience Fly Machines
Seperti halnya runtime edge computing JavaScript, produk awal Fly.io, yang juga tidak diinginkan pasar dan akhirnya beralih ke dukungan kontainer, GPU juga merupakan pilihan yang tidak sesuai dengan kebutuhan pasar
Startup sering menemukan jawaban yang tepat melalui asumsi yang keliru, dan kasus GPU kali ini juga merupakan bagian dari proses tersebut

1 komentar

GN⁺ 2025-02-15

Komentar Hacker News

Para developer menginginkan LLM dibanding GPU atau model AI/ML. System engineer peduli pada CUDA dan GPU, tetapi software developer tidak demikian
- Ada perpecahan besar di kalangan software developer. Sebagian ingin memahami di mana kode dijalankan dan bagaimana cara kerjanya
- Kelompok lain hanya ingin selesai dengan git push, dan tidak ingin memahami hal-hal seperti DNS atau Linux
- Perusahaan seperti fly.io menarik bagi kelompok kedua. Instance GPU menarik bagi kelompok pertama
- Kedua pasar ini harus didekati secara berbeda. Kepada kelompok kedua, Anda bisa menjual lebih banyak abstraksi dan otomasi
Hukum Moore pada dasarnya telah berakhir sejak 2012. Eksekusi single-thread berhenti di 2GHz
- Selama 2012-2022, perpindahan ke cloud membuat orang tidak menyadari stagnasi single-thread
- Pada 2022, data center menyadari bahwa mereka tidak perlu membeli chip generasi berikutnya dengan lebih banyak core
- LLM dapat diparalelkan 100%, sehingga modal bisa diinvestasikan lagi
- Pada 2024, silikon skala wafer akan hadir. Ini dapat menjalankan model Llama 10 kali lebih cepat daripada A100
- Software harus menemukan cara untuk memanfaatkan performa ini
Mesin GPU fly sangat cepat dan andal, serta tidak mahal dibanding alternatifnya
- DX-nya sangat bagus. Tidak perlu mempelajari perintah baru
- Semoga harganya bisa lebih murah dan tersedia di lebih banyak wilayah
Saya membeli 4090, tetapi 24GB VRAM tidak cukup
- Dua atau lebih 3090 dan catu daya kustom akan menjadi pilihan yang lebih baik
- Performa dan kualitasnya masih kurang
Pelanggan yang memilih Fly kemungkinan akan menjadi kelompok terakhir yang menggunakan server GPU khusus dalam jangka panjang
- Mereka lebih mungkin menggunakan solusi serverless
Sangat disayangkan tidak ada GPU slice. Biaya $1,000 per bulan sulit untuk dibenarkan
- Menghubungkan GPU konsumen AMD ke Raspberry Pi mungkin lebih ekonomis
"Kami salah" adalah salah satu ungkapan paling luhur dan indah dalam bahasa Inggris
Fly.io menarik developer yang mirip dengan platform Workers milik Cloudflare
- Mereka menginginkan kecepatan pengembangan dari lingkungan PaaS
- Cloudflare mempertahankan pendekatan PaaS sambil membangun Workers AI dengan GPU
Menyiapkan endpoint serverless di Runpod memakan waktu sebulan, mahal, dan tidak andal
- Saya bisa menggunakan kredit Google Cloud untuk menyediakan produk kepada pelanggan
- Ada permintaan untuk penyedia GPU. Belum pasti apakah Fly bisa masuk ke pasar ini

Kesalahpahaman tentang GPU

Kesulitan teknis dalam mengadopsi GPU

Trial and error teknis

Penyebab kegagalan model bisnis GPU

Pelajaran yang didapat

Bacaan terkait

1 komentar

Komentar Hacker News