7 poin oleh GN⁺ 2025-02-15 | 1 komentar | Bagikan ke WhatsApp
  • Fly.io sedang membangun public cloud yang menggunakan perangkat kerasnya sendiri, dan mengembangkan Fly GPU Machines dengan tujuan menyediakan inferensi AI/ML berbasis GPU
  • Fly GPU Machines adalah VM yang menjalankan kontainer Docker/OCI, dirancang agar memungkinkan operasi CUDA yang cepat dengan memetakan GPU NVIDIA secara langsung
  • Pentingnya AI/ML ternyata lebih besar dari perkiraan, tetapi produk GPU tampaknya tidak benar-benar mencerminkan kebutuhan pasar

Kesulitan teknis dalam mengadopsi GPU

  • Fly GPU Machines dirancang menggunakan Intel Cloud Hypervisor alih-alih Firecracker agar mendukung PCI passthrough
  • Ekosistem NVIDIA tidak mendukung hypervisor microVM, sehingga sulit mengoptimalkan keamanan dan performa GPU
  • GPU menjadi perhatian tim keamanan karena memungkinkan transfer DMA (Direct Memory Access) multiarah dan operasi yang dikendalikan pengguna, sehingga menimbulkan risiko keamanan yang tinggi
  • Untuk memisahkan workload GPU dan non-GPU, digunakan perangkat keras server terpisah, yang menghasilkan struktur biaya yang tidak efisien
  • Untuk verifikasi keamanan, dilakukan evaluasi keamanan berskala besar bersama Atredis dan Tetrel, yang memakan biaya dan waktu besar

Trial and error teknis

  • Tidak mengikuti pendekatan yang direkomendasikan NVIDIA (membangun klaster K8s atau menggunakan QEMU), dan mencoba mempertahankan kecepatan startup Fly Machines yang cepat
  • Gagal saat mencoba menggunakan driver virtual GPU (vGPU) NVIDIA di Intel Cloud Hypervisor
  • Karena lingkungan driver NVIDIA yang tertutup, sulit membangun arsitektur yang bisa memanfaatkan GPU secara efisien
  • Optimalisasi pemuatan bobot model ke GPU diperlukan, tetapi sulit diselesaikan sambil tetap mempertahankan developer experience (DX)
  • Banyak GPU telah dibeli, tetapi hasilnya tidak sebesar yang diharapkan

Penyebab kegagalan model bisnis GPU

  • Developer pada umumnya lebih menginginkan LLM daripada GPU
    • Dibanding mengoptimalkan model AI/ML, menggunakan API LLM seperti OpenAI dan Anthropic lebih praktis dan perbedaan performanya juga tidak terlalu besar
    • Sebagian besar developer lebih mementingkan performa dalam satuan "tokens per second" daripada optimasi tingkat milidetik yang ditawarkan GPU
  • Perusahaan yang menjalankan pekerjaan AI skala besar membutuhkan kapasitas komputasi GPU yang sangat besar, dan satu GPU A100 saja tidak cukup
    • Laboratorium dan perusahaan AI skala besar menginginkan klaster H100 berbasis SXM
  • Mungkin ada pasar GPU kecil untuk workload ML ringan, tetapi sulit memanfaatkan NVIDIA MIG dalam lingkungan yang tervirtualisasi penuh
  • GPU L40S digunakan dengan cukup berguna, tetapi tidak berhasil menjadi pendorong pertumbuhan bisnis inti Fly.io

Pelajaran yang didapat

  • Pada awalnya (2022), diperkirakan akan muncul beragam model AI, tetapi sekarang justru mengerucut pada sejumlah kecil model LLM seperti OpenAI dan Anthropic
  • Fly.io mengikuti prinsip "merancang fitur untuk 10.000 developer"
    • GPU hanyalah fitur untuk developer ke-10.001, sehingga sulit menjadi produk utama
  • Startup belajar melalui banyak percobaan, dan adopsi GPU adalah salah satu taruhan yang gagal
  • Investasi terkait GPU bukan sepenuhnya kerugian, karena sebagian perangkat keras masih bisa dijual nanti
  • Dimungkinkan untuk menyesuaikan arah dengan mengurangi dukungan GPU sambil tetap mempertahankan keamanan dan developer experience Fly Machines
  • Seperti halnya runtime edge computing JavaScript, produk awal Fly.io, yang juga tidak diinginkan pasar dan akhirnya beralih ke dukungan kontainer, GPU juga merupakan pilihan yang tidak sesuai dengan kebutuhan pasar
  • Startup sering menemukan jawaban yang tepat melalui asumsi yang keliru, dan kasus GPU kali ini juga merupakan bagian dari proses tersebut

1 komentar

 
GN⁺ 2025-02-15
Komentar Hacker News
  • Para developer menginginkan LLM dibanding GPU atau model AI/ML. System engineer peduli pada CUDA dan GPU, tetapi software developer tidak demikian

    • Ada perpecahan besar di kalangan software developer. Sebagian ingin memahami di mana kode dijalankan dan bagaimana cara kerjanya
    • Kelompok lain hanya ingin selesai dengan git push, dan tidak ingin memahami hal-hal seperti DNS atau Linux
    • Perusahaan seperti fly.io menarik bagi kelompok kedua. Instance GPU menarik bagi kelompok pertama
    • Kedua pasar ini harus didekati secara berbeda. Kepada kelompok kedua, Anda bisa menjual lebih banyak abstraksi dan otomasi
  • Hukum Moore pada dasarnya telah berakhir sejak 2012. Eksekusi single-thread berhenti di 2GHz

    • Selama 2012-2022, perpindahan ke cloud membuat orang tidak menyadari stagnasi single-thread
    • Pada 2022, data center menyadari bahwa mereka tidak perlu membeli chip generasi berikutnya dengan lebih banyak core
    • LLM dapat diparalelkan 100%, sehingga modal bisa diinvestasikan lagi
    • Pada 2024, silikon skala wafer akan hadir. Ini dapat menjalankan model Llama 10 kali lebih cepat daripada A100
    • Software harus menemukan cara untuk memanfaatkan performa ini
  • Mesin GPU fly sangat cepat dan andal, serta tidak mahal dibanding alternatifnya

    • DX-nya sangat bagus. Tidak perlu mempelajari perintah baru
    • Semoga harganya bisa lebih murah dan tersedia di lebih banyak wilayah
  • Saya membeli 4090, tetapi 24GB VRAM tidak cukup

    • Dua atau lebih 3090 dan catu daya kustom akan menjadi pilihan yang lebih baik
    • Performa dan kualitasnya masih kurang
  • Pelanggan yang memilih Fly kemungkinan akan menjadi kelompok terakhir yang menggunakan server GPU khusus dalam jangka panjang

    • Mereka lebih mungkin menggunakan solusi serverless
  • Sangat disayangkan tidak ada GPU slice. Biaya $1,000 per bulan sulit untuk dibenarkan

    • Menghubungkan GPU konsumen AMD ke Raspberry Pi mungkin lebih ekonomis
  • "Kami salah" adalah salah satu ungkapan paling luhur dan indah dalam bahasa Inggris

  • Fly.io menarik developer yang mirip dengan platform Workers milik Cloudflare

    • Mereka menginginkan kecepatan pengembangan dari lingkungan PaaS
    • Cloudflare mempertahankan pendekatan PaaS sambil membangun Workers AI dengan GPU
  • Menyiapkan endpoint serverless di Runpod memakan waktu sebulan, mahal, dan tidak andal

    • Saya bisa menggunakan kredit Google Cloud untuk menyediakan produk kepada pelanggan
    • Ada permintaan untuk penyedia GPU. Belum pasti apakah Fly bisa masuk ke pasar ini