San Francisco Compute: Menyediakan 512 H100 untuk Startup dengan Harga Per Jam di Bawah 2 Dolar

(sfcompute.org)

2 poin oleh GN⁺ 2023-07-31 | 1 komentar | Bagikan ke WhatsApp

Beberapa startup dan laboratorium riset membeli klaster GPU secara bersama-sama untuk berbagi sumber daya komputasi yang diperlukan dalam pelatihan model besar
Alih-alih masing-masing membeli N GPU, K startup berkumpul untuk bersama-sama membeli klaster berskala N×K
Job scheduler mendistribusikan komputasi secara adil sesuai proporsi kepemilikan, dan mengalokasikan tambahan jika ada komputasi menganggur
Alih-alih memenuhi 128 A100 sepanjang bulan, startup bisa melakukan burst dengan 512 A100 selama seminggu, sehingga model dapat dilatih lebih cepat
Struktur ini menyediakan metode alokasi burst yang sebelumnya hanya dinikmati laboratorium riset besar seperti OpenAI dan DeepMind kepada startup

Ide Inti

Alih-alih K startup masing-masing membeli klaster N GPU, mereka bersama-sama membeli klaster N×K GPU
Menyediakan job scheduler agar tiap startup mendapatkan distribusi komputasi secara adil sesuai proporsi kepemilikan
Jika ada komputasi menganggur, scheduler akan mengalokasikannya begitu saja, sehingga jika beruntung, startup dapat menggunakan komputasi lebih banyak dari jatahnya
Alih-alih terus mengisi 128 A100 selama sebulan, startup bisa burst hingga 512 A100 selama seminggu untuk mendapatkan model lebih cepat
Laboratorium riset besar seperti OpenAI dan DeepMind memiliki klaster besar yang mendukung alokasi burst untuk para peneliti
- Sebaliknya, hingga kini startup hanya bisa mendapatkan klaster yang sangat kecil melalui kontrak jangka panjang yang sangat lama, harus menunggu berbulan-bulan, dan harus selalu menjaganya tetap sibuk
Dengan menerapkan alokasi burst dan kontrak jangka pendek, targetnya adalah sekitar $2,00 per H100
Startup yang ingin berpartisipasi dapat mengisi formulir pendaftaran; pertanyaan dapat dikirim melalui email ke evan@roomservice.dev

Bergabung, Keluar, dan Ekspansi

Seperti hacker house, jika ingin meninggalkan klaster (misalnya membangun klaster sendiri), perlu memberi tahu satu atau dua bulan sebelumnya agar tempatnya bisa diisi orang lain
Startup baru ditambahkan ke grup dalam batch, dengan H100 baru ditambahkan ke klaster setiap beberapa bulan
Hal yang sama berlaku jika pihak yang sudah tergabung dalam grup ingin memperluas komputasinya
Mempertimbangkan sedikit overprovisioning — misalnya, jika seorang teman membutuhkan beberapa node untuk eksperimen kecil, bisa langsung disediakan dengan harga bagus
- Dengan overprovisioning 10%, harga H100 per jam naik 10%

Keuangan

Telah mengamankan jalur yang kuat untuk mengoperasikan 512 H100 dalam 4–6 minggu
Jika ada permintaan yang melebihi itu, H100 tambahan dapat diamankan dalam sekitar 8 minggu
Karena biaya pembelian klaster dapat disebar dengan persyaratan yang baik dari bank, tingkat $2,00 per H100 dapat diwujudkan sambil tetap mempertahankan kontrak jangka pendek dan alokasi burst

Infrastruktur

Berbagi mailing list/Slack untuk debugging infrastruktur, sehingga jika terjadi masalah seperti InfiniBand, anggota dapat bertanya ke grup
Jika ada orang yang pernah menangani masalah yang sama, mereka dapat saling membantu

1 komentar

GN⁺ 2023-07-31

Komentar Hacker News

Semoga berhasil. TPU Research Cloud(TRC) pernah mencoba hal seperti ini pada 2019, dan itulah yang memungkinkan saya memulai
Pada 2023, mendapatkan satu TPU selama lebih dari satu jam saja sulit, tetapi waktu itu secara harfiah kita bisa mendapat ratusan. Saya percaya pada TRC, dan berpikir kalau skalanya diperbesar hingga menjadi benua TPU, masalahnya akan selesai, tetapi pada akhirnya waktu TPU makin berkurang karena diprioritaskan untuk peneliti internal. Dunia sudah berubah sedemikian rupa sehingga jika sekarang Anda mengusulkan melatih GPT bermain catur dengan H100, Anda akan ditertawakan
Proyek ini punya optimisme muda yang saya harap tidak hilang, dan dalam jangka panjang mungkin itulah cara untuk menang. Kalau ada seseorang datang meminta secuil sangat kecil dari H100 untuk ide yang terdengar aneh, saya harap mereka diterima. Itulah satu-satunya alasan saya bisa menjadi sesuatu
- Ungkapan “proyek ini punya optimisme muda” adalah hal terbaik yang pernah saya dengar sejauh ini. Sampai-sampai ingin saya bingkai dan gantung di dinding
  Tentu saja kami berniat menerima permintaan aneh untuk secuil kecil H100
- Sebenarnya program TPU Research Cloud masih berjalan dengan baik. Pool komputasinya sudah diperluas besar-besaran hingga mencakup Cloud TPU v4 Pod slice, dan proyek besar masih menggunakan ratusan chip sekaligus. Kapasitas TRC tidak ditarik kembali untuk penggunaan internal
  Daftar makalah terbaru yang didukung TRC bisa dilihat di https://sites.research.google/trc/publications/
  Karena permintaan Cloud TPU sangat kuat, jika memakai kapasitas preemptible, penghentian mungkin lebih sering terlihat, tetapi kapasitas reservasi juga tersedia. Ada baiknya menghubungi tim dukungan TRC
- Mengejutkan, rasanya baru sekarang saya melihat sisi terangnya. Di tulisan sebelumnya saya hanya melihat pujian untuk TRC, tetapi sebagai orang yang mulai lebih belakangan, saya meraih jauh lebih banyak hasil dengan GPU gaming milik sendiri
  Perbandingannya memang tidak sepenuhnya setara, tetapi TRC sangat sulit ditangani, akses TPUv3 hanya sekali, dan waktunya bahkan tidak cukup untuk mempelajari dasar-dasarnya. Saya memahami bahwa situasinya sangat berbeda tergantung alamat email apa yang dipakai dan seberapa terkenal akun Twitter Anda
- Pengalaman saya berbeda. Mengingat proses pengajuannya relatif mudah, menurut saya ini masih cukup dermawan. Dalam 6 bulan terakhir, untuk beberapa proyek, saya ditawari v3-8, v3-32 30 hari, dan v3-64 28 hari preemptible
  Saya penasaran apakah Anda berafiliasi dengan akademia. Kalau tidak, saya tidak tahu mengapa mereka lebih murah hati kepada saya, dan proyek-proyek saya pun paling-paling hanya sedikit menarik. Namun memang benar mereka jauh lebih pelit untuk Pod besar dibanding dulu
- Shawn sepenuhnya benar. Persaingan sekarang terlalu panas sehingga tidak ada kelonggaran seperti ini. Satu pelanggan bisa mengambil 512 GPU selama 3 tahun
“Alih-alih masing-masing dari K startup membeli klaster N GPU secara terpisah, mereka bersama-sama membeli klaster NK GPU dan membagikan komputasi lewat job scheduler” secara teori terlihat hampir sama dengan model penyedia cloud seperti AWS dan Azure
Strukturnya adalah “alih-alih semua orang membeli hardware tetap secara individual, kami membeli pool hardware raksasa dan membiarkannya dipakai berbagi waktu.” Selain fakta bahwa penyedia cloud harus menaikkan harga demi margin bersih, saya penasaran apakah ada hal lain yang terlewat sampai proyek seperti ini dibutuhkan
- Terutama karena harga dan ketersediaan
  Pertama, investor cloud publik mengharapkan struktur margin tertentu sehingga sulit bersaing dengan margin Lambda atau Fluidstack. Kedua, cloud besar juga sampai batas tertentu kurang menguntungkan untuk jaringan pelatihan model bahasa besar. Setahu saya hanya Azure yang punya InfiniBand, Oracle 3200Gbps tetapi bukan InfiniBand, dan saya kira AWS juga serupa. Saya tidak yakin soal GCP, tetapi seingat saya kecepatan jaringan A100-nya 100Gbps, bukan 1600Gbps. Sebaliknya, Lambda, Fluidstack, dan CoreWeave semuanya punya InfiniBand. Ketiga, Nvidia tidak mengalokasikan pasokan sebanyak yang diinginkan cloud besar
- Cloud utama juga sedang melakukan ini. Semua cloud besar sedang menyiapkan fitur permintaan/reservasi jangka pendek. Sebelum AI generatif, fitur ini bukan sesuatu yang terlalu berguna. Seberapa sering orang perlu meminta 1000 node CPU selama 48 jam di satu availability zone?
  Kedua, ada masalah mendasar soal berbagi sumber daya di sini. Dalam proyek Evan dan AI Grant ini pun, muncul pertanyaan: jika satu tim punya uang untuk terus menguasai seluruh klaster, mengapa harus dilarang? Persoalannya adalah apa kriteria pasti untuk penggunaan yang adil. Di jaringan ada algoritme berbagi bandwidth seperti TCP fairness, tetapi itu tidak terlalu cocok untuk pekerjaan yang bersifat menggumpal seperti ini
  Dalam beberapa bulan ke depan, AWS dan sejenisnya akan mencoba meluncurkan layanan antrean untuk mengalokasikan bongkahan komputasi secara sementara, dan kemungkinan akan disertai pembayaran di muka serta biaya tinggi. Bisa jadi lebih mahal daripada tarif on-demand
- AWS dan Azure akan lebih rela menggorok leher sendiri daripada membuat cara bagi pelanggan menggabungkan instance untuk menghemat biaya
  Mereka ingin melakukan pooling itu sendiri, dan tidak ingin menyerahkan hubungan pelanggan maupun keuntungan kepada perantara atau pelanggan
Dari pengalaman menjalankan infrastruktur di beberapa colocation di CA, kalau memungkinkan sebaiknya taruh di tempat lain. Biaya listrik California dan biaya infrastruktur lainnya jauh lebih tinggi daripada AZ atau NV
- Dengan listrik murah dan keuntungan kurs CAD-USD, Montreal tampaknya cocok
- Dalam biaya komputasi GPU, listrik tampaknya hanya porsi yang sangat kecil
Saya melihat kalimat “tidak ada penyedia cloud mana pun di dunia yang akan memberi komputasi senilai 100 ribu dolar hanya untuk beberapa minggu,” dan meski saya belum pernah membeli komputasi yang sangat besar, saya kira itulah inti dari cloud
Penasaran apa bedanya dengan https://lambdalabs.com/
- Kami memilih menjalankan komputasi skala menengah dengan margin nol. Tujuannya bukan menjual ke Fortune 500, melainkan memungkinkan mahasiswa pascasarjana memakai dana riset sebesar 50 ribu dolar
  Saat ini cukup mudah mendapatkan beberapa A100/H100, dan Lambda juga sangat bagus untuk kebutuhan ini. Namun mendapatkan 24 unit atau lebih dengan harga masuk akal, kira-kira 2 dolar per jam, sangat sulit. Bahkan jika hanya ingin menjalankan training 8 jam di H100, sering kali diminta komitmen lebih dari 6 bulan
  Secara bisnis, masuk akal jika broker GPU lebih menyukai reservasi jangka panjang, dan kalau kami berada di posisi mereka, kami mungkin melakukan hal yang sama. Namun tujuan kami berbeda. Kami ingin mempersenjatai para pemberontak. Kami ingin memungkinkan pihak selain BigCorp untuk melatih model
- Harganya sangat mirip, tetapi modelnya tampak cukup berbeda. Perbedaan pentingnya mungkin terasa saat sering menjalankan training singkat di banyak GPU. Lambdalabs mungkin tidak bisa langsung memberi 256 instance sekarang juga
  Pendekatan di postingan asli lebih mirip membeli hak untuk memasukkan job ke antrean kerja klaster 512 GPU, jadi job yang membutuhkan 256 GPU pun tidak menjadi masalah. Hanya saja, Anda bisa harus menunggu di belakang seseorang yang menjalankan job 512 GPU
  Saya tidak tahu seperti apa kapasitas aktual Lambdalabs. Penasaran apakah ada yang tahu seberapa mudah menjalankan lebih dari 2–3 instance di sana
- Biasanya, tanpa komitmen reserved instance jangka panjang, H100 hanya bisa didapat beberapa unit sekaligus
- Tidak ada cara praktis untuk mendapatkan blok besar tanpa komitmen. Seingat saya, komitmen minimum H100 adalah 64 GPU selama 3 tahun, sekitar 3 juta dolar
- H100 seharga 2 dolar per jam terdengar lebih fleksibel, tetapi saya belum pernah mendapatkan 10 ribu GPU-jam dari layanan seperti ini. Mungkin di titik itulah bottleneck-nya
Secara pribadi saya sangat tertarik pada AI dan sudah terlibat selama beberapa tahun, tetapi belum pernah melihat kelangkaan GPU seperti sekarang. Untuk orang yang ingin mencoba machine learning sebagai hobi, saya sangat merekomendasikan vast.ai
- Untuk cloud tambahan, H100 dan A100 tersedia di Lambda, Fluidstack, RunPod, CoreWeave, Crusoe, Oblivus, Latitude
  Untuk GPU selain A100/H100, ada vast, TensorDock, dan juga RunPod
- Tergantung bagaimana Anda memandang kategori hobi, tetapi untuk menjalankan T4 beberapa menit demi mempelajari alat dan konsep, modal.com cukup bagus
  Saat ini mereka menjual ulang AWS dan GCP, dan juga punya A100, tetapi untuk sekarang T4 sudah cukup
- vast.ai lebih mirip marketplace gig economy untuk GPU. Saya baru saja mencoba mesin pertama saya dan berjalan dengan baik; ada RAM 512GB, 256 CPU AMD, GPU A100, dan saya memakai sekitar 4 menit dengan 0,05 dolar. Biaya itu pun diberikan gratis
Saya memahami bahwa AWS/GCP/Azure punya overhead dan mengapa banyak perusahaan memilih bare metal untuk operasional. Secara pribadi, saya jarang melihatnya sepadan dengan waktu dan usaha, tetapi saya mengerti bahwa pada skala besar penghematannya bisa signifikan
Namun jika untuk training AI pun public cloud tidak kompetitif untuk kebutuhan burst, berarti margin mereka jauh lebih tinggi dari yang diperkirakan. Saya penasaran penghematan biaya 10–20x di postingan asli itu dibandingkan dengan apa. Apakah patokannya AWS?
- p5.48xlarge AWS seharga 98,32 dolar per jam untuk 8 H100, jadi 12,29 dolar per jam per H100. Kira-kira 6 kali lebih mahal
Sebagai orang yang menyukai SF, saya penasaran apakah ada hal menarik soal namanya. Apakah hardwarenya benar-benar akan ditempatkan di SF, dan apakah ada rencana mengadakan meetup atau mengumpulkan pelanggan agar bisa saling berjejaring
Belum punah seperti Xerces blue, kami masih ada
https://en.wikipedia.org/wiki/Xerces_blue
- Hardware tidak akan ditempatkan di SF. Karena itu bukan ruang data center termurah
  Namun saya rasa cukup banyak pelanggan akan berada di sini. SF mungkin masih merupakan tempat terbaik untuk membangun startup. Sangat banyak orang yang memecahkan masalah teknologi sulit. Di setiap tempat tinggal saya di SF, selalu ada startup lain di lantai atas atau bawah
  Mengadakan acara offline juga ide yang bagus
Saya suka ide aset komunitas. Mungkinkah ini menjadi awal koperasi GPU?
- Untuk kartu konsumen, bentuk seperti itu sudah ada. Anda bisa menghasilkan uang dari GPU sendiri lewat vast.AI
  https://cloud.vast.ai/host/setup
- Saya sama sekali tidak tahu infrastruktur internal Twitter, tetapi melihat situasi seperti penurunan pendapatan iklan, penurunan keterlibatan pengguna, dan masuknya Threads, saya bertanya-tanya apakah Twitter bisa memakai sebagian infrastrukturnya untuk mendukung startup seperti ini
  Bisa berupa ruang rak, VM, container, konektivitas, apa pun. Pada dasarnya Twitter mundur menjadi seperti penyedia colocation akhir 90-an
  Untuk yang tidak menangkapnya, ini lelucon
Penasaran bagaimana mereka mendapatkan uang untuk membeli 512 H100
- Seperti yang jelas tertulis di kalimat pertama artikel, mereka adalah investor VC yang melakukan ini untuk startup yang baru saja mereka investasikan, dan mereka juga sedang mencari peserta lain

San Francisco Compute: Menyediakan 512 H100 untuk Startup dengan Harga Per Jam di Bawah 2 Dolar

Ide Inti

Bergabung, Keluar, dan Ekspansi

Keuangan

Infrastruktur

Bacaan terkait

1 komentar

Komentar Hacker News