Membangun 1,5TB VRAM di Mac Studio - RDMA berbasis Thunderbolt 5

(jeffgeerling.com)

6 poin oleh GN⁺ 2025-12-19 | 2 komentar | Bagikan ke WhatsApp

Eksperimen untuk membuat beberapa Mac Studio bekerja seperti satu pool memori raksasa dengan memanfaatkan fitur baru RDMA (Remote Direct Memory Access) berbasis Thunderbolt 5 yang ditambahkan di macOS 26.2
Menggunakan alat klastering open source Exo 1.0 untuk membangun memori terpadu 1,5TB dan meningkatkan kecepatan menjalankan model AI besar
M3 Ultra Mac Studio menunjukkan performa komputasi dan efisiensi tinggi bahkan pada node tunggal, dan saat RDMA diterapkan latensi akses memori turun dari 300μs menjadi kurang dari 50μs
Ada juga keterbatasan operasional klaster seperti kerumitan kabel Thunderbolt 5, tidak adanya switch, dan batasan pengelolaan macOS
Kombinasi RDMA dan Exo menunjukkan potensi perluasan lingkungan AI·HPC berbasis Mac, tetapi stabilitas dan skalabilitasnya masih perlu ditingkatkan

Gambaran eksperimen RDMA over Thunderbolt 5

Menguji fitur RDMA over Thunderbolt di macOS 26.2 menggunakan klaster Mac Studio yang disediakan Apple
- RDMA memungkinkan beberapa Mac bekerja seperti satu RAM besar sehingga mempercepat pemrosesan model AI skala besar
Pengujian menggunakan alat klastering AI open source Exo 1.0
Empat Mac Studio yang membentuk total memori terpadu 1,5TB memiliki harga sekitar 40 ribu dolar

Sejarah HPC Apple dan posisi M3 Ultra

Upaya Apple terkait HPC nyaris tidak ada sejak era Xserve dan Xgrid di masa lalu
M3 Ultra Mac Studio menunjukkan performa yang cocok untuk menjalankan model AI lokal, dan dengan dukungan RDMA latensi saat diklaster turun dari 300μs menjadi kurang dari 50μs
Beroperasi senyap dengan daya di bawah 250W, serta cocok untuk komputasi ilmiah skala kecil dan pekerjaan kreatif

Konfigurasi hardware dan jaringan

Dua unit di bawah berkonfigurasi RAM 512GB / CPU 32-core, sementara dua unit di atas berkonfigurasi RAM 256GB
Melalui Thunderbolt 5 tersedia bandwidth efektif 50~60Gbps, tetapi karena tidak ada switch Thunderbolt, setiap Mac harus dihubungkan langsung satu sama lain
Stabilitas jaringannya lebih rendah dibanding Nvidia DGX Spark yang memakai port QSFP
Ada ThunderLok-A untuk mengunci kabel Thunderbolt, tetapi tidak digunakan karena memerlukan modifikasi pada bodi Mac Studio

Benchmark performa M3 Ultra Mac Studio

Di Geekbench, unggul dalam single-core maupun multi-core dibanding Dell Pro Max (GB10) dan AMD AI Max+ 395
Pada benchmark FP64 HPL, menembus 1 Tflop, sekitar dua kali performa Nvidia GB10
Juga unggul dalam inferensi model AI besar dan memiliki efisiensi tinggi pada konsumsi daya yang sama
Satu M3 Ultra tunggal melampaui klaster 2-node Dell Pro Max dalam performa maupun efisiensi

Manajemen klaster dan batasan macOS

macOS tidak mendukung upgrade sistem melalui SSH, sehingga perlu interaksi GUI
Pengelolaan jarak jauh dilakukan memakai Screen Sharing
Dibanding Linux, otomatisasi pengelolaan klaster lebih sulit, dan ketiadaan alat MDM juga menambah ketidaknyamanan

Pengujian HPL dan Llama.cpp

HPL mencatat 1,3 Tflops pada node tunggal, dan sekitar tiga kali peningkatan menjadi 3,7 Tflops pada konfigurasi 4-node
Saat memakai koneksi TCP berbasis Thunderbolt, terjadi crash sistem, dan kondisi tanpa RDMA tidak stabil
Dalam pengujian Llama.cpp, Thunderbolt 5 menunjukkan latensi lebih rendah dibanding Ethernet 2,5Gbps

Aktivasi RDMA dan pengujian Exo 1.0

Prosedur aktivasi RDMA: masuk ke mode pemulihan → jalankan perintah rdma_ctl enable → reboot
Exo 1.0 adalah satu-satunya alat yang mendukung RDMA, dan mampu menjalankan model di atas 600GB (seperti Kimi K2 Thinking) secara terdistribusi di banyak Mac
Llama.cpp mendistribusikan layer model dengan metode RPC, tetapi kurang efisien
Performa Exo meningkat seiring bertambahnya jumlah node, dan berhasil mencapai 32 token per detik pada model Qwen3 235B
Model DeepSeek V3.1 dan Kimi K2 Thinking (1 triliun parameter) juga berhasil dijalankan

Masalah stabilitas dan isu open source

Pengujian dilakukan berbasis software pre-release, sehingga ada ketidakstabilan
Saat RDMA bekerja, performanya sangat baik, tetapi jika gagal, seluruh klaster harus direboot
Tim pengembang Exo sempat berhenti aktif untuk sementara lalu kembali, dan proyek ini dirilis dengan lisensi Apache 2.0
Disebutkan pula kekhawatiran tentang proses pengembangan tertutup akibat kolaborasi dengan Apple

Tugas berikutnya dan pertanyaan yang belum terjawab

Apakah M5 Ultra akan dirilis dan apakah performa machine learning-nya akan meningkat
Perlunya peningkatan klaster melalui kembalinya ekspandabilitas PCIe di Mac Pro
Potensi berbagi file berkecepatan tinggi jika SMB Direct didukung
Harapan agar software lain seperti Llama.cpp juga memperluas dukungan RDMA

Kesimpulan

Kombinasi RDMA dan Exo sangat memperluas potensi pemanfaatan Mac Studio untuk AI·HPC
Namun, batasan struktural Thunderbolt 5 dan keterbatasan pengelolaan macOS masih menjadi bottleneck
Diperlukan peningkatan skalabilitas jaringan, termasuk lewat adopsi port QSFP
Bahkan setelah demam AI mereda, Mac Studio tetap bernilai sebagai workstation yang senyap dan bertenaga

2 komentar

kaydash 2025-12-21

Jadi teringat impala

GN⁺ 2025-12-19

Komentar Hacker News

Ada rangkuman hal-hal yang diharapkan dari M5 Max/Ultra
Semoga mendukung tautan QSFP (200Gb/s atau lebih) setingkat DGX alih-alih Thunderbolt. Arsitektur RDMA memang keren, tetapi tanpa kecepatan sebesar itu nilai ekonominya kurang bagus
Ingin mengurangi waktu prefill prompt dengan Neural accelerator. Tidak harus setara RTX 6000, level 3090/4090 pun sudah cukup
Untuk versi spek tertinggi Mac Studio, berharap ada memori terintegrasi 1TB. Rasanya menambah memori lebih efisien daripada memakai beberapa perangkat
Semoga bandwidth-nya juga naik menjadi +1TB/s. Selama tiga generasi terakhir masih bertahan di 800GB/s
Semoga fitur overclocking juga dimungkinkan. Mac Studio bukan laptop, jadi menurut saya tidak masalah jika konsumsi dayanya di atas 600W. Saat ini dibatasi sekitar 250W
Selain itu, konfigurasi RDMA ini hanya bisa menghubungkan maksimal 4 Mac. Karena semua Mac harus saling terhubung langsung. Jadi menurut saya Apple perlu berinvestasi pada tautan berkecepatan tinggi seperti QSFP
- Memori 1TB? Sisakan juga sedikit RAM yang masih bisa dibeli pengguna biasa seperti kita. Rasanya seperti, “AI, tolong buat umat manusia bahagia!”
- M4 sudah mencapai kecepatan yang dibutuhkan per channel, dan M5 lebih tinggi lagi. Jika versi Ultra keluar, bandwidth 1TB/s seharusnya sangat mungkin. Max adalah setengah dari Ultra, jadi sepertinya tidak akan sampai segitu
- Mac Studio tidak punya desain termal yang mampu menahan panas kelas 650W secara berkelanjutan. Level seperti ini mungkin hanya masuk akal pada desain Mac Pro
- Port USB-C depan pada M3 Ultra Mac Studio juga Thunderbolt 5, jadi total ada 6 port. Melihat spesifikasi resmi, saya penasaran kenapa batas 4 unit itu diperlukan
- Apple Neural Engine sudah mendukung operasi INT8 dan FP16. Hanya saja framework AI belum bisa memanfaatkannya dengan baik
  Dan saya juga ragu apakah semua Mac memang harus dihubungkan dalam mesh penuh. Thunderbolt bukannya bekerja di atas RDMA seperti antarmuka jaringan?
Saya penasaran kenapa Apple merilis fitur seperti RDMA yang biasanya untuk klaster server, tetapi mengabaikan peningkatan kualitas dasar seperti manajemen jarak jauh atau rackmount
Saya menduga mereka memang memakai produk server berbasis seri M secara internal, dan fitur ini mungkin produk sampingannya
- Mungkin Apple sedang menyiapkan produk kelas server sungguhan, dan RDMA dirilis lebih dulu agar software pihak ketiga bisa bersiap
- Mac Studio punya posisi unik untuk inferensi LLM. Menurut saya RDMA ini bukan untuk server umum, melainkan agar 4 Studio bisa digabung menjadi klaster inferensi LLM
- Dulu saya pernah mendengar bahwa Apple menumpuk M2 Mac Pro di rak untuk fitur Private Compute
- Saya penasaran apakah Apple mengoperasikan data center sendiri. Saya kira sebagian besar di-outsource ke GCP
- Ini sudah lama membuat saya penasaran. Kenapa tooling untuk pengembangan begitu minim, dan di internal Apple mereka memakai lingkungan seperti apa. Menghubungkan Mac Mini dengan kabel Thunderbolt terasa agak menyebalkan
Pekerjaan Jeff benar-benar keren. Kabar tentang RDMA berbasis Thunderbolt juga menarik
Yang paling utama, terima kasih atas energi positif Jeff dan kontribusinya yang konsisten
Linux mendukung RDMA, tetapi di Thunderbolt masih belum memungkinkan. Sepertinya perlu cukup banyak pekerjaan untuk mewujudkannya
Akan bagus jika model besar bisa dijalankan dengan menggabungkan 2–3 box Strix Halo murah (128GB DDR5-8000, 2 USB4)
Saat ini Thunderbolt belum punya switch, jadi ukuran klaster terbatas
Sebagai gantinya, saya penasaran apakah RoCE (RDMA over Converged Ethernet) bisa dipakai. Saya dengar RDMA 7–10 kali lebih cepat daripada TCP
Ada juga adaptor Ethernet Thunderbolt 10G~80G, tetapi latensi mungkin menjadi masalah
Kalau ada slot PCIe, tinggal pasang kartu Infiniband saja, tetapi pada akhirnya drivernya yang jadi penentu
- Mengonversi Thunderbolt ke PCIe lalu memakai NIC biasa juga memungkinkan. Atto Thunderlink pada dasarnya hanyalah casing yang membungkus NIC Broadcom
  Menarik juga bahwa Apple bahkan menyertakan driver MLX5 sampai ke iPadOS. Lihat blog terkait
- macOS menyertakan driver untuk kartu Mellanox ConnectX, tetapi saya tidak tahu apakah benar-benar muncul di ibv_devices
Saya penasaran dengan data yang mengukur kecepatan input (prefill) dan output (decode) secara terpisah
Di tulisan Exo disebutkan bahwa pada hardware Mac kedua kecepatan itu cukup berbeda
- Ada sebagian data terkait di issue GitHub ini.
  Saya berencana menyarankan penambahan fitur benchmark ke tim Exo
Menarik bahwa Thunderbolt 5 ternyata tidak sedominan yang saya bayangkan
Dibanding Ethernet 2.5Gbps, TB5 hanya sekitar 10% lebih cepat. M3 Studio mendukung Ethernet 10Gbps, tetapi belum diuji
TB5 punya batas 4 unit karena semua CPU harus terhubung langsung satu sama lain. Sementara dengan switch Ethernet lebih banyak node bisa dihubungkan
- Video ini menguji dengan Ethernet 10Gbps
- Berdasarkan pengalaman lama dengan llama RPC, Ethernet 10G hanya memberi peningkatan kecepatan yang kecil. Latensi lebih penting, tetapi itu pun ada batasnya
- llama masih belum terlalu optimal sehingga skalabilitasnya rendah. RDMA punya overhead lebih rendah daripada Ethernet
Setiap node dalam klaster memiliki RAM 512GB. Model DeepSeek V3.1 membutuhkan RAM 700GB
Agak aneh bahwa saat naik dari satu node ke dua node, kecepatan inferensinya hanya meningkat 32%. Bahkan di 4 node pun peningkatannya kurang dari 50%
Sepertinya ada bottleneck
- Bandwidth jaringan 80Gbps itulah bottleneck-nya. Infiniband 10 kali lebih cepat dari itu
- Bobot (weights) model bersifat hanya-baca, jadi bisa di-memory-map ke SSD. Batasan yang sebenarnya adalah memori activation. Struktur MoE mungkin bisa membantu
- TB5 RDMA jauh lebih lambat daripada akses langsung ke memori sistem
Struktur semua node yang saling terhubung mengingatkan pada NUMALink milik SGI.
Superkomputer SGI menghubungkan setiap node ke semua node lain dengan dua tautan. Kabelnya memang banyak, tetapi tidak perlu memikirkan framing atau kontrol kemacetan
- Hardware SGI mengimplementasikan ccNUMA (cache-coherent NUMA). OS IRIX memindahkan pekerjaan dan memori ke lokasi yang secara fisik lebih dekat untuk mengurangi latensi
  Sistem trading frekuensi tinggi masa kini yang menempatkan proses dengan mempertimbangkan lokasi inti CPU dan DIMM juga berada dalam konteks yang sama
- Rak NVL72 juga memiliki struktur serupa, dengan puluhan tautan antar-GPU
Saya suka beberapa detail menarik yang muncul di tulisan itu
Hilangnya Exo yang misterius, Jeff yang menginginkan SMB Direct untuk Mac, kecepatan inferensi M3 Ultra, dan desktop Framework AI seharga $2100
Rasanya seperti menemukan rabbit hole baru

Membangun 1,5TB VRAM di Mac Studio - RDMA berbasis Thunderbolt 5

Gambaran eksperimen RDMA over Thunderbolt 5

Sejarah HPC Apple dan posisi M3 Ultra

Konfigurasi hardware dan jaringan

Benchmark performa M3 Ultra Mac Studio

Manajemen klaster dan batasan macOS

Pengujian HPL dan Llama.cpp

Aktivasi RDMA dan pengujian Exo 1.0

Masalah stabilitas dan isu open source

Tugas berikutnya dan pertanyaan yang belum terjawab

Kesimpulan

Bacaan terkait

2 komentar

Komentar Hacker News