Membangun 1,5TB VRAM di Mac Studio - RDMA berbasis Thunderbolt 5
(jeffgeerling.com)- Eksperimen untuk membuat beberapa Mac Studio bekerja seperti satu pool memori raksasa dengan memanfaatkan fitur baru RDMA (Remote Direct Memory Access) berbasis Thunderbolt 5 yang ditambahkan di macOS 26.2
- Menggunakan alat klastering open source Exo 1.0 untuk membangun memori terpadu 1,5TB dan meningkatkan kecepatan menjalankan model AI besar
- M3 Ultra Mac Studio menunjukkan performa komputasi dan efisiensi tinggi bahkan pada node tunggal, dan saat RDMA diterapkan latensi akses memori turun dari 300μs menjadi kurang dari 50μs
- Ada juga keterbatasan operasional klaster seperti kerumitan kabel Thunderbolt 5, tidak adanya switch, dan batasan pengelolaan macOS
- Kombinasi RDMA dan Exo menunjukkan potensi perluasan lingkungan AI·HPC berbasis Mac, tetapi stabilitas dan skalabilitasnya masih perlu ditingkatkan
Gambaran eksperimen RDMA over Thunderbolt 5
- Menguji fitur RDMA over Thunderbolt di macOS 26.2 menggunakan klaster Mac Studio yang disediakan Apple
- RDMA memungkinkan beberapa Mac bekerja seperti satu RAM besar sehingga mempercepat pemrosesan model AI skala besar
- Pengujian menggunakan alat klastering AI open source Exo 1.0
- Empat Mac Studio yang membentuk total memori terpadu 1,5TB memiliki harga sekitar 40 ribu dolar
Sejarah HPC Apple dan posisi M3 Ultra
- Upaya Apple terkait HPC nyaris tidak ada sejak era Xserve dan Xgrid di masa lalu
- M3 Ultra Mac Studio menunjukkan performa yang cocok untuk menjalankan model AI lokal, dan dengan dukungan RDMA latensi saat diklaster turun dari 300μs menjadi kurang dari 50μs
- Beroperasi senyap dengan daya di bawah 250W, serta cocok untuk komputasi ilmiah skala kecil dan pekerjaan kreatif
Konfigurasi hardware dan jaringan
- Dua unit di bawah berkonfigurasi RAM 512GB / CPU 32-core, sementara dua unit di atas berkonfigurasi RAM 256GB
- Melalui Thunderbolt 5 tersedia bandwidth efektif 50~60Gbps, tetapi karena tidak ada switch Thunderbolt, setiap Mac harus dihubungkan langsung satu sama lain
- Stabilitas jaringannya lebih rendah dibanding Nvidia DGX Spark yang memakai port QSFP
- Ada ThunderLok-A untuk mengunci kabel Thunderbolt, tetapi tidak digunakan karena memerlukan modifikasi pada bodi Mac Studio
Benchmark performa M3 Ultra Mac Studio
- Di Geekbench, unggul dalam single-core maupun multi-core dibanding Dell Pro Max (GB10) dan AMD AI Max+ 395
- Pada benchmark FP64 HPL, menembus 1 Tflop, sekitar dua kali performa Nvidia GB10
- Juga unggul dalam inferensi model AI besar dan memiliki efisiensi tinggi pada konsumsi daya yang sama
- Satu M3 Ultra tunggal melampaui klaster 2-node Dell Pro Max dalam performa maupun efisiensi
Manajemen klaster dan batasan macOS
- macOS tidak mendukung upgrade sistem melalui SSH, sehingga perlu interaksi GUI
- Pengelolaan jarak jauh dilakukan memakai Screen Sharing
- Dibanding Linux, otomatisasi pengelolaan klaster lebih sulit, dan ketiadaan alat MDM juga menambah ketidaknyamanan
Pengujian HPL dan Llama.cpp
- HPL mencatat 1,3 Tflops pada node tunggal, dan sekitar tiga kali peningkatan menjadi 3,7 Tflops pada konfigurasi 4-node
- Saat memakai koneksi TCP berbasis Thunderbolt, terjadi crash sistem, dan kondisi tanpa RDMA tidak stabil
- Dalam pengujian Llama.cpp, Thunderbolt 5 menunjukkan latensi lebih rendah dibanding Ethernet 2,5Gbps
Aktivasi RDMA dan pengujian Exo 1.0
- Prosedur aktivasi RDMA: masuk ke mode pemulihan → jalankan perintah
rdma_ctl enable→ reboot - Exo 1.0 adalah satu-satunya alat yang mendukung RDMA, dan mampu menjalankan model di atas 600GB (seperti Kimi K2 Thinking) secara terdistribusi di banyak Mac
- Llama.cpp mendistribusikan layer model dengan metode RPC, tetapi kurang efisien
- Performa Exo meningkat seiring bertambahnya jumlah node, dan berhasil mencapai 32 token per detik pada model Qwen3 235B
- Model DeepSeek V3.1 dan Kimi K2 Thinking (1 triliun parameter) juga berhasil dijalankan
Masalah stabilitas dan isu open source
- Pengujian dilakukan berbasis software pre-release, sehingga ada ketidakstabilan
- Saat RDMA bekerja, performanya sangat baik, tetapi jika gagal, seluruh klaster harus direboot
- Tim pengembang Exo sempat berhenti aktif untuk sementara lalu kembali, dan proyek ini dirilis dengan lisensi Apache 2.0
- Disebutkan pula kekhawatiran tentang proses pengembangan tertutup akibat kolaborasi dengan Apple
Tugas berikutnya dan pertanyaan yang belum terjawab
- Apakah M5 Ultra akan dirilis dan apakah performa machine learning-nya akan meningkat
- Perlunya peningkatan klaster melalui kembalinya ekspandabilitas PCIe di Mac Pro
- Potensi berbagi file berkecepatan tinggi jika SMB Direct didukung
- Harapan agar software lain seperti Llama.cpp juga memperluas dukungan RDMA
Kesimpulan
- Kombinasi RDMA dan Exo sangat memperluas potensi pemanfaatan Mac Studio untuk AI·HPC
- Namun, batasan struktural Thunderbolt 5 dan keterbatasan pengelolaan macOS masih menjadi bottleneck
- Diperlukan peningkatan skalabilitas jaringan, termasuk lewat adopsi port QSFP
- Bahkan setelah demam AI mereda, Mac Studio tetap bernilai sebagai workstation yang senyap dan bertenaga
2 komentar
Jadi teringat impala
Komentar Hacker News
Ada rangkuman hal-hal yang diharapkan dari M5 Max/Ultra
Semoga mendukung tautan QSFP (200Gb/s atau lebih) setingkat DGX alih-alih Thunderbolt. Arsitektur RDMA memang keren, tetapi tanpa kecepatan sebesar itu nilai ekonominya kurang bagus
Ingin mengurangi waktu prefill prompt dengan Neural accelerator. Tidak harus setara RTX 6000, level 3090/4090 pun sudah cukup
Untuk versi spek tertinggi Mac Studio, berharap ada memori terintegrasi 1TB. Rasanya menambah memori lebih efisien daripada memakai beberapa perangkat
Semoga bandwidth-nya juga naik menjadi +1TB/s. Selama tiga generasi terakhir masih bertahan di 800GB/s
Semoga fitur overclocking juga dimungkinkan. Mac Studio bukan laptop, jadi menurut saya tidak masalah jika konsumsi dayanya di atas 600W. Saat ini dibatasi sekitar 250W
Selain itu, konfigurasi RDMA ini hanya bisa menghubungkan maksimal 4 Mac. Karena semua Mac harus saling terhubung langsung. Jadi menurut saya Apple perlu berinvestasi pada tautan berkecepatan tinggi seperti QSFP
Dan saya juga ragu apakah semua Mac memang harus dihubungkan dalam mesh penuh. Thunderbolt bukannya bekerja di atas RDMA seperti antarmuka jaringan?
Saya penasaran kenapa Apple merilis fitur seperti RDMA yang biasanya untuk klaster server, tetapi mengabaikan peningkatan kualitas dasar seperti manajemen jarak jauh atau rackmount
Saya menduga mereka memang memakai produk server berbasis seri M secara internal, dan fitur ini mungkin produk sampingannya
Pekerjaan Jeff benar-benar keren. Kabar tentang RDMA berbasis Thunderbolt juga menarik
Yang paling utama, terima kasih atas energi positif Jeff dan kontribusinya yang konsisten
Linux mendukung RDMA, tetapi di Thunderbolt masih belum memungkinkan. Sepertinya perlu cukup banyak pekerjaan untuk mewujudkannya
Akan bagus jika model besar bisa dijalankan dengan menggabungkan 2–3 box Strix Halo murah (128GB DDR5-8000, 2 USB4)
Saat ini Thunderbolt belum punya switch, jadi ukuran klaster terbatas
Sebagai gantinya, saya penasaran apakah RoCE (RDMA over Converged Ethernet) bisa dipakai. Saya dengar RDMA 7–10 kali lebih cepat daripada TCP
Ada juga adaptor Ethernet Thunderbolt 10G~80G, tetapi latensi mungkin menjadi masalah
Kalau ada slot PCIe, tinggal pasang kartu Infiniband saja, tetapi pada akhirnya drivernya yang jadi penentu
Menarik juga bahwa Apple bahkan menyertakan driver MLX5 sampai ke iPadOS. Lihat blog terkait
ibv_devicesSaya penasaran dengan data yang mengukur kecepatan input (prefill) dan output (decode) secara terpisah
Di tulisan Exo disebutkan bahwa pada hardware Mac kedua kecepatan itu cukup berbeda
Saya berencana menyarankan penambahan fitur benchmark ke tim Exo
Menarik bahwa Thunderbolt 5 ternyata tidak sedominan yang saya bayangkan
Dibanding Ethernet 2.5Gbps, TB5 hanya sekitar 10% lebih cepat. M3 Studio mendukung Ethernet 10Gbps, tetapi belum diuji
TB5 punya batas 4 unit karena semua CPU harus terhubung langsung satu sama lain. Sementara dengan switch Ethernet lebih banyak node bisa dihubungkan
Setiap node dalam klaster memiliki RAM 512GB. Model DeepSeek V3.1 membutuhkan RAM 700GB
Agak aneh bahwa saat naik dari satu node ke dua node, kecepatan inferensinya hanya meningkat 32%. Bahkan di 4 node pun peningkatannya kurang dari 50%
Sepertinya ada bottleneck
Struktur semua node yang saling terhubung mengingatkan pada NUMALink milik SGI.
Superkomputer SGI menghubungkan setiap node ke semua node lain dengan dua tautan. Kabelnya memang banyak, tetapi tidak perlu memikirkan framing atau kontrol kemacetan
Sistem trading frekuensi tinggi masa kini yang menempatkan proses dengan mempertimbangkan lokasi inti CPU dan DIMM juga berada dalam konteks yang sama
Saya suka beberapa detail menarik yang muncul di tulisan itu
Hilangnya Exo yang misterius, Jeff yang menginginkan SMB Direct untuk Mac, kecepatan inferensi M3 Ultra, dan desktop Framework AI seharga $2100
Rasanya seperti menemukan rabbit hole baru