- Eksperimen untuk membuat beberapa Mac Studio bekerja seperti satu pool memori raksasa dengan memanfaatkan fitur baru RDMA (Remote Direct Memory Access) berbasis Thunderbolt 5 yang ditambahkan di macOS 26.2
- Menggunakan alat klastering open source Exo 1.0 untuk membangun memori terpadu 1,5TB dan meningkatkan kecepatan menjalankan model AI besar
- M3 Ultra Mac Studio menunjukkan performa komputasi dan efisiensi tinggi bahkan pada node tunggal, dan saat RDMA diterapkan latensi akses memori turun dari 300μs menjadi kurang dari 50μs
- Ada juga keterbatasan operasional klaster seperti kerumitan kabel Thunderbolt 5, tidak adanya switch, dan batasan pengelolaan macOS
- Kombinasi RDMA dan Exo menunjukkan potensi perluasan lingkungan AI·HPC berbasis Mac, tetapi stabilitas dan skalabilitasnya masih perlu ditingkatkan
Gambaran eksperimen RDMA over Thunderbolt 5
- Menguji fitur RDMA over Thunderbolt di macOS 26.2 menggunakan klaster Mac Studio yang disediakan Apple
- RDMA memungkinkan beberapa Mac bekerja seperti satu RAM besar sehingga mempercepat pemrosesan model AI skala besar
- Pengujian menggunakan alat klastering AI open source Exo 1.0
- Empat Mac Studio yang membentuk total memori terpadu 1,5TB memiliki harga sekitar 40 ribu dolar
Sejarah HPC Apple dan posisi M3 Ultra
- Upaya Apple terkait HPC nyaris tidak ada sejak era Xserve dan Xgrid di masa lalu
- M3 Ultra Mac Studio menunjukkan performa yang cocok untuk menjalankan model AI lokal, dan dengan dukungan RDMA latensi saat diklaster turun dari 300μs menjadi kurang dari 50μs
- Beroperasi senyap dengan daya di bawah 250W, serta cocok untuk komputasi ilmiah skala kecil dan pekerjaan kreatif
Konfigurasi hardware dan jaringan
- Dua unit di bawah berkonfigurasi RAM 512GB / CPU 32-core, sementara dua unit di atas berkonfigurasi RAM 256GB
- Melalui Thunderbolt 5 tersedia bandwidth efektif 50~60Gbps, tetapi karena tidak ada switch Thunderbolt, setiap Mac harus dihubungkan langsung satu sama lain
- Stabilitas jaringannya lebih rendah dibanding Nvidia DGX Spark yang memakai port QSFP
- Ada ThunderLok-A untuk mengunci kabel Thunderbolt, tetapi tidak digunakan karena memerlukan modifikasi pada bodi Mac Studio
Benchmark performa M3 Ultra Mac Studio
- Di Geekbench, unggul dalam single-core maupun multi-core dibanding Dell Pro Max (GB10) dan AMD AI Max+ 395
- Pada benchmark FP64 HPL, menembus 1 Tflop, sekitar dua kali performa Nvidia GB10
- Juga unggul dalam inferensi model AI besar dan memiliki efisiensi tinggi pada konsumsi daya yang sama
- Satu M3 Ultra tunggal melampaui klaster 2-node Dell Pro Max dalam performa maupun efisiensi
Manajemen klaster dan batasan macOS
- macOS tidak mendukung upgrade sistem melalui SSH, sehingga perlu interaksi GUI
- Pengelolaan jarak jauh dilakukan memakai Screen Sharing
- Dibanding Linux, otomatisasi pengelolaan klaster lebih sulit, dan ketiadaan alat MDM juga menambah ketidaknyamanan
Pengujian HPL dan Llama.cpp
- HPL mencatat 1,3 Tflops pada node tunggal, dan sekitar tiga kali peningkatan menjadi 3,7 Tflops pada konfigurasi 4-node
- Saat memakai koneksi TCP berbasis Thunderbolt, terjadi crash sistem, dan kondisi tanpa RDMA tidak stabil
- Dalam pengujian Llama.cpp, Thunderbolt 5 menunjukkan latensi lebih rendah dibanding Ethernet 2,5Gbps
Aktivasi RDMA dan pengujian Exo 1.0
- Prosedur aktivasi RDMA: masuk ke mode pemulihan → jalankan perintah
rdma_ctl enable → reboot
- Exo 1.0 adalah satu-satunya alat yang mendukung RDMA, dan mampu menjalankan model di atas 600GB (seperti Kimi K2 Thinking) secara terdistribusi di banyak Mac
- Llama.cpp mendistribusikan layer model dengan metode RPC, tetapi kurang efisien
- Performa Exo meningkat seiring bertambahnya jumlah node, dan berhasil mencapai 32 token per detik pada model Qwen3 235B
- Model DeepSeek V3.1 dan Kimi K2 Thinking (1 triliun parameter) juga berhasil dijalankan
Masalah stabilitas dan isu open source
- Pengujian dilakukan berbasis software pre-release, sehingga ada ketidakstabilan
- Saat RDMA bekerja, performanya sangat baik, tetapi jika gagal, seluruh klaster harus direboot
- Tim pengembang Exo sempat berhenti aktif untuk sementara lalu kembali, dan proyek ini dirilis dengan lisensi Apache 2.0
- Disebutkan pula kekhawatiran tentang proses pengembangan tertutup akibat kolaborasi dengan Apple
Tugas berikutnya dan pertanyaan yang belum terjawab
- Apakah M5 Ultra akan dirilis dan apakah performa machine learning-nya akan meningkat
- Perlunya peningkatan klaster melalui kembalinya ekspandabilitas PCIe di Mac Pro
- Potensi berbagi file berkecepatan tinggi jika SMB Direct didukung
- Harapan agar software lain seperti Llama.cpp juga memperluas dukungan RDMA
Kesimpulan
- Kombinasi RDMA dan Exo sangat memperluas potensi pemanfaatan Mac Studio untuk AI·HPC
- Namun, batasan struktural Thunderbolt 5 dan keterbatasan pengelolaan macOS masih menjadi bottleneck
- Diperlukan peningkatan skalabilitas jaringan, termasuk lewat adopsi port QSFP
- Bahkan setelah demam AI mereda, Mac Studio tetap bernilai sebagai workstation yang senyap dan bertenaga
Belum ada komentar.