6 poin oleh GN⁺ 2025-12-19 | Belum ada komentar. | Bagikan ke WhatsApp
  • Eksperimen untuk membuat beberapa Mac Studio bekerja seperti satu pool memori raksasa dengan memanfaatkan fitur baru RDMA (Remote Direct Memory Access) berbasis Thunderbolt 5 yang ditambahkan di macOS 26.2
  • Menggunakan alat klastering open source Exo 1.0 untuk membangun memori terpadu 1,5TB dan meningkatkan kecepatan menjalankan model AI besar
  • M3 Ultra Mac Studio menunjukkan performa komputasi dan efisiensi tinggi bahkan pada node tunggal, dan saat RDMA diterapkan latensi akses memori turun dari 300μs menjadi kurang dari 50μs
  • Ada juga keterbatasan operasional klaster seperti kerumitan kabel Thunderbolt 5, tidak adanya switch, dan batasan pengelolaan macOS
  • Kombinasi RDMA dan Exo menunjukkan potensi perluasan lingkungan AI·HPC berbasis Mac, tetapi stabilitas dan skalabilitasnya masih perlu ditingkatkan

Gambaran eksperimen RDMA over Thunderbolt 5

  • Menguji fitur RDMA over Thunderbolt di macOS 26.2 menggunakan klaster Mac Studio yang disediakan Apple
    • RDMA memungkinkan beberapa Mac bekerja seperti satu RAM besar sehingga mempercepat pemrosesan model AI skala besar
  • Pengujian menggunakan alat klastering AI open source Exo 1.0
  • Empat Mac Studio yang membentuk total memori terpadu 1,5TB memiliki harga sekitar 40 ribu dolar

Sejarah HPC Apple dan posisi M3 Ultra

  • Upaya Apple terkait HPC nyaris tidak ada sejak era Xserve dan Xgrid di masa lalu
  • M3 Ultra Mac Studio menunjukkan performa yang cocok untuk menjalankan model AI lokal, dan dengan dukungan RDMA latensi saat diklaster turun dari 300μs menjadi kurang dari 50μs
  • Beroperasi senyap dengan daya di bawah 250W, serta cocok untuk komputasi ilmiah skala kecil dan pekerjaan kreatif

Konfigurasi hardware dan jaringan

  • Dua unit di bawah berkonfigurasi RAM 512GB / CPU 32-core, sementara dua unit di atas berkonfigurasi RAM 256GB
  • Melalui Thunderbolt 5 tersedia bandwidth efektif 50~60Gbps, tetapi karena tidak ada switch Thunderbolt, setiap Mac harus dihubungkan langsung satu sama lain
  • Stabilitas jaringannya lebih rendah dibanding Nvidia DGX Spark yang memakai port QSFP
  • Ada ThunderLok-A untuk mengunci kabel Thunderbolt, tetapi tidak digunakan karena memerlukan modifikasi pada bodi Mac Studio

Benchmark performa M3 Ultra Mac Studio

  • Di Geekbench, unggul dalam single-core maupun multi-core dibanding Dell Pro Max (GB10) dan AMD AI Max+ 395
  • Pada benchmark FP64 HPL, menembus 1 Tflop, sekitar dua kali performa Nvidia GB10
  • Juga unggul dalam inferensi model AI besar dan memiliki efisiensi tinggi pada konsumsi daya yang sama
  • Satu M3 Ultra tunggal melampaui klaster 2-node Dell Pro Max dalam performa maupun efisiensi

Manajemen klaster dan batasan macOS

  • macOS tidak mendukung upgrade sistem melalui SSH, sehingga perlu interaksi GUI
  • Pengelolaan jarak jauh dilakukan memakai Screen Sharing
  • Dibanding Linux, otomatisasi pengelolaan klaster lebih sulit, dan ketiadaan alat MDM juga menambah ketidaknyamanan

Pengujian HPL dan Llama.cpp

  • HPL mencatat 1,3 Tflops pada node tunggal, dan sekitar tiga kali peningkatan menjadi 3,7 Tflops pada konfigurasi 4-node
  • Saat memakai koneksi TCP berbasis Thunderbolt, terjadi crash sistem, dan kondisi tanpa RDMA tidak stabil
  • Dalam pengujian Llama.cpp, Thunderbolt 5 menunjukkan latensi lebih rendah dibanding Ethernet 2,5Gbps

Aktivasi RDMA dan pengujian Exo 1.0

  • Prosedur aktivasi RDMA: masuk ke mode pemulihan → jalankan perintah rdma_ctl enable → reboot
  • Exo 1.0 adalah satu-satunya alat yang mendukung RDMA, dan mampu menjalankan model di atas 600GB (seperti Kimi K2 Thinking) secara terdistribusi di banyak Mac
  • Llama.cpp mendistribusikan layer model dengan metode RPC, tetapi kurang efisien
  • Performa Exo meningkat seiring bertambahnya jumlah node, dan berhasil mencapai 32 token per detik pada model Qwen3 235B
  • Model DeepSeek V3.1 dan Kimi K2 Thinking (1 triliun parameter) juga berhasil dijalankan

Masalah stabilitas dan isu open source

  • Pengujian dilakukan berbasis software pre-release, sehingga ada ketidakstabilan
  • Saat RDMA bekerja, performanya sangat baik, tetapi jika gagal, seluruh klaster harus direboot
  • Tim pengembang Exo sempat berhenti aktif untuk sementara lalu kembali, dan proyek ini dirilis dengan lisensi Apache 2.0
  • Disebutkan pula kekhawatiran tentang proses pengembangan tertutup akibat kolaborasi dengan Apple

Tugas berikutnya dan pertanyaan yang belum terjawab

  • Apakah M5 Ultra akan dirilis dan apakah performa machine learning-nya akan meningkat
  • Perlunya peningkatan klaster melalui kembalinya ekspandabilitas PCIe di Mac Pro
  • Potensi berbagi file berkecepatan tinggi jika SMB Direct didukung
  • Harapan agar software lain seperti Llama.cpp juga memperluas dukungan RDMA

Kesimpulan

  • Kombinasi RDMA dan Exo sangat memperluas potensi pemanfaatan Mac Studio untuk AI·HPC
  • Namun, batasan struktural Thunderbolt 5 dan keterbatasan pengelolaan macOS masih menjadi bottleneck
  • Diperlukan peningkatan skalabilitas jaringan, termasuk lewat adopsi port QSFP
  • Bahkan setelah demam AI mereda, Mac Studio tetap bernilai sebagai workstation yang senyap dan bertenaga

Belum ada komentar.

Belum ada komentar.