6 poin oleh GN⁺ 2025-12-19 | 2 komentar | Bagikan ke WhatsApp
  • Eksperimen untuk membuat beberapa Mac Studio bekerja seperti satu pool memori raksasa dengan memanfaatkan fitur baru RDMA (Remote Direct Memory Access) berbasis Thunderbolt 5 yang ditambahkan di macOS 26.2
  • Menggunakan alat klastering open source Exo 1.0 untuk membangun memori terpadu 1,5TB dan meningkatkan kecepatan menjalankan model AI besar
  • M3 Ultra Mac Studio menunjukkan performa komputasi dan efisiensi tinggi bahkan pada node tunggal, dan saat RDMA diterapkan latensi akses memori turun dari 300μs menjadi kurang dari 50μs
  • Ada juga keterbatasan operasional klaster seperti kerumitan kabel Thunderbolt 5, tidak adanya switch, dan batasan pengelolaan macOS
  • Kombinasi RDMA dan Exo menunjukkan potensi perluasan lingkungan AI·HPC berbasis Mac, tetapi stabilitas dan skalabilitasnya masih perlu ditingkatkan

Gambaran eksperimen RDMA over Thunderbolt 5

  • Menguji fitur RDMA over Thunderbolt di macOS 26.2 menggunakan klaster Mac Studio yang disediakan Apple
    • RDMA memungkinkan beberapa Mac bekerja seperti satu RAM besar sehingga mempercepat pemrosesan model AI skala besar
  • Pengujian menggunakan alat klastering AI open source Exo 1.0
  • Empat Mac Studio yang membentuk total memori terpadu 1,5TB memiliki harga sekitar 40 ribu dolar

Sejarah HPC Apple dan posisi M3 Ultra

  • Upaya Apple terkait HPC nyaris tidak ada sejak era Xserve dan Xgrid di masa lalu
  • M3 Ultra Mac Studio menunjukkan performa yang cocok untuk menjalankan model AI lokal, dan dengan dukungan RDMA latensi saat diklaster turun dari 300μs menjadi kurang dari 50μs
  • Beroperasi senyap dengan daya di bawah 250W, serta cocok untuk komputasi ilmiah skala kecil dan pekerjaan kreatif
Iklan

Konfigurasi hardware dan jaringan

  • Dua unit di bawah berkonfigurasi RAM 512GB / CPU 32-core, sementara dua unit di atas berkonfigurasi RAM 256GB
  • Melalui Thunderbolt 5 tersedia bandwidth efektif 50~60Gbps, tetapi karena tidak ada switch Thunderbolt, setiap Mac harus dihubungkan langsung satu sama lain
  • Stabilitas jaringannya lebih rendah dibanding Nvidia DGX Spark yang memakai port QSFP
  • Ada ThunderLok-A untuk mengunci kabel Thunderbolt, tetapi tidak digunakan karena memerlukan modifikasi pada bodi Mac Studio

Benchmark performa M3 Ultra Mac Studio

  • Di Geekbench, unggul dalam single-core maupun multi-core dibanding Dell Pro Max (GB10) dan AMD AI Max+ 395
  • Pada benchmark FP64 HPL, menembus 1 Tflop, sekitar dua kali performa Nvidia GB10
  • Juga unggul dalam inferensi model AI besar dan memiliki efisiensi tinggi pada konsumsi daya yang sama
  • Satu M3 Ultra tunggal melampaui klaster 2-node Dell Pro Max dalam performa maupun efisiensi

Manajemen klaster dan batasan macOS

  • macOS tidak mendukung upgrade sistem melalui SSH, sehingga perlu interaksi GUI
  • Pengelolaan jarak jauh dilakukan memakai Screen Sharing
  • Dibanding Linux, otomatisasi pengelolaan klaster lebih sulit, dan ketiadaan alat MDM juga menambah ketidaknyamanan

Pengujian HPL dan Llama.cpp

  • HPL mencatat 1,3 Tflops pada node tunggal, dan sekitar tiga kali peningkatan menjadi 3,7 Tflops pada konfigurasi 4-node
  • Saat memakai koneksi TCP berbasis Thunderbolt, terjadi crash sistem, dan kondisi tanpa RDMA tidak stabil
  • Dalam pengujian Llama.cpp, Thunderbolt 5 menunjukkan latensi lebih rendah dibanding Ethernet 2,5Gbps
Iklan

Aktivasi RDMA dan pengujian Exo 1.0

  • Prosedur aktivasi RDMA: masuk ke mode pemulihan → jalankan perintah rdma_ctl enable → reboot
  • Exo 1.0 adalah satu-satunya alat yang mendukung RDMA, dan mampu menjalankan model di atas 600GB (seperti Kimi K2 Thinking) secara terdistribusi di banyak Mac
  • Llama.cpp mendistribusikan layer model dengan metode RPC, tetapi kurang efisien
  • Performa Exo meningkat seiring bertambahnya jumlah node, dan berhasil mencapai 32 token per detik pada model Qwen3 235B
  • Model DeepSeek V3.1 dan Kimi K2 Thinking (1 triliun parameter) juga berhasil dijalankan

Masalah stabilitas dan isu open source

  • Pengujian dilakukan berbasis software pre-release, sehingga ada ketidakstabilan
  • Saat RDMA bekerja, performanya sangat baik, tetapi jika gagal, seluruh klaster harus direboot
  • Tim pengembang Exo sempat berhenti aktif untuk sementara lalu kembali, dan proyek ini dirilis dengan lisensi Apache 2.0
  • Disebutkan pula kekhawatiran tentang proses pengembangan tertutup akibat kolaborasi dengan Apple

Tugas berikutnya dan pertanyaan yang belum terjawab

  • Apakah M5 Ultra akan dirilis dan apakah performa machine learning-nya akan meningkat
  • Perlunya peningkatan klaster melalui kembalinya ekspandabilitas PCIe di Mac Pro
  • Potensi berbagi file berkecepatan tinggi jika SMB Direct didukung
  • Harapan agar software lain seperti Llama.cpp juga memperluas dukungan RDMA

Kesimpulan

  • Kombinasi RDMA dan Exo sangat memperluas potensi pemanfaatan Mac Studio untuk AI·HPC
  • Namun, batasan struktural Thunderbolt 5 dan keterbatasan pengelolaan macOS masih menjadi bottleneck
  • Diperlukan peningkatan skalabilitas jaringan, termasuk lewat adopsi port QSFP
  • Bahkan setelah demam AI mereda, Mac Studio tetap bernilai sebagai workstation yang senyap dan bertenaga

2 komentar

 
kaydash 2025-12-21

Jadi teringat impala

 
GN⁺ 2025-12-19
Komentar Hacker News
  • Ada rangkuman hal-hal yang diharapkan dari M5 Max/Ultra
    Semoga mendukung tautan QSFP (200Gb/s atau lebih) setingkat DGX alih-alih Thunderbolt. Arsitektur RDMA memang keren, tetapi tanpa kecepatan sebesar itu nilai ekonominya kurang bagus
    Ingin mengurangi waktu prefill prompt dengan Neural accelerator. Tidak harus setara RTX 6000, level 3090/4090 pun sudah cukup
    Untuk versi spek tertinggi Mac Studio, berharap ada memori terintegrasi 1TB. Rasanya menambah memori lebih efisien daripada memakai beberapa perangkat
    Semoga bandwidth-nya juga naik menjadi +1TB/s. Selama tiga generasi terakhir masih bertahan di 800GB/s
    Semoga fitur overclocking juga dimungkinkan. Mac Studio bukan laptop, jadi menurut saya tidak masalah jika konsumsi dayanya di atas 600W. Saat ini dibatasi sekitar 250W
    Selain itu, konfigurasi RDMA ini hanya bisa menghubungkan maksimal 4 Mac. Karena semua Mac harus saling terhubung langsung. Jadi menurut saya Apple perlu berinvestasi pada tautan berkecepatan tinggi seperti QSFP

    • Memori 1TB? Sisakan juga sedikit RAM yang masih bisa dibeli pengguna biasa seperti kita. Rasanya seperti, “AI, tolong buat umat manusia bahagia!”
    • M4 sudah mencapai kecepatan yang dibutuhkan per channel, dan M5 lebih tinggi lagi. Jika versi Ultra keluar, bandwidth 1TB/s seharusnya sangat mungkin. Max adalah setengah dari Ultra, jadi sepertinya tidak akan sampai segitu
    • Mac Studio tidak punya desain termal yang mampu menahan panas kelas 650W secara berkelanjutan. Level seperti ini mungkin hanya masuk akal pada desain Mac Pro
    • Port USB-C depan pada M3 Ultra Mac Studio juga Thunderbolt 5, jadi total ada 6 port. Melihat spesifikasi resmi, saya penasaran kenapa batas 4 unit itu diperlukan
    • Apple Neural Engine sudah mendukung operasi INT8 dan FP16. Hanya saja framework AI belum bisa memanfaatkannya dengan baik
      Dan saya juga ragu apakah semua Mac memang harus dihubungkan dalam mesh penuh. Thunderbolt bukannya bekerja di atas RDMA seperti antarmuka jaringan?
  • Saya penasaran kenapa Apple merilis fitur seperti RDMA yang biasanya untuk klaster server, tetapi mengabaikan peningkatan kualitas dasar seperti manajemen jarak jauh atau rackmount
    Saya menduga mereka memang memakai produk server berbasis seri M secara internal, dan fitur ini mungkin produk sampingannya

    • Mungkin Apple sedang menyiapkan produk kelas server sungguhan, dan RDMA dirilis lebih dulu agar software pihak ketiga bisa bersiap
    • Mac Studio punya posisi unik untuk inferensi LLM. Menurut saya RDMA ini bukan untuk server umum, melainkan agar 4 Studio bisa digabung menjadi klaster inferensi LLM
    • Dulu saya pernah mendengar bahwa Apple menumpuk M2 Mac Pro di rak untuk fitur Private Compute
    • Saya penasaran apakah Apple mengoperasikan data center sendiri. Saya kira sebagian besar di-outsource ke GCP
    • Ini sudah lama membuat saya penasaran. Kenapa tooling untuk pengembangan begitu minim, dan di internal Apple mereka memakai lingkungan seperti apa. Menghubungkan Mac Mini dengan kabel Thunderbolt terasa agak menyebalkan
  • Pekerjaan Jeff benar-benar keren. Kabar tentang RDMA berbasis Thunderbolt juga menarik
    Yang paling utama, terima kasih atas energi positif Jeff dan kontribusinya yang konsisten

  • Linux mendukung RDMA, tetapi di Thunderbolt masih belum memungkinkan. Sepertinya perlu cukup banyak pekerjaan untuk mewujudkannya
    Akan bagus jika model besar bisa dijalankan dengan menggabungkan 2–3 box Strix Halo murah (128GB DDR5-8000, 2 USB4)

  • Saat ini Thunderbolt belum punya switch, jadi ukuran klaster terbatas
    Sebagai gantinya, saya penasaran apakah RoCE (RDMA over Converged Ethernet) bisa dipakai. Saya dengar RDMA 7–10 kali lebih cepat daripada TCP
    Ada juga adaptor Ethernet Thunderbolt 10G~80G, tetapi latensi mungkin menjadi masalah
    Kalau ada slot PCIe, tinggal pasang kartu Infiniband saja, tetapi pada akhirnya drivernya yang jadi penentu

    • Mengonversi Thunderbolt ke PCIe lalu memakai NIC biasa juga memungkinkan. Atto Thunderlink pada dasarnya hanyalah casing yang membungkus NIC Broadcom
      Menarik juga bahwa Apple bahkan menyertakan driver MLX5 sampai ke iPadOS. Lihat blog terkait
    • macOS menyertakan driver untuk kartu Mellanox ConnectX, tetapi saya tidak tahu apakah benar-benar muncul di ibv_devices
  • Saya penasaran dengan data yang mengukur kecepatan input (prefill) dan output (decode) secara terpisah
    Di tulisan Exo disebutkan bahwa pada hardware Mac kedua kecepatan itu cukup berbeda

    • Ada sebagian data terkait di issue GitHub ini.
      Saya berencana menyarankan penambahan fitur benchmark ke tim Exo
  • Menarik bahwa Thunderbolt 5 ternyata tidak sedominan yang saya bayangkan
    Dibanding Ethernet 2.5Gbps, TB5 hanya sekitar 10% lebih cepat. M3 Studio mendukung Ethernet 10Gbps, tetapi belum diuji
    TB5 punya batas 4 unit karena semua CPU harus terhubung langsung satu sama lain. Sementara dengan switch Ethernet lebih banyak node bisa dihubungkan

    • Video ini menguji dengan Ethernet 10Gbps
    • Berdasarkan pengalaman lama dengan llama RPC, Ethernet 10G hanya memberi peningkatan kecepatan yang kecil. Latensi lebih penting, tetapi itu pun ada batasnya
    • llama masih belum terlalu optimal sehingga skalabilitasnya rendah. RDMA punya overhead lebih rendah daripada Ethernet
  • Setiap node dalam klaster memiliki RAM 512GB. Model DeepSeek V3.1 membutuhkan RAM 700GB
    Agak aneh bahwa saat naik dari satu node ke dua node, kecepatan inferensinya hanya meningkat 32%. Bahkan di 4 node pun peningkatannya kurang dari 50%
    Sepertinya ada bottleneck

    • Bandwidth jaringan 80Gbps itulah bottleneck-nya. Infiniband 10 kali lebih cepat dari itu
    • Bobot (weights) model bersifat hanya-baca, jadi bisa di-memory-map ke SSD. Batasan yang sebenarnya adalah memori activation. Struktur MoE mungkin bisa membantu
    • TB5 RDMA jauh lebih lambat daripada akses langsung ke memori sistem
  • Struktur semua node yang saling terhubung mengingatkan pada NUMALink milik SGI.
    Superkomputer SGI menghubungkan setiap node ke semua node lain dengan dua tautan. Kabelnya memang banyak, tetapi tidak perlu memikirkan framing atau kontrol kemacetan

    • Hardware SGI mengimplementasikan ccNUMA (cache-coherent NUMA). OS IRIX memindahkan pekerjaan dan memori ke lokasi yang secara fisik lebih dekat untuk mengurangi latensi
      Sistem trading frekuensi tinggi masa kini yang menempatkan proses dengan mempertimbangkan lokasi inti CPU dan DIMM juga berada dalam konteks yang sama
    • Rak NVL72 juga memiliki struktur serupa, dengan puluhan tautan antar-GPU
  • Saya suka beberapa detail menarik yang muncul di tulisan itu
    Hilangnya Exo yang misterius, Jeff yang menginginkan SMB Direct untuk Mac, kecepatan inferensi M3 Ultra, dan desktop Framework AI seharga $2100
    Rasanya seperti menemukan rabbit hole baru