Mulai macOS 26.2, pembentukan klaster AI cepat dimungkinkan dengan RDMA melalui Thunderbolt
(developer.apple.com)- Di macOS Tahoe 26.2, fitur RDMA berbasis Thunderbolt 5 baru ditambahkan, sehingga komunikasi latensi rendah seperti inferensi AI terdistribusi dengan memanfaatkan MLX menjadi memungkinkan
- Ini berarti “Mac dapat diperlakukan sebagai node komputasi terdistribusi berkecepatan tinggi”, sehingga macOS dapat berkembang melampaui OS desktop biasa menjadi platform eksperimen AI lokal·HPC
Apa itu RDMA
- RDMA(Remote Direct Memory Access) adalah metode komunikasi di mana satu komputer mengakses langsung memori komputer lain tanpa campur tangan CPU
- Dengan melewati network stack, penyalinan kernel, dan context switching, RDMA secara drastis menurunkan latensi dan sangat meningkatkan throughput
- Teknologi ini terutama telah digunakan pada jaringan pusat data seperti InfiniBand dan RoCE
- RDMA telah menjadi teknologi standar dalam komputasi performa tinggi (HPC), penyimpanan terdistribusi, serta pelatihan dan inferensi AI skala besar
- Intinya adalah “meskipun berkomunikasi lewat jaringan, kerjanya terasa secepat menggunakan memori yang sama”
Arti RDMA over Thunderbolt
- Di macOS 26.2, komunikasi RDMA didukung antar-Mac yang terhubung dengan Thunderbolt 5
- Jika sebelumnya RDMA terbatas pada perangkat jaringan kelas server, kini hal itu menjadi mungkin bahkan pada klaster Mac lokal yang terhubung hanya dengan satu kabel
- Bandwidth tinggi dan latensi sangat rendah dari Thunderbolt kini dapat dimanfaatkan langsung dalam model RDMA
- Dengan kata lain, terbuka “jalur untuk menggabungkan beberapa Mac di atas meja seperti sebuah pusat data”
Mengapa cocok untuk beban kerja AI
- Dalam inferensi atau pelatihan AI terdistribusi, pertukaran tensor antar-node mudah menjadi bottleneck
- RDMA dalam proses ini tidak menghabiskan CPU dan menyediakan pola komunikasi yang mendekati GPU ↔ GPU
- Inferensi AI terdistribusi berbasis MLX yang disebutkan dalam catatan rilis dirancang dengan asumsi komunikasi latensi rendah dan bandwidth tinggi seperti ini
- Kemungkinan untuk membagi model ke beberapa Mac dan membangun klaster inferensi yang bekerja seperti satu mesin tunggal menjadi semakin besar
- Bagi tim kecil atau lingkungan riset, membangun “klaster AI dengan Mac tanpa server” menjadi pilihan yang realistis
Skenario penggunaan yang benar-benar menjadi mungkin
- Menghubungkan beberapa Mac Studio / Mac Pro melalui Thunderbolt untuk membangun farm inferensi AI lokal
- Jika model besar sulit dijalankan pada satu GPU, eksperimen inferensi dengan pemisahan model menjadi memungkinkan
- Simulasi terdistribusi lokal, pipeline data berkecepatan tinggi, dan riset sistem terdistribusi eksperimental
- Biaya membangun lingkungan prototipe·PoC sebelum masuk ke pusat data dapat ditekan secara signifikan
4 komentar
Jaringan Thunderbolt memang sangat praktis
Karena mendukung daisy chain, jadi tidak perlu hub juga
Sekarang sepertinya akan cukup banyak juga orang yang menghubungkan perangkat Mac untuk membuat farm inferensi lalu menjalankan layanannya dari rumah.
Catatan rilis resmi Apple hanya memuat satu kalimat bahwa "RDMA over Thunderbolt" kini didukung, jadi ini adalah penjelasan tambahan yang saya tulis untuk GN+.
Komentar Hacker News
Saya mengikuti Twitter tim MLX. Mereka sering membagikan contoh menghubungkan dua atau lebih Mac untuk menjalankan model yang membutuhkan lebih dari 512GB RAM
Misalnya ada Kimi K2 Thinking (1T parameter) dan DeepSeek R1 (671B). Untuk yang terakhir juga disertakan Gist panduan penyiapan
Pada rilis Tahoe 26.2 mendatang, tensor parallelism akan dimungkinkan. Tiap layer bisa di-shard ke beberapa mesin, jadi dengan N mesin kecepatannya bisa mendekati N kali lipat. Namun, latensi komunikasi menjadi tantangan utama
Namun, ini bagus untuk individu yang ingin bereksperimen dengan LLM secara lokal, meski perusahaan bermodal besar tampaknya tidak punya alasan untuk membeli ini dalam jumlah besar sebagai pengganti GPU
Saya membandingkan hardware inferensi dengan anggaran $50.000
Di tengah kekacauan pasar RAM belakangan ini, akan sangat ironis jika berkat rantai pasok Apple yang stabil, komputasi Apple justru menjadi pilihan dengan value terbaik untuk membangun klaster inferensi skala menengah
Jadi ini tentang mengikat beberapa Mac Studio menjadi sebuah klaster, dan saya khawatir dengan keterbatasan fisik dan administratif
sudo softwareupdate -i -a, hanya update minor yang bisa dilakukanAkan bagus jika Apple membangun cloud berbasis seri M sendiri, memperkuat Metal untuk AI, dan menyediakan model self-hosting yang berfokus pada privasi. Rasanya ini bisa sangat sukses di industri dengan banyak data sensitif
Saya penasaran apakah fitur ini juga bisa dipakai untuk workload terdistribusi umum selain AI
Referensi: panduan penggunaan terdistribusi MLX
Artikel terkait: Engadget - Bangun superkomputer AI dari klaster Mac di macOS Tahoe 26.2
George Hotz berhasil menjalankan GPU NVIDIA dari Mac lewat USB4 menggunakan tinygrad
tweet tinygrad
Saya kurang paham apa itu RDMA, tetapi apakah ini berarti beberapa Mac bisa dihubungkan untuk menjalankan inferensi secara paralel? Kalau begitu, ini fitur yang sangat keren