11 poin oleh GN⁺ 2025-12-13 | 4 komentar | Bagikan ke WhatsApp
  • Di macOS Tahoe 26.2, fitur RDMA berbasis Thunderbolt 5 baru ditambahkan, sehingga komunikasi latensi rendah seperti inferensi AI terdistribusi dengan memanfaatkan MLX menjadi memungkinkan
  • Ini berarti “Mac dapat diperlakukan sebagai node komputasi terdistribusi berkecepatan tinggi”, sehingga macOS dapat berkembang melampaui OS desktop biasa menjadi platform eksperimen AI lokal·HPC

Apa itu RDMA

  • RDMA(Remote Direct Memory Access) adalah metode komunikasi di mana satu komputer mengakses langsung memori komputer lain tanpa campur tangan CPU
  • Dengan melewati network stack, penyalinan kernel, dan context switching, RDMA secara drastis menurunkan latensi dan sangat meningkatkan throughput
  • Teknologi ini terutama telah digunakan pada jaringan pusat data seperti InfiniBand dan RoCE
  • RDMA telah menjadi teknologi standar dalam komputasi performa tinggi (HPC), penyimpanan terdistribusi, serta pelatihan dan inferensi AI skala besar
  • Intinya adalah “meskipun berkomunikasi lewat jaringan, kerjanya terasa secepat menggunakan memori yang sama”

Arti RDMA over Thunderbolt

  • Di macOS 26.2, komunikasi RDMA didukung antar-Mac yang terhubung dengan Thunderbolt 5
  • Jika sebelumnya RDMA terbatas pada perangkat jaringan kelas server, kini hal itu menjadi mungkin bahkan pada klaster Mac lokal yang terhubung hanya dengan satu kabel
  • Bandwidth tinggi dan latensi sangat rendah dari Thunderbolt kini dapat dimanfaatkan langsung dalam model RDMA
  • Dengan kata lain, terbuka “jalur untuk menggabungkan beberapa Mac di atas meja seperti sebuah pusat data”
Iklan

Mengapa cocok untuk beban kerja AI

  • Dalam inferensi atau pelatihan AI terdistribusi, pertukaran tensor antar-node mudah menjadi bottleneck
  • RDMA dalam proses ini tidak menghabiskan CPU dan menyediakan pola komunikasi yang mendekati GPU ↔ GPU
  • Inferensi AI terdistribusi berbasis MLX yang disebutkan dalam catatan rilis dirancang dengan asumsi komunikasi latensi rendah dan bandwidth tinggi seperti ini
  • Kemungkinan untuk membagi model ke beberapa Mac dan membangun klaster inferensi yang bekerja seperti satu mesin tunggal menjadi semakin besar
  • Bagi tim kecil atau lingkungan riset, membangun “klaster AI dengan Mac tanpa server” menjadi pilihan yang realistis

Skenario penggunaan yang benar-benar menjadi mungkin

  • Menghubungkan beberapa Mac Studio / Mac Pro melalui Thunderbolt untuk membangun farm inferensi AI lokal
  • Jika model besar sulit dijalankan pada satu GPU, eksperimen inferensi dengan pemisahan model menjadi memungkinkan
  • Simulasi terdistribusi lokal, pipeline data berkecepatan tinggi, dan riset sistem terdistribusi eksperimental
  • Biaya membangun lingkungan prototipe·PoC sebelum masuk ke pusat data dapat ditekan secara signifikan

4 komentar

 
bus710 2025-12-14

Jaringan Thunderbolt memang sangat praktis
Karena mendukung daisy chain, jadi tidak perlu hub juga

 
shakespeares 2025-12-13

Sekarang sepertinya akan cukup banyak juga orang yang menghubungkan perangkat Mac untuk membuat farm inferensi lalu menjalankan layanannya dari rumah.

 
xguru 2025-12-13

Catatan rilis resmi Apple hanya memuat satu kalimat bahwa "RDMA over Thunderbolt" kini didukung, jadi ini adalah penjelasan tambahan yang saya tulis untuk GN+.

 
GN⁺ 2025-12-13
Komentar Hacker News
  • Saya mengikuti Twitter tim MLX. Mereka sering membagikan contoh menghubungkan dua atau lebih Mac untuk menjalankan model yang membutuhkan lebih dari 512GB RAM
    Misalnya ada Kimi K2 Thinking (1T parameter) dan DeepSeek R1 (671B). Untuk yang terakhir juga disertakan Gist panduan penyiapan

    • Postingan-postingan itu adalah contoh penggunaan pipeline parallelism. Jika ada N mesin, tiap mesin diberi L/N layer. Tidak ada peningkatan kecepatan, tetapi ini memungkinkan menjalankan model besar yang tidak muat di satu mesin
      Pada rilis Tahoe 26.2 mendatang, tensor parallelism akan dimungkinkan. Tiap layer bisa di-shard ke beberapa mesin, jadi dengan N mesin kecepatannya bisa mendekati N kali lipat. Namun, latensi komunikasi menjadi tantangan utama
    • Minggu lalu dilakukan pengujian tensor parallel berbasis RDMA. Tautan tes. Disebut juga metode bypass fast sync
    • Semoga pendekatan ini tidak terlalu menarik bagi nonspesialis. Untuk workload paralel atau pemrosesan konteks, performanya tidak berskala dengan baik
      Namun, ini bagus untuk individu yang ingin bereksperimen dengan LLM secara lokal, meski perusahaan bermodal besar tampaknya tidak punya alasan untuk membeli ini dalam jumlah besar sebagai pengganti GPU
    • Yang paling mengejutkan adalah konsumsi dayanya. Dua unit totalnya sekitar 50W, sampai saya ragu apakah saya salah lihat
  • Saya membandingkan hardware inferensi dengan anggaran $50.000

    • Klaster Apple M3 Ultra ($50k): memaksimalkan kapasitas (3TB). Ini satu-satunya opsi yang bisa menjalankan model 3T+ parameter (seperti Kimi K2), tetapi kecepatannya rendah (~15 t/s)
    • Workstation NVIDIA RTX 6000 ($50k): memaksimalkan throughput (>80 t/s). Sangat baik untuk training maupun inferensi, tetapi VRAM-nya terbatas di 384GB sehingga hanya bisa untuk model di bawah 400B
    • Untuk mendapatkan kapasitas yang sama (3TB) sekaligus throughput di atas 100 t/s, dibutuhkan klaster NVIDIA GH200 senilai sekitar $270.000. Klaster Apple memberikan 87% dari kapasitas itu dengan 18% dari biayanya
    • Bisa juga lebih murah. Saya menjalankan DeepSeek-R1 di workstation dual-socket Xeon (768GB RAM) seharga $2.000 dengan kecepatan 1~2 token per detik
    • Saya penasaran dengan perhitungan klaster NVIDIA seharga $50k. Jika RTX 6000 sekitar $8k, maka 5 unit memberi sekitar 40k dan kira-kira setengah TB. Meski begitu, untuk inferensi Mac tetap efisien, dan M5 Ultra tampaknya akan menunjukkan price/performance yang lebih baik
    • Dengan anggaran yang sama, Anda juga bisa membeli 25 board desktop Framework (masing-masing 128GB VRAM, memakai Strix Halo). Totalnya 3TB VRAM, tetapi mengklasterkannya sepertinya cukup menantang
    • Jika mempertimbangkan fitur peningkatan kecepatan paralel yang belum diimplementasikan, ini tampak seperti penawaran yang cukup bagus untuk lingkungan inferensi on-premise
    • Apple memakai LPDDR5X untuk menekan biaya dan meningkatkan efisiensi energi, sedangkan NVIDIA memprioritaskan performa dengan GDDR/HBM
  • Di tengah kekacauan pasar RAM belakangan ini, akan sangat ironis jika berkat rantai pasok Apple yang stabil, komputasi Apple justru menjadi pilihan dengan value terbaik untuk membangun klaster inferensi skala menengah

    • Agak merepotkan kalau pengguna komersial memborong semua Mac bagus
    • Untuk beberapa use case, itu sebenarnya sudah terjadi
  • Jadi ini tentang mengikat beberapa Mac Studio menjadi sebuah klaster, dan saya khawatir dengan keterbatasan fisik dan administratif

    1. Posisi tombol daya agak merepotkan sehingga tidak nyaman saat di-rackmount
    2. Thunderbolt bagus untuk periferal, tetapi sebagai interconnect untuk koneksi terus-menerus, saya khawatir soal ketahanan port
    3. Kualitas kabel itu penting. TB4/TB5 sering bermasalah kalau bukan kabel mahal
    4. Pengelolaan jarak jauh macOS lebih tidak efisien dibanding Linux. Misalnya, upgrade macOS 26.1 → 26.2 tanpa GUI itu sulit. Dengan sudo softwareupdate -i -a, hanya update minor yang bisa dilakukan
    • Terkait #2, dock OWC punya lubang sekrup untuk pengunci kabel. OWC Thunderbolt Dock dan adapter ClingOn bisa mengurangi stres pada port
    • Masalah tombol daya bisa diatasi dengan enklosur RackMac Studio. Ini memperpanjang tombol secara mekanis
    • Menggunakan Thunderbolt sebagai interconnect server memang kurang enak dilihat, tetapi kalau dipasang tetap di rak justru stres fisiknya lebih kecil
    • Jika memakai solusi MDM, bukan hanya pembaruan software, tetapi LOM (manajemen daya jarak jauh) juga dimungkinkan. Ada juga MDM open source
    • Versi rackmount Mac Pro juga masih dijual, tetapi belum diperbarui ke M3 Ultra sehingga tampaknya akan segera dihentikan
  • Akan bagus jika Apple membangun cloud berbasis seri M sendiri, memperkuat Metal untuk AI, dan menyediakan model self-hosting yang berfokus pada privasi. Rasanya ini bisa sangat sukses di industri dengan banyak data sensitif

    • Konsep serupa sudah ada dalam Private Cloud Compute, tetapi itu hanya untuk iUser yang memakai model Apple
    • Di data center, dibanding memori besar per GPU, sharding berbasis interconnect cepat lebih efisien. GPU NVIDIA atau AMD tetap unggul dalam performa komputasi
  • Saya penasaran apakah fitur ini juga bisa dipakai untuk workload terdistribusi umum selain AI

  • Artikel terkait: Engadget - Bangun superkomputer AI dari klaster Mac di macOS Tahoe 26.2

  • George Hotz berhasil menjalankan GPU NVIDIA dari Mac lewat USB4 menggunakan tinygrad
    tweet tinygrad

  • Saya kurang paham apa itu RDMA, tetapi apakah ini berarti beberapa Mac bisa dihubungkan untuk menjalankan inferensi secara paralel? Kalau begitu, ini fitur yang sangat keren

    • Sebenarnya inferensi di beberapa Mac sudah dimungkinkan sejak setahun lalu, tetapi sekarang berjalan jauh lebih cepat