Model Kimi K2 1T dijalankan di dua M3 Ultra 512GB

(twitter.com/awnihannun)

1 poin oleh GN⁺ 2025-12-15 | 1 komentar | Bagikan ke WhatsApp

Model Kimi K2 1T dilaporkan berjalan pada dua chip M3 Ultra dengan memori 512GB
Sebuah postingan Twitter menyebutkan lingkungan eksekusi dan konfigurasi hardware untuk model tersebut
Yang menonjol adalah bahwa model berskala 1T dijalankan pada hardware Mac komersial
Ini menjadi contoh yang menunjukkan potensi komputasi AI berbasis Apple Silicon berperforma tinggi
Upaya teknis ini mengisyaratkan perluasan batas eksekusi lokal untuk model bahasa besar

Isi postingan Twitter

Postingan tersebut secara eksplisit menyatakan bahwa model Kimi K2 1T dijalankan pada dua unit M3 Ultra (masing-masing dengan memori 512GB)
Tidak ada penyebutan mengenai metrik performa tambahan atau hasilnya
Di luar tweet itu, tidak ada konteks tambahan atau detail teknis lebih lanjut yang diberikan

1 komentar

GN⁺ 2025-12-15

Komentar Hacker News

Kimi K2 benar-benar model yang aneh
Tidak lebih pintar daripada Opus 4.5 atau 5.2-Pro, tetapi gaya menulisnya sangat unik dan punya nada lugas seperti berbicara dengan manusia
Untuk menulis teks pendek seperti email, ini termasuk yang terbaik saat ini, dan tidak ragu menunjukkan kesalahan atau meluruskan omong kosong di tengah percakapan
Rasanya dilatih dengan cara yang sama sekali berbeda dari model lain, jadi jauh lebih berguna untuk editing daripada analisis data
Karena itu saya benar-benar membayar langganan Kimi untuk memakainya
- Saya juga merasa begitu. Untuk komunikasi singkat, Kimi K2 memang tanpa tanding
  Kecerdasan emosional (emotional intelligence)-nya sangat kuat, mampu menangkap nuansa atau maksud pesan, lalu merapikan kalimat dengan mempertimbangkan konteks sosial
  Saya tidak tahu bagaimana Moonshot melatihnya, tetapi bagian ini benar-benar patut diperhatikan
  Di EQ-bench, model ini menempati peringkat 1 untuk evaluasi kecerdasan emosional, dan itu sangat sesuai dengan pengalaman saya
- Ini satu-satunya model yang secara konsisten lolos benchmark AI favorit saya, yaitu tes Clocks
- Ini satu-satunya model yang dengan jujur menegur saya saat saya salah
  Melihat chatbot yang mengatakan hal seperti “berikan contoh yang dapat direproduksi” adalah pengalaman yang menarik
  Sebagai catatan, Kimi K2 juga bisa dipakai di Kagi
- Sonnet 4.5 juga kadang membantah pengguna dengan cara yang mirip, tetapi kebanyakan itu salah paham akibat kurang konteks
  Saya penasaran seberapa akurat Kimi K2 dalam hal seperti ini
  Pada akhirnya saya jadi merasa inti model itu bukannya instruction following?
- Karena sifat seperti ini, wajar saja nilainya tinggi di EQ-bench
Kimi K2 benar-benar model yang mengesankan
Sikapnya yang tidak terlalu menjilat membuatnya berguna untuk memeriksa logika
Model-model ChatGPT lama dulu memuji apa saja, tetapi Kimi, kalau diminta, bisa mengkritik tanpa ampun sampai terasa seperti meragukan kecerdasan dan leluhurmu
- Kalau diminta, model ini benar-benar masuk ke mode roast. Membantu menjaga fokus
- Dulu saya pernah menyalakan Grok di dalam Tesla, lalu pengenalan suaranya salah bekerja dan situasinya jadi canggung
  Model itu juga punya kepribadian yang sama sekali tidak suka menjilat seperti Kimi
Model M3 Ultra 512GB harganya $9,499
Tautan resmi Apple
- Produk refurbished bisa dibeli seharga $8,070 di tautan ini
  Ada juga tambahan diskon 10% lewat gift card
Saya penasaran apakah ada versi Linux untuk konfigurasi ini
Saya pernah mendengar soal dukungan RDNA, tetapi tidak tahu apakah itu bergantung pada perangkat keras tertentu (perlu ConnectX atau Apple Thunderbolt) atau bisa juga dengan NIC 10G biasa
- Untuk mendapatkan performa setingkat produksi, dibutuhkan perangkat keras yang kompatibel dengan RDNA
  Namun vLLM juga mendukung klaster multi-node berbasis Ethernet biasa
Seperti biasa, klaim performa tanpa menyebut panjang konteks atau kondisi prefill menimbulkan salah paham
Kalau memakai konteks panjang, menunggu jawaban bisa memakan waktu beberapa menit
Saya ingin membeli beberapa unit seperti ini, tetapi kalau memikirkan depresiasi, rasanya masih terlalu cepat
Dalam beberapa tahun, harganya sepertinya akan jauh lebih murah
- Sebelum membeli, wajib cek benchmark kecepatan yang nyata
  Jangan hanya percaya pada klaim “bisa jalan”, karena kecepatan pemrosesan dalam skenario konteks panjang benar-benar berbeda
- Secara pribadi saya merasa membeli perangkat seperti ini tidak masuk akal secara ekonomi
  Dengan uang yang sama, Anda bisa mendapatkan pemakaian cloud jauh lebih banyak
  Lagi pula perangkat seperti ini tidak dijalankan 24/7, jadi efisiensinya rendah
  Untuk model open source, jauh lebih praktis menjalankannya lewat layanan latensi ultra-rendah seperti Groq atau Cerebras
- Alasan menjalankan model lokal adalah karena privasi, bukan karena biaya atau latensi
- Saya berharap pembaruan berikutnya memakai varian chip M5
- Sepertinya lebih baik menunggu sampai harga RAM stabil
Saya penasaran benchmark apa yang masih relevan belakangan ini
Saya menguji berbagai model di Cursor, tetapi Deepseek v3.2 atau Kimi K2 sering bermasalah karena format, dan beberapa model lain juga tidak ada
Saya terutama penasaran dengan benchmark untuk bidang non-web seperti C++ atau Rust
Perlu disebutkan bahwa ini adalah versi quant 4bit dari model tersebut. Tetap mengesankan
- Kimi K2 sejak awal memang dirancang dengan target optimasi 4bit
- Kalau jumlah parameternya sudah sampai triliunan, menurut saya kuantisasi memang sudah menjadi asumsi dasar
Saya juga penasaran apakah akselerasi token pre-fill milik Exo Labs bisa dijalankan di DGX Spark
Saya bertanya-tanya apakah kombinasi 2 unit Spark dan 2 unit Mac Studio bisa memberikan kecepatan inferensi yang mirip dengan 2 unit M5 Ultra
Saya jadi berpikir, bukankah ini model yang baru-baru ini menang dalam kompetisi menggambar jam secara real-time?

Model Kimi K2 1T dijalankan di dua M3 Ultra 512GB

Isi postingan Twitter

Bacaan terkait

1 komentar

Komentar Hacker News