Model Kimi K2 1T dijalankan di dua M3 Ultra 512GB
(twitter.com/awnihannun)- Model Kimi K2 1T dilaporkan berjalan pada dua chip M3 Ultra dengan memori 512GB
- Sebuah postingan Twitter menyebutkan lingkungan eksekusi dan konfigurasi hardware untuk model tersebut
- Yang menonjol adalah bahwa model berskala 1T dijalankan pada hardware Mac komersial
- Ini menjadi contoh yang menunjukkan potensi komputasi AI berbasis Apple Silicon berperforma tinggi
- Upaya teknis ini mengisyaratkan perluasan batas eksekusi lokal untuk model bahasa besar
Isi postingan Twitter
- Postingan tersebut secara eksplisit menyatakan bahwa model Kimi K2 1T dijalankan pada dua unit M3 Ultra (masing-masing dengan memori 512GB)
- Tidak ada penyebutan mengenai metrik performa tambahan atau hasilnya
- Di luar tweet itu, tidak ada konteks tambahan atau detail teknis lebih lanjut yang diberikan
1 komentar
Komentar Hacker News
Tidak lebih pintar daripada Opus 4.5 atau 5.2-Pro, tetapi gaya menulisnya sangat unik dan punya nada lugas seperti berbicara dengan manusia
Untuk menulis teks pendek seperti email, ini termasuk yang terbaik saat ini, dan tidak ragu menunjukkan kesalahan atau meluruskan omong kosong di tengah percakapan
Rasanya dilatih dengan cara yang sama sekali berbeda dari model lain, jadi jauh lebih berguna untuk editing daripada analisis data
Karena itu saya benar-benar membayar langganan Kimi untuk memakainya
Kecerdasan emosional (emotional intelligence)-nya sangat kuat, mampu menangkap nuansa atau maksud pesan, lalu merapikan kalimat dengan mempertimbangkan konteks sosial
Saya tidak tahu bagaimana Moonshot melatihnya, tetapi bagian ini benar-benar patut diperhatikan
Di EQ-bench, model ini menempati peringkat 1 untuk evaluasi kecerdasan emosional, dan itu sangat sesuai dengan pengalaman saya
Melihat chatbot yang mengatakan hal seperti “berikan contoh yang dapat direproduksi” adalah pengalaman yang menarik
Sebagai catatan, Kimi K2 juga bisa dipakai di Kagi
Saya penasaran seberapa akurat Kimi K2 dalam hal seperti ini
Pada akhirnya saya jadi merasa inti model itu bukannya instruction following?
Sikapnya yang tidak terlalu menjilat membuatnya berguna untuk memeriksa logika
Model-model ChatGPT lama dulu memuji apa saja, tetapi Kimi, kalau diminta, bisa mengkritik tanpa ampun sampai terasa seperti meragukan kecerdasan dan leluhurmu
Model itu juga punya kepribadian yang sama sekali tidak suka menjilat seperti Kimi
Tautan resmi Apple
Ada juga tambahan diskon 10% lewat gift card
Saya pernah mendengar soal dukungan RDNA, tetapi tidak tahu apakah itu bergantung pada perangkat keras tertentu (perlu ConnectX atau Apple Thunderbolt) atau bisa juga dengan NIC 10G biasa
Namun vLLM juga mendukung klaster multi-node berbasis Ethernet biasa
Kalau memakai konteks panjang, menunggu jawaban bisa memakan waktu beberapa menit
Dalam beberapa tahun, harganya sepertinya akan jauh lebih murah
Jangan hanya percaya pada klaim “bisa jalan”, karena kecepatan pemrosesan dalam skenario konteks panjang benar-benar berbeda
Dengan uang yang sama, Anda bisa mendapatkan pemakaian cloud jauh lebih banyak
Lagi pula perangkat seperti ini tidak dijalankan 24/7, jadi efisiensinya rendah
Untuk model open source, jauh lebih praktis menjalankannya lewat layanan latensi ultra-rendah seperti Groq atau Cerebras
Saya menguji berbagai model di Cursor, tetapi Deepseek v3.2 atau Kimi K2 sering bermasalah karena format, dan beberapa model lain juga tidak ada
Saya terutama penasaran dengan benchmark untuk bidang non-web seperti C++ atau Rust
Saya bertanya-tanya apakah kombinasi 2 unit Spark dan 2 unit Mac Studio bisa memberikan kecepatan inferensi yang mirip dengan 2 unit M5 Ultra