1 poin oleh GN⁺ 2025-12-15 | 1 komentar | Bagikan ke WhatsApp
  • Model Kimi K2 1T dilaporkan berjalan pada dua chip M3 Ultra dengan memori 512GB
  • Sebuah postingan Twitter menyebutkan lingkungan eksekusi dan konfigurasi hardware untuk model tersebut
  • Yang menonjol adalah bahwa model berskala 1T dijalankan pada hardware Mac komersial
  • Ini menjadi contoh yang menunjukkan potensi komputasi AI berbasis Apple Silicon berperforma tinggi
  • Upaya teknis ini mengisyaratkan perluasan batas eksekusi lokal untuk model bahasa besar

Isi postingan Twitter

  • Postingan tersebut secara eksplisit menyatakan bahwa model Kimi K2 1T dijalankan pada dua unit M3 Ultra (masing-masing dengan memori 512GB)
  • Tidak ada penyebutan mengenai metrik performa tambahan atau hasilnya
  • Di luar tweet itu, tidak ada konteks tambahan atau detail teknis lebih lanjut yang diberikan

1 komentar

 
GN⁺ 2025-12-15
Komentar Hacker News
  • Kimi K2 benar-benar model yang aneh
    Tidak lebih pintar daripada Opus 4.5 atau 5.2-Pro, tetapi gaya menulisnya sangat unik dan punya nada lugas seperti berbicara dengan manusia
    Untuk menulis teks pendek seperti email, ini termasuk yang terbaik saat ini, dan tidak ragu menunjukkan kesalahan atau meluruskan omong kosong di tengah percakapan
    Rasanya dilatih dengan cara yang sama sekali berbeda dari model lain, jadi jauh lebih berguna untuk editing daripada analisis data
    Karena itu saya benar-benar membayar langganan Kimi untuk memakainya
    • Saya juga merasa begitu. Untuk komunikasi singkat, Kimi K2 memang tanpa tanding
      Kecerdasan emosional (emotional intelligence)-nya sangat kuat, mampu menangkap nuansa atau maksud pesan, lalu merapikan kalimat dengan mempertimbangkan konteks sosial
      Saya tidak tahu bagaimana Moonshot melatihnya, tetapi bagian ini benar-benar patut diperhatikan
      Di EQ-bench, model ini menempati peringkat 1 untuk evaluasi kecerdasan emosional, dan itu sangat sesuai dengan pengalaman saya
    • Ini satu-satunya model yang secara konsisten lolos benchmark AI favorit saya, yaitu tes Clocks
    • Ini satu-satunya model yang dengan jujur menegur saya saat saya salah
      Melihat chatbot yang mengatakan hal seperti “berikan contoh yang dapat direproduksi” adalah pengalaman yang menarik
      Sebagai catatan, Kimi K2 juga bisa dipakai di Kagi
    • Sonnet 4.5 juga kadang membantah pengguna dengan cara yang mirip, tetapi kebanyakan itu salah paham akibat kurang konteks
      Saya penasaran seberapa akurat Kimi K2 dalam hal seperti ini
      Pada akhirnya saya jadi merasa inti model itu bukannya instruction following?
    • Karena sifat seperti ini, wajar saja nilainya tinggi di EQ-bench
  • Kimi K2 benar-benar model yang mengesankan
    Sikapnya yang tidak terlalu menjilat membuatnya berguna untuk memeriksa logika
    Model-model ChatGPT lama dulu memuji apa saja, tetapi Kimi, kalau diminta, bisa mengkritik tanpa ampun sampai terasa seperti meragukan kecerdasan dan leluhurmu
    • Kalau diminta, model ini benar-benar masuk ke mode roast. Membantu menjaga fokus
    • Dulu saya pernah menyalakan Grok di dalam Tesla, lalu pengenalan suaranya salah bekerja dan situasinya jadi canggung
      Model itu juga punya kepribadian yang sama sekali tidak suka menjilat seperti Kimi
  • Model M3 Ultra 512GB harganya $9,499
    Tautan resmi Apple
    • Produk refurbished bisa dibeli seharga $8,070 di tautan ini
      Ada juga tambahan diskon 10% lewat gift card
  • Saya penasaran apakah ada versi Linux untuk konfigurasi ini
    Saya pernah mendengar soal dukungan RDNA, tetapi tidak tahu apakah itu bergantung pada perangkat keras tertentu (perlu ConnectX atau Apple Thunderbolt) atau bisa juga dengan NIC 10G biasa
    • Untuk mendapatkan performa setingkat produksi, dibutuhkan perangkat keras yang kompatibel dengan RDNA
      Namun vLLM juga mendukung klaster multi-node berbasis Ethernet biasa
  • Seperti biasa, klaim performa tanpa menyebut panjang konteks atau kondisi prefill menimbulkan salah paham
    Kalau memakai konteks panjang, menunggu jawaban bisa memakan waktu beberapa menit
  • Saya ingin membeli beberapa unit seperti ini, tetapi kalau memikirkan depresiasi, rasanya masih terlalu cepat
    Dalam beberapa tahun, harganya sepertinya akan jauh lebih murah
    • Sebelum membeli, wajib cek benchmark kecepatan yang nyata
      Jangan hanya percaya pada klaim “bisa jalan”, karena kecepatan pemrosesan dalam skenario konteks panjang benar-benar berbeda
    • Secara pribadi saya merasa membeli perangkat seperti ini tidak masuk akal secara ekonomi
      Dengan uang yang sama, Anda bisa mendapatkan pemakaian cloud jauh lebih banyak
      Lagi pula perangkat seperti ini tidak dijalankan 24/7, jadi efisiensinya rendah
      Untuk model open source, jauh lebih praktis menjalankannya lewat layanan latensi ultra-rendah seperti Groq atau Cerebras
    • Alasan menjalankan model lokal adalah karena privasi, bukan karena biaya atau latensi
    • Saya berharap pembaruan berikutnya memakai varian chip M5
    • Sepertinya lebih baik menunggu sampai harga RAM stabil
  • Saya penasaran benchmark apa yang masih relevan belakangan ini
    Saya menguji berbagai model di Cursor, tetapi Deepseek v3.2 atau Kimi K2 sering bermasalah karena format, dan beberapa model lain juga tidak ada
    Saya terutama penasaran dengan benchmark untuk bidang non-web seperti C++ atau Rust
  • Perlu disebutkan bahwa ini adalah versi quant 4bit dari model tersebut. Tetap mengesankan
    • Kimi K2 sejak awal memang dirancang dengan target optimasi 4bit
    • Kalau jumlah parameternya sudah sampai triliunan, menurut saya kuantisasi memang sudah menjadi asumsi dasar
  • Saya juga penasaran apakah akselerasi token pre-fill milik Exo Labs bisa dijalankan di DGX Spark
    Saya bertanya-tanya apakah kombinasi 2 unit Spark dan 2 unit Mac Studio bisa memberikan kecepatan inferensi yang mirip dengan 2 unit M5 Ultra
  • Saya jadi berpikir, bukankah ini model yang baru-baru ini menang dalam kompetisi menggambar jam secara real-time?