1 poin oleh GN⁺ 4 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Model coding bertipe agen untuk menangani tugas coding jangka panjang dan alur kerja rekayasa perangkat lunak yang kompleks, ditingkatkan dari basis Kimi K2.6 dengan kemampuan penyelesaian tugas end-to-end dan efisiensi penggunaan token yang lebih baik
  • Dibandingkan Kimi K2.6, penggunaan token penalaran berkurang sekitar 30%, sementara Kimi Code Bench v2 naik dari 50.9 ke 62.0 dan MCP Mark Verified naik dari 72.8 ke 81.1
  • Arsitektur model berbasis MoE dengan total 1T parameter, 32B parameter aktif, panjang konteks 256K, dan encoder visi MoonViT
  • Deployment ditujukan untuk API resmi serta vLLM, SGLang, dan KTransformers, dan karena memiliki arsitektur yang sama dengan Kimi-K2.5/Kimi-K2.6, metode deployment yang ada bisa digunakan kembali
  • Saat digunakan, mode Thinking dan preserve_thinking dipaksakan, mendukung input gambar, dan input video saat ini hanya didukung secara eksperimental di API resmi

Ikhtisar model

  • Kimi K2.7-Code adalah model agen berfokus coding berbasis Kimi K2.6, dengan peningkatan pada tugas coding jangka panjang yang realistis
  • Kemampuan penyelesaian tugas end-to-end diperkuat di seluruh alur kerja rekayasa perangkat lunak yang kompleks
  • Dibandingkan Kimi K2.6, penggunaan token penalaran berkurang sekitar 30%, sehingga efisiensi token meningkat
  • Tersedia dengan tag seperti input gambar-teks, Transformers, Safetensors, conversational, dan custom_code

Ringkasan model

  • Arsitekturnya adalah Mixture-of-Experts(MoE) dengan total 1T parameter dan 32B parameter aktif
  • Jumlah layer adalah 61 termasuk Dense layer, dengan 1 Dense layer
  • Attention Hidden Dimension adalah 7168, dan MoE Hidden Dimension adalah 2048 per expert
  • Attention Head berjumlah 64, Expert berjumlah 384, Expert yang dipilih per token berjumlah 8, dan Shared Expert berjumlah 1
  • Ukuran kosakata adalah 160K dan panjang konteks adalah 256K
  • Mekanisme attention adalah MLA, dan fungsi aktivasi adalah SwiGLU
  • Encoder visi adalah MoonViT, dengan 400M parameter encoder visi

Hasil evaluasi

  • Benchmark coding

    • Pada Kimi Code Bench v2, Kimi K2.6 mencatat 50.9, Kimi K2.7 Code 62.0, GPT-5.5 69.0, dan Claude Opus 4.8 67.4
    • Pada Program Bench, Kimi K2.6 mencatat 48.3, Kimi K2.7 Code 53.6, GPT-5.5 69.1, dan Claude Opus 4.8 63.8
    • Pada MLS Bench Lite, Kimi K2.6 mencatat 26.7, Kimi K2.7 Code 35.1, GPT-5.5 35.5, dan Claude Opus 4.8 42.8
  • Benchmark agen

    • Pada Kimi Claw 24/7 Bench, Kimi K2.6 mencatat 42.9, Kimi K2.7 Code 46.9, GPT-5.5 52.8, dan Claude Opus 4.8 50.4
    • Pada MCP Atlas, Kimi K2.6 mencatat 69.4, Kimi K2.7 Code 76.0, GPT-5.5 79.4, dan Claude Opus 4.8 81.3
    • Pada MCP Mark Verified, Kimi K2.6 mencatat 72.8, Kimi K2.7 Code 81.1, GPT-5.5 92.9, dan Claude Opus 4.8 76.4
  • Kondisi evaluasi

    • Jika tidak dinyatakan terpisah, Kimi K2.7 Code dan K2.6 diuji di Kimi Code CLI dengan mode Thinking aktif, temperature 1.0, top-p 0.95, dan panjang konteks 262,144 token
    • GPT-5.5 dijalankan dalam mode xhigh di Codex, dan Opus 4.8 dijalankan dalam mode xhigh di Claude Code
    • Selain perbedaan tersebut, semua benchmark dievaluasi dalam kondisi yang sama
  • Komposisi benchmark

    • Kimi Code Bench V2 adalah benchmark internal yang mengevaluasi agen coding pada tugas realistis, mencakup lebih dari 10 bahasa pemrograman utama dan seluruh stack teknologi produksi
    • Kimi Code Bench V2 mencakup use case engineering internal, gangguan produksi, dan tugas dari proyek open-source nyata
    • Program Bench mengharuskan reproduksi perilaku program hanya dari biner yang telah dikompilasi dan dokumentasi, menggunakan 200 tugas dan lebih dari 248.000 pengujian perilaku hasil fuzzing
    • MLS-Bench mengevaluasi apakah sistem AI dapat membuat metode ML yang dapat digeneralisasi dan diskalakan, dan MLS-Bench-Lite adalah subset resmi berisi 30 tugas
    • Kimi Claw 24/7 Bench adalah benchmark internal yang mengevaluasi performa agen jangka panjang dalam kolaborasi multi-hari yang berkelanjutan, mencakup 17 skenario profesional dan 610 titik evaluasi
    • MCP-Atlas mengevaluasi performa LLM pada tugas penggunaan alat yang realistis melalui MCP yang dapat diskalakan
    • MCPMark-Verified adalah versi tervalidasi manusia dari MCPMark, yang mengevaluasi penggunaan alat MCP di 5 lingkungan server nyata termasuk Notion, GitHub, Filesystem, Postgres, dan Playwright

Kuantisasi Native INT4

  • Kimi-K2.7-Code mengadopsi metode kuantisasi native int4 yang sama seperti Kimi-K2-Thinking

Deployment

  • API Kimi-K2.7-Code dapat diakses di https://platform.moonshot.ai
  • API resmi menyediakan API kompatibel OpenAI/Anthropic
  • Engine inferensi yang direkomendasikan adalah vLLM, SGLang, dan KTransformers
  • Kimi-K2.7-Code memiliki arsitektur yang sama dengan Kimi-K2.5/Kimi-K2.6 sehingga metode deployment dapat langsung digunakan kembali
  • Persyaratan versi transformers adalah >=4.57.1, <5.0.0
  • Contoh deployment dapat dilihat di Model Deployment Guide

Cara penggunaan

  • Kondisi dasar pemanggilan API

    • Demo penggunaan didasarkan pada metode pemanggilan API resmi
    • Kimi-K2.7-Code memaksakan Thinking dan preserve_thinking ke True
    • Pada API pihak ketiga yang dideploy dengan vLLM atau SGLang, chat dengan konten video adalah fitur eksperimental yang saat ini hanya didukung di API resmi
    • temperature yang direkomendasikan untuk mode Thinking adalah 1.0 dan top_p yang direkomendasikan adalah 0.95
    • Mode Instant tidak didukung
  • Chat Completion

    • Contoh Chat Completion memanggil API K2.7-Code dalam mode Thinking
    • Kode contoh memanggil client.chat.completions.create dengan klien openai dan menetapkan max_tokens=4096
    • Pada respons, response.choices[0].message.reasoning dan response.choices[0].message.content ditampilkan
  • Input konten visual

    • K2.7-Code mendukung input gambar dan video
    • Contoh input gambar mengenkode gambar ke base64 lalu mengirimkannya ke image_url, dan menghasilkan respons dengan max_tokens=8192
    • Contoh input video mengenkode file mp4 ke base64 lalu mengirimkannya ke video_url
    • Chat video saat ini adalah fitur eksperimental yang hanya didukung di API resmi
  • Preserve Thinking

    • Kimi K2.7 Code memaksakan mode preserve_thinking, mempertahankan seluruh konten reasoning dalam interaksi multi-turn
    • preserve_thinking meningkatkan performa pada skenario agen coding
    • Fitur ini aktif secara default dan tidak dapat dinonaktifkan
    • Beberapa API mungkin tidak mendukung reasoning_content, sehingga dapat mencoba reasoning
  • Interleaved Thinking dan pemanggilan alat multi-langkah

    • K2.7-Code berbagi desain Interleaved Thinking dan Multi-Step Tool Call yang sama seperti K2 Thinking
    • Contoh penggunaan mengacu ke dokumentasi K2 Thinking
  • Framework agen coding

    • Kimi K2.7-Code bekerja paling baik saat digunakan bersama Kimi Code CLI sebagai framework agen
    • Kimi Code CLI tersedia di https://www.kimi.com/code

Contoh menjalankan secara lokal

  • Transformers

    • Di Transformers, pipeline tingkat tinggi dapat dibuat dengan pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True)
    • Model juga dapat dimuat langsung dengan AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto")
  • vLLM

    • vLLM diinstal dengan pip install vllm dan server dijalankan dengan vllm serve "moonshotai/Kimi-K2.7-Code"
    • Contoh pemanggilan menggunakan endpoint API kompatibel OpenAI http://localhost:8000/v1/chat/completions
    • Di Docker Model Runner, dijalankan dengan docker model run hf.co/moonshotai/Kimi-K2.7-Code
  • SGLang

    • SGLang diinstal dengan pip install sglang dan server dijalankan dengan python3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code"
    • Contoh pemanggilan menggunakan endpoint API kompatibel OpenAI http://localhost:30000/v1/chat/completions
    • Contoh menjalankan di Docker menetapkan GPU, shared memory, cache Hugging Face, dan variabel lingkungan HF_TOKEN

Lisensi

1 komentar

 
GN⁺ 4 jam lalu
Komentar Hacker News
  • Membaca klausul lisensi yang direvisi terasa lucu. Pada dasarnya ini lisensi MIT dengan satu klausul iklan lama dari BSD ditambahkan, dan kurang lebih merupakan permintaan agar mereka “diiklankan” jika dipakai di produk, terlepas dari jumlah pengguna aktif bulanan atau pendapatan
    Sejujurnya itu terlihat seperti permintaan yang masuk akal

    • Ini terlihat seperti klausul sindiran untuk Cursor. Maksudnya, jangan buat mereka harus mempermalukan pihak lain dengan memaksa pengungkapan
    • Klausul “iklan” di sini kurang lebih hanya meminta agar penggunaan tersebut disebutkan di suatu tempat dalam produk. Misalnya dimasukkan ke kredit di bagian “About”
    • Terasa seperti tambahan yang dibuat terburu-buru. Kukira mereka akan lebih merapikan redaksi hukumnya soal apa saja yang termasuk dalam “antarmuka pengguna”
  • Saya memberi Kimi K2.7-code instruksi yang cukup sederhana untuk me-rebase patch Fil-C OpenSSL dari 3.3.1 ke 3.5.7, dan hasilnya tampak berhasil
    Ukuran patch-nya 177KB jadi ini bukan perubahan kecil, dan awalnya tidak bisa diterapkan dengan rapi sehingga agen harus melakukan pekerjaan yang cukup substansial
    Saya hanya memberi patch untuk target 3.3.1, perintah build, path 3.5.7, dan tautan ke dokumen perubahan (https://fil-c.org/constant_time_crypto)
    Namun saya memakai agen coding internal T800, yang tidak dipublikasikan, dan sebelumnya sudah cukup diuji serta di-tuning untuk K2.5
    Biaya penggunaan API sepertinya sekitar $5~$10. Koreksi: ini OpenSSL, bukan OpenSSH

  • Secara pribadi, saat memakai open code atau router, begitu melewati tingkat tertentu, perbedaan antarmodel tidak terasa terlalu besar. Pengecualiannya adalah model mahal dan serba tanggung seperti Gemini
    Dalam arti itu, model-model dari Tiongkok cukup bagus. Biasanya saya memakainya dengan membuat kode di tingkat fungsi atau metode, lalu merancang dan merakitnya
    Keluarga GPT memang lebih teliti dan lebih baik, tetapi saya tidak yakin selisihnya sedramatis itu. Mungkin tergantung alur kerja, tetapi kalau diperlakukan cukup ketat, saya ragu apakah benar ada perbedaan besar

    • Saya sudah agak menyerah pada router inferensi “gratis”. Seperti dugaan, karena mereka berusaha sehemat mungkin dalam inferensi, kualitas penalarannya sering menurun
      Menjadikan MacBook M1 Pro sebagai bantalan pemanas sambil menjalankan Qwen 3.6 35B A3B MTP lumayan berhasil
      Saat mencoba memakai model Gemini seperti “lokal”, saya menemui masalah serupa: upaya dipotong terlalu pendek sehingga banyak salah dan jumlah turn bertambah
      Sebaliknya, melihat Fable terus-menerus dibicarakan sebagai “proaktif”, tampaknya arah yang sepenuhnya berlawanan juga mungkin jika ada branding yang kuat dan monetisasi yang efektif
    • Dalam pengalaman saya, untuk implementasi fungsi individual hampir tidak ada perbedaan antara model frontier dan model kelas 30B terbaru
      Jika desain yang konsisten sudah ada, yang justru bagian sulitnya, memasukkannya ke model yang cukup kecil pun menghasilkan kualitas yang hampir sama
      Memang tidak selesai dalam sekali jalan, tetapi karena lebih cepat dan murah, pada akhirnya justru lebih menguntungkan. Lagi pula ini juga bisa dilakukan secara lokal
    • Perbedaan hasilnya tidak besar, tetapi memang perlu diperlakukan lebih ketat. Misalnya Kimi K2.5/K2.6 kadang alih-alih memperbaiki masalah yang baru saja dibuatnya, malah mengira tes yang gagal itu adalah “kegagalan yang sudah ada” lalu mengomentarinya
      Karena itu, Anda harus secara eksplisit membuat tes yang dikomentari merusak build. Secara pribadi saya tidak mengalami masalah seperti itu pada model Anthropic atau OpenAI
    • Saya harap orang berhenti memakai ungkapan “model Tiongkok”. Ada nuansa negatif di situ
      Ini mirip seperti dulu orang menyebut mobil sebagai “mobil Jepang”, padahal sekarang itu hampir tidak bermakna lagi dan orang tinggal menyebut Toyota, Honda, atau Lexus
  • sangat penasaran kalau ada yang pernah membandingkan opencode + Kimi K2.6/2.7 dengan Claude Code. Ingin tahu apa yang lebih bagus dan kurang bagus, serta bagaimana perbandingan biayanya
    sekarang saya membayar $100 untuk paket 5x Max, tetapi Fable menghabiskan batas pemakaian cukup cepat, dan juga sulit dibilang bedanya siang dan malam dibanding Opus
    karena saya terutama memakainya untuk proyek sampingan, tagihan $100 juga terasa cukup besar, dan saya tidak ingin bayar lebih banyak

    • Saya dulu terutama memakai Claude Code dengan Opus, lalu pindah ke opencode + Kimi 2.6 untuk proyek pribadi dan sudah mencobanya selama beberapa bulan
      Claude Code memang lebih bagus. Tetapi poin pentingnya, opencode + Kimi 2.6 juga cukup layak dipakai
      Kalau Anda tahu persis apa yang diinginkan dan hanya menyuruh menulis kode sederhana, model populer seperti DeepSeek dan Kimi pada umumnya sudah bagus, dan rasanya tidak terlalu berbeda jauh dari model Anthropic
      Sebaliknya, Opus jauh lebih baik dalam memahami maksud dibanding DeepSeek. Saat memakai DeepSeek, prompt harus ditulis jauh lebih presisi, dan kalau ditulis asal, sering melenceng ke arah aneh
      Kimi ada di tengah-tengah. Ia cukup menghidupkan kembali alur dengan “prompt longgar”, dan rencananya lebih bisa dipercaya dibanding DeepSeek
      Alur kerja yang mirip Claude Code memang memungkinkan, tetapi secara keseluruhan sedikit lebih buruk di banyak hal. Panjang konteks, jumlah error, pengambilan keputusan, rekomendasi, dan kemampuan debugging semuanya sedikit tertinggal
      Dari sisi penggunaan, paket Claude $100 sebenarnya punya value for money yang bagus. Harga token Kimi memang jauh lebih murah, tetapi langganan Claude tampaknya sangat disubsidi, jadi dengan $100 Anda mendapat token jauh lebih banyak daripada yang bisa dibeli lewat API
      Pada akhirnya, dengan pola penggunaan yang mirip, biaya opencode + Kimi dan Claude Code bisa jadi serupa
      DeepSeek lebih murah lagi dan token cache-nya luar biasa murah, tetapi kalau pindah dari Claude Code, mungkin perlu menyesuaikan cara kerja sesuai kebiasaan
      Untuk proyek sampingan, menurut saya konfigurasi paket $10 Opencode Go ditambah kredit $10 DeepSeek v4 di tempat seperti OpenRouter cukup praktis
    • Untuk pekerjaan saya pakai Claude, untuk proyek sampingan saya pakai Kimi. Di organisasi, LiteLLM dan Kimi 2.5 diaktifkan, tetapi hampir tidak berjalan baik, jadi alat utama tetap Claude dan GPT
      Kimi terasa seperti pengembang yang sedang wawancara, jadi lebih seru. Melihat proses ia menalar masalah mirip dengan cara saya menjelaskan saat sesi whiteboard. Lucunya, dia terlalu sering bilang “wait”
      Claude lebih mirip karyawan yang sudah direkrut, atau tim karyawan. Dari awal tidak banyak memberi penjelasan panjang, hanya bertanya saat perlu, lalu mengeluarkan laporan atau rencana yang menyeluruh
      Saya menganggap OpenCode sebagai harness yang lebih baik. Untuk biaya, saya belum pernah menjalankan prompt yang sama persis di kedua sisi, jadi tidak bisa membandingkan langsung
      Baru-baru ini saya menyuruh Kimi membuat pembungkus libpq untuk bahasa pemrograman ZenC(https://github.com/nobleach/zenc-postgres), butuh sekitar satu jam, dan biayanya sekitar $4
    • saya sangat puas dengan ohmypi, tetapi tetap bisa memakai OpenCode atau terus memakai Claude Code
      DeepSeek-V4-Pro sudah cukup bagus, dan untuk tugas atau aktivitas kecil yang biasanya Anda serahkan ke Haiku atau Sonnet, cukup pakai DS4-Flash. Tinggal daftar dengan prabayar $10
      OpenCode Go bisa didaftarkan seharga $5 per bulan, lalu pakai Qwen-3.7-Max untuk desain, perencanaan, arsitektur, dan penyelesaian masalah sulit. Rasanya lebih dekat ke Opus 3.6 atau 3.7 daripada DeepSeek, dan ini yang paling mirip dari yang pernah saya temukan
      OpenAI Codex dengan paket $20 per bulan memungkinkan memakai GPT-5.5 lewat API untuk desain, perencanaan, arsitektur, pemecahan masalah, dan penulisan commit. Untuk masalah yang benar-benar sulit, Anda juga bisa bayar $100 lalu menyalinnya ke chat GPT-5.5-Pro
      Xiaomi MiMo-2.5-Pro bisa memberi kredit gratis 72 sen jika mendapat kode referal $2 dari teman. Harganya sama dengan DeepSeek, dan kemampuannya ada di antara Sonnet dan Opus. Lumayan mumpuni. Beta UltraSpeed juga layak dicoba
      Di OpenCode atau ohmypi, Anda tinggal mengganti-ganti model ini secara langsung untuk menemukan yang paling cocok. Saya memakai CodexBar untuk melihat penggunaan hampir secara real time
      Untuk pengguna ringan atau pemula dalam pemrograman, paket Cursor $20 cocok untuk mulai dengan Composer-2.5 dan Composer-2.5-Fast. Ada juga alokasi API, jadi selain di Cursor sendiri, Anda bisa mengakses Opus-4.x atau GPT-5.5-Pro dari OpenCode atau ohmypi
      Jika memakai Grok atau Twitter, SuperGrok $30 per bulan punya model visi yang bagus, dan saya memakainya untuk pengujian otomatis frontend. Namun sekarang saya sedang beralih ke Qwen-3-VL lokal di Mac biasa. Kalau kurang akrab dengan teknologi, unreach memudahkan hosting model lokal di Mac
      Kalau punya GPU kuat seperti RTX 5090, Qwen-3.6 juga layak dicoba secara lokal. Dengan ollama atau llama-swap, ini relatif mudah
      Saya belum mencoba Kimi baru, tetapi saya menjalankan tim yang terdiri dari 3 pengembang profesional, 1 desainer grafis yang banyak memakai Midjourney dan Grok Imagine, serta 1 pengguna nonteknis yang memakai ohmypi untuk mengumpulkan kebutuhan dan melacak implementasi, sambil menjaga biaya tetap di bawah $200 per karyawan per bulan
      Dengan sedikit usaha lagi, mungkin bisa mendekati $75 per karyawan per bulan
    • Saya memakai proxy litellm yang dipatch ke Claude Code, openrouter, serta Qwen 3.7 max/Kimi K2.6/DeepSeek v4 pro
      Satu-satunya fitur yang tidak berfungsi adalah webfetch dan pencarian web, tetapi saya menggantinya dengan mem-bypass agen lewat ddg MCP serta pre-hook ambil/cari web
      Memori, caching, dan sisanya bekerja dengan baik
      Qwen dekat dengan Opus dalam penyusunan rencana, tetapi Fable jelas lebih unggul
      Untuk coding, kalau Opus yang menulis rencananya, hasil Kimi dan DeepSeek hampir tidak bisa dibedakan dari Opus
      Perbedaan terbesar ada pada ritme output. Misalnya, Kimi berpikir lama lalu mengeluarkan banyak teks dengan cepat
      Sekarang saya sedang menguji Fable untuk riset dan perencanaan, serta DeepSeek v4 flash untuk coding. Hasilnya mirip Opus + DeepSeek v4 pro dan total biayanya sepertinya akan lebih rendah
    • Saya hanya bisa bicara soal GLM 5.1, dan menurut saya itu mendekati level Sonnet 4

Bagus, dan menangani sebagian besar tugas yang dilemparkan kepadanya dengan baik, tetapi gagal pada tugas yang secara kognitif kompleks. Sering macet. Meski begitu, biayanya sekitar $6 per bulan

  • Ada titik ambang ketika model “terbaik” menjadi tidak terlalu penting, dan menurut saya kita tidak jauh dari sana. Fable memang sangat bagus sekarang, tetapi kalau sekitar setahun lagi Kimi bisa menyusul, meski Fable6 jauh lebih baik, kalau harganya 1/10 saya rasa saya akan memakai Kimi
    Dulu saat melihat Opus 4.5 saya berpikir, “Kalau sudah sebagus ini, dalam 6~12 bulan model-model Tiongkok akan jadi sebagus ini dan lebih murah, jadi saya akan memakai itu,” tetapi ternyata saya salah. Bahkan sekarang pun saya masih membayar premium untuk Opus 4.7/8 dan Fable
    Meski begitu, pada akhirnya akan sampai ke tingkat di mana model tinggal menyelesaikan pekerjaan yang diinginkan, dan sejak saat itu persaingan penurunan harga akan dimulai
    Sekarang perusahaan-perusahaan Tiongkok sudah bisa mengakses token Fable yang sangat bagus, jadi saya berharap persaingan itu akan makin cepat

    • Tergantung siapa Anda dan bagaimana Anda memakai model, ada juga yang sebenarnya sudah sampai di titik itu
    • Menurut saya medan persaingan berikutnya adalah kecepatan. Daripada bolak-balik antar beberapa agen yang masing-masing mengerjakan tugasnya sendiri sambil terus berganti konteks, akan bagus jika satu agen saja bisa mendorong prompt apa pun dalam hitungan detik dan menjaga alur satu pekerjaan tetap utuh
    • Bukan hanya harga per token yang penting. Jika Anda harus bertanya lagi ke AI, itu bisa lebih mahal daripada model yang langsung benar sejak awal
      Jadi meskipun harga token per unit lebih tinggi, model yang lebih baik bisa saja sebenarnya lebih murah
  • Jika Opus 5 kali lebih mahal daripada Kimi K2.6 atau model Tiongkok lain tetapi hanya sedikit lebih baik, saya penasaran bagaimana perusahaan seperti Anthropic bisa tetap kompetitif
    Hipotesis saya adalah perusahaan AS tidak bisa mengirim data ke pihak Tiongkok, dan itu bisa dipahami. Namun apakah itu benar-benar sebuah “parit pertahanan”?

    • Parit pertahanan saat ini adalah kinerja model dan tambahan jumlah token serta waktu yang dibutuhkan karenanya
      Saya mengatakan ini sebagai orang yang cukup sering memakai model Kimi dan secara umum menyukainya
      Pada benchmark seperti DeepSWE yang belum digame, Kimi K2.6 tertinggal cukup jauh dari Claude Sonnet 4.6($3/$15), dan juga sedikit tertinggal dari GPT 5.4 Mini($0.75/$4.50)
      Tidak diragukan bahwa model Kimi sangat bagus untuk banyak pekerjaan coding, dan kualitasnya adalah yang terbaik di antara model open weight
      Namun untuk mendapatkan hasil keseluruhan yang mirip dengan Sonnet/Opus, rata-rata Anda harus memakai jauh lebih banyak token dan lebih banyak mengelola model
      Yang harus dilihat bukan harga per token, tetapi berapa biaya seluruh prosesnya
    • Saya rasa ada persepsi bahwa ini bukan soal “hanya sedikit lebih baik”. Kesenjangan kualitas yang dirasakan itu memungkinkan diferensiasi harga
      Selain itu, untuk kasus dengan pengeluaran besar, ada cukup banyak pihak rasional yang menjalankan evaluasi, jadi kemungkinan “sedikit lebih baik” itu bukan semata-mata perasaan
      Meski begitu, rangkaian evaluasi yang bisa saya lihat langsung hanya sebagian. Bisa saja semua orang tidak rasional dan Anthropic memanfaatkannya
    • Kebanyakan orang yang pernah memakai keduanya kemungkinan akan mengatakan bahwa model Anthropic lebih dari sekadar sedikit lebih baik daripada Kimi
      Kimi dan model open source lain mungkin bisa mendapat skor bagus di hal-hal seperti SWE-bench, tetapi ketika dipakai langsung, jaraknya terasa
    • Harga token API hanyalah salah satu faktor, dan langganan Claude punya value for money yang bagus
      Anehnya, semua orang mengatakan langganan Claude disubsidi dengan merujuk pada harga API, tetapi tidak ada yang tahu biaya inferensi Claude yang sebenarnya, dan penyedia Tiongkok juga bisa menawarkan inferensi murah. Kalau begitu, saya penasaran mengapa orang mengira Claude tidak bisa melakukan hal yang sama
      Mungkin juga ada kontrak harga API lain yang tidak dipublikasikan untuk pelanggan enterprise. Bisa jadi yang kita lihat hanya harga daftar yang tinggi
    • Hanya pada area yang benar-benar sebanding saja ini mendekati “sedikit lebih baik”; di banyak area lain, model A\ jauh lebih bagus. Misalnya pekerjaan jenis yang tidak didistilasi oleh Kimi, dan sebagainya
      Pada pekerjaan seperti itu, perbedaannya seperti tebing
  • Setelah dites dengan benar, ini terlihat sebagai peningkatan yang cukup bagus. Hanya dengan memakai lebih sedikit token untuk pekerjaan yang sama saja, sudah cukup menjadi alasan untuk memakai ini alih-alih K2.6 saat membutuhkan model terbuka

  • Jika model baru yang harganya lebih mahal per token daripada DeepSeek tidak jelas-jelas 20~30% lebih unggul daripada DeepSeek v4, menurut saya model itu hampir otomatis akan tersingkir menjadi model yang jarang dipakai. Mungkin masih bisa dipakai untuk perencanaan

    • DeepSeek v4 Pro sebenarnya bukan model yang sebagus itu jika dibandingkan dengan GLM 5.1 atau Kimi K2.6. Kurang lebih hanya coder/reasoner yang lumayan untuk harganya
    • Saya penasaran apakah DeepSeek sedang menanggung biaya, atau memang orang bisa meng-host model terbuka dengan biaya yang mirip
  • Saya masih belum terlalu akrab dengan model open-weight/open-source. Jika ada yang memakainya secara penuh waktu, saya ingin mendengar soal konfigurasi dan performanya. Saya sedang mempertimbangkan memindahkan organisasi dari produk Anthropic

    • Dari pengalaman pribadi, untuk pekerjaan pribadi saya memakai forgecode dan openrouter. Pertama, saya menganggap forgecode sebagai harness yang jauh lebih baik daripada Claude Code
      Dari sisi kualitas model tidak ada perbedaan besar, tetapi selisih biayanya benar-benar tidak masuk akal. Setidaknya begitu dalam cara saya memakai agen
      Contoh kemarin, saya sedang mengembangkan DSL kecil untuk menelusuri dokumentasi teknis yang kompleks dan mencoba Fable untuk menambahkan operator kecil
      Fable menghabiskan $13 dan memang menghasilkan solusi, tetapi secara objektif tidak lebih baik daripada pekerjaan yang dilakukan DeepSeek v4 dengan $1.7 untuk tugas yang sama
      Namun saya memberi agen tugas-tugas yang terpecah. Dalam kasus DSL, operatornya saya rancang sendiri lalu saya minta agen mengimplementasikannya satu per satu
      Jika saya mulai dari dokumen yang kompleks lalu memintanya merancang semuanya, mungkin Fable bisa lebih menonjol
      Tetapi setiap kali saya memberi agen lingkup tugas yang lebih luas, ia membakar jutaan token dan menghasilkan kode yang meragukan, lalu pada akhirnya saya tetap harus meluangkan waktu untuk memahaminya
    • Saya membuat https://github.com/gitsense/gsc-cli dan menurut saya sekitar 80% kodenya dibuat oleh glm-4.7
      Misalnya jika melihat file seperti https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r..., saya mencantumkan model yang digunakan
      4.7 tidak terlalu bagus untuk kode go, jadi karena itu Gemini 3 Flash mulai muncul di attribution
      4.7 adalah model yang disediakan Cerebras, dan bagi saya kecepatan iterasi jauh lebih penting
      Setelah mencoba MiMo v2.5.0-Pro, saya yakin model itu bisa melakukan 100% dari yang dikerjakan Gemini 3 Flash
      Beberapa kali saat buntu saya memang harus meminta penjelasan ke Sonnet, tetapi rahasia kotor yang tidak akan diakui Anthropic dan OpenAI adalah bahwa jika Anda bisa ngoding, model-model ini sejujurnya sudah cukup bagus
      Dari pengalaman saya dengan MiMo dan penilaian orang lain terhadap GLM 5.1, menurut saya sekarang kita sudah masuk ke persaingan hardware
      Bagi orang yang bisa memprogram dan ingin memperbesar apa yang sudah ia ketahui dengan AI, model-model Tiongkok menjadi pengganti 100% untuk Claude
      Sekarang yang akan dilihat adalah penyedia mana yang menawarkan inferensi tercepat
      MiMo-v2.5.0-Pro-Ultraspeed menghasilkan hasil yang bagus dengan cepat, dan juga membakar uang dengan cepat
    • Model-model ini memang open-weight, tetapi saat ini sebagian besar model flagship pada praktiknya hanya bisa diakses lewat penyedia model pihak ketiga
      Pengecualian utamanya adalah model di kisaran 30B parameter, yang masih bisa dijalankan di GPU konsumen
      Hanya saja GPU konsumen juga makin mahal dalam beberapa tahun terakhir, jadi makin sulit untuk dibenarkan
    • Saya terus mencoba beralih ke model-model Tiongkok, tetapi pada akhirnya saya tetap meminta Claude untuk memperbaiki outputnya. Baik dari sisi fungsi maupun gaya, akhirnya saya selalu kembali
      Saya juga terus mencoba GPT, dan itu cukup solid. Sangat cepat dan sangat bagus untuk debugging. Tetapi kodenya sering terlalu pintar sampai bikin pusing
      Mungkin bisa diperbaiki lewat prompt. Itu sedikit membantu untuk model-model Tiongkok. Seperti era AI gambar dulu dengan “+good -bad”, cukup katakan agar melakukannya dengan elegan
      Saat ini manusia masih harus bisa memahami kodenya, dan satu-satunya yang secara konsisten memenuhi kebutuhan itu adalah Claude
      Meski begitu, saya berharap suatu hari salah satu lab Tiongkok menemukan resep rahasia yang spesial
      Untuk perbaikan kecil, DeepSeek Flash sangat bagus. Rasanya seperti punya AI yang praktis tak terbatas dan langsung menempel, jadi keren
    • Sejak dwarf star keluar, saya memakai DeepSeek v4 flash sebagai model utama untuk hampir semua tugas
      Saya menjalankannya di M4 Max MacBook Pro dengan memori 128GB
      Biasanya saya menjalankannya sebagai server, lalu dari mesin coding saya mengaksesnya lewat Tailscale dan memakai agen coding Pi
      Ini lompatan besar dibanding saat memakai model Qwen, tetapi tidak punya kemampuan vision, jadi ketika butuh vision saya masih menjalankan model yang itu
      Sebelumnya saya memakai GLM 4.7 flash sebagai andalan untuk coding, tetapi untuk semua tugas non-vision saya sekarang sepenuhnya pindah ke DeepSeek
  • Saya penasaran apakah ada yang pernah mencoba menghapus elemen PKT/CCP dari model open-weight buatan Tiongkok. Bukan sindiran; yang saya maksud adalah apakah ada yang benar-benar memeriksanya secara menyeluruh dengan teknik seperti inspeksi ketahanan bobot atau aktivasi konsep
    Misalnya, jika CCP memang berusaha menanamkan perilaku yang bergantung pada konteks, kita bisa melihat bagaimana model merespons input yang berpotensi memicu perilaku menipu atau berbahaya
    Saya tidak tahu apakah tuduhan seperti menghasilkan kode yang rentan saat dipakai dalam aplikasi pemerintah AS pernah benar-benar dibuktikan
    Di masa persaingan geopolitik yang ketat seperti sekarang, pertanyaan seperti ini tidaklah tidak masuk akal. Ini pertanyaan yang berlaku di negara mana pun Anda tinggal

    • Layak memeriksa TNG di Hugging Face
      Itu perusahaan konsultan Jerman, dan saya pernah melihat presentasi mereka tentang tuning model DeepSeek dan menghilangkan bias. Cukup menarik
      https://www.tngtech.com/en/about-us/news/release-of-deepseek...
      Yang perlu dikhawatirkan bukan cuma kode, tetapi juga hal lain seperti potensi messaging
    • Kedengarannya seperti jenis pekerjaan yang mungkin cocok untuk alat seperti heretic
      https://github.com/p-e-w/heretic
    • LLM buatan perusahaan juga bisa dicurigai punya bias korporat. Tidak ada yang benar-benar aman