- Model coding bertipe agen untuk menangani tugas coding jangka panjang dan alur kerja rekayasa perangkat lunak yang kompleks, ditingkatkan dari basis Kimi K2.6 dengan kemampuan penyelesaian tugas end-to-end dan efisiensi penggunaan token yang lebih baik
- Dibandingkan Kimi K2.6, penggunaan token penalaran berkurang sekitar 30%, sementara Kimi Code Bench v2 naik dari 50.9 ke 62.0 dan MCP Mark Verified naik dari 72.8 ke 81.1
- Arsitektur model berbasis MoE dengan total 1T parameter, 32B parameter aktif, panjang konteks 256K, dan encoder visi MoonViT
- Deployment ditujukan untuk API resmi serta vLLM, SGLang, dan KTransformers, dan karena memiliki arsitektur yang sama dengan Kimi-K2.5/Kimi-K2.6, metode deployment yang ada bisa digunakan kembali
- Saat digunakan, mode Thinking dan preserve_thinking dipaksakan, mendukung input gambar, dan input video saat ini hanya didukung secara eksperimental di API resmi
Ikhtisar model
- Kimi K2.7-Code adalah model agen berfokus coding berbasis Kimi K2.6, dengan peningkatan pada tugas coding jangka panjang yang realistis
- Kemampuan penyelesaian tugas end-to-end diperkuat di seluruh alur kerja rekayasa perangkat lunak yang kompleks
- Dibandingkan Kimi K2.6, penggunaan token penalaran berkurang sekitar 30%, sehingga efisiensi token meningkat
- Tersedia dengan tag seperti input gambar-teks, Transformers, Safetensors, conversational, dan custom_code
Ringkasan model
- Arsitekturnya adalah Mixture-of-Experts(MoE) dengan total 1T parameter dan 32B parameter aktif
- Jumlah layer adalah 61 termasuk Dense layer, dengan 1 Dense layer
- Attention Hidden Dimension adalah 7168, dan MoE Hidden Dimension adalah 2048 per expert
- Attention Head berjumlah 64, Expert berjumlah 384, Expert yang dipilih per token berjumlah 8, dan Shared Expert berjumlah 1
- Ukuran kosakata adalah 160K dan panjang konteks adalah 256K
- Mekanisme attention adalah MLA, dan fungsi aktivasi adalah SwiGLU
- Encoder visi adalah MoonViT, dengan 400M parameter encoder visi
Hasil evaluasi
-
Benchmark coding
- Pada Kimi Code Bench v2, Kimi K2.6 mencatat 50.9, Kimi K2.7 Code 62.0, GPT-5.5 69.0, dan Claude Opus 4.8 67.4
- Pada Program Bench, Kimi K2.6 mencatat 48.3, Kimi K2.7 Code 53.6, GPT-5.5 69.1, dan Claude Opus 4.8 63.8
- Pada MLS Bench Lite, Kimi K2.6 mencatat 26.7, Kimi K2.7 Code 35.1, GPT-5.5 35.5, dan Claude Opus 4.8 42.8
-
Benchmark agen
- Pada Kimi Claw 24/7 Bench, Kimi K2.6 mencatat 42.9, Kimi K2.7 Code 46.9, GPT-5.5 52.8, dan Claude Opus 4.8 50.4
- Pada MCP Atlas, Kimi K2.6 mencatat 69.4, Kimi K2.7 Code 76.0, GPT-5.5 79.4, dan Claude Opus 4.8 81.3
- Pada MCP Mark Verified, Kimi K2.6 mencatat 72.8, Kimi K2.7 Code 81.1, GPT-5.5 92.9, dan Claude Opus 4.8 76.4
-
Kondisi evaluasi
- Jika tidak dinyatakan terpisah, Kimi K2.7 Code dan K2.6 diuji di Kimi Code CLI dengan mode Thinking aktif, temperature 1.0, top-p 0.95, dan panjang konteks 262,144 token
- GPT-5.5 dijalankan dalam mode xhigh di Codex, dan Opus 4.8 dijalankan dalam mode xhigh di Claude Code
- Selain perbedaan tersebut, semua benchmark dievaluasi dalam kondisi yang sama
-
Komposisi benchmark
- Kimi Code Bench V2 adalah benchmark internal yang mengevaluasi agen coding pada tugas realistis, mencakup lebih dari 10 bahasa pemrograman utama dan seluruh stack teknologi produksi
- Kimi Code Bench V2 mencakup use case engineering internal, gangguan produksi, dan tugas dari proyek open-source nyata
- Program Bench mengharuskan reproduksi perilaku program hanya dari biner yang telah dikompilasi dan dokumentasi, menggunakan 200 tugas dan lebih dari 248.000 pengujian perilaku hasil fuzzing
- MLS-Bench mengevaluasi apakah sistem AI dapat membuat metode ML yang dapat digeneralisasi dan diskalakan, dan MLS-Bench-Lite adalah subset resmi berisi 30 tugas
- Kimi Claw 24/7 Bench adalah benchmark internal yang mengevaluasi performa agen jangka panjang dalam kolaborasi multi-hari yang berkelanjutan, mencakup 17 skenario profesional dan 610 titik evaluasi
- MCP-Atlas mengevaluasi performa LLM pada tugas penggunaan alat yang realistis melalui MCP yang dapat diskalakan
- MCPMark-Verified adalah versi tervalidasi manusia dari MCPMark, yang mengevaluasi penggunaan alat MCP di 5 lingkungan server nyata termasuk Notion, GitHub, Filesystem, Postgres, dan Playwright
Kuantisasi Native INT4
- Kimi-K2.7-Code mengadopsi metode kuantisasi native int4 yang sama seperti Kimi-K2-Thinking
Deployment
- API Kimi-K2.7-Code dapat diakses di https://platform.moonshot.ai
- API resmi menyediakan API kompatibel OpenAI/Anthropic
- Engine inferensi yang direkomendasikan adalah vLLM, SGLang, dan KTransformers
- Kimi-K2.7-Code memiliki arsitektur yang sama dengan Kimi-K2.5/Kimi-K2.6 sehingga metode deployment dapat langsung digunakan kembali
- Persyaratan versi
transformersadalah>=4.57.1, <5.0.0 - Contoh deployment dapat dilihat di Model Deployment Guide
Cara penggunaan
-
Kondisi dasar pemanggilan API
- Demo penggunaan didasarkan pada metode pemanggilan API resmi
- Kimi-K2.7-Code memaksakan Thinking dan
preserve_thinkingke True - Pada API pihak ketiga yang dideploy dengan vLLM atau SGLang, chat dengan konten video adalah fitur eksperimental yang saat ini hanya didukung di API resmi
temperatureyang direkomendasikan untuk mode Thinking adalah1.0dantop_pyang direkomendasikan adalah0.95- Mode Instant tidak didukung
-
Chat Completion
- Contoh Chat Completion memanggil API K2.7-Code dalam mode Thinking
- Kode contoh memanggil
client.chat.completions.createdengan klienopenaidan menetapkanmax_tokens=4096 - Pada respons,
response.choices[0].message.reasoningdanresponse.choices[0].message.contentditampilkan
-
Input konten visual
- K2.7-Code mendukung input gambar dan video
- Contoh input gambar mengenkode gambar ke base64 lalu mengirimkannya ke
image_url, dan menghasilkan respons denganmax_tokens=8192 - Contoh input video mengenkode file mp4 ke base64 lalu mengirimkannya ke
video_url - Chat video saat ini adalah fitur eksperimental yang hanya didukung di API resmi
-
Preserve Thinking
- Kimi K2.7 Code memaksakan mode
preserve_thinking, mempertahankan seluruh konten reasoning dalam interaksi multi-turn preserve_thinkingmeningkatkan performa pada skenario agen coding- Fitur ini aktif secara default dan tidak dapat dinonaktifkan
- Beberapa API mungkin tidak mendukung
reasoning_content, sehingga dapat mencobareasoning
- Kimi K2.7 Code memaksakan mode
-
Interleaved Thinking dan pemanggilan alat multi-langkah
- K2.7-Code berbagi desain Interleaved Thinking dan Multi-Step Tool Call yang sama seperti K2 Thinking
- Contoh penggunaan mengacu ke dokumentasi K2 Thinking
-
Framework agen coding
- Kimi K2.7-Code bekerja paling baik saat digunakan bersama Kimi Code CLI sebagai framework agen
- Kimi Code CLI tersedia di https://www.kimi.com/code
Contoh menjalankan secara lokal
-
Transformers
- Di Transformers, pipeline tingkat tinggi dapat dibuat dengan
pipeline("image-text-to-text", model="moonshotai/Kimi-K2.7-Code", trust_remote_code=True) - Model juga dapat dimuat langsung dengan
AutoModel.from_pretrained("moonshotai/Kimi-K2.7-Code", trust_remote_code=True, dtype="auto")
- Di Transformers, pipeline tingkat tinggi dapat dibuat dengan
-
vLLM
- vLLM diinstal dengan
pip install vllmdan server dijalankan denganvllm serve "moonshotai/Kimi-K2.7-Code" - Contoh pemanggilan menggunakan endpoint API kompatibel OpenAI
http://localhost:8000/v1/chat/completions - Di Docker Model Runner, dijalankan dengan
docker model run hf.co/moonshotai/Kimi-K2.7-Code
- vLLM diinstal dengan
-
SGLang
- SGLang diinstal dengan
pip install sglangdan server dijalankan denganpython3 -m sglang.launch_server --model-path "moonshotai/Kimi-K2.7-Code" - Contoh pemanggilan menggunakan endpoint API kompatibel OpenAI
http://localhost:30000/v1/chat/completions - Contoh menjalankan di Docker menetapkan GPU, shared memory, cache Hugging Face, dan variabel lingkungan
HF_TOKEN
- SGLang diinstal dengan
Lisensi
- Repositori kode dan bobot model didistribusikan di bawah Modified MIT License
1 komentar
Komentar Hacker News
Membaca klausul lisensi yang direvisi terasa lucu. Pada dasarnya ini lisensi MIT dengan satu klausul iklan lama dari BSD ditambahkan, dan kurang lebih merupakan permintaan agar mereka “diiklankan” jika dipakai di produk, terlepas dari jumlah pengguna aktif bulanan atau pendapatan
Sejujurnya itu terlihat seperti permintaan yang masuk akal
Saya memberi Kimi K2.7-code instruksi yang cukup sederhana untuk me-rebase patch Fil-C OpenSSL dari 3.3.1 ke 3.5.7, dan hasilnya tampak berhasil
Ukuran patch-nya 177KB jadi ini bukan perubahan kecil, dan awalnya tidak bisa diterapkan dengan rapi sehingga agen harus melakukan pekerjaan yang cukup substansial
Saya hanya memberi patch untuk target 3.3.1, perintah build, path 3.5.7, dan tautan ke dokumen perubahan (https://fil-c.org/constant_time_crypto)
Namun saya memakai agen coding internal T800, yang tidak dipublikasikan, dan sebelumnya sudah cukup diuji serta di-tuning untuk K2.5
Biaya penggunaan API sepertinya sekitar $5~$10. Koreksi: ini OpenSSL, bukan OpenSSH
Secara pribadi, saat memakai open code atau router, begitu melewati tingkat tertentu, perbedaan antarmodel tidak terasa terlalu besar. Pengecualiannya adalah model mahal dan serba tanggung seperti Gemini
Dalam arti itu, model-model dari Tiongkok cukup bagus. Biasanya saya memakainya dengan membuat kode di tingkat fungsi atau metode, lalu merancang dan merakitnya
Keluarga GPT memang lebih teliti dan lebih baik, tetapi saya tidak yakin selisihnya sedramatis itu. Mungkin tergantung alur kerja, tetapi kalau diperlakukan cukup ketat, saya ragu apakah benar ada perbedaan besar
Menjadikan MacBook M1 Pro sebagai bantalan pemanas sambil menjalankan Qwen 3.6 35B A3B MTP lumayan berhasil
Saat mencoba memakai model Gemini seperti “lokal”, saya menemui masalah serupa: upaya dipotong terlalu pendek sehingga banyak salah dan jumlah turn bertambah
Sebaliknya, melihat Fable terus-menerus dibicarakan sebagai “proaktif”, tampaknya arah yang sepenuhnya berlawanan juga mungkin jika ada branding yang kuat dan monetisasi yang efektif
Jika desain yang konsisten sudah ada, yang justru bagian sulitnya, memasukkannya ke model yang cukup kecil pun menghasilkan kualitas yang hampir sama
Memang tidak selesai dalam sekali jalan, tetapi karena lebih cepat dan murah, pada akhirnya justru lebih menguntungkan. Lagi pula ini juga bisa dilakukan secara lokal
Karena itu, Anda harus secara eksplisit membuat tes yang dikomentari merusak build. Secara pribadi saya tidak mengalami masalah seperti itu pada model Anthropic atau OpenAI
Ini mirip seperti dulu orang menyebut mobil sebagai “mobil Jepang”, padahal sekarang itu hampir tidak bermakna lagi dan orang tinggal menyebut Toyota, Honda, atau Lexus
sangat penasaran kalau ada yang pernah membandingkan opencode + Kimi K2.6/2.7 dengan Claude Code. Ingin tahu apa yang lebih bagus dan kurang bagus, serta bagaimana perbandingan biayanya
sekarang saya membayar $100 untuk paket 5x Max, tetapi Fable menghabiskan batas pemakaian cukup cepat, dan juga sulit dibilang bedanya siang dan malam dibanding Opus
karena saya terutama memakainya untuk proyek sampingan, tagihan $100 juga terasa cukup besar, dan saya tidak ingin bayar lebih banyak
Claude Code memang lebih bagus. Tetapi poin pentingnya, opencode + Kimi 2.6 juga cukup layak dipakai
Kalau Anda tahu persis apa yang diinginkan dan hanya menyuruh menulis kode sederhana, model populer seperti DeepSeek dan Kimi pada umumnya sudah bagus, dan rasanya tidak terlalu berbeda jauh dari model Anthropic
Sebaliknya, Opus jauh lebih baik dalam memahami maksud dibanding DeepSeek. Saat memakai DeepSeek, prompt harus ditulis jauh lebih presisi, dan kalau ditulis asal, sering melenceng ke arah aneh
Kimi ada di tengah-tengah. Ia cukup menghidupkan kembali alur dengan “prompt longgar”, dan rencananya lebih bisa dipercaya dibanding DeepSeek
Alur kerja yang mirip Claude Code memang memungkinkan, tetapi secara keseluruhan sedikit lebih buruk di banyak hal. Panjang konteks, jumlah error, pengambilan keputusan, rekomendasi, dan kemampuan debugging semuanya sedikit tertinggal
Dari sisi penggunaan, paket Claude $100 sebenarnya punya value for money yang bagus. Harga token Kimi memang jauh lebih murah, tetapi langganan Claude tampaknya sangat disubsidi, jadi dengan $100 Anda mendapat token jauh lebih banyak daripada yang bisa dibeli lewat API
Pada akhirnya, dengan pola penggunaan yang mirip, biaya opencode + Kimi dan Claude Code bisa jadi serupa
DeepSeek lebih murah lagi dan token cache-nya luar biasa murah, tetapi kalau pindah dari Claude Code, mungkin perlu menyesuaikan cara kerja sesuai kebiasaan
Untuk proyek sampingan, menurut saya konfigurasi paket $10 Opencode Go ditambah kredit $10 DeepSeek v4 di tempat seperti OpenRouter cukup praktis
Kimi terasa seperti pengembang yang sedang wawancara, jadi lebih seru. Melihat proses ia menalar masalah mirip dengan cara saya menjelaskan saat sesi whiteboard. Lucunya, dia terlalu sering bilang “wait”
Claude lebih mirip karyawan yang sudah direkrut, atau tim karyawan. Dari awal tidak banyak memberi penjelasan panjang, hanya bertanya saat perlu, lalu mengeluarkan laporan atau rencana yang menyeluruh
Saya menganggap OpenCode sebagai harness yang lebih baik. Untuk biaya, saya belum pernah menjalankan prompt yang sama persis di kedua sisi, jadi tidak bisa membandingkan langsung
Baru-baru ini saya menyuruh Kimi membuat pembungkus libpq untuk bahasa pemrograman ZenC(https://github.com/nobleach/zenc-postgres), butuh sekitar satu jam, dan biayanya sekitar $4
DeepSeek-V4-Pro sudah cukup bagus, dan untuk tugas atau aktivitas kecil yang biasanya Anda serahkan ke Haiku atau Sonnet, cukup pakai DS4-Flash. Tinggal daftar dengan prabayar $10
OpenCode Go bisa didaftarkan seharga $5 per bulan, lalu pakai Qwen-3.7-Max untuk desain, perencanaan, arsitektur, dan penyelesaian masalah sulit. Rasanya lebih dekat ke Opus 3.6 atau 3.7 daripada DeepSeek, dan ini yang paling mirip dari yang pernah saya temukan
OpenAI Codex dengan paket $20 per bulan memungkinkan memakai GPT-5.5 lewat API untuk desain, perencanaan, arsitektur, pemecahan masalah, dan penulisan commit. Untuk masalah yang benar-benar sulit, Anda juga bisa bayar $100 lalu menyalinnya ke chat GPT-5.5-Pro
Xiaomi MiMo-2.5-Pro bisa memberi kredit gratis 72 sen jika mendapat kode referal $2 dari teman. Harganya sama dengan DeepSeek, dan kemampuannya ada di antara Sonnet dan Opus. Lumayan mumpuni. Beta UltraSpeed juga layak dicoba
Di OpenCode atau ohmypi, Anda tinggal mengganti-ganti model ini secara langsung untuk menemukan yang paling cocok. Saya memakai CodexBar untuk melihat penggunaan hampir secara real time
Untuk pengguna ringan atau pemula dalam pemrograman, paket Cursor $20 cocok untuk mulai dengan Composer-2.5 dan Composer-2.5-Fast. Ada juga alokasi API, jadi selain di Cursor sendiri, Anda bisa mengakses Opus-4.x atau GPT-5.5-Pro dari OpenCode atau ohmypi
Jika memakai Grok atau Twitter, SuperGrok $30 per bulan punya model visi yang bagus, dan saya memakainya untuk pengujian otomatis frontend. Namun sekarang saya sedang beralih ke Qwen-3-VL lokal di Mac biasa. Kalau kurang akrab dengan teknologi, unreach memudahkan hosting model lokal di Mac
Kalau punya GPU kuat seperti RTX 5090, Qwen-3.6 juga layak dicoba secara lokal. Dengan ollama atau llama-swap, ini relatif mudah
Saya belum mencoba Kimi baru, tetapi saya menjalankan tim yang terdiri dari 3 pengembang profesional, 1 desainer grafis yang banyak memakai Midjourney dan Grok Imagine, serta 1 pengguna nonteknis yang memakai ohmypi untuk mengumpulkan kebutuhan dan melacak implementasi, sambil menjaga biaya tetap di bawah $200 per karyawan per bulan
Dengan sedikit usaha lagi, mungkin bisa mendekati $75 per karyawan per bulan
Satu-satunya fitur yang tidak berfungsi adalah webfetch dan pencarian web, tetapi saya menggantinya dengan mem-bypass agen lewat ddg MCP serta pre-hook ambil/cari web
Memori, caching, dan sisanya bekerja dengan baik
Qwen dekat dengan Opus dalam penyusunan rencana, tetapi Fable jelas lebih unggul
Untuk coding, kalau Opus yang menulis rencananya, hasil Kimi dan DeepSeek hampir tidak bisa dibedakan dari Opus
Perbedaan terbesar ada pada ritme output. Misalnya, Kimi berpikir lama lalu mengeluarkan banyak teks dengan cepat
Sekarang saya sedang menguji Fable untuk riset dan perencanaan, serta DeepSeek v4 flash untuk coding. Hasilnya mirip Opus + DeepSeek v4 pro dan total biayanya sepertinya akan lebih rendah
Bagus, dan menangani sebagian besar tugas yang dilemparkan kepadanya dengan baik, tetapi gagal pada tugas yang secara kognitif kompleks. Sering macet. Meski begitu, biayanya sekitar $6 per bulan
Ada titik ambang ketika model “terbaik” menjadi tidak terlalu penting, dan menurut saya kita tidak jauh dari sana. Fable memang sangat bagus sekarang, tetapi kalau sekitar setahun lagi Kimi bisa menyusul, meski Fable6 jauh lebih baik, kalau harganya 1/10 saya rasa saya akan memakai Kimi
Dulu saat melihat Opus 4.5 saya berpikir, “Kalau sudah sebagus ini, dalam 6~12 bulan model-model Tiongkok akan jadi sebagus ini dan lebih murah, jadi saya akan memakai itu,” tetapi ternyata saya salah. Bahkan sekarang pun saya masih membayar premium untuk Opus 4.7/8 dan Fable
Meski begitu, pada akhirnya akan sampai ke tingkat di mana model tinggal menyelesaikan pekerjaan yang diinginkan, dan sejak saat itu persaingan penurunan harga akan dimulai
Sekarang perusahaan-perusahaan Tiongkok sudah bisa mengakses token Fable yang sangat bagus, jadi saya berharap persaingan itu akan makin cepat
Jadi meskipun harga token per unit lebih tinggi, model yang lebih baik bisa saja sebenarnya lebih murah
Jika Opus 5 kali lebih mahal daripada Kimi K2.6 atau model Tiongkok lain tetapi hanya sedikit lebih baik, saya penasaran bagaimana perusahaan seperti Anthropic bisa tetap kompetitif
Hipotesis saya adalah perusahaan AS tidak bisa mengirim data ke pihak Tiongkok, dan itu bisa dipahami. Namun apakah itu benar-benar sebuah “parit pertahanan”?
Saya mengatakan ini sebagai orang yang cukup sering memakai model Kimi dan secara umum menyukainya
Pada benchmark seperti DeepSWE yang belum digame, Kimi K2.6 tertinggal cukup jauh dari Claude Sonnet 4.6($3/$15), dan juga sedikit tertinggal dari GPT 5.4 Mini($0.75/$4.50)
Tidak diragukan bahwa model Kimi sangat bagus untuk banyak pekerjaan coding, dan kualitasnya adalah yang terbaik di antara model open weight
Namun untuk mendapatkan hasil keseluruhan yang mirip dengan Sonnet/Opus, rata-rata Anda harus memakai jauh lebih banyak token dan lebih banyak mengelola model
Yang harus dilihat bukan harga per token, tetapi berapa biaya seluruh prosesnya
Selain itu, untuk kasus dengan pengeluaran besar, ada cukup banyak pihak rasional yang menjalankan evaluasi, jadi kemungkinan “sedikit lebih baik” itu bukan semata-mata perasaan
Meski begitu, rangkaian evaluasi yang bisa saya lihat langsung hanya sebagian. Bisa saja semua orang tidak rasional dan Anthropic memanfaatkannya
Kimi dan model open source lain mungkin bisa mendapat skor bagus di hal-hal seperti SWE-bench, tetapi ketika dipakai langsung, jaraknya terasa
Anehnya, semua orang mengatakan langganan Claude disubsidi dengan merujuk pada harga API, tetapi tidak ada yang tahu biaya inferensi Claude yang sebenarnya, dan penyedia Tiongkok juga bisa menawarkan inferensi murah. Kalau begitu, saya penasaran mengapa orang mengira Claude tidak bisa melakukan hal yang sama
Mungkin juga ada kontrak harga API lain yang tidak dipublikasikan untuk pelanggan enterprise. Bisa jadi yang kita lihat hanya harga daftar yang tinggi
Pada pekerjaan seperti itu, perbedaannya seperti tebing
Setelah dites dengan benar, ini terlihat sebagai peningkatan yang cukup bagus. Hanya dengan memakai lebih sedikit token untuk pekerjaan yang sama saja, sudah cukup menjadi alasan untuk memakai ini alih-alih K2.6 saat membutuhkan model terbuka
Jika model baru yang harganya lebih mahal per token daripada DeepSeek tidak jelas-jelas 20~30% lebih unggul daripada DeepSeek v4, menurut saya model itu hampir otomatis akan tersingkir menjadi model yang jarang dipakai. Mungkin masih bisa dipakai untuk perencanaan
Saya masih belum terlalu akrab dengan model open-weight/open-source. Jika ada yang memakainya secara penuh waktu, saya ingin mendengar soal konfigurasi dan performanya. Saya sedang mempertimbangkan memindahkan organisasi dari produk Anthropic
Dari sisi kualitas model tidak ada perbedaan besar, tetapi selisih biayanya benar-benar tidak masuk akal. Setidaknya begitu dalam cara saya memakai agen
Contoh kemarin, saya sedang mengembangkan DSL kecil untuk menelusuri dokumentasi teknis yang kompleks dan mencoba Fable untuk menambahkan operator kecil
Fable menghabiskan $13 dan memang menghasilkan solusi, tetapi secara objektif tidak lebih baik daripada pekerjaan yang dilakukan DeepSeek v4 dengan $1.7 untuk tugas yang sama
Namun saya memberi agen tugas-tugas yang terpecah. Dalam kasus DSL, operatornya saya rancang sendiri lalu saya minta agen mengimplementasikannya satu per satu
Jika saya mulai dari dokumen yang kompleks lalu memintanya merancang semuanya, mungkin Fable bisa lebih menonjol
Tetapi setiap kali saya memberi agen lingkup tugas yang lebih luas, ia membakar jutaan token dan menghasilkan kode yang meragukan, lalu pada akhirnya saya tetap harus meluangkan waktu untuk memahaminya
Misalnya jika melihat file seperti https://github.com/gitsense/gsc-cli/blob/main/internal/cli/r..., saya mencantumkan model yang digunakan
4.7 tidak terlalu bagus untuk kode
go, jadi karena ituGemini 3 Flashmulai muncul di attribution4.7 adalah model yang disediakan Cerebras, dan bagi saya kecepatan iterasi jauh lebih penting
Setelah mencoba MiMo v2.5.0-Pro, saya yakin model itu bisa melakukan 100% dari yang dikerjakan Gemini 3 Flash
Beberapa kali saat buntu saya memang harus meminta penjelasan ke Sonnet, tetapi rahasia kotor yang tidak akan diakui Anthropic dan OpenAI adalah bahwa jika Anda bisa ngoding, model-model ini sejujurnya sudah cukup bagus
Dari pengalaman saya dengan MiMo dan penilaian orang lain terhadap GLM 5.1, menurut saya sekarang kita sudah masuk ke persaingan hardware
Bagi orang yang bisa memprogram dan ingin memperbesar apa yang sudah ia ketahui dengan AI, model-model Tiongkok menjadi pengganti 100% untuk Claude
Sekarang yang akan dilihat adalah penyedia mana yang menawarkan inferensi tercepat
MiMo-v2.5.0-Pro-Ultraspeed menghasilkan hasil yang bagus dengan cepat, dan juga membakar uang dengan cepat
Pengecualian utamanya adalah model di kisaran 30B parameter, yang masih bisa dijalankan di GPU konsumen
Hanya saja GPU konsumen juga makin mahal dalam beberapa tahun terakhir, jadi makin sulit untuk dibenarkan
Saya juga terus mencoba GPT, dan itu cukup solid. Sangat cepat dan sangat bagus untuk debugging. Tetapi kodenya sering terlalu pintar sampai bikin pusing
Mungkin bisa diperbaiki lewat prompt. Itu sedikit membantu untuk model-model Tiongkok. Seperti era AI gambar dulu dengan “+good -bad”, cukup katakan agar melakukannya dengan elegan
Saat ini manusia masih harus bisa memahami kodenya, dan satu-satunya yang secara konsisten memenuhi kebutuhan itu adalah Claude
Meski begitu, saya berharap suatu hari salah satu lab Tiongkok menemukan resep rahasia yang spesial
Untuk perbaikan kecil, DeepSeek Flash sangat bagus. Rasanya seperti punya AI yang praktis tak terbatas dan langsung menempel, jadi keren
Saya menjalankannya di M4 Max MacBook Pro dengan memori 128GB
Biasanya saya menjalankannya sebagai server, lalu dari mesin coding saya mengaksesnya lewat Tailscale dan memakai agen coding Pi
Ini lompatan besar dibanding saat memakai model Qwen, tetapi tidak punya kemampuan vision, jadi ketika butuh vision saya masih menjalankan model yang itu
Sebelumnya saya memakai GLM 4.7 flash sebagai andalan untuk coding, tetapi untuk semua tugas non-vision saya sekarang sepenuhnya pindah ke DeepSeek
Saya penasaran apakah ada yang pernah mencoba menghapus elemen PKT/CCP dari model open-weight buatan Tiongkok. Bukan sindiran; yang saya maksud adalah apakah ada yang benar-benar memeriksanya secara menyeluruh dengan teknik seperti inspeksi ketahanan bobot atau aktivasi konsep
Misalnya, jika CCP memang berusaha menanamkan perilaku yang bergantung pada konteks, kita bisa melihat bagaimana model merespons input yang berpotensi memicu perilaku menipu atau berbahaya
Saya tidak tahu apakah tuduhan seperti menghasilkan kode yang rentan saat dipakai dalam aplikasi pemerintah AS pernah benar-benar dibuktikan
Di masa persaingan geopolitik yang ketat seperti sekarang, pertanyaan seperti ini tidaklah tidak masuk akal. Ini pertanyaan yang berlaku di negara mana pun Anda tinggal
Itu perusahaan konsultan Jerman, dan saya pernah melihat presentasi mereka tentang tuning model DeepSeek dan menghilangkan bias. Cukup menarik
https://www.tngtech.com/en/about-us/news/release-of-deepseek...
Yang perlu dikhawatirkan bukan cuma kode, tetapi juga hal lain seperti potensi messaging
https://github.com/p-e-w/heretic