MAI-Code-1-Flash
(microsoft.ai)- MAI-Code-1-Flash adalah model coding baru dari Microsoft yang ditujukan untuk dukungan coding yang cepat dan efisien dalam workflow developer sehari-hari, dan sedang digulirkan ke pengguna individu GitHub Copilot di VS Code
- Microsoft melatih model ini secara langsung pada GitHub Copilot harness agar dirancang untuk berinteraksi lebih baik dengan alat dan sistem di lingkungan pengembangan nyata
- Dengan kontrol panjang respons adaptif, model ini menjawab singkat untuk permintaan sederhana dan menggunakan lebih banyak anggaran penalaran untuk tugas yang kompleks, serta menyelesaikan masalah yang lebih sulit dengan token hingga 60% lebih sedikit {p:60}
- Dalam evaluasi production harness Microsoft, model ini menunjukkan tingkat kelulusan yang lebih tinggi daripada Claude Haiku 4.5 di keempat benchmark coding utama, dan unggul 16 poin di SWE-Bench Pro dengan 51.2% vs 35.2%
- Dalam benchmark penalaran adversarial terpisah, model ini mencatat akurasi tersesuaikan 85.8% pada 186 soal dan 34 kategori, tetapi kategori adversarial utama seperti Einstellung trap masih berada di bawah 50% akurasi sehingga masih ada ruang perbaikan
Peluncuran dan distribusi
- MAI-Code-1-Flash adalah model coding baru Microsoft yang dibuat untuk dukungan developer sehari-hari yang cepat dan efisien
- Model ini dibangun Microsoft secara end-to-end dan menggunakan data yang bersih serta berlisensi dengan semestinya
- Model ini sedang didistribusikan ke pengguna individu GitHub Copilot di VS Code, dan dapat digunakan melalui pemilih model maupun di bawah Auto picker bawaan
- Tidak diperlukan pengaturan tambahan; saat distribusi mencapai pengguna, GitHub Copilot akan merutekan tugas ke MAI-Code-1-Flash melalui Auto picker atau menampilkannya langsung di pemilih model
- Umpan balik akan diterima melalui GitHub Community
Desain yang berpusat pada workflow developer
- MAI-Code-1-Flash dibuat bukan hanya untuk optimalisasi benchmark, tetapi dengan menempatkan workflow produksi yang digunakan developer setiap hari sebagai pusatnya
- Model ini dilatih langsung dengan harness GitHub Copilot yang digunakan di lingkungan produksi agar dapat mempelajari cara menangani alat dan sistem di sekitarnya dalam tugas coding bergaya agen
- Selama pelatihan, checkpoint dievaluasi menggunakan tugas rekayasa perangkat lunak inti, tanya jawab repositori, refactoring, dan tugas berbasis telemetri yang diadaptasi dari penggunaan GitHub Copilot di dunia nyata
- Tujuan desainnya adalah menyelaraskan lingkungan pelatihan, evaluasi, dan produksi agar peningkatan offline dapat benar-benar berujung pada kualitas bagi developer
Efisiensi token dan cara merespons
- Model ini mempelajari kontrol panjang solusi adaptif untuk menyesuaikan kedalaman respons berdasarkan tingkat kesulitan tugas
- Untuk permintaan sederhana, model menjawab secara ringkas, dan untuk masalah yang memerlukan analisis lebih dalam atau perubahan kode yang lebih luas, model menggunakan anggaran penalaran yang lebih besar
- Developer bisa mulai melihat output yang berguna lebih cepat
- MAI-Code-1-Flash menyelesaikan masalah yang lebih sulit dengan token hingga 60% lebih sedikit, dengan tujuan mengurangi latensi, menekan biaya, meningkatkan hasil per token, dan menghadirkan workflow percakapan yang lebih mulus
Hasil benchmark coding
- Microsoft mengevaluasi MAI-Code-1-Flash dan Claude Haiku 4.5 dengan production harness yang sama pada SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual, dan Terminal Bench 2
- Evaluasi mengukur tingkat keberhasilan tugas dan jumlah rata-rata token solusi yang dibutuhkan untuk menyelesaikan tiap tugas
- MAI-Code-1-Flash mencatat tingkat kelulusan lebih tinggi daripada Claude Haiku 4.5 di keempat benchmark coding utama yang diuji
- Pada beragam tugas dunia nyata di SWE-Bench Pro, model ini unggul 16 poin dengan 51.2% vs 35.2%
- Di SWE-Bench Verified, model ini menyelesaikan masalah yang lebih sulit dengan token hingga 60% lebih sedikit, menunjukkan bahwa akurasi dan efisiensi bisa meningkat secara bersamaan
Mengikuti instruksi, penalaran, dan batasan
- MAI-Code-1-Flash unggul atas Claude Haiku 4.5 di semua benchmark yang tercantum dalam tabel, dengan selisih terbesar pada kepatuhan instruksi presisi di IF Bench sebesar +28.9
- Dalam evaluasi berbasis rubrik Advanced IF, selisihnya paling sempit yaitu +14.5
- Kinerja kepatuhan instruksi yang kuat juga berlanjut pada penggunaan alat bergaya agen
- Model ini juga mengungguli Claude Haiku 4.5 dalam kemampuan penalaran inti untuk matematika, sains, dan coding generasi visual
- Benchmark standar bisa memberi penghargaan pada hafalan sama besarnya dengan penalaran; model yang pernah melihat masalah Monty Hall dapat menjawab benar, tetapi bisa gagal jika hadiahnya dibalik
- Microsoft membuat benchmark berisi 186 soal dan 34 kategori yang berfokus pada jebakan adversarial seperti inverted classics, impossible tasks, dan underdetermined scenarios
- MAI-Code-1-Flash secara keseluruhan melampaui Claude Haiku 4.5 pada benchmark adversarial ini dan mencapai akurasi tersesuaikan 85.8%
- Model ini menunjukkan kinerja yang sangat kuat dalam penalaran, mengikuti instruksi, dan mengenali masalah yang mustahil, tetapi kategori adversarial utama seperti Einstellung trap masih berada di bawah 50% akurasi sehingga masih ada ruang untuk perbaikan
1 komentar
Komentar Hacker News
Menurut model card, ini adalah model dengan total 137B parameter
Performanya tidak terlihat terlalu bagus: MAI-Code-1-Flash (137B-A5B) mencatat 51% di SWE-bench pro, sedangkan Qwen3.6-35B-A3B mencatat 49.5% di SWE-bench pro (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
Mereka membandingkannya dengan Claude Haiku, tetapi Haiku bukan model yang bagus, dan bahkan kalah dari model terbuka kecil yang bisa dijalankan secara lokal atau lewat API dengan biaya sekitar 10%
Saya penasaran kenapa Microsoft begitu lama menunda penyediaan model buatan mereka sendiri di Copilot, dan saya jadi berpikir itu mungkin bagian dari kontrak mereka dengan OpenAI
Sebagai permulaan ini bagus dan persaingan tentu disambut, tetapi saya hampir tidak pernah memakai model cloud kecil seperti Haiku 4.5 untuk coding
Memang lucu, tetapi untuk coding serius sering kali malah membuang waktu saya yang mahal, dan tidak cukup untuk membuat saya kembali ke GitHub Copilot yang saya hentikan kemarin
Sampai kemarin GitHub Copilot masih kompetitif dari sisi harga, tetapi sekarang berubah ke skema kuota per token yang termasuk paling mahal dalam model penagihan per permintaan. Kalau ingin tertawa, lihat subreddit yang sedang terbakar ini: https://www.reddit.com/r/GithubCopilot
Setelah itu saya beralih ke DeepSeek Flash high yang hampir gratis dan setara Sonnet+, dan kalau butuh model yang lebih pintar saya mungkin akan berlangganan Codex $20/bulan untuk memakai GPT 5.5 yang menurut saya adalah yang terbaik yang tersedia saat ini
Dalam pendekatan ini, saya cukup sering memakai Haiku untuk tugas sehari-hari, dan bahkan pekerjaan berkompleksitas tinggi yang memakan waktu berjam-jam bisa ditangani dengan hasil lebih baik dan biaya jauh lebih rendah. Orkestrator induk menyusun tugas secara efektif, meninjau kualitas, dan mengintegrasikan bagian yang perlu, sehingga bisa menjalankan kerja besar dalam satu jendela konteks
Saya tidak memakai Haiku secara langsung, tetapi sering kali ia menyumbang 30~40% dari penggunaan token dalam pekerjaan besar. Waktu penyelesaian dan biaya sama-sama membaik, dan Haiku lebih baik dalam mengikuti instruksi serta rencana secara harfiah tanpa “menafsirkan ulang”, sementara model kelas Opus cenderung terus meragukan dan bertanya balik selama proses berpikirnya
Jadi Haiku bukan pemborosan waktu, justru menghemat waktu dalam jumlah besar. Namun untuk sampai ke tahap ini saya lebih dulu menghabiskan banyak waktu membangun sistem orkestrasi dan terus mengulanginya sampai membaik. Menariknya, pengalaman bekerja sebagai director lalu distinguished engineer memberi saya alat untuk menjalankan ini secara stabil sampai tuntas, dan alur multi-agen dengan kemampuan beragam ternyata tidak jauh berbeda dari dinamika organisasi engineering beranggotakan 1.000 orang
Qwen 3.6 27B yang saya host sendiri secara konsisten mengungguli keduanya dalam deteksi bug keamanan, dan itu hasil yang cukup mengejutkan. Saya kira Qwen akan setara Haiku atau sedikit di bawahnya, dan jelas saya perkirakan akan kalah dari Sonnet
DeepSeek dan MiMo jauh lebih baik daripada Haiku dan Sonnet, biayanya hanya sebagian kecil, tetapi performanya mendekati tingkat Opus/GPT 5.5
Kecuali Anda mendapatkannya gratis atau sudah termasuk dalam langganan yang biasanya bahkan tidak habis dipakai, tampaknya hampir tidak ada alasan untuk memakai Haiku atau Sonnet
Bahkan jika harga Copilot diturunkan 90%, saya rasa saya tetap tidak akan kembali
Ada banyak model yang kompetitif seperti Haiku, dan ada juga yang jauh lebih kecil dan murah seperti Qwen 3.6 35B-A3B. Model seperti ini bisa dijalankan di laptop, jadi tidak perlu menyewa dari Microsoft
Saya kaget dengan tagihan Copilot yang baru, tetapi bagi orang yang ingin tetap berada di ekosistemnya ini mungkin masih opsi yang bisa dipakai, meski bagi kebanyakan orang ada jauh lebih banyak pilihan yang lebih baik
Hanya dengan ChatGPT premium pun sudah cukup oke, dan meskipun sesekali akan kena batas penggunaan, kebanyakan pekerjaan tetap bisa diselesaikan
Apakah benar ada orang yang memakai model kecil seperti ini untuk coding? Kalau ada, penasaran dipakainya bagaimana
Biasanya saya memproses semuanya dengan Opus. Apakah caranya dengan memakai model yang lebih berat untuk perencanaan/desain/arsitektur lalu mendelegasikan pekerjaan yang terstruktur ke model kecil seperti ini, ingin dengar pendapat dari orang yang sudah mencoba keduanya dan mengujinya
Sayangnya, untuk saat ini belum bisa dibandingkan
Dengan Opus, di codebase yang kompleks pun saya bisa percaya diri mengerjakan desain, usulan arsitektur, dan perubahan kode
Model kecil terasa seperti hanya “mencoba”. Untuk tugas kecil bisa, tapi pada tugas yang kompleks sering kali justru menambah pekerjaan dibanding mengerjakannya sendiri
Saya berharap situasinya berbeda, dan mungkin 1~2 tahun lagi memang akan berbeda
di claude code ada opusplan; saat mode perencanaan memakai Opus lalu saat eksekusi beralih ke Sonnet
https://code.claude.com/docs/en/model-config#opusplan-model-...
Suntingan: perencanaan juga bisa memakai Sonnet dan eksekusi memakai Haiku, atau kombinasi lain sesuai keinginan
https://code.claude.com/docs/en/model-config#control-the-mod...
Untuk fitur sederhana saya tidak membuat rencana lengkap. Saya menulis sedikit kode lalu memberi tahu model apa yang harus dilakukan dengan satu baris prompt singkat. Kadang saya menaruh komentar sementara di kode untuk memberi arah
Biasanya jika perubahan kode tetap berada dalam satu file atau paket, Haiku masih cukup mampu mengikuti permintaan dan tidak terlalu merusaknya. Seiring waktu saya juga membangun keterampilan memberi arahan. Selama beberapa bulan memakai GitHub Copilot, saya bahkan pernah buru-buru menghabiskan kredit yang tersisa di akhir bulan
Hanya dengan pelengkapan kode AI pun kadang sudah cukup bagus. Tulis saja dalam komentar sementara apa yang harus dilakukan kode itu, lalu tekan Tab-Tab-Tab dan satu fungsi penuh bisa langsung jadi
Orang cenderung memilih model yang lebih canggih karena mengira hasilnya akan lebih jarang kacau, tetapi kalau benar-benar paham kodenya, bekerja secara interaktif dengan model yang lebih rendah justru lebih mudah
Chat utama ditetapkan sebagai Opus yang berperan sebagai “orkestrator”, lalu setelah tujuan ditetapkan, ia didorong untuk memakai sub-agen berikut secara berurutan sampai tujuan tercapai
Ulangi: lanjutkan sampai anggaran token sesi orkestrator habis. Bisa diatur ke nilai seperti 1M
Logika dasarnya adalah menjaga setiap tahap tetap dalam ukuran yang bisa dikelola agar tingkat kepatuhan terhadap instruksi lebih tinggi dan biaya lebih rendah. Token yang di-cache juga berbiaya. Token prompt jauh lebih murah daripada token generasi, jadi semakin Opus dibuat lebih banyak meninjau daripada memimpin langsung, semakin besar penghematan biayanya
Tahap peningkatan diri sangat mahal, tetapi perbaikannya terakumulasi. Kalau mau menjalankan pekerjaan selama berhari-hari atau berminggu-minggu, tidak melakukannya justru akan jauh lebih mahal
Suntingan: ini dilakukan baik dengan model Anthropic di Claude Code maupun dengan model keluarga Qwen untuk penggunaan offline
Model ini tingkat halusinasinya rendah, jadi bagus untuk tugas eksplorasi, dan sepertinya model yang dibahas di sini pun penggunaan terbaiknya akan mirip. Banyak tugas memulai beberapa agen eksplorasi sebelum perencanaan atau perbaikan, lalu setelah itu selesai hanya dengan beberapa pemanggilan alat, jadi penggunaan tokennya juga besar
Model ini sedang dibandingkan dengan Haiku 4.5
Bukan Opus atau Sonnet, melainkan Haiku, model terkecil Anthropic, dan bahkan dibandingkan dengan model yang tertinggal 3 versi
Kenapa semua orang terus mereimplementasikan scroll jendela dengan cara seburuk ini?
Benchmark-nya masih serendah ini, tapi modelnya dipasarkan seolah revolusioner, itu terasa sangat aneh
Kalau kemampuan coding yang rendah dianggap bukan masalah, maka kenaikan harga token dan pengaturan model “serbaguna” juga harus dilihat bersama
Kenapa tidak dijual sebagai agen matematika? Kenapa saya harus menyiapkan 4 agen agar mereka saling memeriksa pekerjaan satu sama lain?
Untuk 5B parameter, skor sebesar itu cukup bagus, dan sampai belum lama ini level seperti itu nyaris sulit dipercaya
Model kecil akan terus membaik, dan model cloud terdepan juga menurut saya akan makin kecil
Ini juga jadi alasan lain kenapa ekspansi infrastruktur besar-besaran saat ini terasa seperti jalur kereta api
Tulisan blog pengantarnya punya informasi yang jauh lebih banyak
https://microsoft.ai/news/introducingmai-code-1-flash/
Dan ada juga model card
https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
5B aktif di judul tampaknya berasal dari pengumuman yang lebih luas tentang 7 model MAI
https://microsoft.ai/news/building-a-hillclimbing-machine-la...
Saya jadi harus mengingat lagi sejak awal model seperti apa sebenarnya Haiku dibuat
Anthropic belakangan ini tampaknya tidak terlalu gencar memasarkan Haiku
Kalau butuh model ringan, orang pakai Sonnet. Di paket Max, harganya nyaris seperti gratis dan cukup cepat. Untuk coding umum, saya tidak begitu melihat ada tempat untuk Haiku
Haiku tampaknya adalah model yang dipakai saat butuh ringkasan/klasifikasi dalam skala besar
Fakta bahwa Microsoft menjadikan Haiku sebagai tolok ukur berarti standarnya rendah
Saya harap situs web diuji juga di Safari
Hampir semua pengguna iOS pada dasarnya memakai Safari, dan pengalaman desktop-nya juga cukup mirip dengan mobile jadi pengujiannya mudah
Efek scroll itu benar-benar patah-patah di lingkungan saya. Saya paham di Chrome/Edge berjalan baik
Andai ini dirilis kemarin saja, mungkin bisa menghindari pemilihan model otomatis Copilot yang memakai model 9x lalu diam-diam menghabiskan kuota bulanan hanya dalam satu sore