2 poin oleh GN⁺ 2 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • MAI-Code-1-Flash adalah model coding baru dari Microsoft yang ditujukan untuk dukungan coding yang cepat dan efisien dalam workflow developer sehari-hari, dan sedang digulirkan ke pengguna individu GitHub Copilot di VS Code
  • Microsoft melatih model ini secara langsung pada GitHub Copilot harness agar dirancang untuk berinteraksi lebih baik dengan alat dan sistem di lingkungan pengembangan nyata
  • Dengan kontrol panjang respons adaptif, model ini menjawab singkat untuk permintaan sederhana dan menggunakan lebih banyak anggaran penalaran untuk tugas yang kompleks, serta menyelesaikan masalah yang lebih sulit dengan token hingga 60% lebih sedikit {p:60}
  • Dalam evaluasi production harness Microsoft, model ini menunjukkan tingkat kelulusan yang lebih tinggi daripada Claude Haiku 4.5 di keempat benchmark coding utama, dan unggul 16 poin di SWE-Bench Pro dengan 51.2% vs 35.2%
  • Dalam benchmark penalaran adversarial terpisah, model ini mencatat akurasi tersesuaikan 85.8% pada 186 soal dan 34 kategori, tetapi kategori adversarial utama seperti Einstellung trap masih berada di bawah 50% akurasi sehingga masih ada ruang perbaikan

Peluncuran dan distribusi

  • MAI-Code-1-Flash adalah model coding baru Microsoft yang dibuat untuk dukungan developer sehari-hari yang cepat dan efisien
  • Model ini dibangun Microsoft secara end-to-end dan menggunakan data yang bersih serta berlisensi dengan semestinya
  • Model ini sedang didistribusikan ke pengguna individu GitHub Copilot di VS Code, dan dapat digunakan melalui pemilih model maupun di bawah Auto picker bawaan
  • Tidak diperlukan pengaturan tambahan; saat distribusi mencapai pengguna, GitHub Copilot akan merutekan tugas ke MAI-Code-1-Flash melalui Auto picker atau menampilkannya langsung di pemilih model
  • Umpan balik akan diterima melalui GitHub Community

Desain yang berpusat pada workflow developer

  • MAI-Code-1-Flash dibuat bukan hanya untuk optimalisasi benchmark, tetapi dengan menempatkan workflow produksi yang digunakan developer setiap hari sebagai pusatnya
  • Model ini dilatih langsung dengan harness GitHub Copilot yang digunakan di lingkungan produksi agar dapat mempelajari cara menangani alat dan sistem di sekitarnya dalam tugas coding bergaya agen
  • Selama pelatihan, checkpoint dievaluasi menggunakan tugas rekayasa perangkat lunak inti, tanya jawab repositori, refactoring, dan tugas berbasis telemetri yang diadaptasi dari penggunaan GitHub Copilot di dunia nyata
  • Tujuan desainnya adalah menyelaraskan lingkungan pelatihan, evaluasi, dan produksi agar peningkatan offline dapat benar-benar berujung pada kualitas bagi developer

Efisiensi token dan cara merespons

  • Model ini mempelajari kontrol panjang solusi adaptif untuk menyesuaikan kedalaman respons berdasarkan tingkat kesulitan tugas
  • Untuk permintaan sederhana, model menjawab secara ringkas, dan untuk masalah yang memerlukan analisis lebih dalam atau perubahan kode yang lebih luas, model menggunakan anggaran penalaran yang lebih besar
  • Developer bisa mulai melihat output yang berguna lebih cepat
  • MAI-Code-1-Flash menyelesaikan masalah yang lebih sulit dengan token hingga 60% lebih sedikit, dengan tujuan mengurangi latensi, menekan biaya, meningkatkan hasil per token, dan menghadirkan workflow percakapan yang lebih mulus

Hasil benchmark coding

  • Microsoft mengevaluasi MAI-Code-1-Flash dan Claude Haiku 4.5 dengan production harness yang sama pada SWE-Bench Verified, SWE-Bench Pro, SWE-Bench Multilingual, dan Terminal Bench 2
  • Evaluasi mengukur tingkat keberhasilan tugas dan jumlah rata-rata token solusi yang dibutuhkan untuk menyelesaikan tiap tugas
  • MAI-Code-1-Flash mencatat tingkat kelulusan lebih tinggi daripada Claude Haiku 4.5 di keempat benchmark coding utama yang diuji
  • Pada beragam tugas dunia nyata di SWE-Bench Pro, model ini unggul 16 poin dengan 51.2% vs 35.2%
  • Di SWE-Bench Verified, model ini menyelesaikan masalah yang lebih sulit dengan token hingga 60% lebih sedikit, menunjukkan bahwa akurasi dan efisiensi bisa meningkat secara bersamaan

Mengikuti instruksi, penalaran, dan batasan

  • MAI-Code-1-Flash unggul atas Claude Haiku 4.5 di semua benchmark yang tercantum dalam tabel, dengan selisih terbesar pada kepatuhan instruksi presisi di IF Bench sebesar +28.9
  • Dalam evaluasi berbasis rubrik Advanced IF, selisihnya paling sempit yaitu +14.5
  • Kinerja kepatuhan instruksi yang kuat juga berlanjut pada penggunaan alat bergaya agen
  • Model ini juga mengungguli Claude Haiku 4.5 dalam kemampuan penalaran inti untuk matematika, sains, dan coding generasi visual
  • Benchmark standar bisa memberi penghargaan pada hafalan sama besarnya dengan penalaran; model yang pernah melihat masalah Monty Hall dapat menjawab benar, tetapi bisa gagal jika hadiahnya dibalik
  • Microsoft membuat benchmark berisi 186 soal dan 34 kategori yang berfokus pada jebakan adversarial seperti inverted classics, impossible tasks, dan underdetermined scenarios
  • MAI-Code-1-Flash secara keseluruhan melampaui Claude Haiku 4.5 pada benchmark adversarial ini dan mencapai akurasi tersesuaikan 85.8%
  • Model ini menunjukkan kinerja yang sangat kuat dalam penalaran, mengikuti instruksi, dan mengenali masalah yang mustahil, tetapi kategori adversarial utama seperti Einstellung trap masih berada di bawah 50% akurasi sehingga masih ada ruang untuk perbaikan

1 komentar

 
GN⁺ 2 jam lalu
Komentar Hacker News
  • Menurut model card, ini adalah model dengan total 137B parameter
    Performanya tidak terlihat terlalu bagus: MAI-Code-1-Flash (137B-A5B) mencatat 51% di SWE-bench pro, sedangkan Qwen3.6-35B-A3B mencatat 49.5% di SWE-bench pro (https://huggingface.co/Qwen/Qwen3.6-35B-A3B)
    Mereka membandingkannya dengan Claude Haiku, tetapi Haiku bukan model yang bagus, dan bahkan kalah dari model terbuka kecil yang bisa dijalankan secara lokal atau lewat API dengan biaya sekitar 10%

    • Intinya tampaknya model ini adalah model kecil yang bersaing dengan Haiku, dan semoga berikutnya akan muncul model pesaing kelas "Sonnet", lalu setelah itu kelas Opus
      Saya penasaran kenapa Microsoft begitu lama menunda penyediaan model buatan mereka sendiri di Copilot, dan saya jadi berpikir itu mungkin bagian dari kontrak mereka dengan OpenAI
    • Jika 137B-A5B, maka ini jelas bukan model 5B parameter seperti yang terkesan dari judul sebelumnya
  • Sebagai permulaan ini bagus dan persaingan tentu disambut, tetapi saya hampir tidak pernah memakai model cloud kecil seperti Haiku 4.5 untuk coding
    Memang lucu, tetapi untuk coding serius sering kali malah membuang waktu saya yang mahal, dan tidak cukup untuk membuat saya kembali ke GitHub Copilot yang saya hentikan kemarin
    Sampai kemarin GitHub Copilot masih kompetitif dari sisi harga, tetapi sekarang berubah ke skema kuota per token yang termasuk paling mahal dalam model penagihan per permintaan. Kalau ingin tertawa, lihat subreddit yang sedang terbakar ini: https://www.reddit.com/r/GithubCopilot
    Setelah itu saya beralih ke DeepSeek Flash high yang hampir gratis dan setara Sonnet+, dan kalau butuh model yang lebih pintar saya mungkin akan berlangganan Codex $20/bulan untuk memakai GPT 5.5 yang menurut saya adalah yang terbaik yang tersedia saat ini

    • Atur pekerjaan dengan model besar sebagai graf tugas yang diurutkan secara topologis, lalu pasangkan model kecil ke tiap tugas sesuai kompleksitasnya, setelah itu biarkan model besar mengevaluasi dan menambal bagian yang diperlukan
      Dalam pendekatan ini, saya cukup sering memakai Haiku untuk tugas sehari-hari, dan bahkan pekerjaan berkompleksitas tinggi yang memakan waktu berjam-jam bisa ditangani dengan hasil lebih baik dan biaya jauh lebih rendah. Orkestrator induk menyusun tugas secara efektif, meninjau kualitas, dan mengintegrasikan bagian yang perlu, sehingga bisa menjalankan kerja besar dalam satu jendela konteks
      Saya tidak memakai Haiku secara langsung, tetapi sering kali ia menyumbang 30~40% dari penggunaan token dalam pekerjaan besar. Waktu penyelesaian dan biaya sama-sama membaik, dan Haiku lebih baik dalam mengikuti instruksi serta rencana secara harfiah tanpa “menafsirkan ulang”, sementara model kelas Opus cenderung terus meragukan dan bertanya balik selama proses berpikirnya
      Jadi Haiku bukan pemborosan waktu, justru menghemat waktu dalam jumlah besar. Namun untuk sampai ke tahap ini saya lebih dulu menghabiskan banyak waktu membangun sistem orkestrasi dan terus mengulanginya sampai membaik. Menariknya, pengalaman bekerja sebagai director lalu distinguished engineer memberi saya alat untuk menjalankan ini secara stabil sampai tuntas, dan alur multi-agen dengan kemampuan beragam ternyata tidak jauh berbeda dari dinamika organisasi engineering beranggotakan 1.000 orang
    • Saya sempat membandingkan berbagai model untuk mencari bug keamanan yang sulit, dan dalam proses itu kepercayaan saya pada Haiku dan Sonnet turun drastis
      Qwen 3.6 27B yang saya host sendiri secara konsisten mengungguli keduanya dalam deteksi bug keamanan, dan itu hasil yang cukup mengejutkan. Saya kira Qwen akan setara Haiku atau sedikit di bawahnya, dan jelas saya perkirakan akan kalah dari Sonnet
      DeepSeek dan MiMo jauh lebih baik daripada Haiku dan Sonnet, biayanya hanya sebagian kecil, tetapi performanya mendekati tingkat Opus/GPT 5.5
      Kecuali Anda mendapatkannya gratis atau sudah termasuk dalam langganan yang biasanya bahkan tidak habis dipakai, tampaknya hampir tidak ada alasan untuk memakai Haiku atau Sonnet
    • Situasinya hampir sama. DeepSeek juga hampir tidak pernah menolak, dan berkat sistem nilai ala Tiongkok, friksinya jauh lebih kecil untuk hal-hal seperti reverse engineering, mencari file berhak cipta, atau mengerjakan source code dengan asal-usul yang meragukan
      Bahkan jika harga Copilot diturunkan 90%, saya rasa saya tetap tidak akan kembali
    • Ini tampaknya berada di kisaran seperti Qwen 3.6, Gemma 4, dan Nemotron 3 Super
      Ada banyak model yang kompetitif seperti Haiku, dan ada juga yang jauh lebih kecil dan murah seperti Qwen 3.6 35B-A3B. Model seperti ini bisa dijalankan di laptop, jadi tidak perlu menyewa dari Microsoft
      Saya kaget dengan tagihan Copilot yang baru, tetapi bagi orang yang ingin tetap berada di ekosistemnya ini mungkin masih opsi yang bisa dipakai, meski bagi kebanyakan orang ada jauh lebih banyak pilihan yang lebih baik
    • Paket ChatGPT seharga $20 per bulan yang sudah menyertakan Codex terasa sangat worth it
      Hanya dengan ChatGPT premium pun sudah cukup oke, dan meskipun sesekali akan kena batas penggunaan, kebanyakan pekerjaan tetap bisa diselesaikan
  • Apakah benar ada orang yang memakai model kecil seperti ini untuk coding? Kalau ada, penasaran dipakainya bagaimana
    Biasanya saya memproses semuanya dengan Opus. Apakah caranya dengan memakai model yang lebih berat untuk perencanaan/desain/arsitektur lalu mendelegasikan pekerjaan yang terstruktur ke model kecil seperti ini, ingin dengar pendapat dari orang yang sudah mencoba keduanya dan mengujinya

    • Di kantor saya pakai Opus 4.x, dan di rumah saya pakai model-model “kecil” seperti ini (20~80B, aktif 3~4B)
      Sayangnya, untuk saat ini belum bisa dibandingkan
      Dengan Opus, di codebase yang kompleks pun saya bisa percaya diri mengerjakan desain, usulan arsitektur, dan perubahan kode
      Model kecil terasa seperti hanya “mencoba”. Untuk tugas kecil bisa, tapi pada tugas yang kompleks sering kali justru menambah pekerjaan dibanding mengerjakannya sendiri
      Saya berharap situasinya berbeda, dan mungkin 1~2 tahun lagi memang akan berbeda
    • Memakai model yang lebih berat untuk perencanaan/desain/arsitektur lalu menyerahkan tugas terstruktur ke model kecil itu memang selalu seperti itu
      di claude code ada opusplan; saat mode perencanaan memakai Opus lalu saat eksekusi beralih ke Sonnet
      https://code.claude.com/docs/en/model-config#opusplan-model-...
      Suntingan: perencanaan juga bisa memakai Sonnet dan eksekusi memakai Haiku, atau kombinasi lain sesuai keinginan
      https://code.claude.com/docs/en/model-config#control-the-mod...
    • Haiku cukup murah dan tidak terlalu sering berantakan, jadi dulu saya memakainya untuk coding interaktif pada proyek yang sudah ada di paket Copilot lama
      Untuk fitur sederhana saya tidak membuat rencana lengkap. Saya menulis sedikit kode lalu memberi tahu model apa yang harus dilakukan dengan satu baris prompt singkat. Kadang saya menaruh komentar sementara di kode untuk memberi arah
      Biasanya jika perubahan kode tetap berada dalam satu file atau paket, Haiku masih cukup mampu mengikuti permintaan dan tidak terlalu merusaknya. Seiring waktu saya juga membangun keterampilan memberi arahan. Selama beberapa bulan memakai GitHub Copilot, saya bahkan pernah buru-buru menghabiskan kredit yang tersisa di akhir bulan
      Hanya dengan pelengkapan kode AI pun kadang sudah cukup bagus. Tulis saja dalam komentar sementara apa yang harus dilakukan kode itu, lalu tekan Tab-Tab-Tab dan satu fungsi penuh bisa langsung jadi
      Orang cenderung memilih model yang lebih canggih karena mengira hasilnya akan lebih jarang kacau, tetapi kalau benar-benar paham kodenya, bekerja secara interaktif dengan model yang lebih rendah justru lebih mudah
    • Eksekusi pekerjaan perubahan dibagi sebagai tanggung jawab terpisah
      Chat utama ditetapkan sebagai Opus yang berperan sebagai “orkestrator”, lalu setelah tujuan ditetapkan, ia didorong untuk memakai sub-agen berikut secara berurutan sampai tujuan tercapai
      1. Eksekusi langkah (Sonnet): bekerja selama 30 menit/100k token sesuai instruksi orkestrator
      2. Tinjauan (Opus): memeriksa dengan teliti kesalahan dan kepatuhan terhadap instruksi dari pekerjaan tahap sebelumnya, memperbaikinya, lalu mencatat ke file peluang peningkatan pengaturan agen+alat untuk mengurangi kesalahan dan penggunaan token
      3. Peningkatan diri (Opus): mengimplementasikan item peningkatan diri berdampak besar yang tidak memerlukan campur tangan pengguna
        Ulangi: lanjutkan sampai anggaran token sesi orkestrator habis. Bisa diatur ke nilai seperti 1M
        Logika dasarnya adalah menjaga setiap tahap tetap dalam ukuran yang bisa dikelola agar tingkat kepatuhan terhadap instruksi lebih tinggi dan biaya lebih rendah. Token yang di-cache juga berbiaya. Token prompt jauh lebih murah daripada token generasi, jadi semakin Opus dibuat lebih banyak meninjau daripada memimpin langsung, semakin besar penghematan biayanya
        Tahap peningkatan diri sangat mahal, tetapi perbaikannya terakumulasi. Kalau mau menjalankan pekerjaan selama berhari-hari atau berminggu-minggu, tidak melakukannya justru akan jauh lebih mahal
        Suntingan: ini dilakukan baik dengan model Anthropic di Claude Code maupun dengan model keluarga Qwen untuk penggunaan offline
    • Claude Code sendiri juga meluncurkan banyak sub-agen dengan Haiku
      Model ini tingkat halusinasinya rendah, jadi bagus untuk tugas eksplorasi, dan sepertinya model yang dibahas di sini pun penggunaan terbaiknya akan mirip. Banyak tugas memulai beberapa agen eksplorasi sebelum perencanaan atau perbaikan, lalu setelah itu selesai hanya dengan beberapa pemanggilan alat, jadi penggunaan tokennya juga besar
  • Model ini sedang dibandingkan dengan Haiku 4.5
    Bukan Opus atau Sonnet, melainkan Haiku, model terkecil Anthropic, dan bahkan dibandingkan dengan model yang tertinggal 3 versi

    • 4.5 masih merupakan model Haiku terbaru
  • Kenapa semua orang terus mereimplementasikan scroll jendela dengan cara seburuk ini?

    • Mungkin dibuat dengan vibe coding. Saya memblokirnya dengan StopTheMadness
    • Itu langsung terlihat dan saya segera menutupnya
  • Benchmark-nya masih serendah ini, tapi modelnya dipasarkan seolah revolusioner, itu terasa sangat aneh
    Kalau kemampuan coding yang rendah dianggap bukan masalah, maka kenaikan harga token dan pengaturan model “serbaguna” juga harus dilihat bersama
    Kenapa tidak dijual sebagai agen matematika? Kenapa saya harus menyiapkan 4 agen agar mereka saling memeriksa pekerjaan satu sama lain?

    • Sepemahaman saya, tidak seperti model lain, model MAI belum di-fine-tune dengan dataset sintetis yang dirancang khusus untuk mendongkrak skor benchmark
    • Intinya adalah performa dibanding harga
      Untuk 5B parameter, skor sebesar itu cukup bagus, dan sampai belum lama ini level seperti itu nyaris sulit dipercaya
      Model kecil akan terus membaik, dan model cloud terdepan juga menurut saya akan makin kecil
      Ini juga jadi alasan lain kenapa ekspansi infrastruktur besar-besaran saat ini terasa seperti jalur kereta api
  • Tulisan blog pengantarnya punya informasi yang jauh lebih banyak
    https://microsoft.ai/news/introducingmai-code-1-flash/
    Dan ada juga model card
    https://microsoft.ai/pdf/MAI-Code-1-Flash-Model-Card.PDF
    5B aktif di judul tampaknya berasal dari pengumuman yang lebih luas tentang 7 model MAI
    https://microsoft.ai/news/building-a-hillclimbing-machine-la...

  • Saya jadi harus mengingat lagi sejak awal model seperti apa sebenarnya Haiku dibuat
    Anthropic belakangan ini tampaknya tidak terlalu gencar memasarkan Haiku
    Kalau butuh model ringan, orang pakai Sonnet. Di paket Max, harganya nyaris seperti gratis dan cukup cepat. Untuk coding umum, saya tidak begitu melihat ada tempat untuk Haiku
    Haiku tampaknya adalah model yang dipakai saat butuh ringkasan/klasifikasi dalam skala besar
    Fakta bahwa Microsoft menjadikan Haiku sebagai tolok ukur berarti standarnya rendah

    • Ungkapan “di paket Max nyaris gratis” terdengar seperti kontradiksi yang lucu
  • Saya harap situs web diuji juga di Safari
    Hampir semua pengguna iOS pada dasarnya memakai Safari, dan pengalaman desktop-nya juga cukup mirip dengan mobile jadi pengujiannya mudah
    Efek scroll itu benar-benar patah-patah di lingkungan saya. Saya paham di Chrome/Edge berjalan baik

    • Di Firefox+macOS juga jelas ada semacam pembajakan scroll dan rasanya mengerikan
  • Andai ini dirilis kemarin saja, mungkin bisa menghindari pemilihan model otomatis Copilot yang memakai model 9x lalu diam-diam menghabiskan kuota bulanan hanya dalam satu sore