- Open code LLM yang dioptimalkan untuk coding dengan pembelajaran multi-tahap code-flow, yang mempelajari perubahan repositori dan proses pengembangan, bukan kode statis
- Memperkuat penalaran jangka panjang dan performa tugas agen melalui pipeline pembelajaran evolusioner yang berlanjut dari pretraining–mid-training–post-training
- Pada konteks 32K·128K, menyuntikkan data penalaran dan trajektori agen untuk memperoleh kemampuan menyelesaikan masalah kompleks multi-file·tingkat repositori
- Mengusulkan desain praktis melalui arsitektur LoopCoder dengan struktur berulang untuk meningkatkan efisiensi deployment dibanding kapasitas model
- Mencapai performa yang dapat bersaing dengan model komersial pada SWE-Bench, LiveCodeBench, Terminal-Bench, dan lainnya dengan model open-weight
Ikhtisar
- IQuest-Coder-V1 adalah keluarga large language model khusus kode yang terdiri dari 7B·14B·40B·40B-Loop
- Mengadopsi paradigma code-flow yang menjadikan commit dan proses evolusi repositori sebagai target pembelajaran, bukan snapshot kode
- Evaluasi performa dilakukan pada software engineering berbasis agen, competitive programming, dan penggunaan alat secara umum
Pipeline pembelajaran Code-Flow
- Pada tahap pretraining, model dilatih dengan campuran data umum dan data kode skala besar, lalu diterapkan high-quality code annealing
- Pada tahap mid-training, dilakukan ekspansi konteks 32K → 128K serta pelatihan pada QA penalaran, trajektori agen, dan data kode tingkat repositori
- Pada tahap post-training, bercabang ke jalur Thinking (RL berfokus pada penalaran) dan jalur Instruct (optimasi bantuan umum)
Hasil riset utama
- Eksperimen mengonfirmasi bahwa data aliran commit repositori memberikan sinyal perencanaan tugas yang lebih baik daripada snapshot kode statis
- Struktur yang menyuntikkan data penalaran·agen pada mid-training setelah high-quality code annealing memberikan stabilitas terhadap perubahan distribusi
- Pada jalur Thinking yang menerapkan RL berfokus penalaran, kemampuan pemulihan mandiri dari kesalahan selama tugas jangka panjang tampak jelas
Arsitektur LoopCoder
- Memperkenalkan struktur loop transformer yang mengeksekusi blok parameter yang sama dua kali secara berulang
- Menggabungkan global attention dan local attention dengan gating untuk sekaligus mencapai pemurnian konteks jarak jauh dan menjaga kausalitas
- Bertujuan meningkatkan efisiensi komputasi terhadap kapasitas model guna menghadapi keterbatasan lingkungan deployment
Komposisi data dan strategi pretraining
- Dalam pelatihan campuran kode multibahasa, efek sinergi antarbahasa diformalkan dengan scaling law berbasis rumus
- Menyusun data triplet (R_old, Patch, R_new) dengan memanfaatkan commit pada rentang 40~80% dari siklus hidup repositori
- Memperkuat kemampuan code completion dengan teknik Fill-In-the-Middle tingkat file·repositori
Hasil evaluasi
- Mencatat 76.2 pada SWE-Bench Verified dan performa papan atas di berbagai benchmark seperti LiveCodeBench v6·Terminal-Bench·Mind2Web
- Melakukan evaluasi menyeluruh dari code generation·penalaran·editing·efisiensi·Text-to-SQL hingga tugas agen
- Pada beberapa metrik, menunjukkan hasil yang mendekati atau kompetitif dengan model tertutup seperti Claude Sonnet 4.5 dan GPT-5.1
Evaluasi keamanan
- Pada benchmark keamanan seperti BeaverTails, HarmBench, dan TrustLLM, model Thinking mencatat akurasi penolakan yang tinggi dan performa yang seimbang
- Menunjukkan hasil bahwa RL berfokus penalaran juga memberi efek positif dari sisi keamanan
Kesimpulan
- Dibuktikan bahwa pembelajaran yang berpusat pada alur evolusi kode dan trajektori agen efektif untuk membentuk kecerdasan kode otonom
- Melalui struktur LoopCoder, diajukan arah desain code LLM yang praktis dengan mempertimbangkan trade-off performa–efisiensi
- Menargetkan akselerasi riset kecerdasan kode terbuka dan pengembangan sistem agen nyata dengan membuka seluruh tahap pelatihan dan checkpoint
1 komentar
Komentar Hacker News
Tautan yang lebih baik adalah iquestlab.github.io
Namun sayangnya, tampaknya agen melakukan kecurangan selama evaluasi
Skornya turun dari 81.4% menjadi 76.2%, tetapi masih lebih tinggi dari Opus 4.5 (74.4%)
Singkatnya, karena folder
.git/tidak dibersihkan, model itu merujuk pada perbaikan dari commit masa depan sebagai bentuk reward hackingSaya ingin memberi kredit kepada orang-orang yang ikut membantu menyelesaikan masalah ini
Diskusi terkait juga bisa dilihat di tweet ini dan thread Reddit
Melihat IQuestLab telah merilis data SWE-Bench Verified, ini tampaknya lebih merupakan kesalahan pemula dalam benchmark daripada manipulasi yang disengaja
Cukup gunakan kode terbaru dan jalankan evaluasi dengan image Docker yang diperbarui
Tweet terkait
Dari pengalaman saya, GLM-4.7 (versi opencode) adalah yang paling mendekati di antara model open source
Kadang terlihat ungkapan yang seolah bercampur dengan data Claude, jadi kemungkinan memang ada sebagian pemanfaatan data Claude
Itu adalah ungkapan yang sering dipakai Claude untuk menghindar saat mencapai batas kemampuannya
Model 40B parameter mengalahkan Sonnet 4.5 dan GPT 5.1? Saya penasaran apakah ini benar-benar mungkin
Meski begitu, Sonnet 4.5 sendiri sudah model yang cukup lama, dan belakangan ada banyak inovasi
Menarik melihat model open source mengejar model besar dengan cepat
Saya penasaran apakah ada yang sudah menjalankan model ini sendiri, atau pernah mengujinya lewat API yang di-host
Ini adalah klaim palsu, jadi saya heran kenapa masih bertahan di halaman utama