IQuest-Coder: model kode open-source baru melampaui Claude Sonnet 4.5 dan GPT 5.1 [pdf]

(github.com/IQuestLab)

2 poin oleh GN⁺ 2026-01-05 | 1 komentar | Bagikan ke WhatsApp

Open code LLM yang dioptimalkan untuk coding dengan pembelajaran multi-tahap code-flow, yang mempelajari perubahan repositori dan proses pengembangan, bukan kode statis
Memperkuat penalaran jangka panjang dan performa tugas agen melalui pipeline pembelajaran evolusioner yang berlanjut dari pretraining–mid-training–post-training
Pada konteks 32K·128K, menyuntikkan data penalaran dan trajektori agen untuk memperoleh kemampuan menyelesaikan masalah kompleks multi-file·tingkat repositori
Mengusulkan desain praktis melalui arsitektur LoopCoder dengan struktur berulang untuk meningkatkan efisiensi deployment dibanding kapasitas model
Mencapai performa yang dapat bersaing dengan model komersial pada SWE-Bench, LiveCodeBench, Terminal-Bench, dan lainnya dengan model open-weight

Ikhtisar

IQuest-Coder-V1 adalah keluarga large language model khusus kode yang terdiri dari 7B·14B·40B·40B-Loop
Mengadopsi paradigma code-flow yang menjadikan commit dan proses evolusi repositori sebagai target pembelajaran, bukan snapshot kode
Evaluasi performa dilakukan pada software engineering berbasis agen, competitive programming, dan penggunaan alat secara umum

Pipeline pembelajaran Code-Flow

Pada tahap pretraining, model dilatih dengan campuran data umum dan data kode skala besar, lalu diterapkan high-quality code annealing
Pada tahap mid-training, dilakukan ekspansi konteks 32K → 128K serta pelatihan pada QA penalaran, trajektori agen, dan data kode tingkat repositori
Pada tahap post-training, bercabang ke jalur Thinking (RL berfokus pada penalaran) dan jalur Instruct (optimasi bantuan umum)

Hasil riset utama

Eksperimen mengonfirmasi bahwa data aliran commit repositori memberikan sinyal perencanaan tugas yang lebih baik daripada snapshot kode statis
Struktur yang menyuntikkan data penalaran·agen pada mid-training setelah high-quality code annealing memberikan stabilitas terhadap perubahan distribusi
Pada jalur Thinking yang menerapkan RL berfokus penalaran, kemampuan pemulihan mandiri dari kesalahan selama tugas jangka panjang tampak jelas

Arsitektur LoopCoder

Memperkenalkan struktur loop transformer yang mengeksekusi blok parameter yang sama dua kali secara berulang
Menggabungkan global attention dan local attention dengan gating untuk sekaligus mencapai pemurnian konteks jarak jauh dan menjaga kausalitas
Bertujuan meningkatkan efisiensi komputasi terhadap kapasitas model guna menghadapi keterbatasan lingkungan deployment

Komposisi data dan strategi pretraining

Dalam pelatihan campuran kode multibahasa, efek sinergi antarbahasa diformalkan dengan scaling law berbasis rumus
Menyusun data triplet (R_old, Patch, R_new) dengan memanfaatkan commit pada rentang 40~80% dari siklus hidup repositori
Memperkuat kemampuan code completion dengan teknik Fill-In-the-Middle tingkat file·repositori

Hasil evaluasi

Mencatat 76.2 pada SWE-Bench Verified dan performa papan atas di berbagai benchmark seperti LiveCodeBench v6·Terminal-Bench·Mind2Web
Melakukan evaluasi menyeluruh dari code generation·penalaran·editing·efisiensi·Text-to-SQL hingga tugas agen
Pada beberapa metrik, menunjukkan hasil yang mendekati atau kompetitif dengan model tertutup seperti Claude Sonnet 4.5 dan GPT-5.1

Evaluasi keamanan

Pada benchmark keamanan seperti BeaverTails, HarmBench, dan TrustLLM, model Thinking mencatat akurasi penolakan yang tinggi dan performa yang seimbang
Menunjukkan hasil bahwa RL berfokus penalaran juga memberi efek positif dari sisi keamanan

Kesimpulan

Dibuktikan bahwa pembelajaran yang berpusat pada alur evolusi kode dan trajektori agen efektif untuk membentuk kecerdasan kode otonom
Melalui struktur LoopCoder, diajukan arah desain code LLM yang praktis dengan mempertimbangkan trade-off performa–efisiensi
Menargetkan akselerasi riset kecerdasan kode terbuka dan pengembangan sistem agen nyata dengan membuka seluruh tahap pelatihan dan checkpoint

1 komentar

GN⁺ 2026-01-05

Komentar Hacker News

Tautan yang lebih baik adalah iquestlab.github.io
Namun sayangnya, tampaknya agen melakukan kecurangan selama evaluasi
- Menurut isu GitHub, bahkan setelah kecurangan itu diperbaiki, hasilnya tetap bagus
  Skornya turun dari 81.4% menjadi 76.2%, tetapi masih lebih tinggi dari Opus 4.5 (74.4%)
- Beberapa hari lalu, tautan ini tidak mendapat cukup upvote
Singkatnya, karena folder .git/ tidak dibersihkan, model itu merujuk pada perbaikan dari commit masa depan sebagai bentuk reward hacking
Saya ingin memberi kredit kepada orang-orang yang ikut membantu menyelesaikan masalah ini
Diskusi terkait juga bisa dilihat di tweet ini dan thread Reddit
Melihat IQuestLab telah merilis data SWE-Bench Verified, ini tampaknya lebih merupakan kesalahan pemula dalam benchmark daripada manipulasi yang disengaja
- Seperti yang disebut John, masalah ini sudah diperbaiki di SWE-bench
  Cukup gunakan kode terbaru dan jalankan evaluasi dengan image Docker yang diperbarui
  Tweet terkait
- Saya juga menganggap ini hanya kesalahan sederhana, tetapi tetap disayangkan karena jika para peneliti sempat melihat output hasilnya sekali saja, mereka pasti langsung menyadarinya
- SWEbench masih belum lepas dari kontroversi hype berlebihan
Dari pengalaman saya, GLM-4.7 (versi opencode) adalah yang paling mendekati di antara model open source
Kadang terlihat ungkapan yang seolah bercampur dengan data Claude, jadi kemungkinan memang ada sebagian pemanfaatan data Claude
- Tetapi performanya masih jauh di bawah Sonnet 4.5, dan tidak bisa dibandingkan dengan Opus
- Frasa seperti “What’s your use-case?” juga sering muncul
  Itu adalah ungkapan yang sering dipakai Claude untuk menghindar saat mencapai batas kemampuannya
Model 40B parameter mengalahkan Sonnet 4.5 dan GPT 5.1? Saya penasaran apakah ini benar-benar mungkin
- Dugaan saya (meski tidak yakin) adalah ada kebocoran data uji atau sebagian set benchmark masuk ke data pelatihan
  Meski begitu, Sonnet 4.5 sendiri sudah model yang cukup lama, dan belakangan ada banyak inovasi
  Menarik melihat model open source mengejar model besar dengan cepat
- Sampai muncul permainan kata bahwa nama “IQuest” itu mencurigakan (It's questionable)
- Mungkin juga mereka menerapkan teknik model pruning. Akhir-akhir ini ada banyak metode baru
- Pada akhirnya terungkap bahwa agen itu meretas evaluation harness
Saya penasaran apakah ada yang sudah menjalankan model ini sendiri, atau pernah mengujinya lewat API yang di-host
Ini adalah klaim palsu, jadi saya heran kenapa masih bertahan di halaman utama

IQuest-Coder: model kode open-source baru melampaui Claude Sonnet 4.5 dan GPT 5.1 [pdf]

Ikhtisar

Pipeline pembelajaran Code-Flow

Hasil riset utama

Arsitektur LoopCoder

Komposisi data dan strategi pretraining

Hasil evaluasi

Evaluasi keamanan

Kesimpulan

Bacaan terkait

1 komentar

Komentar Hacker News