Ornith-1.0 - Model open source self-improving untuk coding berbasis agen
(github.com/deepreinforce-ai)- Ornith-1.0 adalah model open source self-improving untuk coding berbasis agen, menawarkan konfigurasi 9B Dense, 31B Dense, 35B MoE, dan 397B MoE, serta di-post-train di atas Gemma 4 dan Qwen 3.5
- Framework pelatihannya menggunakan reinforcement learning untuk mempelajari bukan hanya rollout solusi tetapi juga scaffold yang mengarahkan rollout tersebut, sehingga mengoptimalkan scaffold dan solusi hasilnya secara bersamaan
- Berdasarkan README, Ornith-1.0 mencapai performa terdepan dibanding model open source berukuran serupa pada benchmark coding seperti Terminal-Bench 2.1, SWE-Bench, NL2Repo, dan OpenClaw
- Semua checkpoint mengekspos antarmuka kompatibel OpenAI dan mendukung context window 256K token, serta dapat dijalankan dengan vLLM, SGLang, Hugging Face Transformers, llama.cpp, Ollama, dan lainnya
- Berlisensi MIT dan dapat diakses secara global tanpa pembatasan wilayah, serta dapat menghubungkan blok penalaran dan pemanggilan tool ke framework agen dan coding CLI melalui reasoning_content dan tool_calls
Gambaran model dan metode pelatihan
- Ornith-1.0 adalah keluarga model open source self-improving untuk coding berbasis agen
- Ukuran model yang tersedia adalah 9B Dense, 31B Dense, 35B MoE, dan 397B MoE, serta di-post-train di atas Gemma 4 dan Qwen 3.5
- Framework pelatihan self-improving menggunakan reinforcement learning
- Model dilatih untuk menghasilkan bukan hanya rollout solusi tetapi juga scaffold yang mengarahkan rollout tersebut
- Scaffold dan solusi hasilnya dioptimalkan bersama agar dapat menemukan trajectory pencarian yang lebih baik dan solusi dengan kualitas lebih tinggi
- Lisensinya adalah MIT, dapat diakses secara global, dan tidak memiliki pembatasan wilayah
Hasil benchmark
- Tiap model dibandingkan dengan model acuan yang sesuai ukurannya, dan ketiga model menggunakan harness serta pengaturan decoding yang sama
-
Ornith-1.0-9B
- Pada Terminal-Bench 2.1 mencatat 43.1 menurut standar Terminus-2 dan 40.6 menurut standar Claude Code
- Mencatat SWE-bench Verified 69.4, SWE-bench Pro 42.9, dan SWE-bench Multilingual 52
- Mencatat NL2Repo 27.2 dan Claw-eval Avg 63.1
- Untuk SWE Atlas mencatat QnA 17.9, RF 16.6, dan TW 15.3
-
Ornith-1.0-35B
- Pada Terminal-Bench 2.1 mencatat 64.2 menurut standar Terminus-2 dan 62.8 menurut standar Claude Code
- Mencatat SWE-bench Verified 75.6, SWE-bench Pro 50.4, dan SWE-bench Multilingual 69.3
- Mencatat NL2Repo 34.6 dan Claw-eval Avg 69.8
- Untuk SWE Atlas mencatat QnA 37.1, RF 29.7, dan TW 27.8
-
Ornith-1.0-397B
- Pada Terminal-Bench 2.1 mencatat 77.5 menurut standar Terminus-2 dan 78.2 menurut standar Claude Code
- Mencatat SWE-bench Verified 82.4, SWE-bench Pro 62.2, dan SWE-bench Multilingual 78.9
- Mencatat NL2Repo 48.2 dan Claw-eval Avg 77.1
- Untuk SWE Atlas mencatat QnA 41.2, RF 42.6, dan TW 39.1
Pengaturan evaluasi
- Evaluasi Terminal-Bench 2.1 Terminus-2 menggunakan framework Harbor/Terminus-2, parser=json, temperature=1.0, top_p=1.0, dan context window 128K
- Tiap eksekusi menggunakan timeout 4 jam, 32 core CPU, 48GB RAM, dan merupakan rata-rata dari 5 kali
- Qwen chat template disesuaikan untuk konsistensi pelatihan dan inferensi, dan Harbor dimodifikasi agar sesuai dengan key reasoning_content milik vLLM
- Evaluasi Terminal-Bench 2.1 Claude Code menggunakan Claude Code 2.1.126, parser=json, temperature=1.0, top_p=1.0, max_new_tokens=131072, dan merupakan rata-rata dari 5 kali
- SWE-bench Verified / Pro / Multilingual menggunakan harness OpenHands, temperature=1.0, top_p=0.95, dan context window 256K
- SWE Atlas QnA / RF / TW menggunakan harness mini-SWE-agent, temperature=1.0, top_p=0.95, dan context window 128K, serta merupakan rata-rata dari 5 kali
- NL2Repo menggunakan temperature=1.0, top_p=1.0, context 400K, output 48K, dan anti-hacking filters
- ClawEval adalah benchmark kode berbasis agen berdasarkan distribusi tugas pengguna nyata, menggunakan temperature=0.6 dan context 256K
Menjalankan model dan checkpoint
- Ornith-1.0 adalah reasoning model dan secara default turn assistant dimulai dengan blok
<think> … </think>sebelum mengembalikan jawaban akhir - Resep serving menyalakan reasoning parser untuk mengembalikan chain-of-thought di field
reasoning_contentterpisah, dan menyalakan tool-call parser untuk mengekspos blok<tool_call>sebagaitool_callsbergaya OpenAI - Versi runtime yang dibutuhkan adalah sebagai berikut
- Transformers ≥ 5.8.1
- vLLM ≥ 0.19.1
- SGLang ≥ 0.5.9
- Parameter sampling yang direkomendasikan adalah
temperature=0.6,top_p=0.95,top_k=20- Untuk mereproduksi pengaturan benchmark yang dilaporkan, gunakan
temperature=1.0
- Untuk mereproduksi pengaturan benchmark yang dilaporkan, gunakan
- Semua checkpoint mengekspos antarmuka kompatibel OpenAI yang sama dan mendukung context window 256K, yaitu 262.144 token
- Dense 9B cocok untuk satu GPU 80GB
- Checkpoint MoE di-shard ke node multi-GPU dengan tensor parallelism
- Checkpoint yang disediakan
- Ornith-1.0-9B: Dense sekitar 9B, bf16, untuk serving satu GPU dan fine-tuning
- Ornith-1.0-9B-GGUF: Dense sekitar 9B, kuantisasi GGUF, untuk inferensi lokal dengan llama.cpp / Ollama
- Ornith-1.0-35B: MoE 35B, bf16, untuk serving multi-GPU full-precision
- Ornith-1.0-35B-FP8: MoE 35B, FP8, untuk serving dengan pengurangan VRAM sekitar setengah pada GPU yang mendukung FP8
- Ornith-1.0-35B-GGUF: MoE 35B, kuantisasi GGUF, untuk inferensi lokal dengan llama.cpp / Ollama
- Ornith-1.0-397B: MoE 397B, bf16, untuk serving full-precision pada node multi-GPU
- Ornith-1.0-397B-FP8: MoE 397B, FP8, untuk serving yang efisien memori pada GPU yang mendukung FP8
API kompatibel OpenAI dan penggunaan agen
- Setelah server vLLM atau SGLang berjalan, endpoint
/v1/chat/completionsdapat dipanggil dengan klien kompatibel OpenAI - Contoh server lokal menggunakan
base_url="http://localhost:8000/v1",api_key="EMPTY",model="Ornith-1.0" - Dalam pesan respons, reasoning_content berisi trace penalaran
<think>, sementaracontentberisi jawaban akhir - Jika tool diberikan, Ornith-1.0 akan menghasilkan pemanggilan fungsi yang well-formed, dan server akan mem-parsing-nya ke field tool_calls standar
- SDK kompatibel OpenAI dapat menggunakan endpoint yang sama dari Python, Node.js,
curl, dan lainnya
Framework yang didukung dan coding CLI
- Ornith-1.0 dioptimalkan untuk pemanggilan tool dan kemampuan coding berbasis agen
- Karena menyediakan endpoint kompatibel OpenAI dan tool calling, model ini dapat digunakan bersama framework agen standar
- README menyertakan contoh koneksi tool melalui server MCP dan contoh pemanggilan tool fungsi
run_shell - Harness agen dan runtime yang dicontohkan adalah sebagai berikut
- Hermes Agent: pengaturan
OPENAI_BASE_URL,OPENAI_API_KEY,MODEL="Ornith-1.0" - OpenHands: menggunakan path
openai/Ornith-1.0milik LiteLLM dan base URL lokal - llama.cpp / Ollama: memuat build GGUF 9B dan 35B untuk inferensi lokal
- Unsloth Studio: inferensi lokal atau fine-tuning dengan
FastLanguageModel.from_pretrained - OpenClaw: menetapkan endpoint kompatibel OpenAI ke server Ornith
- Hermes Agent: pengaturan
- Coding CLI dapat dihubungkan dengan menetapkan
OPENAI_BASE_URLdanOPENAI_API_KEYke endpoint Ornith-1.0 - Contoh OpenCode mendaftarkan provider Ornith lokal di
~/.config/opencode/opencode.jsondan menggunakan modelOrnith-1.0
1 komentar
Opini Hacker News
Diskusi sebelumnya: https://news.ycombinator.com/item?id=48709744
https://swelljoe.com/post/will-it-mythos/: “Kinerjanya cenderung kurang baik; hanya menemukan satu bug yang juga ditemukan oleh hampir semua model. Padahal performa benchmark lainnya sangat bagus dibanding ukurannya. […] Di chat tanpa tool pun performanya buruk, dan cukup rajin menunjukkan halusinasi. Saat ini saya sedang melakukan reproduksi dengan memberi akses tool penuh termasuk bash/Python; dengan begitu model ini mungkin bisa kompetitif”
Ini adalah fine-tuning Qwen pertama yang tidak langsung ditolak oleh komunitas LLM lokal, dan dalam beberapa kasus bahkan direkomendasikan. Dari penggunaan terbatas saya, hasilnya oke dan memberikan solusi kreatif untuk masalah coding. Saya tidak berharap model 9–35B membuatkan seluruh aplikasi dengan sekali klik. Sebagian besar keluhan tampaknya berasal dari ekspektasi seperti itu
Untuk sebagian besar model seperti Qwen, Gemma, Llama, dan gpt-oss, saat ini benar-benar merepotkan mencari jebakan kecil seperti token khusus, struktur prompt, dan preferensi model. Meski begitu, di lingkungan eksekusi agentic yang disesuaikan dengan prompt dan parameter yang dipelajari susah payah, kita bisa mendapatkan model yang berjalan sangat baik
Kenapa model “self-improving” seperti ini pada akhirnya tidak terus membaik sampai melampaui model mutakhir?
Dari pengujian langsung saya, Ornith-1.0 35B sedikit lebih baik daripada Qwen-3.6 35B
Pengujian saya berupa tugas menambahkan atau memperbaiki fitur pada codebase C++ besar. Yang menarik, model ini jauh lebih cepat daripada Qwen3.6 35B. Sepertinya Ornith menghasilkan proses berpikir yang lebih pendek
Dalam pengujian saya, kecepatannya menghasilkan jawaban sampai 3 kali lebih cepat. Saya menggunakannya dengan llamacpp dan codex-cli
Saya menguji Ornith-1.0 35B dengan kuantisasi blok FP8 buatan sendiri, dan saya menyukainya. Di RTX PRO 6000(sm120) dengan vLLM, hasilnya lebih dari 200 token/detik, dan selama beberapa hari terakhir saya menjalankan lebih dari 140 juta token cache untuk tugas coding bergaya agen
Secara kasar terlihat berada di antara Qwen 3.6 35B-A3B dan 27B, tetapi sisi bagusnya adalah jauh lebih jarang berpikir berlebihan atau terjebak di loop yang sama dibanding Qwen 3.6. Dari trace pemikirannya, saya suka template pendekatan dekomposisinya
Pada codebase Go berukuran menengah, model ini bagus untuk analisis dasar, penanganan tugas, dan beberapa perubahan frontend/backend, tetapi pada tugas implementasi kernel sederhana yang lebih panjang, model ini benar-benar mentok. Saya menjalankannya sekitar 100 iterasi di lingkungan eksekusi Pi Agent dan hasilnya berantakan; tugas seperti ini termasuk jenis yang bisa diselesaikan model terbuka yang lebih kuat seperti Kimi K2.6 atau GLM 5.2
Bisa jelaskan apa yang terjadi di sini? Apakah ini hanya Qwen yang diganti kulitnya? Siapa deepreinforce-ai, dan kenapa model ini tidak ada di situs web mereka?
Saya penasaran bagaimana caranya melakukan self-improvement. Apakah model di disk berubah, atau hanya menjadi lebih baik selama satu eksekusi konteks?
Menurut saya, mereka melatihnya dengan menjalankan reinforcement learning sendiri di atas Qwen dan Gemma 4. Saya tidak tahu bagaimana bobot keduanya digabungkan, dan juga tidak yakin apakah Qwen dijadikan basis lalu Gemma 4 dipakai sebagai bantuan pelatihan. Di sini “self-improving” tampaknya merujuk pada proses pelatihan, bukan cara bobot digunakan
Ini terlihat seperti versi Qwen atau Gemma 4 yang hanya dioptimalkan untuk benchmark
“Dense 9B muat di satu GPU 80GB”
Orang biasa seperti kita tidak bisa memakainya
Saya sudah mencoba banyak model lokal dan semuanya terasa seperti mainan. Tapi yang ini benar-benar terasa berguna. Saya juga dengar Qwen 36-A3B bagus, tapi belum sempat mencobanya
Sistem self-improving menarik, tetapi membuat pelacakan asal-usul dan tata kelola jauh lebih sulit. Ketika agen dapat mengubah perilakunya sendiri seiring waktu, memahami mengapa ia bertindak dengan cara tertentu menjadi makin penting