2 poin oleh GN⁺ 3 jam lalu | 1 komentar | Bagikan ke WhatsApp
  • Ornith-1.0 adalah model open source self-improving untuk coding berbasis agen, menawarkan konfigurasi 9B Dense, 31B Dense, 35B MoE, dan 397B MoE, serta di-post-train di atas Gemma 4 dan Qwen 3.5
  • Framework pelatihannya menggunakan reinforcement learning untuk mempelajari bukan hanya rollout solusi tetapi juga scaffold yang mengarahkan rollout tersebut, sehingga mengoptimalkan scaffold dan solusi hasilnya secara bersamaan
  • Berdasarkan README, Ornith-1.0 mencapai performa terdepan dibanding model open source berukuran serupa pada benchmark coding seperti Terminal-Bench 2.1, SWE-Bench, NL2Repo, dan OpenClaw
  • Semua checkpoint mengekspos antarmuka kompatibel OpenAI dan mendukung context window 256K token, serta dapat dijalankan dengan vLLM, SGLang, Hugging Face Transformers, llama.cpp, Ollama, dan lainnya
  • Berlisensi MIT dan dapat diakses secara global tanpa pembatasan wilayah, serta dapat menghubungkan blok penalaran dan pemanggilan tool ke framework agen dan coding CLI melalui reasoning_content dan tool_calls

Gambaran model dan metode pelatihan

  • Ornith-1.0 adalah keluarga model open source self-improving untuk coding berbasis agen
  • Ukuran model yang tersedia adalah 9B Dense, 31B Dense, 35B MoE, dan 397B MoE, serta di-post-train di atas Gemma 4 dan Qwen 3.5
  • Framework pelatihan self-improving menggunakan reinforcement learning
    • Model dilatih untuk menghasilkan bukan hanya rollout solusi tetapi juga scaffold yang mengarahkan rollout tersebut
    • Scaffold dan solusi hasilnya dioptimalkan bersama agar dapat menemukan trajectory pencarian yang lebih baik dan solusi dengan kualitas lebih tinggi
  • Lisensinya adalah MIT, dapat diakses secara global, dan tidak memiliki pembatasan wilayah

Hasil benchmark

  • Tiap model dibandingkan dengan model acuan yang sesuai ukurannya, dan ketiga model menggunakan harness serta pengaturan decoding yang sama
  • Ornith-1.0-9B

    • Pada Terminal-Bench 2.1 mencatat 43.1 menurut standar Terminus-2 dan 40.6 menurut standar Claude Code
    • Mencatat SWE-bench Verified 69.4, SWE-bench Pro 42.9, dan SWE-bench Multilingual 52
    • Mencatat NL2Repo 27.2 dan Claw-eval Avg 63.1
    • Untuk SWE Atlas mencatat QnA 17.9, RF 16.6, dan TW 15.3
  • Ornith-1.0-35B

    • Pada Terminal-Bench 2.1 mencatat 64.2 menurut standar Terminus-2 dan 62.8 menurut standar Claude Code
    • Mencatat SWE-bench Verified 75.6, SWE-bench Pro 50.4, dan SWE-bench Multilingual 69.3
    • Mencatat NL2Repo 34.6 dan Claw-eval Avg 69.8
    • Untuk SWE Atlas mencatat QnA 37.1, RF 29.7, dan TW 27.8
  • Ornith-1.0-397B

    • Pada Terminal-Bench 2.1 mencatat 77.5 menurut standar Terminus-2 dan 78.2 menurut standar Claude Code
    • Mencatat SWE-bench Verified 82.4, SWE-bench Pro 62.2, dan SWE-bench Multilingual 78.9
    • Mencatat NL2Repo 48.2 dan Claw-eval Avg 77.1
    • Untuk SWE Atlas mencatat QnA 41.2, RF 42.6, dan TW 39.1

Pengaturan evaluasi

  • Evaluasi Terminal-Bench 2.1 Terminus-2 menggunakan framework Harbor/Terminus-2, parser=json, temperature=1.0, top_p=1.0, dan context window 128K
    • Tiap eksekusi menggunakan timeout 4 jam, 32 core CPU, 48GB RAM, dan merupakan rata-rata dari 5 kali
    • Qwen chat template disesuaikan untuk konsistensi pelatihan dan inferensi, dan Harbor dimodifikasi agar sesuai dengan key reasoning_content milik vLLM
  • Evaluasi Terminal-Bench 2.1 Claude Code menggunakan Claude Code 2.1.126, parser=json, temperature=1.0, top_p=1.0, max_new_tokens=131072, dan merupakan rata-rata dari 5 kali
  • SWE-bench Verified / Pro / Multilingual menggunakan harness OpenHands, temperature=1.0, top_p=0.95, dan context window 256K
  • SWE Atlas QnA / RF / TW menggunakan harness mini-SWE-agent, temperature=1.0, top_p=0.95, dan context window 128K, serta merupakan rata-rata dari 5 kali
  • NL2Repo menggunakan temperature=1.0, top_p=1.0, context 400K, output 48K, dan anti-hacking filters
  • ClawEval adalah benchmark kode berbasis agen berdasarkan distribusi tugas pengguna nyata, menggunakan temperature=0.6 dan context 256K

Menjalankan model dan checkpoint

  • Ornith-1.0 adalah reasoning model dan secara default turn assistant dimulai dengan blok <think> … </think> sebelum mengembalikan jawaban akhir
  • Resep serving menyalakan reasoning parser untuk mengembalikan chain-of-thought di field reasoning_content terpisah, dan menyalakan tool-call parser untuk mengekspos blok <tool_call> sebagai tool_calls bergaya OpenAI
  • Versi runtime yang dibutuhkan adalah sebagai berikut
    • Transformers ≥ 5.8.1
    • vLLM ≥ 0.19.1
    • SGLang ≥ 0.5.9
  • Parameter sampling yang direkomendasikan adalah temperature=0.6, top_p=0.95, top_k=20
    • Untuk mereproduksi pengaturan benchmark yang dilaporkan, gunakan temperature=1.0
  • Semua checkpoint mengekspos antarmuka kompatibel OpenAI yang sama dan mendukung context window 256K, yaitu 262.144 token
    • Dense 9B cocok untuk satu GPU 80GB
    • Checkpoint MoE di-shard ke node multi-GPU dengan tensor parallelism
  • Checkpoint yang disediakan
    • Ornith-1.0-9B: Dense sekitar 9B, bf16, untuk serving satu GPU dan fine-tuning
    • Ornith-1.0-9B-GGUF: Dense sekitar 9B, kuantisasi GGUF, untuk inferensi lokal dengan llama.cpp / Ollama
    • Ornith-1.0-35B: MoE 35B, bf16, untuk serving multi-GPU full-precision
    • Ornith-1.0-35B-FP8: MoE 35B, FP8, untuk serving dengan pengurangan VRAM sekitar setengah pada GPU yang mendukung FP8
    • Ornith-1.0-35B-GGUF: MoE 35B, kuantisasi GGUF, untuk inferensi lokal dengan llama.cpp / Ollama
    • Ornith-1.0-397B: MoE 397B, bf16, untuk serving full-precision pada node multi-GPU
    • Ornith-1.0-397B-FP8: MoE 397B, FP8, untuk serving yang efisien memori pada GPU yang mendukung FP8

API kompatibel OpenAI dan penggunaan agen

  • Setelah server vLLM atau SGLang berjalan, endpoint /v1/chat/completions dapat dipanggil dengan klien kompatibel OpenAI
  • Contoh server lokal menggunakan base_url="http://localhost:8000/v1";, api_key="EMPTY", model="Ornith-1.0"
  • Dalam pesan respons, reasoning_content berisi trace penalaran <think>, sementara content berisi jawaban akhir
  • Jika tool diberikan, Ornith-1.0 akan menghasilkan pemanggilan fungsi yang well-formed, dan server akan mem-parsing-nya ke field tool_calls standar
  • SDK kompatibel OpenAI dapat menggunakan endpoint yang sama dari Python, Node.js, curl, dan lainnya

Framework yang didukung dan coding CLI

  • Ornith-1.0 dioptimalkan untuk pemanggilan tool dan kemampuan coding berbasis agen
  • Karena menyediakan endpoint kompatibel OpenAI dan tool calling, model ini dapat digunakan bersama framework agen standar
  • README menyertakan contoh koneksi tool melalui server MCP dan contoh pemanggilan tool fungsi run_shell
  • Harness agen dan runtime yang dicontohkan adalah sebagai berikut
    • Hermes Agent: pengaturan OPENAI_BASE_URL, OPENAI_API_KEY, MODEL="Ornith-1.0"
    • OpenHands: menggunakan path openai/Ornith-1.0 milik LiteLLM dan base URL lokal
    • llama.cpp / Ollama: memuat build GGUF 9B dan 35B untuk inferensi lokal
    • Unsloth Studio: inferensi lokal atau fine-tuning dengan FastLanguageModel.from_pretrained
    • OpenClaw: menetapkan endpoint kompatibel OpenAI ke server Ornith
  • Coding CLI dapat dihubungkan dengan menetapkan OPENAI_BASE_URL dan OPENAI_API_KEY ke endpoint Ornith-1.0
  • Contoh OpenCode mendaftarkan provider Ornith lokal di ~/.config/opencode/opencode.json dan menggunakan model Ornith-1.0

1 komentar

 
GN⁺ 3 jam lalu
Opini Hacker News
  • Diskusi sebelumnya: https://news.ycombinator.com/item?id=48709744
    https://swelljoe.com/post/will-it-mythos/: “Kinerjanya cenderung kurang baik; hanya menemukan satu bug yang juga ditemukan oleh hampir semua model. Padahal performa benchmark lainnya sangat bagus dibanding ukurannya. […] Di chat tanpa tool pun performanya buruk, dan cukup rajin menunjukkan halusinasi. Saat ini saya sedang melakukan reproduksi dengan memberi akses tool penuh termasuk bash/Python; dengan begitu model ini mungkin bisa kompetitif”

    • Aneh rasanya pada 2026 ada pernyataan “performanya buruk di chat tanpa tool” yang dianggap serius. Saya belum mencoba fine-tuning ini sendiri jadi tidak tahu apakah bagus, tetapi jelas tidak masuk akal menguji model agentic tanpa akses tool lalu berharap hasilnya bagus, bukan? Saya tidak paham sebenarnya apa yang diuji
    • Benchmark itu menempatkan Kimi K2.6 dan K2.7 Code hampir di peringkat terbawah. Keduanya lebih rendah daripada Ornith 35B, dan menilai Gemma 4 26B jauh lebih tinggi daripada GLM-5.2. Hasilnya tidak terlalu meyakinkan
  • Ini adalah fine-tuning Qwen pertama yang tidak langsung ditolak oleh komunitas LLM lokal, dan dalam beberapa kasus bahkan direkomendasikan. Dari penggunaan terbatas saya, hasilnya oke dan memberikan solusi kreatif untuk masalah coding. Saya tidak berharap model 9–35B membuatkan seluruh aplikasi dengan sekali klik. Sebagian besar keluhan tampaknya berasal dari ekspektasi seperti itu

    • Komunitas LLM lokal sudah dibanjiri mantan pedagang kripto/NFT, yang juga membawa budaya hiperbola dari komunitas sebelumnya. Masih ada teknisi yang mendalam, tetapi mereka makin tertutup oleh suara pemasaran yang kosong
    • Sayangnya sejak awal memang terus seperti ini. Tidak ada salahnya mencoba model lokal untuk tugas lokal, dengan pengaman yang wajar
      Untuk sebagian besar model seperti Qwen, Gemma, Llama, dan gpt-oss, saat ini benar-benar merepotkan mencari jebakan kecil seperti token khusus, struktur prompt, dan preferensi model. Meski begitu, di lingkungan eksekusi agentic yang disesuaikan dengan prompt dan parameter yang dipelajari susah payah, kita bisa mendapatkan model yang berjalan sangat baik
    • Keadaannya tidak membaik. Mayoritas komunitas LocalLLama tidak terlalu menyukai ini, hanya beberapa pendatang baru yang memposting
    • Sepertinya kita berada di komunitas yang berbeda. Model Qwen termasuk yang paling sering direkomendasikan di antara model yang benar-benar bisa dijalankan pada hardware lokal yang dapat diakses publik
  • Kenapa model “self-improving” seperti ini pada akhirnya tidak terus membaik sampai melampaui model mutakhir?

  • Dari pengujian langsung saya, Ornith-1.0 35B sedikit lebih baik daripada Qwen-3.6 35B
    Pengujian saya berupa tugas menambahkan atau memperbaiki fitur pada codebase C++ besar. Yang menarik, model ini jauh lebih cepat daripada Qwen3.6 35B. Sepertinya Ornith menghasilkan proses berpikir yang lebih pendek
    Dalam pengujian saya, kecepatannya menghasilkan jawaban sampai 3 kali lebih cepat. Saya menggunakannya dengan llamacpp dan codex-cli

  • Saya menguji Ornith-1.0 35B dengan kuantisasi blok FP8 buatan sendiri, dan saya menyukainya. Di RTX PRO 6000(sm120) dengan vLLM, hasilnya lebih dari 200 token/detik, dan selama beberapa hari terakhir saya menjalankan lebih dari 140 juta token cache untuk tugas coding bergaya agen
    Secara kasar terlihat berada di antara Qwen 3.6 35B-A3B dan 27B, tetapi sisi bagusnya adalah jauh lebih jarang berpikir berlebihan atau terjebak di loop yang sama dibanding Qwen 3.6. Dari trace pemikirannya, saya suka template pendekatan dekomposisinya
    Pada codebase Go berukuran menengah, model ini bagus untuk analisis dasar, penanganan tugas, dan beberapa perubahan frontend/backend, tetapi pada tugas implementasi kernel sederhana yang lebih panjang, model ini benar-benar mentok. Saya menjalankannya sekitar 100 iterasi di lingkungan eksekusi Pi Agent dan hasilnya berantakan; tugas seperti ini termasuk jenis yang bisa diselesaikan model terbuka yang lebih kuat seperti Kimi K2.6 atau GLM 5.2

    • Pada ukuran model ini, lingkungan eksekusi tampaknya lebih penting. Secara pribadi, untuk qwen3.6 27b saya pindah dari pi mentah ke little-coder; layak dilihat
  • Bisa jelaskan apa yang terjadi di sini? Apakah ini hanya Qwen yang diganti kulitnya? Siapa deepreinforce-ai, dan kenapa model ini tidak ada di situs web mereka?
    Saya penasaran bagaimana caranya melakukan self-improvement. Apakah model di disk berubah, atau hanya menjadi lebih baik selama satu eksekusi konteks?

    • Tidak ada self-improvement. Judulnya menyesatkan
      Menurut saya, mereka melatihnya dengan menjalankan reinforcement learning sendiri di atas Qwen dan Gemma 4. Saya tidak tahu bagaimana bobot keduanya digabungkan, dan juga tidak yakin apakah Qwen dijadikan basis lalu Gemma 4 dipakai sebagai bantuan pelatihan. Di sini “self-improving” tampaknya merujuk pada proses pelatihan, bukan cara bobot digunakan
  • Ini terlihat seperti versi Qwen atau Gemma 4 yang hanya dioptimalkan untuk benchmark

    • Kalau begitu, cukup mengesankan bahwa mereka mendorong Qwen lebih jauh, padahal Qwen sudah cukup dioptimalkan untuk benchmark
  • “Dense 9B muat di satu GPU 80GB”
    Orang biasa seperti kita tidak bisa memakainya

    • Terlihat aneh. Model 9B biasanya muat di GPU 24GB bahkan tanpa kuantisasi
    • Versi kuantisasi sudah tersedia
  • Saya sudah mencoba banyak model lokal dan semuanya terasa seperti mainan. Tapi yang ini benar-benar terasa berguna. Saya juga dengar Qwen 36-A3B bagus, tapi belum sempat mencobanya

  • Sistem self-improving menarik, tetapi membuat pelacakan asal-usul dan tata kelola jauh lebih sulit. Ketika agen dapat mengubah perilakunya sendiri seiring waktu, memahami mengapa ia bertindak dengan cara tertentu menjadi makin penting