Ouroboros, open-source buatan pengembang Korea, menempati peringkat 1 benchmark pemodelan dan simulasi, mengungguli Claude Plan Mode

(github.com/Q00)

3 poin oleh shaun0927 2 jam lalu | Belum ada komentar. | Bagikan ke WhatsApp

Proyek open-source Ouroboros yang dibuat oleh seorang pengembang Korea
baru-baru ini mencatat peringkat 1 secara keseluruhan pada benchmark "AI-assisted discrete-event simulation" yang baru dirilis.

Hal yang sangat berarti adalah, meskipun dijalankan di lingkungan Claude Max yang sama, hasilnya tetap lebih baik daripada plan mode milik Claude sendiri.

Benchmark ini bukan sekadar tes kemampuan coding, melainkan tugas tingkat tinggi yang mengevaluasi seberapa baik agen AI dapat benar-benar memahami sistem,
memodelkannya, dan menghasilkan keluaran simulasi yang dapat dijalankan.

Tugasnya berfokus pada sistem transportasi tambang, dan secara garis besar menuntut kemampuan seperti berikut.

memahami struktur sistem seperti truk tambang, titik pemuatan, titik pembongkaran, rute, antrean, dan lain-lain
mengabstraksikan proses kompleks di dunia nyata menjadi model discrete-event simulation
merancang event apa yang terjadi, status apa yang berubah, dan metrik apa yang akan diukur
mengimplementasikan kode simulasi yang benar-benar bisa dijalankan
menafsirkan hasil seperti bottleneck, throughput, dan waktu tunggu
menghasilkan output yang mudah dipahami manusia seperti topology diagram dan animation

Ouroboros dijalankan sebagai workflow ooo di dalam Claude Code,
dan hasil pengajuannya melampaui sekadar implementasi kode sederhana dengan menyertakan animation truk tambang yang mengangkut bijih serta topology diagram.

Hal menarik lainnya adalah, meskipun MCP server gagal saat eksekusi,
Ouroboros melakukan fallback dengan pendekatan berbasis skills dan tetap menghasilkan hasil yang baik.
Secara pribadi, saya merasa bagian ini sangat bermakna.
Karena di lingkungan nyata, workflow AI tidak selalu berjalan ideal,
sehingga kemampuan untuk pulih saat gagal dan terus melanjutkan melalui jalur lain menjadi sangat penting.

Arah yang dituju Ouroboros bukan sekadar "membuat AI menulis kode".

Ia membangun workflow di mana AI memperjelas masalah, menyusun rencana, mengeksekusi, pulih dari kegagalan, mengevaluasi hasil,
dan bila perlu memperbaikinya lagi.

Benchmark kali ini tampaknya menjadi validasi yang baik bahwa pendekatan seperti itu memang bermakna bahkan dalam penyelesaian masalah kompleks di dunia nyata.

Satu hal menarik lainnya adalah, pendekatan yang hanya menambahkan banyak instruksi atau skill besar tidak selalu menghasilkan performa yang baik.
Dalam hasil kali ini, beberapa pendekatan berbasis fat skills (misalnya superpowers) bahkan menunjukkan performa yang lebih rendah daripada plan mode dasar,
sementara workflow terstruktur seperti Ouroboros—yang menata definisi masalah, perencanaan, eksekusi, evaluasi, dan pemulihan—justru memberikan hasil yang lebih baik.

Secara pribadi, saya merasa bangga karena ini adalah "contoh open-source workflow AI buatan pengembang Korea
yang melampaui plan mode dasar Anthropic".
Namun yang lebih penting, ini tampak seperti hasil eksperimen kecil tentang
struktur seperti apa yang perlu dimiliki agen AI ke depan untuk benar-benar menyelesaikan masalah nyata.

Ouroboros GitHub: https://github.com/Q00/ouroboros
Benchmark: https://lnkd.in/dhGMsGVD

Ouroboros, open-source buatan pengembang Korea, menempati peringkat 1 benchmark pemodelan dan simulasi, mengungguli Claude Plan Mode

Bacaan terkait

Belum ada komentar.