OpenRouter Fusion API
(openrouter.ai)- Berangkat dari temuan bahwa mensintesis(synthesize) hasil dari beberapa model dapat jauh melampaui performa model tunggal
- Metode multi-model deliberation di mana beberapa model pakar menganalisis satu prompt secara paralel, lalu judge model mensintesis hasilnya untuk menyusun jawaban akhir
- Model panel melakukan analisis paralel dengan web search dan web fetch diaktifkan, sementara judge model merangkum dalam analisis terstruktur berisi konsensus, kontradiksi, kecocokan parsial, insight unik, blind spot
- Default-nya adalah preset Quality, dengan opsi beralih ke preset Budget untuk model yang lebih murah atau mendefinisikan ulang panel dan judge sepenuhnya lewat field plugin fusion
- Cocok untuk riset, ulasan pakar, dan situasi ketika biaya jawaban yang salah lebih besar daripada biaya penyelesaian tambahan
- Karena semua anggota panel dan pemanggilan judge dijalankan, biaya permintaan dihitung bukan sebagai model tunggal melainkan akumulasi completion individual
Cara kerja
- Mengubah satu prompt menjadi multi-model deliberation skala kecil
- Panel model pakar menganalisis prompt secara paralel dengan web search dan web fetch aktif
- Judge model mensintesis respons panel untuk menghasilkan analisis terstruktur menjadi konsensus(consensus), kontradiksi(contradictions), cakupan parsial(partial coverage), insight unik(unique insights), blind spot
- Berdasarkan analisis terstruktur tersebut, judge model menulis jawaban akhir
Komposisi dan pengaturan panel
- Panel default menggunakan preset Quality
- Jika menginginkan anggota yang lebih murah, bisa beralih ke preset Budget
- Field
analysis_modelsdanmodelpada plugin fusion memungkinkan panel dan judge didefinisikan ulang(override) sepenuhnya
- Disarankan digunakan saat model tunggal tidak cukup
- Cocok untuk riset, ulasan pakar, atau area ketika biaya jawaban salah melebihi biaya completion tambahan
Harga dan batasan
- Karena semua anggota panel dan pemanggilan judge dijalankan, biaya permintaan dihitung bukan berdasarkan satu model melainkan total seluruh completion individual
- Model yang benar-benar dijalankan bisa dilihat di halaman Activity
- Batas konteks berbeda tergantung model yang dipilih
Preset menggunakan 6 model
- Kualitas tertinggi: Claude Opus, OpenAI GPT, Google Gemini Pro
- Biaya terendah: Google Gemini Flash, DeepSeek V4 Flash, MoonshotAI Kimi
Pengumuman terkait: "Melampaui performa frontier dengan Fusion"
- Alat yang mensintesis hasil dari beberapa model untuk melampaui performa model tunggal, dengan kemampuan memilih langsung panel model peserta dan judge model yang menggabungkan hasilnya, lalu memanggilnya seperti model tunggal
- Dalam pengukuran 100 tugas deep research pada benchmark DRACO, panel secara konsisten mengungguli model individual
- Fusi Fable 5 + GPT-5.5 mencapai 69.0%, melampaui semua model individual termasuk Fable 5 tunggal(65.3%)
- Panel berbiaya rendah (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro) mendekati skor Fable 5 dalam selisih kurang dari 1% dengan biaya 50%, serta melampaui GPT-5.5 dan Opus 4.8
- Prompt dikirim secara paralel ke model panel, judge menganalisis titik konsensus, kontradiksi, insight unik, dan blind spot, lalu model yang dipanggil menyusun jawaban akhir berdasarkan itu
- Seluruh pipeline dijalankan server-side sehingga bisa digunakan dengan cara yang sama seperti pemanggilan model individual
- Bahkan saat Opus 4.8 difusikan dengan dirinya sendiri, nilainya naik ke 65.5% dibanding model tunggal(58.8%), mengonfirmasi efek dari tahap synthesis itu sendiri
- Ditemukan risiko kontaminasi ketika model panel mencari rubrik penilaian secara online; ini bisa diblokir dengan satu baris pengaturan daftar pengecualian untuk web search dan web fetch
- Empat cara penggunaan: Chatroom(tanpa perlu kode), Model slug(ganti string), Server tool(kontrol tingkat tertinggi), Plugin(menentukan panel)
- Bukan pengganti langsung untuk Fable; tugas long-horizon yang menjadi keunggulan Fable tidak termasuk, dan pada coding digunakan sebagai alat pemanggilan selektif
1 komentar
Pendapat Hacker News
Beberapa bulan lalu aku sempat membuat Fusion dengan MCP yang menggunakan OpenRouter. Idenya adalah menyediakan “panel ahli” untuk didatangi saat Claude buntu
Setelah banyak pengujian dan benchmark, ternyata menyuruh satu model menilai jawaban model lain tidak benar-benar menghasilkan jawaban yang lebih baik. Pada akhirnya, ini sama saja seperti menanyakan “seberapa mirip jawaban ini dengan jawaban yang akan kamu berikan,” dan putaran tambahan atau solusi “yang jelas” yang muncul pada praktiknya mirip dengan menaikkan temperature. Aku memang menemukan solusinya, tapi biayanya benar-benar tidak masuk akal. Kalau pendekatan ini makin banyak diperhatikan, mungkin aku juga akan merilis punyaku
Aku secara eksplisit menyuruh mereka mencari masalah berdasarkan tingkat keparahan, lalu masalah-masalah itu dilewatkan ke panel model penilai, dan hanya yang melewati ambang tertentu yang diperbaiki di respons asli. Hal yang paling meningkatkan hasil adalah menyuruh model penilai mengevaluasi kebenaran dan sumbu “kegunaan/perlukah diperbaiki” secara terpisah. Soalnya, kalau dipaksa mencari masalah, mereka akhirnya cuma mengkritik hal-hal sepele, dan sumbu kebenaran juga lebih bagus untuk mengevaluasi model pendeteksi masalah yang sesuai dengan kebutuhanku. Ini juga diterapkan sebagian saat menghasilkan penjelasan seperti ini: https://hanzirama.com/character/%E6%9D%A5#explain — sekarang situs ini malah jadi produk sampingan kecil dari perangkat evaluasi LLM milikku. Kalau butuh kualitas terbaik, kemungkinan besar harus mengunci provider di OpenRouter.
:exactosaja tidak cukup untuk mendapatkan hasil bagus yang konsisten, terutama pada model open-weightAku penasaran apakah ada orang lain yang juga merasa bahwa jika kita bisa mengelabui LLM ke mode “merasa lebih unggul,” mereka bisa jadi cukup kejam
Situasinya sudah benar-benar berbeda dibanding dua tahun lalu, jadi rasanya layak ditinjau lagi. [0] https://github.com/Ceroxylon/konsensis
Aku menguji dua model penilai di aplikasiku. Yang pertama adalah model penilai untuk model penyesuaian resume, yang membandingkan resume hasil dengan resume asli dan lowongan kerja, lalu memberi nilai kecocokan dan kejujuran dari 10; ini bekerja dengan baik dan berguna. Yang kedua adalah model peninjau untuk platform bot trading LLM, yang meninjau keputusan model utama. Di sini, karena bot harus menangani ambiguitas, ini justru bisa merugikan kecuali ia menangkap kesalahan yang jelas, seperti menilai berdasarkan harga candle yang salah atau melakukan BUY saat seharusnya SELL. Pertama, ada tambahan latensi keputusan, sehingga pada Gemma 4 31B, 30 detik menjadi 60 detik seperti dua kali lipat. Selain itu, model peninjau hanya dijalankan untuk keputusan BUY/SELL dan tidak untuk HOLD, jadi karena latensi dan biaya, bot bisa menjadi terlalu berhati-hati alih-alih meningkatkan jumlah transaksi. Jadi kalau jawaban tidak mudah diverifikasi, menurutku lebih baik memprosesnya sekali jalan dengan model yang lebih baik daripada memakai model peninjau. Kalau begitu, juga jadi tidak jelas kenapa model penilai dibutuhkan, dan kenapa agen yang sama tidak meninjau dirinya sendiri saja. Lagi pula, kalau membaca teks penalaran dari model reasoning seperti Gemma 4, model itu sebenarnya sudah meninjau dirinya sendiri. Bisa dibilang ia sudah berusaha semaksimal mungkin, jadi peninjauan ulang tidak menambah banyak informasi. Eksperimen yang menarik, tapi harus dievaluasi per kasus
Dulu aku punya prompt seperti ini yang kupakai hanya dengan Claude Code
Mari meninjau masalah arsitektur. Jalankan 10 agen dan minta masing-masing membuat persona, lalu meninjau
_api.godan menulis ulasan kereviews/-review.md. Minta setiap agen melihat ringkasan di depan tiap ulasan, lalu merespons 3 ulasan pilihan mereka secara round-robin dan menulisnya keresponse/--response.md. Setelah itu, minta mereka menulis sanggahan atas respons tersebut kerebuttals/-rebuttal.md. Terakhir, minta tiap agen menjalankan lagi agen untuk meninjau ulasan, respons, dan sanggahan mereka sendiri, lalu merangkum hasilnya kefindings/-findings.md. Terakhir, agen lain menggabungkan hasil tersebut dan menuliskannya kereview-findings.md, termasuk versi yang ringkas. Cara ini bekerja baik pada model terdepan maupun model yang di-host secara lokal. Terakhir kali kupakai itu dengan Qwen 3.5Apakah kamu meninjau semua file yang dihasilkan untuk memastikan tidak ada halusinasi, atau hanya melihat file hasil ringkas terakhir? Aku juga penasaran apakah maksudnya adalah halusinasi dari banyak agen akan saling meniadakan sehingga pada akhirnya hanya kebenaran yang tersisa. Aku juga ingin tahu apakah kamu pernah melihat isi yang sangat keliru di versi akhirnya. Aku sempat khawatir soal biaya, tapi kalau memakai model yang di-host lokal, bagian itu sepertinya lebih ringan. Hanya saja, bukankah model yang di-host lokal masih punya masalah dalam menjalankan perintah lokal atau mengakses internet? Kalau begitu, apakah pendekatannya berjalan hanya dengan konteks file tersebut tanpa merujuk ke bagian lain dari proyek?
Konteks latar belakang ada di sini: Surpassing Frontier Performance with Fusion
https://news.ycombinator.com/item?id=48525392
Tempat dengan UI yang sedikit lebih baik adalah https://openrouter.ai/fusion. Fusion API dari OpenRouter mengirim permintaan ke beberapa model secara bersamaan, lalu model penilai menggabungkan jawabannya untuk membuat respons akhir. Katanya ini sangat meningkatkan performa dengan trade-off waktu yang lebih lama. Setidaknya begitu pada benchmark deep research yang mereka uji. Preset Budget terdiri dari 3 model yang lebih murah, dan pada benchmark tersebut kira-kira setara dengan Fable tetapi biayanya setengahnya. Preset Quality terdiri dari 3 model mahal, mengungguli Fable tetapi biayanya dua kali lipat Fable. Grafik Pareto: https://openrouter.ai/blog/images/blog/fusion-benchmark-cost.... Menariknya, menggabungkan model yang sama dengan dirinya sendiri juga meningkatkan performa. 2xOpus4.8 pada benchmark kira-kira setara dengan Fable, tetapi biayanya dua kali lipat Fable. Mencampur model yang berbeda memberi tambahan keuntungan sedikit lebih besar. Keuntungan utamanya tampaknya datang dari tambahan komputasi saat waktu inferensi. Akan bagus jika muncul lebih banyak riset yang berfokus pada model murah terbaru, misalnya kasus menggabungkan DSV4 dengan dirinya sendiri atau dengan Mimo, dan saya juga ingin melihat trade-off antara fusion sebagai komputasi paralel saat inferensi versus peningkatan jumlah inferensi atau jumlah giliran
Pada dasarnya ini adalah mengambil lebih banyak sampel dari ruang keluaran yang mungkin. Jika sebuah model bisa menyelesaikan suatu tugas dengan probabilitas 60%, Anda bisa mengambil 5–10 sampel dan menerapkan semacam voting mayoritas. Ini menjadi lebih jarang dipakai ketika akurasi model meningkat untuk masalah yang mudah digabungkan hasilnya, tetapi jika ada penilai yang lebih kompleks, yaitu LLM yang kompeten, performa masih bisa ditingkatkan hanya dengan mengambil lebih banyak sampel dari ruang keluaran dan memilih bagian yang bagus
Bagi saya ini terdengar seperti Gemini lebih lemah untuk tugas tersebut, tetapi lebih pandai meyakinkan model penilai tentang solusinya sendiri. Dan fakta bahwa panel dua Opus 4.8 hampir persis setara dengan satu Fable 5 juga terasa mencurigakan. Apakah ada cara mengetahui apakah Anthropic diam-diam memang melakukan hal seperti ini di belakang layar?
Saya menjalankan evaluasi cepat untuk melihat perbedaan kualitatifnya dibanding memanggil Opus 4.7 atau GPT 5.5 secara langsung
Sesuai dugaan, Fusion 7x lebih lambat dan 4x lebih mahal. Ini bukan untuk mengkritiknya, saya hanya menganggap Fusion masuk kategori “dipakai hanya saat perlu”. https://3fpi5avcqq.evvl.io/
Ide intinya tampaknya adalah memakai Fusion dengan model yang lebih sederhana dan murah
Saya penasaran bagaimana versi mereka akan bertahan dalam penggunaan nyata
Saya banyak memikirkan masalah ini, dan penyederhanaan yang saya pakai untuk memahaminya adalah melihat setiap model sebagai distribusi berbentuk lonceng di atas pengetahuan manusia, dan tiap model punya distribusi yang berbeda
Dengan memakai banyak model, Anda bisa menggeser distribusi model lain menggunakan teks yang berada di luar kurva aslinya. Tetapi kalau dipikir lagi, saya bertanya-tanya apakah SFP dan reinforcement learning sudah cukup mengubah distribusi teks asli sehingga keluaran gabungan model-model itu benar-benar cukup beragam untuk menjadi sesuatu yang lebih baik, atau justru hanya menjadi ruang gema. Belum ada cara untuk membuktikannya, tetapi saya percaya tidak demikian
Sebagai hasil anekdotal tentang Fusion, saya menjalankan kueri yang sama yang saya pakai untuk Fable ke OpenRouter Fusion, dan hasilnya lebih buruk
Fable tampaknya menangkap lapisan pengetahuan/kecerdasan yang cukup dalam, bukan sekadar memberi jawaban yang terdengar masuk akal, tetapi juga menyarankan prioritas untuk item penyelesaian dan bahkan menyarankan agar beberapa item dibuang, yang bagi saya cukup masuk akal. Sebaliknya, Fusion terasa seperti versi yang sedikit lebih beragam dari jenis jawaban yang dihasilkan model state-of-the-art sebelum Fable, dan dalam pengujian saya yang sangat terbatas saat saya punya akses ke Fable, Fusion tidak mencapai kedalaman yang bisa dicapai Fable
Akhir pekan ini, terinspirasi oleh model OpenRouter Fusion yang baru, saya mengerjakan apakah ini bisa dijalankan di Claude Code dan dibuat agar mudah dicoba orang lain
Yang saya buat adalah claude-fusion-launcher — menjalankan Claude Code di atas panel model, bukan satu model tunggal. Juga menampilkan biaya. https://github.com/smorinlabs/claude-fusion-launcher
Saya penasaran apakah menghasilkan ulang prompt yang sama beberapa kali dengan model yang sama, pada temperatur yang lebih tinggi, setara dengan menjalankan model yang berbeda
Saya curiga bahwa sebagian besar variasi yang terasa di antara model-model frontier yang berbeda sebenarnya berasal dari keacakan pada temperatur yang tidak nol. Model-model ini tampaknya dilatih untuk mengembalikan jumlah item yang enak dilihat dan bulat seperti 5, 10, atau 15. Mungkin itu akibat interferensi dari pelatihan pada materi pemasaran. Selain itu, recall dalam konteks besar juga jauh dari 100%. Jadi jika ada 27 bug dalam kode, baik Anda memakai banyak model maupun memanggil model yang sama berulang kali, pada tiap eksekusi Anda bisa menemukan 10 masalah yang berbeda dari 27 itu
Saya penasaran apakah ada penelitian formal di bidang ini. Saya juga pernah mencoba variasi dari pendekatan seperti ini, tetapi sulit untuk mengatakan dengan yakin bahwa hasilnya lebih baik.
Saya khawatir ini mirip seperti menanyakan strategi optimal untuk bisnis kepada 2–3 konsultan secara terpisah. Saya tidak yakin apakah menggabungkan jawabannya benar-benar menghasilkan sesuatu yang lebih baik.
Saya juga telah meluncurkan fitur serupa di TrustedRouter saya sebagai open source, bahkan dengan enkripsi end-to-end: https://trustedrouter.com/