OpenRouter Fusion API

(openrouter.ai)

15 poin oleh GN⁺ 2026-06-16 | 1 komentar | Bagikan ke WhatsApp

Berangkat dari temuan bahwa mensintesis(synthesize) hasil dari beberapa model dapat jauh melampaui performa model tunggal
Metode multi-model deliberation di mana beberapa model pakar menganalisis satu prompt secara paralel, lalu judge model mensintesis hasilnya untuk menyusun jawaban akhir
Model panel melakukan analisis paralel dengan web search dan web fetch diaktifkan, sementara judge model merangkum dalam analisis terstruktur berisi konsensus, kontradiksi, kecocokan parsial, insight unik, blind spot
Default-nya adalah preset Quality, dengan opsi beralih ke preset Budget untuk model yang lebih murah atau mendefinisikan ulang panel dan judge sepenuhnya lewat field plugin fusion
Cocok untuk riset, ulasan pakar, dan situasi ketika biaya jawaban yang salah lebih besar daripada biaya penyelesaian tambahan
Karena semua anggota panel dan pemanggilan judge dijalankan, biaya permintaan dihitung bukan sebagai model tunggal melainkan akumulasi completion individual

Cara kerja

Mengubah satu prompt menjadi multi-model deliberation skala kecil
- Panel model pakar menganalisis prompt secara paralel dengan web search dan web fetch aktif
- Judge model mensintesis respons panel untuk menghasilkan analisis terstruktur menjadi konsensus(consensus), kontradiksi(contradictions), cakupan parsial(partial coverage), insight unik(unique insights), blind spot
- Berdasarkan analisis terstruktur tersebut, judge model menulis jawaban akhir

Komposisi dan pengaturan panel

Panel default menggunakan preset Quality
- Jika menginginkan anggota yang lebih murah, bisa beralih ke preset Budget
- Field analysis_models dan model pada plugin fusion memungkinkan panel dan judge didefinisikan ulang(override) sepenuhnya
Disarankan digunakan saat model tunggal tidak cukup
- Cocok untuk riset, ulasan pakar, atau area ketika biaya jawaban salah melebihi biaya completion tambahan

Harga dan batasan

Karena semua anggota panel dan pemanggilan judge dijalankan, biaya permintaan dihitung bukan berdasarkan satu model melainkan total seluruh completion individual
- Model yang benar-benar dijalankan bisa dilihat di halaman Activity
Batas konteks berbeda tergantung model yang dipilih

Preset menggunakan 6 model

Kualitas tertinggi: Claude Opus, OpenAI GPT, Google Gemini Pro
Biaya terendah: Google Gemini Flash, DeepSeek V4 Flash, MoonshotAI Kimi

Pengumuman terkait: "Melampaui performa frontier dengan Fusion"

Alat yang mensintesis hasil dari beberapa model untuk melampaui performa model tunggal, dengan kemampuan memilih langsung panel model peserta dan judge model yang menggabungkan hasilnya, lalu memanggilnya seperti model tunggal
Dalam pengukuran 100 tugas deep research pada benchmark DRACO, panel secara konsisten mengungguli model individual
- Fusi Fable 5 + GPT-5.5 mencapai 69.0%, melampaui semua model individual termasuk Fable 5 tunggal(65.3%)
- Panel berbiaya rendah (Gemini 3 Flash + Kimi K2.6 + DeepSeek V4 Pro) mendekati skor Fable 5 dalam selisih kurang dari 1% dengan biaya 50%, serta melampaui GPT-5.5 dan Opus 4.8
Prompt dikirim secara paralel ke model panel, judge menganalisis titik konsensus, kontradiksi, insight unik, dan blind spot, lalu model yang dipanggil menyusun jawaban akhir berdasarkan itu
Seluruh pipeline dijalankan server-side sehingga bisa digunakan dengan cara yang sama seperti pemanggilan model individual
Bahkan saat Opus 4.8 difusikan dengan dirinya sendiri, nilainya naik ke 65.5% dibanding model tunggal(58.8%), mengonfirmasi efek dari tahap synthesis itu sendiri
Ditemukan risiko kontaminasi ketika model panel mencari rubrik penilaian secara online; ini bisa diblokir dengan satu baris pengaturan daftar pengecualian untuk web search dan web fetch
Empat cara penggunaan: Chatroom(tanpa perlu kode), Model slug(ganti string), Server tool(kontrol tingkat tertinggi), Plugin(menentukan panel)
Bukan pengganti langsung untuk Fable; tugas long-horizon yang menjadi keunggulan Fable tidak termasuk, dan pada coding digunakan sebagai alat pemanggilan selektif

1 komentar

GN⁺ 2026-06-16

Pendapat Hacker News

Beberapa bulan lalu aku sempat membuat Fusion dengan MCP yang menggunakan OpenRouter. Idenya adalah menyediakan “panel ahli” untuk didatangi saat Claude buntu
Setelah banyak pengujian dan benchmark, ternyata menyuruh satu model menilai jawaban model lain tidak benar-benar menghasilkan jawaban yang lebih baik. Pada akhirnya, ini sama saja seperti menanyakan “seberapa mirip jawaban ini dengan jawaban yang akan kamu berikan,” dan putaran tambahan atau solusi “yang jelas” yang muncul pada praktiknya mirip dengan menaikkan temperature. Aku memang menemukan solusinya, tapi biayanya benar-benar tidak masuk akal. Kalau pendekatan ini makin banyak diperhatikan, mungkin aku juga akan merilis punyaku
- Prompt itu penting. Kalau ingin pendapat dari model lain, tentu sebaiknya mereka menghasilkan jawaban dari awal dengan prompt yang sama lalu disintesiskan, dan kalau mau, mereka juga bisa mengerjakan respons yang sudah ada
  Aku secara eksplisit menyuruh mereka mencari masalah berdasarkan tingkat keparahan, lalu masalah-masalah itu dilewatkan ke panel model penilai, dan hanya yang melewati ambang tertentu yang diperbaiki di respons asli. Hal yang paling meningkatkan hasil adalah menyuruh model penilai mengevaluasi kebenaran dan sumbu “kegunaan/perlukah diperbaiki” secara terpisah. Soalnya, kalau dipaksa mencari masalah, mereka akhirnya cuma mengkritik hal-hal sepele, dan sumbu kebenaran juga lebih bagus untuk mengevaluasi model pendeteksi masalah yang sesuai dengan kebutuhanku. Ini juga diterapkan sebagian saat menghasilkan penjelasan seperti ini: https://hanzirama.com/character/%E6%9D%A5#explain — sekarang situs ini malah jadi produk sampingan kecil dari perangkat evaluasi LLM milikku. Kalau butuh kualitas terbaik, kemungkinan besar harus mengunci provider di OpenRouter. :exacto saja tidak cukup untuk mendapatkan hasil bagus yang konsisten, terutama pada model open-weight
- Aku pernah melihat bahwa kalau model penilai diberi tahu bahwa jawabannya berasal dari LLM lokal kecil dan lemah, mereka membedah jawabannya dengan sangat kejam. Tapi aku belum melakukannya secara sistematis, jadi aku tidak tahu apakah ini bisa digeneralisasi lebih dari sekadar kesan pribadiku
  Aku penasaran apakah ada orang lain yang juga merasa bahwa jika kita bisa mengelabui LLM ke mode “merasa lebih unggul,” mereka bisa jadi cukup kejam
- Aku membuat versi kasar dari ide ini pada 2024[0], dan menarik bahwa gagasan ini masih terus berlanjut. Aku bisa menetapkan ambang kualitas, tapi tampaknya tidak banyak bedanya, dan model-model terdepan hampir selalu saling setuju serta memberi skor tinggi pada jawabannya
  Situasinya sudah benar-benar berbeda dibanding dua tahun lalu, jadi rasanya layak ditinjau lagi. [0] https://github.com/Ceroxylon/konsensis
- Menurutku ini tergantung pada apakah jawabannya bisa diverifikasi
  Aku menguji dua model penilai di aplikasiku. Yang pertama adalah model penilai untuk model penyesuaian resume, yang membandingkan resume hasil dengan resume asli dan lowongan kerja, lalu memberi nilai kecocokan dan kejujuran dari 10; ini bekerja dengan baik dan berguna. Yang kedua adalah model peninjau untuk platform bot trading LLM, yang meninjau keputusan model utama. Di sini, karena bot harus menangani ambiguitas, ini justru bisa merugikan kecuali ia menangkap kesalahan yang jelas, seperti menilai berdasarkan harga candle yang salah atau melakukan BUY saat seharusnya SELL. Pertama, ada tambahan latensi keputusan, sehingga pada Gemma 4 31B, 30 detik menjadi 60 detik seperti dua kali lipat. Selain itu, model peninjau hanya dijalankan untuk keputusan BUY/SELL dan tidak untuk HOLD, jadi karena latensi dan biaya, bot bisa menjadi terlalu berhati-hati alih-alih meningkatkan jumlah transaksi. Jadi kalau jawaban tidak mudah diverifikasi, menurutku lebih baik memprosesnya sekali jalan dengan model yang lebih baik daripada memakai model peninjau. Kalau begitu, juga jadi tidak jelas kenapa model penilai dibutuhkan, dan kenapa agen yang sama tidak meninjau dirinya sendiri saja. Lagi pula, kalau membaca teks penalaran dari model reasoning seperti Gemma 4, model itu sebenarnya sudah meninjau dirinya sendiri. Bisa dibilang ia sudah berusaha semaksimal mungkin, jadi peninjauan ulang tidak menambah banyak informasi. Eksperimen yang menarik, tapi harus dievaluasi per kasus
- Pengalamanku sama. Menemukan jawaban yang secara objektif lebih baik ternyata tidak semudah yang dibayangkan, dan juga mahal serta lambat
Dulu aku punya prompt seperti ini yang kupakai hanya dengan Claude Code
Mari meninjau masalah arsitektur. Jalankan 10 agen dan minta masing-masing membuat persona, lalu meninjau _api.go dan menulis ulasan ke reviews/-review.md. Minta setiap agen melihat ringkasan di depan tiap ulasan, lalu merespons 3 ulasan pilihan mereka secara round-robin dan menulisnya ke response/--response.md. Setelah itu, minta mereka menulis sanggahan atas respons tersebut ke rebuttals/-rebuttal.md. Terakhir, minta tiap agen menjalankan lagi agen untuk meninjau ulasan, respons, dan sanggahan mereka sendiri, lalu merangkum hasilnya ke findings/-findings.md. Terakhir, agen lain menggabungkan hasil tersebut dan menuliskannya ke review-findings.md, termasuk versi yang ringkas. Cara ini bekerja baik pada model terdepan maupun model yang di-host secara lokal. Terakhir kali kupakai itu dengan Qwen 3.5
- Aku belum terbiasa memakai banyak agen dalam satu alur, jadi ada beberapa hal yang bikin penasaran
  Apakah kamu meninjau semua file yang dihasilkan untuk memastikan tidak ada halusinasi, atau hanya melihat file hasil ringkas terakhir? Aku juga penasaran apakah maksudnya adalah halusinasi dari banyak agen akan saling meniadakan sehingga pada akhirnya hanya kebenaran yang tersisa. Aku juga ingin tahu apakah kamu pernah melihat isi yang sangat keliru di versi akhirnya. Aku sempat khawatir soal biaya, tapi kalau memakai model yang di-host lokal, bagian itu sepertinya lebih ringan. Hanya saja, bukankah model yang di-host lokal masih punya masalah dalam menjalankan perintah lokal atau mengakses internet? Kalau begitu, apakah pendekatannya berjalan hanya dengan konteks file tersebut tanpa merujuk ke bagian lain dari proyek?
- Ini terlihat seperti cukup banyak mekanisme dibanding sekadar menjalankan ulasan yang sama n kali lalu menggabungkan hasilnya. Aku penasaran kenapa akhirnya memilih desain seperti ini
Konteks latar belakang ada di sini: Surpassing Frontier Performance with Fusion
https://news.ycombinator.com/item?id=48525392
Tempat dengan UI yang sedikit lebih baik adalah https://openrouter.ai/fusion. Fusion API dari OpenRouter mengirim permintaan ke beberapa model secara bersamaan, lalu model penilai menggabungkan jawabannya untuk membuat respons akhir. Katanya ini sangat meningkatkan performa dengan trade-off waktu yang lebih lama. Setidaknya begitu pada benchmark deep research yang mereka uji. Preset Budget terdiri dari 3 model yang lebih murah, dan pada benchmark tersebut kira-kira setara dengan Fable tetapi biayanya setengahnya. Preset Quality terdiri dari 3 model mahal, mengungguli Fable tetapi biayanya dua kali lipat Fable. Grafik Pareto: https://openrouter.ai/blog/images/blog/fusion-benchmark-cost.... Menariknya, menggabungkan model yang sama dengan dirinya sendiri juga meningkatkan performa. 2xOpus4.8 pada benchmark kira-kira setara dengan Fable, tetapi biayanya dua kali lipat Fable. Mencampur model yang berbeda memberi tambahan keuntungan sedikit lebih besar. Keuntungan utamanya tampaknya datang dari tambahan komputasi saat waktu inferensi. Akan bagus jika muncul lebih banyak riset yang berfokus pada model murah terbaru, misalnya kasus menggabungkan DSV4 dengan dirinya sendiri atau dengan Mimo, dan saya juga ingin melihat trade-off antara fusion sebagai komputasi paralel saat inferensi versus peningkatan jumlah inferensi atau jumlah giliran
- “Menggabungkan model yang sama dengan dirinya sendiri juga meningkatkan performa” adalah pendekatan yang cukup umum pada masa transisi dari GPT-2 ke GPT-3
  Pada dasarnya ini adalah mengambil lebih banyak sampel dari ruang keluaran yang mungkin. Jika sebuah model bisa menyelesaikan suatu tugas dengan probabilitas 60%, Anda bisa mengambil 5–10 sampel dan menerapkan semacam voting mayoritas. Ini menjadi lebih jarang dipakai ketika akurasi model meningkat untuk masalah yang mudah digabungkan hasilnya, tetapi jika ada penilai yang lebih kompleks, yaitu LLM yang kompeten, performa masih bisa ditingkatkan hanya dengan mengambil lebih banyak sampel dari ruang keluaran dan memilih bagian yang bagus
- Menarik bahwa panel Fable 5 + GPT 5.5 cukup jauh mengungguli performa frontier masing-masing, tetapi ketika Gemini dicampurkan, panel tiga model itu tidak menjadi lebih baik dan malah memburuk
  Bagi saya ini terdengar seperti Gemini lebih lemah untuk tugas tersebut, tetapi lebih pandai meyakinkan model penilai tentang solusinya sendiri. Dan fakta bahwa panel dua Opus 4.8 hampir persis setara dengan satu Fable 5 juga terasa mencurigakan. Apakah ada cara mengetahui apakah Anthropic diam-diam memang melakukan hal seperti ini di belakang layar?
- Disayangkan mereka hampir tidak membahas seberapa lama tambahan waktunya karena tahap sintesis. Pada benchmark deep research itu mungkin tidak terlalu penting, tetapi menarik melihat bagaimana ini akan berlaku untuk tugas coding
- Saya tidak tahu apakah ini masih berlaku pada model saat ini, tetapi dalam riset Microsoft beberapa generasi lalu, performa meningkat besar jika model diminta mengulang N kali, dan titik optimalnya adalah 4 kali pengulangan
Saya menjalankan evaluasi cepat untuk melihat perbedaan kualitatifnya dibanding memanggil Opus 4.7 atau GPT 5.5 secara langsung
Sesuai dugaan, Fusion 7x lebih lambat dan 4x lebih mahal. Ini bukan untuk mengkritiknya, saya hanya menganggap Fusion masuk kategori “dipakai hanya saat perlu”. https://3fpi5avcqq.evvl.io/
- Fusion tampak sangat bagus sebagai target distilasi
- Terima kasih sudah membagikan. Kecepatan adalah kekhawatiran terbesar saya, tetapi mereka tidak menyebut bagian itu
- Saya penasaran model apa yang dipakai di bawahnya. Jika Anda memakai default Quality di antarmuka, masuk akal kalau biayanya sekitar 4x karena strukturnya adalah 3 model frontier dengan salah satunya menjadi penilai
  Ide intinya tampaknya adalah memakai Fusion dengan model yang lebih sederhana dan murah
- Menurut saya ini cukup berlawanan dengan intuisi. Mungkin tidak mudah menemukan framing dan struktur yang tepat agar ini bekerja baik. Model-model ini benar-benar tidak suka bekerja sama dengan baik
  Saya penasaran bagaimana versi mereka akan bertahan dalam penggunaan nyata
Saya banyak memikirkan masalah ini, dan penyederhanaan yang saya pakai untuk memahaminya adalah melihat setiap model sebagai distribusi berbentuk lonceng di atas pengetahuan manusia, dan tiap model punya distribusi yang berbeda
Dengan memakai banyak model, Anda bisa menggeser distribusi model lain menggunakan teks yang berada di luar kurva aslinya. Tetapi kalau dipikir lagi, saya bertanya-tanya apakah SFP dan reinforcement learning sudah cukup mengubah distribusi teks asli sehingga keluaran gabungan model-model itu benar-benar cukup beragam untuk menjadi sesuatu yang lebih baik, atau justru hanya menjadi ruang gema. Belum ada cara untuk membuktikannya, tetapi saya percaya tidak demikian
Sebagai hasil anekdotal tentang Fusion, saya menjalankan kueri yang sama yang saya pakai untuk Fable ke OpenRouter Fusion, dan hasilnya lebih buruk
Fable tampaknya menangkap lapisan pengetahuan/kecerdasan yang cukup dalam, bukan sekadar memberi jawaban yang terdengar masuk akal, tetapi juga menyarankan prioritas untuk item penyelesaian dan bahkan menyarankan agar beberapa item dibuang, yang bagi saya cukup masuk akal. Sebaliknya, Fusion terasa seperti versi yang sedikit lebih beragam dari jenis jawaban yang dihasilkan model state-of-the-art sebelum Fable, dan dalam pengujian saya yang sangat terbatas saat saya punya akses ke Fable, Fusion tidak mencapai kedalaman yang bisa dicapai Fable
Akhir pekan ini, terinspirasi oleh model OpenRouter Fusion yang baru, saya mengerjakan apakah ini bisa dijalankan di Claude Code dan dibuat agar mudah dicoba orang lain
Yang saya buat adalah claude-fusion-launcher — menjalankan Claude Code di atas panel model, bukan satu model tunggal. Juga menampilkan biaya. https://github.com/smorinlabs/claude-fusion-launcher
- Bukankah ini cepat jadi mahal? Prompt sekali jalan yang saya coba di situs webnya hampir memakan biaya $1 per prompt
Saya penasaran apakah menghasilkan ulang prompt yang sama beberapa kali dengan model yang sama, pada temperatur yang lebih tinggi, setara dengan menjalankan model yang berbeda
Saya curiga bahwa sebagian besar variasi yang terasa di antara model-model frontier yang berbeda sebenarnya berasal dari keacakan pada temperatur yang tidak nol. Model-model ini tampaknya dilatih untuk mengembalikan jumlah item yang enak dilihat dan bulat seperti 5, 10, atau 15. Mungkin itu akibat interferensi dari pelatihan pada materi pemasaran. Selain itu, recall dalam konteks besar juga jauh dari 100%. Jadi jika ada 27 bug dalam kode, baik Anda memakai banyak model maupun memanggil model yang sama berulang kali, pada tiap eksekusi Anda bisa menemukan 10 masalah yang berbeda dari 27 itu
Saya penasaran apakah ada penelitian formal di bidang ini. Saya juga pernah mencoba variasi dari pendekatan seperti ini, tetapi sulit untuk mengatakan dengan yakin bahwa hasilnya lebih baik.
Saya khawatir ini mirip seperti menanyakan strategi optimal untuk bisnis kepada 2–3 konsultan secara terpisah. Saya tidak yakin apakah menggabungkan jawabannya benar-benar menghasilkan sesuatu yang lebih baik.
Saya juga telah meluncurkan fitur serupa di TrustedRouter saya sebagai open source, bahkan dengan enkripsi end-to-end: https://trustedrouter.com/
- Menyenangkan melihat adanya janji perlindungan privasi yang nyata. Saya menghabiskan banyak waktu untuk terus membaca syarat penyedia yang mengelak dan ambigu.

OpenRouter Fusion API

Cara kerja

Komposisi dan pengaturan panel

Harga dan batasan

Preset menggunakan 6 model

Pengumuman terkait: "Melampaui performa frontier dengan Fusion"

Bacaan terkait

1 komentar

Pendapat Hacker News