RouteLLM - Framework untuk serving dan evaluasi router LLM

(github.com/lm-sys)

3 poin oleh GN⁺ 2024-07-12 | Belum ada komentar. | Bagikan ke WhatsApp

RouteLLM adalah framework untuk serving dan evaluasi router LLM yang dikembangkan melalui kolaborasi antara LMSys dan Anyscale
Fitur utama:
- Menggantikan klien OpenAI untuk merutekan kueri sederhana ke model yang lebih murah
- Menyediakan router terlatih, memperluas router baru, serta membandingkan performa router di benchmark

Selain GPT-4 dan Mixtral 8x7B, berbagai kombinasi model dapat digunakan dengan mengubah argumen strong-model dan weak-model
Mendukung chat completions di berbagai model open source dan closed model dengan memanfaatkan LiteLLM
Endpoint yang kompatibel dengan OpenAI juga dapat digunakan
Menyediakan cara pengaturan API key untuk berbagai penyedia model

Motivasi pengembangan

Saat menerapkan LLM dengan biaya dan kemampuan yang berbeda-beda, menggunakan model terkuat untuk respons berkualitas tinggi akan mahal, sementara menggunakan model murah dapat menurunkan kualitas
Routing LLM menawarkan solusi untuk menghemat biaya sambil mempertahankan kualitas dengan mengirim kueri sederhana ke model yang lebih murah
Setiap permintaan terkait dengan cost threshold yang menentukan tradeoff biaya-kualitas

RouteLLM menyediakan server ringan yang kompatibel dengan OpenAI untuk merutekan permintaan sesuai berbagai strategi routing
Tentukan daftar router yang tersedia dengan --routers, dan tentukan path file konfigurasi router dengan --config
Dalam kebanyakan kasus, disarankan menggunakan router mf yang kuat dan ringan
Klien mengirim permintaan dengan menentukan nama router dan threshold pada field model

Threshold yang digunakan dalam routing mengendalikan tradeoff biaya-kualitas
Karena rentang threshold yang bermakna berbeda tergantung pada jenis router dan kueri yang diterima, sebaiknya lakukan kalibrasi menggunakan kueri sampel dan rasio kueri yang akan dikirim ke model kuat
Secara default, kalibrasi threshold didukung berdasarkan dataset Chatbot Arena
Disarankan melakukan kalibrasi pada dataset yang mirip dengan jenis kueri yang benar-benar diterima

RouteLLM juga mencakup framework evaluasi untuk mengukur performa berbagai strategi routing di benchmark
Tentukan daftar router yang akan dievaluasi dengan --routers, dan tentukan benchmark tertentu yang akan dievaluasi dengan --benchmark
Hasil evaluasi ditampilkan di konsol, dan grafik performa router juga dibuat
Secara default, GPT-4 dan Mixtral adalah pasangan model yang digunakan untuk evaluasi, dan dapat diubah dengan flag --strong-model dan --weak-model

RouteLLM menyediakan 4 router yang dilatih untuk pasangan model gpt-4-1106-preview dan mixtral-8x7b-instruct-v0.1
Daftar router: mf, sw_ranking, bert, causal_llm, random
Router-router ini dapat digeneralisasi dengan baik ke pasangan model kuat/lemah lainnya, sehingga tidak perlu dilatih ulang meskipun pasangan model diganti

RouteLLM tampak sebagai framework yang berguna untuk memanfaatkan berbagai LLM secara efisien. Khususnya, kemampuan merutekan kueri sederhana ke model yang lebih murah sehingga dapat menghemat biaya sambil menjaga kualitas terasa sangat menarik
Fakta bahwa router yang disediakan dapat digeneralisasi dengan baik ke berbagai pasangan model juga merupakan nilai plus. Pengguna memiliki keuntungan karena tidak perlu melatih router sendiri
Fitur kalibrasi threshold juga tampak berguna. Pengguna dapat menemukan threshold optimal dengan memanfaatkan data kueri nyata mereka
Keunggulan lainnya adalah performa berbagai router dan benchmark dapat dibandingkan dengan mudah melalui framework evaluasi
Namun, untuk menggunakan framework ini diperlukan persiapan awal seperti pengaturan API key untuk model kuat dan model lemah. Bagi pemula, hal ini bisa menjadi hambatan awal yang agak tinggi
Proyek lain dengan fungsi serupa adalah open source bernama Multi-model. Proyek ini menyediakan fungsi untuk mengintegrasikan dan merutekan beberapa language model melalui satu API