Google Bard naik ke peringkat 2 tepat di bawah GPT-4 Turbo di leaderboard performa LLM
(twitter.com/JeffDean)- Google Bard (Gemini Pro) melompati GPT-4-0314/0613 dan lainnya, lalu melonjak ke peringkat 2 (1215), tepat di bawah GPT-4 Turbo (Arena ELO 1249)
- Selain itu, Hallucination Rate di leaderboard HHEM juga turun dari 12% menjadi 4,9%. (GPT-4/4 Turbo 3,0%, GPT 3.5 Turbo 3,5%)
- Sangat menarik menantikan bagaimana Bard + Gemini Ultra akan dirilis
1 komentar
Opini Hacker News
Batas performa Google Bard: Seorang pengguna telah lama curiga bahwa performa Google Bard dibatasi karena biaya. Google menyediakan Bard secara gratis, dan kemungkinan tidak ingin menjalankan model raksasa secara gratis untuk semua pengguna selamanya. Mungkin ada terobosan dalam biaya inferensi, atau mereka lelah dianggap tertinggal dalam persaingan lalu memutuskan untuk menanggung biaya itu sementara waktu. Pengguna tersebut berpikir Google seharusnya meluncurkan layanan berlangganan agar orang bisa melihat mereka menjalankan model terbaik secara publik.
Kekecewaan awal pada Bard dan perbaikannya: Bard mengecewakan saat pertama dirilis, tetapi menyenangkan melihatnya membaik. Dari pengalaman pribadi, pengguna itu lebih sering memakai Claude 2 daripada GPT 4/Turbo, dan lebih menyukai gaya responsnya serta cara model itu menjawab pertanyaan. Di Kagi, Claude 1 dinilai setara dengan GPT 4 non-Turbo, dan menarik bahwa kualitas Claude 2 dinilai berada di level yang sama dengan 4 Turbo.
Jumlah vote untuk model Bard: Model Bard memiliki jumlah vote yang relatif sedikit. Akan lebih baik menunggu sampai jumlah vote-nya setara dengan model-model lain.
Bard yang lebih sedikit dibatasi: Bard jauh lebih sedikit dibatasi dibanding GPT-4, dan itu saja sudah terasa membuatnya jauh lebih baik daripada GPT-4.
Kegunaan Bard di antara LLM gratis: Di antara semua LLM gratis, Bard dianggap paling berguna. ChatGPT 3.5 bahkan tidak sebanding dan terasa malas.
Rasa penasaran tentang metode benchmark: Ada rasa penasaran tentang bagaimana benchmark dilakukan. Pengguna itu menduga metodenya bisa diperbaiki agar lebih mewakili ekspektasi atau kegunaan nyata bagi pengguna.
Ketidaksesuaian dengan pengalaman pribadi: Dalam pengalaman pribadi, setiap kali benar-benar membutuhkan jawaban, pengguna itu akhirnya kembali ke GPT. Dalam kebanyakan kasus, ia lebih memilih ChatGPT 3.5 daripada Google Bard, dan merasa GPT 4 jelas lebih baik daripada Bard.
Perbandingan Bard dan ChatGPT: Secara pribadi, ada yang merasa Bard jauh lebih baik daripada ChatGPT. Ia ingin menggunakan Mistral yang tidak disensor.
Responsivitas Bard dan penambahan sensor: Dulu Bard responsif terhadap permintaan dan tidak menolak. Sekarang terasa seperti ada lapisan sensor tambahan. Ada yang merindukan Bard versi lama.