Google Bard naik ke peringkat 2 tepat di bawah GPT-4 Turbo di leaderboard performa LLM

xguru · 2024-01-28T09:41:59+09:00

Google Bard (Gemini Pro) melompati GPT-4-0314/0613 dan lainnya, lalu melonjak ke peringkat 2 (1215), tepat di bawah GPT-4 Turbo (Arena ELO 1249) Selain itu, Hallucination Rate di leaderboard HHEM juga turun dari 12% menjadi 4,9%. (GPT-4/4 Turbo 3,0%, GPT 3.5 Turbo 3,5%) Sangat menarik menantikan bagaimana Bard + Gemini Ultra akan dirilis

(twitter.com/JeffDean)

7 poin oleh xguru 2024-01-28 | 1 komentar | Bagikan ke WhatsApp

Google Bard (Gemini Pro) melompati GPT-4-0314/0613 dan lainnya, lalu melonjak ke peringkat 2 (1215), tepat di bawah GPT-4 Turbo (Arena ELO 1249)
Selain itu, Hallucination Rate di leaderboard HHEM juga turun dari 12% menjadi 4,9%. (GPT-4/4 Turbo 3,0%, GPT 3.5 Turbo 3,5%)
Sangat menarik menantikan bagaimana Bard + Gemini Ultra akan dirilis

1 komentar

xguru 2024-01-28

Opini Hacker News

Batas performa Google Bard: Seorang pengguna telah lama curiga bahwa performa Google Bard dibatasi karena biaya. Google menyediakan Bard secara gratis, dan kemungkinan tidak ingin menjalankan model raksasa secara gratis untuk semua pengguna selamanya. Mungkin ada terobosan dalam biaya inferensi, atau mereka lelah dianggap tertinggal dalam persaingan lalu memutuskan untuk menanggung biaya itu sementara waktu. Pengguna tersebut berpikir Google seharusnya meluncurkan layanan berlangganan agar orang bisa melihat mereka menjalankan model terbaik secara publik.

Menurut tweet Jeff Dean, model baru bernama "Gemini Pro-scale model" telah dirilis dan menempati posisi kedua di leaderboard lmsys independen. Tidak jelas apa arti "Pro-scale" dan apakah semua pengguna sudah menggunakan model ini.
Kekecewaan awal pada Bard dan perbaikannya: Bard mengecewakan saat pertama dirilis, tetapi menyenangkan melihatnya membaik. Dari pengalaman pribadi, pengguna itu lebih sering memakai Claude 2 daripada GPT 4/Turbo, dan lebih menyukai gaya responsnya serta cara model itu menjawab pertanyaan. Di Kagi, Claude 1 dinilai setara dengan GPT 4 non-Turbo, dan menarik bahwa kualitas Claude 2 dinilai berada di level yang sama dengan 4 Turbo.
Jumlah vote untuk model Bard: Model Bard memiliki jumlah vote yang relatif sedikit. Akan lebih baik menunggu sampai jumlah vote-nya setara dengan model-model lain.
Bard yang lebih sedikit dibatasi: Bard jauh lebih sedikit dibatasi dibanding GPT-4, dan itu saja sudah terasa membuatnya jauh lebih baik daripada GPT-4.
Kegunaan Bard di antara LLM gratis: Di antara semua LLM gratis, Bard dianggap paling berguna. ChatGPT 3.5 bahkan tidak sebanding dan terasa malas.
Rasa penasaran tentang metode benchmark: Ada rasa penasaran tentang bagaimana benchmark dilakukan. Pengguna itu menduga metodenya bisa diperbaiki agar lebih mewakili ekspektasi atau kegunaan nyata bagi pengguna.

Setelah melihat tweet Jeff Dean, pengguna itu mencoba Bard. Dibanding GPT-4, hasilnya masih mengecewakan. Bard melenceng dari pertanyaan tanpa menyadarinya.
Saat diminta membuat chart, Bard sampai tiga kali menjawab, "ini chart-nya", tetapi chart tersebut sebenarnya tidak ada, lalu akhirnya mengatakan bahwa fitur itu tidak tersedia.
Ketidaksesuaian dengan pengalaman pribadi: Dalam pengalaman pribadi, setiap kali benar-benar membutuhkan jawaban, pengguna itu akhirnya kembali ke GPT. Dalam kebanyakan kasus, ia lebih memilih ChatGPT 3.5 daripada Google Bard, dan merasa GPT 4 jelas lebih baik daripada Bard.
Perbandingan Bard dan ChatGPT: Secara pribadi, ada yang merasa Bard jauh lebih baik daripada ChatGPT. Ia ingin menggunakan Mistral yang tidak disensor.
Responsivitas Bard dan penambahan sensor: Dulu Bard responsif terhadap permintaan dan tidak menolak. Sekarang terasa seperti ada lapisan sensor tambahan. Ada yang merindukan Bard versi lama.

Google Bard naik ke peringkat 2 tepat di bawah GPT-4 Turbo di leaderboard performa LLM

Bacaan terkait

1 komentar

Opini Hacker News