GPT-4.5 atau GPT-5 sedang diuji di LMSYS?

Latar belakang

Model gpt2-chatbot yang baru-baru ini dipublikasikan oleh LMSYS menunjukkan performa yang jauh melampaui model GPT-2 yang selama ini dikenal
Informasi tentang model tersebut sulit ditemukan, baik di situs LMSYS maupun di tempat lain
Dalam hasil benchmark API milik LMSYS pun, hanya model ini yang secara mencolok dikecualikan

Mengklaim dirinya sebagai "berbasis GPT-4" dan menyebut dirinya "ChatGPT"
Menunjukkan karakteristik yang berbeda dari model-model yang dilatih dengan dataset OpenAI yang dibuat oleh organisasi lain
Tampaknya menggunakan tokenizer tiktoken milik OpenAI
Ditemukan kerentanan prompt injection khas OpenAI
Menunjukkan karakteristik keluaran yang berbeda dari model organisasi lain

Kemungkinan besar sebenarnya adalah GPT-4.5 atau GPT-5. Kualitas keluarannya tampak meningkat sebesar lompatan dari GPT-3.5 ke GPT-4
Bisa juga LMSYS melatih modelnya sendiri atau menggunakan pendekatan mirip MoE, tetapi melihat keterkaitannya dengan OpenAI, kemungkinan itu tampak kecil

Tampaknya OpenAI diam-diam menggunakan LMSYS untuk melakukan benchmark terhadap model GPT terbarunya
Tujuannya untuk mendapatkan hasil benchmark yang umum, menghindari penilaian negatif akibat ekspektasi berlebihan, dan meminimalkan kewaspadaan dari pesaing lain

Ada kemungkinan model ini benar-benar berbasis arsitektur GPT-2. Menurut riset terbaru, GPT-2 menunjukkan performa yang lebih unggul daripada model lain di area tertentu
Penyebutan dirinya sebagai GPT-4 bisa jadi karena memanfaatkan dataset yang dihasilkan oleh GPT-4
Fakta bahwa MBZUAI, salah satu sponsor LMSYS, terlibat dalam riset tersebut juga patut diperhatikan

Berbagai spekulasi seputar identitas gpt2-chatbot terasa menarik. Saya setuju dengan pendapat bahwa kemungkinan besar ini adalah model terbaru OpenAI
Di sisi lain, kemungkinan bahwa model ini berbasis arsitektur GPT-2 juga tidak bisa sepenuhnya dikesampingkan. Melihat hasil riset terbaru, potensi GPT-2 tampaknya masih sangat tinggi
Dugaan bahwa OpenAI diam-diam melakukan benchmark melalui LMSYS juga cukup meyakinkan. Ini strategi untuk menghindari kewaspadaan pesaing sambil tetap mendapatkan evaluasi yang objektif
Ke depan, tampaknya akan ada beragam eksperimen dan riset lanjutan untuk mengungkap jati diri gpt2-chatbot. Ini bisa menjadi momentum untuk mengukur perkembangan di bidang large language model
Sejak awal, nama "gpt2-chatbot" sendiri mungkin memang dimaksudkan untuk memberi kesan bahwa ini adalah GPT-2. Kemungkinan bahwa OpenAI sengaja memberinya nama itu juga tidak bisa diabaikan