Needle in a Needlestack: Terobosan memori GPT-4o! (kode NIAN) - Tom Burns
Pengenalan benchmark baru
- Needle in a Needlestack adalah benchmark baru untuk mengukur seberapa baik LLM (large language models) memperhatikan informasi di dalam jendela konteks.
- NIAN menghasilkan prompt yang berisi ribuan limerick, lalu mengajukan pertanyaan tentang satu limerick pada posisi tertentu.
- Contoh prompt mencakup sekitar 2500 limerick.
- Sampai sekarang, belum ada LLM yang menunjukkan hasil yang sangat baik pada benchmark ini.
Percobaan GPT-4 Turbo dan Claude-3 Sonnet
- Percobaan GPT-4 Turbo dan Claude-3 Sonnet:
- gpt-4-turbo-2024-04-09
- claude-3-sonnet
Terobosan GPT-4o
- GPT-4o mencetak terobosan besar!
- Menunjukkan performa yang nyaris sempurna pada benchmark ini.
- Menarik untuk melihat kapan OpenAI akan mengungkap bagaimana mereka membuat GPT-4o jauh lebih baik daripada GPT-4 Turbo.
Performa model Mistral
- Model-model Mistral sangat enak digunakan. API-nya sangat cepat dan konsisten.
- Namun, model 8x22 terbaru dari Mistral sangat kesulitan pada benchmark ini.
- Bahkan di bagian awal prompt, peluang menjawab pertanyaan dengan benar hanya 50%.
- Mistral large menunjukkan hasil yang lebih baik, tetapi tetap mentok di akurasi 70%.
- Catatan: jumlah token diperkirakan menggunakan tokenizer milik OpenAI. Mistral memakai tokenizer berbeda yang menghasilkan sekitar 25% lebih banyak token, jadi jumlah token pada grafik lebih rendah daripada jumlah token sebenarnya.
- open-mixtral-8x22b
- mistral-large-latest-2024-04-09
Performa pada prompt pendek
- Model-model menunjukkan performa yang jauh lebih baik pada prompt yang pendek.
- Contoh: perbandingan performa Mistral 7b pada prompt 16k token dan prompt 32k token.
- open-mistral-7b 16k tokens
- open-mistral-7b 32k tokens
Pentingnya pengulangan informasi
- Mengulang informasi membuat perbedaan besar dalam tes ini.
- GPT-3.5-turbo meningkat drastis ketika limerick yang ditanyakan di prompt diulang 10 kali.
- limerick used once
- limerick used 10 times
Kode benchmark dan informasi tambahan
- Kode untuk benchmark ini bisa dilihat di sini.
- Dukungan untuk model tambahan bisa ditambahkan dengan mudah.
- Detail tentang bagaimana jawaban dievaluasi dan pertanyaan divalidasi dapat dilihat di halaman metodologi.
- Jika ada pertanyaan, silakan hubungi kontak.
- Situs ini bersifat open source. Perbaiki halaman ini.
Pendapat GN⁺
- Kemajuan teknis: Performa GPT-4o menunjukkan lompatan besar dalam peningkatan memori dan perhatian LLM. Ini membuka peluang untuk menangani tugas yang lebih kompleks.
- Pemilihan model: Saat membandingkan performa berbagai model, penting untuk memilih model yang sesuai dengan tugas tertentu. Misalnya, bisa lebih menguntungkan memilih model yang tampil lebih baik pada prompt pendek.
- Pentingnya pembelajaran berulang: Perlu mempertimbangkan dampak pengulangan informasi terhadap performa model. Ini bisa menjadi elemen penting dalam persiapan data dan desain prompt.
- Keunggulan open source: Fakta bahwa benchmark ini bersifat open source memberi peneliti dan pengembang kesempatan untuk mengakses dan meningkatkannya secara bebas. Ini dapat berkontribusi pada perkembangan komunitas.
- Prospek masa depan: Perkembangan model seperti GPT-4o dapat membawa inovasi di berbagai bidang penerapan AI. Namun, saat mengadopsi teknologi ini, pertimbangan etis dan penggunaan yang bertanggung jawab tetap diperlukan.
2 komentar
Kemajuan teknologinya benar-benar luar biasa.. terisak
Opini Hacker News
Ringkasan kumpulan komentar Hacker News
Kesalahan dalam perbandingan dokumen hukum
Berdasarkan dataset limerick
Keterbatasan tes Needle in the Haystack
Performa Gemini Pro 1.5
Perlunya tes "Synthesis from Haystack"
Konversi layout HTML menggunakan GPT
Peningkatan perhatian GPT-4o
Sulitnya evaluasi LLM
Pertanyaan tentang dataset pelatihan