4 poin oleh GN⁺ 2024-05-15 | 2 komentar | Bagikan ke WhatsApp

Needle in a Needlestack: Terobosan memori GPT-4o! (kode NIAN) - Tom Burns

Pengenalan benchmark baru

  • Needle in a Needlestack adalah benchmark baru untuk mengukur seberapa baik LLM (large language models) memperhatikan informasi di dalam jendela konteks.
  • NIAN menghasilkan prompt yang berisi ribuan limerick, lalu mengajukan pertanyaan tentang satu limerick pada posisi tertentu.
  • Contoh prompt mencakup sekitar 2500 limerick.
  • Sampai sekarang, belum ada LLM yang menunjukkan hasil yang sangat baik pada benchmark ini.

Percobaan GPT-4 Turbo dan Claude-3 Sonnet

  • Percobaan GPT-4 Turbo dan Claude-3 Sonnet:
    • gpt-4-turbo-2024-04-09
    • claude-3-sonnet

Terobosan GPT-4o

  • GPT-4o mencetak terobosan besar!
  • Menunjukkan performa yang nyaris sempurna pada benchmark ini.
  • Menarik untuk melihat kapan OpenAI akan mengungkap bagaimana mereka membuat GPT-4o jauh lebih baik daripada GPT-4 Turbo.

Performa model Mistral

  • Model-model Mistral sangat enak digunakan. API-nya sangat cepat dan konsisten.
  • Namun, model 8x22 terbaru dari Mistral sangat kesulitan pada benchmark ini.
    • Bahkan di bagian awal prompt, peluang menjawab pertanyaan dengan benar hanya 50%.
    • Mistral large menunjukkan hasil yang lebih baik, tetapi tetap mentok di akurasi 70%.
  • Catatan: jumlah token diperkirakan menggunakan tokenizer milik OpenAI. Mistral memakai tokenizer berbeda yang menghasilkan sekitar 25% lebih banyak token, jadi jumlah token pada grafik lebih rendah daripada jumlah token sebenarnya.
    • open-mixtral-8x22b
    • mistral-large-latest-2024-04-09

Performa pada prompt pendek

  • Model-model menunjukkan performa yang jauh lebih baik pada prompt yang pendek.
  • Contoh: perbandingan performa Mistral 7b pada prompt 16k token dan prompt 32k token.
    • open-mistral-7b 16k tokens
    • open-mistral-7b 32k tokens

Pentingnya pengulangan informasi

  • Mengulang informasi membuat perbedaan besar dalam tes ini.
  • GPT-3.5-turbo meningkat drastis ketika limerick yang ditanyakan di prompt diulang 10 kali.
    • limerick used once
    • limerick used 10 times

Kode benchmark dan informasi tambahan

  • Kode untuk benchmark ini bisa dilihat di sini.
  • Dukungan untuk model tambahan bisa ditambahkan dengan mudah.
  • Detail tentang bagaimana jawaban dievaluasi dan pertanyaan divalidasi dapat dilihat di halaman metodologi.
  • Jika ada pertanyaan, silakan hubungi kontak.
  • Situs ini bersifat open source. Perbaiki halaman ini.

Pendapat GN⁺

  • Kemajuan teknis: Performa GPT-4o menunjukkan lompatan besar dalam peningkatan memori dan perhatian LLM. Ini membuka peluang untuk menangani tugas yang lebih kompleks.
  • Pemilihan model: Saat membandingkan performa berbagai model, penting untuk memilih model yang sesuai dengan tugas tertentu. Misalnya, bisa lebih menguntungkan memilih model yang tampil lebih baik pada prompt pendek.
  • Pentingnya pembelajaran berulang: Perlu mempertimbangkan dampak pengulangan informasi terhadap performa model. Ini bisa menjadi elemen penting dalam persiapan data dan desain prompt.
  • Keunggulan open source: Fakta bahwa benchmark ini bersifat open source memberi peneliti dan pengembang kesempatan untuk mengakses dan meningkatkannya secara bebas. Ini dapat berkontribusi pada perkembangan komunitas.
  • Prospek masa depan: Perkembangan model seperti GPT-4o dapat membawa inovasi di berbagai bidang penerapan AI. Namun, saat mengadopsi teknologi ini, pertimbangan etis dan penggunaan yang bertanggung jawab tetap diperlukan.

2 komentar

 
wedding 2024-05-18

Kemajuan teknologinya benar-benar luar biasa.. terisak

 
GN⁺ 2024-05-15
Opini Hacker News

Ringkasan kumpulan komentar Hacker News

  • Kesalahan dalam perbandingan dokumen hukum

    • Saat membandingkan dua dokumen hukum kecil, GPT-4 salah mengenali beberapa butir seolah hanya ada di salah satu dokumen. Padahal isinya sebenarnya sama.
    • Meski hanya satu sampel, akurasi 90% patut diragukan. Panjangnya sekitar 80k token.
  • Berdasarkan dataset limerick

    • Berdasarkan dataset limerick yang diterbitkan pada 2021. Kemungkinan besar GPT-4o dilatih dengan dataset ini.
    • Tim NIAN perlu membuat limerick menggunakan model lain dan memeriksa apakah hasilnya tidak termasuk dalam dataset.
  • Keterbatasan tes Needle in the Haystack

    • Tes ini hanya menunjukkan secara terbatas kemampuan nyata model dalam menangani konteks panjang. Tes ini terutama digunakan karena model-model awal berkinerja buruk di sini.
    • Model-model terbaru menunjukkan performa yang baik pada tes ini, tetapi setelah 32K token kemampuan menjalankan tugas kompleks menurun drastis.
    • Tes RULER adalah metode evaluasi yang lebih baik.
  • Performa Gemini Pro 1.5

    • Gemini Pro 1.5 mampu memproses seluruh Moby Dick dan semua buku Byung Chul-Han. Model ini dapat menemukan jawaban atas pertanyaan dengan akurat.
  • Perlunya tes "Synthesis from Haystack"

    • Diperlukan metode yang menguji pemahaman mendalam, keterhubungan, dan abstraksi, bukan sekadar pencarian sederhana.
    • Saat membaca buku, manusia memiliki intuisi menyeluruh. Perlu cara untuk mengkuantifikasinya.
  • Konversi layout HTML menggunakan GPT

    • Dengan GPT, data dinamis bisa diubah secara real-time menjadi layout HTML yang indah. Ini menghemat waktu pengembangan dan memungkinkan HTML ikut diperbarui saat struktur data berubah.
    • Pada percobaan sebelumnya, GPT-4 Turbo kadang mengabaikan konteks dan instruksi.
  • Peningkatan perhatian GPT-4o

    • GPT-4o menunjukkan perhatian yang lebih baik di seluruh jendela input dibanding GPT-4 Turbo dan Claude-3 Sonnet.
    • Tes "Needle In A Needlestack" merupakan langkah lanjutan yang bagus. Tes ini memasukkan prompt berisi ribuan limerick beserta pertanyaan tentang limerick pada posisi tertentu.
  • Sulitnya evaluasi LLM

    • Ada pendapat bahwa hampir tidak ada orang di internet publik yang benar-benar melakukan evaluasi LLM dengan semestinya.
  • Pertanyaan tentang dataset pelatihan

    • Muncul pertanyaan tentang bagaimana kita bisa tahu bahwa GPT-4o tidak dilatih dengan dataset ini.
    • Tes hanya bermakna jika kita tahu data uji tidak termasuk dalam data pelatihan.