8 poin oleh GN⁺ 2023-09-10 | 1 komentar | Bagikan ke WhatsApp
  • Menguji performa lebih dari 60 Language Learning Models (LLMs) menggunakan satu set berisi 20 pertanyaan, lalu merangkum jawaban dari masing-masing LLM
  • Pertanyaan-pertanyaan ini dirancang untuk menguji penalaran dasar, kemampuan mengikuti instruksi, dan kreativitas LLM
  • Respons dari LLM disimpan dalam basis data SQLite
  • Pertanyaannya beragam, mulai dari soal aritmetika sederhana hingga tugas yang lebih kompleks seperti menjelaskan teori medan kuantum kepada siswa SMA
  • Skrip ini juga mencakup tugas-tugas yang harus dikerjakan LLM, seperti menerjemahkan kalimat, mengidentifikasi bug dalam kode, dan membuat fungsi Python
  • Penulis menggunakan API dari OpenRouter, TogetherAI, OpenAI, Cohere, Aleph Alpha, dan AI21 untuk menjalankan skrip
    • Ada rencana untuk menyempurnakan skrip dengan menggunakan stop sequence dan format prompt yang dioptimalkan untuk tiap model
    • Ide ke depan mencakup perhitungan rating ELO melalui voting publik, membandingkan dua model secara berdampingan, dan prompt yang dikirimkan komunitas

1 komentar

 
GN⁺ 2023-09-10
Opini Hacker News
  • Seorang pengguna membuat harness umum untuk menjalankan benchmark pada berbagai large language model (LLM), dan mendorong orang lain untuk menguji model dengan data mereka sendiri. Library ini mendukung model dari OpenAI, Anthropic, Google, Llama, Codellama, Replicate, dan Ollama.
  • AI Playground milik Vercel disorot sebagai alat yang berguna untuk mengajukan pertanyaan ke beberapa LLM sekaligus, tetapi saat ini hanya mendukung 24 model, bukan 60.
  • Metode benchmarking LLM dalam artikel ini dipuji karena dianggap lebih realistis dibanding metode tradisional seperti lulus ujian. Namun, ada kekhawatiran bahwa pertanyaan-pertanyaan tersebut bisa menjadi bagian dari set pelatihan dan mengaburkan hasil.
  • Ditemukan perbedaan dalam respons LLM terhadap pertanyaan tentang hubungan keluarga, dan seorang pengguna melaporkan bahwa GPT4 menjawab dengan benar untuk pertanyaan yang menurut artikel dijawab salah oleh semua LLM.
  • Falcon Instruct (40B) disorot secara jenaka sebagai "model paling lucu" berkat leluconnya tentang liburan.
  • Benchmark tambahan untuk LLM diusulkan, termasuk "TheoremQA: dataset tanya jawab [STEM] berbasis teorema" dan "Awesome-legal-nlp".
  • ChatGPT 3.5 dikritik karena responsnya yang bertele-tele, dengan seorang pengguna menunjukkan bahwa model ini sering memberikan penjelasan yang tidak perlu panjang.
  • Kemajuan AI memicu kekaguman; seorang pengguna menyebut kemampuan LLM untuk menghasilkan "haiku etis dan non-seksual yang mendukung dan menentang Kubernetes".
  • Muncul pertanyaan tentang performa model CodeLlama, dengan seorang pengguna melaporkan hasil yang jauh lebih baik daripada yang tercantum dalam artikel.
  • Meski ada ketertarikan pada LLM, beberapa pengguna menyatakan kekecewaan terhadap kualitas respons model, terutama untuk pertanyaan teori musik, dan mempertanyakan apakah model-model ini akan benar-benar banyak membaik seiring waktu.