12 poin oleh xguru 2023-08-30 | 5 komentar | Bagikan ke WhatsApp
  • Peringkasan (summarizing) adalah salah satu penerapan LLM yang paling praktis, tetapi kita harus bisa mempercayai bahwa hasil ringkasannya akurat
  • Karena masalah biaya atau akses data, orang ingin menggunakan LLM open source seperti Llama 2, tetapi belum yakin terhadap akurasinya
  • Melalui eksperimen, ditemukan bahwa Llama-2-70b memiliki akurasi faktual setara GPT-4, dan jauh lebih unggul dibanding gpt-3.5-turbo
  • Membandingkan Llama 2 7b/13b/70b dan gpt-3.5/4 menggunakan Anyscale Endpoint
    • Melabeli 373 kalimat laporan berita yang telah melalui verifikasi tiga pihak, lalu menyajikan masing-masing satu jawaban benar dan satu jawaban salah
    • Setiap LLM diminta memilih pernyataan mana yang merupakan ringkasan akurat yang berbasis fakta
  • Dua masalah
    • Model kecil tidak mengikuti instruksi dengan baik. Model yang lebih besar lebih patuh pada instruksi. Karena itu, perlu menggunakan LLM lain agar dapat memahami keluaran dari LLM kecil
    • Bias urutan. Pilihan berubah tergantung apa yang disajikan lebih dulu. Karena itu, pengujian juga dilakukan dengan menukar urutannya
  • Hasil
    • Manusia: 84% (berdasarkan penelitian sebelumnya)
    • gpt-3.5-turbo: 67.0% jawaban benar (masalah bias urutan sangat parah)
    • gpt-4: 85.5% jawaban benar
    • Llama-2-7b: masalah bias urutan sangat parah, bahkan di bawah akurasi acak
    • Llama-2-13b: 58.9% jawaban benar
    • Llama-2-70b: 81.7%
  • Biaya (untuk meringkas 100K kata)
    • gpt-4: $5.48
    • gpt-3.5-turbo: $0.25
    • Llama-2-7b: $0.05
    • Llama-2-13b: $0.09
    • Llama-2-70b: $0.19

5 komentar

 
mhj5730 2023-08-30

Biaya GPT-4 memang luar biasa tinggi dibanding GPT lainnya...

 
xguru 2023-08-30

Saya memakainya tanpa banyak pikir, lalu kuota bulanan $120 terlampaui jadi saya sampai mengajukan penambahan. Saat ini memang jelas masih mahal. Semoga harganya cepat turun ke level GPT-3.5 hehe

 
kuroneko 2023-08-30

Saya pribadi selalu menggunakan Universal Summarizer milik Kagi untuk ringkasan.
Saya juga merasa ini lebih praktis daripada ChatGPT, dan token-nya juga tidak terbatas...

Tapi untuk bahasa Korea, karena pada dasarnya hanya menerjemahkan hasilnya, kualitas bahasa Korea-nya memang terasa agak kurang bahkan dibanding GPT 3.5.
Sepertinya model kelas enterprise yang hanya bisa dipakai berbayar memang lebih bagus, tetapi kalau tidak salah biayanya sekitar 1 dolar per ringkasan, jadi terasa memberatkan untuk penggunaan pribadi.

 
ragingwind 2023-08-30

Sepertinya fitur peringkasan memang jelas menjadi faktor pilihan penting dalam LLM.

 
xguru 2023-08-30

Masalahnya.. eksperimen ini bukan LLM yang merangkum, melainkan menilai hasil ringkasan..
Dari pemakaian saya, performa ringkasan GPT-4 memang jelas sangat bagus. Terjemahan bahasa Koreanya juga masih bermasalah.
Saya sempat tergoda karena biaya GN⁺, tapi.. untuk sekarang sepertinya tetap harus pakai gpt-4.