Llama 2 sama akuratnya dengan GPT-4 untuk peringkasan dan 30 kali lebih murah

xguru · 2023-08-30T11:08:02+09:00

Peringkasan (summarizing) adalah salah satu penerapan LLM yang paling praktis, tetapi kita harus bisa mempercayai bahwa hasil ringkasannya akurat Karena masalah biaya atau akses data, orang ingin menggunakan LLM open source seperti Llama 2, tetapi belum yakin terhadap akurasinya Melalui eksperimen, ditemukan bahwa Llama-2-70b memiliki akurasi faktual setara GPT-4, dan jauh lebih unggul dibanding gpt-3.5-turbo Membandingkan Llama 2 7b/13b/70b dan gpt-3.5/4 menggunakan Anyscale Endpoint Melabeli 373 kalimat laporan berita yang telah melalui verifikasi tiga pihak, lalu menyajikan masing-masing satu jawaban benar dan satu jawaban salah Setiap LLM diminta memilih pernyataan mana yang merupakan ringkasan akurat yang berbasis fakta Dua masalah Model kecil tidak mengikuti instruksi dengan baik. Model yang lebih besar lebih patuh pada instruksi. Karena itu, perlu menggunakan LLM lain agar dapat memahami keluaran dari LLM kecil Bias urutan. Pilihan berubah tergantung apa yang disajikan lebih dulu. Karena itu, pengujian juga dilakukan dengan menukar urutannya Hasil Manusia: 84% (berdasarkan penelitian sebelumnya) gpt-3.5-turbo: 67.0% jawaban benar (masalah bias urutan sangat parah) gpt-4: 85.5% jawaban benar Llama-2-7b: masalah bias urutan sangat parah, bahkan di bawah akurasi acak Llama-2-13b: 58.9% jawaban benar Llama-2-70b: 81.7% Biaya (untuk meringkas 100K kata) gpt-4: $5.48 gpt-3.5-turbo: $0.25 Llama-2-7b: $0.05 Llama-2-13b: $0.09 Llama-2-70b: $0.19

(anyscale.com)

12 poin oleh xguru 2023-08-30 | 5 komentar | Bagikan ke WhatsApp

Peringkasan (summarizing) adalah salah satu penerapan LLM yang paling praktis, tetapi kita harus bisa mempercayai bahwa hasil ringkasannya akurat
Karena masalah biaya atau akses data, orang ingin menggunakan LLM open source seperti Llama 2, tetapi belum yakin terhadap akurasinya
Melalui eksperimen, ditemukan bahwa Llama-2-70b memiliki akurasi faktual setara GPT-4, dan jauh lebih unggul dibanding gpt-3.5-turbo
Membandingkan Llama 2 7b/13b/70b dan gpt-3.5/4 menggunakan Anyscale Endpoint
- Melabeli 373 kalimat laporan berita yang telah melalui verifikasi tiga pihak, lalu menyajikan masing-masing satu jawaban benar dan satu jawaban salah
- Setiap LLM diminta memilih pernyataan mana yang merupakan ringkasan akurat yang berbasis fakta
Dua masalah
- Model kecil tidak mengikuti instruksi dengan baik. Model yang lebih besar lebih patuh pada instruksi. Karena itu, perlu menggunakan LLM lain agar dapat memahami keluaran dari LLM kecil
- Bias urutan. Pilihan berubah tergantung apa yang disajikan lebih dulu. Karena itu, pengujian juga dilakukan dengan menukar urutannya
Hasil
- Manusia: 84% (berdasarkan penelitian sebelumnya)
- gpt-3.5-turbo: 67.0% jawaban benar (masalah bias urutan sangat parah)
- gpt-4: 85.5% jawaban benar
- Llama-2-7b: masalah bias urutan sangat parah, bahkan di bawah akurasi acak
- Llama-2-13b: 58.9% jawaban benar
- Llama-2-70b: 81.7%
Biaya (untuk meringkas 100K kata)
- gpt-4: $5.48
- gpt-3.5-turbo: $0.25
- Llama-2-7b: $0.05
- Llama-2-13b: $0.09
- Llama-2-70b: $0.19

5 komentar

mhj5730 2023-08-30

Biaya GPT-4 memang luar biasa tinggi dibanding GPT lainnya...

xguru 2023-08-30

Saya memakainya tanpa banyak pikir, lalu kuota bulanan $120 terlampaui jadi saya sampai mengajukan penambahan. Saat ini memang jelas masih mahal. Semoga harganya cepat turun ke level GPT-3.5 hehe

kuroneko 2023-08-30

Saya pribadi selalu menggunakan Universal Summarizer milik Kagi untuk ringkasan.
Saya juga merasa ini lebih praktis daripada ChatGPT, dan token-nya juga tidak terbatas...

Tapi untuk bahasa Korea, karena pada dasarnya hanya menerjemahkan hasilnya, kualitas bahasa Korea-nya memang terasa agak kurang bahkan dibanding GPT 3.5.
Sepertinya model kelas enterprise yang hanya bisa dipakai berbayar memang lebih bagus, tetapi kalau tidak salah biayanya sekitar 1 dolar per ringkasan, jadi terasa memberatkan untuk penggunaan pribadi.

ragingwind 2023-08-30

Sepertinya fitur peringkasan memang jelas menjadi faktor pilihan penting dalam LLM.

xguru 2023-08-30

Masalahnya.. eksperimen ini bukan LLM yang merangkum, melainkan menilai hasil ringkasan..
Dari pemakaian saya, performa ringkasan GPT-4 memang jelas sangat bagus. Terjemahan bahasa Koreanya juga masih bermasalah.
Saya sempat tergoda karena biaya GN⁺, tapi.. untuk sekarang sepertinya tetap harus pakai gpt-4.

Llama 2 sama akuratnya dengan GPT-4 untuk peringkasan dan 30 kali lebih murah

Bacaan terkait

5 komentar