- Peringkasan (summarizing) adalah salah satu penerapan LLM yang paling praktis, tetapi kita harus bisa mempercayai bahwa hasil ringkasannya akurat
- Karena masalah biaya atau akses data, orang ingin menggunakan LLM open source seperti Llama 2, tetapi belum yakin terhadap akurasinya
- Melalui eksperimen, ditemukan bahwa Llama-2-70b memiliki akurasi faktual setara GPT-4, dan jauh lebih unggul dibanding gpt-3.5-turbo
- Membandingkan Llama 2 7b/13b/70b dan gpt-3.5/4 menggunakan Anyscale Endpoint
- Melabeli 373 kalimat laporan berita yang telah melalui verifikasi tiga pihak, lalu menyajikan masing-masing satu jawaban benar dan satu jawaban salah
- Setiap LLM diminta memilih pernyataan mana yang merupakan ringkasan akurat yang berbasis fakta
- Dua masalah
- Model kecil tidak mengikuti instruksi dengan baik. Model yang lebih besar lebih patuh pada instruksi. Karena itu, perlu menggunakan LLM lain agar dapat memahami keluaran dari LLM kecil
- Bias urutan. Pilihan berubah tergantung apa yang disajikan lebih dulu. Karena itu, pengujian juga dilakukan dengan menukar urutannya
- Hasil
- Manusia: 84% (berdasarkan penelitian sebelumnya)
- gpt-3.5-turbo: 67.0% jawaban benar (masalah bias urutan sangat parah)
- gpt-4: 85.5% jawaban benar
- Llama-2-7b: masalah bias urutan sangat parah, bahkan di bawah akurasi acak
- Llama-2-13b: 58.9% jawaban benar
- Llama-2-70b: 81.7%
- Biaya (untuk meringkas 100K kata)
- gpt-4: $5.48
- gpt-3.5-turbo: $0.25
- Llama-2-7b: $0.05
- Llama-2-13b: $0.09
- Llama-2-70b: $0.19
5 komentar
Biaya GPT-4 memang luar biasa tinggi dibanding GPT lainnya...
Saya memakainya tanpa banyak pikir, lalu kuota bulanan $120 terlampaui jadi saya sampai mengajukan penambahan. Saat ini memang jelas masih mahal. Semoga harganya cepat turun ke level GPT-3.5 hehe
Saya pribadi selalu menggunakan Universal Summarizer milik Kagi untuk ringkasan.
Saya juga merasa ini lebih praktis daripada ChatGPT, dan token-nya juga tidak terbatas...
Tapi untuk bahasa Korea, karena pada dasarnya hanya menerjemahkan hasilnya, kualitas bahasa Korea-nya memang terasa agak kurang bahkan dibanding GPT 3.5.
Sepertinya model kelas enterprise yang hanya bisa dipakai berbayar memang lebih bagus, tetapi kalau tidak salah biayanya sekitar 1 dolar per ringkasan, jadi terasa memberatkan untuk penggunaan pribadi.
Sepertinya fitur peringkasan memang jelas menjadi faktor pilihan penting dalam LLM.
Masalahnya.. eksperimen ini bukan LLM yang merangkum, melainkan menilai hasil ringkasan..
Dari pemakaian saya, performa ringkasan GPT-4 memang jelas sangat bagus. Terjemahan bahasa Koreanya juga masih bermasalah.
Saya sempat tergoda karena biaya GN⁺, tapi.. untuk sekarang sepertinya tetap harus pakai gpt-4.