29 poin oleh vkehfdl1 2023-08-08 | 7 komentar | Bagikan ke WhatsApp
  • Nilai Bahasa Korea CSAT GPT-4 yang sebelumnya berada di peringkat 3 (86 poin, 22% teratas) ditingkatkan menjadi peringkat 2 (94 poin, 5% teratas) melalui prompt engineering berbasis CoT.
  • Dengan menggunakan prompt yang dioptimalkan untuk tipe soal tata bahasa tertentu, hasilnya bahkan mencapai peringkat 1 (96 poin, 4% teratas).
  • Teks lengkap prompt, source code, dan dataset Bahasa Korea CSAT yang digunakan telah dirilis sebagai open source di GitHub.
  • Ini adalah contoh yang menunjukkan bahwa performa bahasa Korea LLM, yang masih sering dianggap kurang, pada GPT-4 sebenarnya sudah mencapai kemampuan linguistik tingkat tertinggi.

Halo. Saya sendiri telah menggunakan prompt CoT secara langsung untuk membuat GPT-4 mampu mengerjakan ujian Bahasa Korea CSAT dengan sangat baik.

Saya masih belum menemukan prompt yang bisa mencapai 5% teratas ke atas hingga 100 poin, dan karena masalah biaya API saya baru sempat mengujinya pada CSAT 2023, jadi saya ingin meminta bantuan banyak orang dan membukanya sebagai open source seperti ini. Saya harap banyak orang bisa dengan bebas menguji prompt baru menggunakan source code yang telah dibagikan, dan semoga bisa menemukan teknik prompt yang lebih maju!

7 komentar

 
wedding 2023-08-09

Proyek yang menarik ya~

 
kuber 2023-08-08

Bagaimana kalau ini didekati bukan sebagai soal memilih satu dari lima opsi, melainkan sebagai masalah klasifikasi dengan melihat masing-masing opsi sebagai True / False?

Jika dengan CoT setiap opsi dinilai secara independen apakah benar atau salah, lalu agent disusun dengan cara melihat dasar pemikiran dari kelima opsi itu dan pada akhirnya mengambil keputusan final, Anda bisa mendapatkan hasil dengan kualitas lebih tinggi bahkan dengan model yang levelnya lebih rendah.

Metode yang Anda susun saat ini mulai mengevaluasi dari opsi nomor 1, sehingga saat mengevaluasi opsi-opsi berikutnya akan muncul prasangka awal terhadap opsi sebelumnya. Salah satu alasan GPT-4 hebat adalah karena ketika modelnya cukup besar, prasangka semacam ini tidak terlalu berpengaruh, tetapi saya rasa saya pernah melihat di paper bahwa efek ini juga menurun ketika teks bacaan menjadi lebih panjang.
(Ini memang paper arXiv yang belum direview, tapi isinya cukup masuk akal.)

Tentu biaya API akan menjadi 6 kali lipat, tetapi menurut saya pribadi, kalau prompting-nya bagus, untuk level soal bahasa Korea CSAT sepertinya GPT-3.5 pun sudah cukup.

 
vkehfdl1 2023-08-09

Seperti yang Anda katakan, ketika lima opsi itu dinilai secara independen, ternyata bisa muncul kondisi di mana ada dua jawaban benar atau bahkan tidak ada sama sekali. Kalau begitu, perlu ditambahkan prompt lagi untuk menilai sambil melihat masing-masing jawaban benar dan penjelasannya.
Atau bisa juga untuk masing-masing dari lima pilihan itu dicoba prompt beberapa kali lalu pilihan yang paling sering terpilih sebagai jawaban dijadikan jawaban benar, tetapi seperti yang Anda katakan, biaya API akan makin membengkak seperti bola salju;; Bahkan dengan prompt saat ini saja, untuk 1 kali mengikuti CSAT biayanya sudah mencapai 4~5 dolar T_T

 
kuber 2023-08-09

Selamat datang di dunia engineering, tempat Anda juga harus memikirkan penghematan biaya wkwk

 
dohyun682 2023-08-08

Namanya memang "Slayer Evaluasi" ya wkwkwk

 
kuroneko 2023-08-08

Wah, menarik sekali.

Saya merasa prompt engineering berkembang sangat pesat sejak era Step by step.
(Dan entah apakah LLM open source dengan kemampuan bahasa Korea setara GPT-4 bisa muncul....)

 
vkehfdl1 2023-08-09

LLM open source berbahasa Korea masih jauh tertinggal bahkan dibanding GPT-3.5 T_T Saya sangat berharap LLM open source bisa mencapai level GPT-4.