13 poin oleh xguru 2023-07-13 | 1 komentar | Bagikan ke WhatsApp
  • Prompt engineering mirip seperti alkimia: tidak ada cara yang jelas untuk memprediksi apa yang akan paling efektif
  • Satu-satunya cara untuk menemukan prompt yang paling tepat adalah dengan terus bereksperimen
  • gpt-prompt-engineer adalah alat yang membuat eksperimen ini jauh lebih mudah
  • Jika Anda menjelaskan tugas dan memberikan test case sederhana, sistem akan membuat, menguji, dan mengevaluasi beberapa prompt untuk menemukan prompt terbaik
  • Fitur yang disediakan
    • Pembuatan prompt: menghasilkan berbagai prompt menggunakan GPT-4 dan GPT-3.5-Turbo
    • Pengujian prompt: menguji setiap prompt berdasarkan test case, menghitung performanya, lalu memberi peringkat dengan sistem rating ELO
    • Sistem rating ELO: setiap prompt mulai dengan peringkat 1200 ELO, lalu bersaing satu sama lain dan berubah sesuai performa. Dengan ini, Anda dapat melihat prompt mana yang paling unggul
    • Versi Classification: notebook yang dirancang untuk tugas klasifikasi. Mengevaluasi akurasi tiap test case dan menampilkan skor setiap prompt dalam tabel
    • Weights & Biases Logging: mendukung logging nilai seperti temperature, token maksimum, prompt sistem/pengguna, test case, dan peringkat ELO akhir

Ringkasan oleh GN⁺

  • Prompt engineering adalah alkimia yang berpusat pada eksperimen.
  • gpt-prompt-engineer adalah alat yang membawa prompt engineering ke tingkat baru.
  • Alat ini menghasilkan prompt berdasarkan use case dan test case menggunakan GPT-4 dan GPT-3.5-Turbo.
  • Sistem menguji dan memberi peringkat prompt menggunakan sistem rating ELO.
  • Melalui sistem rating ELO, Anda dapat dengan mudah melihat prompt yang paling efektif.
  • gpt-prompt-engineer juga memiliki versi klasifikasi untuk menangani tugas klasifikasi.
  • Alat ini mengevaluasi akurasi test case dan memberikan skor untuk setiap prompt.
  • Logging opsional ke Weights & Biases memungkinkan pelacakan konfigurasi dan peringkat.
  • Untuk menggunakan gpt-prompt-engineer, Anda perlu membuka notebook di Google Colab atau Jupyter notebook lokal.
  • Tambahkan kunci OpenAI API dan pilih versi model yang sesuai.
  • Tentukan use case dan test case.
  • Pilih jumlah prompt yang akan dibuat.
  • Panggil fungsi yang sesuai untuk membuat dan menguji prompt.
  • Peringkat atau skor ELO akhir akan ditampilkan dalam tabel.
  • Kontribusi untuk proyek ini sangat disambut.
  • Proyek ini menggunakan lisensi MIT.
  • Untuk informasi lebih lanjut, hubungi Matt Shumer.

1 komentar

 
GN⁺ 2023-07-13
Opini Hacker News
  • Peringkat ditentukan bukan dengan benchmarking berdasarkan respons model yang sebenarnya, melainkan berdasarkan kemampuan GPT4 membayangkan performa prompt tersebut.
  • Popularitas alat ini di kalangan pengembang AI mungkin berasal dari daya tarik menggunakan LLM untuk mengevaluasi LLM, tetapi tidak ada jalan pintas untuk menilai performa dalam aplikasi nyata.
  • Prompt engineering tidak dianggap sebagai ilmu pasti seperti bidang engineering tradisional.
  • Ada kekhawatiran tentang biaya dan kesulitan menggunakan GPT-4 serta alat ini, dan apakah mengubah prompt setelah menemukan prompt optimal benar-benar bernilai.
  • Menghasilkan prompt untuk prompt engineering dapat dilihat sebagai bentuk meta-engineering.
  • Ada kekhawatiran tentang pengumpulan data pengguna oleh GPT-Engineer dan motif di baliknya.
  • Sebagian orang menyarankan menggunakan GPT untuk membuat prompt agar input manusia bisa dikurangi lebih jauh.
  • Artikel tersebut tidak menjelaskan bagaimana peringkat prompt ditentukan.