1 poin oleh GN⁺ 2024-07-02 | 1 komentar | Bagikan ke WhatsApp

TL;DR

  • Ringkasan inti: Model yang di-fine-tune lebih akurat daripada model OpenAI, tetapi implementasi evaluasinya sulit.
  • Poin utama: Banyak kode tersembunyi dalam proses fine-tuning dan kecepatan eksekusinya lambat. Tanpa sistem, kompleksitas pemeliharaan akan meningkat.

Memuat dataset

  • Dataset: Menggunakan dataset uji dari repositori publik di Hugging Face Hub.
  • Struktur dataset: name, eventrefnumber, text, StartDate, eventtype, province, citydistrict, village, targetgroup, commander, position, minkilled, mincaptured, capturedcharacterisation, killedcharacterisation, killq, captureq, killcaptureraid, airstrike, noshotsfired, dataprocessed, flagged, glossarymeta, minleaderskilled, minfacilitatorskilled, minleaderscaptured, minfacilitatorscaptured, leaderq, dan lain-lain.

Menambahkan prediksi

  • Menambahkan prediksi: Menambahkan hasil prediksi ke setiap baris dataset, lalu melakukannya secara berulang untuk menghindari langkah yang intensif secara komputasi.
  • Menggunakan objek Pydantic: Menyusun data sebagai objek Pydantic untuk menangani validasi data dan fungsi kontrol kualitas.

Pengujian validitas JSON

  • Hasil prediksi: Mengatur agar model menghasilkan string JSON sebagai output.
  • Menggunakan model GPT: Melakukan prediksi dengan model GPT-4o dan GPT-4 Turbo.
  • Masalah: Sulit melakukan perbandingan yang akurat karena model GPT tidak dilatih dengan prompt yang sama.

Prediksi asinkron

  • Pemrosesan asinkron: Melakukan prediksi secara asinkron untuk menangani banyak event.
  • Logika retry: Menambahkan logika retry dengan mempertimbangkan pembatasan laju pada model GPT-3.5-turbo.

Transformasi dan push dataset

  • Transformasi dataset: Menambahkan hasil prediksi ke dataset lalu melakukan push ke Hugging Face Hub.
  • Menggunakan fungsi: Menggunakan fungsi untuk berulang kali menjalankan proses transformasi dan push.

Menambahkan prediksi model yang di-fine-tune

  • Model lokal: Menambahkan hasil prediksi dari model yang dilatih secara lokal ke dataset.
  • Model OpenAI: Menambahkan hasil prediksi dari model yang dilatih menggunakan layanan fine-tuning sekali klik milik OpenAI.
  • Berbagai model: Menambahkan hasil prediksi dari berbagai model seperti Mistral, Llama3, dan Solar LLM.

Evaluasi akhir

  • Metrik evaluasi: Menggunakan berbagai metrik evaluasi seperti pengujian validitas JSON, akurasi tanggal mulai, akurasi per provinsi, akurasi kelompok target, dan akurasi jenis event.
  • Hasil akhir: Model yang di-fine-tune menunjukkan akurasi yang lebih tinggi daripada model OpenAI.

Opini GN⁺

  1. Pentingnya fine-tuning: Fakta bahwa model yang di-fine-tune menunjukkan akurasi lebih tinggi daripada model dasar OpenAI menekankan pentingnya model yang disesuaikan untuk tugas tertentu.
  2. Kompleksitas evaluasi: Sulitnya implementasi evaluasi menunjukkan perlunya pendekatan yang lebih sistematis.
  3. Penggunaan berbagai model: Menarik bahwa evaluasi perbandingan dilakukan dengan berbagai model. Ini membantu memahami kelebihan dan kekurangan tiap model dengan lebih jelas.
  4. Pemanfaatan open source: Berguna bahwa dataset dikelola dan dibagikan dengan memanfaatkan platform open source seperti Hugging Face Hub.
  5. Perlunya pemrosesan asinkron: Menunjukkan bahwa pendekatan asinkron efisien saat menangani banyak data.

1 komentar

 
GN⁺ 2024-07-02
Komentar Hacker News
  • Pendiri OpenPipe: ekstraksi data adalah bidang yang sangat unggul untuk model fine-tuning. Menurut riset OpenPipe, model Llama 3 8B melampaui GPT-4 pada banyak tugas. Hal yang penting adalah cara menghasilkan data pelatihan berkualitas tinggi
  • Model kecil yang terspesialisasi menunjukkan kinerja lebih baik dalam ekstraksi informasi dan klasifikasi teks. Ingin melihat riset yang juga mencakup performa model kecil
  • Persamaan pada sistem yang tidak ditentukan memiliki solusi tak hingga. Dengan menggunakan model AI open source, kita bisa melampaui benchmark SOTA. Dengan teknologi saat ini, kita belum bisa membuat sistem yang benar-benar cerdas, dan diperlukan terobosan baru
  • Ekstraksi dan penataan data adalah satu-satunya aplikasi LLM yang benar-benar serius dan berguna dalam pekerjaan nyata. Model kecil lebih cepat dan lebih murah, serta cocok untuk pekerjaan offline. Eksperimen lebih banyak dan fine-tuning yang spesifik juga dimungkinkan
  • Itulah memang tujuan dari model fine-tuning. Menarik melihat proses fine-tuning yang menggabungkan opsi hosting dan lokal
  • Ingin melihat contoh saat GPT-4 tidak akurat dan contoh saat model terbaik justru akurat. Mencoba lagi dengan temperatur 0 juga akan bagus. Temperatur 0 bisa membuat perbedaan besar dalam ekstraksi data terstruktur
  • Saya pernah menulis makalah tentang topik serupa: tautan makalah
  • Di Predibase, kami melakukan lebih dari 700 eksperimen fine-tuning dan membandingkannya dengan GPT-4. Dalam 85% kasus, hasilnya melampaui GPT-4. Hasilnya bisa dilihat di sini
  • Semua model sebaiknya dijadikan open source sebanyak mungkin. Demi kebebasan dan kualitas, open source umumnya lebih baik
  • Bagian kontroversial dalam artikel berita target mungkin dapat memengaruhi kemampuan peringkasan ChatGPT