TL;DR
- Ringkasan inti: Model yang di-fine-tune lebih akurat daripada model OpenAI, tetapi implementasi evaluasinya sulit.
- Poin utama: Banyak kode tersembunyi dalam proses fine-tuning dan kecepatan eksekusinya lambat. Tanpa sistem, kompleksitas pemeliharaan akan meningkat.
Memuat dataset
- Dataset: Menggunakan dataset uji dari repositori publik di Hugging Face Hub.
- Struktur dataset:
name, eventrefnumber, text, StartDate, eventtype, province, citydistrict, village, targetgroup, commander, position, minkilled, mincaptured, capturedcharacterisation, killedcharacterisation, killq, captureq, killcaptureraid, airstrike, noshotsfired, dataprocessed, flagged, glossarymeta, minleaderskilled, minfacilitatorskilled, minleaderscaptured, minfacilitatorscaptured, leaderq, dan lain-lain.
Menambahkan prediksi
- Menambahkan prediksi: Menambahkan hasil prediksi ke setiap baris dataset, lalu melakukannya secara berulang untuk menghindari langkah yang intensif secara komputasi.
- Menggunakan objek Pydantic: Menyusun data sebagai objek Pydantic untuk menangani validasi data dan fungsi kontrol kualitas.
Pengujian validitas JSON
- Hasil prediksi: Mengatur agar model menghasilkan string JSON sebagai output.
- Menggunakan model GPT: Melakukan prediksi dengan model GPT-4o dan GPT-4 Turbo.
- Masalah: Sulit melakukan perbandingan yang akurat karena model GPT tidak dilatih dengan prompt yang sama.
Prediksi asinkron
- Pemrosesan asinkron: Melakukan prediksi secara asinkron untuk menangani banyak event.
- Logika retry: Menambahkan logika retry dengan mempertimbangkan pembatasan laju pada model GPT-3.5-turbo.
Transformasi dan push dataset
- Transformasi dataset: Menambahkan hasil prediksi ke dataset lalu melakukan push ke Hugging Face Hub.
- Menggunakan fungsi: Menggunakan fungsi untuk berulang kali menjalankan proses transformasi dan push.
Menambahkan prediksi model yang di-fine-tune
- Model lokal: Menambahkan hasil prediksi dari model yang dilatih secara lokal ke dataset.
- Model OpenAI: Menambahkan hasil prediksi dari model yang dilatih menggunakan layanan fine-tuning sekali klik milik OpenAI.
- Berbagai model: Menambahkan hasil prediksi dari berbagai model seperti Mistral, Llama3, dan Solar LLM.
Evaluasi akhir
- Metrik evaluasi: Menggunakan berbagai metrik evaluasi seperti pengujian validitas JSON, akurasi tanggal mulai, akurasi per provinsi, akurasi kelompok target, dan akurasi jenis event.
- Hasil akhir: Model yang di-fine-tune menunjukkan akurasi yang lebih tinggi daripada model OpenAI.
Opini GN⁺
- Pentingnya fine-tuning: Fakta bahwa model yang di-fine-tune menunjukkan akurasi lebih tinggi daripada model dasar OpenAI menekankan pentingnya model yang disesuaikan untuk tugas tertentu.
- Kompleksitas evaluasi: Sulitnya implementasi evaluasi menunjukkan perlunya pendekatan yang lebih sistematis.
- Penggunaan berbagai model: Menarik bahwa evaluasi perbandingan dilakukan dengan berbagai model. Ini membantu memahami kelebihan dan kekurangan tiap model dengan lebih jelas.
- Pemanfaatan open source: Berguna bahwa dataset dikelola dan dibagikan dengan memanfaatkan platform open source seperti Hugging Face Hub.
- Perlunya pemrosesan asinkron: Menunjukkan bahwa pendekatan asinkron efisien saat menangani banyak data.
1 komentar
Komentar Hacker News