Cara menurunkan biaya AI dari $100 per hari menjadi $1: Fine-tuning Mixtral menggunakan GPT-4

xguru · 2024-01-23T10:11:02+09:00

Membuat aplikasi eksplorasi karier berbasis AI, lalu saat pertumbuhannya meledak, biaya GPT-4 mulai melebihi $100 per hari Metode yang digunakan untuk menurunkan biaya AI hingga 99% sambil mengurangi latensi dan mempertahankan kualitas Menggunakan model paling kuat (GPT-4) untuk menghasilkan output, lalu memakai hasil tersebut untuk melakukan fine-tuning pada model yang lebih kecil Menyimpan permintaan/respons AI agar mudah diekspor. Menggunakan Helicone AI. Cukup mengganti OpenAI API apa adanya, lalu permintaan AI akan disimpan ke tabel Setelah sekitar 100~500 pasangan permintaan/respons tersimpan, ekspor lalu kurasi datanya dengan kualitas yang baik Menggunakan dataset ini untuk melakukan fine-tuning Mixtral 8x7B melalui layanan hosting seperti Together/Anyscale Mengganti GPT-4 dengan model yang baru di-fine-tuning

(twitter.com/wenquai)

22 poin oleh xguru 2024-01-23 | 4 komentar | Bagikan ke WhatsApp

Membuat aplikasi eksplorasi karier berbasis AI, lalu saat pertumbuhannya meledak, biaya GPT-4 mulai melebihi $100 per hari
Metode yang digunakan untuk menurunkan biaya AI hingga 99% sambil mengurangi latensi dan mempertahankan kualitas
- Menggunakan model paling kuat (GPT-4) untuk menghasilkan output, lalu memakai hasil tersebut untuk melakukan fine-tuning pada model yang lebih kecil
- Menyimpan permintaan/respons AI agar mudah diekspor. Menggunakan Helicone AI. Cukup mengganti OpenAI API apa adanya, lalu permintaan AI akan disimpan ke tabel
- Setelah sekitar 100~500 pasangan permintaan/respons tersimpan, ekspor lalu kurasi datanya dengan kualitas yang baik
- Menggunakan dataset ini untuk melakukan fine-tuning Mixtral 8x7B melalui layanan hosting seperti Together/Anyscale
- Mengganti GPT-4 dengan model yang baru di-fine-tuning

4 komentar

kuroneko 2024-01-23

Jadi ini berarti keduanya melanggar ketentuan GPT-4 dan lisensi Mixtral...?_@

xguru 2024-01-23

Sepertinya memang begitu. Karena ini tidak terlihat secara jelas, banyak orang tampaknya berpikir seperti itu.

kuroneko 2024-01-23

Ada yang sudah dipakai diam-diam atau dirilis untuk keperluan riset,

but kalau sampai terang-terangan dipromosikan dengan bilang, "kami memakainya!", ini memang agak... menarik ya.

Jangan-jangan nanti kena masalah...?

xguru 2024-01-23

Komentar Hacker News

Sebagian besar perusahaan teknologi, di luar riset inti, selama setidaknya setengah tahun menggunakan GPT-4 atau 3.5 untuk menghasilkan data pelatihan, lalu melakukan fine-tuning QLoRA berdasarkan itu dan merilisnya sebagai model AI "milik sendiri". Pihak manajemen mengklaim pencapaian besar dan mengatakan perusahaannya adalah pemimpin di bidang AI "industri tertentu". Proses ini hampir tidak membutuhkan pengetahuan tentang machine learning, dan bisa dilakukan dengan biaya cloud computing di bawah $1.000. Namun dalam pekerjaan nyata, hasilnya setara tingkat GPT-3.5, dan terutama jika menggunakan cloud GPU, sulit bersaing dengan GPT-3.5 dari sisi biaya.
Saya memeriksa aplikasi Wanderer milik orang ini, dan sangat mencurigakan karena tidak ada ketentuan layanan, kebijakan privasi, harga yang jelas, maupun penyebutan AI sama sekali. Pendekatan yang menggunakan GPT-4 bagus untuk membuat model tampak secerdas GPT-4, tetapi pada saat yang benar-benar penting akan terlihat bahwa model itu lebih inferior.
Menurut dokumentasi Together.ai, Mixtral tidak dapat digunakan untuk fine-tuning, dan tampaknya model yang sudah di-fine-tune juga tidak dijalankan secara serverless. Ini mengindikasikan ceritanya tidak konsisten.
Terlepas dari masalah etika dan syarat yang terbatas, mungkin GPT-4 tidak diperlukan untuk apa yang dilakukan penulis. Seberapa jauh akan lebih buruk atau lebih sulit jika menggunakan Mixtral atau 3.5 untuk membuat 100 pasangan prompt-jawaban awal yang bagus lalu disesuaikan secara manual oleh penulis?
Saya sedang mengembangkan aplikasi proyek sampingan yang menggunakan AI untuk merangkum konten dalam skala besar, dan berharap ini bisa menjadi SaaS yang menghasilkan pendapatan. Untuk rilis cepat saya berencana memakai OpenAI untuk sementara, tetapi nantinya saya memperkirakan akan mungkin, baik secara ekonomi maupun teknis, untuk berpindah ke opsi LLM self-hosted. Jika ada yang punya pengalaman terkait ini, mungkin bisa membagikan tips atau trik.
Saya bertanya-tanya apakah ini tidak melanggar ketentuan layanan OpenAI.
Ada permintaan agar dijelaskan bagaimana biayanya bisa turun menjadi $1. GPT-4 diganti dengan versi ter-tuning dari Mixtral 8x7b, tetapi ini memerlukan beberapa GPU. Bahkan jika modelnya dikuantisasi sendiri, tetap ada biaya perangkat keras dan infrastruktur, dan itu akan melebihi $1. Apakah ini mungkin dijalankan dengan self-hosting?
Ada penyebutan metodologi distilasi pengetahuan klasik. Di sini diklaim bahwa 8x7b tidak akan diperlukan untuk fine-tuning, dan bahwa model phi-2 atau phixtral akan segera cukup kuat untuk domain-domain seperti ini.
Bahkan tanpa perubahan apa pun, saya mendapatkan hasil yang sangat bagus dengan openhermes 7b chat, yang mencakup 90% use case GPT-4 dan berjalan cepat. Direkomendasikan.

Cara menurunkan biaya AI dari $100 per hari menjadi $1: Fine-tuning Mixtral menggunakan GPT-4

Bacaan terkait

4 komentar

Komentar Hacker News