- Makalah baru "s1: Simple test-time scaling" yang dirilis pada 3 Februari sedang menjadi pembicaraan di bidang AI
- Poin pentingnya bukan pada model itu sendiri, melainkan pada fakta bahwa ini mengisyaratkan kemungkinan terjadinya kemajuan besar di bidang AI
- Model ini belum mencapai tingkat teknologi terkini (SOTA), tetapi merupakan model kecil yang bahkan bisa dijalankan di laptop
- Yang penting, model ini membantu memahami bagaimana teknik ini bekerja tanpa isi yang rumit
Penskalaan inferensi: "Tunggu" untukku!
- OpenAI mengklaim bahwa “semakin lama waktu penalaran, semakin baik performa LLM” sambil menampilkan grafik
- Pada dasarnya, jika LLM bisa "berpikir" lebih lama, performanya bisa lebih tinggi
- Masalahnya adalah bagaimana mengendalikan model agar bisa "berpikir" lebih lama sebelum menjawab, dan penjelasan tentang cara melakukannya masih kurang
- Makalah s1 menjelaskan bagian ini secara rinci, dan cukup menarik
> Saat LLM "berpikir" ketika melakukan penalaran, proses berpikir internal model disimpan di dalam tag <think> dan </think>, lalu ketika </think> muncul, model dilatih untuk mengubah suaranya menjadi nada yang percaya diri dan berwibawa untuk jawaban akhir
- Makalah s1 menjelaskan teknik sederhana untuk memaksa
"</think>" diganti menjadi "Wait" agar model "merenung" lebih lama
- Dengan menghapus atau mengganti
"</think>", model diarahkan untuk terus melanjutkan pemikiran
- Inferensi juga bisa dipotong singkat dengan cara tiba-tiba menyisipkan
"</think>"
- Melalui cara seperti ini, diperkirakan model seperti o3-mini-low dan o3-mini-high dilatih agar memiliki rata-rata waktu penalaran yang berbeda
- Kemungkinan mereka melatih 3 model, masing-masing dengan rata-rata waktu berpikir yang berbeda (diukur selama pelatihan)
- Pada akhirnya, proses pelatihan mulai mengenkode perilaku itu ke dalam bobot model
Keterkaitan dengan Entropix
- Teknik "Wait" yang diperkenalkan di makalah s1 tidak jauh berbeda dari pendekatan yang dikejar Entropix
- Entropix adalah teknik yang mengubah cara pemilihan token dengan melihat entropi logit dan attention, serta varentropy
- Tampaknya ada upaya untuk membuat model mempertimbangkan kembali jawabannya melalui token seperti "Wait"
- Pendekatan seperti ini diperkirakan bisa diterapkan baik pada saat inferensi maupun saat pelatihan
Penghematan data ekstrem (Extreme Data Frugality)
- Alasan model s1 diklaim dikembangkan hanya dengan biaya 6 dolar adalah karena ia dilatih dengan model kecil dan data dalam jumlah sedikit
- Prosesnya dilakukan dengan memilih hanya 1K data paling bernilai dari 56K contoh data
- Kesimpulannya, data tambahan sama sekali tidak meningkatkan performa model
- Karena ukurannya 32B, model ini bahkan bisa dijalankan di laptop
- Model ini menggunakan 16 NVIDIA H100 selama sekitar 26 menit, dan biayanya diperkirakan sekitar 6 dolar
- Karena biayanya rendah, banyak eksperimen (ablations) bisa dicoba, dan memang dilakukan pelatihan ulang penuh berulang kali sambil sedikit mengubah berbagai variabel
- Contoh: mengukur langsung token mana yang lebih efektif antara "Wait" dan "Hmm"
- Juga diuji bagian mana dari data contoh inti yang memberikan sinyal paling bermakna
Implikasi geopolitik
- Ada pandangan bahwa AI terkait erat dengan keamanan nasional
- Dari sinilah asal alasan perusahaan seperti OpenAI dan Anthropic menggelontorkan anggaran besar
- Meski inovasi pengurangan biaya seperti s1 telah muncul, penting juga bahwa dengan modal besar, jauh lebih banyak percobaan bisa dijalankan secara bersamaan
- Ada juga argumen bahwa investasi yang lebih besar diperlukan untuk semakin mempercepat laju perkembangan AI
Distealing (distilasi model tanpa izin)
- Dataset s1 pada dasarnya adalah hasil distilasi yang memanfaatkan thought trace dari model lain (Qwen2.5)
- OpenAI mencurigai DeepSeek melakukan distilasi tanpa izin terhadap model o1 miliknya untuk membuat model V3
- Namun, pada kenyataannya semakin sulit untuk mencegah praktik distilasi
- Sekitar 1.000 contoh adalah jumlah yang cukup realistis untuk dikumpulkan oleh individu
- Alasan OpenAI belakangan merilis model o3 dalam bentuk agen alih-alih mendistribusikannya secara langsung juga tampak sebagai upaya untuk mencegah distilasi tanpa izin seperti ini
Kesimpulan
- Kemunculan s1 adalah contoh yang menunjukkan seberapa cepat AI berevolusi di ranah terbuka
- Perusahaan seperti OpenAI dan Anthropic sangat mungkin mencapai kemajuan yang lebih cepat dengan memanfaatkan sumber daya komputasi yang jauh lebih besar
- s1 bukan sekadar menyalin R1 atau o1, melainkan menunjukkan bahwa bahkan hanya dengan SFT (Supervised Fine Tuning), bukan RL, kemungkinan serupa bisa dibuka
- Ada pandangan bahwa inovasi yang lebih besar dapat diharapkan pada 2025
2 komentar
Permainan kata yang memelesetkan
DistillationmenjadiDistealingitu lucu ya!Opini Hacker News
Menarik melihat perluasan penalaran melalui peretasan 'Wait'. Terasa seperti perkembangan ilmu komputer mirip mengucapkan mantra, karena metode sederhana bisa memengaruhi performa. Saya jadi penasaran bagaimana cara mulai berpikir seperti ini
Jika alur pemikiran memberi model 'layer' sementara yang berperan sebagai buffer untuk memproses teks, saya penasaran apakah masuk akal menjadikan buffer ini sebagai konteks terpisah dengan FNN dan mekanisme perhatian tersendiri. Ini dapat digabungkan dengan mikroproses yang dijelaskan dalam bahasa alami untuk memberikan representasi 'pemikiran' yang lebih padat
CoT adalah teknik yang sudah dikenal luas, tetapi DeepSeek berfokus mencari optimasi memori, bandwidth, dan paralelisme karena keterbatasan komputasi. Optimasi mereka di tingkat infrastruktur dan perangkat lunak patut diperhatikan
Saya rasa benchmark saat ini belum cukup kuat, dan lab riset LLM di AS kemungkinan menyadari kurangnya optimasi infrastruktur dan perangkat keras. Tingkat RL dan pelatihan induk akan menjadi semakin penting
Menarik bahwa metode yang dieksperimenkan lewat peretasan AI juga digunakan di lab. Saya menggunakan cara menggantinya dengan 'Okay' agar R1 terus berpikir
Saya sudah mem-bookmark blog Tim. Perkembangan di bidang AI dan jaringan saraf sangat mengejutkan. Secara pribadi saya kesulitan membuat agen berbasis LLM dengan model on-device yang lemah
Memiliki 10.000 H100 berarti bisa melakukan eksperimen 625 kali lebih banyak daripada S1. Perusahaan besar cenderung menyia-nyiakan sumber daya komputasi
Menarik melihat cara mengendalikan panjang output model penalaran. Mereka menemukan cara menyuntikkan CoT dan membuat jailbreak lebih mudah dengan menggantinya menjadi 'Wait'
Memberikan tautan ke makalah asli tentang S1
Dalam organisasi besar, sulit melakukan banyak eksperimen, dan karyawan fokus menghasilkan hasil dengan cepat. Pekerjaan didorong terburu-buru demi keuntungan jangka pendek
Membentuk output LLM itu seperti membuat patung. Model harus dimasukkan ke dalam game loop dan diajak berinteraksi di setiap tick untuk mendapatkan hasil yang diinginkan. Haus akan sumber daya komputasi akan terus berlanjut