S1: Penantang R1 seharga $6?

(timkellogg.me)

14 poin oleh GN⁺ 2025-02-06 | 2 komentar | Bagikan ke WhatsApp

Makalah baru "s1: Simple test-time scaling" yang dirilis pada 3 Februari sedang menjadi pembicaraan di bidang AI
Poin pentingnya bukan pada model itu sendiri, melainkan pada fakta bahwa ini mengisyaratkan kemungkinan terjadinya kemajuan besar di bidang AI
Model ini belum mencapai tingkat teknologi terkini (SOTA), tetapi merupakan model kecil yang bahkan bisa dijalankan di laptop
Yang penting, model ini membantu memahami bagaimana teknik ini bekerja tanpa isi yang rumit

Penskalaan inferensi: "Tunggu" untukku!

OpenAI mengklaim bahwa “semakin lama waktu penalaran, semakin baik performa LLM” sambil menampilkan grafik
Pada dasarnya, jika LLM bisa "berpikir" lebih lama, performanya bisa lebih tinggi
Masalahnya adalah bagaimana mengendalikan model agar bisa "berpikir" lebih lama sebelum menjawab, dan penjelasan tentang cara melakukannya masih kurang
Makalah s1 menjelaskan bagian ini secara rinci, dan cukup menarik
> Saat LLM "berpikir" ketika melakukan penalaran, proses berpikir internal model disimpan di dalam tag <think> dan </think>, lalu ketika </think> muncul, model dilatih untuk mengubah suaranya menjadi nada yang percaya diri dan berwibawa untuk jawaban akhir
Makalah s1 menjelaskan teknik sederhana untuk memaksa "</think>" diganti menjadi "Wait" agar model "merenung" lebih lama
- Dengan menghapus atau mengganti "</think>", model diarahkan untuk terus melanjutkan pemikiran
- Inferensi juga bisa dipotong singkat dengan cara tiba-tiba menyisipkan "</think>"
Melalui cara seperti ini, diperkirakan model seperti o3-mini-low dan o3-mini-high dilatih agar memiliki rata-rata waktu penalaran yang berbeda
- Kemungkinan mereka melatih 3 model, masing-masing dengan rata-rata waktu berpikir yang berbeda (diukur selama pelatihan)
- Pada akhirnya, proses pelatihan mulai mengenkode perilaku itu ke dalam bobot model

Keterkaitan dengan Entropix

Teknik "Wait" yang diperkenalkan di makalah s1 tidak jauh berbeda dari pendekatan yang dikejar Entropix
Entropix adalah teknik yang mengubah cara pemilihan token dengan melihat entropi logit dan attention, serta varentropy
- Tampaknya ada upaya untuk membuat model mempertimbangkan kembali jawabannya melalui token seperti "Wait"
Pendekatan seperti ini diperkirakan bisa diterapkan baik pada saat inferensi maupun saat pelatihan

Penghematan data ekstrem (Extreme Data Frugality)

Alasan model s1 diklaim dikembangkan hanya dengan biaya 6 dolar adalah karena ia dilatih dengan model kecil dan data dalam jumlah sedikit
Prosesnya dilakukan dengan memilih hanya 1K data paling bernilai dari 56K contoh data
- Kesimpulannya, data tambahan sama sekali tidak meningkatkan performa model
Karena ukurannya 32B, model ini bahkan bisa dijalankan di laptop
Model ini menggunakan 16 NVIDIA H100 selama sekitar 26 menit, dan biayanya diperkirakan sekitar 6 dolar
Karena biayanya rendah, banyak eksperimen (ablations) bisa dicoba, dan memang dilakukan pelatihan ulang penuh berulang kali sambil sedikit mengubah berbagai variabel
- Contoh: mengukur langsung token mana yang lebih efektif antara "Wait" dan "Hmm"
- Juga diuji bagian mana dari data contoh inti yang memberikan sinyal paling bermakna

Implikasi geopolitik

Ada pandangan bahwa AI terkait erat dengan keamanan nasional
Dari sinilah asal alasan perusahaan seperti OpenAI dan Anthropic menggelontorkan anggaran besar
Meski inovasi pengurangan biaya seperti s1 telah muncul, penting juga bahwa dengan modal besar, jauh lebih banyak percobaan bisa dijalankan secara bersamaan
Ada juga argumen bahwa investasi yang lebih besar diperlukan untuk semakin mempercepat laju perkembangan AI

Distealing (distilasi model tanpa izin)

Dataset s1 pada dasarnya adalah hasil distilasi yang memanfaatkan thought trace dari model lain (Qwen2.5)
OpenAI mencurigai DeepSeek melakukan distilasi tanpa izin terhadap model o1 miliknya untuk membuat model V3
Namun, pada kenyataannya semakin sulit untuk mencegah praktik distilasi
- Sekitar 1.000 contoh adalah jumlah yang cukup realistis untuk dikumpulkan oleh individu
Alasan OpenAI belakangan merilis model o3 dalam bentuk agen alih-alih mendistribusikannya secara langsung juga tampak sebagai upaya untuk mencegah distilasi tanpa izin seperti ini

Kesimpulan

Kemunculan s1 adalah contoh yang menunjukkan seberapa cepat AI berevolusi di ranah terbuka
Perusahaan seperti OpenAI dan Anthropic sangat mungkin mencapai kemajuan yang lebih cepat dengan memanfaatkan sumber daya komputasi yang jauh lebih besar
s1 bukan sekadar menyalin R1 atau o1, melainkan menunjukkan bahwa bahkan hanya dengan SFT (Supervised Fine Tuning), bukan RL, kemungkinan serupa bisa dibuka
Ada pandangan bahwa inovasi yang lebih besar dapat diharapkan pada 2025

2 komentar

hoonix 2025-02-06

Permainan kata yang memelesetkan Distillation menjadi Distealing itu lucu ya!

GN⁺ 2025-02-06

Opini Hacker News

Menarik melihat perluasan penalaran melalui peretasan 'Wait'. Terasa seperti perkembangan ilmu komputer mirip mengucapkan mantra, karena metode sederhana bisa memengaruhi performa. Saya jadi penasaran bagaimana cara mulai berpikir seperti ini
Jika alur pemikiran memberi model 'layer' sementara yang berperan sebagai buffer untuk memproses teks, saya penasaran apakah masuk akal menjadikan buffer ini sebagai konteks terpisah dengan FNN dan mekanisme perhatian tersendiri. Ini dapat digabungkan dengan mikroproses yang dijelaskan dalam bahasa alami untuk memberikan representasi 'pemikiran' yang lebih padat
CoT adalah teknik yang sudah dikenal luas, tetapi DeepSeek berfokus mencari optimasi memori, bandwidth, dan paralelisme karena keterbatasan komputasi. Optimasi mereka di tingkat infrastruktur dan perangkat lunak patut diperhatikan
Saya rasa benchmark saat ini belum cukup kuat, dan lab riset LLM di AS kemungkinan menyadari kurangnya optimasi infrastruktur dan perangkat keras. Tingkat RL dan pelatihan induk akan menjadi semakin penting
Menarik bahwa metode yang dieksperimenkan lewat peretasan AI juga digunakan di lab. Saya menggunakan cara menggantinya dengan 'Okay' agar R1 terus berpikir
Saya sudah mem-bookmark blog Tim. Perkembangan di bidang AI dan jaringan saraf sangat mengejutkan. Secara pribadi saya kesulitan membuat agen berbasis LLM dengan model on-device yang lemah
Memiliki 10.000 H100 berarti bisa melakukan eksperimen 625 kali lebih banyak daripada S1. Perusahaan besar cenderung menyia-nyiakan sumber daya komputasi
Menarik melihat cara mengendalikan panjang output model penalaran. Mereka menemukan cara menyuntikkan CoT dan membuat jailbreak lebih mudah dengan menggantinya menjadi 'Wait'
Memberikan tautan ke makalah asli tentang S1
Dalam organisasi besar, sulit melakukan banyak eksperimen, dan karyawan fokus menghasilkan hasil dengan cepat. Pekerjaan didorong terburu-buru demi keuntungan jangka pendek
Membentuk output LLM itu seperti membuat patung. Model harus dimasukkan ke dalam game loop dan diajak berinteraksi di setiap tick untuk mendapatkan hasil yang diinginkan. Haus akan sumber daya komputasi akan terus berlanjut

S1: Penantang R1 seharga $6?

Penskalaan inferensi: "Tunggu" untukku!

Keterkaitan dengan Entropix

Penghematan data ekstrem (Extreme Data Frugality)

Implikasi geopolitik

Distealing (distilasi model tanpa izin)

Kesimpulan

Bacaan terkait

2 komentar

Opini Hacker News